打字猴:1.70050811e+09
1700508110 对于构造一层“决策树”来说,引入哪个字段最为合理,完全取决于这个维度带来的信息增益——也就是熵减的大小。熵减越大,就说明这个维度对于分类的划分越有利。在这个环节,经典的算法有ID3、C4.5和CART。
1700508111
1700508112
1700508113
1700508114
1700508115 ID3直接对各个维度的信息增益进行计算,选择信息增益最大的维度作为决策点,将集合分成两部分,然后在第二层继续选择剩余维度中信息增益最大的作为决策点,如此一层一层构造下去。随着层数增多,信息熵逐渐减少,这个过程就是求解过程。
1700508116
1700508117
1700508118
1700508119
1700508120 C4.5和ID3的流程看上去没有本质的区别,都是在寻找信息熵逐渐减小的路径。不过,ID3的算法导致它倾向于使用取值较多的维度。而C4.5就没有这个问题,它使用信息增益比来代替信息。
1700508121
1700508122
1700508123
1700508124
1700508125 CART(Classification and Regression Tree)则使用标准的二叉树,在节点裂解的时候使用基尼系数进行计算。基尼系数的含义与信息熵的含义类似,是用来量化纯度的。混杂度越高,基尼系数就越高。通过计算,得到使基尼系数降低幅度最大的维度作为裂解所使用的维度。
1700508126
1700508127 最后,通过剪枝法对生成的树模型进行修正,分为“前剪枝”和“后剪枝”两大类方法。
1700508128
1700508129 前剪枝是指在应用所有的维度条件之前就终止树的生成的方法,只要目前的树的层数和分类的不纯度都已经逼近业务场景能够接受的极限就可以了。
1700508130
1700508131 后剪枝是指在决策树构造完成后对树进行修剪,主要目的是消除过拟合。常见的算法有降低错误剪枝(Reduced Error Pruning,REP)、悲观错误剪枝(Pessimistic Error Pruning,PEP)、基于错误剪枝(Error-Based Pruning,EBP)、代价-复杂度剪枝(Cost-Complexity Pruning,CCP)、最小错误剪枝(Minimum Error Pruning,MEP)等。
1700508132
1700508133 这些剪枝方法各有优缺点,总体来说是在降低过拟合程度这个环节上平衡算法复杂性和精确度改善这对矛盾,这里也可能产生过拟合现象。因为只要引入的样本不够多,就有产生过拟合的风险,所以在验证集上进行验证后,强烈建议使用后剪枝方法。
1700508134
1700508135 4.支持向量机
1700508136
1700508137 支持向量机(Support Vector Machine,SVM)是机器学习分类模型中适用范围比较广的一种算法。
1700508138
1700508139 在用支持向量机求解分类问题的过程中有这样一个视角,就是在多维空间中找到一个平面,使训练集中的两类多维向量与这个平面的距离最大化。而每个向量到平面的距离之和最大化的问题,可以转化为一个等价的凸函数,将其作为损失函数最小化的问题求解——仍然是凸优化问题。
1700508140
1700508141 例如,给定一个训练数据集
1700508142
1700508143
1700508144
1700508145
1700508146 xi是一个m维向量,yi是分类标签。为了讨论方便,这里使用 {+1,-1} 来表示其取值。使用支持向量机进行训练的目的实际上是在m维空间中找到一个可以分离两类向量的超平面。
1700508147
1700508148 这个超平面的定义为方程
1700508149
1700508150 wx+b=0
1700508151
1700508152 x是一个m维的向量,或表示成一个m ×1的矩阵。w是一个1× m的矩阵。b是一个实数。
1700508153
1700508154 分类的决策函数是
1700508155
1700508156
1700508157
1700508158
1700508159 也称作“线性可分支持向量机”。
[ 上一页 ]  [ :1.70050811e+09 ]  [ 下一页 ]