打字猴:1.700508132e+09
1700508132
1700508133 这些剪枝方法各有优缺点,总体来说是在降低过拟合程度这个环节上平衡算法复杂性和精确度改善这对矛盾,这里也可能产生过拟合现象。因为只要引入的样本不够多,就有产生过拟合的风险,所以在验证集上进行验证后,强烈建议使用后剪枝方法。
1700508134
1700508135 4.支持向量机
1700508136
1700508137 支持向量机(Support Vector Machine,SVM)是机器学习分类模型中适用范围比较广的一种算法。
1700508138
1700508139 在用支持向量机求解分类问题的过程中有这样一个视角,就是在多维空间中找到一个平面,使训练集中的两类多维向量与这个平面的距离最大化。而每个向量到平面的距离之和最大化的问题,可以转化为一个等价的凸函数,将其作为损失函数最小化的问题求解——仍然是凸优化问题。
1700508140
1700508141 例如,给定一个训练数据集
1700508142
1700508143
1700508144
1700508145
1700508146 xi是一个m维向量,yi是分类标签。为了讨论方便,这里使用 {+1,-1} 来表示其取值。使用支持向量机进行训练的目的实际上是在m维空间中找到一个可以分离两类向量的超平面。
1700508147
1700508148 这个超平面的定义为方程
1700508149
1700508150 wx+b=0
1700508151
1700508152 x是一个m维的向量,或表示成一个m ×1的矩阵。w是一个1× m的矩阵。b是一个实数。
1700508153
1700508154 分类的决策函数是
1700508155
1700508156
1700508157
1700508158
1700508159 也称作“线性可分支持向量机”。
1700508160
1700508161
1700508162 以二维空间的向量为例,最后希望用如图11-34所示的方式找到超平面wx+b=0,其中需要学习的就是w和b。在这里有一个假设,就是在分类正确的情况下距离超平面越远的点其确信程度越高,也就是在超平面方程wx+b=0给定的情况下,可以使用一个间隔函数个向量到超平面的距离。
1700508163
1700508164
1700508165
1700508166
1700508167 图11-34 二维空间向量超平面
1700508168
1700508169 某个向量点xi到超平面的距离用欧氏距离(Euclidean Metric)表示,可以写作
1700508170
1700508171
1700508172
1700508173
1700508174 根据yi取值的特点,可以写作
1700508175
1700508176
1700508177
1700508178
1700508179 因此也叫作“几何间隔”。其中,||w||叫作“范数”,在欧式空间中的欧式范数定义为
1700508180
1700508181
[ 上一页 ]  [ :1.700508132e+09 ]  [ 下一页 ]