打字猴:1.70050819e+09
1700508190
1700508191 也叫作“函数间隔”。
1700508192
1700508193 定义一个训练集中的样本点到超平面wx+b=0几何距离最小的点
1700508194
1700508195
1700508196
1700508197
1700508198 所以,现在的问题就变成了怎样让γ最大化。
1700508199
1700508200 支持向量机学习的基本思路是,找到能够正确划分训练数据集且几何间隔最大的分离超平面。对线性可分的训练数据集来说,线性可分的分离超平面有无穷多个,但是几何间隔最大的分离超平面是唯一的。
1700508201
1700508202 “间隔最大化”又称“硬间隔最大化”,其直观解释是:对训练数据集找到几何间隔最大的超平面,意味着以充分大的确信度对训练数据进行分类,对最贴近超平面的点也有足够大的确信度将它们分开,以保证获得很好的分类预测能力。
1700508203
1700508204 在线性可分的情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为“支持向量”(Support Vector,如图11-34所示用圆圈标出的五角星和圆点)。
1700508205
1700508206 在SVM进行训练的过程中,会使用一种叫作“Hinge Loss”(也译作“合页损失函数”)的函数来充当损失函数。这个函数写作
1700508207
1700508208
1700508209
1700508210
1700508211
1700508212
1700508213
1700508214
1700508215
1700508216
1700508217
1700508218
1700508219
1700508220
1700508221
1700508222 前半部分很容易理解:如果分类预测与训练时的分类一致,其值就是的值就是0;相反,如果分类预测与训练时的分类不一致,其值就是的值就是1。后半部分叫作正则化项,λ是系数,叫作w的L2范数(实际上就是)。
1700508223
1700508224
1700508225
1700508226 正则化项在很多机器学习损失函数中都可以看到,这是一种为了降低结构风险而设置的“损失值”。由统计得到的这个部分的损失称为经验风险,后面的正则化项称为结构风险。尤其是在这种模型中,w按比例扩大不会影响分类结果,我们又希望得到一个w尽可能小的超平面描述来保证其简洁,且不会由于w过大而对噪声敏感进而产生过拟合现象。这种对模型进行优化的思路同样适用于其他分类模型。
1700508227
1700508228
1700508229 合页损失函数的图形如图11-35所示,横轴表示间隔函数1-y(wx+b),纵轴表示损失函数的值,还有一个用来做对比的0-1损失函数。虽然0-1损失函数对损失的解释更为直接,但是由于它有不可导的地方,而且可导的地方导数都是0,所以优化这种损失函数非常困难,这才使用了合页损失函数——从形状上来看,确实像一片打开的合页。合页损失函数在分类正确的时候损失才是0,否则损失是。所以,合页损失函数的优点是分类要求更高,当确信度足够高的时候损失才会下降为0。
1700508230
1700508231
1700508232
1700508233
1700508234 图11-35 合页损失函数
1700508235
1700508236 如果线性不可分,在SVM机器学习算法中会使用一种叫作“核函数”(Kernel)的函数对数据进行升维操作,这也是对非线性分类问题的处理。
1700508237
1700508238 核函数是一种技巧,通过把当前的x向量以一个函数K(x, z)映射到高维空间,让K(x, z)映射后的可以用于分类的超曲面方程在低维空间中仍然呈现超平面的形态。
1700508239
[ 上一页 ]  [ :1.70050819e+09 ]  [ 下一页 ]