打字猴:1.70050819e+09

1700508190

1700508191 也叫作“函数间隔”。

1700508192

1700508193 定义一个训练集中的样本点到超平面wx+b=0几何距离最小的点

1700508194

1700508195

1700508196

1700508197

1700508198 所以，现在的问题就变成了怎样让γ最大化。

1700508199

1700508200 支持向量机学习的基本思路是，找到能够正确划分训练数据集且几何间隔最大的分离超平面。对线性可分的训练数据集来说，线性可分的分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的。

1700508201

1700508202 “间隔最大化”又称“硬间隔最大化”，其直观解释是：对训练数据集找到几何间隔最大的超平面，意味着以充分大的确信度对训练数据进行分类，对最贴近超平面的点也有足够大的确信度将它们分开，以保证获得很好的分类预测能力。

1700508203

1700508204 在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为“支持向量”（Support Vector，如图11-34所示用圆圈标出的五角星和圆点）。

1700508205

1700508206 在SVM进行训练的过程中，会使用一种叫作“Hinge Loss”（也译作“合页损失函数”）的函数来充当损失函数。这个函数写作

1700508207

1700508208

1700508209

1700508210

1700508211

1700508212

1700508213

1700508214

1700508215

1700508216

1700508217

1700508218

1700508219

1700508220

1700508221

1700508222 前半部分很容易理解：如果分类预测与训练时的分类一致，其值就是的值就是0；相反，如果分类预测与训练时的分类不一致，其值就是的值就是1。后半部分叫作正则化项，λ是系数，叫作w的L2范数（实际上就是）。

1700508223

1700508224

1700508225

1700508226 正则化项在很多机器学习损失函数中都可以看到，这是一种为了降低结构风险而设置的“损失值”。由统计得到的这个部分的损失称为经验风险，后面的正则化项称为结构风险。尤其是在这种模型中，w按比例扩大不会影响分类结果，我们又希望得到一个w尽可能小的超平面描述来保证其简洁，且不会由于w过大而对噪声敏感进而产生过拟合现象。这种对模型进行优化的思路同样适用于其他分类模型。

1700508227

1700508228

1700508229 合页损失函数的图形如图11-35所示，横轴表示间隔函数1-y(wx+b)，纵轴表示损失函数的值，还有一个用来做对比的0-1损失函数。虽然0-1损失函数对损失的解释更为直接，但是由于它有不可导的地方，而且可导的地方导数都是0，所以优化这种损失函数非常困难，这才使用了合页损失函数——从形状上来看，确实像一片打开的合页。合页损失函数在分类正确的时候损失才是0，否则损失是。所以，合页损失函数的优点是分类要求更高，当确信度足够高的时候损失才会下降为0。

1700508230

1700508231

1700508232

1700508233

1700508234 图11-35　合页损失函数

1700508235

1700508236 如果线性不可分，在SVM机器学习算法中会使用一种叫作“核函数”（Kernel）的函数对数据进行升维操作，这也是对非线性分类问题的处理。

1700508237

1700508238 核函数是一种技巧，通过把当前的x向量以一个函数K(x, z)映射到高维空间，让K(x, z)映射后的可以用于分类的超曲面方程在低维空间中仍然呈现超平面的形态。

1700508239

[ 上一页 ] [ :1.70050819e+09 ] [ 下一页 ]