打字猴:1.700508179e+09

1700508179 因此也叫作“几何间隔”。其中，||w||叫作“范数”，在欧式空间中的欧式范数定义为

1700508180

1700508181

1700508182

1700508183

1700508184 是向量的模。

1700508185

1700508186 几何间隔在空间几何上有具体的几何距离解释，这和我们在二维空间中求点到直线的距离及在三维空间中求点到平面的距离的计算方式是一样的。如果在规范化后，令||w||＝1，间隔距离可以写作

1700508187

1700508188

1700508189

1700508190

1700508191 也叫作“函数间隔”。

1700508192

1700508193 定义一个训练集中的样本点到超平面wx+b=0几何距离最小的点

1700508194

1700508195

1700508196

1700508197

1700508198 所以，现在的问题就变成了怎样让γ最大化。

1700508199

1700508200 支持向量机学习的基本思路是，找到能够正确划分训练数据集且几何间隔最大的分离超平面。对线性可分的训练数据集来说，线性可分的分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的。

1700508201

1700508202 “间隔最大化”又称“硬间隔最大化”，其直观解释是：对训练数据集找到几何间隔最大的超平面，意味着以充分大的确信度对训练数据进行分类，对最贴近超平面的点也有足够大的确信度将它们分开，以保证获得很好的分类预测能力。

1700508203

1700508204 在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为“支持向量”（Support Vector，如图11-34所示用圆圈标出的五角星和圆点）。

1700508205

1700508206 在SVM进行训练的过程中，会使用一种叫作“Hinge Loss”（也译作“合页损失函数”）的函数来充当损失函数。这个函数写作

1700508207

1700508208

1700508209

1700508210

1700508211

1700508212

1700508213

1700508214

1700508215

1700508216

1700508217

1700508218

1700508219

1700508220

1700508221

1700508222 前半部分很容易理解：如果分类预测与训练时的分类一致，其值就是的值就是0；相反，如果分类预测与训练时的分类不一致，其值就是的值就是1。后半部分叫作正则化项，λ是系数，叫作w的L2范数（实际上就是）。

1700508223

1700508224

1700508225

1700508226 正则化项在很多机器学习损失函数中都可以看到，这是一种为了降低结构风险而设置的“损失值”。由统计得到的这个部分的损失称为经验风险，后面的正则化项称为结构风险。尤其是在这种模型中，w按比例扩大不会影响分类结果，我们又希望得到一个w尽可能小的超平面描述来保证其简洁，且不会由于w过大而对噪声敏感进而产生过拟合现象。这种对模型进行优化的思路同样适用于其他分类模型。

1700508227

1700508228

[ 上一页 ] [ :1.700508179e+09 ] [ 下一页 ]