打字猴:1.700537055e+09

1700537055

1700537056 若w*和λ*分别是原问题和对偶问题的最优解，则根据KKT条件，它们应满足

1700537057

1700537058

1700537059 ；

1700537060

1700537061 （7.57）

1700537062

1700537063 仔细一看，第一个式子不就是w*为带L2正则项的优化问题的最优解的条件嘛，而λ*就是L2正则项前面的正则参数。

1700537064

1700537065 这时回头再看开头的问题就清晰了。L2正则化相当于为参数定义了一个圆形的解空间（因为必须保证L2范数不能大于m），而L1正则化相当于为参数定义了一个棱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内，那么约束条件下的最优解一定是在解空间的边界上，而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞，从而产生稀疏解。

1700537066

1700537067 ■ 角度2：函数叠加

1700537068

1700537069 第二个角度试图用更直观的图示来解释L1产生稀疏性这一现象。仅考虑一维的情况，多维情况是类似的，如图7.7所示。假设棕线是原始目标函数L(w)的曲线图，显然最小值点在蓝点处，且对应的w*值非0。

1700537070

1700537071

1700537072

1700537073

1700537074 图7.7　函数曲线图

1700537075

1700537076 首先，考虑加上L2正则化项，目标函数变成L(w)+Cw2，其函数曲线为黄色。此时，最小值点在黄点处，对应的w*的绝对值减小了，但仍然非0。

1700537077

1700537078 然后，考虑加上L1正则化项，目标函数变成L(w)+C|w|，其函数曲线为绿色。此时，最小值点在红点处，对应的w是0，产生了稀疏性。

1700537079

1700537080 产生上述现象的原因也很直观。加入L1正则项后，对带正则项的目标函数求导，正则项部分产生的导数在原点左边部分是−C，在原点右边部分是C，因此，只要原目标函数的导数绝对值小于C，那么带正则项的目标函数在原点左边部分始终是递减的，在原点右边部分始终是递增的，最小值点自然在原点处。相反，L2正则项在原点处的导数是0，只要原目标函数在原点处的导数不为0，那么最小值点就不会在原点，所以L2只有减小w绝对值的作用，对解空间的稀疏性没有贡献。

1700537081

1700537082 在一些在线梯度下降算法中，往往会采用截断梯度法来产生稀疏性，这同L1正则项产生稀疏性的原理是类似的。

1700537083

1700537084 ■ 角度3：贝叶斯先验

1700537085

1700537086 从贝叶斯的角度来理解L1正则化和L2正则化，简单的解释是，L1正则化相当于对模型参数w引入了拉普拉斯先验，L2正则化相当于引入了高斯先验，而拉普拉斯先验使参数为0的可能性更大。

1700537087

1700537088 图7.8是高斯分布曲线图。由图可见，高斯分布在极值点（0点）处是平滑的，也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。这就是L2正则化只会让w更接近0点，但不会等于0的原因。

1700537089

1700537090

1700537091

1700537092

1700537093 图7.8　高斯分布曲线图

1700537094

1700537095 相反，图7.9是拉普拉斯分布曲线图。由图可见，拉普拉斯分布在极值点（0点）处是一个尖峰，所以拉普拉斯先验分布中参数w取值为0的可能性要更高。在此我们不再给出L1和L2正则化分别对应拉普拉斯先验分布和高斯先验分布的详细证明。

1700537096

1700537097

1700537098

1700537099

1700537100 图7.9　拉普拉斯分布曲线图

1700537101

1700537102

1700537103

1700537104

[ 上一页 ] [ :1.700537055e+09 ] [ 下一页 ]