1700537055
1700537056
若w*和λ*分别是原问题和对偶问题的最优解,则根据KKT条件,它们应满足
1700537057
1700537058
1700537059
;
1700537060
1700537061
(7.57)
1700537062
1700537063
仔细一看,第一个式子不就是w*为带L2正则项的优化问题的最优解的条件嘛,而λ*就是L2正则项前面的正则参数。
1700537064
1700537065
这时回头再看开头的问题就清晰了。L2正则化相当于为参数定义了一个圆形的解空间(因为必须保证L2范数不能大于m),而L1正则化相当于为参数定义了一个棱形的解空间。如果原问题目标函数的最优解不是恰好落在解空间内,那么约束条件下的最优解一定是在解空间的边界上,而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞,从而产生稀疏解。
1700537066
1700537067
■ 角度2:函数叠加
1700537068
1700537069
第二个角度试图用更直观的图示来解释L1产生稀疏性这一现象。仅考虑一维的情况,多维情况是类似的,如图7.7所示。假设棕线是原始目标函数L(w)的曲线图,显然最小值点在蓝点处,且对应的w*值非0。
1700537070
1700537071
1700537072
1700537073
1700537074
图7.7 函数曲线图
1700537075
1700537076
首先,考虑加上L2正则化项,目标函数变成L(w)+Cw2,其函数曲线为黄色。此时,最小值点在黄点处,对应的w*的绝对值减小了,但仍然非0。
1700537077
1700537078
然后,考虑加上L1正则化项,目标函数变成L(w)+C|w|,其函数曲线为绿色。此时,最小值点在红点处,对应的w是0,产生了稀疏性。
1700537079
1700537080
产生上述现象的原因也很直观。加入L1正则项后,对带正则项的目标函数求导,正则项部分产生的导数在原点左边部分是−C,在原点右边部分是C,因此,只要原目标函数的导数绝对值小于C,那么带正则项的目标函数在原点左边部分始终是递减的,在原点右边部分始终是递增的,最小值点自然在原点处。相反,L2正则项在原点处的导数是0,只要原目标函数在原点处的导数不为0,那么最小值点就不会在原点,所以L2只有减小w绝对值的作用,对解空间的稀疏性没有贡献。
1700537081
1700537082
在一些在线梯度下降算法中,往往会采用截断梯度法来产生稀疏性,这同L1正则项产生稀疏性的原理是类似的。
1700537083
1700537084
■ 角度3:贝叶斯先验
1700537085
1700537086
从贝叶斯的角度来理解L1正则化和L2正则化,简单的解释是,L1正则化相当于对模型参数w引入了拉普拉斯先验,L2正则化相当于引入了高斯先验,而拉普拉斯先验使参数为0的可能性更大。
1700537087
1700537088
图7.8是高斯分布曲线图。由图可见,高斯分布在极值点(0点)处是平滑的,也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。这就是L2正则化只会让w更接近0点,但不会等于0的原因。
1700537089
1700537090
1700537091
1700537092
1700537093
图7.8 高斯分布曲线图
1700537094
1700537095
相反,图7.9是拉普拉斯分布曲线图。由图可见,拉普拉斯分布在极值点(0点)处是一个尖峰,所以拉普拉斯先验分布中参数w取值为0的可能性要更高。在此我们不再给出L1和L2正则化分别对应拉普拉斯先验分布和高斯先验分布的详细证明。
1700537096
1700537097
1700537098
1700537099
1700537100
图7.9 拉普拉斯分布曲线图
1700537101
1700537102
1700537103
1700537104
[
上一页 ]
[ :1.700537055e+09 ]
[
下一页 ]