1700534813
百面机器学习:算法工程师带你去面试 02 PCA最小平方误差理论
1700534814
1700534815
1700534816
1700534817
场景描述
1700534818
1700534819
上一节介绍了从最大方差的角度解释PCA的原理、目标函数和求解方法。本节将通过最小平方误差的思路对PCA进行推导。
1700534820
1700534821
知识点
1700534822
1700534823
线性代数,最小平方误差
1700534824
1700534825
问题 PCA求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PCA的目标并相应地求解问题呢?
1700534826
1700534827
难度:★★☆☆☆
1700534828
1700534829
分析与解答
1700534830
1700534831
我们还是考虑二维空间中的样本点,如图4.2所示。上一节求解得到一条直线使得样本点投影到该直线上的方差最大。从求解直线的思路出发,很容易联想到数学中的线性回归问题,其目标也是求解一个线性函数使得对应直线能够更好地拟合样本点集合。如果我们从这个角度定义PCA的目标,那么问题就会转化为一个回归问题。
1700534832
1700534833
顺着这个思路,在高维空间中,我们实际上是要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小。以d=1为例,超平面退化为直线,即把样本点投影到最佳直线,最小化的就是所有点到直线的距离平方之和,如图4.3所示。
1700534834
1700534835
1700534836
1700534837
1700534838
图4.2 二维空间中经过中心化的一组数据
1700534839
1700534840
1700534841
1700534842
1700534843
图4.3 最小化样本点到直线的距离平方之和
1700534844
1700534845
数据集中每个点xk到d维超平面D的距离为
1700534846
1700534847
1700534848
,
1700534849
1700534850
(4.6)
1700534851
1700534852
1700534853
1700534854
1700534855
其中表示xk在超平面D上的投影向量。如果该超平面由d个标准正交基构成,根据线性代数理论可以由这组基线性表示
1700534856
1700534857
1700534858
,
1700534859
1700534860
(4.7)
1700534861
[
上一页 ]
[ :1.700534812e+09 ]
[
下一页 ]