打字猴:1.700534751e+09
1700534751
1700534752
1700534753
1700534754
1700534755 对于给定的一组数据点 ,其中所有向量均为列向量,中心化后的表示为=,其中。我们知道,向量内积在几何上表示为第一个向量投影到第二个向量上的长度,因此向量xi在ω(单位方向向量)上的投影坐标可以表示为。所以目标是找到一个投影方向ω,使得在ω上的投影方差尽可能大。易知,投影之后均值为0(因为 ,这也是我们进行中心化的意义),因此投影后的方差可以表示为
1700534756
1700534757
1700534758
1700534759
1700534760
1700534761
1700534762
1700534763
1700534764
1700534765
1700534766 (4.1)
1700534767
1700534768
1700534769 仔细一看,其实就是样本协方差矩阵,我们将其写作Σ。另外,由于ω是单位方向向量,即有ωTω=1。因此我们要求解一个最大化问题,可表示为
1700534770
1700534771
1700534772
1700534773
1700534774 (4.2)
1700534775
1700534776 引入拉格朗日乘子,并对ω求导令其等于0,便可以推出Σ ω=λω,此时
1700534777
1700534778
1700534779
1700534780
1700534781 (4.3)
1700534782
1700534783 熟悉线性代数的读者马上就会发现,原来,x投影后的方差就是协方差矩阵的特征值。我们要找到最大的方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量。次佳投影方向位于最佳投影方向的正交空间中,是第二大特征值对应的特征向量,以此类推。至此,我们得到以下几种PCA的求解方法。
1700534784
1700534785 (1)对样本数据进行中心化处理。
1700534786
1700534787 (2)求样本协方差矩阵。
1700534788
1700534789 (3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
1700534790
1700534791 (4)取特征值前d大对应的特征向量ω1,ω2,…,ωd,通过以下映射将n维样本映射到d维
1700534792
1700534793
1700534794
1700534795
1700534796 (4.4)
1700534797
1700534798 新的xi′的第d维就是xi在第d个主成分ωd方向上的投影,通过选取最大的d个特征值对应的特征向量,我们将方差较小的特征(噪声)抛弃,使得每个n维列向量xi被映射为d维列向量xi′,定义降维后的信息占比为
1700534799
1700534800
[ 上一页 ]  [ :1.700534751e+09 ]  [ 下一页 ]