打字猴:1.700534785e+09
1700534785 (1)对样本数据进行中心化处理。
1700534786
1700534787 (2)求样本协方差矩阵。
1700534788
1700534789 (3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
1700534790
1700534791 (4)取特征值前d大对应的特征向量ω1,ω2,…,ωd,通过以下映射将n维样本映射到d维
1700534792
1700534793
1700534794
1700534795
1700534796 (4.4)
1700534797
1700534798 新的xi′的第d维就是xi在第d个主成分ωd方向上的投影,通过选取最大的d个特征值对应的特征向量,我们将方差较小的特征(噪声)抛弃,使得每个n维列向量xi被映射为d维列向量xi′,定义降维后的信息占比为
1700534799
1700534800
1700534801
1700534802
1700534803 (4.5)
1700534804
1700534805 ·总结与扩展·
1700534806
1700534807 至此,我们从最大化投影方差的角度解释了PCA的原理、目标函数和求解方法。其实,PCA还可以用其他思路进行分析,比如从最小回归误差的角度得到新的目标函数。但最终我们会发现其对应的原理和求解方法与本文中的是等价的。另外,由于PCA是一种线性降维方法,虽然经典,但具有一定的局限性。我们可以通过核映射对PCA进行扩展得到核主成分分析(KPCA),也可以通过流形映射的降维方法,比如等距映射、局部线性嵌入、拉普拉斯特征映射等,对一些PCA效果不好的复杂数据集进行非线性降维操作。
1700534808
1700534809
1700534810
1700534811
1700534812 百面机器学习:算法工程师带你去面试 [:1700532189]
1700534813 百面机器学习:算法工程师带你去面试 02 PCA最小平方误差理论
1700534814
1700534815
1700534816
1700534817 场景描述
1700534818
1700534819 上一节介绍了从最大方差的角度解释PCA的原理、目标函数和求解方法。本节将通过最小平方误差的思路对PCA进行推导。
1700534820
1700534821 知识点
1700534822
1700534823 线性代数,最小平方误差
1700534824
1700534825 问题 PCA求解的其实是最佳投影方向,即一条直线,这与数学中线性回归问题的目标不谋而合,能否从回归的角度定义PCA的目标并相应地求解问题呢?
1700534826
1700534827 难度:★★☆☆☆
1700534828
1700534829 分析与解答
1700534830
1700534831 我们还是考虑二维空间中的样本点,如图4.2所示。上一节求解得到一条直线使得样本点投影到该直线上的方差最大。从求解直线的思路出发,很容易联想到数学中的线性回归问题,其目标也是求解一个线性函数使得对应直线能够更好地拟合样本点集合。如果我们从这个角度定义PCA的目标,那么问题就会转化为一个回归问题。
1700534832
1700534833 顺着这个思路,在高维空间中,我们实际上是要找到一个d维超平面,使得数据点到这个超平面的距离平方和最小。以d=1为例,超平面退化为直线,即把样本点投影到最佳直线,最小化的就是所有点到直线的距离平方之和,如图4.3所示。
1700534834
[ 上一页 ]  [ :1.700534785e+09 ]  [ 下一页 ]