打字猴:1.700534774e+09

1700534774 （4.2）

1700534775

1700534776 引入拉格朗日乘子，并对ω求导令其等于0，便可以推出Σ ω=λω，此时

1700534777

1700534778

1700534779 ．

1700534780

1700534781 （4.3）

1700534782

1700534783 熟悉线性代数的读者马上就会发现，原来，x投影后的方差就是协方差矩阵的特征值。我们要找到最大的方差也就是协方差矩阵最大的特征值，最佳投影方向就是最大特征值所对应的特征向量。次佳投影方向位于最佳投影方向的正交空间中，是第二大特征值对应的特征向量，以此类推。至此，我们得到以下几种PCA的求解方法。

1700534784

1700534785 （1）对样本数据进行中心化处理。

1700534786

1700534787 （2）求样本协方差矩阵。

1700534788

1700534789 （3）对协方差矩阵进行特征值分解，将特征值从大到小排列。

1700534790

1700534791 （4）取特征值前d大对应的特征向量ω1,ω2,…,ωd，通过以下映射将n维样本映射到d维

1700534792

1700534793

1700534794 ．

1700534795

1700534796 （4.4）

1700534797

1700534798 新的xi′的第d维就是xi在第d个主成分ωd方向上的投影，通过选取最大的d个特征值对应的特征向量，我们将方差较小的特征（噪声）抛弃，使得每个n维列向量xi被映射为d维列向量xi′，定义降维后的信息占比为

1700534799

1700534800

1700534801 ．

1700534802

1700534803 （4.5）

1700534804

1700534805 ·总结与扩展·

1700534806

1700534807 至此，我们从最大化投影方差的角度解释了PCA的原理、目标函数和求解方法。其实，PCA还可以用其他思路进行分析，比如从最小回归误差的角度得到新的目标函数。但最终我们会发现其对应的原理和求解方法与本文中的是等价的。另外，由于PCA是一种线性降维方法，虽然经典，但具有一定的局限性。我们可以通过核映射对PCA进行扩展得到核主成分分析（KPCA），也可以通过流形映射的降维方法，比如等距映射、局部线性嵌入、拉普拉斯特征映射等，对一些PCA效果不好的复杂数据集进行非线性降维操作。

1700534808

1700534809

1700534810

1700534811

1700534812 百面机器学习：算法工程师带你去面试 [:1700532189]

1700534813 百面机器学习：算法工程师带你去面试 02　PCA最小平方误差理论

1700534814

1700534815

1700534816

1700534817 场景描述

1700534818

1700534819 上一节介绍了从最大方差的角度解释PCA的原理、目标函数和求解方法。本节将通过最小平方误差的思路对PCA进行推导。

1700534820

1700534821 知识点

1700534822

1700534823 线性代数，最小平方误差

[ 上一页 ] [ :1.700534774e+09 ] [ 下一页 ]