打字猴:1.700535141e+09
1700535141
1700535142
1700535143
1700535144
1700535145
1700535146
1700535147
1700535148 (4.29)
1700535149
1700535150 其中mj是第j个类别中的样本个数,N是总的类别个数。从式(4.29)可以看出,类间散度表示的就是每个类别中心到全局中心的一种加权距离。我们最大化类间散度实际上优化的是每个类别的中心经过投影后离全局中心的投影足够远。
1700535151
1700535152 根据LDA的原理,可以将最大化的目标定义为
1700535153
1700535154
1700535155
1700535156
1700535157 (4.30)
1700535158
1700535159 其中W是需要求解的投影超平面,WTW=I,根据问题2和问题3中的部分结论,我们可以推导出最大化J(W)对应了以下广义特征值求解的问题
1700535160
1700535161
1700535162
1700535163
1700535164 (4.31)
1700535165
1700535166
1700535167
1700535168 求解最佳投影平面 即求解 矩阵特征值前d大对应的特征向量组成的矩阵,这就将原始的特征空间投影到了新的d维空间中。至此我们得到了与PCA步骤类似,但具有多个类别标签高维数据的LDA求解方法。
1700535169
1700535170 (1)计算数据集中每个类别样本的均值向量μj,及总体均值向量μ。
1700535171
1700535172
1700535173 (2)计算类内散度矩阵Sw,全局散度矩阵St,并得到类间散度矩阵 。
1700535174
1700535175
1700535176 (3)对矩阵 进行特征值分解,将特征值从大到小排列。
1700535177
1700535178
1700535179 (4)取特征值前d大的对应的特征向量 ,通过以下映射将n维样本映射到d维
1700535180
1700535181
1700535182
1700535183
1700535184 (4.32)
1700535185
1700535186 从PCA和LDA两种降维方法的求解过程来看,它们确实有着很大的相似性,但对应的原理却有所区别。
1700535187
1700535188 首先从目标出发,PCA选择的是投影后数据方差最大的方向。由于它是无监督的,因此PCA假设方差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度,达到降维。而LDA选择的是投影后类内方差小、类间方差大的方向。其用到了类别标签信息,为了找到数据中具有判别性的维度,使得原始数据在这些方向上投影后,不同类别尽可能区分开。
1700535189
1700535190 举一个简单的例子,在语音识别中,我们想从一段音频中提取出人的语音信号,这时可以使用PCA先进行降维,过滤掉一些固定频率(方差较小)的背景噪声。但如果我们的需求是从这段音频中区分出声音属于哪个人,那么我们应该使用LDA对数据进行降维,使每个人的语音信号具有区分性。
[ 上一页 ]  [ :1.700535141e+09 ]  [ 下一页 ]