打字猴:1.700535123e+09
1700535123 首先将LDA扩展到多类高维的情况,以和问题1中PCA的求解对应。假设有N个类别,并需要最终将特征降维至d维。因此,我们要找到一个d维投影超平面,使得投影后的样本点满足LDA的目标——最大化类间距离和最小化类内距离。
1700535124
1700535125
1700535126
1700535127
1700535128 回顾两个散度矩阵,类内散度矩阵 在类别增加至N时仍满足定义,而之前两类问题的类间散度矩阵 在类别增加后就无法按照原始定义。图4.6是三类样本的分布情况,其中 分别表示棕绿黄三类样本的中心,μ表示这三个中心的均值(也即全部样本的中心),Swi表示第i类的类内散度。我们可以定义一个新的矩阵St,来表示全局整体的散度,称为全局散度矩阵
1700535129
1700535130
1700535131
1700535132
1700535133 (4.28)
1700535134
1700535135
1700535136
1700535137
1700535138 图4.6 三类样本的分布情况
1700535139
1700535140 如果把全局散度定义为类内散度与类间散度之和,即St=Sb+Sw,那么类间散度矩阵可表示为
1700535141
1700535142
1700535143
1700535144
1700535145
1700535146
1700535147
1700535148 (4.29)
1700535149
1700535150 其中mj是第j个类别中的样本个数,N是总的类别个数。从式(4.29)可以看出,类间散度表示的就是每个类别中心到全局中心的一种加权距离。我们最大化类间散度实际上优化的是每个类别的中心经过投影后离全局中心的投影足够远。
1700535151
1700535152 根据LDA的原理,可以将最大化的目标定义为
1700535153
1700535154
1700535155
1700535156
1700535157 (4.30)
1700535158
1700535159 其中W是需要求解的投影超平面,WTW=I,根据问题2和问题3中的部分结论,我们可以推导出最大化J(W)对应了以下广义特征值求解的问题
1700535160
1700535161
1700535162
1700535163
1700535164 (4.31)
1700535165
1700535166
1700535167
1700535168 求解最佳投影平面 即求解 矩阵特征值前d大对应的特征向量组成的矩阵,这就将原始的特征空间投影到了新的d维空间中。至此我们得到了与PCA步骤类似,但具有多个类别标签高维数据的LDA求解方法。
1700535169
1700535170 (1)计算数据集中每个类别样本的均值向量μj,及总体均值向量μ。
1700535171
1700535172
[ 上一页 ]  [ :1.700535123e+09 ]  [ 下一页 ]