1700535001
1700535002
1700535003
1700535004
1700535005
(4.18)
1700535006
1700535007
容易发现,当ω方向与(μ1−μ2)一致的时候,该距离达到最大值,例如对图4.5(a)的黄棕两种类别的样本点进行降维时,若按照最大化两类投影中心距离的准则,会将样本点投影到下方的黑线上。但是原本可以被线性划分的两类样本,经过投影后有了一定程度的重叠,这显然不能使我们满意。
1700535008
1700535009
我们希望得到的投影结果如图4.5(b)所示,虽然两类的中心在投影之后的距离有所减小,但确使投影之后样本的可区分性提高了。
1700535010
1700535011
仔细观察两种投影方式的区别,可以发现,在图4.5(b)中,投影后的样本点似乎在每一类中分布得更为集中了,用数学化的语言描述就是每类内部的方差比左图中更小。这就引出了LDA的中心思想——最大化类间距离和最小化类内距离。
1700535012
1700535013
1700535014
1700535015
1700535016
(a)最大化两类投影中心距离准则下得到的分类结果
1700535017
1700535018
1700535019
1700535020
1700535021
(b)使得投影后样本区分性更高的投影方式
1700535022
1700535023
图4.5 两种不同的投影方向与投影后的分类结果
1700535024
1700535025
在前文中我们已经找到了使得类间距离尽可能大的投影方式,现在只需要同时优化类内方差,使其尽可能小。我们将整个数据集的类内方差定义为各个类分别的方差之和,将目标函数定义为类间距离和类内距离的比值,于是引出我们需要最大化的目标
1700535026
1700535027
1700535028
,
1700535029
1700535030
(4.19)
1700535031
1700535032
其中ω为单位向量,D1,D2分别表示两类投影后的方差
1700535033
1700535034
1700535035
1700535036
1700535037
1700535038
,
1700535039
1700535040
(4.20)
1700535041
1700535042
1700535043
,
1700535044
1700535045
(4.21)
1700535046
1700535047
因此J(ω)可以写成
1700535048
1700535049
1700535050
.
[
上一页 ]
[ :1.700535001e+09 ]
[
下一页 ]