打字猴:1.700535401e+09

打字猴:1.700535401e+09

1700535401

1700535402 图5.5是一个θ为一维的例子，其中棕色的曲线代表我们待优化的函数，记为f(θ)，优化过程即为找到使得f(θ)取值最大的θ。在当前θ的取值下（即图中绿色的位置），可以计算，此时不等式右侧的函数（记为r(x|θ)）给出了优化函数的一个下界，如图中蓝色曲线所示，其中在θ处两条曲线的取值时相等的。接下来找到使得r(x|θ)最大化的参数θ′，即图中红色的位置，此时f(θ′)的取值比f(θ)（绿色的位置处）有所提升。可以证明，f(θ′)≥r(x|θ)=f(θ)，因此函数是单调的，而且从而函数是有界的。根据函数单调有界必收敛的性质，EM算法的收敛性得证。但是EM算法只保证收敛到局部最优解。当函数为非凸时，以图5.5为例，如果初始化在左边的区域时，则无法找到右侧的高点。

1700535403

1700535404

1700535405

1700535406

1700535407 图5.5　K均值算法的收敛性

1700535408

1700535409 由上面的推导，EM算法框架可以总结如下，由以下两个步骤交替进行直到收敛。

1700535410

1700535411 （1）E步骤：计算隐变量的期望

1700535412

1700535413

1700535414 ．

1700535415

1700535416 （5.8）

1700535417

1700535418 （2）M步骤：最大化

1700535419

1700535420

1700535421 ．

1700535422

1700535423 （5.9）

1700535424

1700535425 剩下的事情就是说明K均值算法与EM算法的关系了。K均值算法等价于用EM算法求解以下含隐变量的最大似然问题：

1700535426

1700535427

1700535428

1700535429

1700535430 （5.10）

1700535431

1700535432

1700535433

1700535434 其中是模型的隐变量。直观地理解，就是当样本x离第k个簇的中心点μk距离最近时，概率正比于，否则为0。

1700535435

1700535436 在E步骤，计算

1700535437

1700535438

1700535439

1700535440

1700535441 （5.11）

1700535442

1700535443 这等同于在K均值算法中对于每一个点x(i)找到当前最近的簇z(i)。

1700535444

1700535445

1700535446 在M步骤，找到最优的参数，使得似然函数最大：

1700535447

1700535448

1700535449 ．

1700535450

[ 上一页 ] [ :1.700535401e+09 ] [ 下一页 ]