打字猴:1.700535458e+09

1700535458 （5.13）

1700535459

1700535460

1700535461

1700535462 因此，这一步骤等同于找到最优的中心点，使得损失函数达到最小，此时每个样本x(i)对应的簇z(i)已确定，因此每个簇k对应的最优中心点μk可以由该簇中所有点的平均计算得到，这与K均值算法中根据当前簇的分配更新聚类中心的步骤是等同的。

1700535463

1700535464

1700535465

1700535466

1700535467 百面机器学习：算法工程师带你去面试 [:1700532194]

1700535468 百面机器学习：算法工程师带你去面试 02　高斯混合模型

1700535469

1700535470

1700535471

1700535472 场景描述

1700535473

1700535474 高斯混合模型（Gaussian Mixed Model，GMM）也是一种常见的聚类算法，与K均值算法类似，同样使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布（又叫正态分布）的，当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。

1700535475

1700535476 图5.6是一个数据分布的样例，如果只用一个高斯分布来拟合图中的数据，图中所示的椭圆即为高斯分布的二倍标准差所对应的椭圆。直观来说，图中的数据明显分为两簇，因此只用一个高斯分布来拟和是不太合理的，需要推广到用多个高斯分布的叠加来对数据进行拟合。图5.7是用两个高斯分布的叠加来拟合得到的结果。这就引出了高斯混合模型，即用多个高斯分布函数的线形组合来对数据分布进行拟合。理论上，高斯混合模型可以拟合出任意类型的分布。

1700535477

1700535478

1700535479

1700535480

1700535481 图5.6　高斯混合模型样例（用一个混合分量来拟合）

1700535482

1700535483

1700535484

1700535485

1700535486 图5.7　高斯混合模型样例（用两个混合分量来拟合）

1700535487

1700535488 知识点

1700535489

1700535490 高斯分布，高斯混合模型，EM算法

1700535491

1700535492 问题　高斯混合模型的核心思想是什么？它是如何迭代计算的？

1700535493

1700535494 难度：★★☆☆☆

1700535495

1700535496 分析与解答

1700535497

1700535498 说起高斯分布，大家都不陌生，通常身高、分数等都大致符合高斯分布。因此，当我们研究各类数据时，假设同一类的数据符合高斯分布，也是很简单自然的假设；当数据事实上有多个类，或者我们希望将数据划分为一些簇时，可以假设不同簇中的样本各自服从不同的高斯分布，由此得到的聚类算法称为高斯混合模型。

1700535499

1700535500 高斯混合模型的核心思想是，假设数据可以看作从多个高斯分布中生成出来的。在该假设下，每个单独的分模型都是标准高斯模型，其均值μi和方差Σi是待估计的参数。此外，每个分模型都还有一个参数πi，可以理解为权重或生成数据的概率。高斯混合模型的公式为

1700535501

1700535502

1700535503 ．

1700535504

1700535505 （5.14）

1700535506

1700535507 高斯混合模型是一个生成式模型。可以这样理解数据的生成过程，假设一个最简单的情况，即只有两个一维标准高斯分布的分模型N(0,1)和N(5,1)，其权重分别为0.7和0.3。那么，在生成第一个数据点时，先按照权重的比例，随机选择一个分布，比如选择第一个高斯分布，接着从N(0,1)中生成一个点，如−0.5，便是第一个数据点。在生成第二个数据点时，随机选择到第二个高斯分布N(5,1)，生成了第二个点4.7。如此循环执行，便生成出了所有的数据点。

[ 上一页 ] [ :1.700535458e+09 ] [ 下一页 ]