打字猴:1.700535241e+09

1700535241 知识点

1700535242

1700535243 K均值聚类算法，ISODATA算法，EM算法（Expectation-Maximization Algorithm，最大期望算法）

1700535244

1700535245 问题1　简述K均值算法的具体步骤。

1700535246

1700535247 难度：★★☆☆☆

1700535248

1700535249 分析与解答

1700535250

1700535251 K均值聚类的核心目标是将给定的数据集划分成K个簇，并给出每个数据对应的簇中心点。算法的具体步骤描述如下：

1700535252

1700535253 （1）数据预处理，如归一化、离群点处理等。

1700535254

1700535255

1700535256 （2）随机选取K个簇中心，记为。

1700535257

1700535258

1700535259 （3）定义代价函数：。

1700535260

1700535261 （4）令t=0,1,2,… 为迭代步数，重复下面过程直到 J 收敛：

1700535262

1700535263

1700535264

1700535265

1700535266 对于每一个样本xi，将其分配到距离最近的簇；

1700535267

1700535268 （5.2）

1700535269

1700535270

1700535271

1700535272

1700535273 对于每一个类簇k，重新计算该类簇的中心．

1700535274

1700535275 （5.3）

1700535276

1700535277 K均值算法在迭代时，假设当前 J 没有达到最小值，那么首先固定簇中心{μk}，调整每个样例xi所属的类别ci来让J函数减少；然后固定{ci}，调整簇中心{μk}使J减小。这两个过程交替循环，J单调递减：当J递减到最小值时，{μk}和{ci}也同时收敛。

1700535278

1700535279 图5.2是K-means算法的一个迭代过程示意图。首先，给定二维空间上的一些样本点（见图5.2（a）），直观上这些点可以被分成两类；接下来，初始化两个中心点（图5.2（b）的棕色和黄色叉子代表中心点），并根据中心点的位置计算每个样本所属的簇（图5.2（c）用不同颜色表示）；然后根据每个簇中的所有点的平均值计算新的中心点位置（见图5.2（d））；图5.2（e）和图5.2（f）展示了新一轮的迭代结果；在经过两轮的迭代之后，算法基本收敛。

1700535280

1700535281

1700535282

1700535283

1700535284 图5.2　K均值聚类算法的迭代过程示意图

1700535285

1700535286 问题2　K均值算法的优缺点是什么？如何对其进行调优？

1700535287

1700535288 难度：★★★☆☆

1700535289

1700535290 分析与解答

[ 上一页 ] [ :1.700535241e+09 ] [ 下一页 ]