打字猴:1.700535696e+09

1700535696 （5.17）

1700535697

1700535698

1700535699

1700535700 其中Ci代表第i个簇，ci是该簇的中心，x∈Ci代表属于第i个簇的一个样本点，ni为第i个簇的样本数量，P为样本点对应的向量维数。可以看出，分母对点的维度P做了惩罚，维度越高，则整体的平方距离度量值越大。，其中n为样本点的总数，NC为聚类簇的个数，通常NC<

1700535701

1700535702

1700535703

1700535704

1700535705 R方（R-Square）：可以用来衡量聚类的差异度，定义为，

1700535706

1700535707 （5.18）

1700535708

1700535709

1700535710

1700535711 其中D代表整个数据集，c代表数据集D的中心点，从而代表将数据集D看作单一簇时的平方误差和。与上一指标RMSSTD中的定义相同，代表将数据集聚类之后的平方误差和，所以RS代表了聚类之后的结果与聚类之前相比，对应的平方误差和指标的改进幅度。

1700535712

1700535713

1700535714

1700535715

1700535716 改进的HubertΓ统计：通过数据对的不一致性来评估聚类的差异，定义为，

1700535717

1700535718 （5.19）

1700535719

1700535720

1700535721

1700535722

1700535723

1700535724

1700535725

1700535726 其中表示点x到点y之间的距离，代表点x所在的簇中心ci与点y所在的簇中心cj之间的距离，为所有(x,y)点对的个数，因此指标相当于对每个点对的和做了归一化处理。理想情况下，对于每个点对(x,y)，如果d(x,y)越小，对应的也应该越小（特别地，当它们属于同一个聚类簇时，）；当d(x,y)越大时，的取值也应当越大，所以Γ值越大说明聚类的结果与样本的原始距离越吻合，也就是聚类质量越高。

1700535727

1700535728 此外，为了更加合理地评估不同聚类算法的性能，通常还需要人为地构造不同类型的数据集，以观察聚类算法在这些数据集上的效果，几个常见的例子如图5.10～图5.14所示。

1700535729

1700535730