打字猴:1.700535696e+09
1700535696 (5.17)
1700535697
1700535698
1700535699
1700535700 其中Ci代表第i个簇,ci是该簇的中心,x∈Ci代表属于第i个簇的一个样本点,ni为第i个簇的样本数量,P为样本点对应的向量维数。可以看出,分母对点的维度P做了惩罚,维度越高,则整体的平方距离度量值越大。,其中n为样本点的总数,NC为聚类簇的个数,通常NC<
1700535701
1700535702  
1700535703
1700535704
1700535705 R方(R-Square):可以用来衡量聚类的差异度,定义为 ,
1700535706
1700535707 (5.18)
1700535708
1700535709
1700535710
1700535711 其中D代表整个数据集,c代表数据集D的中心点,从而代表将数据集D看作单一簇时的平方误差和。与上一指标RMSSTD中的定义相同,代表将数据集聚类之后的平方误差和,所以RS代表了聚类之后的结果与聚类之前相比,对应的平方误差和指标的改进幅度。
1700535712
1700535713  
1700535714
1700535715
1700535716 改进的HubertΓ统计:通过数据对的不一致性来评估聚类的差异,定义为 ,
1700535717
1700535718 (5.19)
1700535719
1700535720
1700535721
1700535722
1700535723
1700535724
1700535725
1700535726 其中表示点x到点y之间的距离,代表点x所在的簇中心ci与点y所在的簇中心cj之间的距离,为所有(x,y)点对的个数,因此指标相当于对每个点对的和做了归一化处理。理想情况下,对于每个点对(x,y),如果d(x,y)越小,对应的也应该越小(特别地,当它们属于同一个聚类簇时,);当d(x,y)越大时,的取值也应当越大,所以Γ值越大说明聚类的结果与样本的原始距离越吻合,也就是聚类质量越高。
1700535727
1700535728 此外,为了更加合理地评估不同聚类算法的性能,通常还需要人为地构造不同类型的数据集,以观察聚类算法在这些数据集上的效果,几个常见的例子如图5.10~图5.14所示。
1700535729
1700535730
1700535731
1700535732
1700535733 图5.10 观察聚类误差是否随聚类类别数量的增加而单调变化
1700535734
1700535735
1700535736
1700535737
1700535738 图5.11 观察聚类误差对实际聚类结果的影响
1700535739
1700535740
1700535741
1700535742
1700535743 图5.12 观察近邻数据簇的聚类准确性
1700535744
1700535745
[ 上一页 ]  [ :1.700535696e+09 ]  [ 下一页 ]