打字猴:1.700535708e+09
1700535708
1700535709
1700535710
1700535711 其中D代表整个数据集,c代表数据集D的中心点,从而代表将数据集D看作单一簇时的平方误差和。与上一指标RMSSTD中的定义相同,代表将数据集聚类之后的平方误差和,所以RS代表了聚类之后的结果与聚类之前相比,对应的平方误差和指标的改进幅度。
1700535712
1700535713  
1700535714
1700535715
1700535716 改进的HubertΓ统计:通过数据对的不一致性来评估聚类的差异,定义为 ,
1700535717
1700535718 (5.19)
1700535719
1700535720
1700535721
1700535722
1700535723
1700535724
1700535725
1700535726 其中表示点x到点y之间的距离,代表点x所在的簇中心ci与点y所在的簇中心cj之间的距离,为所有(x,y)点对的个数,因此指标相当于对每个点对的和做了归一化处理。理想情况下,对于每个点对(x,y),如果d(x,y)越小,对应的也应该越小(特别地,当它们属于同一个聚类簇时,);当d(x,y)越大时,的取值也应当越大,所以Γ值越大说明聚类的结果与样本的原始距离越吻合,也就是聚类质量越高。
1700535727
1700535728 此外,为了更加合理地评估不同聚类算法的性能,通常还需要人为地构造不同类型的数据集,以观察聚类算法在这些数据集上的效果,几个常见的例子如图5.10~图5.14所示。
1700535729
1700535730
1700535731
1700535732
1700535733 图5.10 观察聚类误差是否随聚类类别数量的增加而单调变化
1700535734
1700535735
1700535736
1700535737
1700535738 图5.11 观察聚类误差对实际聚类结果的影响
1700535739
1700535740
1700535741
1700535742
1700535743 图5.12 观察近邻数据簇的聚类准确性
1700535744
1700535745
1700535746
1700535747
1700535748 图5.13 观察数据密度具有较大差异的数据簇的聚类效果
1700535749
1700535750
1700535751
1700535752
1700535753 图5.14 样本数量具有较大差异的数据簇的聚类效果
1700535754
1700535755
1700535756
1700535757
[ 上一页 ]  [ :1.700535708e+09 ]  [ 下一页 ]