1700535670
1700535671
1700535672
如果样本接近随机分布,那么和的取值应该比较接近,即H的值接近于0.5;如果聚类趋势明显,则随机生成的样本点距离应该远大于实际样本点的距离,即,H的值接近于1。
1700535673
1700535674
(2)判定数据簇数。
1700535675
1700535676
确定聚类趋势之后,我们需要找到与真实数据分布最为吻合的簇数,据此判定聚类结果的质量。数据簇数的判定方法有很多,例如手肘法和Gap Statistic方法。需要说明的是,用于评估的最佳数据簇数可能与程序输出的簇数是不同的。例如,有些聚类算法可以自动地确定数据的簇数,但可能与我们通过其他方法确定的最优数据簇数有所差别。
1700535677
1700535678
(3)测定聚类质量。
1700535679
1700535680
给定预设的簇数,不同的聚类算法将输出不同的结果,如何判定哪个聚类结果的质量更高呢?在无监督的情况下,我们可以通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。定义评估指标可以展现面试者实际解决和分析问题的能力。事实上测量指标可以有很多种,以下列出了几种常用的度量指标,更多的指标可以阅读相关文献[8]。
1700535681
1700535682
1700535683
1700535684
1700535685
轮廓系数:给定一个点p,该点的轮廓系数定义为 ,
1700535686
1700535687
(5.16)
1700535688
1700535689
其中a(p)是点p与同一簇中的其他点p’之间的平均距离;b(p)是点p与另一个不同簇中的点之间的最小平均距离(如果有n个其他簇,则只计算和点p最接近的一簇中的点与该点的平均距离)。a(p)反映的是p所属簇中数据的紧凑程度,b(p)反映的是该簇与其他临近簇的分离程度。显然,b(p)越大,a(p)越小,对应的聚类质量越好,因此我们将所有点对应的轮廓系数s(p)求平均值来度量聚类结果的质量。
1700535690
1700535691
1700535692
1700535693
1700535694
均方根标准偏差(Root-mean-square standard deviation,RMSSTD):用来衡量聚结果的同质性,即紧凑程度,定义为 ,
1700535695
1700535696
(5.17)
1700535697
1700535698
1700535699
1700535700
其中Ci代表第i个簇,ci是该簇的中心,x∈Ci代表属于第i个簇的一个样本点,ni为第i个簇的样本数量,P为样本点对应的向量维数。可以看出,分母对点的维度P做了惩罚,维度越高,则整体的平方距离度量值越大。,其中n为样本点的总数,NC为聚类簇的个数,通常NC<
1700535701
1700535702
1700535703
1700535704
1700535705
R方(R-Square):可以用来衡量聚类的差异度,定义为 ,
1700535706
1700535707
(5.18)
1700535708
1700535709
1700535710
1700535711
其中D代表整个数据集,c代表数据集D的中心点,从而代表将数据集D看作单一簇时的平方误差和。与上一指标RMSSTD中的定义相同,代表将数据集聚类之后的平方误差和,所以RS代表了聚类之后的结果与聚类之前相比,对应的平方误差和指标的改进幅度。
1700535712
1700535713
1700535714
1700535715
1700535716
改进的HubertΓ统计:通过数据对的不一致性来评估聚类的差异,定义为 ,
1700535717
1700535718
(5.19)
1700535719
[
上一页 ]
[ :1.70053567e+09 ]
[
下一页 ]