打字猴:1.700535658e+09
1700535658 (1)估计聚类趋势。
1700535659
1700535660 这一步骤是检测数据分布中是否存在非随机的簇结构。如果数据是基本随机的,那么聚类的结果也是毫无意义的。我们可以观察聚类误差是否随聚类类别数量的增加而单调变化,如果数据是基本随机的,即不存在非随机簇结构,那么聚类误差随聚类类别数量增加而变化的幅度应该较不显著,并且也找不到一个合适的K对应数据的真实簇数。
1700535661
1700535662 另外,我们也可以应用霍普金斯统计量(Hopkins Statistic)来判断数据在空间上的随机性[7]。首先,从所有样本中随机找n个点,记为p1,p2,…,pn,对其中的每一个点pi,都在样本空间中找到一个离它最近的点并计算它们之间的距离xi,从而得到距离向量x1,x2,…,xn;然后,从样本的可能取值范围内随机生成n个点,记为q1,q2,…,qn,对每个随机生成的点,找到一个离它最近的样本点并计算它们之间的距离,得到y1,y2,…,yn。霍普金斯统计量H可以表示为:
1700535663
1700535664
1700535665
1700535666
1700535667 (5.15)
1700535668
1700535669
1700535670
1700535671
1700535672 如果样本接近随机分布,那么和的取值应该比较接近,即H的值接近于0.5;如果聚类趋势明显,则随机生成的样本点距离应该远大于实际样本点的距离,即,H的值接近于1。
1700535673
1700535674 (2)判定数据簇数。
1700535675
1700535676 确定聚类趋势之后,我们需要找到与真实数据分布最为吻合的簇数,据此判定聚类结果的质量。数据簇数的判定方法有很多,例如手肘法和Gap Statistic方法。需要说明的是,用于评估的最佳数据簇数可能与程序输出的簇数是不同的。例如,有些聚类算法可以自动地确定数据的簇数,但可能与我们通过其他方法确定的最优数据簇数有所差别。
1700535677
1700535678 (3)测定聚类质量。
1700535679
1700535680 给定预设的簇数,不同的聚类算法将输出不同的结果,如何判定哪个聚类结果的质量更高呢?在无监督的情况下,我们可以通过考察簇的分离情况和簇的紧凑情况来评估聚类的效果。定义评估指标可以展现面试者实际解决和分析问题的能力。事实上测量指标可以有很多种,以下列出了几种常用的度量指标,更多的指标可以阅读相关文献[8]。
1700535681
1700535682  
1700535683
1700535684
1700535685 轮廓系数:给定一个点p,该点的轮廓系数定义为 ,
1700535686
1700535687 (5.16)
1700535688
1700535689 其中a(p)是点p与同一簇中的其他点p’之间的平均距离;b(p)是点p与另一个不同簇中的点之间的最小平均距离(如果有n个其他簇,则只计算和点p最接近的一簇中的点与该点的平均距离)。a(p)反映的是p所属簇中数据的紧凑程度,b(p)反映的是该簇与其他临近簇的分离程度。显然,b(p)越大,a(p)越小,对应的聚类质量越好,因此我们将所有点对应的轮廓系数s(p)求平均值来度量聚类结果的质量。
1700535690
1700535691  
1700535692
1700535693
1700535694 均方根标准偏差(Root-mean-square standard deviation,RMSSTD):用来衡量聚结果的同质性,即紧凑程度,定义为 ,
1700535695
1700535696 (5.17)
1700535697
1700535698
1700535699
1700535700 其中Ci代表第i个簇,ci是该簇的中心,x∈Ci代表属于第i个簇的一个样本点,ni为第i个簇的样本数量,P为样本点对应的向量维数。可以看出,分母对点的维度P做了惩罚,维度越高,则整体的平方距离度量值越大。,其中n为样本点的总数,NC为聚类簇的个数,通常NC<
1700535701
1700535702  
1700535703
1700535704
1700535705 R方(R-Square):可以用来衡量聚类的差异度,定义为 ,
1700535706
1700535707 (5.18)
[ 上一页 ]  [ :1.700535658e+09 ]  [ 下一页 ]