打字猴:1.700500747e+09
1700500747
1700500748
1700500749
1700500750 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497606]
1700500751 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.6.2 聚类技术上的评价指标
1700500752
1700500753 从9.2节中讲解了,不同的聚类算法遵循不同的聚类原理和思路,因此它们必然也会有不同的评价标准和评价指标。鉴于K-Means算法和凝聚层次聚类算法在数据化运营实践中占绝对的主流应用地位,其中K-Means算法比后者应用更广泛,因此本节主要针对这两种算法的效果进行总结,当然这些指标的思路对于其他聚类算法而言也是有积极的借鉴和参考价值的。
1700500754
1700500755 ❑RMSSTD(Root-Mean-Square Standard Deviation):群体中所有变量的综合标准差,RMSSTD越小表明群体内(簇内)个体对象的相似程度越高,聚类效果越好。计算公式如下:
1700500756
1700500757
1700500758
1700500759
1700500760 其中,Si代表第i个变量在各群内的标准差之和,p为变量数量。
1700500761
1700500762 ❑R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。计算公式如下:
1700500763
1700500764
1700500765
1700500766
1700500767 其中,W代表聚类分组后的各组内部的差异程度,B代表聚类分组后各组之间的差异程度,T代表聚类分组后所有数据对象总的差异程度,并且T=W+B。
1700500768
1700500769 按照聚类的思想来看,一个好的聚类结果,应该是在R-Square∈[0,1]的范围内,并且R-Square越接近1越好,这说明了各个群类之间的差异,即B越大,而同组内(群内)各对象间的差异,即W越小,这正是聚类分析所希望达到的效果。计算公式如下:
1700500770
1700500771
1700500772
1700500773
1700500774
1700500775 其中,p代表有p个指标(变量),n代表有n个组员,代表总体平均值。
1700500776
1700500777 ❑SPR(Semi Partial R-Square):该指标适用于层次方法中的凝聚层次聚类算法,它表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SPR越小,表明合并成新的群体时,损失的群内相似性比例越小,新群体内的相似性越高,聚类效果就越好。
1700500778
1700500779 ❑Distance Between Clusters:该指标适用于层次方法中的凝聚层次聚类算法,它表示在要合并两个细分群体(簇)时,分别计算两个群体的中心,以求得两个群体的距离。一般来说,距离越小说明两个群体越适合合并成一个新群体。虽然该指标主要应用于层次方法中的凝聚层次聚类算法,但是从其算法原理来看,该指标也可应用于其他聚类算法中,包括K-Means算法,也就是说,在K-Means算法的聚类结果里,一样可以有这个指标,用于显示聚类的结果里各个群体间是否有足够的距离。这个指标越大,说明聚类分群效果越好。
1700500780
1700500781 上面总结的4个主要评价指标只是在聚类分析实践应用中最常用的指标,并不是针对聚类结果的全部评价指标,在实践应用中还有更多的指标可以供我们参考,其中最重要的是从业务背景的角度所提出来的指标,比如,特定群体的数量不能太少,聚类的结果要有很好的业务解释性等。另外,不同的数据挖掘软件或聚类软件,也会自带一些相关的指标,在实际应用中,数据分析师通常都是相互参考,再结合业务逻辑和业务专家的意见做综合评价的。
1700500782
1700500783
1700500784
1700500785
1700500786 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497607]
1700500787 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.7 一个典型的聚类分析课题的案例分享
1700500788
1700500789 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497608]
1700500790 9.7.1 案例背景
1700500791
1700500792 A公司推出了一个在线转账的产品,用户通过该产品在线转账时交易费用相比普通的网银要便宜。在经过一段时间的测试性运营之后,企业积累了一定数量的、使用该产品的付费用户数据,现在产品运营团队需要基于该批实际使用的付费用户数据,来分析找出有价值的特定群体,进而通过精细化运营提升付费用户数量。
1700500793
1700500794 由于该产品上线时间很短,业务方对于付费用户的特点并不十分清楚,另外前期运营阶段并没有做专门的定向推广,所以常规的分类(响应)模型并不适合当前的业务场景。在此情况下,数据分析师想到通过聚类分析技术锁定部分特征明显的目标群体,通过精细化运营促进付费用户的有效增长。
1700500795
1700500796
[ 上一页 ]  [ :1.700500747e+09 ]  [ 下一页 ]