1700500760
其中,Si代表第i个变量在各群内的标准差之和,p为变量数量。
1700500761
1700500762
❑R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。计算公式如下:
1700500763
1700500764
1700500765
1700500766
1700500767
其中,W代表聚类分组后的各组内部的差异程度,B代表聚类分组后各组之间的差异程度,T代表聚类分组后所有数据对象总的差异程度,并且T=W+B。
1700500768
1700500769
按照聚类的思想来看,一个好的聚类结果,应该是在R-Square∈[0,1]的范围内,并且R-Square越接近1越好,这说明了各个群类之间的差异,即B越大,而同组内(群内)各对象间的差异,即W越小,这正是聚类分析所希望达到的效果。计算公式如下:
1700500770
1700500771
1700500772
1700500773
1700500774
1700500775
其中,p代表有p个指标(变量),n代表有n个组员,代表总体平均值。
1700500776
1700500777
❑SPR(Semi Partial R-Square):该指标适用于层次方法中的凝聚层次聚类算法,它表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SPR越小,表明合并成新的群体时,损失的群内相似性比例越小,新群体内的相似性越高,聚类效果就越好。
1700500778
1700500779
❑Distance Between Clusters:该指标适用于层次方法中的凝聚层次聚类算法,它表示在要合并两个细分群体(簇)时,分别计算两个群体的中心,以求得两个群体的距离。一般来说,距离越小说明两个群体越适合合并成一个新群体。虽然该指标主要应用于层次方法中的凝聚层次聚类算法,但是从其算法原理来看,该指标也可应用于其他聚类算法中,包括K-Means算法,也就是说,在K-Means算法的聚类结果里,一样可以有这个指标,用于显示聚类的结果里各个群体间是否有足够的距离。这个指标越大,说明聚类分群效果越好。
1700500780
1700500781
上面总结的4个主要评价指标只是在聚类分析实践应用中最常用的指标,并不是针对聚类结果的全部评价指标,在实践应用中还有更多的指标可以供我们参考,其中最重要的是从业务背景的角度所提出来的指标,比如,特定群体的数量不能太少,聚类的结果要有很好的业务解释性等。另外,不同的数据挖掘软件或聚类软件,也会自带一些相关的指标,在实际应用中,数据分析师通常都是相互参考,再结合业务逻辑和业务专家的意见做综合评价的。
1700500782
1700500783
1700500784
1700500785
1700500787
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.7 一个典型的聚类分析课题的案例分享
1700500788
1700500790
9.7.1 案例背景
1700500791
1700500792
A公司推出了一个在线转账的产品,用户通过该产品在线转账时交易费用相比普通的网银要便宜。在经过一段时间的测试性运营之后,企业积累了一定数量的、使用该产品的付费用户数据,现在产品运营团队需要基于该批实际使用的付费用户数据,来分析找出有价值的特定群体,进而通过精细化运营提升付费用户数量。
1700500793
1700500794
由于该产品上线时间很短,业务方对于付费用户的特点并不十分清楚,另外前期运营阶段并没有做专门的定向推广,所以常规的分类(响应)模型并不适合当前的业务场景。在此情况下,数据分析师想到通过聚类分析技术锁定部分特征明显的目标群体,通过精细化运营促进付费用户的有效增长。
1700500795
1700500796
1700500797
1700500798
1700500800
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.7.2 基本的数据摸底
1700500801
1700500802
数据分析师与运营方协商,针对前期测试性运营时所产生的那部分实际付费的用户来整理特征,根据业务逻辑推测和业务经验判断,大致整理出了15个可能的特征字段。
1700500803
1700500804
在进行聚类分析之前,先对部分异常值进行了删除处理。关于异常值的详细介绍,可参考8.4.2节的内容。
1700500805
1700500806
由于在聚类分析中参与聚类的变量不能太多,同时考虑到聚类样本数量有限,因此本项目实际聚类的变量数量为4个。更多的其他变量指标可以在聚类完成后进行群体描述时添加进来,再进行群体特征分析。在聚类之前,针对所有数值型变量进行相关性检验,对于高度线性相关的变量只保留一个进入聚类过程。
1700500807
1700500808
考虑到企业的商业隐私,下面展示的分析过程和聚类结果是基于抽样的部分样本得到的,聚类中的群体数量不代表企业的真实用户规模,特此说明。
1700500809
[
上一页 ]
[ :1.70050076e+09 ]
[
下一页 ]