1700502040
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.10 多个样本组的非参数检验
1700502041
1700502042
如果多个样本组的数据不是来自正态分布的总体,或者各样本组的方差不相等,在这些场景中,就不能使用方差分析的方法了,而只能采用非参数检验的方法。
1700502043
1700502044
还是以上一节的案例为例来进行说明,在为期两周的运营活动结束后,运营方希望通过数据分析来评价不同的运营方案是否对客户的活跃度提升有明显的差异。
1700502045
1700502046
最常用的多个样本组的非参数检验方法是Kruskal-Wallis检验,但在SAS中仍然可以利用NPAR1WAY过程中的Wilcoxon方法来实现,示范案例的具体程序代码如下:
1700502047
1700502048
Proc npar1way data=four Wilcoxon;
1700502049
1700502050
VAR score;
1700502051
1700502052
Class group;
1700502053
1700502054
Run;
1700502055
1700502056
运行上述程序后得到了非参数检验的结果,如图12-9所示。
1700502057
1700502058
1700502059
1700502060
1700502061
图12-9 多个独立样本组的Kruskal-Wallis检验结果
1700502062
1700502063
依据图12-9中的Kruskal-Wallis检验统计量对应的P值,即pr>Chi-Square<0.0001来看,在给定的显著性水平α=0.05的条件下,可知不同群体(Group)所反映的活跃度分数(Score)的总体位置是不相同的,即可以认为不同群体的活跃度分数是有明显差异的。
1700502064
1700502065
1700502066
1700502067
1700502069
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.11 卡方检验
1700502070
1700502071
卡方检验(Chi-Square Test)也是一种应用非常广泛的假设检验方法,它属于非参数检验的范畴,主要是比较两个和两个以上的样本率(构成比例),以及对两个分类变量的关联性进行分析,其根本思想是比较理论频数和实际频数的吻合程度或者拟合度。
1700502072
1700502073
关于卡方检验的原理和公式,本书在第8.6.5节已有详细介绍,在这里就不再赘述了。
1700502074
1700502075
示范案例:某公司运营部门根据用户的属性将用户分为5个不同的群体Segment,分别为a,b,c,d,e 5个群体,并从总体中提取5个群体中的一些样本,分别针对各个群体在过去30天内是否发生网上交易(Make-Deal)的记录进行统计,现在想知道不同群体之间发生网上交易的比例是否有明显的差别。
1700502076
1700502077
卡方检验在SAS中可以通过Freq过程来实现,本示范的具体程序代码如下:
1700502078
1700502079
Proc freq data=five;
1700502080
1700502081
Table segment*make_deal/chisq;
1700502082
1700502083
Run;
1700502084
1700502085
运行上述程序后得到卡方检验的结果,如图12-10所示。
1700502086
1700502087
1700502088
1700502089
[
上一页 ]
[ :1.70050204e+09 ]
[
下一页 ]