1700501820
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.4 两组独立样本T检验的假设和检验
1700501821
1700501822
两组独立样本T检验要求数据符合以下3个条件:
1700501823
1700501824
❑观察值之间是独立的。所谓独立,是指观察值相互之间没有牵连关系。
1700501825
1700501826
❑每组观察值来自正态分布的总体,这个要求决定了数据必须是区间型(Interval)以上的变量。我们知道,严格意义上的正态分布是一种倒钟形的图形,如果将其图形沿着中心位置对半折叠,则其均值、众数、中位数3者会重叠在一起。因此可以说,正态分布是由其均值和标准偏差决定的,正态分布的特征是:对称的、偏度(Skewness)为0;呈钟形分布,峰度(Kurtosis)为0。当然,也可以专门用统计软件进行数据分布的正态性检验,当pr<w的概率值小于给定的α值0.05时,(α值一般有0.1、0.05和0.01 3种常规取值,分别表示显著性水平为:中等显著、显著和高度显著,说明数据不是来自正态分布的。)在SAS中,用于检验正态性的程序代码如下:
1700501827
1700501828
Proc UNIVARIATE data=数据集 NORMAL;
1700501829
1700501830
VAR 变量;
1700501831
1700501832
RUN;
1700501833
1700501834
❑两个独立组的方差相等。
1700501835
1700501836
如果两个独立样本的数据满足上述3个基本条件,就可以进行接下来的T检验,即均值相等的检验了。
1700501837
1700501838
示范案例:某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试,从同样的客户群体中抽出两组人群,一组作为运营组,通过针对性的运营活动希望提升其网站活跃度;另一组作为对照组,该组客户不做任何运营触碰,只是在后期与前面的运营组客户进行效果对比。30天的运营活动结束后,分别收集两组客户的网站活跃度分数,看两组分数是否有明显的差异。
1700501839
1700501840
在SAS中,两组独立样本的T检验利用简单的TTest过程步骤可以实现,本案例具体程序代码如下:
1700501841
1700501842
Proc TTest data=Work.One;
1700501843
1700501844
Class group;
1700501845
1700501846
VAR score;
1700501847
1700501848
Run;
1700501849
1700501850
上述命令针对数据集One中两个样本人群组group进行了关于活跃度分数score是否相等的T检验,该数据集有两个样本人群分别为a和b。
1700501851
1700501852
运行上述程序后得到针对两个独立样本进行T检验后的结果,如图12-1所示。
1700501853
1700501854
1700501855
1700501856
1700501857
图12-1 两组独立样本的T检验结果
1700501858
1700501859
从图12-1可以看出,pr>F的值为0.372 6,该值大于α理论值0.05,所有没有理由拒绝方差相等的假设,因而上述两组样本的方差是相等的。
1700501860
1700501861
再看T-Tests:pr>|t|的值为0.000 6,小于α理论值0.05,所以有足够的理由拒绝两个样本的均值差为0的假设,也即两个样本组的活跃度分数的均值是不相等的。
1700501862
1700501863
1700501864
1700501865
1700501867
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.5 两组独立样本的非参数检验
1700501868
1700501869
虽然两组观察值是各自独立的,但是每组观察值不一定来自正态分布的总体,同时两个独立样本组的方差也不一定相等,这时就不能采用独立样本的T检验了,而必须进行两组独立样本的Wilcoxon秩和检验。
[
上一页 ]
[ :1.70050182e+09 ]
[
下一页 ]