打字猴:1.700501808e+09
1700501808 数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.3 T检验概述
1700501809
1700501810 T检验是大多数统计学教程中最先提到的统计分析方法和假设检验方法,在数据化运营的效果分析中也是应用得最多的方法和技术。T检验主要用以检验两组样本的均值相等的原假设。
1700501811
1700501812 在某些场合中,各组观察值是独立的,比如两组测试样本群体,一组是运营组,一组是对照组,运营组的样本是用来进行有针对性的运营活动的,而对照组的样本则会刻意避免有针对性的运营活动,这样才可以比较合理地进行运营效果的对比和评估;但是,在另外一些场合中,两组样本又会是配对关系,比如,针对某组用户,在进行针对性运营活动之前的活跃度与进行针对性运营活动之后的活跃度的差别比较。前者的独立对比是在两组观察值相互独立的情况下进行的,称为独立组样本的比较,通常采用独立组样本T检验方式;后者的配对比较是对观察值本身进行前后对比,而且是前后一一对应的配对关系,称为配对组样本的比较,通常采用配对组样本T检验方式。
1700501813
1700501814 鉴于T检验涉及独立样本和配对样本的区别,并且还涉及相应的条件是否满足等因素,因此下面将分别进行详细阐述。
1700501815
1700501816
1700501817
1700501818
1700501819 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497666]
1700501820 数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.4 两组独立样本T检验的假设和检验
1700501821
1700501822 两组独立样本T检验要求数据符合以下3个条件:
1700501823
1700501824 ❑观察值之间是独立的。所谓独立,是指观察值相互之间没有牵连关系。
1700501825
1700501826 ❑每组观察值来自正态分布的总体,这个要求决定了数据必须是区间型(Interval)以上的变量。我们知道,严格意义上的正态分布是一种倒钟形的图形,如果将其图形沿着中心位置对半折叠,则其均值、众数、中位数3者会重叠在一起。因此可以说,正态分布是由其均值和标准偏差决定的,正态分布的特征是:对称的、偏度(Skewness)为0;呈钟形分布,峰度(Kurtosis)为0。当然,也可以专门用统计软件进行数据分布的正态性检验,当pr<w的概率值小于给定的α值0.05时,(α值一般有0.1、0.05和0.01 3种常规取值,分别表示显著性水平为:中等显著、显著和高度显著,说明数据不是来自正态分布的。)在SAS中,用于检验正态性的程序代码如下:
1700501827
1700501828 Proc UNIVARIATE data=数据集 NORMAL;
1700501829
1700501830 VAR 变量;
1700501831
1700501832 RUN;
1700501833
1700501834 ❑两个独立组的方差相等。
1700501835
1700501836 如果两个独立样本的数据满足上述3个基本条件,就可以进行接下来的T检验,即均值相等的检验了。
1700501837
1700501838 示范案例:某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试,从同样的客户群体中抽出两组人群,一组作为运营组,通过针对性的运营活动希望提升其网站活跃度;另一组作为对照组,该组客户不做任何运营触碰,只是在后期与前面的运营组客户进行效果对比。30天的运营活动结束后,分别收集两组客户的网站活跃度分数,看两组分数是否有明显的差异。
1700501839
1700501840 在SAS中,两组独立样本的T检验利用简单的TTest过程步骤可以实现,本案例具体程序代码如下:
1700501841
1700501842 Proc TTest data=Work.One;
1700501843
1700501844 Class group;
1700501845
1700501846 VAR score;
1700501847
1700501848 Run;
1700501849
1700501850 上述命令针对数据集One中两个样本人群组group进行了关于活跃度分数score是否相等的T检验,该数据集有两个样本人群分别为a和b。
1700501851
1700501852 运行上述程序后得到针对两个独立样本进行T检验后的结果,如图12-1所示。
1700501853
1700501854
1700501855
1700501856
1700501857 图12-1 两组独立样本的T检验结果
[ 上一页 ]  [ :1.700501808e+09 ]  [ 下一页 ]