1700501790
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.2 假设检验的基本思想
1700501791
1700501792
在日常生产、生活和商业实践中,经常会碰到对于总体的一些判断,比如生产线上瓶装饮料的净重是否达标,细分用户群体的活跃度提升是否显著等,所有这些判断都有两个选择,要么达标,要么不达标;要么显著,要么不显著。即是非判断:要么是A,要么是非A。这两种选择对应的就是两个假设,一个是原假设H0(Null Hypothesis),一个是备选假设H1(Alternative)。相对于假设而言,在一次观察或试验中几乎不可能发现的事情,称之为小概率事件,小概率事件在一次试验中发生的概率则被称为显著性水平。
1700501793
1700501794
假设检验的基本思想和原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否会发生。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,因此有理由拒绝原假设,而接受备选假设;如果在一次试验中,小概率事件没有发生,只能说明没有足够的理由相信假设是错误的,但是并不能说明假设是正确的,因为无法收集到足够的证据证明假设是正确的。
1700501795
1700501796
从上面的讲解中可以看出,假设检验的结论是基于一定的显著性水平而得出的。因此,在观测事件并下结论时,有可能会犯错。在假设检验过程中,无法保证永远不犯错误,这些错误归纳起来有以下两类:
1700501797
1700501798
❑第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,即α=1-置信度。
1700501799
1700501800
❑第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。
1700501801
1700501802
上述这两类错误在其他条件不变的情况下是相反的,也即α增大时,β就减小;α减小时,β就增大。α错误容易受分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1、0.001。
1700501803
1700501804
1700501805
1700501806
1700501808
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.3 T检验概述
1700501809
1700501810
T检验是大多数统计学教程中最先提到的统计分析方法和假设检验方法,在数据化运营的效果分析中也是应用得最多的方法和技术。T检验主要用以检验两组样本的均值相等的原假设。
1700501811
1700501812
在某些场合中,各组观察值是独立的,比如两组测试样本群体,一组是运营组,一组是对照组,运营组的样本是用来进行有针对性的运营活动的,而对照组的样本则会刻意避免有针对性的运营活动,这样才可以比较合理地进行运营效果的对比和评估;但是,在另外一些场合中,两组样本又会是配对关系,比如,针对某组用户,在进行针对性运营活动之前的活跃度与进行针对性运营活动之后的活跃度的差别比较。前者的独立对比是在两组观察值相互独立的情况下进行的,称为独立组样本的比较,通常采用独立组样本T检验方式;后者的配对比较是对观察值本身进行前后对比,而且是前后一一对应的配对关系,称为配对组样本的比较,通常采用配对组样本T检验方式。
1700501813
1700501814
鉴于T检验涉及独立样本和配对样本的区别,并且还涉及相应的条件是否满足等因素,因此下面将分别进行详细阐述。
1700501815
1700501816
1700501817
1700501818
1700501820
数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.4 两组独立样本T检验的假设和检验
1700501821
1700501822
两组独立样本T检验要求数据符合以下3个条件:
1700501823
1700501824
❑观察值之间是独立的。所谓独立,是指观察值相互之间没有牵连关系。
1700501825
1700501826
❑每组观察值来自正态分布的总体,这个要求决定了数据必须是区间型(Interval)以上的变量。我们知道,严格意义上的正态分布是一种倒钟形的图形,如果将其图形沿着中心位置对半折叠,则其均值、众数、中位数3者会重叠在一起。因此可以说,正态分布是由其均值和标准偏差决定的,正态分布的特征是:对称的、偏度(Skewness)为0;呈钟形分布,峰度(Kurtosis)为0。当然,也可以专门用统计软件进行数据分布的正态性检验,当pr<w的概率值小于给定的α值0.05时,(α值一般有0.1、0.05和0.01 3种常规取值,分别表示显著性水平为:中等显著、显著和高度显著,说明数据不是来自正态分布的。)在SAS中,用于检验正态性的程序代码如下:
1700501827
1700501828
Proc UNIVARIATE data=数据集 NORMAL;
1700501829
1700501830
VAR 变量;
1700501831
1700501832
RUN;
1700501833
1700501834
❑两个独立组的方差相等。
1700501835
1700501836
如果两个独立样本的数据满足上述3个基本条件,就可以进行接下来的T检验,即均值相等的检验了。
1700501837
1700501838
示范案例:某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试,从同样的客户群体中抽出两组人群,一组作为运营组,通过针对性的运营活动希望提升其网站活跃度;另一组作为对照组,该组客户不做任何运营触碰,只是在后期与前面的运营组客户进行效果对比。30天的运营活动结束后,分别收集两组客户的网站活跃度分数,看两组分数是否有明显的差异。
1700501839
[
上一页 ]
[ :1.70050179e+09 ]
[
下一页 ]