打字猴:1.700501772e+09
1700501772
1700501773 统计技术是数据分析挖掘的基础,虽然本书多次强调在企业的数据化运营实践中并不需要严格区分统计技术与挖掘技术,只要能解决企业实际问题的技术就是好技术,但是如果从分析技术的使用集中度来看,在效果分析类型的业务场景中,统计技术里的假设检验是应用得最集中、最普遍、最频繁的,并且可以有效提供最终的评判结论。换句话说,在效果分析类型的业务场景中,通过假设检验技术完全可以满足分析需求。鉴于此,本章将详细讲解假设检验中与运营效果分析最相关、最常见、最主要也是最基本的一些分析方法和技术。
1700501774
1700501775 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497663]
1700501776 12.2.1 为什么要进行假设检验
1700501777
1700501778 之所以要对运营的效果进行假设检验评估,主要是基于以下两方面的原因:
1700501779
1700501780 ❑为了精确地区分出运营效果的差别到底是随机因素引起的,还是因为运营的因素引起的,以及在多大置信度内可以肯定是因为随机因素引起的,或者是因为运营的因素引起的。
1700501781
1700501782 ❑在很多情况下,效果的评估是基于样本的观测来进行的,为了从样本的结论里推导出总体的结论,也必须进行假设检验来判断样本的差异能否代表总体的差异,同时还要确定样本的差异在多大的置信度内可以代表总体的差异。
1700501783
1700501784 接下来着重介绍假设检验中与运营效果分析应用最密切、最常见的一些技术和方法,其包括T检验、F检验、非参数检验、卡方检验、控制变量的方法及ABtest方法。
1700501785
1700501786
1700501787
1700501788
1700501789 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497664]
1700501790 数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.2 假设检验的基本思想
1700501791
1700501792 在日常生产、生活和商业实践中,经常会碰到对于总体的一些判断,比如生产线上瓶装饮料的净重是否达标,细分用户群体的活跃度提升是否显著等,所有这些判断都有两个选择,要么达标,要么不达标;要么显著,要么不显著。即是非判断:要么是A,要么是非A。这两种选择对应的就是两个假设,一个是原假设H0(Null Hypothesis),一个是备选假设H1(Alternative)。相对于假设而言,在一次观察或试验中几乎不可能发现的事情,称之为小概率事件,小概率事件在一次试验中发生的概率则被称为显著性水平。
1700501793
1700501794 假设检验的基本思想和原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否会发生。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,因此有理由拒绝原假设,而接受备选假设;如果在一次试验中,小概率事件没有发生,只能说明没有足够的理由相信假设是错误的,但是并不能说明假设是正确的,因为无法收集到足够的证据证明假设是正确的。
1700501795
1700501796 从上面的讲解中可以看出,假设检验的结论是基于一定的显著性水平而得出的。因此,在观测事件并下结论时,有可能会犯错。在假设检验过程中,无法保证永远不犯错误,这些错误归纳起来有以下两类:
1700501797
1700501798 ❑第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,即α=1-置信度。
1700501799
1700501800 ❑第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。
1700501801
1700501802 上述这两类错误在其他条件不变的情况下是相反的,也即α增大时,β就减小;α减小时,β就增大。α错误容易受分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1、0.001。
1700501803
1700501804
1700501805
1700501806
1700501807 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497665]
1700501808 数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.3 T检验概述
1700501809
1700501810 T检验是大多数统计学教程中最先提到的统计分析方法和假设检验方法,在数据化运营的效果分析中也是应用得最多的方法和技术。T检验主要用以检验两组样本的均值相等的原假设。
1700501811
1700501812 在某些场合中,各组观察值是独立的,比如两组测试样本群体,一组是运营组,一组是对照组,运营组的样本是用来进行有针对性的运营活动的,而对照组的样本则会刻意避免有针对性的运营活动,这样才可以比较合理地进行运营效果的对比和评估;但是,在另外一些场合中,两组样本又会是配对关系,比如,针对某组用户,在进行针对性运营活动之前的活跃度与进行针对性运营活动之后的活跃度的差别比较。前者的独立对比是在两组观察值相互独立的情况下进行的,称为独立组样本的比较,通常采用独立组样本T检验方式;后者的配对比较是对观察值本身进行前后对比,而且是前后一一对应的配对关系,称为配对组样本的比较,通常采用配对组样本T检验方式。
1700501813
1700501814 鉴于T检验涉及独立样本和配对样本的区别,并且还涉及相应的条件是否满足等因素,因此下面将分别进行详细阐述。
1700501815
1700501816
1700501817
1700501818
1700501819 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497666]
1700501820 数据挖掘与数据化运营实战:思路、方法、技巧与应用 12.2.4 两组独立样本T检验的假设和检验
1700501821
[ 上一页 ]  [ :1.700501772e+09 ]  [ 下一页 ]