1702627609
A/B测试只是小孩子的把戏
1702627610
1702627611
实际上,除了在上文中提到过的毫无意义的单纯统计之外,像这样不考虑误差的交叉表统计所导致的不准确结果,也经常出现在商业领域。
1702627612
1702627613
以前有一家聘请我做他们统计学讲师的电子商务企业,就非常热衷于进行“A/B测试”。比如,双击改变广告条的大小、改变页面之间的跳转画面、改变页面文字和字体等,对设计细节和功能方面进行变更的时候,总是会进行“哪一种设计看上去更好”的讨论和分析。
1702627614
1702627615
所谓“A/B测试”,是指在对设计或者功能进行更改时,同时提出A方案和B方案进行比较的一种方法。最近在硅谷,为A/B测试提供工具和服务,似乎成了最热门的项目,Adobe公司也斥巨资收购了在这一领域占主导地位的Omniture公司,另外谷歌公司出身并且出任奥巴马总统竞选参谋的丹·西罗克所成立的Optimizely公司,也在这一领域大放异彩,博得世人瞩目。
1702627616
1702627617
绝大多数情况下,A/B测试的方法是在用户访问网站的时候随机打开A方案或B方案的页面,收集一定时间内访问量的数据,然后对A方案和B方案的结果进行比较(无法随机分配的情况下,可以按照一定时间为单位,比如1周时间,分别打开A方案或B方案)。
1702627618
1702627619
用于进行比较的数据包括广告条点击率和商品销量,付费会员的加入率等与利益直接挂钩的数据,判断出A方案与B方案哪个更好之后,接下来就将那个更好的方案正式应用于网站之上。
1702627620
1702627621
另外,同时进行3种或以上的方案比较时,并不称为“A/B/C测试”,而是仍然称为“A/B测试”。顺便说一句,在统计学上像这样的数据选取方法并不叫作“A/B测试”,而是叫作随机对照试验(A方案与B方案的条件改变中不包含随机因素的试验叫作准试验)。
1702627622
1702627623
稍微有点儿跑题了,总之这家电子商务企业每个月都会非常卖力地进行详细的A/B测试。因为每年购买率的改变都会影响上亿日元的销售额,所以这家企业专门成立了研究小组,随时根据购买率的变更情况研究新的网页方案,可以说是一个非常了不起的战略。
1702627624
1702627625
提出增加购买率改变方案的员工,会在公司的例会上得到表扬,负责执行的全体工作人员都会“沐浴”在一片赞誉声中。可以说,他们是一个非常优秀的将数据灵活应用在经营当中的例子。
1702627626
1702627627
但是,这里却存在着一个陷阱,那就是他们没有考虑误差。
1702627628
1702627629
在我作为讲师给他们上完课之后,负责进行A/B测试的小组成员之一向我提出了这样一个问题:A/B测试的结果也能够进行分析吗?她向我提供了一个像表3–1那样的结果(实际数据与此不同)。
1702627630
1702627631
也就是说,他们将现有的页面A和改良后的页面B,随机分配给网站的访问者,并且各取10万次的访问量进行分析,结果显示现有的页面A购买率为9.5%,而改良后的页面B购买率为9.6%。
1702627632
1702627633
表3–1 某电子商务企业的A/B测试结果
1702627634
1702627635
购买商品 没购买商品 总计 A(现有) 9500人(9.5%) 90500人(90.5%) 10万人 B(改良) 9600人(9.6%) 90400人(90.4%) 10万人 按照上文内容中的思考方法,采用改良后的页面有可能使销售额提高到原来的1.01倍(9.6%÷9.5%)。也就是说如果这家企业现在的销售额为10亿日元,那么就是提高约1 000万日元,如果是100亿日元的话则有可能增加1亿日元的销售额。而且,他们根本不必进行什么特别的投资,只是对网页进行细微的设计变更即可。由此可见执行人员“沐浴”在一片赞誉声中也是情有可原的。
1702627636
1702627637
但遗憾的是,我们并不知道这个区别究竟是有意义的区别,抑或仅仅是误差?
1702627638
1702627639
卡方检验与p值的登场
1702627640
1702627641
对于像这样的交叉表,要想知道究竟是“有意义的区别”,还是“误差导致的区别”,就需要用到一种被称为“卡方检验”的分析方法。
1702627642
1702627643
对上述A/B测试的结果进行卡方检验之后,发现实际上两者之间没有任何区别,只是因为数据的误差导致出现这种程度(10万人中有100人或者更多)区别的概率为44.7%。
1702627644
1702627645
像这种“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。
1702627646
1702627647
这个p值越小(一般在5%以下),数据就越准确,证明其不是偶然导致的结果。
1702627648
1702627649
而本应在5%以下的p值在上一个实例中竟然高达44.7%,也就是说使这些试验员“沐浴”在一片赞誉声中的结果,是否真的能够在今后带来上亿日元的销售额,还是一个未知数。
1702627650
1702627651
试验员进行的这种测试,其实就相当于一个人只投了一次硬币刚好正面朝上,因此就欣喜若狂地声称“了不起!我找到了一个能够连续投出正面的魔法硬币”或者“了不起!我拥有了连续使硬币正面朝上的魔法”。
1702627652
1702627653
在不知道这样做究竟有没有意义的情况下,定期对网站进行更改,结果可能是时好时坏,而试验员的工作究竟对增加收益有没有帮助,同样无从得知。
1702627654
1702627655
当然,我不只告诉她“这个区别不知道是否有意义”,还告诉她“就算是0.1%的微小区别,如果实际上确实存在的话,可以通过增加样本数量的方法证明”。之前我们已经知道,数据的样本数量越多,误差就越小。所以,要想通过数据来证明购买率有0.1%的提高,可以将各自的样本数量提高到100万人次再进行分析。
1702627656
1702627657
只要稍微掌握一点统计学的知识,这种程度的计算很快就可以搞定。
1702627658
[
上一页 ]
[ :1.702627609e+09 ]
[
下一页 ]