打字猴:1.702627609e+09

1702627609 A/B测试只是小孩子的把戏

1702627610

1702627611 实际上，除了在上文中提到过的毫无意义的单纯统计之外，像这样不考虑误差的交叉表统计所导致的不准确结果，也经常出现在商业领域。

1702627612

1702627613 以前有一家聘请我做他们统计学讲师的电子商务企业，就非常热衷于进行“A/B测试”。比如，双击改变广告条的大小、改变页面之间的跳转画面、改变页面文字和字体等，对设计细节和功能方面进行变更的时候，总是会进行“哪一种设计看上去更好”的讨论和分析。

1702627614

1702627615 所谓“A/B测试”，是指在对设计或者功能进行更改时，同时提出A方案和B方案进行比较的一种方法。最近在硅谷，为A/B测试提供工具和服务，似乎成了最热门的项目，Adobe公司也斥巨资收购了在这一领域占主导地位的Omniture公司，另外谷歌公司出身并且出任奥巴马总统竞选参谋的丹·西罗克所成立的Optimizely公司，也在这一领域大放异彩，博得世人瞩目。

1702627616

1702627617 绝大多数情况下，A/B测试的方法是在用户访问网站的时候随机打开A方案或B方案的页面，收集一定时间内访问量的数据，然后对A方案和B方案的结果进行比较（无法随机分配的情况下，可以按照一定时间为单位，比如1周时间，分别打开A方案或B方案）。

1702627618

1702627619 用于进行比较的数据包括广告条点击率和商品销量，付费会员的加入率等与利益直接挂钩的数据，判断出A方案与B方案哪个更好之后，接下来就将那个更好的方案正式应用于网站之上。

1702627620

1702627621 另外，同时进行3种或以上的方案比较时，并不称为“A/B/C测试”，而是仍然称为“A/B测试”。顺便说一句，在统计学上像这样的数据选取方法并不叫作“A/B测试”，而是叫作随机对照试验（A方案与B方案的条件改变中不包含随机因素的试验叫作准试验）。

1702627622

1702627623 稍微有点儿跑题了，总之这家电子商务企业每个月都会非常卖力地进行详细的A/B测试。因为每年购买率的改变都会影响上亿日元的销售额，所以这家企业专门成立了研究小组，随时根据购买率的变更情况研究新的网页方案，可以说是一个非常了不起的战略。

1702627624

1702627625 提出增加购买率改变方案的员工，会在公司的例会上得到表扬，负责执行的全体工作人员都会“沐浴”在一片赞誉声中。可以说，他们是一个非常优秀的将数据灵活应用在经营当中的例子。

1702627626

1702627627 但是，这里却存在着一个陷阱，那就是他们没有考虑误差。

1702627628

1702627629 在我作为讲师给他们上完课之后，负责进行A/B测试的小组成员之一向我提出了这样一个问题：A/B测试的结果也能够进行分析吗？她向我提供了一个像表3–1那样的结果（实际数据与此不同）。

1702627630

1702627631 也就是说，他们将现有的页面A和改良后的页面B，随机分配给网站的访问者，并且各取10万次的访问量进行分析，结果显示现有的页面A购买率为9.5%，而改良后的页面B购买率为9.6%。

1702627632

1702627633 表3–1 某电子商务企业的A/B测试结果

1702627634

1702627635 购买商品没购买商品总计 A（现有） 9500人（9.5%） 90500人（90.5%） 10万人 B（改良） 9600人（9.6%） 90400人（90.4%） 10万人按照上文内容中的思考方法，采用改良后的页面有可能使销售额提高到原来的1.01倍（9.6%÷9.5%）。也就是说如果这家企业现在的销售额为10亿日元，那么就是提高约1 000万日元，如果是100亿日元的话则有可能增加1亿日元的销售额。而且，他们根本不必进行什么特别的投资，只是对网页进行细微的设计变更即可。由此可见执行人员“沐浴”在一片赞誉声中也是情有可原的。

1702627636

1702627637 但遗憾的是，我们并不知道这个区别究竟是有意义的区别，抑或仅仅是误差？

1702627638

1702627639 卡方检验与p值的登场

1702627640

1702627641 对于像这样的交叉表，要想知道究竟是“有意义的区别”，还是“误差导致的区别”，就需要用到一种被称为“卡方检验”的分析方法。

1702627642

1702627643 对上述A/B测试的结果进行卡方检验之后，发现实际上两者之间没有任何区别，只是因为数据的误差导致出现这种程度（10万人中有100人或者更多）区别的概率为44.7%。

1702627644

1702627645 像这种“实际上没有任何区别，只是因为误差或偶然产生数据差（甚至有可能包括极端的差距）的概率”在统计学上称为p值。

1702627646

1702627647 这个p值越小（一般在5%以下），数据就越准确，证明其不是偶然导致的结果。

1702627648

1702627649 而本应在5%以下的p值在上一个实例中竟然高达44.7%，也就是说使这些试验员“沐浴”在一片赞誉声中的结果，是否真的能够在今后带来上亿日元的销售额，还是一个未知数。

1702627650

1702627651 试验员进行的这种测试，其实就相当于一个人只投了一次硬币刚好正面朝上，因此就欣喜若狂地声称“了不起！我找到了一个能够连续投出正面的魔法硬币”或者“了不起！我拥有了连续使硬币正面朝上的魔法”。

1702627652

1702627653 在不知道这样做究竟有没有意义的情况下，定期对网站进行更改，结果可能是时好时坏，而试验员的工作究竟对增加收益有没有帮助，同样无从得知。

1702627654

1702627655 当然，我不只告诉她“这个区别不知道是否有意义”，还告诉她“就算是0.1%的微小区别，如果实际上确实存在的话，可以通过增加样本数量的方法证明”。之前我们已经知道，数据的样本数量越多，误差就越小。所以，要想通过数据来证明购买率有0.1%的提高，可以将各自的样本数量提高到100万人次再进行分析。

1702627656

1702627657 只要稍微掌握一点统计学的知识，这种程度的计算很快就可以搞定。

1702627658

[ 上一页 ] [ :1.702627609e+09 ] [ 下一页 ]