打字猴:1.702627597e+09
1702627597 不考虑“误差”的计算都不准确
1702627598
1702627599 在上一节内容中,我们通过单纯的交叉表统计证明了有可能增加销售额的主要因素,并且对可能增加的额度进行了计算,但这些都是不准确的。
1702627600
1702627601 为什么这样说呢?因为这些计算全都没有考虑“误差”因素。
1702627602
1702627603 可以说费希尔时代与之前的统计学之间最大的区别,就在于是否考虑误差。数据究竟有多大的误差,这个误差对真正的结果有多大影响,考虑误差对于结果是否有意义,费希尔最大的贡献就是证明了上述这些问题。
1702627604
1702627605 在上文提到的事例中,“投放DM的群体与未投放DM的群体之间销售额的区别”就是我们真正关心的值。单纯的推测销售额是500日元,但实际上这500日元是包含误差的值。如果今后继续追加数据进行同样的分析,那么这个数值可能是300日元,也可能是1 000日元,甚至有时候可能未投放DM的群体的销售额反而更高。
1702627606
1702627607 最坏的情况是,投放DM的群体与未投放DM的群体之间的销售额几乎没有区别,而得出投放DM的群体平均销售额更高的数据只是误差导致的结果。或者虽然有区别,但是差额甚至不足以弥补投放DM所需的成本。如果在这样的情况下,做出“积极投放DM”的战略决定,那么投放DM所花费的资金就全打水漂儿了。
1702627608
1702627609 A/B测试只是小孩子的把戏
1702627610
1702627611 实际上,除了在上文中提到过的毫无意义的单纯统计之外,像这样不考虑误差的交叉表统计所导致的不准确结果,也经常出现在商业领域。
1702627612
1702627613 以前有一家聘请我做他们统计学讲师的电子商务企业,就非常热衷于进行“A/B测试”。比如,双击改变广告条的大小、改变页面之间的跳转画面、改变页面文字和字体等,对设计细节和功能方面进行变更的时候,总是会进行“哪一种设计看上去更好”的讨论和分析。
1702627614
1702627615 所谓“A/B测试”,是指在对设计或者功能进行更改时,同时提出A方案和B方案进行比较的一种方法。最近在硅谷,为A/B测试提供工具和服务,似乎成了最热门的项目,Adobe公司也斥巨资收购了在这一领域占主导地位的Omniture公司,另外谷歌公司出身并且出任奥巴马总统竞选参谋的丹·西罗克所成立的Optimizely公司,也在这一领域大放异彩,博得世人瞩目。
1702627616
1702627617 绝大多数情况下,A/B测试的方法是在用户访问网站的时候随机打开A方案或B方案的页面,收集一定时间内访问量的数据,然后对A方案和B方案的结果进行比较(无法随机分配的情况下,可以按照一定时间为单位,比如1周时间,分别打开A方案或B方案)。
1702627618
1702627619 用于进行比较的数据包括广告条点击率和商品销量,付费会员的加入率等与利益直接挂钩的数据,判断出A方案与B方案哪个更好之后,接下来就将那个更好的方案正式应用于网站之上。
1702627620
1702627621 另外,同时进行3种或以上的方案比较时,并不称为“A/B/C测试”,而是仍然称为“A/B测试”。顺便说一句,在统计学上像这样的数据选取方法并不叫作“A/B测试”,而是叫作随机对照试验(A方案与B方案的条件改变中不包含随机因素的试验叫作准试验)。
1702627622
1702627623 稍微有点儿跑题了,总之这家电子商务企业每个月都会非常卖力地进行详细的A/B测试。因为每年购买率的改变都会影响上亿日元的销售额,所以这家企业专门成立了研究小组,随时根据购买率的变更情况研究新的网页方案,可以说是一个非常了不起的战略。
1702627624
1702627625 提出增加购买率改变方案的员工,会在公司的例会上得到表扬,负责执行的全体工作人员都会“沐浴”在一片赞誉声中。可以说,他们是一个非常优秀的将数据灵活应用在经营当中的例子。
1702627626
1702627627 但是,这里却存在着一个陷阱,那就是他们没有考虑误差。
1702627628
1702627629 在我作为讲师给他们上完课之后,负责进行A/B测试的小组成员之一向我提出了这样一个问题:A/B测试的结果也能够进行分析吗?她向我提供了一个像表3–1那样的结果(实际数据与此不同)。
1702627630
1702627631 也就是说,他们将现有的页面A和改良后的页面B,随机分配给网站的访问者,并且各取10万次的访问量进行分析,结果显示现有的页面A购买率为9.5%,而改良后的页面B购买率为9.6%。
1702627632
1702627633 表3–1 某电子商务企业的A/B测试结果
1702627634
1702627635     购买商品   没购买商品   总计   A(现有)   9500人(9.5%)   90500人(90.5%)   10万人   B(改良)   9600人(9.6%)   90400人(90.4%)   10万人  按照上文内容中的思考方法,采用改良后的页面有可能使销售额提高到原来的1.01倍(9.6%÷9.5%)。也就是说如果这家企业现在的销售额为10亿日元,那么就是提高约1 000万日元,如果是100亿日元的话则有可能增加1亿日元的销售额。而且,他们根本不必进行什么特别的投资,只是对网页进行细微的设计变更即可。由此可见执行人员“沐浴”在一片赞誉声中也是情有可原的。
1702627636
1702627637 但遗憾的是,我们并不知道这个区别究竟是有意义的区别,抑或仅仅是误差?
1702627638
1702627639 卡方检验与p值的登场
1702627640
1702627641 对于像这样的交叉表,要想知道究竟是“有意义的区别”,还是“误差导致的区别”,就需要用到一种被称为“卡方检验”的分析方法。
1702627642
1702627643 对上述A/B测试的结果进行卡方检验之后,发现实际上两者之间没有任何区别,只是因为数据的误差导致出现这种程度(10万人中有100人或者更多)区别的概率为44.7%。
1702627644
1702627645 像这种“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。
1702627646
[ 上一页 ]  [ :1.702627597e+09 ]  [ 下一页 ]