1701778398
1701778399
如同在政治活动中一样,“A或B”测试在商业运作中也行之有效,因为调研者可以按照不同群体的需求分析,随机安排不同策略。当样本量很大时,即便是很小的差异也能被发现。商业活动亦如政治,牵一发而动全身,小节见成败。
1701778400
1701778401
经济效益与社会效益并举
1701778402
1701778403
商人将“A或B”测试运用得更为娴熟。他们发现这种测试法可以有效帮助其提升人们的生活品质,促进收益增长。
1701778404
1701778405
研究者在得克萨斯州厄尔巴索市的一家超市利用“A或B”测试研究了可提升果蔬销售量的一系列策略。在购物车中放置一块隔板,并在上面贴上标示,写上“请把果蔬放在购物车的前端”。此举让果蔬的销售量提升了一倍,果蔬部赚得的利润比其他部门都多,这也对消费者的健康大有裨益。研究者同样分析了社会影响力因素。如果有标牌告知消费者,其他购物者也购买了一定量的商品,则能够刺激销售量。研究结果表明,那些标示牌对于果蔬的销售量提升作用最大,其对应的消费群体是低收入人群——这些人更可能购买加工处理过的食物而较少购买新鲜农产品。
1701778406
1701778407
美国的杂货店按以下方式布置货品:淀粉类食物在通道4,调味酱类在通道6,奶酪在通道9。日本杂货店则从不同餐饮风格进行整体分类:意大利餐饮中的面食、酱料、奶酪,日式餐饮中的豆腐、海鲜、酱油。这样的整体分类之法可能会降低人们对加工过的食品的购买量,不过可以让那些闲暇时间很少的消费者为自己购买更多的健康食品。
1701778408
1701778409
各类机构和组织也可以对其策略和工作环境的有效性进行更多的实验。如果允许雇员利用一部分时间在家工作,是否能提高其效率?完全在家工作呢?完全坐班呢?面对一份每周交一次的大作业和每天都要交的小作业,高中生们会更倾向于哪种呢?
1701778410
1701778411
内设计与对比设计
1701778412
1701778413
美国西尔斯百货在不同的媒体上随机投放针对特定群体的广告,它们可以随机选择在自家店铺的什么位置摆放哪类货品——在新罕布什尔州和北卡罗来纳州放在店铺后端,在佛蒙特州和南卡罗来纳州放在店铺前端。西尔斯百货的店铺在全美数量巨大,这样“A或B”测试便能发挥很大的效力。一种统计学测试的效力体现在其是否能在给定样本规模较大时发现其中的样本差异。样本量越大,你就越能确定某种样本差异是真实存在的,而非偶发的。
1701778414
1701778415
你还可以通过“内设计”(within design)提升测试的效力。比如将同一家商店中的货品摆放位置调换。这种对于整体差异的控制法也适用于比较商店之间的差异。一种典型的内设计是“前后对比”设计。当你将珠宝柜台置于店铺前端,而将内衣柜台置于后端时,销售量会怎样呢?加入了内设计的“A或B”测试会比单纯的“A或B”设计敏感得多,因为你可以针对每一个样本得到一个“差异分数”,然后用其作为你的测量指标。这个分数是用休斯敦地区的销售量计算的,即用采取该策略前的销售数据减去应用了该策略之后的数据。随后,你便能看到一个对所有情况都适用的分数,它会因为销售地区和货品种类变化而变化:商店的规模和吸引力,当地消费者的偏好等。这类差别被称作“误差变异”,因为它反映了去除策略影响因素之后的商店或消费者之间的差异。影响得分高低的因素与“A或B”测试试图回答的问题无关。当你通过“前分数”和“后分数”来减少误差变异时,你会更想知道在状况A之下和状况B之下的销量差异是否真实存在。
1701778416
1701778417
请注意,当你使用“前后对比”设计时,你需要平衡不同策略,即一些样本需要先在实验情境下进行,另一些样本则需要在控制情境下进行。否则,策略的效果和样本顺序变化的效果会被混淆。你以为由策略产生的效果很可能只是因为调整了时间顺序而产生的。
1701778418
1701778419
一些“前后对比”实验只是在偶然的情况下产生的,其结果虽然意外但很有用。我最喜欢的这样一个例子是在美国西南部的一家礼品店里发生的。绿松石类的珠宝销量很差,因此当店主要做一次短途旅行的前夜,他打算将这类珠宝降价出售,他留给店员一块标牌,上面写着“所有绿松石类珠宝价格乘以1/2”。当店主返回的时候,几乎所有此类珠宝都售完了。而店主在听店员提起另一件事时,震惊之余,更是无比开心。店员表示,较之放那块牌子前,珠宝在以正常价格的两倍出售时销量好得惊人。原来,这位店员误解了店主的意思,他以为要加价一倍售卖,而不是以半价出售。
1701778420
1701778421
通常情况下,价格比较公平地代表了商品的价值,因此消费者会以高价购买相应价值的珠宝。当然,这种状况并不适用于所有类别的商品,然而绿松石类的珠宝绝对是会让消费者倚赖其价格为判断依据的一种商品,因为很少有人具有判定其价值的专业知识。
1701778422
1701778423
“前后对比”设计的效力意味着我们可以在自己身上进行真实的实验。你偶尔会因胃酸过多而消化不良,但是不知道确切原因,该怎么办呢?你可以每天记录自己的饮食日志,尤其注意那些可能的“罪犯”——酒、咖啡、苏打水、巧克力。然后进行一次真正的随机实验——掷一次硬币来决定是否喝一杯鸡尾酒。每次只变化一种东西,以避免出现混杂变量。如果你不吃巧克力,也不喝苏打水,你的胃回流状况改善,那么你将不知道究竟是食物还是饮品充当了“罪犯”。在围绕“口头报告”而展开的第12章中,除了考虑一些科学方法论之外,还提供了大量建议帮助你自己做实验。
1701778424
1701778425
统计相关性与统计独立性
1701778426
1701778427
更多的样本量,随机布置的实验条件,这些都增加了我们对某一效果是真实的信心。然而,还有另一个因素也很重要,这便是我们认为什么样的样本才算数。假设你在一个有30个学生的班级1中实验A程序。A程序是标准的教学方式——课上讲授,课下做作业。你在另一个有25个学生的班级2中实验B程序——在家通过视频听课、完成作业。那么样本总量是多少?肯定了,不是55,如果对比的数据存在差额,那么能表现出显著性差异的样本到底是多少呢?
1701778428
1701778429
样本量是2。这是因为只有当存在独立观察时,样本量才等于搜集的案例个数。然而,就这种针对一个班的学生或任何群体的实验来说,群体中的个体之间在采取实验措施和最后进行测量之时都会产生互动,这样每个个体的行为就不是独立产生的了。琼的疑惑可能让其他人感到慌乱,比利的古怪行为可能拉低测验中每个人的得分。每个个体的行为都会潜移默化地受其他人的行为影响。在这种情况下,无法得出具有显著统计学意义的测量结果,除非群体的数量特别巨大,在此处样本数量指的是群体的数量,而非群体中个体的数量。
1701778430
1701778431
如果你无法进行具有统计学意义的测验,那么毫无疑问你无法确切知道不同方式对某件事情产生的效果。然而,在第二次实验的时候采取第一次效果较好的方式是种更聪明的选择,这比你单纯依靠自己的假想要好。
1701778432
1701778433
独立性的概念对于理解事件是具有无限可能性这一点至关重要。比如在2008年,发生了一件令人惊讶的事,进行金融评级服务的标准普尔公司应用了可能出现违约状况的房屋抵押贷款模型,在这类模型中,假设违约状况是独立于其他因素而存在的。乔·道克斯在迪比克市的违约行为被认为与简·道伊在丹佛市的违约行为毫无关联。这些在日常生活中的状况并非毫无道理可言。然而,在各类情况层出不穷的大千世界,即便在一个房价似乎稳定增长的时期,你还是要预想到可能会遇到经济泡沫。因此,针对20031A型房屋抵押贷款的违约行为在统计学意义上可能会依赖于人们在90014C型房屋抵押贷款上是否出现违约行为。
1701778434
1701778435
评级机构从来都不是中立的。银行会向它们支付服务费用。越容易给出安全性高评级的评级机构越受欢迎。因此,评级机构是否会以拙劣之计创制出违约模型,或是有一些欺骗性行为,我实在不好做出评价。不过,有一点是我们都应当明白的:有缺陷的科学方法论会导致灾难性的后果。
1701778436
1701778437
小结
1701778438
1701778439
单纯的假想很有可能是错误的。即使它们是正确的,在你有条件进行测试的时候还依靠它们也是愚蠢的。“A或B”测试在原理上十分简单:设计一种你想检测的步骤,设置一个对照情况,掷一枚硬币以决定谁(或者什么)采取何种方式,然后看看会发生什么。借由随机设计发现的差异表明,自变量的改变会对因变量产生因果式的影响。而借由相关性的方法发现的差异则不能保证自变量对因变量产生确定的影响。
1701778440
1701778441
相关性设计之所以不可靠,是因为研究者没有限定样本的具体条件。例如,对比大量和少量家庭作业,广播广告和传单广告,高收入和低收入。如果你没有根据一定的条件随机搜集样本——无论是人、动物还是农田,那么你就给自己的分析增添了各种不确定性。在某一个层面上的自变量样本可能和在其他层面上的自变量差异极大,而且差异体现的方式也有许多种,其中有些差异可以辨认出来,而另一些并不能。有时候并不是相关的自变量引发了不同,而是任何一种可测量的变量,或是不可测量乃至不可构想出的变量,产生了一些效果。此外,有时候实际上可能是我们认定的因变量反而扮演了自变量的角色。
1701778442
1701778443
样本的数量越大——人、农田或是其他事物,那么你发现真正起作用的因素的可能性就越大,同时你误将一些虚假因素当作真实因素的可能性就越小。如果通过某种统计检验而发现差异的发生概率小于在20个随机样本中发生一次,则显著性水平表示为0.05。如果不做这样的测试,我们便无法知晓一种效应是否应当被看作真实。
1701778444
1701778445
当你在分配样本时考虑了所有可能性,那么你的设计便是高度可信的。这是说,在反映某一个维度上的差异时,“内设计”比“对比设计”更具有统计学意义上的显著性。这是因为在任意两个样本之间的所有可能差异都被控制了,只剩下分配样本这一项上的差异,而它可能是事物产生关联的原因。
1701778446
1701778447
辨别你所检验的样本(比如由人去做关于人们行为或心理的研究)之间是否相互影响十分重要。任何时候,当某个样本可能会影响其他样本时,就会缺乏统计上的独立性。某种事物的样本量(N)并不会影响另一种事物的样本量。A班代表的样本量为N,这里的N指的并不是这一个班里的学生人数,而仅仅是1,A班整体是一个样本。(有一种情况除外,即那种相互影响的状况几乎可以忽略不计或者不存在时,比如学生们在一个带有小隔间的房间中参加考试,他们无法交谈。)
[
上一页 ]
[ :1.701778398e+09 ]
[
下一页 ]