打字猴:1.702643179e+09
1702643179 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642305]
1702643180 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第5章 概率与期望值
1702643181
1702643182 买福利彩票,去赌场豪赌、投资股票或期货,哪种方式让你跻身《福布斯》富豪排行榜的可能性更大?
1702643183
1702643184 1981年,美国约瑟夫·施利茨酿酒公司斥170万美元巨资为该公司旗下的旗舰品牌——施利茨啤酒开展了一场大胆而冒险的市场营销活动。当美国橄榄球超级杯大赛(即“超级碗”)的中场休息时间一到,施利茨公司就会当着全球亿万电视观众的面,现场直播一场别开生面的啤酒品鉴会,而挑选的对手不是别人,正是施利茨的死对头——米切罗啤酒,更让人大跌眼镜的是,参加品鉴会的不是别人,正是100名米切罗啤酒的忠实用户。这样的广告从始至终出现在季后赛的每一场比赛当中。类似的电视直播啤酒品鉴会总共有5场,每场都会邀请100名某品牌啤酒的“拥趸”,包括百威、米勒、米切罗等,让这些啤酒爱好者在自己最钟爱的啤酒和施利茨啤酒之间进行“盲品”。一边是如火如荼正在进行的职业橄榄球季后赛,一边是同样激烈的啤酒品鉴会,那时的广告标语甚至打出了“看季后赛,喝施利茨啤酒”的字样。
1702643185
1702643186 广告噱头很明确:即使是那些自认为喜欢另一种品牌的啤酒爱好者,在盲品时也会发现自己更偏爱施利茨啤酒。啤酒公司甚至还请了一位橄榄球职业联赛的前裁判来监督整个活动过程。考虑到在数量众多的电视观众面前举办这样一场充满风险的啤酒品鉴会,你肯定会觉得施利茨啤酒的口感一定特别好,否则哪会有勇气搞这样的宣传,是吗?
1702643187
1702643188 那可不一定。施利茨只需要生产出口感平平的啤酒,再掌握一些扎实的统计学知识,就能确保这项计谋肯定会成功——注意,我在写作时通常会非常谨慎地使用“计谋”这样的词,尤其是列举啤酒广告这样的例子。施利茨所生产的这种啤酒喝起来没什么特别的,跟绝大多数其他品牌的同类啤酒几乎没有太大差别;但讽刺的是,正是这一点成为施利茨啤酒广告营销的核心。可以假定的是,如果在街上随机找几个喜欢喝啤酒的人,他们基本上区分不出施利茨、百威、米切罗或米勒啤酒。因此,取其中任意两种品牌的啤酒进行盲品测试,猜对品牌的概率基本上和扔硬币差不多。大体来看,有1/2的人会选择施利茨,剩下1/2的人会选择“挑战”品牌的啤酒,单看这样的结果可能无法构成一个有说服力的广告营销(我们总不能说“既然口感都差不多,就选择施利茨吧”)。而且,施利茨啤酒公司绝对不会拿自己的忠实用户做试验,因为差不多有1/2的用户会“不小心”挑选其他品牌的啤酒。如果一群原本忠实于某品牌啤酒的消费者在盲品时竟然觉得竞争对手的啤酒好喝,这个品牌该有多悲哀啊,所以,施利茨就让这样的事情发生在其他品牌身上。
1702643189
1702643190 施利茨的高明之处在于,只邀请那些声称自己偏爱另外一个品牌啤酒的消费者参加测试。如果盲品的结果果真如抛硬币一样,那么就会有1/2的百威、米勒或米切罗啤酒的爱好者最终选择施利茨。这下施利茨扬眉吐气了,因为有1/2的百威啤酒爱好者更喜欢喝施利茨!
1702643191
1702643192 更妙的是,这一切都在橄榄球联盟决赛的中场进行直播,而且由一位身穿裁判服的橄榄球前裁判执法整个盲品过程。毕竟是电视直播,就算施利茨已经私底下进行了大量试验,并证明了有1/2的米切罗啤酒爱好者会选择施利茨啤酒,又有谁能够保证在最终直播的时候不出岔子?万一“超级碗”直播时选取的100名米切罗爱好者的味觉特别灵敏呢?虽然盲品测试在概率上等同于抛硬币,但万一就是有绝大部分人恰巧选择了米切罗呢?如果我们让100个人排成一队,逐个抛硬币,出现85或90个硬币反面向上的可能性也是完全存在的。对于施利茨公司来说,在直播时碰上这样的情况将会对它们的品牌造成毁灭性的打击(更不必说用于购买广告时段的那170万美元了)。
1702643193
1702643194 统计学的威力在这种时刻就体现出来了。如果这个世界上存在一个统计学领域的“超级英雄”,那么这时的画面就会是这个英雄俯身飞入施利茨公司总部,并向在场的高层揭开被统计学家称为二项分布(又名伯努利试验)的奥秘。二项分布的主要特点有,试验次数是固定的(例如100位啤酒盲品者),每一次试验都有两个可能的结果(施利茨或米切罗),而且每一次“成功”的概率都是相等的(假设选择任意一个品牌啤酒的概率为50%,如果选择施利茨的概率高就表示试验“成功”)。我们同时还假定所有的试验都是各自独立的,即一位盲品者的决定不会影响其他人的选择。
1702643195
1702643196 有了这些信息,这位统计学的“超级英雄”就能计算出所有可能出现的不同结果的概率,如52人选择施利茨,另外48人选择米切罗,或者是31人选择施利茨,另外69人选择米切罗,这种情况发生的概率是多少。当然,对于我们这些不具备超级运算能力的凡人来说,借助一台电脑同样也可以办到。所有100位盲品者都选择米切罗的概率是1/1267650600228229401496703205376,这可能比这些人在中场休息时被陨石砸中的概率还低。重要的是,重复这些基本运算,能够让我们知道某个结果范围内的累积概率,如有不多于40位盲品者选择施利茨的概率是多少。这些数据足以让施利茨的市场营销人员松一口气。
1702643197
1702643198 让我们假设,要让施利茨公司满意,100位盲品者中至少要有40位选择施利茨啤酒。这是一个非常可观的数字,因为所有参加盲品直播的人都曾信誓旦旦地声明自己是米切罗的忠实用户。而要达到这样的效果,其实一点儿都不难。如果盲品会果真如抛硬币一样,那么运用概率学的基本知识,就能得出至少有40人选择施利茨的概率为98%,至少有45人选择施利茨的概率为86%。从理论上来看,这场电视营销活动其实并没有很大的风险。
1702643199
1702643200 那么,现实中的结果又如何呢?在1981年“超级碗”中场休息的现场,正好有50%的米切罗啤酒的消费者在盲品测试中选择施利茨,不多不少,正好1/2。
1702643201
1702643202 从这个例子中,我们可以得到两个重要的启示:第一,概率是一个非常强大的统计学工具;第二,20世纪80年代的许多畅销品牌的啤酒确实在口感上没有什么区别。本章将主要就第一个启示展开叙述。
1702643203
1702643204 概率学是一门研究不确定事件和结果的学问。投资股市存在着不确定性,抛硬币同样也存在着不确定性,因为有的时候你得到的是硬币的正面,有的时候是硬币的反面。连续4次抛一枚硬币更是增加了这种不确定性,因为每一次都有可能是正面或反面,如果你手里有一枚硬币并且连续抛了4次,我事先无从得知4次的准确结果(你也不能),但我可以事先告诉你一些结果(如两个正面、两个反面)出现的概率要大于另一些(如4个正面)。从施利茨的例子里我们已经看到,像这类基于概率推导出来的结论会发挥意想不到的作用。事实上,如果你弄清楚了为什么连续4次抛同一枚标准硬币结果是正面的概率为1/16,那么你(再稍微做一点功课)就能理解生活中那些与概率相关的现象,从保险业的运作原理到橄榄球队的排兵布阵和赛场取舍。
1702643205
1702643206 我们先从简单的部分开始讲起。许多事件的概率是明确的,如抛一枚标准硬币结果是正面的概率为1/2,掷一粒骰子得到1点的概率为1/6,还有一些事件的概率能够从过去的数据中推导出来。在美国职业橄榄球比赛中,触地得分后踢定位球再得一分的平均概率为0.94,也就是说,每100个定位球中有94个会成功。当然,这一数据会随着不同球员、不同天气环境以及其他因素的改变而有所不同,但不会发生剧烈变化。在获得并信任此类信息的前提下,决策者常常能够看清风险、作出决定。举个例子,澳大利亚运输安全局发布了一份有关乘坐不同交通工具致死风险的量化报告,大家都觉得飞行非常可怕,但实际上商业航空旅行的风险是微乎其微的。澳大利亚自20世纪60年代起就再没有发生过一起商业航空致死事故,因此航空旅行每一亿公里的致死率基本为0。汽车每一亿公里旅行的致死率为0.5,真正吓人的是摩托车的致死率,如果你立志成为一名器官捐献者,那么你就选择摩托车出行吧,因为摩托车的致死率比汽车整整高出35倍。
1702643207
1702643208 2011年9月,美国航空航天局的一颗重达6.5吨的卫星退役,预计在进入地球大气层后开始分解。那地球上的人被卫星残骸砸中的概率有多大呢?我们是不是应该让孩子们待在家中不去上学?据美国航空航天局的一名火箭科学家计算,任何一个人被坠落的卫星残骸砸到的概率是21万亿分之一。要知道,在地球上任何一个角落不幸被车撞到的概率可是3200分之一。最终,卫星在坠落地球的过程中解体,科学家们无法确认所有碎片的具体位置,当然,也没有出现任何人员伤亡的报告。概率并不会确凿地告诉我们将会发生什么,但我们通过概率计算能够知道很有可能发生什么、不太可能发生什么。聪明的人会使用这类数据为自己的事业和生活指明方向,比如说当你从广播里得知将要有一颗卫星坠落时,不会骑上一台摩托车全速开回家提醒家人不要出门。
1702643209
1702643210 当涉及风险的问题时,恐惧会让我们忽视数字背后的真相,反而对那些真正的危险视而不见。在史蒂芬•列维特和史蒂芬•都伯纳所著的《魔鬼经济学》一书中,提到了一个惊人的发现,那就是后院的游泳池远比柜子里的枪来得危险。列维特和都伯纳计算,10岁以下的儿童在游泳池溺死的概率要比枪击事故中意外中弹身亡的概率高100倍。康奈尔大学的3位研究人员嘉瑞克•布雷拉克、维琳达•卡地亚丽和丹尼尔·西蒙在一篇引人入胜的论文中这样说道,可能有数以千计的美国人在“9•11”恐怖袭击事件发生之后由于害怕坐飞机而死于非命。我们永远都不知道遭受恐怖袭击的真正风险到底有多大,但我们知道开车确实是一件危险的事。在“9.11”恐怖袭击事件发生之后,越来越多的美国人选择自驾出行,而不选择乘坐飞机。据统计,在考虑平均死亡率和天气等导致路面交通事故因素的前提下,2001年10~12月,平均每个月因交通事故致死的人数比以往多了344人。该效应随着时间的推移逐渐减弱,这是因为大家对恐怖主义的恐惧在慢慢消退,但这项研究的作者认为,“9•11”恐怖袭击事件导致的驾车死亡人数或已超过2000人。
1702643211
1702643212 概率有时候还可以在事后告诉我们,什么情况是最有可能发生的,而什么情况是最没有可能发生的,比如DNA分析。电视剧《犯罪现场调查:迈阿密》里有这样一个场景,技术人员在谋杀案现场附近收集到一个丢弃的苹果核,上面残留着唾液,当然唾液上不可能写着杀人凶手的名字,就算让一位英俊的技术员用最先进的显微镜也观察不出什么。但是,唾液(或头发、皮肤、骨头碎片等)里却能找到DNA片段,这里面包含着独一无二的基因信息——每个人的基因都是不同的(除非是共享相同DNA的同卵双胞胎)。如果医学专家证实DNA样本吻合,就说明检方的取证工作取得了重要进展,但这还远不是全部。是的,从犯罪现场收集回来的DNA样本必须与犯罪嫌疑人身上的DNA相匹配,但检方同时还必须证明这两个DNA样本相吻合不是一个巧合。
1702643213
1702643214 人类的DNA序列中有很多片段是相同的,就像我们中有很多人拥有相同的鞋码、相同的身高、相同颜色的眼睛,事实上我们的DNA序列中有超过99%的片段都是完全一样的。如果研究人员只能获得一小部分DNA样本,那么这上面的基因数量也是有限的,很有可能有数百万人的基因片段与实验室中的这部分DNA样本完全吻合。因此,基因数量越多,上面的自然遗传变异也就越多,取证的准确率也就越高。换言之,DNA样本与多个人的DNA相吻合的概率也就越低。
1702643215
1702643216 不知道大家是否看明白了。让我们来想象一下,假设你的“DNA数据”由你的手机和社保号码组成,这19个数字组成了独一无二的你。每一个数字都代表一个有10种变化可能的基因:0、1、2、3等。如果在犯罪现场,调查人员发现的“DNA数据”残留片段为:_ _459_ _ _4_0_9817_ _ _,而且正好与你的“DNA数据”相吻合。你认罪吗?
1702643217
1702643218 你应该明确3件事。首先,除非是全部19个数字都吻合,否则总会有不确定性存在;其次,数字发现得越多,不确定性就越少;最后,不要忽略背景和事件的来龙去脉。如果警察发现你的时候,你正在超速驾驶汽车逃离事故现场,而且口袋里还装着受害者的信用卡,那你的这个“DNA数据”尽管不能完全确定,但也足以说服检方将你绳之以法了。
1702643219
1702643220 在资源和时间都非常充分的情况下,研究人员会对DNA中的13个不同区域进行一一比对,两个人的DNA在所有13次比对中都吻合的概率是非常低的。“9•11”恐怖袭击事件发生以后,美国政府就是用DNA技术来核实遗体身份的。收集袭击现场找到的DNA样本,再与受害者家人提供的DNA样本进行比对,在这个过程中出现认错遗体的概率是10亿分之一,甚至更低。随着越来越多的遗体被识别并认领,剩下的遗体数量越来越少,出现混淆的概率也在下降,因此DNA比对的标准也逐渐放宽。
1702643221
1702643222 但在很多时候我们的资源是有限的,可能是收集到的DNA样本太小,也有可能是样本已经被污染,导致无法检测出全部13个基因片段,许多趣闻和争议由此引发。《洛杉矶时报》在2008年的时候连载了一组报道,讨论检方是否应该将DNA检测结果纳入刑事案件的举证范围内。该报特别提出了一项质疑,在法律实施过程中概率的使用是否低估了巧合的可能性,因为收集到全世界每一个人的DNA信息毕竟是不现实的,可以说美国联邦调查局和其他调查机构提交给法庭的DNA证据都是估计出来的概率。亚利桑那州一个犯罪实验室的分析员在测试本州岛DNA数据库时,发现两个没有血缘关系的重罪犯的DNA序列中的第9组基因相吻合,这一发现引发了轩然大波,因为根据美国联邦调查局的说法,无血缘关系的两个人第9组基因相吻合的概率仅为1130亿分之一。在随后的调查中,其他州的DNA数据库也发现了第9组甚至更多组基因吻合的人,数量超过1000对。这个问题将如何解决,还是留给法律执行机构及辩护律师去思考吧。我现在想说的是,头戴科技耀眼光环的DNA分析,归根结底仍然是一个概率问题。
1702643223
1702643224 很多时候,了解多重事件同时发生的概率是很有价值的。停电且备用发电机失灵的可能性有多大?两个独立事件同时发生的概率取决于这两个事件各自的概率,也就是说,事件A与事件B同时发生的概率是这两个事件发生概率的乘积。举个例子可能会更直观一些,抛一枚标准硬币得到正面朝上的概率为1/2,连续抛两次都得到正面朝上的概率为1/2X1/2=1/4,连续抛3次都得到正面朝上的概率为1/8,连续抛4次都得到正面朝上的概率为1/16,以此类推。同样,连续抛4次硬
1702643225
1702643226 币都得到反面朝上的概率也应该为1/16。这也解释了为什么学校或办公室的电脑总会弹出一个对话框,提醒你提高开机密码的“安全级别”。假设你的开机密码为6位,而且用的全是数字,那么总共有10x10x10x10x10x10=106种数字排列组合,不要以为这种组合很复杂,对于计算机来说,不到一秒钟,就可以将这些数字排列组合全都试一遍。
1702643227
1702643228 所以,假设在你的系统管理员向你发表长篇大论之后,你终于同意将字母加入到密码设置的范围内,那样的话,6位密码就有了36种选择:26个字母加上10个数字。可能组合出的密码数量也上升到了36x36x36x36x36x36=366个,超过20亿个。如果系统要求将密码长度增加为8位,而且强烈建议你使用#、@、%、!等符号——芝加哥大学就是这样做的,那么可能组合出的密码数量便跃升至468,超过20万亿个。
[ 上一页 ]  [ :1.702643179e+09 ]  [ 下一页 ]