1702643200
那么,现实中的结果又如何呢?在1981年“超级碗”中场休息的现场,正好有50%的米切罗啤酒的消费者在盲品测试中选择施利茨,不多不少,正好1/2。
1702643201
1702643202
从这个例子中,我们可以得到两个重要的启示:第一,概率是一个非常强大的统计学工具;第二,20世纪80年代的许多畅销品牌的啤酒确实在口感上没有什么区别。本章将主要就第一个启示展开叙述。
1702643203
1702643204
概率学是一门研究不确定事件和结果的学问。投资股市存在着不确定性,抛硬币同样也存在着不确定性,因为有的时候你得到的是硬币的正面,有的时候是硬币的反面。连续4次抛一枚硬币更是增加了这种不确定性,因为每一次都有可能是正面或反面,如果你手里有一枚硬币并且连续抛了4次,我事先无从得知4次的准确结果(你也不能),但我可以事先告诉你一些结果(如两个正面、两个反面)出现的概率要大于另一些(如4个正面)。从施利茨的例子里我们已经看到,像这类基于概率推导出来的结论会发挥意想不到的作用。事实上,如果你弄清楚了为什么连续4次抛同一枚标准硬币结果是正面的概率为1/16,那么你(再稍微做一点功课)就能理解生活中那些与概率相关的现象,从保险业的运作原理到橄榄球队的排兵布阵和赛场取舍。
1702643205
1702643206
我们先从简单的部分开始讲起。许多事件的概率是明确的,如抛一枚标准硬币结果是正面的概率为1/2,掷一粒骰子得到1点的概率为1/6,还有一些事件的概率能够从过去的数据中推导出来。在美国职业橄榄球比赛中,触地得分后踢定位球再得一分的平均概率为0.94,也就是说,每100个定位球中有94个会成功。当然,这一数据会随着不同球员、不同天气环境以及其他因素的改变而有所不同,但不会发生剧烈变化。在获得并信任此类信息的前提下,决策者常常能够看清风险、作出决定。举个例子,澳大利亚运输安全局发布了一份有关乘坐不同交通工具致死风险的量化报告,大家都觉得飞行非常可怕,但实际上商业航空旅行的风险是微乎其微的。澳大利亚自20世纪60年代起就再没有发生过一起商业航空致死事故,因此航空旅行每一亿公里的致死率基本为0。汽车每一亿公里旅行的致死率为0.5,真正吓人的是摩托车的致死率,如果你立志成为一名器官捐献者,那么你就选择摩托车出行吧,因为摩托车的致死率比汽车整整高出35倍。
1702643207
1702643208
2011年9月,美国航空航天局的一颗重达6.5吨的卫星退役,预计在进入地球大气层后开始分解。那地球上的人被卫星残骸砸中的概率有多大呢?我们是不是应该让孩子们待在家中不去上学?据美国航空航天局的一名火箭科学家计算,任何一个人被坠落的卫星残骸砸到的概率是21万亿分之一。要知道,在地球上任何一个角落不幸被车撞到的概率可是3200分之一。最终,卫星在坠落地球的过程中解体,科学家们无法确认所有碎片的具体位置,当然,也没有出现任何人员伤亡的报告。概率并不会确凿地告诉我们将会发生什么,但我们通过概率计算能够知道很有可能发生什么、不太可能发生什么。聪明的人会使用这类数据为自己的事业和生活指明方向,比如说当你从广播里得知将要有一颗卫星坠落时,不会骑上一台摩托车全速开回家提醒家人不要出门。
1702643209
1702643210
当涉及风险的问题时,恐惧会让我们忽视数字背后的真相,反而对那些真正的危险视而不见。在史蒂芬•列维特和史蒂芬•都伯纳所著的《魔鬼经济学》一书中,提到了一个惊人的发现,那就是后院的游泳池远比柜子里的枪来得危险。列维特和都伯纳计算,10岁以下的儿童在游泳池溺死的概率要比枪击事故中意外中弹身亡的概率高100倍。康奈尔大学的3位研究人员嘉瑞克•布雷拉克、维琳达•卡地亚丽和丹尼尔·西蒙在一篇引人入胜的论文中这样说道,可能有数以千计的美国人在“9•11”恐怖袭击事件发生之后由于害怕坐飞机而死于非命。我们永远都不知道遭受恐怖袭击的真正风险到底有多大,但我们知道开车确实是一件危险的事。在“9.11”恐怖袭击事件发生之后,越来越多的美国人选择自驾出行,而不选择乘坐飞机。据统计,在考虑平均死亡率和天气等导致路面交通事故因素的前提下,2001年10~12月,平均每个月因交通事故致死的人数比以往多了344人。该效应随着时间的推移逐渐减弱,这是因为大家对恐怖主义的恐惧在慢慢消退,但这项研究的作者认为,“9•11”恐怖袭击事件导致的驾车死亡人数或已超过2000人。
1702643211
1702643212
概率有时候还可以在事后告诉我们,什么情况是最有可能发生的,而什么情况是最没有可能发生的,比如DNA分析。电视剧《犯罪现场调查:迈阿密》里有这样一个场景,技术人员在谋杀案现场附近收集到一个丢弃的苹果核,上面残留着唾液,当然唾液上不可能写着杀人凶手的名字,就算让一位英俊的技术员用最先进的显微镜也观察不出什么。但是,唾液(或头发、皮肤、骨头碎片等)里却能找到DNA片段,这里面包含着独一无二的基因信息——每个人的基因都是不同的(除非是共享相同DNA的同卵双胞胎)。如果医学专家证实DNA样本吻合,就说明检方的取证工作取得了重要进展,但这还远不是全部。是的,从犯罪现场收集回来的DNA样本必须与犯罪嫌疑人身上的DNA相匹配,但检方同时还必须证明这两个DNA样本相吻合不是一个巧合。
1702643213
1702643214
人类的DNA序列中有很多片段是相同的,就像我们中有很多人拥有相同的鞋码、相同的身高、相同颜色的眼睛,事实上我们的DNA序列中有超过99%的片段都是完全一样的。如果研究人员只能获得一小部分DNA样本,那么这上面的基因数量也是有限的,很有可能有数百万人的基因片段与实验室中的这部分DNA样本完全吻合。因此,基因数量越多,上面的自然遗传变异也就越多,取证的准确率也就越高。换言之,DNA样本与多个人的DNA相吻合的概率也就越低。
1702643215
1702643216
不知道大家是否看明白了。让我们来想象一下,假设你的“DNA数据”由你的手机和社保号码组成,这19个数字组成了独一无二的你。每一个数字都代表一个有10种变化可能的基因:0、1、2、3等。如果在犯罪现场,调查人员发现的“DNA数据”残留片段为:_ _459_ _ _4_0_9817_ _ _,而且正好与你的“DNA数据”相吻合。你认罪吗?
1702643217
1702643218
你应该明确3件事。首先,除非是全部19个数字都吻合,否则总会有不确定性存在;其次,数字发现得越多,不确定性就越少;最后,不要忽略背景和事件的来龙去脉。如果警察发现你的时候,你正在超速驾驶汽车逃离事故现场,而且口袋里还装着受害者的信用卡,那你的这个“DNA数据”尽管不能完全确定,但也足以说服检方将你绳之以法了。
1702643219
1702643220
在资源和时间都非常充分的情况下,研究人员会对DNA中的13个不同区域进行一一比对,两个人的DNA在所有13次比对中都吻合的概率是非常低的。“9•11”恐怖袭击事件发生以后,美国政府就是用DNA技术来核实遗体身份的。收集袭击现场找到的DNA样本,再与受害者家人提供的DNA样本进行比对,在这个过程中出现认错遗体的概率是10亿分之一,甚至更低。随着越来越多的遗体被识别并认领,剩下的遗体数量越来越少,出现混淆的概率也在下降,因此DNA比对的标准也逐渐放宽。
1702643221
1702643222
但在很多时候我们的资源是有限的,可能是收集到的DNA样本太小,也有可能是样本已经被污染,导致无法检测出全部13个基因片段,许多趣闻和争议由此引发。《洛杉矶时报》在2008年的时候连载了一组报道,讨论检方是否应该将DNA检测结果纳入刑事案件的举证范围内。该报特别提出了一项质疑,在法律实施过程中概率的使用是否低估了巧合的可能性,因为收集到全世界每一个人的DNA信息毕竟是不现实的,可以说美国联邦调查局和其他调查机构提交给法庭的DNA证据都是估计出来的概率。亚利桑那州一个犯罪实验室的分析员在测试本州岛DNA数据库时,发现两个没有血缘关系的重罪犯的DNA序列中的第9组基因相吻合,这一发现引发了轩然大波,因为根据美国联邦调查局的说法,无血缘关系的两个人第9组基因相吻合的概率仅为1130亿分之一。在随后的调查中,其他州的DNA数据库也发现了第9组甚至更多组基因吻合的人,数量超过1000对。这个问题将如何解决,还是留给法律执行机构及辩护律师去思考吧。我现在想说的是,头戴科技耀眼光环的DNA分析,归根结底仍然是一个概率问题。
1702643223
1702643224
很多时候,了解多重事件同时发生的概率是很有价值的。停电且备用发电机失灵的可能性有多大?两个独立事件同时发生的概率取决于这两个事件各自的概率,也就是说,事件A与事件B同时发生的概率是这两个事件发生概率的乘积。举个例子可能会更直观一些,抛一枚标准硬币得到正面朝上的概率为1/2,连续抛两次都得到正面朝上的概率为1/2X1/2=1/4,连续抛3次都得到正面朝上的概率为1/8,连续抛4次都得到正面朝上的概率为1/16,以此类推。同样,连续抛4次硬
1702643225
1702643226
币都得到反面朝上的概率也应该为1/16。这也解释了为什么学校或办公室的电脑总会弹出一个对话框,提醒你提高开机密码的“安全级别”。假设你的开机密码为6位,而且用的全是数字,那么总共有10x10x10x10x10x10=106种数字排列组合,不要以为这种组合很复杂,对于计算机来说,不到一秒钟,就可以将这些数字排列组合全都试一遍。
1702643227
1702643228
所以,假设在你的系统管理员向你发表长篇大论之后,你终于同意将字母加入到密码设置的范围内,那样的话,6位密码就有了36种选择:26个字母加上10个数字。可能组合出的密码数量也上升到了36x36x36x36x36x36=366个,超过20亿个。如果系统要求将密码长度增加为8位,而且强烈建议你使用#、@、%、!等符号——芝加哥大学就是这样做的,那么可能组合出的密码数量便跃升至468,超过20万亿个。
1702643229
1702643230
有一点必须再次强调:这一公式只适用于相互独立的事件,也就是说,一个事件的发生及其结果对另一个事件不会造成任何影响。例如,你第一次抛硬币得到正面朝上的概率扦不会影响你第二次抛硬币得到正面朝上的概率。相反的,今天下雨的概率与昨天是否下雨并不是相互孤立的,因为下雨作为一种天气现象具有连续性,有时候经常连续几天都下雨。同样的,你今年出车祸的概率与明年出车祸的概率也不是相互孤立的,今年导致你出车祸的原因很有可能也会导致你明年发生类似的车祸,比如你有可能经常酒后驾车、喜欢跟别人飙车、习惯开车时发短信,或者车技很差。这也是为什么你的车险费率会在发生车祸后上升,并不仅仅是因为保险公司想要从你这里挽回一点儿它们为你支付的赔偿金,更重要的是,它们拥有了关于你未来发生车祸概率的新信息——当你开车撞向你的车库大门之后,这个概率就上升了。
1702643231
1702643232
假如你对发生这个事件或发生那个事件的概率感兴趣,也就是出现结果A或出现结果B的概率(再次假设两个事件是相互独立的),这个概率就是A和B各自的概率之和:A概率+B概率。举个例子,掷一次骰子得到1点、2点或3点的概率就是它们各自的概率之和:1/6+1/6+1/6=3/6=1/2。这个问题理解起来应该不难,掷骰子会得到6种可能的结果,点数1、2或3出现的概率占了所有出现概率的1/2,因此我们有50%的概率掷出1、2或3点。如果我们在拉斯韦加斯赌双骰,掷出7点或11点的概率就是两颗骰子点数相加为7或11的组合数除以总共可能出现的点数组合数,得到的答案是8/36。
1702643233
1702643234
通过概率的计算,我们还可以得到在所有管理决策的过程中,尤其是在金融领域是最实用的统计工具:期望值。期望值是基础概率学的升级版。某个事件如买彩票的期望值或收益,实际上就是所有不同结果的和,其中每个结果都是由各自的概率和收益相乘而来。跟往常一样,我们还是用例子来说明这个问题。假设你参与了一个掷骰子的游戏,游戏规则是掷出1点可以获得1美元,掷出2点可以获得2美元,掷出3点可以获得3美元,以此类推。那么在这个游戏中,掷一次骰子的期望值是多少?每一个结果都有1/6的概率,因此期望值为:
1702643235
1702643236
1/6(1美元)+1/6(2美元)+1/6(3美元)+1/6(4美元)+1/6(5美元)+1/6(6美元)=21/6,即3.5美元。
1702643237
1702643238
粗略看一下,3.5美元的期望值似乎是一个无效数据,毕竟你不可能掷一次骰子就获得3.5美元(因为所有收益都是整数)。但事实上,期望值是一个非常有用的参考数据,通过比较成本投人和期望收益,你就能知道做这件事是不是“值得”。如果在上述游戏中,每掷一次骰子需要缴纳3美元,你还玩吗?当然,因为期望回报(3.5美元)要高于游戏成本(3美元)。这虽然并不代表你第一次玩就保证能赚到钱,但至少可以帮助你认清哪些事情值得冒险。
1702643239
1702643240
在上面这个例子的基础上,我们可以进一步将期望值延伸到美国职业橄榄球领域。之前提到,在比赛中触地得分之后,球队将会面临两个选择,要么直接射门再得一分,要么进行一次两分投球的尝试。如果选择前者,则在三码线处定点踢球穿过球门柱即可;如果选择后者,则需要从三码线处将球带到或传到球门区把对方逼成死球,可以想象其难度之大。因此,球队可以选择简单的打法得1分,也可以选择难度高的打法得2分。应该怎么选?
1702643241
1702643242
统计学家或许不玩橄榄球,也从不和啦啦队队长约会,但他们却能够为球队教练提供指导。在前文中已经提到,触地后成功点射的概率为0.94,也就是说这一尝试的期望值为0.94,因为回报(1分)乘以成功概率(0.94)得到的结果为0.94分。没有队伍能在比赛中打出0.94分,但这个数字能够量化触地后的一种选择,从而与另一种选择——2分尝试进行直观的比较。2分尝试的期望值要低得多,才0.74分,虽然回报很高(2分),但成功率却低得可怜(0.37)。由此可见,如果比赛只剩下一秒钟的时间,一支队伍在触地得分后还落后对手2分,这支队伍别无选择,只能进行2分尝试;但如果某支队伍处于领先,其目标只是在比赛中扩大比分优势,那么就应该采取得1分策略。
1702643243
1702643244
运用与上述例子相同的基础性分析,我们还可以解释为什么永远不要买彩票。在伊利诺伊州,每张彩票的背面都印着不同玩法和等级的中奖概率,假如我买了一张1美元的即开型彩票,在彩票背面印着的细小文字里我可以找到不同等级奖金的中奖概率:1/10(1美元,即免费再来一张)、1/15(2美元)、1/42.86(4美元)、1/75(5美元),一直到概率为1/40000的1000美元。我将每一个等级的中奖概率乘以奖金额度,最后将得到的结果相加,计算出购买此类彩票的期望值。结果是这种1美元彩票的回报期望值约为0.56美元,所以这绝对是一项糟糕的投资。但我的运气还不错,中了2美元。
1702643245
1702643246
虽然我中了2美元,依然无法改变购买彩票是一种愚蠢行为的事实,这就是概率教给我们的重要经验之一。通过概率计算得出的好决策,有时会得到坏的结果;而坏的决策——如在伊利诺伊州购买1美元即开型彩票——有时还是会有好处,至少从短期来看是这样。但最终“笑傲江湖”的还是概率,因为谁也打败不了概率。有一个重要的定律叫作大数定律,即随着试验次数的增多,结果的平均值会越来越接近期望值。是的,我今天买彩票的确中了2美元,我明天也有可能再中2美元,但如果长年累月地买下去,每天买的都是这种预期回报为0.56美元的1美元即开型彩票,那么赔钱将是毋庸置疑的事,到了买齐100万张彩票的那一天(也就意味着我花了100万美元),我最终的中奖金额约为56万美元。
1702643247
1702643248
我们也可以用大数定律来解释为什么赌场从长期来看总是挣钱的问题。赌场内所有项目的概率都是有利于赌场老板的(出“老千”的赌客不考虑在内)。如果赌场的营业时间足够长,吸引的下注人数也足够多,那么赌场从赌桌赚到的钱肯定要比付出的要多。通过大数定律,我们还可以解释为什么施利茨要在“超级碗”中场休息时邀请100位而不是10位啤酒爱好者来参与啤酒盲品测试。下面是“施利茨型”测试的“概率密度函数”,测试人数分别为10、100和1000。不要被这个函数的名称吓到,其实函数本身并不复杂,X轴罗列了各种可能出现的结果,Y轴表示的是对应结果出现的概率。需要在这里重申一遍的是:我们的前提是所有品牌啤酒的口感是差不多的,品尝选择的过程类似于扔硬币,每位盲品者选择施利茨的概率都为50%。我们可以从以下的3幅函数图中看到,随着盲品者人数的增多,越来越多的预期结果向中间(也就是有一半的人选择施利茨啤酒)集中;与此同时,位于曲线两端的极端结果出现的概率则下降得非常厉害。
1702643249
[
上一页 ]
[ :1.7026432e+09 ]
[
下一页 ]