打字猴:1.701023443e+09
1701023443 魔鬼数学:大数据时代,数学思维的力量 [:1701022618]
1701023444 魔鬼数学:大数据时代,数学思维的力量 第4章 触目惊心的数字游戏
1701023445
1701023446 中东矛盾有多严重?乔治敦大学反恐专家丹尼尔·毕曼(Daniel Byman)在《外交》(Foreign Affairs)杂志上给出了一些冷冰冰的数字:“以色列军方报告,从(2000年)的‘第二次巴勒斯坦大起义’至2005年10月底,有1 074个以色列人死亡,7 520人受伤。对以色列这样一个小国而言,这两个数字已经大得惊人了,按照比例换算的话,相当于有5万个美国人死亡、30万个美国人受伤。”在讨论该地区的问题时,这样的计算司空见惯。2001年12月,美国众议院宣布,在以色列发生的一系列袭击中,有26人丧生,“等比换算的话,相当于有1 200名美国人遭遇了不幸”。2006年,美国前众议长纽特·金里奇(Newt Gingrich)提醒道:“别忘了,如果有8个以色列人死于非命,考虑到人口差异,相当于我们失去了近500个美国同胞。”阿迈德·摩尔(Ahmed Moor)不甘示弱,在《洛杉矶时报》(Los Angeles Times)上撰文指出:“在‘铸铅行动’中,以色列人打死了1 400个巴勒斯坦人,按比例换算,相当于杀死了30万个美国人,但是新任总统奥巴马却对此保持沉默。”
1701023447
1701023448 “按比例换算”这样的措辞并不仅限于讨论巴勒斯坦地区的问题。1988年,杰拉尔德·卡普兰(Gerald Caplan)通过《多伦多明星报》(Toronto Star)指出:“8年来,冲突双方共有约4.5万人死伤或被绑架,按比例换算,相当于30万个加拿大人或者300万个美国人。”1997年,美国前国防部部长罗伯特·麦克纳马拉(Robert McNamara)说,越战期间有近400万个越南人丧生,按比例换算,“相当于2 700万个美国人”。只要一个小国家有很多人遭遇不幸,社论作者们就会拿出“比例尺”:这个数字相当于有多少美国人死于非命呢?
1701023449
1701023450 这些数字是怎么换算的?恐怖分子杀死的1 074个以色列人,在以色列人口(2000~2005年为600万~700万)中占0.015%。于是,专家们认为,在人口比以色列多的美国,如果总人口中有0.015%(的确是5万个左右)的人死亡,将会造成差不多大的影响。
1701023451
1701023452 这是赤裸裸的“线性中心主义”(lineocentrism)。如果以比例换算作为论据,我们可以把1 074个被杀死的以色列人通过下图换算成全世界任何地区死于非命的人口:
1701023453
1701023454
1701023455
1701023456
1701023457 1 074个以色列受害者,相当于7 700个西班牙人、22.3万个中国人、300个斯洛文尼亚人或一两个图瓦卢人。
1701023458
1701023459 这样的推理最终(甚至立刻)会出现问题。假设酒吧快要下班时还有两名顾客,其中一人一拳把另一个人打昏在地。显然,这与1.5亿个美国人同一时间被人在脸上狠揍了一拳相比,情况完全不可同日而语。
1701023460
1701023461 再举一例。1994年,卢旺达有11%的人失去了生命,所有人都一致认为这是20世纪最恶劣的罪行。但是,我们在描述它时不会说“如果把这起事件放到20世纪40年代的欧洲,其恶劣程度是纳粹大屠杀的9倍”,这样的表达只会让人极度反感。
1701023462
1701023463 数学领域规避错误的一个重要原则是:实地测试某个数学方法时,可采用不同的方式进行计算。如果得到不同的结果,则说明我们使用的方法有问题。
1701023464
1701023465 例如,2004年马德里阿托查火车站遭遇炸弹袭击,近200人因此丧生。如果纽约中央车站遭遇同样严重的炸弹袭击,结果会怎么样呢?
1701023466
1701023467 美国人口大约是西班牙人口的7倍。因此,如果我们按照200人在西班牙人口中占0.000 4%的比例来推算,就会认为同样的袭击发生在美国将会造成1 300人丧生。另一方面,200人在马德里人口中占0.006%,纽约市的人口是它的2.5倍,按比例换算,相当于有463个纽约人受害。此外,我们是否应该将马德里省与纽约州相比较呢?那样的话,答案就会接近600人。因此,我们会得到不同的结果,这是一个危险信号,说明按比例换算的方法值得怀疑。
1701023468
1701023469 当然,我们也不能全盘否定按比例换算的方法,这种方法的确非常重要。比如,我们希望了解美国哪些地区的脑癌发病率最高,如果单纯地统计哪些州的脑癌死亡人数最多,并没有多大意义。美国脑癌发病人数最多的州有加利福尼亚州、得克萨斯州、纽约州与佛罗里达州,因为这些州的人口很多。史蒂芬·平克(Stephen Pinker)在他颇为畅销的著作《人性中的善良天使》(The Best Angels of Our Nature)中持类似观点。他指出,纵观人类历史,人类的暴力行为呈稳步下降的趋势。因为强权政治导致无数人遭殃,所以从这个方面看,20世纪声名狼藉。但是平克又指出,如果按比例换算,纳粹、苏联以及殖民霸权国家的屠杀行为就算不上特别恶劣了,若在现代社会,惨遭毒手的人可能会多得多。如今,我们对“三十年战争”这些历史上的流血事件仍然感到悲伤,但是根据平克的估计,“三十年战争”期间失去生命的人只占世界人口的1%。如果按比例换算成现代社会的人口,就意味着有7 000万人丧命,这比两次世界大战的总死亡人数还要多。
1701023470
1701023471 因此,更好的方法是研究比率:死亡人数在总人口中所占的比例。比如,我们可以计算美国各州每年死于脑癌的人在该州人口中所占的比例,而无须逐州统计死于脑癌的人数等原始数据。按照这种方法,得出的排行榜完全不同。南达科他州很不幸地位列榜首,每10万人中每年死于脑癌的人数为5.7人,远远超出每年3.4人的全美脑癌死亡率。排在南达科他州之后的是内布拉斯加州、阿拉斯加州、特拉华州和缅因州。如果我们不希望患上脑癌,可能就要避开这些地方。那么,我们该搬到什么地方去呢?在这个名单的末尾,我们会发现怀俄明州、佛蒙特州、北达科他州、夏威夷以及哥伦比亚特区。
1701023472
1701023473 这个结果有点儿奇怪。南达科他州脑癌频发,为什么北达科他州却几乎没有人患上这种癌症呢?为什么住到佛蒙特州就安全,而住在缅因州就有危险呢?
1701023474
1701023475 原因不是南达科他州一定会让居民患上脑癌,而北达科他州的居民则对癌症免疫。排在榜首的这5个州有共同的特点,而排在榜尾的那5个州也有相似之处,即这些地方人口稀少。在排在前面和末尾的这9个州(及一个特区)中,人口最多的是内布拉斯加州。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。这个分析结果似乎表明,居住在人口较少的州,患脑癌的概率有可能高得多,也有可能低得多。
1701023476
1701023477 很显然,这个结论没有任何道理,因此,我们最好换一种解释方法。
1701023478
1701023479 为了更好地理解这种情况,我们先做一个虚拟游戏,游戏的名字叫作“谁最善于抛硬币”。玩法很简单,将一把硬币抛出去,正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性,让大家手里握的硬币数量不同。有些人(“小数”组)只有10枚硬币,有些人(“大数”组)则有100枚硬币。
1701023480
1701023481 如果以正面朝上硬币的绝对数量来计分,我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多都有约50枚硬币正面朝上,这个数字是“小数”组成员无法企及的。即使“小数”组有100名成员,他们当中的最高得分也只能是8或9枚。
1701023482
1701023483 显然,这样的玩法并不公平,因为“大数”组拥有难以逾越的先天优势。因此,我们可以改进这个游戏:在评分时,不以绝对数量为依据,而是根据比例来计分。这样的计分方法,对两个组来说应该是公平的。
1701023484
1701023485 但是,这个计分方法仍然不公平。我前面说过,如果“小数”组有100名成员,至少有一个人可能抛出8枚正面朝上的硬币,因此他的得分为80%。那么“大数”组的成员呢?他们都不会有80%的硬币是正面朝上的。当然,可能性是存在的,但却不会发生。事实上,从概率的角度看,“大数”组必须包含20亿名成员,出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识,抛的硬币越多,越有可能出现一半正面朝上一半正面朝下的结果。
1701023486
1701023487 读者朋友们可以自己尝试一番,我就动手做过这个实验。为了模拟“小数”组成员,我一次抛10枚硬币,连续抛很多次,硬币正面朝上的数量构成下面这个序列:
1701023488
1701023489 4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……
1701023490
1701023491 然后,我模拟“大数”组成员,一次抛出100枚硬币,多次抛投的结果为:
1701023492
[ 上一页 ]  [ :1.701023443e+09 ]  [ 下一页 ]