1701023462
1701023463
数学领域规避错误的一个重要原则是:实地测试某个数学方法时,可采用不同的方式进行计算。如果得到不同的结果,则说明我们使用的方法有问题。
1701023464
1701023465
例如,2004年马德里阿托查火车站遭遇炸弹袭击,近200人因此丧生。如果纽约中央车站遭遇同样严重的炸弹袭击,结果会怎么样呢?
1701023466
1701023467
美国人口大约是西班牙人口的7倍。因此,如果我们按照200人在西班牙人口中占0.000 4%的比例来推算,就会认为同样的袭击发生在美国将会造成1 300人丧生。另一方面,200人在马德里人口中占0.006%,纽约市的人口是它的2.5倍,按比例换算,相当于有463个纽约人受害。此外,我们是否应该将马德里省与纽约州相比较呢?那样的话,答案就会接近600人。因此,我们会得到不同的结果,这是一个危险信号,说明按比例换算的方法值得怀疑。
1701023468
1701023469
当然,我们也不能全盘否定按比例换算的方法,这种方法的确非常重要。比如,我们希望了解美国哪些地区的脑癌发病率最高,如果单纯地统计哪些州的脑癌死亡人数最多,并没有多大意义。美国脑癌发病人数最多的州有加利福尼亚州、得克萨斯州、纽约州与佛罗里达州,因为这些州的人口很多。史蒂芬·平克(Stephen Pinker)在他颇为畅销的著作《人性中的善良天使》(The Best Angels of Our Nature)中持类似观点。他指出,纵观人类历史,人类的暴力行为呈稳步下降的趋势。因为强权政治导致无数人遭殃,所以从这个方面看,20世纪声名狼藉。但是平克又指出,如果按比例换算,纳粹、苏联以及殖民霸权国家的屠杀行为就算不上特别恶劣了,若在现代社会,惨遭毒手的人可能会多得多。如今,我们对“三十年战争”这些历史上的流血事件仍然感到悲伤,但是根据平克的估计,“三十年战争”期间失去生命的人只占世界人口的1%。如果按比例换算成现代社会的人口,就意味着有7 000万人丧命,这比两次世界大战的总死亡人数还要多。
1701023470
1701023471
因此,更好的方法是研究比率:死亡人数在总人口中所占的比例。比如,我们可以计算美国各州每年死于脑癌的人在该州人口中所占的比例,而无须逐州统计死于脑癌的人数等原始数据。按照这种方法,得出的排行榜完全不同。南达科他州很不幸地位列榜首,每10万人中每年死于脑癌的人数为5.7人,远远超出每年3.4人的全美脑癌死亡率。排在南达科他州之后的是内布拉斯加州、阿拉斯加州、特拉华州和缅因州。如果我们不希望患上脑癌,可能就要避开这些地方。那么,我们该搬到什么地方去呢?在这个名单的末尾,我们会发现怀俄明州、佛蒙特州、北达科他州、夏威夷以及哥伦比亚特区。
1701023472
1701023473
这个结果有点儿奇怪。南达科他州脑癌频发,为什么北达科他州却几乎没有人患上这种癌症呢?为什么住到佛蒙特州就安全,而住在缅因州就有危险呢?
1701023474
1701023475
原因不是南达科他州一定会让居民患上脑癌,而北达科他州的居民则对癌症免疫。排在榜首的这5个州有共同的特点,而排在榜尾的那5个州也有相似之处,即这些地方人口稀少。在排在前面和末尾的这9个州(及一个特区)中,人口最多的是内布拉斯加州。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。这个分析结果似乎表明,居住在人口较少的州,患脑癌的概率有可能高得多,也有可能低得多。
1701023476
1701023477
很显然,这个结论没有任何道理,因此,我们最好换一种解释方法。
1701023478
1701023479
为了更好地理解这种情况,我们先做一个虚拟游戏,游戏的名字叫作“谁最善于抛硬币”。玩法很简单,将一把硬币抛出去,正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性,让大家手里握的硬币数量不同。有些人(“小数”组)只有10枚硬币,有些人(“大数”组)则有100枚硬币。
1701023480
1701023481
如果以正面朝上硬币的绝对数量来计分,我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多都有约50枚硬币正面朝上,这个数字是“小数”组成员无法企及的。即使“小数”组有100名成员,他们当中的最高得分也只能是8或9枚。
1701023482
1701023483
显然,这样的玩法并不公平,因为“大数”组拥有难以逾越的先天优势。因此,我们可以改进这个游戏:在评分时,不以绝对数量为依据,而是根据比例来计分。这样的计分方法,对两个组来说应该是公平的。
1701023484
1701023485
但是,这个计分方法仍然不公平。我前面说过,如果“小数”组有100名成员,至少有一个人可能抛出8枚正面朝上的硬币,因此他的得分为80%。那么“大数”组的成员呢?他们都不会有80%的硬币是正面朝上的。当然,可能性是存在的,但却不会发生。事实上,从概率的角度看,“大数”组必须包含20亿名成员,出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识,抛的硬币越多,越有可能出现一半正面朝上一半正面朝下的结果。
1701023486
1701023487
读者朋友们可以自己尝试一番,我就动手做过这个实验。为了模拟“小数”组成员,我一次抛10枚硬币,连续抛很多次,硬币正面朝上的数量构成下面这个序列:
1701023488
1701023489
4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……
1701023490
1701023491
然后,我模拟“大数”组成员,一次抛出100枚硬币,多次抛投的结果为:
1701023492
1701023493
46,54,48,45,45,52,49,47,58,40,57,46,46,51,52,51,50,60,43,45……
1701023494
1701023495
每次抛1 000枚硬币的结果是:
1701023496
1701023497
486,501,489,472,537,474,508,510,478,508,493,511,489,510,530,490,503,462,500,494……
1701023498
1701023499
算了,还是跟大家坦白吧。我并没有真的抛1 000枚硬币,而是用计算机模拟得出的结果,谁有那么多的时间抛1 000枚硬币呢?
1701023500
1701023501
不过,还真的有人这样做了。1939年,南非数学家克里奇(J. E. Kerrich)因为冒失地跑到了欧洲,结果很快在丹麦被逮捕并被关进了集中营。如果一个普通人被关在集中营,不知道猴年马月才能重见天日,那么他可能会在牢房的墙壁上刻画记号记录天数,以此来帮助自己度过这段难熬的时光。不过,克里奇这位热衷于统计学研究的囚犯则不同,他总共将一枚硬币抛了1万次,还记录了正面朝上的数量,统计结果如下图所示。
1701023502
1701023503
1701023504
1701023505
1701023506
从中我们可以看出,随着硬币的数量越来越多,正面朝上的概率明显地向50%靠近,就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币,正面朝上的比例范围为30%~90%;抛100枚,比例范围缩小,变为40%~60%;抛1 000枚,比例范围仅为46.2%~53.7%。在某个规则的作用下,这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”(Law of Large Numbers)。这里,我就不赘述这条定理了(尽管这条定理极具美感),但是我们可以这样理解:抛的硬币越多,正面朝上的比例为80%的概率就越小。事实上,如果抛的硬币足够多,结果为有51%的硬币正面朝上的概率也是微乎其微的!在抛10枚硬币的情况下,如果得到高度失衡的结果,并不值得我们关注。但是,如果抛100枚硬币,结果仍然失衡,那就让人吃惊了,我们甚至会怀疑:是不是有人在硬币上动了手脚?
1701023507
1701023508
随着实验不断重复,实验结果往往会趋于稳定,并接近一个固定的平均值。事实上,自从运用数学方法研究概率以来,我们经常会得出这样的结论。16世纪的吉罗拉莫·卡尔达诺(Girolamo Cardano)就用不是十分正式的方式提出了这个原则,但是,直到19世纪初,西莫恩·德尼·泊松(Simeon-Denis Poisson)才赋予它一个简明扼要的名字:大数定律。
1701023509
1701023510
抛硬币与法国警察的帽子
1701023511
[
上一页 ]
[ :1.701023462e+09 ]
[
下一页 ]