打字猴:1.701023462e+09

1701023462

1701023463 数学领域规避错误的一个重要原则是：实地测试某个数学方法时，可采用不同的方式进行计算。如果得到不同的结果，则说明我们使用的方法有问题。

1701023464

1701023465 例如，2004年马德里阿托查火车站遭遇炸弹袭击，近200人因此丧生。如果纽约中央车站遭遇同样严重的炸弹袭击，结果会怎么样呢？

1701023466

1701023467 美国人口大约是西班牙人口的7倍。因此，如果我们按照200人在西班牙人口中占0.000 4%的比例来推算，就会认为同样的袭击发生在美国将会造成1 300人丧生。另一方面，200人在马德里人口中占0.006%，纽约市的人口是它的2.5倍，按比例换算，相当于有463个纽约人受害。此外，我们是否应该将马德里省与纽约州相比较呢？那样的话，答案就会接近600人。因此，我们会得到不同的结果，这是一个危险信号，说明按比例换算的方法值得怀疑。

1701023468

1701023469 当然，我们也不能全盘否定按比例换算的方法，这种方法的确非常重要。比如，我们希望了解美国哪些地区的脑癌发病率最高，如果单纯地统计哪些州的脑癌死亡人数最多，并没有多大意义。美国脑癌发病人数最多的州有加利福尼亚州、得克萨斯州、纽约州与佛罗里达州，因为这些州的人口很多。史蒂芬·平克（Stephen Pinker）在他颇为畅销的著作《人性中的善良天使》（The Best Angels of Our Nature）中持类似观点。他指出，纵观人类历史，人类的暴力行为呈稳步下降的趋势。因为强权政治导致无数人遭殃，所以从这个方面看，20世纪声名狼藉。但是平克又指出，如果按比例换算，纳粹、苏联以及殖民霸权国家的屠杀行为就算不上特别恶劣了，若在现代社会，惨遭毒手的人可能会多得多。如今，我们对“三十年战争”这些历史上的流血事件仍然感到悲伤，但是根据平克的估计，“三十年战争”期间失去生命的人只占世界人口的1%。如果按比例换算成现代社会的人口，就意味着有7 000万人丧命，这比两次世界大战的总死亡人数还要多。

1701023470

1701023471 因此，更好的方法是研究比率：死亡人数在总人口中所占的比例。比如，我们可以计算美国各州每年死于脑癌的人在该州人口中所占的比例，而无须逐州统计死于脑癌的人数等原始数据。按照这种方法，得出的排行榜完全不同。南达科他州很不幸地位列榜首，每10万人中每年死于脑癌的人数为5.7人，远远超出每年3.4人的全美脑癌死亡率。排在南达科他州之后的是内布拉斯加州、阿拉斯加州、特拉华州和缅因州。如果我们不希望患上脑癌，可能就要避开这些地方。那么，我们该搬到什么地方去呢？在这个名单的末尾，我们会发现怀俄明州、佛蒙特州、北达科他州、夏威夷以及哥伦比亚特区。

1701023472

1701023473 这个结果有点儿奇怪。南达科他州脑癌频发，为什么北达科他州却几乎没有人患上这种癌症呢？为什么住到佛蒙特州就安全，而住在缅因州就有危险呢？

1701023474

1701023475 原因不是南达科他州一定会让居民患上脑癌，而北达科他州的居民则对癌症免疫。排在榜首的这5个州有共同的特点，而排在榜尾的那5个州也有相似之处，即这些地方人口稀少。在排在前面和末尾的这9个州（及一个特区）中，人口最多的是内布拉斯加州。在人口排名的竞争中，该州与西弗吉尼亚州是难兄难弟，双方为第37名的位置争得热火朝天。这个分析结果似乎表明，居住在人口较少的州，患脑癌的概率有可能高得多，也有可能低得多。

1701023476

1701023477 很显然，这个结论没有任何道理，因此，我们最好换一种解释方法。

1701023478

1701023479 为了更好地理解这种情况，我们先做一个虚拟游戏，游戏的名字叫作“谁最善于抛硬币”。玩法很简单，将一把硬币抛出去，正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性，让大家手里握的硬币数量不同。有些人（“小数”组）只有10枚硬币，有些人（“大数”组）则有100枚硬币。

1701023480

1701023481 如果以正面朝上硬币的绝对数量来计分，我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多都有约50枚硬币正面朝上，这个数字是“小数”组成员无法企及的。即使“小数”组有100名成员，他们当中的最高得分也只能是8或9枚。

1701023482

1701023483 显然，这样的玩法并不公平，因为“大数”组拥有难以逾越的先天优势。因此，我们可以改进这个游戏：在评分时，不以绝对数量为依据，而是根据比例来计分。这样的计分方法，对两个组来说应该是公平的。

1701023484

1701023485 但是，这个计分方法仍然不公平。我前面说过，如果“小数”组有100名成员，至少有一个人可能抛出8枚正面朝上的硬币，因此他的得分为80%。那么“大数”组的成员呢？他们都不会有80%的硬币是正面朝上的。当然，可能性是存在的，但却不会发生。事实上，从概率的角度看，“大数”组必须包含20亿名成员，出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识，抛的硬币越多，越有可能出现一半正面朝上一半正面朝下的结果。

1701023486

1701023487 读者朋友们可以自己尝试一番，我就动手做过这个实验。为了模拟“小数”组成员，我一次抛10枚硬币，连续抛很多次，硬币正面朝上的数量构成下面这个序列：

1701023488

1701023489 4，4，5，6，5，4，3，3，4，5，5，9，3，5，7，4，5，7，7，9……

1701023490

1701023491 然后，我模拟“大数”组成员，一次抛出100枚硬币，多次抛投的结果为：

1701023492

1701023493 46，54，48，45，45，52，49，47，58，40，57，46，46，51，52，51，50，60，43，45……

1701023494

1701023495 每次抛1 000枚硬币的结果是：

1701023496

1701023497 486，501，489，472，537，474，508，510，478，508，493，511，489，510，530，490，503，462，500，494……

1701023498

1701023499 算了，还是跟大家坦白吧。我并没有真的抛1 000枚硬币，而是用计算机模拟得出的结果，谁有那么多的时间抛1 000枚硬币呢？

1701023500

1701023501 不过，还真的有人这样做了。1939年，南非数学家克里奇（J. E. Kerrich）因为冒失地跑到了欧洲，结果很快在丹麦被逮捕并被关进了集中营。如果一个普通人被关在集中营，不知道猴年马月才能重见天日，那么他可能会在牢房的墙壁上刻画记号记录天数，以此来帮助自己度过这段难熬的时光。不过，克里奇这位热衷于统计学研究的囚犯则不同，他总共将一枚硬币抛了1万次，还记录了正面朝上的数量，统计结果如下图所示。

1701023502

1701023503

1701023504

1701023505

1701023506 从中我们可以看出，随着硬币的数量越来越多，正面朝上的概率明显地向50%靠近，就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币，正面朝上的比例范围为30%~90%；抛100枚，比例范围缩小，变为40%~60%；抛1 000枚，比例范围仅为46.2%~53.7%。在某个规则的作用下，这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”（Law of Large Numbers）。这里，我就不赘述这条定理了（尽管这条定理极具美感），但是我们可以这样理解：抛的硬币越多，正面朝上的比例为80%的概率就越小。事实上，如果抛的硬币足够多，结果为有51%的硬币正面朝上的概率也是微乎其微的！在抛10枚硬币的情况下，如果得到高度失衡的结果，并不值得我们关注。但是，如果抛100枚硬币，结果仍然失衡，那就让人吃惊了，我们甚至会怀疑：是不是有人在硬币上动了手脚？

1701023507

1701023508 随着实验不断重复，实验结果往往会趋于稳定，并接近一个固定的平均值。事实上，自从运用数学方法研究概率以来，我们经常会得出这样的结论。16世纪的吉罗拉莫·卡尔达诺（Girolamo Cardano）就用不是十分正式的方式提出了这个原则，但是，直到19世纪初，西莫恩·德尼·泊松（Simeon-Denis Poisson）才赋予它一个简明扼要的名字：大数定律。

1701023509

1701023510 抛硬币与法国警察的帽子

1701023511

[ 上一页 ] [ :1.701023462e+09 ] [ 下一页 ]