1701023549
1701023550
4,4,2,5,2,1,3,8,10,7,4,4,1,2,1,0,10,7,5……
1701023551
1701023552
每次抛1 000枚硬币后得到的偏差为:
1701023553
1701023554
14,1,11,28,37,26,8,10,22,8,7,11,11,10,30,10,3,38,0,6……
1701023555
1701023556
从中可以看出,随着抛硬币次数的增加,虽然偏差与硬币总数的比值在逐步缩小,但是绝对偏差在不断变大(这是由大数定律决定的)。棣莫弗敏锐地发现,硬币数量的平方根直接影响典型偏差的大小。如果硬币的数量是上一次的100倍,那么典型偏差的增长系数就是10,至少绝对偏差的增长系数为10。如果以在硬币总数中所占的比例来计算,偏差就会随着硬币数量的增加而减小,因为硬币数量平方根的增加速度比硬币数量的增加速度慢得多。抛1 000枚硬币,与理想情况的偏差可能多达38,但是如果计算占硬币总数的比例,则与50%的偏差仅为3.8%。
1701023557
1701023558
棣莫弗的观察结果,与政治民意测验中计算标准误差(standard error)[1]的基本原理一致。如果希望将误差条线(error bar)减小一半,就需要将调查对象增加三倍。如果希望体验连续抛出正面朝上的结果有多么令人惬意,先要想一想这个概率与50%之间有几个平方根的差距。100的平方根是10,因此,如果抛100枚硬币,有60枚正面朝上,那么与50%之间的差距正好是一个平方根。1 000的平方根约为31,因此,如果1 000枚硬币中有538枚正面朝上,尽管这一次正面朝上的比例为53.8%,而上次为60%,但这一次的结果会更让我意想不到。
1701023559
1701023560
棣莫弗的研究还没有结束。他发现,随着硬币数量的增加,正面朝上的比例与50%之间的偏差逐渐形成了完美的钟形曲线,也就是商业中所谓的正态分布。统计学先驱弗朗西斯·伊西德罗·埃奇沃思(Francis Ysidro Edgeworth)建议把这条曲线叫作“法国警察的帽子”,但遗憾的是,他的这个提议没有得到广泛的认可。
1701023561
1701023562
钟形曲线的中间部分高高隆起,而边缘部分则非常平坦,也就是说,硬币的数量与零的距离越远,发生偏差的可能性就越小,而且可以精确地量化。抛N枚硬币,与有50%的硬币正面朝上这个理想结果之间的偏差,不超过N的平方根的概率约为95.45%。1 000的平方根约为31,在上面讨论的抛1 000枚硬币、重复20次的实验中,正面朝上的硬币数量与500的差在31以内的有18次(90%)。如果继续进行这个实验,正面朝上的硬币数量为469~531枚的概率就会越来越接近95.45%。[2]
1701023563
1701023564
1701023565
1701023566
1701023567
这种情况似乎是某种力量在刻意为之。棣莫弗也有这种感觉,他多次提到这个问题,认为抛硬币(或者其他研究概率的所有相关实验)都出现这样的规律,是上帝之手在起作用。上帝把抛硬币、掷骰子和人类生活的短时不规则行为,转化为可以预测的长期行为,其中的规律无法更改,但是公式可以破译。
1701023568
1701023569
这样的想法其实十分危险。如果我们认为有一只超自然的手(上帝的手也好,幸运女神或者印度教吉祥天女的手也罢)在操纵这些硬币,使半数硬币正面朝上,我们就会掉进所谓的“平均定律”(law of averages)的陷阱:认为在出现数次正面朝上之后,下一枚硬币几乎肯定是反面朝上;或者认为在生了三个男孩之后,下一个肯定会生女儿。棣莫弗不是说过极端结果是极不可能发生的吗?例如连生4个儿子,他确实说过这样的话。但是,在生了三个儿子之后,第四个仍然是男孩的情况并不是不可能。事实上,这一次与第一次生男孩的概率相同。
1701023570
1701023571
乍一看,这似乎与大数定律互相矛盾。根据大数定律,我们生男孩和生女孩的概率应该是相等的。[3]其实,这种矛盾是一种假象。看看抛硬币的情况,更容易理解这个问题。如果我们抛硬币连续10次得到正面朝上的结果,我们可能会觉得这枚硬币很奇怪。后文会接着讨论这个问题,但是目前我们假设这枚硬币没有问题,随着抛硬币的次数增多,正面朝上的比例肯定会接近50%。
1701023572
1701023573
根据常识,在连续10次得到正面朝上的结果后,下一次反面朝上的概率肯定要略高一点儿,只有这样才能修正目前的不平衡状况。
1701023574
1701023575
但是,常识也非常明确地告诉我们,硬币肯定无法记得前10次是什么样的结果!
1701023576
1701023577
我还是开诚布公地为大家答疑解惑吧:我们根据常识完成的第二次分析是正确的。“平均定律”这个说法不妥当,因为“定律”应该是正确的,而所谓的“平均定律”却是错误的。硬币没有记忆,因此,再次抛出硬币时,正面朝上的概率仍然是50%。总的比例会趋近于50%,但这并不意味着在出现若干次正面朝上的结果后,幸运女神就会青睐反面。实际的情况是,随着抛硬币的次数越来越多,前10次结果的影响力就会越来越小。如果我们再抛1 000次,那么这1 010次正面朝上的比例仍然接近50%。大数定律不会对已经发生的情况进行平衡,而是利用新的数据来削弱它的影响力,直至前面的结果从比例上看影响力非常小,可以忽略不计。这就是大数定律发生作用的原理。
1701023578
1701023579
评判暴行的数学方法
1701023580
1701023581
前文对抛硬币与考试分数的分析,同样适用于大屠杀与种族灭绝行为。如果我们根据死亡人数在全国人口中所占比例来评判这些事件,那么在分析人口总数非常小的国家所发生的暴行时往往会犯非常严重的错误。马修·怀特(Matthew White)在他的《暴行备忘录》(Great Big Book of Horrible Things)一书中,心平气和地研究了各种恐怖事件,并使用上述方法来评判20世纪发生的暴行。他认为,排在前三位的分别是德国殖民者对纳米比亚赫雷罗人的大屠杀、波尔布特对柬埔寨人的屠杀和利奥波德国王在刚果发起的殖民战争,而希特勒的暴行却榜上无名。
1701023582
1701023583
这种分析方法对人口较少的国家有失公允,因此有可能导致某些问题。我们在阅读以色列、巴勒斯坦、尼加拉瓜或者西班牙人惨遭屠杀的报道时,心情会十分沉痛。在衡量这种悲痛程度时,我们能找到经过数学方法验证的评判方法吗?
1701023584
1701023585
我可以告诉大家一个我自认为行之有效的经验法则:如果屠杀的规模非常之大,导致“幸存者”为数不多时,用比例的方式来表示死亡人数是可行的。我们在提到卢旺达种族大屠杀的幸存者时,指的很可能是生活在卢旺达的图西人,因此,我们可以说种族暴力行为屠杀了75%的图西人。我们也可以说,导致75%的瑞士人罹难的灾害,其悲惨程度等同于图西人遭遇的种族灭绝惨剧。
1701023586
1701023587
但是,如果我们把一名西雅图居民称作“9·11”恐怖袭击事件的“幸存者”,就有点儿荒谬了。因此,用其在美国人口中所占比例来评价“9·11”恐怖袭击的恶劣程度,可能并不是很妥当,在“9·11”恐怖袭击事件中死亡的人占美国人口的比例仅为0.001%。这个数字非常接近于零,凭直觉我们很难正确理解这样一个比例到底意味着什么。
1701023588
1701023589
我们既不能使用绝对数,又不可以使用比例,那么我们到底如何评判这些暴行呢?有时候,利用比较的方式会取得不错的效果。比如,卢旺达种族大屠杀比“9·11”恐怖袭击事件恶劣,“9·11”恐怖袭击事件比哥伦拜恩校园枪击事件恶劣,哥伦拜恩校园枪击事件又比造成1人死亡的醉驾事故恶劣。但是,由于时空关系,还有的事件难以比较。“三十年战争”真的比第一次世界大战更惨烈吗?卢旺达种族大屠杀的发生速度之快令人瞠目结舌,而两伊战争则旷日持久,这两者又如何比较?
1701023590
1701023591
大多数数学家认为,历史上的这些惨剧和暴行形成了所谓的“半序集”(partially ordered set)。也就是说,在这些灾难中,有的可以两两比较,其他的则无法比较。这个观点看似高明,其实不然,因为我们并没有统计出精确的死亡人数,在评判导致人员死亡的炸弹袭击与战争引发的饥荒这两类事件时,对于哪一类事件更为恶劣的问题也没有形成明确的结论;因为比较战争残忍程度的问题和比较数量大小的问题,在本质上是完全不同的。比较数量大小时,我们总是能得出答案,而比较战争的残忍程度时,有时候我们却无法判断哪一场战争更加残忍。如果我们希望了解26人在恐怖袭击中丧生的悲剧会给我们带来什么样的感受,我们可以想象这次恐怖袭击就发生在我们所在的这座城市,而不是远在地球的另一端,同时还造成26人罹难。这个方法无论在数学还是道德层面都是无可指摘的,也不需要进行复杂的计算。
1701023592
1701023593
[1]统计学专业知识丰富的读者应该可以注意到,我一直小心翼翼地避免使用“标准偏差”(standard deviation)这个术语。其他读者如果希望进一步了解它,需要查询相关资料。
1701023594
1701023595
[2]准确地讲,这个概率比95.45%略小,更接近95.37%,因为1 000的平方根不是31,而是略大于31。
1701023596
1701023597
[3]其实,生男孩的概率是51.5%,生女孩的概率是48.5%,但是,这又有什么关系呢?
1701023598
[
上一页 ]
[ :1.701023549e+09 ]
[
下一页 ]