打字猴:1.701023473e+09
1701023473 这个结果有点儿奇怪。南达科他州脑癌频发,为什么北达科他州却几乎没有人患上这种癌症呢?为什么住到佛蒙特州就安全,而住在缅因州就有危险呢?
1701023474
1701023475 原因不是南达科他州一定会让居民患上脑癌,而北达科他州的居民则对癌症免疫。排在榜首的这5个州有共同的特点,而排在榜尾的那5个州也有相似之处,即这些地方人口稀少。在排在前面和末尾的这9个州(及一个特区)中,人口最多的是内布拉斯加州。在人口排名的竞争中,该州与西弗吉尼亚州是难兄难弟,双方为第37名的位置争得热火朝天。这个分析结果似乎表明,居住在人口较少的州,患脑癌的概率有可能高得多,也有可能低得多。
1701023476
1701023477 很显然,这个结论没有任何道理,因此,我们最好换一种解释方法。
1701023478
1701023479 为了更好地理解这种情况,我们先做一个虚拟游戏,游戏的名字叫作“谁最善于抛硬币”。玩法很简单,将一把硬币抛出去,正面朝上的硬币数量最多的一方获胜。我们给这个游戏增加一点儿趣味性,让大家手里握的硬币数量不同。有些人(“小数”组)只有10枚硬币,有些人(“大数”组)则有100枚硬币。
1701023480
1701023481 如果以正面朝上硬币的绝对数量来计分,我们几乎可以肯定获胜方是“大数”组的成员。“大数”组成员大多都有约50枚硬币正面朝上,这个数字是“小数”组成员无法企及的。即使“小数”组有100名成员,他们当中的最高得分也只能是8或9枚。
1701023482
1701023483 显然,这样的玩法并不公平,因为“大数”组拥有难以逾越的先天优势。因此,我们可以改进这个游戏:在评分时,不以绝对数量为依据,而是根据比例来计分。这样的计分方法,对两个组来说应该是公平的。
1701023484
1701023485 但是,这个计分方法仍然不公平。我前面说过,如果“小数”组有100名成员,至少有一个人可能抛出8枚正面朝上的硬币,因此他的得分为80%。那么“大数”组的成员呢?他们都不会有80%的硬币是正面朝上的。当然,可能性是存在的,但却不会发生。事实上,从概率的角度看,“大数”组必须包含20亿名成员,出现过高或过低的结果才是合理的。这个结论符合我们对于概率的直觉认识,抛的硬币越多,越有可能出现一半正面朝上一半正面朝下的结果。
1701023486
1701023487 读者朋友们可以自己尝试一番,我就动手做过这个实验。为了模拟“小数”组成员,我一次抛10枚硬币,连续抛很多次,硬币正面朝上的数量构成下面这个序列:
1701023488
1701023489 4,4,5,6,5,4,3,3,4,5,5,9,3,5,7,4,5,7,7,9……
1701023490
1701023491 然后,我模拟“大数”组成员,一次抛出100枚硬币,多次抛投的结果为:
1701023492
1701023493 46,54,48,45,45,52,49,47,58,40,57,46,46,51,52,51,50,60,43,45……
1701023494
1701023495 每次抛1 000枚硬币的结果是:
1701023496
1701023497 486,501,489,472,537,474,508,510,478,508,493,511,489,510,530,490,503,462,500,494……
1701023498
1701023499 算了,还是跟大家坦白吧。我并没有真的抛1 000枚硬币,而是用计算机模拟得出的结果,谁有那么多的时间抛1 000枚硬币呢?
1701023500
1701023501 不过,还真的有人这样做了。1939年,南非数学家克里奇(J. E. Kerrich)因为冒失地跑到了欧洲,结果很快在丹麦被逮捕并被关进了集中营。如果一个普通人被关在集中营,不知道猴年马月才能重见天日,那么他可能会在牢房的墙壁上刻画记号记录天数,以此来帮助自己度过这段难熬的时光。不过,克里奇这位热衷于统计学研究的囚犯则不同,他总共将一枚硬币抛了1万次,还记录了正面朝上的数量,统计结果如下图所示。
1701023502
1701023503
1701023504
1701023505
1701023506 从中我们可以看出,随着硬币的数量越来越多,正面朝上的概率明显地向50%靠近,就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币,正面朝上的比例范围为30%~90%;抛100枚,比例范围缩小,变为40%~60%;抛1 000枚,比例范围仅为46.2%~53.7%。在某个规则的作用下,这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”(Law of Large Numbers)。这里,我就不赘述这条定理了(尽管这条定理极具美感),但是我们可以这样理解:抛的硬币越多,正面朝上的比例为80%的概率就越小。事实上,如果抛的硬币足够多,结果为有51%的硬币正面朝上的概率也是微乎其微的!在抛10枚硬币的情况下,如果得到高度失衡的结果,并不值得我们关注。但是,如果抛100枚硬币,结果仍然失衡,那就让人吃惊了,我们甚至会怀疑:是不是有人在硬币上动了手脚?
1701023507
1701023508 随着实验不断重复,实验结果往往会趋于稳定,并接近一个固定的平均值。事实上,自从运用数学方法研究概率以来,我们经常会得出这样的结论。16世纪的吉罗拉莫·卡尔达诺(Girolamo Cardano)就用不是十分正式的方式提出了这个原则,但是,直到19世纪初,西莫恩·德尼·泊松(Simeon-Denis Poisson)才赋予它一个简明扼要的名字:大数定律。
1701023509
1701023510 抛硬币与法国警察的帽子
1701023511
1701023512 18世纪初,雅各布·伯努利(Jakob Bernoulli)完成了对大数定律的精确表述与数学证明。如今,人们不再把他的研究结果视为观察结果,而是一个定律。
1701023513
1701023514 根据这个定律,这种大数–小数的游戏并不公平。由于有大数定律,“大数”组成员的得分有向50%靠拢的趋势,而“小数”组的得分变化程度则较大。我们不能就此得出结论,认为“小数”组成员“更善于”抛硬币,即使他们每次都能获胜。如果我们把所有“小数”组成员(而不仅仅是得分高的成员)正面朝上的比例进行平均,结果就会与“大数”组相仿,也接近50%。如果我们统计的不是硬币正面朝上数量最多的,而是最少的,那么“小数”组成员的成绩就会一下子变得非常糟糕,很有可能某位选手抛的正面朝下的硬币比例仅为20%,而所有“大数”组成员的得分都不会这么低。统计正面朝上的绝对次数会让“大数”组拥有无与伦比的优势,但是统计比例的方法同样会使游戏不公平,只不过这次是“小数”组占便宜罢了。硬币的枚数(我们在统计学中称之为“样本大小”)越少,正面朝上的硬币所占比例的变异性就会越显著。
1701023515
1701023516 因此,在进行政治民意测验时,如果投票人数很少,调查结果就不那么可靠。脑癌的调查也是如此。在人口较少的州,其样本数量比较小,因此,统计结果就会像羸弱的小草一样,一旦概率这股狂风吹过来,它们就会东倒西歪,而那些人口大州就像参天大树,在狂风中傲然挺立。如果统计脑癌致死的绝对人数,人口大州的结果就会偏高,但是,如果计算脑癌致死人数的最高比例(计算最低比例的结果也一样),又会把人口少的州推到靠前的位置。南达科他州是脑癌死亡人数比例最高的州之一,而北达科他州却位于最低的行列,原因就在这里。不是因为拉什莫尔山或者华尔药局会散布某种对大脑有害的毒素,而是因为小数比例天性多变。
1701023517
1701023518 我们都非常熟悉这个数学事实,只是有时我们视而不见罢了。大家知道谁是NBA(美国职业篮球联赛)中的神投手吗?在2011~2012赛季中的某一个月里,有5名球员投篮命中率相同,并列全联盟榜首。这5名球员是阿蒙·约翰逊(Armon Johnson)、德安德鲁·利金斯(DeAndre Liggins)、莱恩·瑞德(Ryan Reid)、哈西姆·塔比特(Hasheem Thabeet)和罗尼·图里亚夫(Ronny Turiaf)。
1701023519
1701023520 那么,到底谁投篮最准呢?
1701023521
1701023522 这个问题可不好回答。他们都不是NBA最优秀的投手,连上场机会都很少。比如,阿蒙·约翰逊只代表波特兰开拓者队打了一场比赛,他有一次投篮,而且投进了。名单上的这5个家伙一共投篮13次,全部命中。小样本更多变,因此NBA的最优秀投手总是多次投篮而且运气不错的球员。尼克斯队的泰森·钱德勒(Tyson Chandler)一个赛季投篮202次,有141次命中得分,在打满所有场次比赛的球员中名列榜首。显然,我们不会说阿蒙·约翰逊的投篮比钱德勒更精准。(如果有人对此表示怀疑,可以去看看约翰逊在2010~2011赛季的表现。在那个赛季,他的投篮命中率一直保持在45.5%,这样的命中率十分普通。)因此,阿蒙·约翰逊这样的球员根本不会出现在NBA的球星排行榜上。NBA的各种排名都对上场时间设定了最低要求,否则,由于小样本的特点,上场时间很短的不知名球员就会上榜。
[ 上一页 ]  [ :1.701023473e+09 ]  [ 下一页 ]