打字猴:1.701023502e+09
1701023502
1701023503
1701023504
1701023505
1701023506 从中我们可以看出,随着硬币的数量越来越多,正面朝上的概率明显地向50%靠近,就好像被一把看不见的老虎钳钳住了一样。计算机模拟也会产生同样的结果。抛10枚硬币,正面朝上的比例范围为30%~90%;抛100枚,比例范围缩小,变为40%~60%;抛1 000枚,比例范围仅为46.2%~53.7%。在某个规则的作用下,这个比例越来越接近50%。这只不讲情面、无法抗拒的“手”就是“大数定律”(Law of Large Numbers)。这里,我就不赘述这条定理了(尽管这条定理极具美感),但是我们可以这样理解:抛的硬币越多,正面朝上的比例为80%的概率就越小。事实上,如果抛的硬币足够多,结果为有51%的硬币正面朝上的概率也是微乎其微的!在抛10枚硬币的情况下,如果得到高度失衡的结果,并不值得我们关注。但是,如果抛100枚硬币,结果仍然失衡,那就让人吃惊了,我们甚至会怀疑:是不是有人在硬币上动了手脚?
1701023507
1701023508 随着实验不断重复,实验结果往往会趋于稳定,并接近一个固定的平均值。事实上,自从运用数学方法研究概率以来,我们经常会得出这样的结论。16世纪的吉罗拉莫·卡尔达诺(Girolamo Cardano)就用不是十分正式的方式提出了这个原则,但是,直到19世纪初,西莫恩·德尼·泊松(Simeon-Denis Poisson)才赋予它一个简明扼要的名字:大数定律。
1701023509
1701023510 抛硬币与法国警察的帽子
1701023511
1701023512 18世纪初,雅各布·伯努利(Jakob Bernoulli)完成了对大数定律的精确表述与数学证明。如今,人们不再把他的研究结果视为观察结果,而是一个定律。
1701023513
1701023514 根据这个定律,这种大数–小数的游戏并不公平。由于有大数定律,“大数”组成员的得分有向50%靠拢的趋势,而“小数”组的得分变化程度则较大。我们不能就此得出结论,认为“小数”组成员“更善于”抛硬币,即使他们每次都能获胜。如果我们把所有“小数”组成员(而不仅仅是得分高的成员)正面朝上的比例进行平均,结果就会与“大数”组相仿,也接近50%。如果我们统计的不是硬币正面朝上数量最多的,而是最少的,那么“小数”组成员的成绩就会一下子变得非常糟糕,很有可能某位选手抛的正面朝下的硬币比例仅为20%,而所有“大数”组成员的得分都不会这么低。统计正面朝上的绝对次数会让“大数”组拥有无与伦比的优势,但是统计比例的方法同样会使游戏不公平,只不过这次是“小数”组占便宜罢了。硬币的枚数(我们在统计学中称之为“样本大小”)越少,正面朝上的硬币所占比例的变异性就会越显著。
1701023515
1701023516 因此,在进行政治民意测验时,如果投票人数很少,调查结果就不那么可靠。脑癌的调查也是如此。在人口较少的州,其样本数量比较小,因此,统计结果就会像羸弱的小草一样,一旦概率这股狂风吹过来,它们就会东倒西歪,而那些人口大州就像参天大树,在狂风中傲然挺立。如果统计脑癌致死的绝对人数,人口大州的结果就会偏高,但是,如果计算脑癌致死人数的最高比例(计算最低比例的结果也一样),又会把人口少的州推到靠前的位置。南达科他州是脑癌死亡人数比例最高的州之一,而北达科他州却位于最低的行列,原因就在这里。不是因为拉什莫尔山或者华尔药局会散布某种对大脑有害的毒素,而是因为小数比例天性多变。
1701023517
1701023518 我们都非常熟悉这个数学事实,只是有时我们视而不见罢了。大家知道谁是NBA(美国职业篮球联赛)中的神投手吗?在2011~2012赛季中的某一个月里,有5名球员投篮命中率相同,并列全联盟榜首。这5名球员是阿蒙·约翰逊(Armon Johnson)、德安德鲁·利金斯(DeAndre Liggins)、莱恩·瑞德(Ryan Reid)、哈西姆·塔比特(Hasheem Thabeet)和罗尼·图里亚夫(Ronny Turiaf)。
1701023519
1701023520 那么,到底谁投篮最准呢?
1701023521
1701023522 这个问题可不好回答。他们都不是NBA最优秀的投手,连上场机会都很少。比如,阿蒙·约翰逊只代表波特兰开拓者队打了一场比赛,他有一次投篮,而且投进了。名单上的这5个家伙一共投篮13次,全部命中。小样本更多变,因此NBA的最优秀投手总是多次投篮而且运气不错的球员。尼克斯队的泰森·钱德勒(Tyson Chandler)一个赛季投篮202次,有141次命中得分,在打满所有场次比赛的球员中名列榜首。显然,我们不会说阿蒙·约翰逊的投篮比钱德勒更精准。(如果有人对此表示怀疑,可以去看看约翰逊在2010~2011赛季的表现。在那个赛季,他的投篮命中率一直保持在45.5%,这样的命中率十分普通。)因此,阿蒙·约翰逊这样的球员根本不会出现在NBA的球星排行榜上。NBA的各种排名都对上场时间设定了最低要求,否则,由于小样本的特点,上场时间很短的不知名球员就会上榜。
1701023523
1701023524 但并不是所有人都了解这些数量关系,因此在设计排名系统时可能没考虑到大数定律。如今,许多地方都在实施教育责任制,例如,北卡罗来纳州制订了一个奖励计划,对标准化考试成绩出众的学校实施奖励。该计划根据每名学生的考试成绩在一年时间内(从春季开始)取得进步的平均幅度,来评定各校的教学情况,在全州范围内排名前25位的学校,可以在体育馆悬挂横幅,还可以在周边城镇炫耀一番。
1701023525
1701023526 哪所学校获胜了呢?1999年,获得最高分的是北威尔克斯博纳的莱特小学,该校的“教学质量得分”为91.5分。北卡罗来纳所有小学的平均在校人数接近500人,而莱特小学属于学生较少的学校,只有418人就读。排在莱特小学之后的是金斯伍德小学,得分为90.9分。里弗赛德小学名列第三,得分为90.4分。金斯伍德只有315名学生,而位于阿帕拉契山脚下的里弗赛德小学规模更小,只有161名学生。
1701023527
1701023528 事实上,在北卡罗来纳州的这次评比中,规模较小的学校大多取得了不错的成绩。托马斯·基恩(Thomas Kane)与道格拉斯·施泰格(Douglas Staiger)的一项研究发现,在历时7年的研究中,该州规模最小的学校中有28%的学校曾经排在前25位,而在所有学校中,只有7%的学校曾经悬挂过横幅。
1701023529
1701023530 这次评估似乎说明,在规模较小的学校里,老师们了解学生及其家庭的情况,有时间进行单独辅导,因此更有可能提高学生的考试成绩。
1701023531
1701023532 不过,我要告诉大家一个事实:基恩与施泰格合作完成的论文标题为“学校教育评估手段失当的可能与常见问题”。平均而言,在规模较小的学校中,学生的考试成绩并没有表现出显著高于其他学校的情况。此外,该州被派驻“帮扶工作组”的学校(我的理解是因考试成绩低下而被该州官员训斥的学校)大多规模较小。
1701023533
1701023534 在我看来,上述情况表明,里弗赛德小学算不上北卡罗来纳州最优秀的学校,其道理就与阿蒙·约翰逊不是联盟最优秀的投手一样。前25名之所以大多是规模小的学校,并不是因为这些学校更加优秀,而是因为它们的考试分数更加多变。只要有几名天才学生或者三流的差生,它们的平均成绩就会发生很大的起伏。而在规模较大的学校,即使出现几个过高或过低的分数,在庞大的学生总数面前,其影响作用也几乎可以忽略不计。
1701023535
1701023536 既然求平均数这个简单方法无法奏效,那么我们如何了解哪所学校最优秀,或者哪个州的癌症发病率最高呢?如果我们管理着多支团队,那些小型团队很有可能占据评定系统的两端,我们又如何评估各团队的绩效呢?
1701023537
1701023538 这个问题并不容易解决。如果在南达科他这样人口很少的州接连出现脑癌病例,我们可以推测脑癌病例数量激增很有可能是因为运气欠佳,我们还可以估计,该州将来的脑癌发病率很有可能会有所下降并接近全美整体水平。为了分析这种情况,我们可以用全美脑癌发病率对南达科他州脑癌发病率进行某种加权处理。但是,如何加权呢?这是一种艺术,同时还需要完成大量的技术性工作。这里,我就不一一赘述了。
1701023539
1701023540 第一个观察相关事实的是亚伯拉罕·棣莫弗(Abraham de Moivre)。棣莫弗为现代概率论的初期研究做出了贡献,他在1756年出版的著作《机会论》(The Doctrine of Chances)是这一领域的重要文献。早在棣莫弗的时代,人们就已经开始不遗余力地从事数学新进展的推广工作,埃德蒙·霍伊尔(Edmond Hoyle)是其中的典型代表。他在牌类游戏方面是绝对权威,时至今日,人们还在说“根据霍伊尔规则”……霍伊尔写过《机会论快速入门》,目的是帮助赌徒们掌握这套新理论。
1701023541
1701023542 大数定律认为,从长远看,不断地抛硬币,正面朝上的比例会越来越接近50%。但是,棣莫弗觉得这样的表述不够完美,他希望精确地了解接近的程度。为了更好地解释棣莫弗的发现,我们再次研究抛硬币时使用的计数方法。不过,我们这一次不再只是简单地列出正面朝上的硬币数量,而是记录实际得到的正面朝上的数量与期望值(硬币总数的50%)之间的偏差。换句话说,我们计算实际情况与理想情况之间的偏差。
1701023543
1701023544 用10枚硬币做实验,多次抛投后得到的偏差为:
1701023545
1701023546 1,1,0,1,0,1,2,2,1,0,0,4,2,0,2,1,0,2,2,4……
1701023547
1701023548 每次抛100枚硬币后得到的偏差为:
1701023549
1701023550 4,4,2,5,2,1,3,8,10,7,4,4,1,2,1,0,10,7,5……
1701023551
[ 上一页 ]  [ :1.701023502e+09 ]  [ 下一页 ]