打字猴:1.701027381e+09
1701027381 成功预测出美国总统大选结果的“神奇小子”
1701027382
1701027383 当今,在公正、公平地对待不确定性方面最杰出的代表人物之一是纳特·西尔弗(Nate Silver),他从网络扑克玩家变成了棒球统计专家和政治分析师。2012年,《纽约时报》上关于美国总统大选的西尔弗专栏,使更多的人对概率论产生了前所未有的浓厚兴趣。我认为西尔弗就是概率论领域的科特·柯本(Kurt Cobain)[1],他们都全身心地投入文化实践(西尔弗从事的是体育与政治的定量预测工作,而柯本则热衷于朋克摇滚),而在他们之前,这种文化实践仅在一个冷漠、虔诚的小圈子中流行。两者的成功都证明了一个事实,即如果我们不拒人于千里之外,那么在公开场合从事我们的活动时,无须牺牲原始资料的完整性,也能让这种活动受到大众的热烈欢迎。
1701027384
1701027385 西尔弗取得如此成就,原因何在呢?主要原因在于他愿意开诚布公地谈论不确定性,没有把不确定性看作示弱的表现,而是把它视为这个世界固有的特点,可以运用严谨的科学知识加以研究,并取得良好的结果。如果在2012年9月我们希望知道“谁会在11月当选为美国总统”,一堆政治权威会告诉我们是“奥巴马”,还有一堆专家(人数可能比前者少)会说是“罗姆尼”。然而,这些人的回答都是错误的,因为正确答案只有一个:“这两个人都有可能获胜,但是奥巴马当选的可能性要高得多。”尽管媒体的影响面如此之广,但是愿意告诉大家这个答案的只有西尔弗一个人。
1701027386
1701027387 持传统政治观点的人对这个答案并不满意,就像我参与的肺结核研究项目的老板一样,他们希望得到一个明确的答案。他们不知道,西尔弗其实已经给出了一个明确的答案。
1701027388
1701027389 乔希·乔丹(Josh Jordan)在《国家评论》(National Review)杂志中指出:“9月30日,西尔弗预测奥巴马获胜的概率为85%,选举团的票数为320∶218。今天,两个候选人之间的差距缩小了,但是西尔弗仍然预测奥巴马获胜的概率为67%,并且在选举团的投票中会以288∶250的票数领先。因此,很多人怀疑西尔弗是否跟大家一样,注意到三周以来人们对罗姆尼的态度发生了积极的变化。”
1701027390
1701027391 西尔弗到底有没有注意到人们对罗姆尼的态度发生了积极的变化呢?答案很明显是肯定的:9月底,他预测罗姆尼获胜的概率为15%;而10月22日,他把这个概率提高至33%。但是,乔丹对西尔弗的改变视而不见,因为西尔弗仍然预测(事实证明这个预测是正确的)奥巴马获胜的概率超过罗姆尼。对于乔丹等传统的政治新闻记者而言,这意味着西尔弗的答案没有发生任何变化。
1701027392
1701027393 美国政治新闻网站Politico的迪伦·拜耶斯(Dylan Byers)指出:“某个人在预测罗姆尼获胜的概率时,给出的答案从来没有高于41%(这个数据还得追溯至6月2日),而在大选前一周当民调数据表明民众对罗姆尼的支持度与现任总统几乎持平时,这个家伙预测罗姆尼成功的概率仍然只有1/4。如果罗姆尼真的于11月6日当选,人们将很难一如既往地相信西尔弗的预测……尽管西尔弗在预测时信誓旦旦,但我们常常觉得他的措辞十分含糊。”
1701027394
1701027395 如果大家关注数学,那么这类评论肯定会让大家扼腕叹息。西尔弗的预测并非含糊其词,而是诚实的表现。天气预报说降水概率为40%,如果真的下雨了,我们会对天气预报失去信心吗?显然不会,因为我们知道天气变化本来就充满了不确定性。如果天气预报说明天肯定会(或者不会)下雨,则是一种不正确的做法。
1701027396
1701027397 当然,奥巴马最终赢得了大选,而且选票数远超罗姆尼,这让批评西尔弗的那些人显得有些愚蠢。
1701027398
1701027399 具有讽刺意味的是,如果这些批评家希望抓住西尔弗的错误之处,他们本来有一个绝好的机会,即问西尔弗“你预测错误的州有多少个”,但是他们没有抓住这个机会。据我所知,没有人向西尔弗提出这个问题。然而,我们很容易想象他会怎么回答这个问题。10月26日,西尔弗估计奥巴马有69%的概率在新罕布什尔州获胜。如果那个时候我们坚持让他预测该州的选举结果,他肯定会倾向于奥巴马。因此,我们可以认为,西尔弗对新罕布什尔州的选举结果预测错误的概率为0.31。换言之,他预测错误的期望值是0.31。在这种情况下,他对新罕布什尔州的预测要么是正确的(概率为0.68),要么是错误的(概率为0.31),运用我们在第11章介绍的方法,可以计算出期望值为:
1701027400
1701027401 0.68×0+0.31×1=0.31
1701027402
1701027403 西尔弗对北卡罗来纳州的预测更有信心,他认为奥巴马获胜的概率仅为19%。但是,即便这个概率非常小,仍然说明他关于罗姆尼获胜的预测最终落空的概率为19%,也就是说,他出错的期望值为0.19。下表列出的是10月26日西尔弗对候选人之间可能会产生竞争的各州选举结果的预测情况:
1701027404
1701027405
1701027406
1701027407
1701027408 由于期望值有可加总性,西尔弗在估计自己预测错误的数量时,很有可能会计算各州预测错误期望值的总和,得数为2.83。换句话说,如果有人提出上述问题,他可能会这样回答:“总体来讲,在我所预测的各州选举结果中,可能有3个是错误的。”
1701027409
1701027410 事实上,他的预测结果全部正确。
1701027411
1701027412 西尔弗的预测结果比他本人认为的更加精准,因此,即使最老练的政界权威也无法攻击他的预测。思维上的这种迂回曲折是良性的,无须矫正!如果我们像西尔弗那样做出正确的推理,就会发现推理结果往往也是正确的,但是我们并不会认为自己一贯正确。哲学家奎因(Quine)指出:“所谓信念,就是相信某个东西是正确的。因此,理性的人相信他的每一个信念都是正确的;然而根据经验,他又会认为自己的某个信念(但是无法确定是哪一个)有可能是错误的。简言之,理性的人会认为自己的每一个信念都是正确的,但又有一些信念是错误的。”
1701027413
1701027414 从形式上看,这个观点与我们在第17章讨论的美国民意调查中存在的明显的自我矛盾的情况十分相似。美国人民认为每一个政府项目都值得继续投资,但这并不意味着美国所有的政府项目都值得继续投资。
1701027415
1701027416 西尔弗摆脱了政治新闻的僵化传统,把更真实的情况呈现给大众。他在新闻报道中没有预言谁会获胜,也没有说谁的“势头很猛”,而是预测了这些候选人成功当选的概率。他没有告诉大众奥巴马可能赢得多少选举团的选票,而是报告了概率分布情况,即奥巴马有67%的概率获得再次当选总统所需的270张选举团的选票,票数突破300张的概率为44%,获得330张选票的概率为21%,等等。从严谨的角度看,西尔弗的公开预测充满不确定性,但是公众却全盘接受了他的看法。这样的结果,连我都觉得不可思议。
1701027417
1701027418 所有的行为,都充满了不确定性。
1701027419
1701027420 不可过于计较精确性
1701027421
1701027422 西尔弗指出:“从目前的态势看,奥巴马获胜的概率为73.1%。”有人认为这种说法有误导性,对于这个批评意见,我在一定程度上持赞成态度,因为这个数字暗示这个预测结果具有某种可能并不存在的精确性。如果他使用的预测模型今天给出的结果是73.1%,明天又变成73%,那么大家不会认为这样的模型具有统计学显著性。这个批评意见针对的是西尔弗的预测结果,而不是他的预测模型。由于政治新闻记者们认为这个看上去十分精准的数字会给读者留下深刻印象,并使其下意识地接受这个观点,因此,这个批评意见还是颇有道理的。
1701027423
1701027424 过于精确有时也会产生问题。我们在标准化测试中使用的评分方法可以使分数精确至小数点后好几位,但是我们不应该这样做。因为当前的精确度已经足以让学生们严阵以待,无须再让他们为了同学拥有0.01分的微弱优势而惴惴不安了。
1701027425
1701027426 如果在选举中盲目追求精确性,不仅在人们躁动不安地观望选举结果时会造成不良影响,而且在选举结束后,这种影响也不会马上消失。大家别忘了,在佛罗里达州2000年的选举中,小布什与阿尔·戈尔之间仅差几百张选票,约占总票数的万分之一。从法律及习惯的角度看,这几百张选票对于判断到底哪位候选人可以成功当选总统具有非常重要的意义。但是,从佛罗里达州人民到底希望谁当选总统这个角度看,过于计较这个问题是非常荒谬的。选票污损、丢失、计票错误等原因造成的不精确性,使得最终票数的细微差别已经没有多大意义了,我们无法知道到底谁在佛罗里达州获得的选票更多。法官与数学家的区别在于:法官必须想方设法假装自己知道结果,而数学家则可以肆无忌惮地说出真相。
1701027427
1701027428 记者查尔斯·塞费(Charles Seife)在《证明》(Proofi ness)一书中,对民主党人阿尔·弗兰肯(Al Franken)与共和党人诺姆·科尔曼(Norm Coleman)在明尼苏达州争夺美国参议员席位一事进行了有趣但又令人沮丧的描述。这次对决双方势均力敌,但是,通过冷静的分析,人们发现支持弗兰肯的明尼苏达州人整整多出了312个,因此,预言弗兰肯将获得这个席位似乎是合情合理的。不过,在现实情况中,这个数字却必然是人们对某些问题的合法性(诸如在弗兰肯的姓名上画圈、填写“蜥蜴人”[2]的选票是否合法)存在广泛争议的产物。一旦我们对这类争议形成定论,谁“真正”获得较多选票的问题就失去了意义,因为“信号”已经被“噪声”淹没。西尔弗认为票数如此接近的选举应当通过抛硬币来决定谁当选。有人无法接受这种单凭运气选择政府官员的方法,但我却倾向于表示支持。因为抛硬币的最大好处就在于随机性,势均力敌的选举本来就是靠随机性决定结果。大城市遭遇恶劣天气,偏远乡镇的投票机器发生故障,彩票设计不合理导致年老的犹太人把选票投给帕特·布坎南等,在选举陷入势均力敌的僵局时,这些随机性事件都有可能对选举结果产生影响。用抛硬币的方法,我们就无须心口不一地宣布,在这场旗鼓相当的竞赛中,选民支持的是获胜的那位候选人。有时,选民会表示抗议:“我不知道(该选谁)。”
1701027429
1701027430 大家可能认为我过于看重精确性了吧。人们常常认为数学家总是强调确定性,还认为我们一直讲究精确性,在所有计算中都希望小数点后能保留尽可能多的位数。其实这种想法是错误的,我们在计算时,会根据需要决定精确程度。中国有一个叫作陆超的年轻人,可以将圆周率小数点后的67 890位数字背诵出来。这样的记忆力的确相当惊人,但是这样的行为有意义吗?没有任何意义,因为圆周率小数点后面的那些数字没有意义。大家都知道,那些数字几乎就是随机出现的。当然,圆周率本身是有意义的,但是圆周率并不等同于那些数字,那些数字仅仅是用来描述圆周率的。同样,我们可以用北纬48.858 6度、东经2.294 2度这样的经纬度来表示埃菲尔铁塔的位置,无论把这两个数字精确到小数点后多少位,它们仍然无法揭示出埃菲尔铁塔之所以是埃菲尔铁塔的原因。
[ 上一页 ]  [ :1.701027381e+09 ]  [ 下一页 ]