1704436203
1704436204
2008年2月,我在新奥尔良的路易斯阿姆斯特朗国际机场候机,我的航班延误了。在等待登机的过程中,我萌生了建立538网站的想法。出于某种原因——也许是卡津马提尼酒在作祟——我觉得应该有人牵头建立一个网站,然后用这个网站来预测奥巴马和希拉里(当时两人还在为争夺民主党总统提名权激战)将如何完胜麦凯恩。这个想法突然间就明朗起来了。
1704436205
1704436206
我对政治选举的关注时间可能还要早一些,之所以关注,并不是因为热爱政治,而是对它感到失望。2006年,我曾密切关注过美国国会下令禁止“互联网扑克”这一事件,“互联网扑克”可是我的主要经济来源之一。我发现,即使与体育报道相比,政治报道也依然存在盲区,前者的报道和分析至少借着《点球成金》节目有所改善。
1704436207
1704436208
在大选之前,我发现自己越来越关注政治节目,主要收看美国广播电视台、美国有线电视新闻网和福克斯新闻的节目,可大部分内容都索然无味。尽管离美国总统大选还有数月之遥,但各档节目的评论都认为希拉里必然会获得总统提名权,却忽略了民意调查这种方式本身所固有的不确定性。这些评论似乎过于强调希拉里的性别优势和奥巴马的种族劣势,若某个候选人在一场新闻发布会上开了一个机智的玩笑或获得某个无名议员的认可,新闻界就会以此大做文章,断言这个人最终定会获选,可99%的选民都不会在意这些事情。
1704436209
1704436210
政治新闻,尤其是那些真正影响美国总统大选的重要新闻,传播速度十分惊人。但是,新闻报道每天都有,且大部分都是用来填充版面的,而媒体却总是将这些报道打造成劲爆新闻。政治新闻报道不仅经常抓不住信号,还时常会强调噪声。如果一个州有大量选票显示共和党领先,而且大家都知道这件事,这就称不上是新闻。如果一个新的投票结果显示该州民主党处于优势地位,即使选票并非来自投票的主要群体,而且也不能准确预测出结果,但也一定会上头版头条。
1704436211
1704436212
换句话说,竞争设置的障碍当时已经相当小了。某些人只不过是对政治活动中真正拥有预测能力的事物进行了相当基础性的研究,他们看上去可能就像一个天才了。于是,我开始在 Daily Kos 网站上发表博文,公开了民意调查和募捐数目这类问题的细节,利用数据对这些问题进行分析。我研究过哪些民调公司在过去这些年的预测最准确,也研究过赢得某一个州(如艾奥瓦州)的选票究竟会对另外一个州的选票数产生多大的影响。尽管像 Daily Kos 这样的网站上的评论通常都是定性的(而且具有党派取向),而不是定量的(不用数据说话),但是我的那些文章还是很快就有了跟帖。2008年3月,我将作过的分析转到我自己创建的538网站上,旨在对美国总统大选进行各种预测。
1704436213
1704436214
起初,538网站的预测模型十分简单——基本上总是取自民意调查的平均值,但会根据之前的准确程度给这些调查加权——后来就逐渐变得比较复杂了,但预测模型始终遵循三大原则,而且这些原则都是典型的狐狸型原则。
1704436215
1704436216
原则一:用概率的方法思考问题
1704436217
1704436218
几乎我发布的所有预测,不管是政治方面还是其他方面,都是以概率的形式公布的。我不会随便给出一个准数或声称某事一定会发生,只会给出几个可能的结果。比如,2010年11月2日,在预测共和党会赢得多少众议院席位时,我的估计正如图2–1所示。
1704436219
1704436220
1704436221
1704436222
1704436223
图2–1 2010年11月2日,538网站预测模型对众议院席位的预结果测示意图
1704436224
1704436225
可能性最大的几个结果——足以覆盖所有可能出现情况的1/2——显示,共和党会获得45~65个席位(实际上获得63个)。但是,也存在共和党会获得70或80个席位的可能性——这个数字与莫里斯当时预测的100个席位仍然相去甚远。而另一方面,民主党也有机会获得足够的席位以保住对众议院的控制权。
1704436226
1704436227
结果的广泛分布就是现实世界不确定性的真实体现。这个预测结果是在对435个席位中的每个席位分别进行预测之后得出的,其中多数席位的预测概率极为接近。尽管如此,仍有引人注目的77个席位的预测概率相互之间的差别大到个位数。如果当初民主党人在大部分有竞争力的地区能多赢得一些票数,哪怕是很少的一些,他们就能打败预测结果,轻松地保住对众议院的控制权。而如果共和党人采取了与他们的实际做法相反的做法,他们在众议院中的席位肯定也会低到让人大跌眼镜。政坛上,一颗小石子就会激起轩然大波,所以,预测时列出确切的数字肯定不是明智之举。
1704436228
1704436229
当我对某个竞选个案进行预测时,概率原则依然成立。比如,若民调显示某位候选人领先5个点,那他获胜的概率有多大?这就是538预测网站试图解决的问题。
1704436230
1704436231
参选人能否获胜在很大程度上是由他参与的竞选活动的类型决定的。竞选级别越低,民调的不稳定性就越大:美国众议院选举的民调就不如参议院的精确,参议院选举的民调就不如美国总统大选的精确。初选的民调结果与最终大选的民调结果更是相差甚远。2008年民主党初选期间平均票数丢了8个点,比预想的误差幅度大得多。2012年共和党初选时民调的情况更糟糕。实际上,在许多主要的州,如艾奥瓦、南卡罗来纳、佛罗里达、密歇根、华盛顿、科罗拉多、俄亥俄、亚拉巴马和密西西比,民调中处于领先地位的候选人往往一周后就会落败。
1704436232
1704436233
但到了临近大选那几天,民意调查就会越来越准确。表2–3展示了538预测模型对参议院选举结果进行预测后做出的简化图,该模型运用1998~2008年的数据,根据美国候选人领先民调的平均得票情况推断其获胜的概率。比如,某位参议院候选人在选举前一天领先5个点,且以往他选举获胜过,那么他此次获胜的预测概率高达95%,尽管新闻报道还会说这次竞选“难分伯仲”,但其实这次竞选他几乎已经胜券在握了。相反,如果是大选前一年领先5个点,那么他此次获胜的预测概率仅为59%,这个概率跟掷硬币作决定差不多。
1704436234
1704436235
表2–3 根据参议院候选人领先民调的平均得票情况预测其获胜的概率
1704436236
1704436237
领先情况
1704436238
1704436239
距大选日期
1704436240
1704436241
领先一个点
1704436242
1704436243
领先5个点
1704436244
1704436245
领先10个点
1704436246
1704436247
领先20个点
1704436248
1704436249
一天
1704436250
1704436251
64%
1704436252
[
上一页 ]
[ :1.704436203e+09 ]
[
下一页 ]