打字猴:1.704437463e+09
1704437463 这种解释似乎让情况一目了然,但很多预测者完全无视这个问题。研究者拥有很多统计方法,可这么多的方法却没有让他们增加一点科学态度,减少一点幻想,而是像充满幻想的孩子在天空中寻找动物形状的云一样。数学家约翰·冯·诺伊曼谈到这个问题时曾说:“我用4个参数就能拟合出一头大象,用5个参数就可以让这头大象甩动它的鼻子。”
1704437464
1704437465 过度拟合代表了双重霉运:过度拟合的模型表面上来看比较好,但其实际性能却很糟糕。因为后一种因素,若被用在真实的预测活动中,过度拟合模型最终会让预测者付出沉重的代价。而因为前一种因素——其表面效果不错,而且自称可以做出非常准确并且新闻价值很高的预测,比其他应用技术都先进,所以,这类模型更吸引人,更容易在学术期刊上得到推介,也更容易被推销给客户,从而将其他可靠的模型排挤出市场。但是,如果这个模型是用噪声拟合的,就很有可能会阻碍科学发展。
1704437466
1704437467 你也许猜到了,克里斯–布鲁克的地震模型就是很严重的过度拟合模型。这一模型将一组超级复杂的方程式应用在噪声数据中,也因此付出了代价——预测正确率只有3/23。戴维·鲍曼意识到他的模型也有类似的问题,便果断终止使用。
1704437468
1704437469 应该说明的是,这些错误通常都是真实的。借用另外一本书的题目《随机漫步的傻瓜》[1]来说就是,这些错误常影响我们,让我们更容易被“随机性愚弄”。我们也可能会越来越迷恋这种模型的特质,甚至可能会创造出一个貌似很有说服力的理论来证明这些错误的合理性,自己却没有意识到这一点,这不仅是愚弄同事、朋友,也是在愚弄自己。迈克尔·贝雅克曾就此写了大量的文章,他对这种进退维谷的情况作了如下解释:“在科学中,我们用怀疑主义平衡好奇心。”过度拟合的例子说明是好奇心左右了我们。
1704437470
1704437471 2011年日本大地震引发的思考
1704437472
1704437473 将噪声误认为信号的倾向,有时会给现实世界带来极可怕的后果。在日本,尽管地震活动极其频繁,但2011年那次灾难性的地震还是让这个国家措手不及。福岛核反应堆是按照可抵御8.6级地震的标准设计的,无法承受震级高达9.1级的地震。考古资料表明,2011年由地震引发的约40米高的海浪在历史上曾经引发过多次海啸,但这次人们明显忘记了或者根本无视这些惨痛的案例。
1704437474
1704437475 9.1级地震在全世界都很少见,没人能确切地预测到这样的地震会发生在哪个10年里,更不用说具体的日期了。而在日本,一些科学家和中央计划员却排除了近期发生地震的可能性。这一点就反映了日本的地震预测模型是过度拟合模型。
1704437476
1704437477 在图5–6A 中,我画出了2011年日本福岛地震震中附近发生地震的历史频率。这些数据中的地震级别逐渐加大,却没有达到3月11日的9.1级。通过看图你会发现,数据几乎遵循着古登堡–里克特法则的那种直线预测模型,然而,在7.5级处出现了一个拐点,而且,该地区自从1964年发生了一场震级达8.0级的地震后,再没有发生过震级更大的地震,于是,这条线似乎开始向下弯曲了。
1704437478
1704437479
1704437480
1704437481
1704437482 图5–6A 日本东北部地区地震发生的频率图(1964年1月1日 ~2011年3月10日)
1704437483
1704437484 究竟该如何连接这些数据点呢?如果严格依据古登堡–里克特法则,就要忽略图像中的拐点,沿直线将数据点连接起来,如图5–6B 所示。若是按地震学家口中的“特性拟合”法(见图5–6C),即描述这一地区地震发生的历史频率,那么,就会把那个拐点当成是真实情况,十分肯定这一地区发生7.6级以上地震的可能性不大。
1704437485
1704437486
1704437487
1704437488
1704437489 图5–6B 古登堡–里克特拟合模型下日本东北部地区地震频率图
1704437490
1704437491
1704437492
1704437493
1704437494 图5–6C  特性拟合模型下日本东北部地区地震频率图
1704437495
1704437496 看似无害的决定,却会导致大相径庭的结果,从日本福岛的例子来看,不同的选择会关系到是否认为这一地区会发生9.1级大地震。特性拟合模型暗示9.1级地震需要约13000年才可能发生一次,这样看来,这一地区几乎就不可能发生这样大级别的地震。另外,古登堡–里克特法则却预测,9.1级地震平均每300年才可以预见一次,确实不常见,但也不是绝无可能,风险还是存在的,而像日本这样富有的国家,是能够为此作好准备的。
1704437497
1704437498 最近,特性拟合模型和日本东北部地区的地震记录拟合得更加紧密了。但是正如我们所知,完全吻合未必就是一件好事,很有可能会变成过度拟合模型,而且,在匹配真实关系时,这种模型会表现得更糟。
1704437499
1704437500 在这种情况下,过度拟合的模型会严重低估这一地区发生灾难性大地震的可能性。特性拟合的问题就在于它依靠的是十分微弱的信号。之前提到,日本福岛地震发生前的45年内,日本东北部地区从未发生过8级及以上的地震。然而,这些都还只是以稀有事件为开端的事例:古登堡–里克特法则预测日本东北部地区约30年才会发生一次稀有事件,而30年一遇的事件拖到45年的时候发生也没什么稀奇,就算没有发生,也不奇怪。就好比一个击球率达0.300的击球手,某天状态不好,输赢比达到了5∶0,这也不足为奇。另外,日本东北部地区发生过好几次中等级别达到7.0级的地震,当世界其他地区出现类似情况时,常预示着会有更大级别的地震发生,那又有什么理由认为日本东北部地区会是个特例呢?
1704437501
1704437502 实际上,日本以及其他地区的地震学家为此做出了合理解释。比如,他们表明该区域的海底构造特殊、年代久远、温度相对较低且密度较大,能够阻止这样的大地震形成。另一些地震学家则观察到2004年以前,这种类型的海底从来没有发生过9级地震。
1704437503
1704437504 这类结论有点儿像认定了某个来自宾夕法尼亚的家伙不可能会中彩票的头等奖,因为过去的3周无人获此大奖。9级地震就像彩票头奖,中奖人数少,时间间隔长。实际上,2004年之前,全世界有记载的9级地震总共才发生3次。9级地震究竟在何种情形下才会发生,关于这个问题,没有足够的数据来支撑高度具体的结论。日本不是这一模型失败的首例,苏门答腊岛也遇到过相似的问题。有一段时间,苏门答腊岛发生了一系列震级达到7级的地震,随后却并没有发生更大级别的地震。但在2004年12月,一场震级达9.2级的特大地震袭击了苏门答腊岛。
1704437505
1704437506 古登堡–里克特法则并不能预测地震的具体时间,无论是苏门答腊岛地震还是日本福岛地震都是这样,但是这一法则考虑到了发生地震的概率。目前,许多更精细的地震预测活动都失败了,古登堡–里克特法则的表现都还不错。
1704437507
1704437508 地震震级的上限是多少?
1704437509
1704437510 近几年发生的特大地震引发了地震学家的思考,地震震级的上限是什么?图5–2B 呈现了自1964年来全世界(包括苏门答腊和日本东北部地区)所有地震发生的频率,你会发现,所有的数据点几乎连成了一条直线。而10年前,你可能更关注图形中的拐点(如图5–6A 日本东北部地区图中的那个拐点),并由此得出结论,特大地震并没有古登堡–里克特法则预测的那么多。但近几年的地震记录表明,特大地震发生得越来越频繁。
1704437511
1704437512 但由于过于罕见,9级地震的实发频率需要几百年才能知道,至于9.5级以上震级的地震,则需要更长的时间。休告诉我,断层区的地质分布会对地震规模产生基本的约束力。如果地球最大、最长的断层带同时破裂,也就是从南美洲南端的火地岛一路向北到阿拉斯加阿留申群岛的所有断层带同时震动,此时地震级别将达到10级。但我们很难确切地知道这个震级地震的爆发程度。即使有1000多年可靠的地震记录,我们也无法确定10级地震到底是什么样,发生频率又是怎样。也许,地震本身就存在局限性。
[ 上一页 ]  [ :1.704437463e+09 ]  [ 下一页 ]