1704437417
过度拟合模型:将噪声误认为信号
1704437418
1704437419
在统计学中,将噪声误认为信号的行为被称为过度拟合。
1704437420
1704437421
假设你是一个小偷小摸的惯犯,而我是你的老板,我要求你想出一个撬密码锁的办法,就是中学学校里常见的那种锁——也许我们打算去偷学生的午饭钱。我期待的撬锁法是,能让我们无论何时何地都可以很有把握地撬开锁。我给了你3把锁进行练习,红色的、黑色的和蓝色的。
1704437422
1704437423
用这几把锁反复试验了几天后,你回来告诉我,你发现了一个绝对正确的办法:如果锁是红色的,密码组合就是27–12–31;如果锁是黑色的,密码组合就是44–14–19;如果锁是蓝色的,密码组合就是10–3–32。
1704437424
1704437425
但我告诉你,你根本就没有完成任务。的确,你想出了开这3把锁的办法,但你并没有作更多的努力提升撬锁理论,这个理论可以指导我们撬开随意一把陌生的锁。我一直非常想知道有没有一种办法可以撬开所有的锁,或者锁本身有什么结构缺陷可被我们利用,或是有哪些破解密码的技巧,比如,某一类数字更常被用作密码,等等。但是,你却给了我一个过于具体的办法,妄图解决一般问题。这就是过度拟合,它是导致预测错误的原因。
1704437426
1704437427
拟合的说法源自统计模型和过去的观测结果相吻合的程度,当过于粗略地拟合时(我们称之为不充分拟合),这时我们会错过本可以捕捉到的信号。当拟合太过紧密时(我们称之为过度拟合),这意味着你在对数据中的噪声进行拟合,而不是挖掘数据的深层结构。在实践中,过度拟合的错误更为常见。
1704437428
1704437429
为了弄清楚这种错误的成因,我们暂且赋予自己一种在现实生活中几乎不可能拥有的优势——我们清楚地知道真实数据原本的面目。在图5–4中,我画了一条平缓的抛物线,顶点落在中间位置,末端逐渐减弱。这条抛物线用来代表你希望了解的所有现实数据。
1704437430
1704437431
然而,我们还是不能直接观察到数据的深层关系,这种关系由一系列独立的数据点体现出来,我们只能从这些点推断出这种关系模型。另外,这些数据点还会受特殊环境的影响(有信号,也有噪声)。在图5–4中,我画了100个数据点,分别用圆形和三角形标记,貌似这样就足以从噪声中捕捉到信号。尽管这些数据中存在一定的随机性,但显然它们仍遵循着这条抛物线。
1704437432
1704437433
然而,当我们的数据相对有限时(现实情况常常如此),情况将会怎样呢?那时,我们就更有可能陷入过度拟合的麻烦中。在图5–5A 中,我将100个数据点缩减至25个,这时,你会如何连接这些点呢?
1704437434
1704437435
1704437436
1704437437
1704437438
图5–4 数据的真实分布情况
1704437439
1704437440
当然,如果你知道真实数据应该呈现的关系模型,就会很自然地将它们连接成一条抛物线。确实,用二次方程式这样的数学表达式可以很好地重建真实的关系模型(如图5–5B)。
1704437441
1704437442
1704437443
1704437444
1704437445
图5–5A 有限数据样本
1704437446
1704437447
然而,在无法获知数据的理想模型时,我们有时就会变得很贪婪,图5–5C 代表的就是这样一个例子,一个过度拟合的模型。在图中,我们设计了一个复杂的函数,可以追踪每一个边缘数据点,用这个函数将这些点连接起来,曲线的上下波动陡然增强。这使得我们离真实的关系模型越来越远,也会使预测更离谱。
1704437448
1704437449
1704437450
1704437451
1704437452
图5–5B 适度拟合模型
1704437453
1704437454
这个错误貌似很容易避免,如果我们无所不知,对数据的深层结构总是了如指掌的话,这个错误也确实可以轻松避免。然而,几乎在所有的现实工作中,我们都必须利用归纳法,从已知的证据中对其结构进行推断。当数据有限又充满噪声时,当我们对基本关系的理解很浅显时,就更有可能对一种模型做出过度拟合,在地震预测中,这两种情况可谓司空见惯。
1704437455
1704437456
1704437457
1704437458
1704437459
图5–5C 过度拟合模型
1704437460
1704437461
如果我们既不知道也不在乎数据关系的真相,就有很多理由可以解释我们为什么倾向于过度拟合的模型。其中一条就是,在预测者最常用的统计测试中,过度拟合模型更受青睐。有一项常用的测试是用来测量我们的模型可以解释多少数据的变化。根据这一测试,过度拟合的模型(图5–5C)解释了85%的数据变化,而适度拟合模型只解释了56%的数据变化。但是实质上,过度拟合模型是在混淆视听,将噪声误当作信号混入模型中。事实上,在解释真实世界时,它的表现更糟。
1704437462
1704437463
这种解释似乎让情况一目了然,但很多预测者完全无视这个问题。研究者拥有很多统计方法,可这么多的方法却没有让他们增加一点科学态度,减少一点幻想,而是像充满幻想的孩子在天空中寻找动物形状的云一样。数学家约翰·冯·诺伊曼谈到这个问题时曾说:“我用4个参数就能拟合出一头大象,用5个参数就可以让这头大象甩动它的鼻子。”
1704437464
1704437465
过度拟合代表了双重霉运:过度拟合的模型表面上来看比较好,但其实际性能却很糟糕。因为后一种因素,若被用在真实的预测活动中,过度拟合模型最终会让预测者付出沉重的代价。而因为前一种因素——其表面效果不错,而且自称可以做出非常准确并且新闻价值很高的预测,比其他应用技术都先进,所以,这类模型更吸引人,更容易在学术期刊上得到推介,也更容易被推销给客户,从而将其他可靠的模型排挤出市场。但是,如果这个模型是用噪声拟合的,就很有可能会阻碍科学发展。
1704437466
[
上一页 ]
[ :1.704437417e+09 ]
[
下一页 ]