1700496167
1700496168
1700496169
1700496170
1700496171
单因素模型
1700496172
1700496173
1700496174
1700496175
1700496176
双因素模型
1700496177
1700496178
1700496179
1700496180
1700496181
九因素模型
1700496182
1700496183
注:加入少量的随机数据“噪声”(模拟重新由一组新的参与者参加的调查得出的结果)在九因素模型中会产生巨大的起伏,而单、双因素模型相比会更加稳定,与他们的预测也更一致。
1700496184
1700496185
诚然,像单因素公式的直线这样过于简单的模型,可能无法分析出数据中的基本模式。如果真相看起来像一条曲线,就没有任何一条直线能正确表达。另一方面,像这里的九因素模型这样过于复杂的模型,就会对我们碰巧观察到的数据点过于敏感。正是因为它是如此精细地调整以适应特定的数据集,所以它所产生的解决方案高度可变。如果研究的对象发生变化,同一基本模式也会发生细微变化,那么单、双因素模式会或多或少地保持稳定状态,但九因素模型将从研究中的一个例子剧烈回旋到另一个。这就是统计学家所称的过度拟合。
1700496186
1700496187
因此,机器学习的最深刻的真理之一就是,事实上,并非使用一个更复杂的模型就会更好,它需要考虑更多的因素。这个问题不仅仅是额外的因素可能会提供递减的回报,比一个简单的模型效果更好,还不足以证明增加的复杂性。相反,他们可能会使我们的预测效果急剧恶化。
1700496188
1700496189
1700496190
1700496191
1700496193
算法之美:指导工作与生活的算法 数据崇拜
1700496194
1700496195
如果我们现有的丰富数据是一个完全有代表性的样本,完全没有错误,并完全代表我们正试图评估的对象的话,那么使用最复杂的模型确实是最好的方法。但如果我们试图找到完全适合我们的模型数据时,只要有一个因素不符合以上条件,我们就不能将模型完美地拟合于数据之上,就会有过度拟合的风险。
1700496196
1700496197
换句话说,当我们处理经常遇到的数据噪声或估算不准时,过度拟合就会随时构成危险。例如在数据收集或被报道过程中可能出现错误。有时被调查的现象,如人类的幸福,是很难进行定义的,更不用说测量了。由于其灵活性,我们可用的最复杂的模型可适用于数据中出现的任何模式,但这意味着即使这些模式在噪声的掩护下仅仅是魔怪和幻影,他们也必须这么做。
1700496198
1700496199
纵观历史,宗教教义都警告他们的追随者要反对偶像崇拜,例如崇拜雕像、绘画、文物和其他有形的文物,以及代替那些有形之物所代表的无形的神。例如第一条诫命就是警告不许膜拜“任何偶像或任何类似的在天堂存在的东西”。在《列王纪》中,一条奉上帝之令出现的青铜蛇成为人们崇拜和敬香的对象,而不是上帝本身。(上帝有些不高兴。)从根本上说,过度拟合就是对数据的一种偶像崇拜,产生的原因是将重心放在我们能够测量的数据而不是真正重要的问题上。
1700496200
1700496201
我们所拥有的数据和我们想要的预测之间的差距几乎无处不在。当做出重大决定时,我们只能通过考虑现在对我们重要的因素来猜测什么会让我们稍后更愉悦。(正如哈佛大学的丹尼尔·吉尔伯特所说,未来的我们往往会“支付大价钱来去除自己曾经花了大价钱文在身上的文身”)。当我们做财务预测时,我们只能看过去的股票价格,而不是未来的价格。即使在日常的小事中,这种模式仍然存在:写电子邮件时,我们会自己通读一遍,以预测收件人读到的效果。因此,在公共调查中,我们自己生活中的数据也总是嘈杂纷乱的,充其量是我们真正关心的一种间接测定的方法。
1700496202
1700496203
因此,考虑越来越多的因素和在模型分析上花费的更多努力,会导致我们进入将错误的事物最优化的误区。正如上文提到的,向青铜蛇而不是其身后蕴含的更大力量祈祷。
1700496204
1700496205
1700496206
1700496207
1700496209
算法之美:指导工作与生活的算法 过度拟合无处不在
1700496210
1700496211
一旦你了解了过度拟合,你就会发现它随处可见。
1700496212
1700496213
例如,过度拟合解释了我们具有讽刺意味的味觉。如果按照进化论来说,味蕾的整个功能都是为了防止我们吃坏掉的东西,那么为什么我们最喜欢吃的食物都被认为是对我们的健康有害的呢?
1700496214
1700496215
答案是,味觉是我们身体的健康指标。脂肪、糖和盐是重要的营养物质,在长达几十万年的时间里,食用含有这些物质的食物是持续性饮食的一个合理方法。
1700496216
[
上一页 ]
[ :1.700496167e+09 ]
[
下一页 ]