打字猴:1.700496158e+09
1700496158 使用不同数量因素的模型对生活满意度的预测
1700496159
1700496160 但事实证明,并非如此简单。
1700496161
1700496162 这些模型应用到前期数据上的结果如上图所示。不出所料,单因素模型错过了很多更精确的数据点,虽然它也能分析出蜜月后开始衰落的基本趋势。然而,它的直线预测法预测这种下降将永远持续下去,最终导致无限的痛苦。这个轨迹听起来好像不太正确。双因素模型更接近拟合的调查数据,其弯曲的形状就是不同的长期预测,表明在初始下降之后,随着时间的推移,生活满意度会慢慢达到一种稳定水平。最后,九因子模型通过了图表上的每一个点,它本质上就是一个完美并适合所有研究数据的模型。
1700496163
1700496164 从这个意义上说,九因素公式似乎是我们最好的模型。但如果你看看对没有被研究到的年限的预测,你会知道它是多么有用:它预测到了婚前的恐惧,结婚后几个月的欢欣愉悦,之后仿佛坐过山车一样的颠簸,以及十年后的急转直下。相比而言,由双因素模型预测的结果与心理学家和经济学家关于婚姻和幸福所预测的最一致。(顺便说一下,他们认为,这只反映出他们对生活的满意度回归了正常的基线水平,而不是对婚姻本身有任何不悦。)
1700496165
1700496166 其中的启示是这样的:的确,若模型中包含更多的因素,从定义上来说,会更拟合我们已经现有的数据。但更好地拟合现有数据并不一定意味着会得出更好的预测结果。
1700496167
1700496168
1700496169
1700496170
1700496171 单因素模型
1700496172
1700496173
1700496174
1700496175
1700496176 双因素模型
1700496177
1700496178
1700496179
1700496180
1700496181 九因素模型
1700496182
1700496183 注:加入少量的随机数据“噪声”(模拟重新由一组新的参与者参加的调查得出的结果)在九因素模型中会产生巨大的起伏,而单、双因素模型相比会更加稳定,与他们的预测也更一致。
1700496184
1700496185 诚然,像单因素公式的直线这样过于简单的模型,可能无法分析出数据中的基本模式。如果真相看起来像一条曲线,就没有任何一条直线能正确表达。另一方面,像这里的九因素模型这样过于复杂的模型,就会对我们碰巧观察到的数据点过于敏感。正是因为它是如此精细地调整以适应特定的数据集,所以它所产生的解决方案高度可变。如果研究的对象发生变化,同一基本模式也会发生细微变化,那么单、双因素模式会或多或少地保持稳定状态,但九因素模型将从研究中的一个例子剧烈回旋到另一个。这就是统计学家所称的过度拟合。
1700496186
1700496187 因此,机器学习的最深刻的真理之一就是,事实上,并非使用一个更复杂的模型就会更好,它需要考虑更多的因素。这个问题不仅仅是额外的因素可能会提供递减的回报,比一个简单的模型效果更好,还不足以证明增加的复杂性。相反,他们可能会使我们的预测效果急剧恶化。
1700496188
1700496189
1700496190
1700496191
1700496192 算法之美:指导工作与生活的算法 [:1700494167]
1700496193 算法之美:指导工作与生活的算法 数据崇拜
1700496194
1700496195 如果我们现有的丰富数据是一个完全有代表性的样本,完全没有错误,并完全代表我们正试图评估的对象的话,那么使用最复杂的模型确实是最好的方法。但如果我们试图找到完全适合我们的模型数据时,只要有一个因素不符合以上条件,我们就不能将模型完美地拟合于数据之上,就会有过度拟合的风险。
1700496196
1700496197 换句话说,当我们处理经常遇到的数据噪声或估算不准时,过度拟合就会随时构成危险。例如在数据收集或被报道过程中可能出现错误。有时被调查的现象,如人类的幸福,是很难进行定义的,更不用说测量了。由于其灵活性,我们可用的最复杂的模型可适用于数据中出现的任何模式,但这意味着即使这些模式在噪声的掩护下仅仅是魔怪和幻影,他们也必须这么做。
1700496198
1700496199 纵观历史,宗教教义都警告他们的追随者要反对偶像崇拜,例如崇拜雕像、绘画、文物和其他有形的文物,以及代替那些有形之物所代表的无形的神。例如第一条诫命就是警告不许膜拜“任何偶像或任何类似的在天堂存在的东西”。在《列王纪》中,一条奉上帝之令出现的青铜蛇成为人们崇拜和敬香的对象,而不是上帝本身。(上帝有些不高兴。)从根本上说,过度拟合就是对数据的一种偶像崇拜,产生的原因是将重心放在我们能够测量的数据而不是真正重要的问题上。
1700496200
1700496201 我们所拥有的数据和我们想要的预测之间的差距几乎无处不在。当做出重大决定时,我们只能通过考虑现在对我们重要的因素来猜测什么会让我们稍后更愉悦。(正如哈佛大学的丹尼尔·吉尔伯特所说,未来的我们往往会“支付大价钱来去除自己曾经花了大价钱文在身上的文身”)。当我们做财务预测时,我们只能看过去的股票价格,而不是未来的价格。即使在日常的小事中,这种模式仍然存在:写电子邮件时,我们会自己通读一遍,以预测收件人读到的效果。因此,在公共调查中,我们自己生活中的数据也总是嘈杂纷乱的,充其量是我们真正关心的一种间接测定的方法。
1700496202
1700496203 因此,考虑越来越多的因素和在模型分析上花费的更多努力,会导致我们进入将错误的事物最优化的误区。正如上文提到的,向青铜蛇而不是其身后蕴含的更大力量祈祷。
1700496204
1700496205
1700496206
1700496207
[ 上一页 ]  [ :1.700496158e+09 ]  [ 下一页 ]