1700496142
每一个决定都是一种预测:你还没有尝试过的东西你会有多喜欢;某个方向,以及不常走的路(或者更多)是否能走得通。每一个预测,都涉及两方面不同的重要内容:你知道的和你不知道的。也就是说,它试图制定一种理论,来解释你以往的经验,并提供一些对未来的猜想。一个好的理论,当然两方面都会照顾周全。但事实上,如果每一次预测都要顾全双方,那么就会产生一些难以避免的矛盾关系。
1700496143
1700496144
1700496145
1700496146
1700496147
结婚不同时长的生活满意度
1700496148
1700496149
作为这种矛盾关系的一个例证,让我们来看一个可能与达尔文有关的数据集,上图是最近在德国进行的一项研究:前10年的婚姻生活中,人们对生活的满意度。图表上的每一个点都取自研究本身,我们的工作是找出符合这些点并延伸到未来的一条线的公式,使我们能够跨越这十年的标记预测未来。
1700496150
1700496151
这个可能的公式将只使用一个单一因素来预测生活满意度——自结婚以来的时间。这将在图表上创建一条直线。另一种可能性是使用两个因素,时间和时间的平方,产生的线将是一个U形抛物线,这可以分析出一个潜在的更复杂的时间和幸福之间的关系。如果我们扩大公式,让其包含更多的因素(时间的立方等),这条线将会有更多的拐点,越来越多的“弯曲”和波动。当我们进入九因素公式时,我们就可以分析出非常复杂的关系。
1700496152
1700496153
从数学上讲,我们的双因素模型包含了所有进入单因子模型的信息,并且还有另一个因素可以使用。同样,九因素模型可以利用双因素模型中的所有信息,还包括潜在内容。根据这种逻辑,九因素模型似乎总是能给我们带来最好的预测结果。
1700496154
1700496155
1700496156
1700496157
1700496158
使用不同数量因素的模型对生活满意度的预测
1700496159
1700496160
但事实证明,并非如此简单。
1700496161
1700496162
这些模型应用到前期数据上的结果如上图所示。不出所料,单因素模型错过了很多更精确的数据点,虽然它也能分析出蜜月后开始衰落的基本趋势。然而,它的直线预测法预测这种下降将永远持续下去,最终导致无限的痛苦。这个轨迹听起来好像不太正确。双因素模型更接近拟合的调查数据,其弯曲的形状就是不同的长期预测,表明在初始下降之后,随着时间的推移,生活满意度会慢慢达到一种稳定水平。最后,九因子模型通过了图表上的每一个点,它本质上就是一个完美并适合所有研究数据的模型。
1700496163
1700496164
从这个意义上说,九因素公式似乎是我们最好的模型。但如果你看看对没有被研究到的年限的预测,你会知道它是多么有用:它预测到了婚前的恐惧,结婚后几个月的欢欣愉悦,之后仿佛坐过山车一样的颠簸,以及十年后的急转直下。相比而言,由双因素模型预测的结果与心理学家和经济学家关于婚姻和幸福所预测的最一致。(顺便说一下,他们认为,这只反映出他们对生活的满意度回归了正常的基线水平,而不是对婚姻本身有任何不悦。)
1700496165
1700496166
其中的启示是这样的:的确,若模型中包含更多的因素,从定义上来说,会更拟合我们已经现有的数据。但更好地拟合现有数据并不一定意味着会得出更好的预测结果。
1700496167
1700496168
1700496169
1700496170
1700496171
单因素模型
1700496172
1700496173
1700496174
1700496175
1700496176
双因素模型
1700496177
1700496178
1700496179
1700496180
1700496181
九因素模型
1700496182
1700496183
注:加入少量的随机数据“噪声”(模拟重新由一组新的参与者参加的调查得出的结果)在九因素模型中会产生巨大的起伏,而单、双因素模型相比会更加稳定,与他们的预测也更一致。
1700496184
1700496185
诚然,像单因素公式的直线这样过于简单的模型,可能无法分析出数据中的基本模式。如果真相看起来像一条曲线,就没有任何一条直线能正确表达。另一方面,像这里的九因素模型这样过于复杂的模型,就会对我们碰巧观察到的数据点过于敏感。正是因为它是如此精细地调整以适应特定的数据集,所以它所产生的解决方案高度可变。如果研究的对象发生变化,同一基本模式也会发生细微变化,那么单、双因素模式会或多或少地保持稳定状态,但九因素模型将从研究中的一个例子剧烈回旋到另一个。这就是统计学家所称的过度拟合。
1700496186
1700496187
因此,机器学习的最深刻的真理之一就是,事实上,并非使用一个更复杂的模型就会更好,它需要考虑更多的因素。这个问题不仅仅是额外的因素可能会提供递减的回报,比一个简单的模型效果更好,还不足以证明增加的复杂性。相反,他们可能会使我们的预测效果急剧恶化。
1700496188
1700496189
1700496190
1700496191
[
上一页 ]
[ :1.700496142e+09 ]
[
下一页 ]