1702628267
1702628268
从左下到右上的虚线,表示的是“父母身高平均值=孩子身高”的理论关系。而另外一条实线则是实际测量所得的数据,也就是“父母身高与孩子身高最小误差的预测值”。这条直线用左上方的公式表示为y=29.4+0.57x。英国的1英寸大约等于2.54cm,换算成现代的标准长度单位就是29.4×2.54=74.7cm,得出的结果如下。
1702628269
1702628270
像这样对数据间的关系进行记录,或者根据一方数据推测另一方数据的方法就是回归分析的思考方法,上述公式所表示的那条直线被称为回归直线。这其中最重要的部分在于实线所表示的实际关系,与虚线所表示的理论关系之间的区别。
1702628271
1702628272
1702628273
1702628274
1702628275
父母双亲身高的平均值(英寸)
1702628276
1702628277
孩子的身高(cm)=74.7(cm)+0.57×父母双亲身高的平均值(cm)
1702628278
1702628279
图5–1 1 000组家庭的身高调查
1702628280
1702628281
图表左侧,也就是双亲平均身高较矮的一组中,表示理论关系的虚线比表示实际关系的实线更低。
1702628282
1702628283
这究竟是为什么呢?自古以来大家都认为孩子的身高会和父母双亲的身高基本相同,可是高尔顿的数据分析却显示身材高大的双亲,其子女不一定高,身材矮小的双亲,其子女也不一定矮。这一结果就连高尔顿都始料不及。
1702628284
1702628285
高尔顿将这一现象称为“回归平凡”,后来他的学生和受他影响的统计学家们将其称为“均值回归”。意思就是说,实际的数据比理论上的推测更加接近平均值。
1702628286
1702628287
换成之前提到的我的那两个朋友,就是“身材矮小的野村的儿子可能比野村更高”,而“身材高挑的小林的女儿则可能比小林更矮”。
1702628288
1702628289
像身高这种测量误差极小,遗传因素很强的条件都尚且如此,才能就更是这样了吧。有才能的双亲生出来的孩子或许会拥有比平均值更高的才能,但却不能对此做出万无一失的保证。所以,人类不可能出现两极分化的进化过程,也无法按照遗传和人种来使人类区别开来。
1702628290
1702628291
“奥林匹克魔咒”的真相
1702628292
1702628293
之所以会出现这种“均值回归”的现象,是因为不管是身高还是才能,或者生物的特征等,这个世界上的所有现象都拥有其独特的“随机性”。
1702628294
1702628295
让我们用奥运选手的事例来作具体的分析。
1702628296
1702628297
只有在预选赛上创造出优异成绩的选手才能够代表国家出战奥运会,但在奥运赛场上,运动员却往往发挥失常以致最终抱憾收场。这样的状况想必在每届的奥运会上都会出现。这就是均值回归的典型事例,是体育结果的随机性所导致的现象。
1702628298
1702628299
体育结果往往不完全由实力决定。就连100米赛跑这样单纯的竞技项目,每届大赛的最佳成绩都不一样。如果将这个被随机性所决定的因素称为竞技状态的话,那么那些碰巧在预选赛上取得佳绩的人之中,有很大一部分是发挥出了他本人的最佳竞技状态。
1702628300
1702628301
但是,仅凭最佳竞技状态下取得的成绩去预测正式比赛的结果,无异于期待“奇迹连续发生2次”。像这样的选手在正式比赛中,有可能发挥平庸甚至发挥失常。与再次超常发挥取得奇迹一般的好成绩相比,出现“均值回归”的可能性更大。当然与之相反的情况是,即便在正式比赛之前发挥失常的选手,也有可能出现“正式比赛时发挥更好”的均值回归现象。
1702628302
1702628303
被称为“奥林匹克魔咒”的现象背后,也许有很多情况只用“均值回归”就可以解释。所以运动员们所追求的是调整身心状态,“尽可能地减少随机性”,以及“不会被随机性所左右的压倒性的实力”。
1702628304
1702628305
从高尔顿与他的学生们身上我们所能够学到的是,无法针对拥有随机性的现象进行理论上的预测。因此,必须仔细地收集数据进行回归分析,并且对其关联性进行分析。
1702628306
1702628307
但是,通过回归分析得出“最接近的预测结果”后仍然不能就此满足。因为这个最接近的预测结果虽然是与数据之间误差最小的结果,却仍然存在误差。而我早在上文中就已经说过不考虑“误差”的计算都不准确。
1702628308
1702628309
那么,究竟应该怎么做才是对的呢?
1702628310
1702628311
实际上我们并非束手无策,在下面的内容中我就将为大家介绍费希尔在随机对照试验之外,为统计学带来的另外一种方法。
1702628312
1702628314
20 所有领域都可以应用的回归分析法
1702628315
1702628316
[
上一页 ]
[ :1.702628267e+09 ]
[
下一页 ]