1702628280
1702628281
图表左侧,也就是双亲平均身高较矮的一组中,表示理论关系的虚线比表示实际关系的实线更低。
1702628282
1702628283
这究竟是为什么呢?自古以来大家都认为孩子的身高会和父母双亲的身高基本相同,可是高尔顿的数据分析却显示身材高大的双亲,其子女不一定高,身材矮小的双亲,其子女也不一定矮。这一结果就连高尔顿都始料不及。
1702628284
1702628285
高尔顿将这一现象称为“回归平凡”,后来他的学生和受他影响的统计学家们将其称为“均值回归”。意思就是说,实际的数据比理论上的推测更加接近平均值。
1702628286
1702628287
换成之前提到的我的那两个朋友,就是“身材矮小的野村的儿子可能比野村更高”,而“身材高挑的小林的女儿则可能比小林更矮”。
1702628288
1702628289
像身高这种测量误差极小,遗传因素很强的条件都尚且如此,才能就更是这样了吧。有才能的双亲生出来的孩子或许会拥有比平均值更高的才能,但却不能对此做出万无一失的保证。所以,人类不可能出现两极分化的进化过程,也无法按照遗传和人种来使人类区别开来。
1702628290
1702628291
“奥林匹克魔咒”的真相
1702628292
1702628293
之所以会出现这种“均值回归”的现象,是因为不管是身高还是才能,或者生物的特征等,这个世界上的所有现象都拥有其独特的“随机性”。
1702628294
1702628295
让我们用奥运选手的事例来作具体的分析。
1702628296
1702628297
只有在预选赛上创造出优异成绩的选手才能够代表国家出战奥运会,但在奥运赛场上,运动员却往往发挥失常以致最终抱憾收场。这样的状况想必在每届的奥运会上都会出现。这就是均值回归的典型事例,是体育结果的随机性所导致的现象。
1702628298
1702628299
体育结果往往不完全由实力决定。就连100米赛跑这样单纯的竞技项目,每届大赛的最佳成绩都不一样。如果将这个被随机性所决定的因素称为竞技状态的话,那么那些碰巧在预选赛上取得佳绩的人之中,有很大一部分是发挥出了他本人的最佳竞技状态。
1702628300
1702628301
但是,仅凭最佳竞技状态下取得的成绩去预测正式比赛的结果,无异于期待“奇迹连续发生2次”。像这样的选手在正式比赛中,有可能发挥平庸甚至发挥失常。与再次超常发挥取得奇迹一般的好成绩相比,出现“均值回归”的可能性更大。当然与之相反的情况是,即便在正式比赛之前发挥失常的选手,也有可能出现“正式比赛时发挥更好”的均值回归现象。
1702628302
1702628303
被称为“奥林匹克魔咒”的现象背后,也许有很多情况只用“均值回归”就可以解释。所以运动员们所追求的是调整身心状态,“尽可能地减少随机性”,以及“不会被随机性所左右的压倒性的实力”。
1702628304
1702628305
从高尔顿与他的学生们身上我们所能够学到的是,无法针对拥有随机性的现象进行理论上的预测。因此,必须仔细地收集数据进行回归分析,并且对其关联性进行分析。
1702628306
1702628307
但是,通过回归分析得出“最接近的预测结果”后仍然不能就此满足。因为这个最接近的预测结果虽然是与数据之间误差最小的结果,却仍然存在误差。而我早在上文中就已经说过不考虑“误差”的计算都不准确。
1702628308
1702628309
那么,究竟应该怎么做才是对的呢?
1702628310
1702628311
实际上我们并非束手无策,在下面的内容中我就将为大家介绍费希尔在随机对照试验之外,为统计学带来的另外一种方法。
1702628312
1702628314
20 所有领域都可以应用的回归分析法
1702628315
1702628316
1702628317
1702628318
高尔顿的回归分析的局限性
1702628319
1702628320
我还记得在大学的实验实习课上,必须用“在方格纸上标出的圆点中心画一条直线,然后计算这条直线的斜率”这样一个大概在100年前频繁使用的方法作报告。高尔顿就是将这个模拟方法加入了一些数学的模型。
1702628321
1702628322
也就是说,高尔顿的回归分析,只不过是导出了“穿过数据中心的直线以及表示这一直线的公式”。所以,比如说像图5–2、图5–3所示的状况,仅仅依靠高尔顿的回归分析是无法进行区别的。
1702628323
1702628324
图5–2和图5–3通过回归分析所得到的表示,通过中心直线的公式(回归式)全都是y=18+0.8x。也就是说,每当x轴的值增加1,y轴的值就会增加0.8,这是一个成正比的关系。其中18和0.8等用来表现回归式的数值都被称为回归系数。正如我们在中学教科书中学到过的,18被称为截距,0.8被称为斜率。
1702628325
1702628326
1702628327
1702628328
1702628329
图5–2 随机性较小的回归分析
[
上一页 ]
[ :1.70262828e+09 ]
[
下一页 ]