1702628301
但是,仅凭最佳竞技状态下取得的成绩去预测正式比赛的结果,无异于期待“奇迹连续发生2次”。像这样的选手在正式比赛中,有可能发挥平庸甚至发挥失常。与再次超常发挥取得奇迹一般的好成绩相比,出现“均值回归”的可能性更大。当然与之相反的情况是,即便在正式比赛之前发挥失常的选手,也有可能出现“正式比赛时发挥更好”的均值回归现象。
1702628302
1702628303
被称为“奥林匹克魔咒”的现象背后,也许有很多情况只用“均值回归”就可以解释。所以运动员们所追求的是调整身心状态,“尽可能地减少随机性”,以及“不会被随机性所左右的压倒性的实力”。
1702628304
1702628305
从高尔顿与他的学生们身上我们所能够学到的是,无法针对拥有随机性的现象进行理论上的预测。因此,必须仔细地收集数据进行回归分析,并且对其关联性进行分析。
1702628306
1702628307
但是,通过回归分析得出“最接近的预测结果”后仍然不能就此满足。因为这个最接近的预测结果虽然是与数据之间误差最小的结果,却仍然存在误差。而我早在上文中就已经说过不考虑“误差”的计算都不准确。
1702628308
1702628309
那么,究竟应该怎么做才是对的呢?
1702628310
1702628311
实际上我们并非束手无策,在下面的内容中我就将为大家介绍费希尔在随机对照试验之外,为统计学带来的另外一种方法。
1702628312
1702628314
20 所有领域都可以应用的回归分析法
1702628315
1702628316
1702628317
1702628318
高尔顿的回归分析的局限性
1702628319
1702628320
我还记得在大学的实验实习课上,必须用“在方格纸上标出的圆点中心画一条直线,然后计算这条直线的斜率”这样一个大概在100年前频繁使用的方法作报告。高尔顿就是将这个模拟方法加入了一些数学的模型。
1702628321
1702628322
也就是说,高尔顿的回归分析,只不过是导出了“穿过数据中心的直线以及表示这一直线的公式”。所以,比如说像图5–2、图5–3所示的状况,仅仅依靠高尔顿的回归分析是无法进行区别的。
1702628323
1702628324
图5–2和图5–3通过回归分析所得到的表示,通过中心直线的公式(回归式)全都是y=18+0.8x。也就是说,每当x轴的值增加1,y轴的值就会增加0.8,这是一个成正比的关系。其中18和0.8等用来表现回归式的数值都被称为回归系数。正如我们在中学教科书中学到过的,18被称为截距,0.8被称为斜率。
1702628325
1702628326
1702628327
1702628328
1702628329
图5–2 随机性较小的回归分析
1702628330
1702628331
但是,即便拥有相同的回归式甚至回归系数,图5–2中横轴与纵轴的值很明显是从左下向右上的直线关系,而图5–3中所显示的走向关系则没有图5–2那么清晰。
1702628332
1702628333
毕竟,从杂乱无章的圆点中找到一条通过的直线,并不是一件容易的事。
1702628334
1702628335
那么,这两个图表之间究竟有什么区别呢?
1702628336
1702628337
1702628338
1702628339
1702628340
图5–3 随机性较大的回归分析
1702628341
1702628342
我们假设在这两个图表中随机去掉3个圆点。图5–2中不管去掉哪3个圆点,最后得到的直线仍然不会有变化。而图5–3中如果碰巧去掉最右上的2个圆点以及左下的一个圆点的话,那么穿过中心的直线一定会变得完全不同。
1702628343
1702628344
图5–3变化后的回归式就成了y=103–0.85x。也就是说,仅仅去掉了3个圆点之后,整个图表的函数关系都发生了逆转,x的值每增加1,y的值就会减少0.85(图5–4)。
1702628345
1702628346
这样一来,根据这个回归分析的结果,就不知道要想使y增加时,到底应该增加x还是减少x。比如在商业领域,希望了解销售额(y)的增长和广告量(x)之间有什么关系,可是根据上述的结果,根本不知道究竟应该增加广告还是减少广告,所以这种分析可以说是毫无意义的。
1702628347
1702628348
回归系数本身就有随机性
1702628349
1702628350
上述例子是从20个数据中去掉3个,而实际上这20个数据也是“从自然界无限的数据中偶然得到的数据”。假设最初“偶然”得到的数据只有17个,那么就不一定会得到之前提到过的那种成正比的关系,甚至可能出现像图5–4那样的反比关系。
[
上一页 ]
[ :1.702628301e+09 ]
[
下一页 ]