1702628317
1702628318
高尔顿的回归分析的局限性
1702628319
1702628320
我还记得在大学的实验实习课上,必须用“在方格纸上标出的圆点中心画一条直线,然后计算这条直线的斜率”这样一个大概在100年前频繁使用的方法作报告。高尔顿就是将这个模拟方法加入了一些数学的模型。
1702628321
1702628322
也就是说,高尔顿的回归分析,只不过是导出了“穿过数据中心的直线以及表示这一直线的公式”。所以,比如说像图5–2、图5–3所示的状况,仅仅依靠高尔顿的回归分析是无法进行区别的。
1702628323
1702628324
图5–2和图5–3通过回归分析所得到的表示,通过中心直线的公式(回归式)全都是y=18+0.8x。也就是说,每当x轴的值增加1,y轴的值就会增加0.8,这是一个成正比的关系。其中18和0.8等用来表现回归式的数值都被称为回归系数。正如我们在中学教科书中学到过的,18被称为截距,0.8被称为斜率。
1702628325
1702628326
1702628327
1702628328
1702628329
图5–2 随机性较小的回归分析
1702628330
1702628331
但是,即便拥有相同的回归式甚至回归系数,图5–2中横轴与纵轴的值很明显是从左下向右上的直线关系,而图5–3中所显示的走向关系则没有图5–2那么清晰。
1702628332
1702628333
毕竟,从杂乱无章的圆点中找到一条通过的直线,并不是一件容易的事。
1702628334
1702628335
那么,这两个图表之间究竟有什么区别呢?
1702628336
1702628337
1702628338
1702628339
1702628340
图5–3 随机性较大的回归分析
1702628341
1702628342
我们假设在这两个图表中随机去掉3个圆点。图5–2中不管去掉哪3个圆点,最后得到的直线仍然不会有变化。而图5–3中如果碰巧去掉最右上的2个圆点以及左下的一个圆点的话,那么穿过中心的直线一定会变得完全不同。
1702628343
1702628344
图5–3变化后的回归式就成了y=103–0.85x。也就是说,仅仅去掉了3个圆点之后,整个图表的函数关系都发生了逆转,x的值每增加1,y的值就会减少0.85(图5–4)。
1702628345
1702628346
这样一来,根据这个回归分析的结果,就不知道要想使y增加时,到底应该增加x还是减少x。比如在商业领域,希望了解销售额(y)的增长和广告量(x)之间有什么关系,可是根据上述的结果,根本不知道究竟应该增加广告还是减少广告,所以这种分析可以说是毫无意义的。
1702628347
1702628348
回归系数本身就有随机性
1702628349
1702628350
上述例子是从20个数据中去掉3个,而实际上这20个数据也是“从自然界无限的数据中偶然得到的数据”。假设最初“偶然”得到的数据只有17个,那么就不一定会得到之前提到过的那种成正比的关系,甚至可能出现像图5–4那样的反比关系。
1702628351
1702628352
1702628353
1702628354
1702628355
图5–4 数据数量发生微弱改变后,关系发生了逆转
1702628356
1702628357
因此在现代统计学中,不仅实际得到的数据本身具有“可能出现较大值,也可能出现较小值”的随机性,就连得到的回归系数的本身也是随机存在的。也就是说,假设从现在开始进行100次从“偶然得到的数据”中求得回归系数的计算,那么一定会“既有可能得出较大的值,也有可能得出较小的值”。
1702628358
1702628359
不只回归系数,就连数据的平均值这么单纯的数值,如果进行多次数据采集并对统计量加以计算的话,每次得出的统计量也是不同的。
1702628360
1702628361
在这里还有一点必须注意,例如从某小学4年级一个班全部40名学生的学习数据中算出回归系数和平均值,即便在这种情况下,也必须考虑统计量的随机性。
1702628362
1702628363
与罗斯福新政的失业率调查不同,采集了全体数据的回归系数必定是单一数值。所以,如果这个回归系数只应用在这个班级的40名学生上,是没有任何误差的。可是这样一来,好不容易收集数据进行分析得出的结果,就只对这个班级的学生有意义了。
1702628364
1702628365
对没见过这40名学生的人来说,根本不在乎他们的成绩如何。但是,如果这个数据能够代表与这40名学生同年龄的孩子的成绩情况,那么对此感兴趣的人的人数一定不少。也就是说,真正有意义的数据是“同年龄全体孩子”这一群体的回归系数,某小学4年级一个班全部40名学生的数据,只是庞大群体中的“一小部分”罢了。
1702628366
[
上一页 ]
[ :1.702628317e+09 ]
[
下一页 ]