1702628330
1702628331
但是,即便拥有相同的回归式甚至回归系数,图5–2中横轴与纵轴的值很明显是从左下向右上的直线关系,而图5–3中所显示的走向关系则没有图5–2那么清晰。
1702628332
1702628333
毕竟,从杂乱无章的圆点中找到一条通过的直线,并不是一件容易的事。
1702628334
1702628335
那么,这两个图表之间究竟有什么区别呢?
1702628336
1702628337
1702628338
1702628339
1702628340
图5–3 随机性较大的回归分析
1702628341
1702628342
我们假设在这两个图表中随机去掉3个圆点。图5–2中不管去掉哪3个圆点,最后得到的直线仍然不会有变化。而图5–3中如果碰巧去掉最右上的2个圆点以及左下的一个圆点的话,那么穿过中心的直线一定会变得完全不同。
1702628343
1702628344
图5–3变化后的回归式就成了y=103–0.85x。也就是说,仅仅去掉了3个圆点之后,整个图表的函数关系都发生了逆转,x的值每增加1,y的值就会减少0.85(图5–4)。
1702628345
1702628346
这样一来,根据这个回归分析的结果,就不知道要想使y增加时,到底应该增加x还是减少x。比如在商业领域,希望了解销售额(y)的增长和广告量(x)之间有什么关系,可是根据上述的结果,根本不知道究竟应该增加广告还是减少广告,所以这种分析可以说是毫无意义的。
1702628347
1702628348
回归系数本身就有随机性
1702628349
1702628350
上述例子是从20个数据中去掉3个,而实际上这20个数据也是“从自然界无限的数据中偶然得到的数据”。假设最初“偶然”得到的数据只有17个,那么就不一定会得到之前提到过的那种成正比的关系,甚至可能出现像图5–4那样的反比关系。
1702628351
1702628352
1702628353
1702628354
1702628355
图5–4 数据数量发生微弱改变后,关系发生了逆转
1702628356
1702628357
因此在现代统计学中,不仅实际得到的数据本身具有“可能出现较大值,也可能出现较小值”的随机性,就连得到的回归系数的本身也是随机存在的。也就是说,假设从现在开始进行100次从“偶然得到的数据”中求得回归系数的计算,那么一定会“既有可能得出较大的值,也有可能得出较小的值”。
1702628358
1702628359
不只回归系数,就连数据的平均值这么单纯的数值,如果进行多次数据采集并对统计量加以计算的话,每次得出的统计量也是不同的。
1702628360
1702628361
在这里还有一点必须注意,例如从某小学4年级一个班全部40名学生的学习数据中算出回归系数和平均值,即便在这种情况下,也必须考虑统计量的随机性。
1702628362
1702628363
与罗斯福新政的失业率调查不同,采集了全体数据的回归系数必定是单一数值。所以,如果这个回归系数只应用在这个班级的40名学生上,是没有任何误差的。可是这样一来,好不容易收集数据进行分析得出的结果,就只对这个班级的学生有意义了。
1702628364
1702628365
对没见过这40名学生的人来说,根本不在乎他们的成绩如何。但是,如果这个数据能够代表与这40名学生同年龄的孩子的成绩情况,那么对此感兴趣的人的人数一定不少。也就是说,真正有意义的数据是“同年龄全体孩子”这一群体的回归系数,某小学4年级一个班全部40名学生的数据,只是庞大群体中的“一小部分”罢了。
1702628366
1702628367
由此可见,人类真正想知道的基本上都是那些难以轻易得知的事情。
1702628368
1702628369
或许在这个世界上,有人只失恋两三回,就得出了“女人全都在说谎”的结论。要想验证这个结论是否准确,那就必须对全世界大约30亿名女性进行非常仔细的观察,确认她们是不是在说谎。更进一步地说,就算确认了“2012年世界上所有女性都在说谎”,也无法擅自断言从今往后“她们还会继续说谎”。毕竟,人类的性格和思维方式是不断发生改变的,或许2013年会有不说谎的女性出现呢。
1702628370
1702628371
统计学家也无法理解的“真值”
1702628372
1702628373
费希尔将“如果拥有无限的数据就能够得到的真正想要知道的值”称为“真值”,并且通过对偶然得到的数据进行计算的统计量能够在多少范围的误差内推测真值进行了数学上的运算,最终发现在数据有限的情况下做出适当判断的方法。
1702628374
1702628375
通过现实数据得到的回归系数之类的统计量,相对于真值来说只不过是一个适当的估计值,如果在估计之外更进一步地检测这个数值与真值相比有多少误差,那么至少能够降低我们做出错误判断的风险。
1702628376
1702628377
这也是费希尔在随机对照试验之外,为统计学做出的另一项伟大贡献。
1702628378
1702628379
当时的统计学家都被实际得到的数据所束缚,这些统计学家都将从有限的数据中得出回归系数计算出的平均值看作绝对且唯一的数值。所以,他们对于费希尔所提出的抽象真值以及预测值的误差等概念,完全无法理解。但是,如果这样,他们就无法解释为何之前那两个图表中的回归分析会有如此明显的区别。
[
上一页 ]
[ :1.70262833e+09 ]
[
下一页 ]