打字猴:1.702628351e+09
1702628351
1702628352
1702628353
1702628354
1702628355 图5–4 数据数量发生微弱改变后,关系发生了逆转
1702628356
1702628357 因此在现代统计学中,不仅实际得到的数据本身具有“可能出现较大值,也可能出现较小值”的随机性,就连得到的回归系数的本身也是随机存在的。也就是说,假设从现在开始进行100次从“偶然得到的数据”中求得回归系数的计算,那么一定会“既有可能得出较大的值,也有可能得出较小的值”。
1702628358
1702628359 不只回归系数,就连数据的平均值这么单纯的数值,如果进行多次数据采集并对统计量加以计算的话,每次得出的统计量也是不同的。
1702628360
1702628361 在这里还有一点必须注意,例如从某小学4年级一个班全部40名学生的学习数据中算出回归系数和平均值,即便在这种情况下,也必须考虑统计量的随机性。
1702628362
1702628363 与罗斯福新政的失业率调查不同,采集了全体数据的回归系数必定是单一数值。所以,如果这个回归系数只应用在这个班级的40名学生上,是没有任何误差的。可是这样一来,好不容易收集数据进行分析得出的结果,就只对这个班级的学生有意义了。
1702628364
1702628365 对没见过这40名学生的人来说,根本不在乎他们的成绩如何。但是,如果这个数据能够代表与这40名学生同年龄的孩子的成绩情况,那么对此感兴趣的人的人数一定不少。也就是说,真正有意义的数据是“同年龄全体孩子”这一群体的回归系数,某小学4年级一个班全部40名学生的数据,只是庞大群体中的“一小部分”罢了。
1702628366
1702628367 由此可见,人类真正想知道的基本上都是那些难以轻易得知的事情。
1702628368
1702628369 或许在这个世界上,有人只失恋两三回,就得出了“女人全都在说谎”的结论。要想验证这个结论是否准确,那就必须对全世界大约30亿名女性进行非常仔细的观察,确认她们是不是在说谎。更进一步地说,就算确认了“2012年世界上所有女性都在说谎”,也无法擅自断言从今往后“她们还会继续说谎”。毕竟,人类的性格和思维方式是不断发生改变的,或许2013年会有不说谎的女性出现呢。
1702628370
1702628371 统计学家也无法理解的“真值”
1702628372
1702628373 费希尔将“如果拥有无限的数据就能够得到的真正想要知道的值”称为“真值”,并且通过对偶然得到的数据进行计算的统计量能够在多少范围的误差内推测真值进行了数学上的运算,最终发现在数据有限的情况下做出适当判断的方法。
1702628374
1702628375 通过现实数据得到的回归系数之类的统计量,相对于真值来说只不过是一个适当的估计值,如果在估计之外更进一步地检测这个数值与真值相比有多少误差,那么至少能够降低我们做出错误判断的风险。
1702628376
1702628377 这也是费希尔在随机对照试验之外,为统计学做出的另一项伟大贡献。
1702628378
1702628379 当时的统计学家都被实际得到的数据所束缚,这些统计学家都将从有限的数据中得出回归系数计算出的平均值看作绝对且唯一的数值。所以,他们对于费希尔所提出的抽象真值以及预测值的误差等概念,完全无法理解。但是,如果这样,他们就无法解释为何之前那两个图表中的回归分析会有如此明显的区别。
1702628380
1702628381 运用求平均值的计算方法,就连小学生也能够做到。将所有数据全部相加,然后除以数据的个数即可。可是,如果我们发现“算出的平均值在理论上竟然具有随机性”,或许也会像过去的那些统计学家们一样对此完全无法理解。
1702628382
1702628383 即便如此,正如我在上文中对误差范围进行的说明,如果基于偶然得到的回归系数做出判断,会使我们做出无益甚至有害的决定,那么这种愚蠢的行为最好能够避免。也就是说,当斜率的真值为0时,我们却由于数据的随机性算出成正比的回归系数,那么根据这一结果做出的战略决策毫无疑问是完全错误的。
1702628384
1702628385 比如,在增加广告投放量也没有任何意义的情况下,做出“回归分析的结果显示,越是增加广告投放量就越能够增加销售额”这样的判断必将带来巨大的损失。
1702628386
1702628387 为了掌握回归分析所必须了解的基础术语
1702628388
1702628389 幸运的是,就算不擅长抽象思考的人,现在也可以利用统计学这个强有力的工具。现在,有很多软件可以帮助那些数学不好的人非常简单地计算出估计值、误差以及p值。有了这些工具算出的结果,只要掌握一些基本的统计学知识就可以将其应用在实际的工作和生活当中。
1702628390
1702628391 比如说,要想表示之前图5–2和5–3回归分析的结果与误差之间的关系,如表5–2和表5–3所示,y=18+0.8x。
1702628392
1702628393 表5–2 图5–2的回归分析结果
1702628394
1702628395  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   18   1.5   14.9~21.2   <0.001   x   0.8   0.03   0.7~0.9   <0.001  表5–3 图5–3的回归分析结果
1702628396
1702628397  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   1.8   35   –55.5~91.5   0.61   x   0.8   0.6   –0.5~2.1   0.23  如果我们能够对表5–2和表5–3的各个项目进行如下的解释,那么就可以在很大的程度上避免做出错误的判断。
1702628398
1702628399 回归系数的估计值:这里需要注意的是,截距和斜率(x)都是通过数据计算出来的数值,都是基于数据对“真值”进行的估计。
1702628400
[ 上一页 ]  [ :1.702628351e+09 ]  [ 下一页 ]