打字猴:1.702628363e+09
1702628363 与罗斯福新政的失业率调查不同,采集了全体数据的回归系数必定是单一数值。所以,如果这个回归系数只应用在这个班级的40名学生上,是没有任何误差的。可是这样一来,好不容易收集数据进行分析得出的结果,就只对这个班级的学生有意义了。
1702628364
1702628365 对没见过这40名学生的人来说,根本不在乎他们的成绩如何。但是,如果这个数据能够代表与这40名学生同年龄的孩子的成绩情况,那么对此感兴趣的人的人数一定不少。也就是说,真正有意义的数据是“同年龄全体孩子”这一群体的回归系数,某小学4年级一个班全部40名学生的数据,只是庞大群体中的“一小部分”罢了。
1702628366
1702628367 由此可见,人类真正想知道的基本上都是那些难以轻易得知的事情。
1702628368
1702628369 或许在这个世界上,有人只失恋两三回,就得出了“女人全都在说谎”的结论。要想验证这个结论是否准确,那就必须对全世界大约30亿名女性进行非常仔细的观察,确认她们是不是在说谎。更进一步地说,就算确认了“2012年世界上所有女性都在说谎”,也无法擅自断言从今往后“她们还会继续说谎”。毕竟,人类的性格和思维方式是不断发生改变的,或许2013年会有不说谎的女性出现呢。
1702628370
1702628371 统计学家也无法理解的“真值”
1702628372
1702628373 费希尔将“如果拥有无限的数据就能够得到的真正想要知道的值”称为“真值”,并且通过对偶然得到的数据进行计算的统计量能够在多少范围的误差内推测真值进行了数学上的运算,最终发现在数据有限的情况下做出适当判断的方法。
1702628374
1702628375 通过现实数据得到的回归系数之类的统计量,相对于真值来说只不过是一个适当的估计值,如果在估计之外更进一步地检测这个数值与真值相比有多少误差,那么至少能够降低我们做出错误判断的风险。
1702628376
1702628377 这也是费希尔在随机对照试验之外,为统计学做出的另一项伟大贡献。
1702628378
1702628379 当时的统计学家都被实际得到的数据所束缚,这些统计学家都将从有限的数据中得出回归系数计算出的平均值看作绝对且唯一的数值。所以,他们对于费希尔所提出的抽象真值以及预测值的误差等概念,完全无法理解。但是,如果这样,他们就无法解释为何之前那两个图表中的回归分析会有如此明显的区别。
1702628380
1702628381 运用求平均值的计算方法,就连小学生也能够做到。将所有数据全部相加,然后除以数据的个数即可。可是,如果我们发现“算出的平均值在理论上竟然具有随机性”,或许也会像过去的那些统计学家们一样对此完全无法理解。
1702628382
1702628383 即便如此,正如我在上文中对误差范围进行的说明,如果基于偶然得到的回归系数做出判断,会使我们做出无益甚至有害的决定,那么这种愚蠢的行为最好能够避免。也就是说,当斜率的真值为0时,我们却由于数据的随机性算出成正比的回归系数,那么根据这一结果做出的战略决策毫无疑问是完全错误的。
1702628384
1702628385 比如,在增加广告投放量也没有任何意义的情况下,做出“回归分析的结果显示,越是增加广告投放量就越能够增加销售额”这样的判断必将带来巨大的损失。
1702628386
1702628387 为了掌握回归分析所必须了解的基础术语
1702628388
1702628389 幸运的是,就算不擅长抽象思考的人,现在也可以利用统计学这个强有力的工具。现在,有很多软件可以帮助那些数学不好的人非常简单地计算出估计值、误差以及p值。有了这些工具算出的结果,只要掌握一些基本的统计学知识就可以将其应用在实际的工作和生活当中。
1702628390
1702628391 比如说,要想表示之前图5–2和5–3回归分析的结果与误差之间的关系,如表5–2和表5–3所示,y=18+0.8x。
1702628392
1702628393 表5–2 图5–2的回归分析结果
1702628394
1702628395  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   18   1.5   14.9~21.2   <0.001   x   0.8   0.03   0.7~0.9   <0.001  表5–3 图5–3的回归分析结果
1702628396
1702628397  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   1.8   35   –55.5~91.5   0.61   x   0.8   0.6   –0.5~2.1   0.23  如果我们能够对表5–2和表5–3的各个项目进行如下的解释,那么就可以在很大的程度上避免做出错误的判断。
1702628398
1702628399 回归系数的估计值:这里需要注意的是,截距和斜率(x)都是通过数据计算出来的数值,都是基于数据对“真值”进行的估计。
1702628400
1702628401 标准误差:估计值的误差。与回归系数的估计值相比,标准误差越大,估计值越不准确,不过同时还要考虑接下来要提到的置信区间。
1702628402
1702628403 置信水平为95%的置信区间:假设包括0在内的许多回归系数,算出“p值在5%以下时真值”的范围。基本可以认为“真值就在这个范围之内”。
1702628404
1702628405 p值:假设回归系数为0的情况下,只能通过数据的随机性推测回归系数的概率。一般来说当这个值在5%以上时,可以认为“就算回归系数为0也不可能出现”。
1702628406
1702628407 根据上述的理解,结合图表上实际的数据来看,比如表5–2中截距的标准误差为1.5,斜率(x)的标准误差是0.03,与回归系数的估计值相比这个误差要小很多。再看置信区间,分别是14.9~21.2和0.7~0.9,也就是说真值就在这个范围之内。
1702628408
1702628409 再假设回归系数的真值为0,也就是说x与y之间没有任何关系,那么由于数据的随机性产生这种回归系数的概率,即p值小于0.001,也就是不足1%的概率。那么,我们基本可以认为x与y之间成正比。
1702628410
1702628411 让我们再来看一看表5–3的回归系数的标准误差,截距的标准误差为35,斜率(x)的标准误差为0.6。这两个数据与回归系数的估计值相比要么几乎相等,要么比估计值还要大。而此时,斜率(x)的置信区间还是–0.5~2.1,也就是“既有可能是正值,也有可能是0,还有可能是负值”,完全不得要领。再看p值,全都在5%以上,也就是说即使回归系数为0,截距出现这种数据的概率也有61%,斜率(x)出现这种数据的概率有23%。由此可见,上述结果很有可能是由于数据的随机性产生的。
1702628412
[ 上一页 ]  [ :1.702628363e+09 ]  [ 下一页 ]