打字猴:1.70262838e+09
1702628380
1702628381 运用求平均值的计算方法,就连小学生也能够做到。将所有数据全部相加,然后除以数据的个数即可。可是,如果我们发现“算出的平均值在理论上竟然具有随机性”,或许也会像过去的那些统计学家们一样对此完全无法理解。
1702628382
1702628383 即便如此,正如我在上文中对误差范围进行的说明,如果基于偶然得到的回归系数做出判断,会使我们做出无益甚至有害的决定,那么这种愚蠢的行为最好能够避免。也就是说,当斜率的真值为0时,我们却由于数据的随机性算出成正比的回归系数,那么根据这一结果做出的战略决策毫无疑问是完全错误的。
1702628384
1702628385 比如,在增加广告投放量也没有任何意义的情况下,做出“回归分析的结果显示,越是增加广告投放量就越能够增加销售额”这样的判断必将带来巨大的损失。
1702628386
1702628387 为了掌握回归分析所必须了解的基础术语
1702628388
1702628389 幸运的是,就算不擅长抽象思考的人,现在也可以利用统计学这个强有力的工具。现在,有很多软件可以帮助那些数学不好的人非常简单地计算出估计值、误差以及p值。有了这些工具算出的结果,只要掌握一些基本的统计学知识就可以将其应用在实际的工作和生活当中。
1702628390
1702628391 比如说,要想表示之前图5–2和5–3回归分析的结果与误差之间的关系,如表5–2和表5–3所示,y=18+0.8x。
1702628392
1702628393 表5–2 图5–2的回归分析结果
1702628394
1702628395  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   18   1.5   14.9~21.2   <0.001   x   0.8   0.03   0.7~0.9   <0.001  表5–3 图5–3的回归分析结果
1702628396
1702628397  变量   回归系数的估计值   标准误差   置信水平为95%的置信区间   p值   截距   1.8   35   –55.5~91.5   0.61   x   0.8   0.6   –0.5~2.1   0.23  如果我们能够对表5–2和表5–3的各个项目进行如下的解释,那么就可以在很大的程度上避免做出错误的判断。
1702628398
1702628399 回归系数的估计值:这里需要注意的是,截距和斜率(x)都是通过数据计算出来的数值,都是基于数据对“真值”进行的估计。
1702628400
1702628401 标准误差:估计值的误差。与回归系数的估计值相比,标准误差越大,估计值越不准确,不过同时还要考虑接下来要提到的置信区间。
1702628402
1702628403 置信水平为95%的置信区间:假设包括0在内的许多回归系数,算出“p值在5%以下时真值”的范围。基本可以认为“真值就在这个范围之内”。
1702628404
1702628405 p值:假设回归系数为0的情况下,只能通过数据的随机性推测回归系数的概率。一般来说当这个值在5%以上时,可以认为“就算回归系数为0也不可能出现”。
1702628406
1702628407 根据上述的理解,结合图表上实际的数据来看,比如表5–2中截距的标准误差为1.5,斜率(x)的标准误差是0.03,与回归系数的估计值相比这个误差要小很多。再看置信区间,分别是14.9~21.2和0.7~0.9,也就是说真值就在这个范围之内。
1702628408
1702628409 再假设回归系数的真值为0,也就是说x与y之间没有任何关系,那么由于数据的随机性产生这种回归系数的概率,即p值小于0.001,也就是不足1%的概率。那么,我们基本可以认为x与y之间成正比。
1702628410
1702628411 让我们再来看一看表5–3的回归系数的标准误差,截距的标准误差为35,斜率(x)的标准误差为0.6。这两个数据与回归系数的估计值相比要么几乎相等,要么比估计值还要大。而此时,斜率(x)的置信区间还是–0.5~2.1,也就是“既有可能是正值,也有可能是0,还有可能是负值”,完全不得要领。再看p值,全都在5%以上,也就是说即使回归系数为0,截距出现这种数据的概率也有61%,斜率(x)出现这种数据的概率有23%。由此可见,上述结果很有可能是由于数据的随机性产生的。
1702628412
1702628413 只要你能够看懂回归系数的误差与置信区间的数值之间的联系,那么你的统计能力就会得到大幅提升。为什么这样说,因为我们之前所提到过的那些内容,包括对数据间的关联性进行分析,或者根据某种数据推测出何种结果等,为了实现统计学的根本目的而采用的方法,全都属于广义的回归分析。
1702628414
1702628415 政策、教育、经营、公共卫生等所有领域的研究结果,都可以用像刚才举例的图表一样的,按照回归系数、置信区间与p值(或者其中的一部分)的形式进行记述。
1702628416
1702628417 看穿一切数字的统计学 [:1702626751]
1702628418 21 快速加深对统计学的理解的一张图表
1702628419
1702628420
1702628421
1702628422 统计学教科书将广义线性模型分为两种
1702628423
1702628424 回归分析本身就是一个非常有用的工具,但是如果将更多的统计学方法全都统一理解为“广义的回归分析”的话,那么其应用范围还会变得更加广阔。
1702628425
1702628426 像这种“广义的回归分析”的思考方式,被统计学家们称为广义线性模型。所谓线性,指的就是回归分析中用直线表示的关系性,“将许许多多的方法都统一成回归分析进行整理”就是广义线性模型的意义所在。
1702628427
1702628428 极端地说,我认为基础统计学的教科书大体可以分为两类。一类是因为没有活用广义线性模型,而对费希尔时代创造的各种统计方法逐一进行介绍的教科书,另一类是对基本相同的方法进行概括介绍的教科书。
1702628429
[ 上一页 ]  [ :1.70262838e+09 ]  [ 下一页 ]