1702628401
标准误差:估计值的误差。与回归系数的估计值相比,标准误差越大,估计值越不准确,不过同时还要考虑接下来要提到的置信区间。
1702628402
1702628403
置信水平为95%的置信区间:假设包括0在内的许多回归系数,算出“p值在5%以下时真值”的范围。基本可以认为“真值就在这个范围之内”。
1702628404
1702628405
p值:假设回归系数为0的情况下,只能通过数据的随机性推测回归系数的概率。一般来说当这个值在5%以上时,可以认为“就算回归系数为0也不可能出现”。
1702628406
1702628407
根据上述的理解,结合图表上实际的数据来看,比如表5–2中截距的标准误差为1.5,斜率(x)的标准误差是0.03,与回归系数的估计值相比这个误差要小很多。再看置信区间,分别是14.9~21.2和0.7~0.9,也就是说真值就在这个范围之内。
1702628408
1702628409
再假设回归系数的真值为0,也就是说x与y之间没有任何关系,那么由于数据的随机性产生这种回归系数的概率,即p值小于0.001,也就是不足1%的概率。那么,我们基本可以认为x与y之间成正比。
1702628410
1702628411
让我们再来看一看表5–3的回归系数的标准误差,截距的标准误差为35,斜率(x)的标准误差为0.6。这两个数据与回归系数的估计值相比要么几乎相等,要么比估计值还要大。而此时,斜率(x)的置信区间还是–0.5~2.1,也就是“既有可能是正值,也有可能是0,还有可能是负值”,完全不得要领。再看p值,全都在5%以上,也就是说即使回归系数为0,截距出现这种数据的概率也有61%,斜率(x)出现这种数据的概率有23%。由此可见,上述结果很有可能是由于数据的随机性产生的。
1702628412
1702628413
只要你能够看懂回归系数的误差与置信区间的数值之间的联系,那么你的统计能力就会得到大幅提升。为什么这样说,因为我们之前所提到过的那些内容,包括对数据间的关联性进行分析,或者根据某种数据推测出何种结果等,为了实现统计学的根本目的而采用的方法,全都属于广义的回归分析。
1702628414
1702628415
政策、教育、经营、公共卫生等所有领域的研究结果,都可以用像刚才举例的图表一样的,按照回归系数、置信区间与p值(或者其中的一部分)的形式进行记述。
1702628416
1702628418
21 快速加深对统计学的理解的一张图表
1702628419
1702628420
1702628421
1702628422
统计学教科书将广义线性模型分为两种
1702628423
1702628424
回归分析本身就是一个非常有用的工具,但是如果将更多的统计学方法全都统一理解为“广义的回归分析”的话,那么其应用范围还会变得更加广阔。
1702628425
1702628426
像这种“广义的回归分析”的思考方式,被统计学家们称为广义线性模型。所谓线性,指的就是回归分析中用直线表示的关系性,“将许许多多的方法都统一成回归分析进行整理”就是广义线性模型的意义所在。
1702628427
1702628428
极端地说,我认为基础统计学的教科书大体可以分为两类。一类是因为没有活用广义线性模型,而对费希尔时代创造的各种统计方法逐一进行介绍的教科书,另一类是对基本相同的方法进行概括介绍的教科书。
1702628429
1702628430
前一种教科书经常会导致以下这样的教学悲剧。
1702628431
1702628432
虽然记住了T检验和回归分析等名称,但是却搞不清楚它们之间的关系和规则,只能当作不同的方法单独记忆,结果就是不知道什么时候该用什么方法。就算当时能够顺利地解答练习题并且通过考试,但是等毕业以后回过头来再想起统计学的时候仍然是一头雾水。
1702628433
1702628434
那么,如果我们以“基本相同的方法”为出发点,仅仅通过一张图表来对所有的概念进行解释说明,那会怎样呢?我认为,这不但能够大幅减少我们理解统计学的时间,并且能够加深对统计学的理解。
1702628435
1702628436
这张图表如表5–7所示。
1702628437
1702628438
本书中曾经多次提到,统计学的目的在于从基于公平条件的比较中寻找出现区别的要素,那么只要能够找到在解释变量中,希望进行比较的结果变量,就能够非常简单地找出应该使用的统计学方法。再重复一次,这个表中介绍的所有方法都属于“广义线性模型”的回归分析。
1702628439
1702628440
表5–4 涵盖广义线性模型的一张图表
1702628441
1702628442
分析轴(解释变量) 两组间的比较 多组间的 比较 连续值多寡的比较 对多个解释变量同时进行比较 希望进行比较的内容(结果变量)
1702628443
1702628444
连续值 对平均值的区别进行T检验 对平均值的区别进行方差分析 回归分析 多元回归分析 是/否等二值 统计表的记录与卡方检验
1702628445
1702628446
逻辑回归
1702628447
1702628448
“一张图表”的使用方法
1702628449
1702628450
比如,我们将每位顾客的消费额作为变量,从0开始以1日元为单位增加的数值作为连续值。以此作为结果变量,在两组变量之间(比如以性别区分)进行比较并且记录平均值,然后分析通过T检验得到的p值和置信区间即可。
[
上一页 ]
[ :1.702628401e+09 ]
[
下一页 ]