1702628614
虽然表5–6中没有置信区间,p值也并非实际的数值,而是按照不足0.001、不足0.01、不足0.05、0.05以上进行的分类,都和我们之前接触过的内容有些不同,但即便如此我们仍然能够通过表5–6了解到一些信息:“男生比女生低1.62分”,“朗读的学生普遍高出3.32分”,“参加补习班的学生高16.62分”,“认真完成作的人高6.92分”,“在家和补习班学习时间的长短对成绩的影响基本处于误差范围之内”,“但是不参加补习班而且在家也不学习对成绩的影响则是–5.97”。
1702628615
1702628616
表5–6 对中学生数学正确率进行的回归分析
1702628617
1702628618
回归系数的估计值 标准误差 p值 截距 42.33 男生(虚拟) –1.62 1.31 0.05以上 朗读(虚拟) 3.32 1.41 不足0.05 补习班(虚拟) 16.62 1.64 不足0.001 作业(虚拟) 6.29 0.92 不足0.001 学习时间(分) 0.01 0.02 0.05以上 不在家学习也不参加补习班(虚拟) –5.79 2.08 不足0.01 在这里影响最大的因素就是补习班。与认真完成作业和长时间在家学习的学生相比,基本不写学校作业而参加补习班的学生竟然在理论上取得了更好的成绩,这不但证明了学校教育还不够完善,同时也证明了能够供孩子参加补习班的家庭环境对成绩会有很大的影响,这或许从另一个侧面反映了社会的不公平。只要熟练掌握多元回归分析的方法,就能够根据得到的数据进行多方面的讨论和研究。
1702628619
1702628620
利用比值比进行逻辑回归分析
1702628621
1702628622
因为多元回归分析只能够应用在结果变量为连续值的情况下,于是在弗明汉研究中,研究者们进一步发明了逻辑回归。
1702628623
1702628624
针对是否会得心脏病这个二值的结果变量,许多解释变量(血压、年龄、是否吸烟等)都会对其产生影响。为了进行公平分析,研究者们发明了逻辑回归的方法。
1702628625
1702628626
数学部分的内容请大家参考相关专业书籍,我在此就不作赘述,逻辑回归大体上的思考方法就是将原本为0或1的二值结果变量,变换为连续的变量进行多元回归分析。
1702628627
1702628628
在逻辑回归之中,回归系数是以“比值比”来表示的,意思是“大概有几倍的机会”,只要看懂了这个,就能够掌握结果。与多元回归分析一样,回归系数的估计值、标准误差、置信区间以及p值都是需要我们看懂的内容,与多元回归分析相比,逻辑回归只是对回归系数的理解方法稍微有些不同。
1702628629
1702628630
在之前提到过的《学力与阶层》一书中,还针对“不在家学习,也不参加补习班”的学生特征进行逻辑回归分析,让我们来看一看分析结果的比值比和p值。
1702628631
1702628632
在这里,是否是男生、是否朗读、家庭文化阶层高不高都属于“误差范围”,而是否认真完成作业对“学习时间为0”的影响比率是0.55倍(这部分的因果关系很难确定),另外,家庭文化阶层较低的“学习时间为0”的比率是1.78倍,父亲从大学毕业的话比率则是0.6倍,由此可见除了是否参加补习班之外,家庭环境也对学生的学习习惯有着很大的影响(表5–7)。
1702628633
1702628634
表5–7 “不在家学习也不参加补习班”的学生的特征
1702628635
1702628636
比值比的估计值 p值 男生(虚拟) 0.77 0.05~0.10 朗读(虚拟) 1.11 0.05以上 作业(虚拟) 0.55 不足0.001 文化阶层低(虚拟) 1.78 不足0.01 文化阶层高(虚拟) 0.69 0.05–0.10 父亲大学毕业(虚拟) 0.60 不足0.01 掌握了回归分析就能够驳斥那些“胡说八道”
1702628637
1702628638
不管是关于社会问题的分析,还是对改善经营状况的建议,只要你掌握了到目前为止所说的这些统计学知识,就不会被那些没有任何数据的胡乱分析所欺骗。
1702628639
1702628640
我这个人特别较真儿,每当在电视和网络上看到那些学者和文化人毫无根据的分析的时候,就会去查询数据看看他们说的到底是不是真的,但遗憾的是很多人说的话都是没有依据的。
1702628641
1702628642
当你对某些“毫无根据的胡说”心存疑虑的时候,可以将怀疑的内容后面加上回归分析这个关键词一起输入谷歌检索,一定能够找到“是否有关联”的结果。希望大家都能够活用到目前为止掌握的统计学知识,去驳斥那些所谓专家们的“胡说八道”。
1702628643
1702628645
23 统计学家最拿手的统计法
1702628646
1702628647
1702628648
1702628649
像多元回归分析和逻辑回归这样的回归模型,是在寻找数据关联性时最常用的方法。
1702628650
1702628651
这里所说的“模型”,与按现实世界中实际存在的汽车和飞机,用塑料制作成塑料模型是同样的概念。也就是说,将现实中看不见、摸不着的因果关系,通过回归分析制作成回归模型。
1702628652
1702628653
但是,回归模型并不一定能够准确地推测出因果关系。当然,这并不意味着回归模型就毫无价值,只要我们知道应该注意什么地方,就可以对数据进行准确分析。
1702628654
1702628655
接下来,我将为大家介绍回归模型的极限,以及为解决这个问题而诞生的现代统计方法。
1702628656
1702628657
使用回归模型时要注意交互作用
1702628658
1702628659
多元回归分析中,对回归系数的估计是非常重要的问题。
1702628660
1702628661
也就是说,在估计回归系数的时候,要考虑“变量间在没有相乘效果的状态下会出现怎样的区别”。为了方便说明,我们假设高中A和高中B男女生之间平均分的差“都是15分”,男生和女生相比则是高中A的学生比高中B的学生分别“高出5分”(表5–8)。
1702628662
1702628663
表5–8 两所高中模拟测试的结果(与表5–5相同)
[
上一页 ]
[ :1.702628614e+09 ]
[
下一页 ]