1702628564
1702628565
为了解释为什么会出现上述的这种情况,让我们来分析一下在对高中A和高中B的成绩进行对比时,除了学生性别之外还应该考虑什么条件。
1702628566
1702628567
比如说,①参加什么社团活动(运动部、文化部、不参加),②是否参加补习班(是、否),③家庭环境(按照家长的年收入分成3个层次),那么为了满足上述所有条件,我们需要将全体学生分为几组呢?
1702628568
1702628569
答案如下:
1702628570
1702628571
2(性别)×3(社团活动)×2(是否参加补习班)×3(家长年收入)=36
1702628572
1702628573
也就是说,要想保证上述条件完全一致的话,我们需要将学生分成36组。
1702628574
1702628575
那么,这两所学校中符合分组条件的学生又有多少呢?假设符合每个条件的学生数量大致相同,那么每一组就应该有200÷36=5.556,也就相当于每组只有五六个人。同时,由于两所学校的男女比例差都很大,比如高中A需要将40名女生分成18组,那么平均每组就只有两三个人。如此少的人数,不管进行怎样的分析得出怎样的结果,都逃不出误差的范围。
1702628576
1702628577
不需要分组的多元回归分析
1702628578
1702628579
面对这样的问题,多元回归分析就会发挥出威力。在“保证条件相同”的基础上更进一步,只要确定“不同性别学生的平均分相差多少”,就可以不必进行任何的分组。接下来让我们对这种思考方法进行详细的解说。
1702628580
1702628581
假设不考虑性别,对高中A与高中B的平均分进行比较的话,就像图5–7那样进行回归分析即可。相信掌握了上一节内容的读者对这部分是一目了然的。浅色的圆点是男生的平均分,深色的圆点是女生的平均分,圆点的大小代表各自学生的人数,×表示的是两个高中各自的平均分(两所学校的平均分都比较靠近人数较多的性别),穿过×的直线的斜率就是“两所学校平均分的差”。在这种情况下,斜率越向右上攀升,高中B的平均分比高中A的平均分越高。
1702628582
1702628583
如果考虑性别的话,情况又会怎样呢?比如说,高中A和高中B都是女生的平均分要高出15分,应该如何利用这个条件呢?
1702628584
1702628585
1702628586
1702628587
1702628588
图5–7 单纯的回归分析
1702628589
1702628590
如果想要根据这个条件对两所高中进行“公平的比较”,可以采用“假设这两所高中的男生全都是女生”这个方法(图5–8)。
1702628591
1702628592
1702628593
1702628594
1702628595
图5–8 假设男生全都是女生
1702628596
1702628597
这样一来,两所高中男生的分数都提高了15分,那么高中A的总体平均分就是75分,高中B的总体平均分是70分。也就是说,成功地避开了辛普森悖论,直接得到了“高中A的平均分比高中B平均分高5分”的结论(图5–9)。
1702628598
1702628599
1702628600
1702628601
1702628602
图5–9 假设男生全都是女生情况下的回归分析
1702628603
1702628604
像这样对不同性别导致的平均分差与所在高中不同导致的平均分差等多个回归系数同时进行推测的方法,被称为“多元回归分析”。如果能够推测出性别的不同会“造成平均分出现多少分差”,那么就算不对男生和女生进行分组仍然可以通过“假设男生全都是女生”的方法来实现“公平的比较”。
1702628605
1702628606
这就是利用多元回归实现公平的比较的例子。通过这种方法,不管增加多少条件,都没有进行庞大分组的必要了。
1702628607
1702628608
多个回归系数在假设“没有相乘效果”的前提下,表明了解释变量对结果变量会产生多大程度的影响。如果理解了这一点,那么诸位就可以在不借助任何帮助的前提下读懂学者的论文或者国家的政策报告了。
1702628609
1702628610
比如牛津大学的教授苅谷刚彦就在自己的著作《学力与阶层》一书中,介绍了他从1989~2001年间以大阪府下属的中小学校学生为对象,调查学生们的生活、学习习惯以及成绩,并且对这些数据进行多元回归分析之后所得出的结果。
1702628611
1702628612
在《学力与阶层》一书中,他详细叙述了调查的内容,比如说2001年中学生的数学正确率(即满分100分的得分)得出了如表5–6那样的多元回归分析结果,对于其中的意义想必大家也是一目了然。
1702628613
[
上一页 ]
[ :1.702628564e+09 ]
[
下一页 ]