1702628551
总得分 12 600 13 400 人数 200 200 平均分 63 67 在表5–5所示的情况下,高中A男生的总得分为9 600分,除以男生人数160得到的平均分为60分。女生的总得分为3 000分,除以女生人数40得到的平均分为75分。因此,高中A的男女合计平均分为(9 600+3 000)÷(160+40)=63分。而通过同样的计算,得出高中B男女合计的平均分为67分。
1702628552
1702628553
从表上的数据可以看出,高中A的男生平均分和女生平均分确实都要高于高中B,与之前提出的问题条件相一致。可是,因为男生与女生的平均分不同,而且高中A与高中B的男女学生比例不同,所以全校平均分反倒是高中B比高中A多出4分。
1702628554
1702628555
像这样全体进行的单纯比较与内部小群体进行的比较结果相矛盾的情况,就是辛普森提出的问题所在。在没有进行随机化的流行病学观察研究中,即便通过单纯的比较发现了巨大的差异,也很有可能是和高中A与高中B的男女平均分差距一样的“细节”差异。相反的,即便在单纯的比较中没有发现什么差异,却有可能在“细节”上隐藏着真正的区别。
1702628556
1702628557
比如在前文中提到过的“玩暴力游戏与少年犯罪率”之间的因果关系。将家庭环境这一“细节”算在内进行比较并没有明显的区别,但是如果玩暴力游戏的分组中家庭环境不好的孩子占多数,那么在数据上就会出现玩暴力游戏的孩子的犯罪率更高的结果。
1702628558
1702628559
分组分析能够防止辛普森悖论产生吗
1702628560
1702628561
要想防止辛普森悖论,就需要像流行病学的观察研究那样保证条件的一致性。将高中A和高中B的学生的成绩按照男女性别分组,或者将玩暴力游戏的孩子按照家庭环境分组,只要将对结果可能产生影响的条件保持一致进行比较,就能够避免辛普森悖论的产生。这种将具有同样条件的群体进行比较分析的方法,被称为分组分析。
1702628562
1702628563
这种思考方法基本上是正确的。但是当“影响结果的条件”越来越多时,这种方法就会逐渐变得不那么可靠。
1702628564
1702628565
为了解释为什么会出现上述的这种情况,让我们来分析一下在对高中A和高中B的成绩进行对比时,除了学生性别之外还应该考虑什么条件。
1702628566
1702628567
比如说,①参加什么社团活动(运动部、文化部、不参加),②是否参加补习班(是、否),③家庭环境(按照家长的年收入分成3个层次),那么为了满足上述所有条件,我们需要将全体学生分为几组呢?
1702628568
1702628569
答案如下:
1702628570
1702628571
2(性别)×3(社团活动)×2(是否参加补习班)×3(家长年收入)=36
1702628572
1702628573
也就是说,要想保证上述条件完全一致的话,我们需要将学生分成36组。
1702628574
1702628575
那么,这两所学校中符合分组条件的学生又有多少呢?假设符合每个条件的学生数量大致相同,那么每一组就应该有200÷36=5.556,也就相当于每组只有五六个人。同时,由于两所学校的男女比例差都很大,比如高中A需要将40名女生分成18组,那么平均每组就只有两三个人。如此少的人数,不管进行怎样的分析得出怎样的结果,都逃不出误差的范围。
1702628576
1702628577
不需要分组的多元回归分析
1702628578
1702628579
面对这样的问题,多元回归分析就会发挥出威力。在“保证条件相同”的基础上更进一步,只要确定“不同性别学生的平均分相差多少”,就可以不必进行任何的分组。接下来让我们对这种思考方法进行详细的解说。
1702628580
1702628581
假设不考虑性别,对高中A与高中B的平均分进行比较的话,就像图5–7那样进行回归分析即可。相信掌握了上一节内容的读者对这部分是一目了然的。浅色的圆点是男生的平均分,深色的圆点是女生的平均分,圆点的大小代表各自学生的人数,×表示的是两个高中各自的平均分(两所学校的平均分都比较靠近人数较多的性别),穿过×的直线的斜率就是“两所学校平均分的差”。在这种情况下,斜率越向右上攀升,高中B的平均分比高中A的平均分越高。
1702628582
1702628583
如果考虑性别的话,情况又会怎样呢?比如说,高中A和高中B都是女生的平均分要高出15分,应该如何利用这个条件呢?
1702628584
1702628585
1702628586
1702628587
1702628588
图5–7 单纯的回归分析
1702628589
1702628590
如果想要根据这个条件对两所高中进行“公平的比较”,可以采用“假设这两所高中的男生全都是女生”这个方法(图5–8)。
1702628591
1702628592
1702628593
1702628594
1702628595
图5–8 假设男生全都是女生
1702628596
1702628597
这样一来,两所高中男生的分数都提高了15分,那么高中A的总体平均分就是75分,高中B的总体平均分是70分。也就是说,成功地避开了辛普森悖论,直接得到了“高中A的平均分比高中B平均分高5分”的结论(图5–9)。
1702628598
1702628599
1702628600
[
上一页 ]
[ :1.702628551e+09 ]
[
下一页 ]