1702646410
1702646411
删截分布影响的一个“真实数据”例子 多年以前,在分析Political Action:An Eight Nation Study,1973-1976(Barnes and Kaase,1979)中的美国样本时,我很疑惑地发现受教育年限和收入之间的相关性非常弱(不到0.1,但根据美国的许多调查数据,这两个变量的相关系数一般大约为0.3)。在仔细检查之后我发现,受教育年限和收入这两个变量分布的尾端被严重删截了,可能是抽样或调查工作过程中的疏忽造成的。当数据被加权以再现1980年美国人口普查(这是在年份上最接近该项目的普查数据)所观察到的受教育年限和收入的双变量分布时,估计得到的相关性就与美国调查数据所发现的十分接近了。
1702646412
1702646413
向均值回归
1702646414
1702646415
因为众所周知的“向均值回归”(regression toward the mean)现象,删截的后果实际上比刚才提到的还要糟糕。当在不同的时点进行两次测量时,例如一个随机实验中的前测和后测,或者是GRE前后两次考试的成绩,我们会观察到,第一次观测获得高分的样本平均来说会在第二次观测时获得较低的分数,而第一次观测获得低分的样本会在第二次观测时获得较高的分数。也就是说,高分和低分都趋向于均值(或“向均值回归”)。即使两次测量的真值(true value)并没有变化,也会发生这种情况。
1702646416
1702646417
其原因是,观察到的测量包括两部分:真实值和真实值的测量误差部分。以GRE成绩为例,每个人的观测分数可被看作包括两部分:一部分测量了应试者完成测试所测出的某种工作的“真实的”(或基本的、不变的)能力;另一部分是随机项,由测试中所问到的具体问题、应试者的精力水平和思维活跃程度以及自信心等构成(Steele,1997)。因此它服从这样的规律:在任何给定的测试中,得分高的人更多的是那些具有高正向随机因素的人,而得分低的人更多的是具有低随机因素的人。但是,因为第二部分是随机的,在第一次测试中具有高随机因素的人平均来说会在第二次测试中具有较低的随机因素,而在第一次测试中具有低随机因素的人平均来说会在第二次测试中具有较高的随机因素。结果是,两次测试的相关性并不太完美,而且两次测试的回归系数也会小于1.0。即使两次测试的均值和标准差完全相同,也会出现这种情况。
1702646418
1702646419
此结果的一种重要含义是,研究者如果致力于对低分组(在GRE模拟测试中得分低的人,或者平均成绩低的人,等等)进行特别干预,必然会得出干预是成功的这一错误结论。当然,如果这位研究者选择高分组来做同样的干预,他/她就会被迫得出干预是完全不成功的结论——这的确是事与愿违的。所有这些都是分析原始样本的一个非随机子集而自然产生的结果。
1702646420
1702646421
与此完全相同的现象是,测量误差的存在会降低不同现象之间的相关性,例如,受教育年限和收入,父亲的身高和儿子的身高,等等。正是这种现象使Francis Galton(相关和回归分析的奠基者之一)在19世纪晚期得出结论说,代际传递的一种自然现象是向“平常”(状态)“恢复”(或“回归”)——于是,“回归分析”这一术语就被用来描述此处所讨论的线性预测方法。但Galton没有注意到的是,出于完全相同的原因,接近均值的数值也有一个离开均值的趋势。结果是,预测(predicted)〔而不是观测(observed)〕值的方差和回归线的斜率相应地减少,其减少程度与变量之间的相关性和1之间的差值(即1-相关系数——译者注)成一定比例〔有一本书专门讨论这个主题,见Campbell和Kenney(1999)〕。
1702646422
1702646423
汇总
1702646424
1702646425
1702646426
1702646427
花时间研究过个体行为的学生经常会得出结论说:我们生活在一个随机的世界里,这里根本不存在非常相关的事情。例如,在美国收入只有约10%的方差可以被受教育年限的方差解释()。因此,当学生发现由汇总数据计算得到的看起来类似的相关性一般会大得多的时候,他们就会感到困惑。例如,使用美国普查局的详细职业分类,(在每一类别中人们的)平均受教育年限和平均收入之间的相关就比较大()。为什么会这样?原因很简单。当相关是用平均值或其他概括性指标来计算时,大量的个体变异会被“平均掉”(average out)。在极端情况下,即只有两个汇总类别时,两个类别均值之间的相关必定为1.0,就像你们在图5-7中看到的那样(大圆表示女性的平均身高和体重,大三角表示男性的平均身高和体重);这里所讲的道理也同样适用于两个以上的类别。
1702646428
1702646429
1702646430
1702646431
1702646432
图5-7 汇总对相关的影响
1702646433
1702646434
1702646435
1702646436
1702646438
量化数据分析:通过社会研究检验想法 相关比率
1702646439
1702646440
到目前为止,我们一直在讨论只有两个间距或比率变量的情形。然而,有时候我们想评估一个分类变量和一个间距或比率变量之间的关联程度。例如,我们可能想知道不同的宗教信仰群体对堕胎的态度是否存在差异;或者,我们对各种族的平均收入是否存在差异感兴趣。回答这些问题的显而易见的方法是,计算各宗教群体在对堕胎的态度指标上的平均得分或各种族的平均收入。但是,如果发现均值之间存在很大的差异,那么我们会继续问:它们之间的关联强度如何呢?为了回答此问题,我们可以计算一个类似于相关系数(的平方)的指标——称为相关比率(correlation ratio)(的平方)——η2。η2被定义为:
1702646441
1702646442
1702646443
1702646444
1702646445
1702646446
1702646447
这里,Y是因变量,有j组,且每组中有i个样本。因此,是第j组Y的均值,是Y的总均值。显然,从公式5.9可以看出,如果所有组在因变量上的均值都相同,那么知道某个样本落在哪一组没有任何意义;且围绕组均值的方差等于围绕总均值的方差,因而η2=0。另一种极端情况是,如果各组之间的均值不同,且如果每组内的所有样本在因变量上的取值都相同——没有组内方差,那么组内平方和与总平方和之比为0,因而η2=1。从这里可以看出,像r2一样,η2是一个方差比例削减(proportional reduction in variance)指标。
1702646448
1702646449
让我们用实际数据来考察宗教派别和对堕胎的态度之间的关系这一例子。2006年,GSS问了7个在各种情况下的对堕胎的态度问题(其实这些问题在1972年以来的许多年份都问了):
1702646450
1702646451
……妇女是否可以接受合法的堕胎……
1702646452
1702646453
·如果胎儿很可能存在严重的缺陷?
1702646454
1702646455
·如果她已婚但不想要更多的孩子?
1702646456
1702646457
·如果妇女自身的健康因怀孕受到严重伤害?
1702646458
1702646459
·如果家庭收入很低而不能抚养更多的孩子?
[
上一页 ]
[ :1.70264641e+09 ]
[
下一页 ]