1702646400
删截
1702646401
1702646402
研究者有时试图基于自变量或因变量或与自变量/因变量密切相关的变量的取值将他们的研究总体进行分组。例如,如果一名研究者推测收入在非体力职业中比在体力职业中更多地取决于受教育年限,他/她可能试图通过分别在非体力工人和体力工人这两个群体中考察受教育年限与收入的相关性来检验这一假设。这个想法并不好,因为收入与职业地位相关;因此,在其他因素不变的情况下,根据职业地位对总体进行分组将会删截因变量的分布,因而会减弱相关性。此外,如果其中一组(例如体力工人)的收入方差比另一组(例如非体力工人)小(这在大多数社会中都可能是真的),相关性被减弱的程度在体力工人组中比在非体力工人组中会更严重,因而导致研究者错误地相信假设被证实了。
1702646403
1702646404
要了解这一点,请看图5-6所示的一个高度简化的例子。为了使例子更简单,设想样本中所有体力工人的受教育年限都在7年以下,而所有非体力工人的受教育年限都在7年以上。注意,在此例中,受教育年限每多一年所带来的收入回报在非体力工人和体力工人中是完全相同的,每个数据点与回归线之间的距离也是相同的。现在,假设分别对体力工人和非体力工人计算收入和受教育年限之间的相关性。在两个群体中分别得到的相关系数会比从总体样本中计算得出的相关系数小,且体力工人组的相关系数比非体力工人组的相关系数小。原因可追溯到公式5.5,在此处所举的例子中,围绕回归线的方差在三组中都是相同的,但就围绕因变量均值的方差来说,非体力工人组要小于总体样本,且体力工人组要小于非体力工人组。尽管为了表达清楚,例子是高度简化的,但此处要说明的道理却具有普遍性:当分布被删截时,相关性会减弱。顺便说一句,这正是GRE成绩并不能很好地用来预测学生在研究生院课程上得分高低的主要原因:研究生院不录取GRE成绩太低的学生,因此删截了GRE成绩的分布。但是,这并不意味着像不懂统计的教授们时不时所主张的那样在录取过程中可以忽略GRE成绩。
1702646405
1702646406
1702646407
1702646408
1702646409
图5-6 删截分布减弱相关性
1702646410
1702646411
删截分布影响的一个“真实数据”例子 多年以前,在分析Political Action:An Eight Nation Study,1973-1976(Barnes and Kaase,1979)中的美国样本时,我很疑惑地发现受教育年限和收入之间的相关性非常弱(不到0.1,但根据美国的许多调查数据,这两个变量的相关系数一般大约为0.3)。在仔细检查之后我发现,受教育年限和收入这两个变量分布的尾端被严重删截了,可能是抽样或调查工作过程中的疏忽造成的。当数据被加权以再现1980年美国人口普查(这是在年份上最接近该项目的普查数据)所观察到的受教育年限和收入的双变量分布时,估计得到的相关性就与美国调查数据所发现的十分接近了。
1702646412
1702646413
向均值回归
1702646414
1702646415
因为众所周知的“向均值回归”(regression toward the mean)现象,删截的后果实际上比刚才提到的还要糟糕。当在不同的时点进行两次测量时,例如一个随机实验中的前测和后测,或者是GRE前后两次考试的成绩,我们会观察到,第一次观测获得高分的样本平均来说会在第二次观测时获得较低的分数,而第一次观测获得低分的样本会在第二次观测时获得较高的分数。也就是说,高分和低分都趋向于均值(或“向均值回归”)。即使两次测量的真值(true value)并没有变化,也会发生这种情况。
1702646416
1702646417
其原因是,观察到的测量包括两部分:真实值和真实值的测量误差部分。以GRE成绩为例,每个人的观测分数可被看作包括两部分:一部分测量了应试者完成测试所测出的某种工作的“真实的”(或基本的、不变的)能力;另一部分是随机项,由测试中所问到的具体问题、应试者的精力水平和思维活跃程度以及自信心等构成(Steele,1997)。因此它服从这样的规律:在任何给定的测试中,得分高的人更多的是那些具有高正向随机因素的人,而得分低的人更多的是具有低随机因素的人。但是,因为第二部分是随机的,在第一次测试中具有高随机因素的人平均来说会在第二次测试中具有较低的随机因素,而在第一次测试中具有低随机因素的人平均来说会在第二次测试中具有较高的随机因素。结果是,两次测试的相关性并不太完美,而且两次测试的回归系数也会小于1.0。即使两次测试的均值和标准差完全相同,也会出现这种情况。
1702646418
1702646419
此结果的一种重要含义是,研究者如果致力于对低分组(在GRE模拟测试中得分低的人,或者平均成绩低的人,等等)进行特别干预,必然会得出干预是成功的这一错误结论。当然,如果这位研究者选择高分组来做同样的干预,他/她就会被迫得出干预是完全不成功的结论——这的确是事与愿违的。所有这些都是分析原始样本的一个非随机子集而自然产生的结果。
1702646420
1702646421
与此完全相同的现象是,测量误差的存在会降低不同现象之间的相关性,例如,受教育年限和收入,父亲的身高和儿子的身高,等等。正是这种现象使Francis Galton(相关和回归分析的奠基者之一)在19世纪晚期得出结论说,代际传递的一种自然现象是向“平常”(状态)“恢复”(或“回归”)——于是,“回归分析”这一术语就被用来描述此处所讨论的线性预测方法。但Galton没有注意到的是,出于完全相同的原因,接近均值的数值也有一个离开均值的趋势。结果是,预测(predicted)〔而不是观测(observed)〕值的方差和回归线的斜率相应地减少,其减少程度与变量之间的相关性和1之间的差值(即1-相关系数——译者注)成一定比例〔有一本书专门讨论这个主题,见Campbell和Kenney(1999)〕。
1702646422
1702646423
汇总
1702646424
1702646425
1702646426
1702646427
花时间研究过个体行为的学生经常会得出结论说:我们生活在一个随机的世界里,这里根本不存在非常相关的事情。例如,在美国收入只有约10%的方差可以被受教育年限的方差解释()。因此,当学生发现由汇总数据计算得到的看起来类似的相关性一般会大得多的时候,他们就会感到困惑。例如,使用美国普查局的详细职业分类,(在每一类别中人们的)平均受教育年限和平均收入之间的相关就比较大()。为什么会这样?原因很简单。当相关是用平均值或其他概括性指标来计算时,大量的个体变异会被“平均掉”(average out)。在极端情况下,即只有两个汇总类别时,两个类别均值之间的相关必定为1.0,就像你们在图5-7中看到的那样(大圆表示女性的平均身高和体重,大三角表示男性的平均身高和体重);这里所讲的道理也同样适用于两个以上的类别。
1702646428
1702646429
1702646430
1702646431
1702646432
图5-7 汇总对相关的影响
1702646433
1702646434
1702646435
1702646436
1702646438
量化数据分析:通过社会研究检验想法 相关比率
1702646439
1702646440
到目前为止,我们一直在讨论只有两个间距或比率变量的情形。然而,有时候我们想评估一个分类变量和一个间距或比率变量之间的关联程度。例如,我们可能想知道不同的宗教信仰群体对堕胎的态度是否存在差异;或者,我们对各种族的平均收入是否存在差异感兴趣。回答这些问题的显而易见的方法是,计算各宗教群体在对堕胎的态度指标上的平均得分或各种族的平均收入。但是,如果发现均值之间存在很大的差异,那么我们会继续问:它们之间的关联强度如何呢?为了回答此问题,我们可以计算一个类似于相关系数(的平方)的指标——称为相关比率(correlation ratio)(的平方)——η2。η2被定义为:
1702646441
1702646442
1702646443
1702646444
1702646445
1702646446
1702646447
这里,Y是因变量,有j组,且每组中有i个样本。因此,是第j组Y的均值,是Y的总均值。显然,从公式5.9可以看出,如果所有组在因变量上的均值都相同,那么知道某个样本落在哪一组没有任何意义;且围绕组均值的方差等于围绕总均值的方差,因而η2=0。另一种极端情况是,如果各组之间的均值不同,且如果每组内的所有样本在因变量上的取值都相同——没有组内方差,那么组内平方和与总平方和之比为0,因而η2=1。从这里可以看出,像r2一样,η2是一个方差比例削减(proportional reduction in variance)指标。
1702646448
1702646449
让我们用实际数据来考察宗教派别和对堕胎的态度之间的关系这一例子。2006年,GSS问了7个在各种情况下的对堕胎的态度问题(其实这些问题在1972年以来的许多年份都问了):
[
上一页 ]
[ :1.7026464e+09 ]
[
下一页 ]