打字猴:1.70264642e+09
1702646420
1702646421 与此完全相同的现象是,测量误差的存在会降低不同现象之间的相关性,例如,受教育年限和收入,父亲的身高和儿子的身高,等等。正是这种现象使Francis Galton(相关和回归分析的奠基者之一)在19世纪晚期得出结论说,代际传递的一种自然现象是向“平常”(状态)“恢复”(或“回归”)——于是,“回归分析”这一术语就被用来描述此处所讨论的线性预测方法。但Galton没有注意到的是,出于完全相同的原因,接近均值的数值也有一个离开均值的趋势。结果是,预测(predicted)〔而不是观测(observed)〕值的方差和回归线的斜率相应地减少,其减少程度与变量之间的相关性和1之间的差值(即1-相关系数——译者注)成一定比例〔有一本书专门讨论这个主题,见Campbell和Kenney(1999)〕。
1702646422
1702646423 汇总
1702646424
1702646425
1702646426
1702646427 花时间研究过个体行为的学生经常会得出结论说:我们生活在一个随机的世界里,这里根本不存在非常相关的事情。例如,在美国收入只有约10%的方差可以被受教育年限的方差解释()。因此,当学生发现由汇总数据计算得到的看起来类似的相关性一般会大得多的时候,他们就会感到困惑。例如,使用美国普查局的详细职业分类,(在每一类别中人们的)平均受教育年限和平均收入之间的相关就比较大()。为什么会这样?原因很简单。当相关是用平均值或其他概括性指标来计算时,大量的个体变异会被“平均掉”(average out)。在极端情况下,即只有两个汇总类别时,两个类别均值之间的相关必定为1.0,就像你们在图5-7中看到的那样(大圆表示女性的平均身高和体重,大三角表示男性的平均身高和体重);这里所讲的道理也同样适用于两个以上的类别。
1702646428
1702646429
1702646430
1702646431
1702646432 图5-7 汇总对相关的影响
1702646433
1702646434
1702646435
1702646436
1702646437 量化数据分析:通过社会研究检验想法 [:1702644754]
1702646438 量化数据分析:通过社会研究检验想法 相关比率
1702646439
1702646440 到目前为止,我们一直在讨论只有两个间距或比率变量的情形。然而,有时候我们想评估一个分类变量和一个间距或比率变量之间的关联程度。例如,我们可能想知道不同的宗教信仰群体对堕胎的态度是否存在差异;或者,我们对各种族的平均收入是否存在差异感兴趣。回答这些问题的显而易见的方法是,计算各宗教群体在对堕胎的态度指标上的平均得分或各种族的平均收入。但是,如果发现均值之间存在很大的差异,那么我们会继续问:它们之间的关联强度如何呢?为了回答此问题,我们可以计算一个类似于相关系数(的平方)的指标——称为相关比率(correlation ratio)(的平方)——η2。η2被定义为:
1702646441
1702646442
1702646443
1702646444
1702646445
1702646446
1702646447 这里,Y是因变量,有j组,且每组中有i个样本。因此,是第j组Y的均值,是Y的总均值。显然,从公式5.9可以看出,如果所有组在因变量上的均值都相同,那么知道某个样本落在哪一组没有任何意义;且围绕组均值的方差等于围绕总均值的方差,因而η2=0。另一种极端情况是,如果各组之间的均值不同,且如果每组内的所有样本在因变量上的取值都相同——没有组内方差,那么组内平方和与总平方和之比为0,因而η2=1。从这里可以看出,像r2一样,η2是一个方差比例削减(proportional reduction in variance)指标。
1702646448
1702646449 让我们用实际数据来考察宗教派别和对堕胎的态度之间的关系这一例子。2006年,GSS问了7个在各种情况下的对堕胎的态度问题(其实这些问题在1972年以来的许多年份都问了):
1702646450
1702646451 ……妇女是否可以接受合法的堕胎……
1702646452
1702646453 ·如果胎儿很可能存在严重的缺陷?
1702646454
1702646455 ·如果她已婚但不想要更多的孩子?
1702646456
1702646457 ·如果妇女自身的健康因怀孕受到严重伤害?
1702646458
1702646459 ·如果家庭收入很低而不能抚养更多的孩子?
1702646460
1702646461 ·如果她是被强奸而怀孕的?
1702646462
1702646463 ·如果她未婚且不想同那个男人结婚?
1702646464
1702646465 ·如果她无论何种原因都想堕胎?
1702646466
1702646467 在排除了所有缺失数据后,我根据对这些题项的肯定应答的数量构建了一种测度。该测度的取值范围在0~7之间。表5-1给出了各宗教群体中肯定应答数量的平均值。除了信奉新教、天主教或犹太教的人之外,那些信奉其他宗教的人或者回答说他们不信教的人都被归入“其他宗教或不信教”这个类别。从表5-1中可以看出,犹太教徒和其他非基督教徒比基督教徒(包括新教徒和天主教徒)更容易接受堕胎。但是,在解释对堕胎的态度这一点上宗教的重要性如何呢?为了回答此问题,我们通过计算得到η2=0.070。(创建表5-1和得到η2的Stata计算程序见本章的-do-和-log-下载文件。)
1702646468
1702646469 表5-1 2006年美国成年人分宗教派别对堕胎的态度测量(范围:0~7)做出肯定回答数的平均值
[ 上一页 ]  [ :1.70264642e+09 ]  [ 下一页 ]