打字猴:1.702647465e+09
1702647465 量化数据分析:通过社会研究检验想法 [:1702644771]
1702647466 量化数据分析:通过社会研究检验想法 将系数表示为总均值的偏差(多分类分析)
1702647467
1702647468 处理分类自变量的传统方法是像前一章所讲的那样:省略一个类别,将其余类别的系数解释为与被省略类别的期望值的偏差。有时候,特别是在有大量类别的时候,更加可取的方法是将系数表示为与因变量均值的偏差。利用下面的关系式,我们可以实现这种系数转换:
1702647469
1702647470
1702647471
1702647472
1702647473 这里,aij是第i个预测变量的第j个类别系数,表示为与因变量均值的偏差;bij是对应的与虚拟变量有关的系数;Qi是调整系数,它将每个自变量各类别系数的加权和限定为0;pij是所有属于第i个预测变量的第j个类别的样本比例(Andrews et al.,1973:45-47)。
1702647474
1702647475
1702647476
1702647477
1702647478 图7-9 控制受教育年限(12年)不变后,1996年“文化大革命”对中国成年人识字水平的影响的三个模型的图示(N=6086)
1702647479
1702647480
1702647481
1702647482
1702647483 图7-10 将图7-9的y轴变为全范围取值后的图示
1702647484
1702647485 为了了解这些系数是如何产生效果的,我们来考虑宗教派别和容忍度之间的关系。分析任务包括以下两个方面:·评估各宗教派别对反宗教行为的容忍度有什么差别以及有多大程度的差别;
1702647486
1702647487 ·评估观测到的宗教派别之间的差别在多大程度上可以归结为他们在受教 育程度和居住地上的差别,因为这些变量被认为会影响容忍度(受教育 程度越高的人和非南方居民比其他人群的容忍度高)。我从使用常规方法估计两个回归方程开始——一个方程只含表示宗教派别的虚拟变量,另一个方程在此基础上还包括了受教育程度和在南方居住这两个变量;我使用的是2000年、2002年和2004年的GSS合并数据,这样做的目的是增加样本量,因为某些宗教派别的人数太少,而容忍度问题每年又只问及一部分受访者。结果显示在表7-5的左边一栏。我接着用方程7.39将这些系数重新表示为与因变量均值的偏差,结果见表7-5中的右边一栏。
1702647488
1702647489 表7-5 2000~2004年美国成年人对无神论者容忍度的模型系数(N=3446)
1702647490
1702647491
1702647492
1702647493
1702647494 通常来说你们不需要同时报告两组系数,而应该选择其中一组——要么用虚拟变量表达,要么用多分类变量表达。我在这里之所以一起报告是为了让你们明白系数之间的关系。
1702647495
1702647496 请注意,系数之间的差在两种表达方式中是一样的。例如,在模型1中,卫理公会教徒和浸礼会教友在容忍度得分上的差异都是0.395=0.395-0=-0.027-(-0.422)。类似地,这两个宗教派别在模型2中的差别都是0.298=0.298-0=-0.010-(-0.398)。
1702647497
1702647498 经重新表达后的系数告诉了我们什么呢?我认为它们更容易解释。首先,考虑模型1。我们从此模型中看到,浸礼会教友的容忍度明显低于平均水平,而犹太教徒和不信教的群体的容忍度明显地高于平均水平,路德会教友和“其他宗教信仰群体”的容忍度只是略高于平均水平。但是,这些差异,尤其是犹太教徒较高的容忍度,在一定程度上可以被宗教派别之间在受教育程度和居住地域方面的差异所解释,因为总体上说,在控制了这两个变量以后各宗教派别的容忍度得分与样本总均值之间的偏差是下降的。
1702647499
1702647500 在控制了宗教派别和受教育程度之后,南方居民的容忍度在一定程度上低于平均水平,而非南方居民的容忍度则略高于平均水平。与南方居民相比,非南方居民的容忍度得分更接近于总均值。这其实是必然的,因为他们在人数上更多,而系数的加权平均之和又必须为0(权重其实就对应于每个组别在样本中的比例)。
1702647501
1702647502 各宗教派别的系数以及南方居民和非南方居民的系数有时被称为“调整后的组间差异”,这里的“调整”是指在模型中控制了其他变量。
1702647503
1702647504 受教育年限的斜率或系数不变,但对受教育年限变量的测度发生了变化。在新表达式(“MCA”)中,受教育年限被表示为与其均值的偏差——在这个例子中受教育年限的均值是13.4年。最后,新表达式中的截距项就是因变量(容忍度)的均值。
1702647505
1702647506
1702647507
1702647508
1702647509 量化数据分析:通过社会研究检验想法 [:1702644772]
1702647510 量化数据分析:通过社会研究检验想法 表示虚拟变量的其他方法
1702647511
1702647512 其他三种表示分类变量影响的方法有时也会有助于解释。其中的两个——效应编码(effect coding)和比较编码(contrast coding)——要求使用与传统虚拟变量编码不同的方法来表示分类类别〔见Cohen and Cohen(1975:172-210),Hardy(1993:64-75),以及Fox(1997:206-211)〕。第三种方法,我称它为序次效应(sequential effects),需要巧妙地处理输出格式。所有这些表达分类变量影响的替代方法都不会改变分类变量所解释的方差比例,即R2不受影响。它们所做的一切是将效应重新参数化,因此,使用其中任何一种方法的唯一理由是使我们对数据中的关系模式解释得更加清楚。
1702647513
1702647514 为了理解怎样使用这些替代方法,我们考虑一个新的研究问题——在美国职业和受教育年限对词汇知识的影响,使用的是1994年的GSS数据。GSS包括一项10个单词的测试、当前职业的详细分类,以及完成的受教育年限。出于此处使用例子的目的,我将详细的职业分类合并为四类:高级非体力(管理者和专业人员)、低级非体力(技术人员、销售职业、行政类职业)、高级体力(精密仪器生产、手工艺及维修类职业),以及低级体力(所有其他类别:服务类职业、农业类职业、操作员、装配工以及体力劳动者)。我期望的发现是,在控制了当前职业后,单词得分将随受教育年限的增加而增加。我还期望有一个更为有趣的发现,即在控制了受教育年限之后,单词得分随职业地位的上升而增加,也就是说,低级体力工人、高级体力工人、低级非体力人员以及高级非体力人员的平均单词得分将依次增加。其依据是,符号运用在工作中的作用或重要性随职业地位的上升而越来越大,因此,相比于地位较低的职业,语言能力在地位较高的职业中会得到特别强化和提高。(当然,在严谨的分析中,我还要考虑另外一种可能性,即具有同等受教育水平但语言能力更好的人更有可能获得地位较高的职业。)
[ 上一页 ]  [ :1.702647465e+09 ]  [ 下一页 ]