1702647510
量化数据分析:通过社会研究检验想法 表示虚拟变量的其他方法
1702647511
1702647512
其他三种表示分类变量影响的方法有时也会有助于解释。其中的两个——效应编码(effect coding)和比较编码(contrast coding)——要求使用与传统虚拟变量编码不同的方法来表示分类类别〔见Cohen and Cohen(1975:172-210),Hardy(1993:64-75),以及Fox(1997:206-211)〕。第三种方法,我称它为序次效应(sequential effects),需要巧妙地处理输出格式。所有这些表达分类变量影响的替代方法都不会改变分类变量所解释的方差比例,即R2不受影响。它们所做的一切是将效应重新参数化,因此,使用其中任何一种方法的唯一理由是使我们对数据中的关系模式解释得更加清楚。
1702647513
1702647514
为了理解怎样使用这些替代方法,我们考虑一个新的研究问题——在美国职业和受教育年限对词汇知识的影响,使用的是1994年的GSS数据。GSS包括一项10个单词的测试、当前职业的详细分类,以及完成的受教育年限。出于此处使用例子的目的,我将详细的职业分类合并为四类:高级非体力(管理者和专业人员)、低级非体力(技术人员、销售职业、行政类职业)、高级体力(精密仪器生产、手工艺及维修类职业),以及低级体力(所有其他类别:服务类职业、农业类职业、操作员、装配工以及体力劳动者)。我期望的发现是,在控制了当前职业后,单词得分将随受教育年限的增加而增加。我还期望有一个更为有趣的发现,即在控制了受教育年限之后,单词得分随职业地位的上升而增加,也就是说,低级体力工人、高级体力工人、低级非体力人员以及高级非体力人员的平均单词得分将依次增加。其依据是,符号运用在工作中的作用或重要性随职业地位的上升而越来越大,因此,相比于地位较低的职业,语言能力在地位较高的职业中会得到特别强化和提高。(当然,在严谨的分析中,我还要考虑另外一种可能性,即具有同等受教育水平但语言能力更好的人更有可能获得地位较高的职业。)
1702647515
1702647516
表达上述假设的传统方法是估计下面形式的方程:
1702647517
1702647518
1702647519
1702647520
1702647521
这里,V是单词得分,E是完成的受教育年限,Oi是职业类别,即对低级体力工人来说,O1=1,否则,O1=0……对于高级非体力人员来说,O4=1,否则,O4=0。表7-6最上面一栏给出的传统虚拟变量编码的“设计矩阵”(也被称为“模型矩阵”)表示每个职业类别各自的效应;得到的系数见表7-7。
1702647522
1702647523
正如你们所见,并没有出现令人感到意外的结果。正如所期望的,词汇知识随受教育年限的增加而增长,也随职业地位的上升而单调递增。我们现在看一下如何用其他方法来表示职业地位的效应——这些方法在数学上都是等价的。
1702647524
1702647525
表7-6 分类变量几种编码方法的设计矩阵(详细内容见正文)
1702647526
1702647527
1702647528
1702647529
1702647530
表7-7 1994年美国成年人词汇知识决定模型的系数(N=1757;R2=0.2445;分类变量系数都等于0的Wald检验:F(3,1752)=12.48;p<0.0000)
1702647531
1702647532
1702647533
1702647534
1702647535
续表
1702647536
1702647537
1702647538
1702647539
1702647540
效应编码
1702647541
1702647542
有一种编码方法可以突出每个职业类别的效应,这可以通过与所有职业类别的未加权平均效应相比较来体现。如果我们在模型中只纳入一个分类变量,由一组k-1个三分变量表示,对每一个三分变量,用-1表示省略类别,1表示第i个类别,其余编码为0(参见表7-6的中间一栏),得到的回归系数就是某一类别在因变量上的均值与所有类别的未加权平均值之差,即:
1702647543
1702647544
1702647545
1702647546
1702647547
1702647548
也是方程的截距项。省略类别的系数就是纳入方程的k-1个类别系数总和的负数,在当前应用高速计算机的时代,一般很容易改变省略类别。当回归方程中包括其他变量时,同样的关系仍然适用,只是我们现在得到的是调整后的均值而不是实际均值。
1702647549
1702647550
前面说过,得到这种结果的分类变量的编码方法见表7-6。一如以往,我们用k-1个变量来代表k个类别。参照类别在所有的指示变量(即用来表示某分类变量的一组变量)上都被编码为-1。为了在参照类别和每个其他类别之间进行比较,这些类别在指示变量上被相继编码为1和0,同时使这些类别的影响最小。
1702647551
1702647552
查看表7-7中的系数一栏,我们看到四个职业类别均值的未加权平均值是2.48,且在控制了受教育年限后,低级体力工人的单词得分显著地低于平均值,高级体力工人的单词得分稍低于平均得分,低级非体力人员的单词得分稍高于平均得分,高级非体力人员的单词得分显著地高于平均得分。请注意,在两个参数化方法中职业类别之间的差别是一致的(不计四舍五入误差),且受教育年限的效应和R2都不受影响。当分类变量包含大量类别而没有哪一个是特别有价值的参照类别时,这种新的参数化方法就可能是最有用的。同时还要注意此参数化方法与前一节所讨论的方法之间的不同,那种方法将系数表示为与各类别均值的加权平均值的偏差,但这里的系数表示的是与未加权平均值的偏差。两种方法都对,并且每种方法在特定的情况下都很有用。
1702647553
1702647554
比较编码
1702647555
1702647556
我们有时候想比较变量类别之间的效应。例如,我们或许想比较非体力人员和体力工人,然后比较两个非体力类别和两个体力类别。我们可以通过构建各类别均值的一系列比较来实现这一想法,即我们构建下面形式的一系列比较:
1702647557
1702647558
[
上一页 ]
[ :1.702647509e+09 ]
[
下一页 ]