1702646721
量化数据分析:通过社会研究检验想法 虚拟变量
1702646722
1702646723
我们经常要分析诸如宗教派别、婚姻状态或政党成员身份等分类变量对一些结果变量的作用。此外,我们往往想同时分析间距变量和分类变量,以研究在控制了另一个变量后某个变量的影响。因此,我们需要一种将分类变量纳入回归框架的方法。
1702646724
1702646725
为了知道如何做到这一点,让我们再来看第5章最后一节讨论过的相关比率问题。回想我们当时感兴趣的是宗教派别和接受堕胎之间的关系,我们使用2006年综合社会调查(General Social Survey,GSS)的数据,通过估计4个宗教信仰群体(新教徒、天主教徒、犹太教徒以及其他宗教信仰群体或不信教的群体)中的每个群体对一份有7个题项的量表的正向(接受)应答的平均数来分析此问题。这里,我们继续探讨一个类似的问题,但这次使用的数据来自1974年的GSS,因为这一年的结果更为清晰,因此更适合对方法进行讲解(作为练习,你们可以用2006年的数据进行同样的分析)。我们首先将宗教派别变量变换为一组四个二分变量,每个二分变量对应于一个宗教信仰群体,若某人信仰该宗教则该变量赋值为1,否则为0。这样我们就定义了一组新变量(见可下载的-do-或-log-文件):
1702646726
1702646727
如果受访者信仰新教,则R1=1,否则R1=0
1702646728
1702646729
如果受访者信仰天主教,则R2=1,否则R2=0
1702646730
1702646731
如果受访者信仰犹太教,则R3=1,否则R3=0
1702646732
1702646733
如果受访者信仰其他宗教、不信教或没有回答,则R4=1,否则R4=0
1702646734
1702646735
这类变量被称为二分变量或虚拟变量。使用这些变量,我们就能够估计下面形式的多元回归方程:
1702646736
1702646737
1702646738
1702646739
1702646740
这里,A是“赞同”式应答的数量,即认为在该种情况下应该允许合法堕胎(在1974年询问了6个此类问题,因此度量范围为0~6),Ri在上一段已经被设定了。
1702646741
1702646742
注意,有必要在回归方程中省略一个分类变量以避免线性依赖(即任何一个自变量完全是其他自变量的函数的情况);由于虚拟变量的设置方式(即对每个人来说,其中一个变量被赋值为1,其余变量为0),所以除一个虚拟变量外,知道所有其他虚拟变量的值就可以准确预测这个虚拟变量的取值。在这种情况下,OLS方程不能被估计。我们应该省略任一类别。但是,正如我们将看到的,因为方程中虚拟变量的系数被解释为相对省略的或参照类别的偏离,所以最好是基于实际情况选择参照类别,即选择研究者想与其他类别比较的类别。这个根据实际判断的准则的唯一例外是,太小的类别不应该被选作省略类别,因为这样做会在剩余类别中导致线性依赖,使系数的数值估计不稳定。
1702646743
1702646744
估计方程6.10,我们得到:
1702646745
1702646746
1702646747
1702646748
1702646749
现在,让我们计算每个类别的预测值:
1702646750
1702646751
对新教徒:
1702646752
1702646753
1702646754
1702646755
1702646756
对天主教徒:
1702646757
1702646758
1702646759
1702646760
1702646761
对犹太教徒:
1702646762
1702646763
1702646764
1702646765
1702646766
对其他宗教信仰群体和不信教的群体:
1702646767
1702646768
1702646769
[
上一页 ]
[ :1.70264672e+09 ]
[
下一页 ]