1702648910
尽管我们列举的有关共产主义者的民权的例子只包含二分变量,但对数线性分析同样适用于多分类变量分析。然而,在这种情况下,我们需要对每个多分类变量构造出乘积项,即要对用来代表这个变量的k个类别的k-1个虚拟变量都构造出乘积项。为了弄清楚如何操作,我们以表12-8为例,它是按种族[R]、受教育程度[S]和志愿者协会成员身份[M]这三个类别来划分的投票行为[V]的一个四维列联表频数分布〔即Knoke和Burke(1980)文章中的表3〕。投票行为、种族和成员身份是二分变量,而受教育程度是一个三分类变量,因此需要我们创建两个虚拟变量:S2(高中毕业=1,其他=0)和S3(至少是大学=1,其他=0),那些没有高中毕业文凭的是省略类别。
1702648911
1702648912
假设我们有兴趣估计一个种族、受教育程度和成员身份影响投票行为的模型,但就像前面的例子一样,我们在这里也不关心种族、受教育程度和成员身份之间的关系,因此我们设定一个三者的三维交互项,它可以使模型的这部分完全拟合。我们的模型是[VR][VS][VM][RSM](注意,这个模型与表12-6中模型8的相似点)。我们用-glm-命令识别此模型:
1702648913
1702648914
glm count r s2 s3 m rs2 rs3 rm s2m s3m rs2m rs3m v vr vs2 vs3 vm,family(poisson)
1702648915
1702648916
这里,每个合成变量都是一个乘积项——例如,rs2=r*s2,依此类推。(有关其他模型的识别和输出结果见下载文件“ch12_1.do”和“ch12_1.log”。特别要注意我们是如何使用Stata “macros”解决在执行很长的命令时出现的冗繁问题。使用“macros”也可以极大地降低出现错误的几率。)
1702648917
1702648918
对个体数据进行对数线性分析
1702648919
1702648920
到目前为止,我们已经知道如何对已有的表格数据进行对数线性分析。然而,我们更常遇到的是分析由抽样调查或普查中的个人记录构成的数据集。因此,我们需要找到一种对个体记录的数据进行分析的方法。这在Stata中很简单,使用-collapse-命令即可实现(下载文件“ch12_1.do”中有详细说明;也可参考“ch12_1.log”文件)。
1702648921
1702648922
表12-8 按照种族、受教育程度和志愿者协会成员身份划分的投票频数分布
1702648923
1702648924
1702648925
1702648926
1702648927
1702648928
1702648929
1702648931
量化数据分析:通过社会研究检验想法 简约模型
1702648932
1702648933
迄今为止,我们介绍了假设变量之间的各种组合存在全部相关或者部分相关的模型。然而,我们经常喜欢检验有关列联表结构的一些特殊假设,即表中的观测频数是否可以通过更简单的模型来描述。在过去30年左右,对这些模型的探索在研究职业代际流动领域非常活跃,其实这些模型也可以被应用到社会流动研究之外更广的领域(例如,Radelet and Pierce,1985;Schwartz and Mare,2005;Roberts and Chick,2007;Domanski,2008)。不过,在流动分析框架下来理解这些模型依然是最直观、最方便的(本章下面内容中模型估计的Stata程序详见下载文件“ch12_2.do”和“ch12_2.log”)。
1702648934
1702648935
为了有助于对后面内容的理解,我们首先介绍对数比率比表达式的推导。回想公式12.4,它将二维表中期望频数的自然对数表示成一个包含一组参数μ的方程。我们从公式12.4中看到,一张二维表中由任何一对行(i与i′)与列(j与j′)构成的四个单元格的期望频数的对数比率比可以表示成:
1702648936
1702648937
1702648938
1702648939
1702648940
当采用像Stata中-glm-命令那样的虚拟变量编码时,i′和j′被视作参照类。这样公式12.9的右边就被简化为μRCij,它清楚地表明交互项参数表示每个单元格相对于省略类别(通常是第一行与第一列)的对数比率比。
1702648941
1702648942
〔注意,要想唯一地识别系数,必须增加限制条件。这里有两种设立限制条件(或者称作“标准化”)的常见方法。一种是效应编码法(公式12.6和附录12.A中使用的方法)00,它将系数表示为总和的离差,并要求每个变量的对数形式的系数和为0。另一种方法被称作虚拟变量编码法,它是将每个变量的某一个类别编码为0(在Stata中默认变量的第一个类别被编码为0)。〕
1702648943
1702648944
在完全饱和模型中,如果使用虚拟变量编码法,除了处在第一行与第一列的单元格之外,表中每个单元格都有一个唯一的系数。此模型可以表示为下面的设计矩阵(design matrix)(7×7表):
1702648945
1702648946
1 1 1 1 1 1 1
1702648947
1702648948
1 2 3 4 5 6 7
1702648949
1702648950
1 8 9 10 11 12 13
1702648951
1702648952
1 14 15 16 17 18 19 =full_dm
1702648953
1702648954
1 20 21 22 23 24 25
1702648955
1702648956
1 26 27 28 29 30 31
1702648957
1702648958
1 32 33 34 35 36 37
1702648959
[
上一页 ]
[ :1.70264891e+09 ]
[
下一页 ]