打字猴:1.70264893e+09
1702648930 量化数据分析:通过社会研究检验想法 [:1702644805]
1702648931 量化数据分析:通过社会研究检验想法 简约模型
1702648932
1702648933 迄今为止,我们介绍了假设变量之间的各种组合存在全部相关或者部分相关的模型。然而,我们经常喜欢检验有关列联表结构的一些特殊假设,即表中的观测频数是否可以通过更简单的模型来描述。在过去30年左右,对这些模型的探索在研究职业代际流动领域非常活跃,其实这些模型也可以被应用到社会流动研究之外更广的领域(例如,Radelet and Pierce,1985;Schwartz and Mare,2005;Roberts and Chick,2007;Domanski,2008)。不过,在流动分析框架下来理解这些模型依然是最直观、最方便的(本章下面内容中模型估计的Stata程序详见下载文件“ch12_2.do”和“ch12_2.log”)。
1702648934
1702648935 为了有助于对后面内容的理解,我们首先介绍对数比率比表达式的推导。回想公式12.4,它将二维表中期望频数的自然对数表示成一个包含一组参数μ的方程。我们从公式12.4中看到,一张二维表中由任何一对行(i与i′)与列(j与j′)构成的四个单元格的期望频数的对数比率比可以表示成:
1702648936
1702648937
1702648938
1702648939
1702648940 当采用像Stata中-glm-命令那样的虚拟变量编码时,i′和j′被视作参照类。这样公式12.9的右边就被简化为μRCij,它清楚地表明交互项参数表示每个单元格相对于省略类别(通常是第一行与第一列)的对数比率比。
1702648941
1702648942 〔注意,要想唯一地识别系数,必须增加限制条件。这里有两种设立限制条件(或者称作“标准化”)的常见方法。一种是效应编码法(公式12.6和附录12.A中使用的方法)00,它将系数表示为总和的离差,并要求每个变量的对数形式的系数和为0。另一种方法被称作虚拟变量编码法,它是将每个变量的某一个类别编码为0(在Stata中默认变量的第一个类别被编码为0)。〕
1702648943
1702648944 在完全饱和模型中,如果使用虚拟变量编码法,除了处在第一行与第一列的单元格之外,表中每个单元格都有一个唯一的系数。此模型可以表示为下面的设计矩阵(design matrix)(7×7表):
1702648945
1702648946 1     1     1     1     1     1     1
1702648947
1702648948 1     2     3     4     5     6     7
1702648949
1702648950 1     8     9    10    11    12    13
1702648951
1702648952 1    14    15    16    17    18    19    =full_dm
1702648953
1702648954 1    20    21    22    23    24    25
1702648955
1702648956 1    26    27    28    29    30    31
1702648957
1702648958 1    32    33    34    35    36    37
1702648959
1702648960 注意,设计矩阵可以被简单地看作是一个变量,每个单元格表示一个值。有一些单元格被限制成相等,也就是说,那些具有相同值的单元格的系数相等。此设计矩阵就把第一行和第一列的所有系数都设置成相等;事实上,在虚拟变量编码法中,这些系数(默认)为0,其他剩余的系数没有被限制成相等。此模型利用了所有变量的信息,模型完全拟合了表中所有的观测频数。
1702648961
1702648962 注意,在Stata的-glm-命令中,下面的识别方法
1702648963
1702648964 xi:glm count i.X i.Y i.full_dm,family(poisson)
1702648965
1702648966 与通常识别饱和模型的方法
1702648967
1702648968 xi:glm count i.X*i.Y,family(poisson)
1702648969
1702648970 能产生完全相同的结果,即在识别交互项时,-glm-创建一个像“full_dm”一样的设计矩阵。
1702648971
1702648972 为了更具体一些,我们下面来分析一些真实的数据。表12-9是一个有关受访者职业和其父亲职业的双变量频数分布表,数据来源于1996年中国的一个抽样调查样本(曾在前面章节中使用过,文件说明见附录A)。虽然习惯上将男女分别进行职业流动分析,但为了增加样本量,本例将男女合并在一起进行分析。这样做的依据是,本数据或多或少满足Powers和Xie提出的将三维表压缩为二维表的两个条件:三维交互项为0以及有一个包括被压缩变量的二维交互项为0(Powers and Xie,2000:133-135)。
1702648973
1702648974 表12-9 1996年中国成年人按其父亲的职业划分的职业频数分布
1702648975
1702648976
1702648977
1702648978
1702648979 为了检验第一个条件,我们建立一个新模型(称之为模型A)与饱和模型相比较。模型A假设在控制边缘效应后,父亲和受访者之间的流动模式对于男女来说是一样的(即[SF][SR][FR],这里,S=性别,F=受访者14岁时父亲的职业,R=1996年时受访者的职业)。因为饱和模型完全拟合,这种比较相当于评估假设模型的拟合程度。结果是该模型拟合得相当好:L2=52.0,自由度为36,得到BIC=-251;Δ=2.4;p=0.041,刚好边际显著。考虑到样本相对较大,我们倾向于根据BIC指标而不是p值来得出结论:第一个条件得到满足。
[ 上一页 ]  [ :1.70264893e+09 ]  [ 下一页 ]