打字猴:1.70264896e+09
1702648960 注意,设计矩阵可以被简单地看作是一个变量,每个单元格表示一个值。有一些单元格被限制成相等,也就是说,那些具有相同值的单元格的系数相等。此设计矩阵就把第一行和第一列的所有系数都设置成相等;事实上,在虚拟变量编码法中,这些系数(默认)为0,其他剩余的系数没有被限制成相等。此模型利用了所有变量的信息,模型完全拟合了表中所有的观测频数。
1702648961
1702648962 注意,在Stata的-glm-命令中,下面的识别方法
1702648963
1702648964 xi:glm count i.X i.Y i.full_dm,family(poisson)
1702648965
1702648966 与通常识别饱和模型的方法
1702648967
1702648968 xi:glm count i.X*i.Y,family(poisson)
1702648969
1702648970 能产生完全相同的结果,即在识别交互项时,-glm-创建一个像“full_dm”一样的设计矩阵。
1702648971
1702648972 为了更具体一些,我们下面来分析一些真实的数据。表12-9是一个有关受访者职业和其父亲职业的双变量频数分布表,数据来源于1996年中国的一个抽样调查样本(曾在前面章节中使用过,文件说明见附录A)。虽然习惯上将男女分别进行职业流动分析,但为了增加样本量,本例将男女合并在一起进行分析。这样做的依据是,本数据或多或少满足Powers和Xie提出的将三维表压缩为二维表的两个条件:三维交互项为0以及有一个包括被压缩变量的二维交互项为0(Powers and Xie,2000:133-135)。
1702648973
1702648974 表12-9 1996年中国成年人按其父亲的职业划分的职业频数分布
1702648975
1702648976
1702648977
1702648978
1702648979 为了检验第一个条件,我们建立一个新模型(称之为模型A)与饱和模型相比较。模型A假设在控制边缘效应后,父亲和受访者之间的流动模式对于男女来说是一样的(即[SF][SR][FR],这里,S=性别,F=受访者14岁时父亲的职业,R=1996年时受访者的职业)。因为饱和模型完全拟合,这种比较相当于评估假设模型的拟合程度。结果是该模型拟合得相当好:L2=52.0,自由度为36,得到BIC=-251;Δ=2.4;p=0.041,刚好边际显著。考虑到样本相对较大,我们倾向于根据BIC指标而不是p值来得出结论:第一个条件得到满足。
1702648980
1702648981 为了检验第二个条件,我们将一个省略了性别与父亲职业间交互项的模型(称之为模型B)——[SR][FR]——与模型A相比较。这样做的现实考虑在于,在中国几乎所有妇女都参与劳动力市场,我们预计父亲的职业分布在就业的男女之间没有差别。为了比较这两个模型,我们取L2和自由度之差来计算因纳入[SF]而带来的拟合优度的改变,得到相关的p值,同时计算BIC的差值。虽然从一般标准(p=0.019[L2B-L2A=67.18-52.03=15.15;d.f.B-d.f.A=42-36=6])来看,模型A明显更好,但是考虑到这个数据(BICB-BICA=-285.9-[-250.6]=-35.3),模型B要更好。再者,我们倾向于看重BIC之差,因而得出第二个条件得到满足的结论。因此,我们可以在接下来的分析中将男性和女性的样本合并,这使样本量有效地增加一倍。
1702648982
1702648983 表12-10显示了饱和模型的系数(“ch12_2.do”介绍了如何用Stata计算这些系数)。正如我们所看到的,我们不能直接解释这些系数。然而,在这种情况下,对表中单元格进行比较会较为有意义。例如,我们会问一个农民的子女仍然是农民而不是体力工人的比率相对于一个体力工人子女的相应可能性的比率(比率比)是多少?根据公式12.9,这个对数比率比可以这样计算:
1702648984
1702648985 logθ=μRC77+μRC66-μRC76-μRC67
1702648986
1702648987            =2.756+1.567-1.088-0.801      (12.10)
1702648988
1702648989            =2.434
1702648990
1702648991 结果意味着相对比率为11.40(=e2.434),即农民的子女成为农民而不是体力工人的可能性是体力工人子女的11倍以上。类似地,一位专业人士的子女成为专业人士而不是管理人员的可能性与一位管理人员子女的相应可能性的比率是:
1702648992
1702648993 logθ=μRC11+μRC22-μRC12-μRC21
1702648994
1702648995            =0+0.627-0-0      (12.11)
1702648996
1702648997            =0.627
1702648998
1702648999 结果意味着相对比率为1.87(=e0.627)。显然,在中国(像在其他地方一样),农业职业的“继承性”(inheritance)与体力工人子女的流动性之间的相对比率,要高于技术职业的继承性与管理人员子女的流动性之间的相对比率。
1702649000
1702649001 表12-10 针对表12-9中数据的饱和模型的交互项参数
1702649002
1702649003
1702649004
1702649005
1702649006 拓扑或层次模型
1702649007
1702649008 我们在前面已经谈到如何解释交互项系数,接下来将着重讲解列联表是否可以被简化的问题。尤其是考虑到在中国当前的经济背景下,销售人员和服务人员没有什么差别,于是我们猜测这两个类别可以合并为一个。要判断这种想法是否可行,我们设定了一个设计矩阵,令第四行与第五行、第四列与第五列的单元格相等:
1702649009
[ 上一页 ]  [ :1.70264896e+09 ]  [ 下一页 ]