1702648810
这里,B是在给定数据的条件下,某个模型M为真实模型时的(未知)概率与饱和模型为真实模型时的(未知)概率之间的比率。对于对数线性模型,BIC由下面的公式估计:
1702648811
1702648812
L2-(d.f.)[In(N)] (12.8)
1702648813
1702648814
这里,L2是模型M的似然比η2;d.f.是模型M剩余的自由度;N是表中的样本数。当BIC是负值时,模型M相对于饱和模型更优。在同时比较几个模型时,具有最大负BIC值的模型是我们最优先选择的,因为在给定数据的条件下它“为真”模型的可能性最大。这里,模型7比模型8更加可能是真模型。综合考虑L2和BIC信息,比较模型7和模型8,我们认为模型7是首选。
1702648815
1702648816
BIC的真正价值在于比较大样本的模型,因为当样本很大时,依据传统标准经常没有模型能够拟合数据(当然,饱和模型除外)。当这种情况发生时,BIC非常有助于我们选择模型。出于此原因,BIC成为对数线性分析中评估不同模型的常规方法。BIC的另外一个优点是可以被用来比较非嵌套模型,这在第6章也提到过。
1702648817
1702648818
基于理论的模型选择
1702648819
1702648820
模型选择的第二种方法是对反映有关变量间关系的不同假设的模型进行比较,即基于理论驱动而不是通过数据挖掘来选择模型。例如,我们可以试问,社会分层水平与政治一体化程度之间的关联是否可以被它们共同依赖的技术水平解释。如果答案为“是”,那么我们会期望[TP][TS]拟合数据,因为此模型意味着表中的观测频数是来自技术水平和政治一体化程度之间的关联以及技术水平和社会分层水平之间的关联,而政治一体化程度与社会分层水平之间没有关联。正如我们在表12-3中看到的(模型5),此模型对数据拟合得不好,因为L2=21.88,自由度为4(p<0.000)。因此我们拒绝这个假设。
1702648821
1702648822
效应参数
1702648823
1702648824
正如附录12.A所示,在对数线性模型中,与交互项有关的参数(如公式12.1中的τXYij)可被解释为是对列联表中相关的方向和强度的表示。然而,注意,包含二分变量的二维交互项参数是与期望频数的几何均值相关的。当存在二维以上的交互项或两个以上的分类变量时,解释会变得更加复杂。而且,Stata默认使用“虚拟变量”的参数化方法。当使用虚拟变量的参数化方法时,二维交互项参数表示某一具体类别相对于参照类别的比率比(或对数比率)。
1702648825
1702648826
因为效应参数的概念不是很明确,尽管多数分析者使用对数线性分析来检验有关表中存在或缺失某些特殊关联(交互项)的假设,但他们使用一般读者更加熟悉的百分数差异来解释表格。尤为常见的情况是,当估计模型的软件以虚拟变量的形式表示参数时,即参数被表示成与某一省略类别之间的偏差,而该省略类别在对数形式下被设定为0,在乘积形式下被设定为1.0——因为用虚拟变量形式表示的模型系数在对数线性框架内很难加以解释。
1702648827
1702648828
当检验列联表中存在某种关系的具体假设时,我们推荐使用对数线性模型,因为它是一个执行此检验的非常有力的工具。然而,一旦选定了模型,我们建议要么对观测分布予以解释,要么对模型的期望分布予以解释。我们计算期望频数而不是观测频数的百分比,这样做的关键原因是可以消除非系统性的变异。然而,你应该清楚地意识到,观测频数与期望频数之间的偏差可能来自一些模型没有捕捉到的相关关系。
1702648829
1702648830
表12-4显示了模型7中按政治一体化程度和技术水平划分的社会分层水平的百分比分布,此模型假设技术水平与社会分层水平之间,以及政治一体化程度与社会分层水平之间存在某种关联,而技术水平与政治一体化程度之间不存在关联。因为模型拟合得很好,期望百分比的分布非常类似于我们根据表12-2计算的百分比结果。正如我们看到的:当技术水平相同时,相比于无国家政体的社会,那些有国家政体的社会的分层系统倾向于更复杂;而当政治一体化程度相同时,相比于无金属冶炼技术的社会,那些掌握金属冶炼技术的社会的分层系统倾向于更加复杂。〔此方法的一个不足之处在于,期望表的边缘频数一般与相应观测表中的频数不匹配。有关恢复边缘分布的一种方法,见Kaufman和Schervish(1986)。〕
1702648831
1702648832
表12-4 在92个社会中,按照政治一体化程度和技术水平划分的社会分层期望水平的百分比分布(对模型7中的期望频数进行了百分比化)
1702648833
1702648834
1702648835
1702648836
1702648837
另一个具体例子:反共情绪
1702648838
1702648839
使用Stata进行对数线性分析的最好方法是用命令-glm-(一般化线性模型),它可以估计多种线性模型。事实上,如公式12.2所示,对数线性分析只是常见的线性模型的一个特例,它的因变量是多维列联表中某一单元格样本数的自然对数,自变量是列联表中分类变量的各类别生成的虚拟变量。虽然已经有使用者编出名为Stata-ado-的文件(Judson,1992;1993)并成功地应用于分层线性分析,但使用-glm-命令有两方面的优点:它保持了线性模型框架,并且可以使用所有Stata的事后估计命令。为了展示如何使用-glm-命令进行对数线性分析,我们将分析来自Knoke和Burke(1980)文章中的表10。将我们的结果与他们的结果相比较将有助于我们加深理解。
1702648840
1702648841
假设我们对年龄(39岁及以下与40岁及以上相比)、居住地(南方与南方之外相比)、受教育程度(大学与大学以下相比)和民权自由容忍度之间的关系感兴趣。民权自由容忍度通过这个问题——是否允许共产主义者在您社区演讲——来测量。根据1977年综合社会调查(GSS)数据,包含这些变量的一个多维频数分布如表12-5所示。
1702648842
1702648843
表12-5 1977年不同受教育程度、居住地和年龄的美国成年人回答“是否允许共产主义者在您社区演讲”的频数分布(N=1478)
1702648844
1702648845
1702648846
1702648847
1702648848
分析策略 对表12-5进行对数线性分析的第一步是估计一个基准模型。因为我感兴趣的是年龄、居住地和受教育程度对共产主义演讲者容忍度的影响,所以一个合理的基准模型是[C][ARS]。也就是说,我们完全拟合年龄、居住地和受教育程度三个变量之间的关系。但是,我们假设这三个变量都与对共产主义演讲者的容忍度没有关系。第二步,我们假定[CA][CR][CS][ARS]。也就是说,我们除了完全拟合三个变量之间的关系之外,还假定每个变量对共产主义演讲者的容忍度都有影响(也就是年龄、居住地和受教育程度三个变量分别和对共产主义演讲者的容忍度之间存在“交互项”)。如果第二个模型拟合得好,那么我们将试图省略两个变量之间的某些交互项来简化此模型。而如果第二个模型拟合得不好,我们将试图拟合更复杂的模型,也就是加入包含对共产主义演讲者的容忍度和其他任何一对自变量的三次交互项。
1702648849
1702648850
应用 当在Stata中使用-glm-进行分析时,我们首先将表12-5的内容作为数据集读入。这里,每个单元格是一个观测值,而变量组是每个变量相应的类别加上一个表示每个单元格频数的附加变量。因此,我们创建一个数据集“knoke.raw”:
1702648851
1702648852
1 1 1 1 72
1702648853
1702648854
1 1 1 2 71
1702648855
1702648856
1 1 2 1 55
1702648857
1702648858
1 1 2 2 22
1702648859
[
上一页 ]
[ :1.70264881e+09 ]
[
下一页 ]