打字猴:1.70264878e+09
1702648780
1702648781
1702648782
1702648783 在对数线性分析的数据挖掘方法中,通常的做法是设定一个表中所有变量完全独立的初始或基准模型——在当前的例子中是假设一个技术[T]、政治一体化[P]和分层[S]之间没有关联的模型。我们通过拟合模型[T][P][S]来完成。对于此模型,L2=84.68,有7个自由度;此模型的拟合优度统计量及其他信息列在表12-3中。显然,此模型对数据拟合得不好(p<0.0000),但即使如此,我们马上还是要使用该模型。
1702648784
1702648785 我们接着会假设在政治一体化程度和社会分层水平之间存在关联或交互项,并假设这些变量都与技术水平不相关。也就是说,我们拟合模型[T][PS](表12-3中的模型2)。此模型假设观测到的单元频数可以被技术水平这一单变量分布和按政治一体化程度划分的社会分层水平的双变量分布解释(在抽样误差范围内)。估计此模型,得到L2=41.54,有5个自由度。
1702648786
1702648787 虽然大L2值告诉我们模型拟合数据精度不高(p<0.0000),但是我们仍然想知道与完全独立的基准模型相比较预测值是否得到改善。为了了解这一点,我们将两个L2值相减,同样将自由度相减,然后我们得到与新的L2和新的自由度相关的p值。通常的做法是对随后的每一个模型报告L2和L2与基准模型L2B的比值,同时给出观测频数和基于模型的期望频数之间的相异指数Δ,也给出BIC指标。计算这些测量值之间的差值很容易;模型1和模型2的差值列在表12-3的倒数第二行。所有这些计算提供了有关模型拟合优度的信息,以及假设的某个模型对拟合优度改善的程度。
1702648788
1702648789 表12-3 在92个社会中有关技术水平、政治一体化程度和社会分层水平之间关联的模型
1702648790
1702648791
1702648792
1702648793
1702648794 因为L2=43.14、自由度为2的概率小于0.000,所以我们得出结论:政治一体化程度和社会分层水平之间存在关联的假设显著地改善了模型的拟合程度。相似地,根据现有数据,BIC的差值告诉我们第二个模型比第一个更加可能符合实际(尽管两个模型都不如饱和模型对数据拟合的程度——因为两者的BIC都是正值)。
1702648795
1702648796 我们能够从两组系数中得到一个模型拟合改善程度的定量估计。从L2的比值来看,社会分层水平和政治一体化程度之间存在关联的假设降低了模型和数据之间拟合不好的程度,即相对于三个变量完全独立的基准模型,拟合不好的程度降低了一半左右。
1702648797
1702648798 最后,我们从表12-3最右侧一列注意到,完全独立模型错误地识别了表中约42%的样本〔即期望分布中42%的样本不得不变换类别以与观测部分一致——回顾第3章中有关相异指数(index of dissimilarity)Δ的讨论〕,而第二个模型只错误地识别了30%的样本。
1702648799
1702648800 因为模型[T][SP]对数据拟合得不好,我们仍然需要评估其他模型,从而找到拟合较好的最简约模型。表12-3显示了8个模型(除饱和模型和假设所有单元格拥有同样频数的模型外所有逻辑上可能的模型)的拟合优度统计量。继续看表12-3中的系数,模型7中[TS][PS]对数据拟合得非常好。此模型假设技术水平和政治一体化程度都与社会分层水平关联,但当控制住技术水平和政治一体化程度各自与社会分层水平不再相关之后,这两者之间不再相关。它仅错误地识别了表中约5%的样本,同样使基准模型的L2降低了97%[=100×(1.0-0.03)]。
1702648801
1702648802 尽管拟合得更好的是模型8(它假设每对变量相关),但它可能受到争议并被认为过度拟合数据。倒数第二个模型[TS][PS]拟合数据的程度与模型8近似,我最后选择它作为最终模型是因为它的简约性,特别是因为模型7和模型8之间拟合程度的差异不显著(2.94-0.60=2.34;p=0.126)。
1702648803
1702648804 注意,显著性检验在此处的用法和它通常作为拒绝零假设时的判断标准的用法恰好相反;在此处,我们希望判断是否接受零假设,即是否接受某一个模型。相应地,我们倾向于最小化第二类错误[Type Ⅱ(β)error](接受错误零假设的概率),而不是第一类错误[Type I(α)error](拒绝正确零假设的概率)。不幸的是,没有方法可以直接做到这点,因此我们只能勉强接受所计算的第一类错误。一个有用的经验准则是,如果α大于0.2,则接受模型。然而,样本规模越大,α会越小,因此对非常大的样本,即使α很小我们也会接受模型。正如我们马上要看到的,BIC提供了另一种更适合模型选择的方法。
1702648805
1702648806 表12-3中报告了另一种系数BIC,即贝叶斯信息准则(Bayesian Information Criterion)(Raftery,1986,1995a,1995b),我们在第6章曾经介绍过。回顾BIC的定义:
1702648807
1702648808 BIC=-2[ln(B)]      (12.7)
1702648809
1702648810 这里,B是在给定数据的条件下,某个模型M为真实模型时的(未知)概率与饱和模型为真实模型时的(未知)概率之间的比率。对于对数线性模型,BIC由下面的公式估计:
1702648811
1702648812 L2-(d.f.)[In(N)]      (12.8)
1702648813
1702648814 这里,L2是模型M的似然比η2;d.f.是模型M剩余的自由度;N是表中的样本数。当BIC是负值时,模型M相对于饱和模型更优。在同时比较几个模型时,具有最大负BIC值的模型是我们最优先选择的,因为在给定数据的条件下它“为真”模型的可能性最大。这里,模型7比模型8更加可能是真模型。综合考虑L2和BIC信息,比较模型7和模型8,我们认为模型7是首选。
1702648815
1702648816 BIC的真正价值在于比较大样本的模型,因为当样本很大时,依据传统标准经常没有模型能够拟合数据(当然,饱和模型除外)。当这种情况发生时,BIC非常有助于我们选择模型。出于此原因,BIC成为对数线性分析中评估不同模型的常规方法。BIC的另外一个优点是可以被用来比较非嵌套模型,这在第6章也提到过。
1702648817
1702648818 基于理论的模型选择
1702648819
1702648820 模型选择的第二种方法是对反映有关变量间关系的不同假设的模型进行比较,即基于理论驱动而不是通过数据挖掘来选择模型。例如,我们可以试问,社会分层水平与政治一体化程度之间的关联是否可以被它们共同依赖的技术水平解释。如果答案为“是”,那么我们会期望[TP][TS]拟合数据,因为此模型意味着表中的观测频数是来自技术水平和政治一体化程度之间的关联以及技术水平和社会分层水平之间的关联,而政治一体化程度与社会分层水平之间没有关联。正如我们在表12-3中看到的(模型5),此模型对数据拟合得不好,因为L2=21.88,自由度为4(p<0.000)。因此我们拒绝这个假设。
1702648821
1702648822 效应参数
1702648823
1702648824 正如附录12.A所示,在对数线性模型中,与交互项有关的参数(如公式12.1中的τXYij)可被解释为是对列联表中相关的方向和强度的表示。然而,注意,包含二分变量的二维交互项参数是与期望频数的几何均值相关的。当存在二维以上的交互项或两个以上的分类变量时,解释会变得更加复杂。而且,Stata默认使用“虚拟变量”的参数化方法。当使用虚拟变量的参数化方法时,二维交互项参数表示某一具体类别相对于参照类别的比率比(或对数比率)。
1702648825
1702648826 因为效应参数的概念不是很明确,尽管多数分析者使用对数线性分析来检验有关表中存在或缺失某些特殊关联(交互项)的假设,但他们使用一般读者更加熟悉的百分数差异来解释表格。尤为常见的情况是,当估计模型的软件以虚拟变量的形式表示参数时,即参数被表示成与某一省略类别之间的偏差,而该省略类别在对数形式下被设定为0,在乘积形式下被设定为1.0——因为用虚拟变量形式表示的模型系数在对数线性框架内很难加以解释。
1702648827
1702648828 当检验列联表中存在某种关系的具体假设时,我们推荐使用对数线性模型,因为它是一个执行此检验的非常有力的工具。然而,一旦选定了模型,我们建议要么对观测分布予以解释,要么对模型的期望分布予以解释。我们计算期望频数而不是观测频数的百分比,这样做的关键原因是可以消除非系统性的变异。然而,你应该清楚地意识到,观测频数与期望频数之间的偏差可能来自一些模型没有捕捉到的相关关系。
1702648829
[ 上一页 ]  [ :1.70264878e+09 ]  [ 下一页 ]