1702648730
1702648731
公式12.2有时也被表示为〔如Leo Goodman(1972:1043),他是此方法的创建者之一〕:
1702648732
1702648733
Gij=θ+λXi+λYj+λXYij (12.3)
1702648734
1702648735
其中λ(称为“lambda”)是τ的(自然)对数,θ(称为“theta”)是η的对数,而Gij是Fij的对数。Powers和Xie(2000:107)采用另一种表示方法:
1702648736
1702648737
lnFij=ln(τ)+ln(τRi)+ln(τCj)+ln(τRCij)
1702648738
1702648739
=μ+μRi+μCj+μRCij (12.4)
1702648740
1702648741
其中μ=ln(τ)(μ称为“mu”),其余项依此类推。我们在后面还将用到一个更加方便的表示方法[XY]——这意味着我们感兴趣的模型包含如表达式所明确界定的交互项和其相应的所有较低阶次效应。这有时也被称为边缘拟合(fitted marginals)标记法。正如我们将在下一节中看到的,公式12.1到公式12.4可以很容易地被推广应用到两个及以上变量。
1702648742
1702648743
1702648744
1702648745
1702648747
量化数据分析:通过社会研究检验想法 选择一个合适的模型
1702648748
1702648749
在公式12.1中,观测单元格频数fij完全等于预测单元格频数Fij,因为所有可能的效应参数都在模型中,因此观测频数被准确地预测。这时公式12.1被称为饱和模型(saturated model)。然而我们对这类模型一般不太感兴趣。我们通常会寻找相对简单的形式来表示数据,即一些参数被假设为1.0(或对数形式为0)——也就是说,一些可能的效应被省略。在这些情况下,每个Fij代表如果模型是真的时,我们期望的第i行第j列单元格中的频数(当然,每个Gij代表期望频数的自然对数值)。
1702648750
1702648751
这里可以用两种基本方法来选择合适的模型。两者中更常用的是进行相对非理论性的“数据挖掘”(data dredging),该方法通过不断假设更加复杂的模型直到获得对数据合理贴近的拟合为止(我们用“相对非理论性”一词是因为所有分析实际上都会受到一些理论性想法的启发,无论这些想法多么不明显或不确定)。第二种方法是我更喜欢的,通过估计和比较针对各种假设的模型来明确地检验假设。后一种方法是我们在前面解释百分数表时用到的标准方法。
1702648752
1702648753
基于拟合优度的模型选择
1702648754
1702648755
我们首先使用表12-1中的数据来熟悉数据挖掘方法。对于双变量列联表,最简单的模型是假设每个单元格具有相同的样本数,即对于所有的ij都有Fij=η(因为所有的比率比,也就是所有τ都等于1.0)。尽管这是最简单的模型,但此模型并没有多大的意义,因为每个单元格频数相等实际上是很罕见的。因此,我们通过估计似然比卡方(likelihood ratio η2,在Stata中被称为偏差L2)来检验此模型是否拟合数据:
1702648756
1702648757
1702648758
1702648759
1702648760
其中,Fij是前面提到的在给定零假设条件下第i行第j列单元格的期望频数,fij是第i行第j列单元格的观测频数,总频数是表中所有单元格的频数之和。〔常用的η2统计量也可用来估计各个备择模型的拟合优度,L2和η2是渐近等价的。有关L2优越性的讨论可见Bishop、Fienberg和Holland(1975:57-62)。〕在零假设条件下,L2分布近似于η2分布,其自由度等于设置为1.0的非冗余(nonredundant)参数的个数。2×2表可估计4个相互独立的参数(这是因为对二分变量来说,在类别1中而不在类别2中的比率与在类别2中而不在类别1中的比率是互为倒数的,同样,2×2表中的条件比率也满足此关系),即:
1702648761
1702648762
1702648763
1702648764
1702648765
对于最简单的模型,因为我们只估计η,所以我们剩下3个自由度。如我们所料,该模型对表12-1的拟合很差:L2=10.96,这意味着在总体中观测到各个单元格频数相等的可能性仅约为1%(确切地说,p=0.012)。因此我们得出结论,此模型对数据拟合得不好,即我们拒绝“所有单元格频数相等”的零假设。(关于如何估计此类模型的详细内容,见后面章节中有关反共观点的实例,也可下载文件“ch12_1.do”和“ch12_1.log”。)
1702648766
1702648767
不可否认,此例中的“总体”是有问题的,因为我们试图研究的是选修某一课程的所有学生的特征,因而我们将他们看作总体而非样本。但是,我们也可将在某一给定时间选修该课程的学生看作来自所有可能曾经选修该课程的学生的一个样本,并由此将某一特定观测的样本一般化为我们所期望的“长期选修此课程”或“选修相类似课程”的一个样本。事实上,这种统计推断的用法在实际研究中非常常见〔见第16章有关超总体(superpopulation)概念的讨论〕。
1702648768
1702648769
定义L2L2是约束模型和非约束模型之对数似然值差值的-2倍。这里,除非有所特指,否则非约束模型就是指饱和模型(见附录12.B对最大似然估计法的简明介绍和对似然值的定义)。
1702648770
1702648771
我们下面检验变量X和Y相互独立的可能性,即单元格频数仅仅是边缘分布的函数。我们可以将其写作[X][Y]。在这种情况下,我们估计三个参数——η、τX和τY。只有τXY被设定为1.0,因此我们有一个自由度。在此例中,L2=6.35,这再次表明模型拟合得不好(p=0.012,几乎与前一个模型一样),而且表明X和Y之间存在某种关联——我们不能简单地依据边缘频数预测单元格频数。
1702648772
1702648773
1702648774
在此例子中,为了获得好的拟合结果,有必要估计所有4个参数,这会用尽4个自由度(因此,正如我们所注意到的,这会保证我们得到完美的拟合)。我们将其写作[XY]。注意,在这种表示法中,我们其实涉及分层模型。也就是说,每个较高阶次的关系一定包含所有低阶次关系,因此,。我们在后面的章节还会谈到这一点。
1702648775
1702648776
到目前为止,我们所涉及的问题都能用常规的η2独立性检验来解决。这种方法同样也可以被应用于包含两个以上变量的列联表,以及多分类变量。表12-2是一张对92个社会按政治一体化程度和技术水平划分的社会分层水平的列联表。
1702648777
1702648778
表12-2 对92个社会按政治一体化程度和技术水平划分的社会分层水平的频数分布
1702648779
[
上一页 ]
[ :1.70264873e+09 ]
[
下一页 ]