打字猴:1.702648701e+09
1702648701 量化数据分析:通过社会研究检验想法 [:1702644803]
1702648702 量化数据分析:通过社会研究检验想法 引言
1702648703
1702648704 从某种意义上讲,拟合对数线性分析模型其实就是两个变量独立性的χ2〔称为卡方(chi-square)〕检验的一般化。回想一下常规的〔皮尔森(Pearson)〕χ2检验,每个单元格的观测频数是与一个完全独立模型相比较。在这个模型中,每个单元格的期望频数是边缘频数的简单乘积除以表中的样本总数。因此,观测频数相对于独立模型中期望频数的偏离程度决定了χ2值的大小。
1702648705
1702648706 这种方法可以被推广应用到更加复杂的关系中,但需要对公式做些改动。对于一个双变量频数分布,我们可以写出期望单元格频数的一般公式:
1702648707
1702648708 Fij=ητXiτYjτXYij      (12.1)
1702648709
1702648710 这里,η(读作“eta”)是单元格频数的几何均值(k个数值的几何均值是它们乘积的k次根);τXi(读作“tau”)是X变量第i个类别的“效应参数”(effect parameter);τYj是Y变量第j个类别的“效应参数”;τXYij是X变量第i个类别与Y变量第j个类别“交互项”的效应参数。
1702648711
1702648712 在对数线性分析中,“交互项”仅仅意味着“关联” 注意,在对数线性文献中,“交互项”(interaction)是指有关旧的列联表文献中的“关联”(association)。值得注意的是,在现在有关列联表和多元回归的文献中,交互项的意义是完全不一样的。在这些文献中,“交互项”是指两个变量之间的关系依赖于一个或多个其他变量的取值。
1702648713
1702648714 当τ被定义为比率比(odds ratios)的函数时(见附录12.A),方程12.1表示的关系就能成立。某一观测值在一个变量某一给定分类中的比率(odds)恰好就是该分类的观测频数与不在此分类中的观测频数之比。因此,当某一班级有20名男生和10名女生时,班级中某一学生是男性的比率是20/10=2∶1。
1702648715
1702648716 分析表12-1中的数据,我们看到,男学生学文理学科(Letters and Science,LS)的比率与女学生学文理学科的比率之比是(9/11)/(9/1)=1∶11。因此,男生成为文理学院学生的可能性只有女生的十一分之一(当然,女生成为文理学院学生的可能性是男生的11倍)。比率比围绕1变化;如果男女学生成为文理学院学生的比率一样,那么比率比为1.0。在此例中,比率比小于1.0表示男生成为文理学院学生的比率小于女生;反过来,比率比大于1.0表示男生成为文理学院学生的比率大于女生。
1702648717
1702648718 表12-1 研究生课程项目分性别的频数分布
1702648719
1702648720
1702648721
1702648722
1702648723 我们现在对公式12.1两边取自然对数,得到:
1702648724
1702648725 ln(Fij)=ln(ητXiτYjτXYij)
1702648726
1702648727                        =ln(η)+ln(τXi)+ln(τYj)+ln(τXYij)      (12.2)
1702648728
1702648729 式12.2是一个对数线性(log-linear)形式——公式左边是公式右边各数量对数的一个线性函数——因而称之为对数线性分析(log-linear analysis)。
1702648730
1702648731 公式12.2有时也被表示为〔如Leo Goodman(1972:1043),他是此方法的创建者之一〕:
1702648732
1702648733 Gij=θ+λXi+λYj+λXYij      (12.3)
1702648734
1702648735 其中λ(称为“lambda”)是τ的(自然)对数,θ(称为“theta”)是η的对数,而Gij是Fij的对数。Powers和Xie(2000:107)采用另一种表示方法:
1702648736
1702648737 lnFij=ln(τ)+ln(τRi)+ln(τCj)+ln(τRCij)
1702648738
1702648739                  =μ+μRi+μCj+μRCij      (12.4)
1702648740
1702648741 其中μ=ln(τ)(μ称为“mu”),其余项依此类推。我们在后面还将用到一个更加方便的表示方法[XY]——这意味着我们感兴趣的模型包含如表达式所明确界定的交互项和其相应的所有较低阶次效应。这有时也被称为边缘拟合(fitted marginals)标记法。正如我们将在下一节中看到的,公式12.1到公式12.4可以很容易地被推广应用到两个及以上变量。
1702648742
1702648743
1702648744
1702648745
1702648746 量化数据分析:通过社会研究检验想法 [:1702644804]
1702648747 量化数据分析:通过社会研究检验想法 选择一个合适的模型
1702648748
1702648749 在公式12.1中,观测单元格频数fij完全等于预测单元格频数Fij,因为所有可能的效应参数都在模型中,因此观测频数被准确地预测。这时公式12.1被称为饱和模型(saturated model)。然而我们对这类模型一般不太感兴趣。我们通常会寻找相对简单的形式来表示数据,即一些参数被假设为1.0(或对数形式为0)——也就是说,一些可能的效应被省略。在这些情况下,每个Fij代表如果模型是真的时,我们期望的第i行第j列单元格中的频数(当然,每个Gij代表期望频数的自然对数值)。
1702648750
[ 上一页 ]  [ :1.702648701e+09 ]  [ 下一页 ]