打字猴:1.702647807e+09
1702647807 创建填补模型
1702647808
1702647809 对于每个有缺失数据的变量,设置一个填补模型是必要的——这个模型利用可获得的观测样本的值来填补缺失值。Van Buuren、Boshuizen和Knook(1999:687)建议,虽然原则上填补模型中的变量越多越好,但实际上(为了避免多重共线性和运算问题),最好是将预测变量限制在15~25个。他们提出如下纳入变量的准则:
1702647810
1702647811 (1)(在预测每个有缺失数据的变量时)纳入在实际模型(完整数据)中将使用的所有变量。
1702647812
1702647813 (2)此外,(在预测有缺失数据的给定变量时)纳入所有被认为影响该变量的数值是否缺失的变量。这些变量可以通过检验缺失值与备选变量之间的相关程度加以识别。如果相关不为0或不接近0,那么就纳入此备选变量。
1702647814
1702647815 (3)另外,(在预测有缺失数据的给定变量时)纳入所有能很好地对某一给定变量进行预测的变量。这些变量可以在给定变量可观察的情况下,通过检验给定变量与备选变量之间的相关程度加以识别。
1702647816
1702647817 (4)从(2)和(3)中删除那些本身有大量缺失数据的变量。
1702647818
1702647819 我在目前的讲解中略过了一个中间步骤,即用数据集中的其他变量预测缺失值,以证明数据不符合MCAR;如果一些系数不为0,我们有理由认为数据不符合MCAR。然而,没有任何一种方法可以从经验上判定它们是符合MAR还是NI。对于每个变量,缺失值是二分类的,因此,合适的估计方法是二项逻辑斯蒂回归法。但是,因为我们要到第13章才讨论此技术,所以这里省略了这部分的具体例子。
1702647820
1702647821 在目前的例子中,我们需要针对表8-1中除性别和出生年份(它们没有缺失数据)之外的所有变量填补缺失数据。遵循Van Buuren与其合作者提出的准则,我的实际模型中所涉及变量的填补模型是:
1702647822
1702647823 E=f(EF,EM,∑Oi,C,S,M,B,EPB)
1702647824
1702647825 EF=f(E,EM,∑Oi,C,S,M,B)
1702647826
1702647827 EM=f(E,EF,∑Oi,C,S,M,B)      (8.3)
1702647828
1702647829 O=f(E,EF,EM,C,S,M,B)
1702647830
1702647831 S=f(E,EF,EM,∑Oi,C,M,B)
1702647832
1702647833 B=f(E,EF,EM,∑Oi,C,S,M)
1702647834
1702647835 这里,所有变量都是方程8.2定义的实际模型中的变量。我不必将自己局限于实际模型包括的变量,完全可以遵循Van Buuren、Boshuizen和Knook(1999)提出的准则,选择额外的变量,用它们预测模型中的自变量,或是它们的缺失值,或是两者;通常这是可取的办法。但是,为了避免这个例子过于复杂,我勉强接受这里的预测方程。
1702647836
1702647837 上述-ice-命令允许设置几个不同的估计模型(连续变量用OLS,分类变量可用二项、多项及序次逻辑斯蒂回归)。因为我们还没有讨论逻辑斯蒂回归,这里我希望你们相信它们是处理这类变量的恰当技术;这些技术将在第13和14章讲解。这里碰巧所有需填补的变量除父亲的职业类别和家中图书数量之外都是连续的,父亲的职业类别需要用多项逻辑斯蒂回归模型填补,而家中图书数量需要用序次回归模型填补。
1702647838
1702647839 -ice-命令的一个非常有用的功能是它可以“被动地填补”变量,也就是说,诸如交互项和虚拟变量,它们只是其他一些可能包含缺失值变量的数学变换,而这些其他变量可能有缺失值。关于如何设置-ice-命令的详细讨论,见Royston(2005a:191-195)对此过程的描述,以及本章对应的-do-和-log-文件。
1702647840
1702647841 比较个案剔除法和多重填补法的结果
1702647842
1702647843 表8-2列出了两个模型的回归系数、标准误,以及t值和p值,这两个模型一个是用个案剔除法估计的,另一个是用Royston的-micombine-命令用一个多重填补数据集估计的。虽然结果差别不是很大,但在模型的12个变量中有3个都得出明显不同的结论:如果我们接受传统的0.05的显著性水平,结论是OLS模型中所有变量都是显著的——只有一个例外,即父亲从事常规非体力工作与父亲从事管理或专业工作相比,其后代具有相同的受教育机会。尤其是,我们会认为,当母亲相对于父亲受过更好的教育时,将有益于后代的教育(因为当控制了父母的平均受教育水平后,父亲的受教育年限超过母亲越多,后代的教育获得越低)。如我们所料,我们还会认为在大家庭中长大的人受教育程度低,男性比女性受教育程度低。然而,在填补数据中这三个系数都没有超过0.05的显著性水平。
1702647844
1702647845 有意思的是,正如标准化系数显示的,家中图书数量是模型中最重要的变量,显示在最右边一列。但是,如我们所料,它的重要性随父母受教育年限的增加而减小,因为交互项的系数为负。
1702647846
1702647847 表8-2 一个根据个案剔除数据集[C](N=2661)估计的教育获得模型与一个根据多重填补数据集[M](N=4685)估计的教育获得模型的系数比较,1993年俄罗斯20~69岁的成年人
1702647848
1702647849
1702647850
1702647851
1702647852
1702647853
1702647854
1702647855 量化数据分析:通过社会研究检验想法 [:1702644779]
1702647856 量化数据分析:通过社会研究检验想法 本章小结
[ 上一页 ]  [ :1.702647807e+09 ]  [ 下一页 ]