打字猴:1.702647818e+09

1702647818

1702647819 我在目前的讲解中略过了一个中间步骤，即用数据集中的其他变量预测缺失值，以证明数据不符合MCAR；如果一些系数不为0，我们有理由认为数据不符合MCAR。然而，没有任何一种方法可以从经验上判定它们是符合MAR还是NI。对于每个变量，缺失值是二分类的，因此，合适的估计方法是二项逻辑斯蒂回归法。但是，因为我们要到第13章才讨论此技术，所以这里省略了这部分的具体例子。

1702647820

1702647821 在目前的例子中，我们需要针对表8-1中除性别和出生年份（它们没有缺失数据）之外的所有变量填补缺失数据。遵循Van Buuren与其合作者提出的准则，我的实际模型中所涉及变量的填补模型是：

1702647822

1702647823 E=f（EF，EM，∑Oi，C，S，M，B，EPB）

1702647824

1702647825 EF=f（E，EM，∑Oi，C，S，M，B）

1702647826

1702647827 EM=f（E，EF，∑Oi，C，S，M，B）　　　　　　（8.3）

1702647828

1702647829 O=f（E，EF，EM，C，S，M，B）

1702647830

1702647831 S=f（E，EF，EM，∑Oi，C，M，B）

1702647832

1702647833 B=f（E，EF，EM，∑Oi，C，S，M）

1702647834

1702647835 这里，所有变量都是方程8.2定义的实际模型中的变量。我不必将自己局限于实际模型包括的变量，完全可以遵循Van Buuren、Boshuizen和Knook（1999）提出的准则，选择额外的变量，用它们预测模型中的自变量，或是它们的缺失值，或是两者；通常这是可取的办法。但是，为了避免这个例子过于复杂，我勉强接受这里的预测方程。

1702647836

1702647837 上述-ice-命令允许设置几个不同的估计模型（连续变量用OLS，分类变量可用二项、多项及序次逻辑斯蒂回归）。因为我们还没有讨论逻辑斯蒂回归，这里我希望你们相信它们是处理这类变量的恰当技术；这些技术将在第13和14章讲解。这里碰巧所有需填补的变量除父亲的职业类别和家中图书数量之外都是连续的，父亲的职业类别需要用多项逻辑斯蒂回归模型填补，而家中图书数量需要用序次回归模型填补。

1702647838

1702647839 -ice-命令的一个非常有用的功能是它可以“被动地填补”变量，也就是说，诸如交互项和虚拟变量，它们只是其他一些可能包含缺失值变量的数学变换，而这些其他变量可能有缺失值。关于如何设置-ice-命令的详细讨论，见Royston（2005a：191-195）对此过程的描述，以及本章对应的-do-和-log-文件。

1702647840

1702647841 比较个案剔除法和多重填补法的结果

1702647842

1702647843 表8-2列出了两个模型的回归系数、标准误，以及t值和p值，这两个模型一个是用个案剔除法估计的，另一个是用Royston的-micombine-命令用一个多重填补数据集估计的。虽然结果差别不是很大，但在模型的12个变量中有3个都得出明显不同的结论：如果我们接受传统的0.05的显著性水平，结论是OLS模型中所有变量都是显著的——只有一个例外，即父亲从事常规非体力工作与父亲从事管理或专业工作相比，其后代具有相同的受教育机会。尤其是，我们会认为，当母亲相对于父亲受过更好的教育时，将有益于后代的教育（因为当控制了父母的平均受教育水平后，父亲的受教育年限超过母亲越多，后代的教育获得越低）。如我们所料，我们还会认为在大家庭中长大的人受教育程度低，男性比女性受教育程度低。然而，在填补数据中这三个系数都没有超过0.05的显著性水平。

1702647844

1702647845 有意思的是，正如标准化系数显示的，家中图书数量是模型中最重要的变量，显示在最右边一列。但是，如我们所料，它的重要性随父母受教育年限的增加而减小，因为交互项的系数为负。

1702647846

1702647847 表8-2 一个根据个案剔除数据集［C］（N=2661）估计的教育获得模型与一个根据多重填补数据集［M］（N=4685）估计的教育获得模型的系数比较，1993年俄罗斯20～69岁的成年人

1702647848

1702647849

1702647850

1702647851

1702647852

1702647853

1702647854

1702647855 量化数据分析：通过社会研究检验想法 [:1702644779]

1702647856 量化数据分析：通过社会研究检验想法本章小结

1702647857

1702647858 我们在本章中介绍了不同类型的缺失数据，具体分为：“完全随机缺失”（MCAR）数据、“随机缺失”（MAR）数据和“非随机缺失”（MNAR或NI）数据。我们考察了每种缺失数据类型的性质，并介绍了处理缺失数据的许多方法，包括个案剔除法和各种缺失值填补法。我们发现上述大多数方法在预测模型时都将产生有偏系数。这促使我们考虑多重填补法，即缺失数据被填补多次，最后将每次的填补结果合并在一起。多重填补法最有可能产生无偏结果。我们随后通过一个具体例子（在俄罗斯，教育获得中文化资本的作用）介绍如何用英国医学统计学家Royston编写的软件使用多重填补法。

1702647859

1702647860 到目前为止，我们所有的统计推断都是基于样本来自简单随机样本这一假设。但是，对大多数调查（如GSS）而言，它们并不是基于简单随机抽样，而是基于复杂的多阶段概率抽样。我们在下一章介绍各种抽样设计，并了解当我们使用基于多阶段分层或整群概率抽样或两者的数据时，如何获得正确的标准误。

1702647861

1702647862

1702647863

1702647864

1702647865 量化数据分析：通过社会研究检验想法 [:1702644780]

1702647866 量化数据分析：通过社会研究检验想法第9章抽样设计与调查估计

1702647867

[ 上一页 ] [ :1.702647818e+09 ] [ 下一页 ]