打字猴:1.702647849e+09

1702647849

1702647850

1702647851

1702647852

1702647853

1702647854

1702647855 量化数据分析：通过社会研究检验想法 [:1702644779]

1702647856 量化数据分析：通过社会研究检验想法本章小结

1702647857

1702647858 我们在本章中介绍了不同类型的缺失数据，具体分为：“完全随机缺失”（MCAR）数据、“随机缺失”（MAR）数据和“非随机缺失”（MNAR或NI）数据。我们考察了每种缺失数据类型的性质，并介绍了处理缺失数据的许多方法，包括个案剔除法和各种缺失值填补法。我们发现上述大多数方法在预测模型时都将产生有偏系数。这促使我们考虑多重填补法，即缺失数据被填补多次，最后将每次的填补结果合并在一起。多重填补法最有可能产生无偏结果。我们随后通过一个具体例子（在俄罗斯，教育获得中文化资本的作用）介绍如何用英国医学统计学家Royston编写的软件使用多重填补法。

1702647859

1702647860 到目前为止，我们所有的统计推断都是基于样本来自简单随机样本这一假设。但是，对大多数调查（如GSS）而言，它们并不是基于简单随机抽样，而是基于复杂的多阶段概率抽样。我们在下一章介绍各种抽样设计，并了解当我们使用基于多阶段分层或整群概率抽样或两者的数据时，如何获得正确的标准误。

1702647861

1702647862

1702647863

1702647864

1702647865 量化数据分析：通过社会研究检验想法 [:1702644780]

1702647866 量化数据分析：通过社会研究检验想法第9章抽样设计与调查估计

1702647867

1702647868 量化数据分析：通过社会研究检验想法 [:1702644781]

1702647869 本章内容

1702647870

1702647871 到目前为止，本书所讨论的统计推断议题，仍是基于对简单随机样本的分析，并假设我们所分析的数据符合常规最小二乘法（OLS）所要求的数据分布特征。在实际情况下，这两个假设都无法得到满足。因此在熟悉回归模型的操作和解释后，现在是该扩展我们的分析工具从而对全国性调查中常用的复杂样本做出正确的统计推断的时候了。我们也会介绍如何识别异常数据，并在可能的情况下进行修正。在本章中你会看到，这两个议题密切相关。

1702647872

1702647873 我将先介绍调查研究中常用的样本类型，然后讨论复杂抽样设计会导致的统计推断问题。接着，我将介绍针对OLS回归模型的一系列诊断方法，以及如何对诊断过程中所揭示出来的问题加以修正。

1702647874

1702647875

1702647876

1702647877

1702647878 量化数据分析：通过社会研究检验想法 [:1702644782]

1702647879 量化数据分析：通过社会研究检验想法调查样本

1702647880

1702647881 从基础统计学可知，我们需要概率样本（probability sample）来用样本推论总体。基于不同的目标，有三种基本的概率样本。

1702647882

1702647883 （1）简单随机（simple random）样本，即总体中的每个个体被选入样本的机会相同（被选中的概率相等这一条件决定了样本的随机性）。

1702647884

1702647885 （2）多阶段概率（multistage probability）样本。它们只是较复杂的随机样本，先在总体中随机抽取初级单位，然后再在随机抽取的初级单位中继续随机抽取次级单位，依此类推。以区域概率样本为例，我们先随机抽取市县，然后在抽中的区域内再随机选择街区，并以同样的方法在街区内抽取家户，在家户内抽取个人；又如，要获得一个学生样本，我们可以先随机抽取学区，然后在学区中随机抽取学校，并依次在学校中抽取班级，在班级中抽取学生。

1702647886

1702647887 （3）分层概率（stratified probability）样本同样是复杂随机样本。在分层抽样中我们先根据某些特征（种族、性别、居住地等）将总体分层，然后在各层中抽取概率样本，通常我们会对层使用不同的抽样比率——例如，为保证分析中有足够的黑人样本，我们会给黑人一个更高的抽样比率。

1702647888

1702647889 简单随机样本

1702647890

1702647891 我们先考虑简单随机样本。随机抽样需要一份总体中所包含的所有个体的列表，并且用随机方法从总体中抽取部分个体。在电脑还未诞生的时代，随机抽样的典型方法是参考随机数表。表9-1给出了随机数表的一部分。

1702647892

1702647893 表9-1 随机数表的一部分

1702647894

1702647895

1702647896

1702647897

1702647898 假设我们想使用如表9-1所示的随机数表从一个40人的班级中抽取10人的随机样本，我们可以按1～40的顺序罗列出班级中的40人，并设计一种在表9-1中查询的规则。比如我们可以逐行查找，并对找到的每一个五位数，先选取其头两位数，再选取其后两位数。（这种规则当然是随意的，但这并没有任何影响。因为数字是按随机顺序排列的，因而规则之间没有差别，只要我们在操作过程中保持规则一致就可以。）按照这个规则，我们遇到的第一个数字是10。因而我们抽取班级列表中的第10个人。接下来的数字是80，但由于它超出了1～40的范围，所以我们略过它。随后我们相继遇到15、11、1、36和2，并再次遇到11。严格地讲，我们应该选取第11个人两次。但从实际出发，这种做法显然并不合适。因而在实际操作中，我们几乎总是采用无重复（without replacement）抽样。这当然会造成一定的统计学后果，但相对于我们在调查研究中一般处理的人口规模而言却无关紧要。采用无重复抽样，当我们第二次遇到第11个个案时，只要略过它即可。

[ 上一页 ] [ :1.702647849e+09 ] [ 下一页 ]