1702647856
量化数据分析:通过社会研究检验想法 本章小结
1702647857
1702647858
我们在本章中介绍了不同类型的缺失数据,具体分为:“完全随机缺失”(MCAR)数据、“随机缺失”(MAR)数据和“非随机缺失”(MNAR或NI)数据。我们考察了每种缺失数据类型的性质,并介绍了处理缺失数据的许多方法,包括个案剔除法和各种缺失值填补法。我们发现上述大多数方法在预测模型时都将产生有偏系数。这促使我们考虑多重填补法,即缺失数据被填补多次,最后将每次的填补结果合并在一起。多重填补法最有可能产生无偏结果。我们随后通过一个具体例子(在俄罗斯,教育获得中文化资本的作用)介绍如何用英国医学统计学家Royston编写的软件使用多重填补法。
1702647859
1702647860
到目前为止,我们所有的统计推断都是基于样本来自简单随机样本这一假设。但是,对大多数调查(如GSS)而言,它们并不是基于简单随机抽样,而是基于复杂的多阶段概率抽样。我们在下一章介绍各种抽样设计,并了解当我们使用基于多阶段分层或整群概率抽样或两者的数据时,如何获得正确的标准误。
1702647861
1702647862
1702647863
1702647864
1702647866
量化数据分析:通过社会研究检验想法 第9章 抽样设计与调查估计
1702647867
1702647869
本章内容
1702647870
1702647871
到目前为止,本书所讨论的统计推断议题,仍是基于对简单随机样本的分析,并假设我们所分析的数据符合常规最小二乘法(OLS)所要求的数据分布特征。在实际情况下,这两个假设都无法得到满足。因此在熟悉回归模型的操作和解释后,现在是该扩展我们的分析工具从而对全国性调查中常用的复杂样本做出正确的统计推断的时候了。我们也会介绍如何识别异常数据,并在可能的情况下进行修正。在本章中你会看到,这两个议题密切相关。
1702647872
1702647873
我将先介绍调查研究中常用的样本类型,然后讨论复杂抽样设计会导致的统计推断问题。接着,我将介绍针对OLS回归模型的一系列诊断方法,以及如何对诊断过程中所揭示出来的问题加以修正。
1702647874
1702647875
1702647876
1702647877
1702647879
量化数据分析:通过社会研究检验想法 调查样本
1702647880
1702647881
从基础统计学可知,我们需要概率样本(probability sample)来用样本推论总体。基于不同的目标,有三种基本的概率样本。
1702647882
1702647883
(1)简单随机(simple random)样本,即总体中的每个个体被选入样本的机会相同(被选中的概率相等这一条件决定了样本的随机性)。
1702647884
1702647885
(2)多阶段概率(multistage probability)样本。它们只是较复杂的随机样本,先在总体中随机抽取初级单位,然后再在随机抽取的初级单位中继续随机抽取次级单位,依此类推。以区域概率样本为例,我们先随机抽取市县,然后在抽中的区域内再随机选择街区,并以同样的方法在街区内抽取家户,在家户内抽取个人;又如,要获得一个学生样本,我们可以先随机抽取学区,然后在学区中随机抽取学校,并依次在学校中抽取班级,在班级中抽取学生。
1702647886
1702647887
(3)分层概率(stratified probability)样本同样是复杂随机样本。在分层抽样中我们先根据某些特征(种族、性别、居住地等)将总体分层,然后在各层中抽取概率样本,通常我们会对层使用不同的抽样比率——例如,为保证分析中有足够的黑人样本,我们会给黑人一个更高的抽样比率。
1702647888
1702647889
简单随机样本
1702647890
1702647891
我们先考虑简单随机样本。随机抽样需要一份总体中所包含的所有个体的列表,并且用随机方法从总体中抽取部分个体。在电脑还未诞生的时代,随机抽样的典型方法是参考随机数表。表9-1给出了随机数表的一部分。
1702647892
1702647893
表9-1 随机数表的一部分
1702647894
1702647895
1702647896
1702647897
1702647898
假设我们想使用如表9-1所示的随机数表从一个40人的班级中抽取10人的随机样本,我们可以按1~40的顺序罗列出班级中的40人,并设计一种在表9-1中查询的规则。比如我们可以逐行查找,并对找到的每一个五位数,先选取其头两位数,再选取其后两位数。(这种规则当然是随意的,但这并没有任何影响。因为数字是按随机顺序排列的,因而规则之间没有差别,只要我们在操作过程中保持规则一致就可以。)按照这个规则,我们遇到的第一个数字是10。因而我们抽取班级列表中的第10个人。接下来的数字是80,但由于它超出了1~40的范围,所以我们略过它。随后我们相继遇到15、11、1、36和2,并再次遇到11。严格地讲,我们应该选取第11个人两次。但从实际出发,这种做法显然并不合适。因而在实际操作中,我们几乎总是采用无重复(without replacement)抽样。这当然会造成一定的统计学后果,但相对于我们在调查研究中一般处理的人口规模而言却无关紧要。采用无重复抽样,当我们第二次遇到第11个个案时,只要略过它即可。
1702647899
1702647900
我们选取接下来落入1~40这个区间且之前未曾出现过的数字来完成我们的样本,它们是:22、25、30和24。这样我们获得包含10个人的样本,包括40人列表中的第1、2、10、11、15、22、24、25、30和36位。由于我们的抽样规则保证了40人中的每个人都具有同样被选中的机会,因而该样本是随机的。
1702647901
1702647902
现在这类抽样常在电脑的辅助下完成,我们构建总体中所有成员的序列表,并从表中进行随机抽样,抽样原理完全一致。显然,一个包含总体中所有个体的列表是必需的。但获取这样一份列表却并非总是易事,而且经常是不现实的,比如我们无法获得美国人口的完整列表。
1702647903
1702647904
在有些情况下,总体列表虽然可以获得,但却不是电脑可读的格式。此时我们会用系统抽样代替随机抽样。先随机选择一个起点,然后在表中每间隔k个样本进行抽样,其中k是总体规模与样本规模之比。在当前的例子中,我们可以简单地选择一个随机起点,比如用随机数表选取第一个人,然后在班级列表中每隔4名学生选取一人,并在必要时由列表末端再循环到开始,最终从40人的班级中得到一个10人的样本。
[
上一页 ]
[ :1.702647855e+09 ]
[
下一页 ]