1702647840
1702647841
比较个案剔除法和多重填补法的结果
1702647842
1702647843
表8-2列出了两个模型的回归系数、标准误,以及t值和p值,这两个模型一个是用个案剔除法估计的,另一个是用Royston的-micombine-命令用一个多重填补数据集估计的。虽然结果差别不是很大,但在模型的12个变量中有3个都得出明显不同的结论:如果我们接受传统的0.05的显著性水平,结论是OLS模型中所有变量都是显著的——只有一个例外,即父亲从事常规非体力工作与父亲从事管理或专业工作相比,其后代具有相同的受教育机会。尤其是,我们会认为,当母亲相对于父亲受过更好的教育时,将有益于后代的教育(因为当控制了父母的平均受教育水平后,父亲的受教育年限超过母亲越多,后代的教育获得越低)。如我们所料,我们还会认为在大家庭中长大的人受教育程度低,男性比女性受教育程度低。然而,在填补数据中这三个系数都没有超过0.05的显著性水平。
1702647844
1702647845
有意思的是,正如标准化系数显示的,家中图书数量是模型中最重要的变量,显示在最右边一列。但是,如我们所料,它的重要性随父母受教育年限的增加而减小,因为交互项的系数为负。
1702647846
1702647847
表8-2 一个根据个案剔除数据集[C](N=2661)估计的教育获得模型与一个根据多重填补数据集[M](N=4685)估计的教育获得模型的系数比较,1993年俄罗斯20~69岁的成年人
1702647848
1702647849
1702647850
1702647851
1702647852
1702647853
1702647854
1702647856
量化数据分析:通过社会研究检验想法 本章小结
1702647857
1702647858
我们在本章中介绍了不同类型的缺失数据,具体分为:“完全随机缺失”(MCAR)数据、“随机缺失”(MAR)数据和“非随机缺失”(MNAR或NI)数据。我们考察了每种缺失数据类型的性质,并介绍了处理缺失数据的许多方法,包括个案剔除法和各种缺失值填补法。我们发现上述大多数方法在预测模型时都将产生有偏系数。这促使我们考虑多重填补法,即缺失数据被填补多次,最后将每次的填补结果合并在一起。多重填补法最有可能产生无偏结果。我们随后通过一个具体例子(在俄罗斯,教育获得中文化资本的作用)介绍如何用英国医学统计学家Royston编写的软件使用多重填补法。
1702647859
1702647860
到目前为止,我们所有的统计推断都是基于样本来自简单随机样本这一假设。但是,对大多数调查(如GSS)而言,它们并不是基于简单随机抽样,而是基于复杂的多阶段概率抽样。我们在下一章介绍各种抽样设计,并了解当我们使用基于多阶段分层或整群概率抽样或两者的数据时,如何获得正确的标准误。
1702647861
1702647862
1702647863
1702647864
1702647866
量化数据分析:通过社会研究检验想法 第9章 抽样设计与调查估计
1702647867
1702647869
本章内容
1702647870
1702647871
到目前为止,本书所讨论的统计推断议题,仍是基于对简单随机样本的分析,并假设我们所分析的数据符合常规最小二乘法(OLS)所要求的数据分布特征。在实际情况下,这两个假设都无法得到满足。因此在熟悉回归模型的操作和解释后,现在是该扩展我们的分析工具从而对全国性调查中常用的复杂样本做出正确的统计推断的时候了。我们也会介绍如何识别异常数据,并在可能的情况下进行修正。在本章中你会看到,这两个议题密切相关。
1702647872
1702647873
我将先介绍调查研究中常用的样本类型,然后讨论复杂抽样设计会导致的统计推断问题。接着,我将介绍针对OLS回归模型的一系列诊断方法,以及如何对诊断过程中所揭示出来的问题加以修正。
1702647874
1702647875
1702647876
1702647877
1702647879
量化数据分析:通过社会研究检验想法 调查样本
1702647880
1702647881
从基础统计学可知,我们需要概率样本(probability sample)来用样本推论总体。基于不同的目标,有三种基本的概率样本。
1702647882
1702647883
(1)简单随机(simple random)样本,即总体中的每个个体被选入样本的机会相同(被选中的概率相等这一条件决定了样本的随机性)。
1702647884
1702647885
(2)多阶段概率(multistage probability)样本。它们只是较复杂的随机样本,先在总体中随机抽取初级单位,然后再在随机抽取的初级单位中继续随机抽取次级单位,依此类推。以区域概率样本为例,我们先随机抽取市县,然后在抽中的区域内再随机选择街区,并以同样的方法在街区内抽取家户,在家户内抽取个人;又如,要获得一个学生样本,我们可以先随机抽取学区,然后在学区中随机抽取学校,并依次在学校中抽取班级,在班级中抽取学生。
1702647886
1702647887
(3)分层概率(stratified probability)样本同样是复杂随机样本。在分层抽样中我们先根据某些特征(种族、性别、居住地等)将总体分层,然后在各层中抽取概率样本,通常我们会对层使用不同的抽样比率——例如,为保证分析中有足够的黑人样本,我们会给黑人一个更高的抽样比率。
1702647888
1702647889
简单随机样本
[
上一页 ]
[ :1.70264784e+09 ]
[
下一页 ]