1702647768
1702647769
一般来说,创建填补数据集涉及大量计算——在下面讨论的具体例子中,该程序在我家的计算机(主频2.92GHz)上用了3.5分钟——但用填补后的数据集分析几乎就像用一个简单数据集分析那样快,通常只需要几秒钟。当你们增加填补次数时,创建填补数据集的时间呈算术级数增加。当你们增加需要被填补的变量时,需要的时间会以一个更快的速率增加。比如,将待填补的变量数翻倍时,填补的时间将以接近4的倍数增加。
1702647770
1702647771
也许通过一个实际例子我们可以更好地说明如何通过运用多重填补法创建和分析一个完整的数据集。下面就是一个这样的例子。该例子涉及的-do-和-log-文件都可以下载获得。这些文件——在填补步骤之前——包含一个有关如何设置-ice-命令的讨论。
1702647772
1702647773
1702647774
1702647775
1702647777
量化数据分析:通过社会研究检验想法 一个具体例子:在俄罗斯,文化资本对教育获得的影响
1702647778
1702647779
来自各国越来越多的事实表明,父母的书写能力——用受访者成长过程中家庭拥有的图书数量测量——对孩子教育获得的影响至少跟父母所受的正规教育对孩子的影响一样重要(甚至可能更重要)(Evans et al.,2005)。理由很简单:父母受教育程度的重要性不在于这个文凭的作用,而在于它对家庭生活和养育孩子的影响。在家里,如果阅读是一项重要活动,那么孩子就会经常在家里学习阅读,以阅读为乐,并喜欢读书,所有这些都有助于提高他们适应正规学校要求的能力。因此,他们在学校的表现会较好,并且更可能在学业上继续深造。
1702647780
1702647781
在此例中,我研究了俄罗斯人在儿童时期家中的图书数量是否对教育获得产生重要影响。我以俄罗斯为例是出于两个原因:一是在俄罗斯,图书数量可能是家庭阅读习惯的一个好的指标,因为在苏联时期图书是很便宜的(我的数据来自1993年的成年人调查,就在苏联解体之后);二是因为“二战”时期的大量伤亡,俄罗斯数据中有关父母的信息存在大量缺失。该数据来自俄罗斯一项包括5002个年龄在20岁及以上成年人的全国性概率抽样调查〔有关数据的详细内容及如何抽样见附录A;也可见Treiman和Szelényi(1993)、Treiman(1994)〕。样本的年龄被限定20~69岁之间,以避免因有些人仍在校读书(20多岁的人中有不到3%的人仍在校读书)与70岁及以上者中死亡和发病率(因而没有被调查)差异而低估教育获得。这样样本数被减少到4685个。在当前的分析中,数据没有被加权,尽量加权在-ice-程序中是被允许的,但在比较个案剔除数据集和多重填补数据集的结果时,加权会产生新的难题。
1702647782
1702647783
创建实际模型
1702647784
1702647785
我先设置一个常规教育获得模型:
1702647786
1702647787
1702647788
1702647789
1702647790
这里,E是受访者的受教育年限,Ep是父亲和母亲的受教育年限之和,ED是父亲与母亲的受教育年限之差;Oi是指受访者在14岁时父亲的职业类别;C是出生年份(“队列”),它反映了俄罗斯在20世纪由时代原因导致的教育投资;S是兄弟姐妹数,它被认为对教育获得有负面影响(Maralani,2004;Lu,2005;Lu and Treiman,2008);如果是男性,将M赋值为1,若是女性,将M赋值为0,该变量用来检验性别之间平均受教育年限是否可能存在差异,这在某些地方适用,但在另一些地方却不适用;B测量受访者在14岁时家中图书的数量,它是一种序次测度(类别是无、1或2本、10本左右、20本左右、50本左右、100本左右、200本左右、500本左右、1000本及以上);EpB是控制父母受教育年限和图书数量之间可能交互作用的乘积项——我期望当父母没有受过多少教育时家中图书数量的作用更加重要。原因在于,无论是否有家庭读书的氛围,受过良好教育的父母可能提供一些和学校教育相关的技能,但如果父母所受教育较差就不大可能做到这一点。也就是说,我期望父母所受的教育与父母在阅读上的参与程度在一定程度上是可以相互替代的。
1702647791
1702647792
关于变量处理的技术细节
1702647793
1702647794
·父母所受的教育 我设置每对父母受教育年限之和与其之差,而不是简单地将每对父母的受教育年限作为单独的变量。我们可以证明,这两种设置在数学上是等价的,彼此可以相互推导。但我用的设置更容易解释,因为它给出了父母受教育年限的总影响,加上因父母受教育水平差异导致的其他额外影响。
1702647795
1702647796
·父亲的职业 职业分类源自Ganzeboom和Treiman(1996)修改后的Erikson-Goldthorpe-Portocararo(EGP)职业等级的六类划分。
1702647797
1702647798
·图书数量 我对此变量尝试过三种不同的设置:序次测度、每类别图书数量的中点值和中点测度的自然对数。有意思的是,序次测度产生了最佳拟合,或许是因为对数测度过分地降低了图书较多家庭增加的影响。
1702647799
1702647800
此项分析的难题在于模型中的许多变量都存在很大比例的缺失数据。表8-1显示了每个变量缺失样本的百分比。如果我简单地删除所有带缺失数据的样本,那么就只剩57%的样本(2661个)。此外,因为缺失值也可能与模型中的其他变量相关,所以我分析的是初始样本的一个非随机的子样本,这将影响研究结论的有效性,使之不能反映俄罗斯在20世纪后期教育获得的过程。基于无缺失数据(个案剔除后)样本(N=2661)的每个变量的均值和标准差与用所有观测样本计算的相应统计量的比较,可以证明缺失值不是随机的:在包含无缺失数据的子样本中,社会经济地位变量的均值普遍高于针对每个变量的所有观测值计算的结果,而相对应的标准差一般更低。因此,我选择缺失数据的多重填补法来创建一个有效的完整数据集。
1702647801
1702647802
表8-1 分析中所使用的变量的描述统计量,1993年俄罗斯20~69岁的成年人(N=4685)
1702647803
1702647804
1702647805
1702647806
1702647807
创建填补模型
1702647808
1702647809
对于每个有缺失数据的变量,设置一个填补模型是必要的——这个模型利用可获得的观测样本的值来填补缺失值。Van Buuren、Boshuizen和Knook(1999:687)建议,虽然原则上填补模型中的变量越多越好,但实际上(为了避免多重共线性和运算问题),最好是将预测变量限制在15~25个。他们提出如下纳入变量的准则:
1702647810
1702647811
(1)(在预测每个有缺失数据的变量时)纳入在实际模型(完整数据)中将使用的所有变量。
1702647812
1702647813
(2)此外,(在预测有缺失数据的给定变量时)纳入所有被认为影响该变量的数值是否缺失的变量。这些变量可以通过检验缺失值与备选变量之间的相关程度加以识别。如果相关不为0或不接近0,那么就纳入此备选变量。
1702647814
1702647815
(3)另外,(在预测有缺失数据的给定变量时)纳入所有能很好地对某一给定变量进行预测的变量。这些变量可以在给定变量可观察的情况下,通过检验给定变量与备选变量之间的相关程度加以识别。
1702647816
1702647817
(4)从(2)和(3)中删除那些本身有大量缺失数据的变量。
[
上一页 ]
[ :1.702647768e+09 ]
[
下一页 ]