打字猴:1.702647746e+09
1702647746 热卡填补法
1702647747
1702647748 这是被美国人口普查局用来建构完整数据供公众使用样本的方法。样本被分成不同的层(与加权个案剔除法和条件均值替换法中的层相似),然后,每层中的每个缺失值被从该层中随机抽取(有放回)的观测到的样本数值替换。结果,在每层中填补样本数值的分布与观测样本数值的分布是(在抽样误差范围内)一致的。当填补模型被正确设置时(即当与某一给定变量的缺失值相关的所有变量都被用来估算缺失值的时候),此方法将产生无偏估计系数,但标准误是有偏的。当大部分个体都存在至少一个缺失值时,这种方法的表现也不佳(Royston,2004:228)。
1702647749
1702647750 完全贝叶斯多重填补法
1702647751
1702647752 此方法于1987年由Rubin介绍,它是目前所使用的标准方法〔另见Paul等(2008)针对多重填补法在实际应用中的优势提出的质疑,或至少是提醒〕。Little和Rubin(2002)对此方法有过经典的阐述,Schafer(1997,1999)提供了更容易理解的说明,此外Allison(2001)也有过阐述。早期的应用,可见Treiman、Bielby和Cheng(1988),以及Schenker、Treiman和Weidman(1993)的著作。
1702647753
1702647754 多重填补法的核心是:首先,利用数据集中的其他变量来预测每个具有缺失值变量的方程。接着,从预测值的分布中随机抽取数值来替换缺失值。因为具有缺失数据的变量可能是另一个有缺失数据变量的预测变量之一,因此此过程需要重复多遍,也就是循环产生预测方程并使用每次更新后的预测值。此过程将所有缺失值填补后将产生一个完整数据集。然后创建若干个这样的数据集——通常是5个,但也有证据表明,数据集更多些会更好(Royston,2004:236-240)。
1702647755
1702647756 其次,对每一个这样的数据集用常规方法进行分析,将得到的系数进行平均或是遵照Rubin法则(Rubin’s Rules)进行合并。这种方法可以产生无偏估计系数,并且考虑了填补过程中增加的不确定性,同时产生无偏的标准误。具体来讲,一个基于M步填补的系数标准误由下面的方程给出:
1702647757
1702647758
1702647759
1702647760
1702647761 即标准误是作为基于每步填补的标准误的平均值估计的(最左边的项),这样就可以反映每步填补计算中估计量的不确定性。此外,上面方程中的另外一项(加号右边部分)表示估计系数在各次填补计算中的变异性,这可以反映出填补计算过程中引入的不确定性。
1702647762
1702647763 要使此方法产生正确的填补值,必须满足两个条件:①分析者能很好地预测缺失值;②在实际模型中,如果缺失值与结果变量相关,那么结果变量需要被纳入填补模型中。
1702647764
1702647765 Stata中执行多重填补过程的程序由Royston编写〔2004,2005a,2005b,2007,以Van Buuren、Boshuizen和Knook(1999)的早期工作为基础〕;为了下载必要的-ado-文件(确保连接了网络),键入-lookup ice-并点击第四个条目“sj-7-4”〔也可见加州大学洛杉矶分校(UCLA)的专业技术服务组针对Royston的-ado-文件写的使用指南;在输入-lookup-命令时它们也会同时出现在结果中〕。使用Royston的软件可以使此过程不再像之前所论述的那样冗长。尽管如此,使用多重填补法计算还是会给你的分析增添更大的复杂性。这项工作的难点和耗时的部分主要在于,如何选择预测变量从而对变量中的缺失值进行估计。
1702647766
1702647767 此方法的核心是确定哪些变量要被纳入模型、进行合适的转换(虚拟变量和交互项),以及设定变量间的关系。这些细节问题在Royston的-ice-命令中都被考虑到了,因此在使用此命令的时候应该用-dryrun-选项,从而在冗长的计算开始之前就可以检验有关的逻辑问题。然后执行填补计算,保存数据集,该数据集包括初始数据的多个副本,每个副本的数据都是完整的,因为缺失值已经被填补上。然而,在每个完整的数据集中,被填补的值一般是不一样的。通过使用-micombine-命令,这种多副本或多重填补后的数据集可用来做任何分析。这个命令可以实现具体的估计过程,如多元回归,它对每个填补的数据进行估计,然后通过合并这些系数得到一个单一的系数(通常是对这些系数取均值),以及一个考虑了填补过程中引入的不确定性的标准误(见方程8.1)。
1702647768
1702647769 一般来说,创建填补数据集涉及大量计算——在下面讨论的具体例子中,该程序在我家的计算机(主频2.92GHz)上用了3.5分钟——但用填补后的数据集分析几乎就像用一个简单数据集分析那样快,通常只需要几秒钟。当你们增加填补次数时,创建填补数据集的时间呈算术级数增加。当你们增加需要被填补的变量时,需要的时间会以一个更快的速率增加。比如,将待填补的变量数翻倍时,填补的时间将以接近4的倍数增加。
1702647770
1702647771 也许通过一个实际例子我们可以更好地说明如何通过运用多重填补法创建和分析一个完整的数据集。下面就是一个这样的例子。该例子涉及的-do-和-log-文件都可以下载获得。这些文件——在填补步骤之前——包含一个有关如何设置-ice-命令的讨论。
1702647772
1702647773
1702647774
1702647775
1702647776 量化数据分析:通过社会研究检验想法 [:1702644778]
1702647777 量化数据分析:通过社会研究检验想法 一个具体例子:在俄罗斯,文化资本对教育获得的影响
1702647778
1702647779 来自各国越来越多的事实表明,父母的书写能力——用受访者成长过程中家庭拥有的图书数量测量——对孩子教育获得的影响至少跟父母所受的正规教育对孩子的影响一样重要(甚至可能更重要)(Evans et al.,2005)。理由很简单:父母受教育程度的重要性不在于这个文凭的作用,而在于它对家庭生活和养育孩子的影响。在家里,如果阅读是一项重要活动,那么孩子就会经常在家里学习阅读,以阅读为乐,并喜欢读书,所有这些都有助于提高他们适应正规学校要求的能力。因此,他们在学校的表现会较好,并且更可能在学业上继续深造。
1702647780
1702647781 在此例中,我研究了俄罗斯人在儿童时期家中的图书数量是否对教育获得产生重要影响。我以俄罗斯为例是出于两个原因:一是在俄罗斯,图书数量可能是家庭阅读习惯的一个好的指标,因为在苏联时期图书是很便宜的(我的数据来自1993年的成年人调查,就在苏联解体之后);二是因为“二战”时期的大量伤亡,俄罗斯数据中有关父母的信息存在大量缺失。该数据来自俄罗斯一项包括5002个年龄在20岁及以上成年人的全国性概率抽样调查〔有关数据的详细内容及如何抽样见附录A;也可见Treiman和Szelényi(1993)、Treiman(1994)〕。样本的年龄被限定20~69岁之间,以避免因有些人仍在校读书(20多岁的人中有不到3%的人仍在校读书)与70岁及以上者中死亡和发病率(因而没有被调查)差异而低估教育获得。这样样本数被减少到4685个。在当前的分析中,数据没有被加权,尽量加权在-ice-程序中是被允许的,但在比较个案剔除数据集和多重填补数据集的结果时,加权会产生新的难题。
1702647782
1702647783 创建实际模型
1702647784
1702647785 我先设置一个常规教育获得模型:
1702647786
1702647787
1702647788
1702647789
1702647790 这里,E是受访者的受教育年限,Ep是父亲和母亲的受教育年限之和,ED是父亲与母亲的受教育年限之差;Oi是指受访者在14岁时父亲的职业类别;C是出生年份(“队列”),它反映了俄罗斯在20世纪由时代原因导致的教育投资;S是兄弟姐妹数,它被认为对教育获得有负面影响(Maralani,2004;Lu,2005;Lu and Treiman,2008);如果是男性,将M赋值为1,若是女性,将M赋值为0,该变量用来检验性别之间平均受教育年限是否可能存在差异,这在某些地方适用,但在另一些地方却不适用;B测量受访者在14岁时家中图书的数量,它是一种序次测度(类别是无、1或2本、10本左右、20本左右、50本左右、100本左右、200本左右、500本左右、1000本及以上);EpB是控制父母受教育年限和图书数量之间可能交互作用的乘积项——我期望当父母没有受过多少教育时家中图书数量的作用更加重要。原因在于,无论是否有家庭读书的氛围,受过良好教育的父母可能提供一些和学校教育相关的技能,但如果父母所受教育较差就不大可能做到这一点。也就是说,我期望父母所受的教育与父母在阅读上的参与程度在一定程度上是可以相互替代的。
1702647791
1702647792 关于变量处理的技术细节
1702647793
1702647794 ·父母所受的教育 我设置每对父母受教育年限之和与其之差,而不是简单地将每对父母的受教育年限作为单独的变量。我们可以证明,这两种设置在数学上是等价的,彼此可以相互推导。但我用的设置更容易解释,因为它给出了父母受教育年限的总影响,加上因父母受教育水平差异导致的其他额外影响。
1702647795
[ 上一页 ]  [ :1.702647746e+09 ]  [ 下一页 ]