打字猴:1.70264774e+09
1702647740 另一种在社会科学研究中被广泛应用的方法是缺失指标法(missing indicator):对于每个包含大量缺失数据的自变量,都用均值(或别的常数)替换,并在回归方程中增加一个虚拟变量;如果数值是替换得到的,则赋值为1,否则为0。此方法的一个优点是提供了一个对MCAR假设的检验:如果这些虚拟变量中的任何一个系数(显著地)不为零,那么此数据就不符合MCAR假设。此方法的早期支持者Cohen和Cohen(1975:274)声称此方法修正了缺失数据的非随机性。然而,Jones(1996)证明此方法及其相关的方法(例如,当一个分类变量被转换为一组虚拟变量时,在其中增加一类以表示缺失数据)仍会产生有偏估计。
1702647741
1702647742 最后一种均值替换法是条件均值替换法(conditional mean imputation),此方法是将数据中需填补的变量(仅对此变量有观测值的子样本)对其做变量做回归,然后将得到的预测值替换缺失值;这是Stata10.0中使用-impute-命令的方法。此方法也会产生(通常是向下的)有偏的系数和被低估的标准误。
1702647743
1702647744 所有的均值替换法都存在过度拟合的问题。因为当缺失数据被预测值替换后,得到的完整数据集不能恰当地反映研究过程中的不确定性部分,即每个个体数值的误差项。这表现为标准误过小,即使是在系数本身接近无偏估计的情况下也是如此。正是出于这个原因,另一类填补方法将不确定性考虑进来。这类方法主要有两种:热卡填补法(hotdeck imputation)和贝叶斯多重填补法。〔一种计算上更为简洁的贝叶斯多重填补法由Rubin和Schenker(1986)、Rubin(1987)提出,被称作近似贝叶斯自举法(approximate Bayesian bootstrap),这里不做讨论。〕
1702647745
1702647746 热卡填补法
1702647747
1702647748 这是被美国人口普查局用来建构完整数据供公众使用样本的方法。样本被分成不同的层(与加权个案剔除法和条件均值替换法中的层相似),然后,每层中的每个缺失值被从该层中随机抽取(有放回)的观测到的样本数值替换。结果,在每层中填补样本数值的分布与观测样本数值的分布是(在抽样误差范围内)一致的。当填补模型被正确设置时(即当与某一给定变量的缺失值相关的所有变量都被用来估算缺失值的时候),此方法将产生无偏估计系数,但标准误是有偏的。当大部分个体都存在至少一个缺失值时,这种方法的表现也不佳(Royston,2004:228)。
1702647749
1702647750 完全贝叶斯多重填补法
1702647751
1702647752 此方法于1987年由Rubin介绍,它是目前所使用的标准方法〔另见Paul等(2008)针对多重填补法在实际应用中的优势提出的质疑,或至少是提醒〕。Little和Rubin(2002)对此方法有过经典的阐述,Schafer(1997,1999)提供了更容易理解的说明,此外Allison(2001)也有过阐述。早期的应用,可见Treiman、Bielby和Cheng(1988),以及Schenker、Treiman和Weidman(1993)的著作。
1702647753
1702647754 多重填补法的核心是:首先,利用数据集中的其他变量来预测每个具有缺失值变量的方程。接着,从预测值的分布中随机抽取数值来替换缺失值。因为具有缺失数据的变量可能是另一个有缺失数据变量的预测变量之一,因此此过程需要重复多遍,也就是循环产生预测方程并使用每次更新后的预测值。此过程将所有缺失值填补后将产生一个完整数据集。然后创建若干个这样的数据集——通常是5个,但也有证据表明,数据集更多些会更好(Royston,2004:236-240)。
1702647755
1702647756 其次,对每一个这样的数据集用常规方法进行分析,将得到的系数进行平均或是遵照Rubin法则(Rubin’s Rules)进行合并。这种方法可以产生无偏估计系数,并且考虑了填补过程中增加的不确定性,同时产生无偏的标准误。具体来讲,一个基于M步填补的系数标准误由下面的方程给出:
1702647757
1702647758
1702647759
1702647760
1702647761 即标准误是作为基于每步填补的标准误的平均值估计的(最左边的项),这样就可以反映每步填补计算中估计量的不确定性。此外,上面方程中的另外一项(加号右边部分)表示估计系数在各次填补计算中的变异性,这可以反映出填补计算过程中引入的不确定性。
1702647762
1702647763 要使此方法产生正确的填补值,必须满足两个条件:①分析者能很好地预测缺失值;②在实际模型中,如果缺失值与结果变量相关,那么结果变量需要被纳入填补模型中。
1702647764
1702647765 Stata中执行多重填补过程的程序由Royston编写〔2004,2005a,2005b,2007,以Van Buuren、Boshuizen和Knook(1999)的早期工作为基础〕;为了下载必要的-ado-文件(确保连接了网络),键入-lookup ice-并点击第四个条目“sj-7-4”〔也可见加州大学洛杉矶分校(UCLA)的专业技术服务组针对Royston的-ado-文件写的使用指南;在输入-lookup-命令时它们也会同时出现在结果中〕。使用Royston的软件可以使此过程不再像之前所论述的那样冗长。尽管如此,使用多重填补法计算还是会给你的分析增添更大的复杂性。这项工作的难点和耗时的部分主要在于,如何选择预测变量从而对变量中的缺失值进行估计。
1702647766
1702647767 此方法的核心是确定哪些变量要被纳入模型、进行合适的转换(虚拟变量和交互项),以及设定变量间的关系。这些细节问题在Royston的-ice-命令中都被考虑到了,因此在使用此命令的时候应该用-dryrun-选项,从而在冗长的计算开始之前就可以检验有关的逻辑问题。然后执行填补计算,保存数据集,该数据集包括初始数据的多个副本,每个副本的数据都是完整的,因为缺失值已经被填补上。然而,在每个完整的数据集中,被填补的值一般是不一样的。通过使用-micombine-命令,这种多副本或多重填补后的数据集可用来做任何分析。这个命令可以实现具体的估计过程,如多元回归,它对每个填补的数据进行估计,然后通过合并这些系数得到一个单一的系数(通常是对这些系数取均值),以及一个考虑了填补过程中引入的不确定性的标准误(见方程8.1)。
1702647768
1702647769 一般来说,创建填补数据集涉及大量计算——在下面讨论的具体例子中,该程序在我家的计算机(主频2.92GHz)上用了3.5分钟——但用填补后的数据集分析几乎就像用一个简单数据集分析那样快,通常只需要几秒钟。当你们增加填补次数时,创建填补数据集的时间呈算术级数增加。当你们增加需要被填补的变量时,需要的时间会以一个更快的速率增加。比如,将待填补的变量数翻倍时,填补的时间将以接近4的倍数增加。
1702647770
1702647771 也许通过一个实际例子我们可以更好地说明如何通过运用多重填补法创建和分析一个完整的数据集。下面就是一个这样的例子。该例子涉及的-do-和-log-文件都可以下载获得。这些文件——在填补步骤之前——包含一个有关如何设置-ice-命令的讨论。
1702647772
1702647773
1702647774
1702647775
1702647776 量化数据分析:通过社会研究检验想法 [:1702644778]
1702647777 量化数据分析:通过社会研究检验想法 一个具体例子:在俄罗斯,文化资本对教育获得的影响
1702647778
1702647779 来自各国越来越多的事实表明,父母的书写能力——用受访者成长过程中家庭拥有的图书数量测量——对孩子教育获得的影响至少跟父母所受的正规教育对孩子的影响一样重要(甚至可能更重要)(Evans et al.,2005)。理由很简单:父母受教育程度的重要性不在于这个文凭的作用,而在于它对家庭生活和养育孩子的影响。在家里,如果阅读是一项重要活动,那么孩子就会经常在家里学习阅读,以阅读为乐,并喜欢读书,所有这些都有助于提高他们适应正规学校要求的能力。因此,他们在学校的表现会较好,并且更可能在学业上继续深造。
1702647780
1702647781 在此例中,我研究了俄罗斯人在儿童时期家中的图书数量是否对教育获得产生重要影响。我以俄罗斯为例是出于两个原因:一是在俄罗斯,图书数量可能是家庭阅读习惯的一个好的指标,因为在苏联时期图书是很便宜的(我的数据来自1993年的成年人调查,就在苏联解体之后);二是因为“二战”时期的大量伤亡,俄罗斯数据中有关父母的信息存在大量缺失。该数据来自俄罗斯一项包括5002个年龄在20岁及以上成年人的全国性概率抽样调查〔有关数据的详细内容及如何抽样见附录A;也可见Treiman和Szelényi(1993)、Treiman(1994)〕。样本的年龄被限定20~69岁之间,以避免因有些人仍在校读书(20多岁的人中有不到3%的人仍在校读书)与70岁及以上者中死亡和发病率(因而没有被调查)差异而低估教育获得。这样样本数被减少到4685个。在当前的分析中,数据没有被加权,尽量加权在-ice-程序中是被允许的,但在比较个案剔除数据集和多重填补数据集的结果时,加权会产生新的难题。
1702647782
1702647783 创建实际模型
1702647784
1702647785 我先设置一个常规教育获得模型:
1702647786
1702647787
1702647788
1702647789
[ 上一页 ]  [ :1.70264774e+09 ]  [ 下一页 ]