打字猴:1.702647718e+09
1702647718 NI条件经常在样本选择性偏误(sample selection bias)的问题中被讨论到,即样本基于与因变量相关的变量被选取。此主题已经超出本书的范围(但可见第16章的简要介绍)。有关对样本选择性偏误和可能的修正问题的讨论,可以在Berk和Ray(1982)、Berk(1983)、Breen(1996),及Stolzenberg和Relles(1997)的文献中查到。
1702647719
1702647720 下面我们来回顾处理缺失数据的一系列方法,尤其是贝叶斯多重填补法(Bayesian multiple imputation),它是目前最佳的方法。我们还将展示一个使用此方法的具体例子。
1702647721
1702647722 个案剔除法
1702647723
1702647724 处理缺失数据最常用的方法(这是本书目前所使用的方法)是简单地剔除分析中涉及变量中有缺失信息的样本。如果数据主要是完全随机缺失的,例如由记录、键入,或编码错误,或设计所导致的缺失(问题只问及一个随机子样本),这种处理方法的主要代价是减小了样本规模。这已经够糟糕了,因为样本规模的减小经常是很惊人的。例如,Clark和Altman(2003)报告了一项卵巢癌康复的预测研究,其10个协变量的缺失数据使样本规模减小了56%,从1189减少到518。
1702647725
1702647726 为什么不应该用成对剔除法 有时候,为了避免样本规模的大幅度减小,分析者将他们的分析基于“成对-出现”(pairwise-present)的相关系数——对每对变量利用所有可获得的数据计算相关系数。这不是一个好主意,因为它会产生不一致的、经常是不可解释的结果,尤其是在比较嵌套模型时。这在第6章“组间比较的方法”一节中曾讨论过。
1702647727
1702647728 然而,通常情况会更糟糕,因为数据不是完全随机缺失的;相反,特定变量的数据出现或丢失依赖于其他变量的数值。例如,像前面提到过的,所受教育较差的人与受过良好教育的人相比,更不可能知道他们的家族史,以及他们父母的特征;再如,隶属于不同政党的人对某些问题的拒答情况会不同,例如关于政治态度的问题;个体商人会拒绝透露他们的收入,因为害怕信息落到税务机关手里;等等。在这些情况下,用个案剔除法估计的系数一般是有偏的。因此,简单地省略缺失数据会冒严重歪曲分析结果的风险。
1702647729
1702647730 当模型被正确设置,且因变量的数值不受任何自变量缺失值影响时,样本剔除法〔也称个案剔除法(listwise deletion)〕是适用的(Paul et al.,2008)。但是,在社会科学研究中我们实际上并不知道如何完全正确地设置模型。虚拟变量的均值替换法(mean imputation with dummy variables)提供了一种自变量的缺失与因变量是否相关的检验,我们在后面将谈到这个问题;但是,我们依然面临未正确设置模型的问题。在这样一种情况下,个案剔除法是适用的(即当只对随机子样本询问问题时),因为子样本依然是总体的随机样本。但即使是这样,我们也经常得为样本规模的缩小付出沉重代价。
1702647731
1702647732 加权个案剔除法
1702647733
1702647734 当一些变量的总体分布已知或可以被准确估计时(例如,用人口普查或高质量调查数据),与前述个案剔除法类似的另一种方法是剔除具有任何缺失信息的样本,然后对样本加权(或再加权),根据已知变量,例如年龄、性别、民族、受教育年限和地理分布等,使样本反映总体分布。美国人口普查局和大量抽样调查机构都是这样做的,以修正抽样调查中的各类无应答,除此之外,此方法还被用来修改无应答的题项。如果实际模型被正确设置,此方法将产生无偏估计,尽管会导致标准误增大。此外,如果权重明显偏离1,加权也将增大标准误。(Stata的-pweight-功能提供在使用此加权方法的情况下可以得到准确的标准误,但此标准误比未加权数据的标准误更大。)然而,因为我们的模型基本上都是无法被正确设置的,所以此方法的有效性依赖于模型在多大程度上接近于正确的设置,这需要分析者自己做出判断。
1702647735
1702647736 均值替换法
1702647737
1702647738 (如果不剔除样本)填补缺失数据有很多种方法。(均值替换法提供了一种让解释变量产生完整数据的方法,在这些方法中,因变量没有被填补;这样做意味着人为地增加回归直线中的样本数从而增强其相关性。)早期研究通常简单地用非缺失值的均值或众数来替换,但这种做法现在被看作是完全不合适的,因为这么做且不做进一步修正的做法会导致回归模型中的估计系数有偏,即便是在MCAR条件下也是如此(Little,1992),并且包含填补数据的变量分布的标准差会向下偏,这进一步导致估计统计量的标准误和置信区间都向下偏。
1702647739
1702647740 另一种在社会科学研究中被广泛应用的方法是缺失指标法(missing indicator):对于每个包含大量缺失数据的自变量,都用均值(或别的常数)替换,并在回归方程中增加一个虚拟变量;如果数值是替换得到的,则赋值为1,否则为0。此方法的一个优点是提供了一个对MCAR假设的检验:如果这些虚拟变量中的任何一个系数(显著地)不为零,那么此数据就不符合MCAR假设。此方法的早期支持者Cohen和Cohen(1975:274)声称此方法修正了缺失数据的非随机性。然而,Jones(1996)证明此方法及其相关的方法(例如,当一个分类变量被转换为一组虚拟变量时,在其中增加一类以表示缺失数据)仍会产生有偏估计。
1702647741
1702647742 最后一种均值替换法是条件均值替换法(conditional mean imputation),此方法是将数据中需填补的变量(仅对此变量有观测值的子样本)对其做变量做回归,然后将得到的预测值替换缺失值;这是Stata10.0中使用-impute-命令的方法。此方法也会产生(通常是向下的)有偏的系数和被低估的标准误。
1702647743
1702647744 所有的均值替换法都存在过度拟合的问题。因为当缺失数据被预测值替换后,得到的完整数据集不能恰当地反映研究过程中的不确定性部分,即每个个体数值的误差项。这表现为标准误过小,即使是在系数本身接近无偏估计的情况下也是如此。正是出于这个原因,另一类填补方法将不确定性考虑进来。这类方法主要有两种:热卡填补法(hotdeck imputation)和贝叶斯多重填补法。〔一种计算上更为简洁的贝叶斯多重填补法由Rubin和Schenker(1986)、Rubin(1987)提出,被称作近似贝叶斯自举法(approximate Bayesian bootstrap),这里不做讨论。〕
1702647745
1702647746 热卡填补法
1702647747
1702647748 这是被美国人口普查局用来建构完整数据供公众使用样本的方法。样本被分成不同的层(与加权个案剔除法和条件均值替换法中的层相似),然后,每层中的每个缺失值被从该层中随机抽取(有放回)的观测到的样本数值替换。结果,在每层中填补样本数值的分布与观测样本数值的分布是(在抽样误差范围内)一致的。当填补模型被正确设置时(即当与某一给定变量的缺失值相关的所有变量都被用来估算缺失值的时候),此方法将产生无偏估计系数,但标准误是有偏的。当大部分个体都存在至少一个缺失值时,这种方法的表现也不佳(Royston,2004:228)。
1702647749
1702647750 完全贝叶斯多重填补法
1702647751
1702647752 此方法于1987年由Rubin介绍,它是目前所使用的标准方法〔另见Paul等(2008)针对多重填补法在实际应用中的优势提出的质疑,或至少是提醒〕。Little和Rubin(2002)对此方法有过经典的阐述,Schafer(1997,1999)提供了更容易理解的说明,此外Allison(2001)也有过阐述。早期的应用,可见Treiman、Bielby和Cheng(1988),以及Schenker、Treiman和Weidman(1993)的著作。
1702647753
1702647754 多重填补法的核心是:首先,利用数据集中的其他变量来预测每个具有缺失值变量的方程。接着,从预测值的分布中随机抽取数值来替换缺失值。因为具有缺失数据的变量可能是另一个有缺失数据变量的预测变量之一,因此此过程需要重复多遍,也就是循环产生预测方程并使用每次更新后的预测值。此过程将所有缺失值填补后将产生一个完整数据集。然后创建若干个这样的数据集——通常是5个,但也有证据表明,数据集更多些会更好(Royston,2004:236-240)。
1702647755
1702647756 其次,对每一个这样的数据集用常规方法进行分析,将得到的系数进行平均或是遵照Rubin法则(Rubin’s Rules)进行合并。这种方法可以产生无偏估计系数,并且考虑了填补过程中增加的不确定性,同时产生无偏的标准误。具体来讲,一个基于M步填补的系数标准误由下面的方程给出:
1702647757
1702647758
1702647759
1702647760
1702647761 即标准误是作为基于每步填补的标准误的平均值估计的(最左边的项),这样就可以反映每步填补计算中估计量的不确定性。此外,上面方程中的另外一项(加号右边部分)表示估计系数在各次填补计算中的变异性,这可以反映出填补计算过程中引入的不确定性。
1702647762
1702647763 要使此方法产生正确的填补值,必须满足两个条件:①分析者能很好地预测缺失值;②在实际模型中,如果缺失值与结果变量相关,那么结果变量需要被纳入填补模型中。
1702647764
1702647765 Stata中执行多重填补过程的程序由Royston编写〔2004,2005a,2005b,2007,以Van Buuren、Boshuizen和Knook(1999)的早期工作为基础〕;为了下载必要的-ado-文件(确保连接了网络),键入-lookup ice-并点击第四个条目“sj-7-4”〔也可见加州大学洛杉矶分校(UCLA)的专业技术服务组针对Royston的-ado-文件写的使用指南;在输入-lookup-命令时它们也会同时出现在结果中〕。使用Royston的软件可以使此过程不再像之前所论述的那样冗长。尽管如此,使用多重填补法计算还是会给你的分析增添更大的复杂性。这项工作的难点和耗时的部分主要在于,如何选择预测变量从而对变量中的缺失值进行估计。
1702647766
1702647767 此方法的核心是确定哪些变量要被纳入模型、进行合适的转换(虚拟变量和交互项),以及设定变量间的关系。这些细节问题在Royston的-ice-命令中都被考虑到了,因此在使用此命令的时候应该用-dryrun-选项,从而在冗长的计算开始之前就可以检验有关的逻辑问题。然后执行填补计算,保存数据集,该数据集包括初始数据的多个副本,每个副本的数据都是完整的,因为缺失值已经被填补上。然而,在每个完整的数据集中,被填补的值一般是不一样的。通过使用-micombine-命令,这种多副本或多重填补后的数据集可用来做任何分析。这个命令可以实现具体的估计过程,如多元回归,它对每个填补的数据进行估计,然后通过合并这些系数得到一个单一的系数(通常是对这些系数取均值),以及一个考虑了填补过程中引入的不确定性的标准误(见方程8.1)。
[ 上一页 ]  [ :1.702647718e+09 ]  [ 下一页 ]