打字猴:1.702647707e+09
1702647707 量化数据分析:通过社会研究检验想法 [:1702644777]
1702647708 量化数据分析:通过社会研究检验想法 引言
1702647709
1702647710 缺失数据是社会研究中一个让人头痛的问题。虽然这种问题很常见,但处理起来却很困难。大多数调查选项中都包含一些无应答的类别,如受访者不知道一些问题的答案或拒绝回答,或者是调查者因疏忽跳过问题或记录无效编码,或者是在键入数据时犯错,等等。行政数据、医院记录,以及其他类型的数据具有类似的问题,如在某些项目上的无效或缺失应答。如果信息出现缺失是因为它对特定的受访者不适用(例如,未婚者的结婚年龄),那么数据缺失不会造成任何问题;因为分析样本会仅仅被定义为那些处于事件“风险”中的人。但是,在其他情况下(原则上应该有应答),如果出现缺失,我们就需要使用特殊程序来处理缺失信息。
1702647711
1702647712 有关缺失数据的统计学文献(Rubin,1987;Little and Rubin,2002)明确区分了三种情况:完全随机缺失(missing completely at random,MCAR)数据,其条件是,对某一特定变量的缺失应答独立于解释模型中任何其他变量的数值和问题中变量的真实值;随机缺失(missing at random,MAR)数据,其条件是,缺失值独立于问题中该变量的真实值,但不独立于解释模型中的某些其他变量;非随机缺失(missing not at random,MNAR)数据,或者说是不可忽略(nonignorable,NI)缺失数据,其条件是,缺失值依赖于问题中变量的真实值,且可能依赖于其他变量。
1702647713
1702647714 注意,这些区分是针对净效应的。也就是说,如果父亲的受教育年限数据缺失和受访者的受教育年限相关,但在控制了受访者的受教育年限之后,父亲受教育年限数据的缺失值和父亲受教育年限的真实值无关,此数据就满足MAR条件。在以上三类划分中用净效应而不用总效应是非常重要的,否则我们将很难找出满足MAR条件的变量。例如,可能父亲受教育年限的缺失值与父亲受教育年限的真实值有关仅仅是因为父亲的受教育年限和受访者的受教育年限相关,而且受教育年限短的受访者比受教育年限长的受访者更可能不知道自己父亲的受教育年限信息。
1702647715
1702647716 不幸的是,至少在截面数据中,没有经验性的方法可用来判断缺失值是否独立于变量的真实值,这使我们必须依赖理论背景的支持。虽然缺失值可能很少完全独立于变量的真实值,但在很多情况下,我们假设在控制了解释模型中的其他变量后这种独立在很大程度上存在也是合理的。这是我们需要关注的。
1702647717
1702647718 NI条件经常在样本选择性偏误(sample selection bias)的问题中被讨论到,即样本基于与因变量相关的变量被选取。此主题已经超出本书的范围(但可见第16章的简要介绍)。有关对样本选择性偏误和可能的修正问题的讨论,可以在Berk和Ray(1982)、Berk(1983)、Breen(1996),及Stolzenberg和Relles(1997)的文献中查到。
1702647719
1702647720 下面我们来回顾处理缺失数据的一系列方法,尤其是贝叶斯多重填补法(Bayesian multiple imputation),它是目前最佳的方法。我们还将展示一个使用此方法的具体例子。
1702647721
1702647722 个案剔除法
1702647723
1702647724 处理缺失数据最常用的方法(这是本书目前所使用的方法)是简单地剔除分析中涉及变量中有缺失信息的样本。如果数据主要是完全随机缺失的,例如由记录、键入,或编码错误,或设计所导致的缺失(问题只问及一个随机子样本),这种处理方法的主要代价是减小了样本规模。这已经够糟糕了,因为样本规模的减小经常是很惊人的。例如,Clark和Altman(2003)报告了一项卵巢癌康复的预测研究,其10个协变量的缺失数据使样本规模减小了56%,从1189减少到518。
1702647725
1702647726 为什么不应该用成对剔除法 有时候,为了避免样本规模的大幅度减小,分析者将他们的分析基于“成对-出现”(pairwise-present)的相关系数——对每对变量利用所有可获得的数据计算相关系数。这不是一个好主意,因为它会产生不一致的、经常是不可解释的结果,尤其是在比较嵌套模型时。这在第6章“组间比较的方法”一节中曾讨论过。
1702647727
1702647728 然而,通常情况会更糟糕,因为数据不是完全随机缺失的;相反,特定变量的数据出现或丢失依赖于其他变量的数值。例如,像前面提到过的,所受教育较差的人与受过良好教育的人相比,更不可能知道他们的家族史,以及他们父母的特征;再如,隶属于不同政党的人对某些问题的拒答情况会不同,例如关于政治态度的问题;个体商人会拒绝透露他们的收入,因为害怕信息落到税务机关手里;等等。在这些情况下,用个案剔除法估计的系数一般是有偏的。因此,简单地省略缺失数据会冒严重歪曲分析结果的风险。
1702647729
1702647730 当模型被正确设置,且因变量的数值不受任何自变量缺失值影响时,样本剔除法〔也称个案剔除法(listwise deletion)〕是适用的(Paul et al.,2008)。但是,在社会科学研究中我们实际上并不知道如何完全正确地设置模型。虚拟变量的均值替换法(mean imputation with dummy variables)提供了一种自变量的缺失与因变量是否相关的检验,我们在后面将谈到这个问题;但是,我们依然面临未正确设置模型的问题。在这样一种情况下,个案剔除法是适用的(即当只对随机子样本询问问题时),因为子样本依然是总体的随机样本。但即使是这样,我们也经常得为样本规模的缩小付出沉重代价。
1702647731
1702647732 加权个案剔除法
1702647733
1702647734 当一些变量的总体分布已知或可以被准确估计时(例如,用人口普查或高质量调查数据),与前述个案剔除法类似的另一种方法是剔除具有任何缺失信息的样本,然后对样本加权(或再加权),根据已知变量,例如年龄、性别、民族、受教育年限和地理分布等,使样本反映总体分布。美国人口普查局和大量抽样调查机构都是这样做的,以修正抽样调查中的各类无应答,除此之外,此方法还被用来修改无应答的题项。如果实际模型被正确设置,此方法将产生无偏估计,尽管会导致标准误增大。此外,如果权重明显偏离1,加权也将增大标准误。(Stata的-pweight-功能提供在使用此加权方法的情况下可以得到准确的标准误,但此标准误比未加权数据的标准误更大。)然而,因为我们的模型基本上都是无法被正确设置的,所以此方法的有效性依赖于模型在多大程度上接近于正确的设置,这需要分析者自己做出判断。
1702647735
1702647736 均值替换法
1702647737
1702647738 (如果不剔除样本)填补缺失数据有很多种方法。(均值替换法提供了一种让解释变量产生完整数据的方法,在这些方法中,因变量没有被填补;这样做意味着人为地增加回归直线中的样本数从而增强其相关性。)早期研究通常简单地用非缺失值的均值或众数来替换,但这种做法现在被看作是完全不合适的,因为这么做且不做进一步修正的做法会导致回归模型中的估计系数有偏,即便是在MCAR条件下也是如此(Little,1992),并且包含填补数据的变量分布的标准差会向下偏,这进一步导致估计统计量的标准误和置信区间都向下偏。
1702647739
1702647740 另一种在社会科学研究中被广泛应用的方法是缺失指标法(missing indicator):对于每个包含大量缺失数据的自变量,都用均值(或别的常数)替换,并在回归方程中增加一个虚拟变量;如果数值是替换得到的,则赋值为1,否则为0。此方法的一个优点是提供了一个对MCAR假设的检验:如果这些虚拟变量中的任何一个系数(显著地)不为零,那么此数据就不符合MCAR假设。此方法的早期支持者Cohen和Cohen(1975:274)声称此方法修正了缺失数据的非随机性。然而,Jones(1996)证明此方法及其相关的方法(例如,当一个分类变量被转换为一组虚拟变量时,在其中增加一类以表示缺失数据)仍会产生有偏估计。
1702647741
1702647742 最后一种均值替换法是条件均值替换法(conditional mean imputation),此方法是将数据中需填补的变量(仅对此变量有观测值的子样本)对其做变量做回归,然后将得到的预测值替换缺失值;这是Stata10.0中使用-impute-命令的方法。此方法也会产生(通常是向下的)有偏的系数和被低估的标准误。
1702647743
1702647744 所有的均值替换法都存在过度拟合的问题。因为当缺失数据被预测值替换后,得到的完整数据集不能恰当地反映研究过程中的不确定性部分,即每个个体数值的误差项。这表现为标准误过小,即使是在系数本身接近无偏估计的情况下也是如此。正是出于这个原因,另一类填补方法将不确定性考虑进来。这类方法主要有两种:热卡填补法(hotdeck imputation)和贝叶斯多重填补法。〔一种计算上更为简洁的贝叶斯多重填补法由Rubin和Schenker(1986)、Rubin(1987)提出,被称作近似贝叶斯自举法(approximate Bayesian bootstrap),这里不做讨论。〕
1702647745
1702647746 热卡填补法
1702647747
1702647748 这是被美国人口普查局用来建构完整数据供公众使用样本的方法。样本被分成不同的层(与加权个案剔除法和条件均值替换法中的层相似),然后,每层中的每个缺失值被从该层中随机抽取(有放回)的观测到的样本数值替换。结果,在每层中填补样本数值的分布与观测样本数值的分布是(在抽样误差范围内)一致的。当填补模型被正确设置时(即当与某一给定变量的缺失值相关的所有变量都被用来估算缺失值的时候),此方法将产生无偏估计系数,但标准误是有偏的。当大部分个体都存在至少一个缺失值时,这种方法的表现也不佳(Royston,2004:228)。
1702647749
1702647750 完全贝叶斯多重填补法
1702647751
1702647752 此方法于1987年由Rubin介绍,它是目前所使用的标准方法〔另见Paul等(2008)针对多重填补法在实际应用中的优势提出的质疑,或至少是提醒〕。Little和Rubin(2002)对此方法有过经典的阐述,Schafer(1997,1999)提供了更容易理解的说明,此外Allison(2001)也有过阐述。早期的应用,可见Treiman、Bielby和Cheng(1988),以及Schenker、Treiman和Weidman(1993)的著作。
1702647753
1702647754 多重填补法的核心是:首先,利用数据集中的其他变量来预测每个具有缺失值变量的方程。接着,从预测值的分布中随机抽取数值来替换缺失值。因为具有缺失数据的变量可能是另一个有缺失数据变量的预测变量之一,因此此过程需要重复多遍,也就是循环产生预测方程并使用每次更新后的预测值。此过程将所有缺失值填补后将产生一个完整数据集。然后创建若干个这样的数据集——通常是5个,但也有证据表明,数据集更多些会更好(Royston,2004:236-240)。
1702647755
1702647756 其次,对每一个这样的数据集用常规方法进行分析,将得到的系数进行平均或是遵照Rubin法则(Rubin’s Rules)进行合并。这种方法可以产生无偏估计系数,并且考虑了填补过程中增加的不确定性,同时产生无偏的标准误。具体来讲,一个基于M步填补的系数标准误由下面的方程给出:
[ 上一页 ]  [ :1.702647707e+09 ]  [ 下一页 ]