打字猴:1.702647686e+09

1702647686 量化数据分析：通过社会研究检验想法 [:1702644774]

1702647687 量化数据分析：通过社会研究检验想法本章小结

1702647688

1702647689 我们在本章介绍了多元回归分析的各种应用，这有助于我们提高阐释社会过程和检验社会理论的能力。具体来说，我们介绍了因变量和自变量的非线性转换，在一个方程中检验系数等价性的方法，如何评估某一关系的线性假设是否成立，如何构建和解释反映斜率突然变化的线性样条，表示虚拟变量系数的不同方法，以及分解两个均值之差的方法。几个关注历时趋势的具体例子向我们示范了怎样用多元回归方法来研究社会变迁。

1702647690

1702647691 我们在下一章将讨论在非实验性质的社会研究中或许是最令人头痛的问题——某些变量而非所有变量存在缺失数据，并且介绍当前被认为是处理缺失数据的最佳方法——缺失值的多重填补法。

1702647692

1702647693

1702647694

1702647695

1702647696 量化数据分析：通过社会研究检验想法 [:1702644775]

1702647697 量化数据分析：通过社会研究检验想法第8章缺失数据的多重填补法

1702647698

1702647699 量化数据分析：通过社会研究检验想法 [:1702644776]

1702647700 本章内容

1702647701

1702647702 我们在本章介绍有关处理缺失数据的一些问题。我们会回顾处理缺失数据的多种方法，并且了解如何使用当前最先进的填补缺失数据的方法，即多重填补法（multiple imputation），以创建一个完整的数据集。有关有用的填补法的综述，请见Paul等人（2008）的著作，这里的讨论主要来自他们的著作。其他关于缺失数据处理的有用的文献包括Anderson、Basilevsky和Hum（1983），Little（1992），Brick和Kalton（1996），以及Nordholt（1998）。

1702647703

1702647704

1702647705

1702647706

1702647707 量化数据分析：通过社会研究检验想法 [:1702644777]

1702647708 量化数据分析：通过社会研究检验想法引言

1702647709

1702647710 缺失数据是社会研究中一个让人头痛的问题。虽然这种问题很常见，但处理起来却很困难。大多数调查选项中都包含一些无应答的类别，如受访者不知道一些问题的答案或拒绝回答，或者是调查者因疏忽跳过问题或记录无效编码，或者是在键入数据时犯错，等等。行政数据、医院记录，以及其他类型的数据具有类似的问题，如在某些项目上的无效或缺失应答。如果信息出现缺失是因为它对特定的受访者不适用（例如，未婚者的结婚年龄），那么数据缺失不会造成任何问题；因为分析样本会仅仅被定义为那些处于事件“风险”中的人。但是，在其他情况下（原则上应该有应答），如果出现缺失，我们就需要使用特殊程序来处理缺失信息。

1702647711

1702647712 有关缺失数据的统计学文献（Rubin，1987；Little and Rubin，2002）明确区分了三种情况：完全随机缺失（missing completely at random，MCAR）数据，其条件是，对某一特定变量的缺失应答独立于解释模型中任何其他变量的数值和问题中变量的真实值；随机缺失（missing at random，MAR）数据，其条件是，缺失值独立于问题中该变量的真实值，但不独立于解释模型中的某些其他变量；非随机缺失（missing not at random，MNAR）数据，或者说是不可忽略（nonignorable，NI）缺失数据，其条件是，缺失值依赖于问题中变量的真实值，且可能依赖于其他变量。

1702647713

1702647714 注意，这些区分是针对净效应的。也就是说，如果父亲的受教育年限数据缺失和受访者的受教育年限相关，但在控制了受访者的受教育年限之后，父亲受教育年限数据的缺失值和父亲受教育年限的真实值无关，此数据就满足MAR条件。在以上三类划分中用净效应而不用总效应是非常重要的，否则我们将很难找出满足MAR条件的变量。例如，可能父亲受教育年限的缺失值与父亲受教育年限的真实值有关仅仅是因为父亲的受教育年限和受访者的受教育年限相关，而且受教育年限短的受访者比受教育年限长的受访者更可能不知道自己父亲的受教育年限信息。

1702647715

1702647716 不幸的是，至少在截面数据中，没有经验性的方法可用来判断缺失值是否独立于变量的真实值，这使我们必须依赖理论背景的支持。虽然缺失值可能很少完全独立于变量的真实值，但在很多情况下，我们假设在控制了解释模型中的其他变量后这种独立在很大程度上存在也是合理的。这是我们需要关注的。

1702647717

1702647718 NI条件经常在样本选择性偏误（sample selection bias）的问题中被讨论到，即样本基于与因变量相关的变量被选取。此主题已经超出本书的范围（但可见第16章的简要介绍）。有关对样本选择性偏误和可能的修正问题的讨论，可以在Berk和Ray（1982）、Berk（1983）、Breen（1996），及Stolzenberg和Relles（1997）的文献中查到。

1702647719

1702647720 下面我们来回顾处理缺失数据的一系列方法，尤其是贝叶斯多重填补法（Bayesian multiple imputation），它是目前最佳的方法。我们还将展示一个使用此方法的具体例子。

1702647721

1702647722 个案剔除法

1702647723

1702647724 处理缺失数据最常用的方法（这是本书目前所使用的方法）是简单地剔除分析中涉及变量中有缺失信息的样本。如果数据主要是完全随机缺失的，例如由记录、键入，或编码错误，或设计所导致的缺失（问题只问及一个随机子样本），这种处理方法的主要代价是减小了样本规模。这已经够糟糕了，因为样本规模的减小经常是很惊人的。例如，Clark和Altman（2003）报告了一项卵巢癌康复的预测研究，其10个协变量的缺失数据使样本规模减小了56%，从1189减少到518。

1702647725

1702647726 为什么不应该用成对剔除法有时候，为了避免样本规模的大幅度减小，分析者将他们的分析基于“成对-出现”（pairwise-present）的相关系数——对每对变量利用所有可获得的数据计算相关系数。这不是一个好主意，因为它会产生不一致的、经常是不可解释的结果，尤其是在比较嵌套模型时。这在第6章“组间比较的方法”一节中曾讨论过。

1702647727

1702647728 然而，通常情况会更糟糕，因为数据不是完全随机缺失的；相反，特定变量的数据出现或丢失依赖于其他变量的数值。例如，像前面提到过的，所受教育较差的人与受过良好教育的人相比，更不可能知道他们的家族史，以及他们父母的特征；再如，隶属于不同政党的人对某些问题的拒答情况会不同，例如关于政治态度的问题；个体商人会拒绝透露他们的收入，因为害怕信息落到税务机关手里；等等。在这些情况下，用个案剔除法估计的系数一般是有偏的。因此，简单地省略缺失数据会冒严重歪曲分析结果的风险。

1702647729

1702647730 当模型被正确设置，且因变量的数值不受任何自变量缺失值影响时，样本剔除法〔也称个案剔除法（listwise deletion）〕是适用的（Paul et al.，2008）。但是，在社会科学研究中我们实际上并不知道如何完全正确地设置模型。虚拟变量的均值替换法（mean imputation with dummy variables）提供了一种自变量的缺失与因变量是否相关的检验，我们在后面将谈到这个问题；但是，我们依然面临未正确设置模型的问题。在这样一种情况下，个案剔除法是适用的（即当只对随机子样本询问问题时），因为子样本依然是总体的随机样本。但即使是这样，我们也经常得为样本规模的缩小付出沉重代价。

1702647731

1702647732 加权个案剔除法

1702647733

1702647734 当一些变量的总体分布已知或可以被准确估计时（例如，用人口普查或高质量调查数据），与前述个案剔除法类似的另一种方法是剔除具有任何缺失信息的样本，然后对样本加权（或再加权），根据已知变量，例如年龄、性别、民族、受教育年限和地理分布等，使样本反映总体分布。美国人口普查局和大量抽样调查机构都是这样做的，以修正抽样调查中的各类无应答，除此之外，此方法还被用来修改无应答的题项。如果实际模型被正确设置，此方法将产生无偏估计，尽管会导致标准误增大。此外，如果权重明显偏离1，加权也将增大标准误。（Stata的-pweight-功能提供在使用此加权方法的情况下可以得到准确的标准误，但此标准误比未加权数据的标准误更大。）然而，因为我们的模型基本上都是无法被正确设置的，所以此方法的有效性依赖于模型在多大程度上接近于正确的设置，这需要分析者自己做出判断。

1702647735

[ 上一页 ] [ :1.702647686e+09 ] [ 下一页 ]