打字猴:1.702647868e+09

1702647868 量化数据分析：通过社会研究检验想法 [:1702644781]

1702647869 本章内容

1702647870

1702647871 到目前为止，本书所讨论的统计推断议题，仍是基于对简单随机样本的分析，并假设我们所分析的数据符合常规最小二乘法（OLS）所要求的数据分布特征。在实际情况下，这两个假设都无法得到满足。因此在熟悉回归模型的操作和解释后，现在是该扩展我们的分析工具从而对全国性调查中常用的复杂样本做出正确的统计推断的时候了。我们也会介绍如何识别异常数据，并在可能的情况下进行修正。在本章中你会看到，这两个议题密切相关。

1702647872

1702647873 我将先介绍调查研究中常用的样本类型，然后讨论复杂抽样设计会导致的统计推断问题。接着，我将介绍针对OLS回归模型的一系列诊断方法，以及如何对诊断过程中所揭示出来的问题加以修正。

1702647874

1702647875

1702647876

1702647877

1702647878 量化数据分析：通过社会研究检验想法 [:1702644782]

1702647879 量化数据分析：通过社会研究检验想法调查样本

1702647880

1702647881 从基础统计学可知，我们需要概率样本（probability sample）来用样本推论总体。基于不同的目标，有三种基本的概率样本。

1702647882

1702647883 （1）简单随机（simple random）样本，即总体中的每个个体被选入样本的机会相同（被选中的概率相等这一条件决定了样本的随机性）。

1702647884

1702647885 （2）多阶段概率（multistage probability）样本。它们只是较复杂的随机样本，先在总体中随机抽取初级单位，然后再在随机抽取的初级单位中继续随机抽取次级单位，依此类推。以区域概率样本为例，我们先随机抽取市县，然后在抽中的区域内再随机选择街区，并以同样的方法在街区内抽取家户，在家户内抽取个人；又如，要获得一个学生样本，我们可以先随机抽取学区，然后在学区中随机抽取学校，并依次在学校中抽取班级，在班级中抽取学生。

1702647886

1702647887 （3）分层概率（stratified probability）样本同样是复杂随机样本。在分层抽样中我们先根据某些特征（种族、性别、居住地等）将总体分层，然后在各层中抽取概率样本，通常我们会对层使用不同的抽样比率——例如，为保证分析中有足够的黑人样本，我们会给黑人一个更高的抽样比率。

1702647888

1702647889 简单随机样本

1702647890

1702647891 我们先考虑简单随机样本。随机抽样需要一份总体中所包含的所有个体的列表，并且用随机方法从总体中抽取部分个体。在电脑还未诞生的时代，随机抽样的典型方法是参考随机数表。表9-1给出了随机数表的一部分。

1702647892

1702647893 表9-1 随机数表的一部分

1702647894

1702647895

1702647896

1702647897

1702647898 假设我们想使用如表9-1所示的随机数表从一个40人的班级中抽取10人的随机样本，我们可以按1～40的顺序罗列出班级中的40人，并设计一种在表9-1中查询的规则。比如我们可以逐行查找，并对找到的每一个五位数，先选取其头两位数，再选取其后两位数。（这种规则当然是随意的，但这并没有任何影响。因为数字是按随机顺序排列的，因而规则之间没有差别，只要我们在操作过程中保持规则一致就可以。）按照这个规则，我们遇到的第一个数字是10。因而我们抽取班级列表中的第10个人。接下来的数字是80，但由于它超出了1～40的范围，所以我们略过它。随后我们相继遇到15、11、1、36和2，并再次遇到11。严格地讲，我们应该选取第11个人两次。但从实际出发，这种做法显然并不合适。因而在实际操作中，我们几乎总是采用无重复（without replacement）抽样。这当然会造成一定的统计学后果，但相对于我们在调查研究中一般处理的人口规模而言却无关紧要。采用无重复抽样，当我们第二次遇到第11个个案时，只要略过它即可。

1702647899

1702647900 我们选取接下来落入1～40这个区间且之前未曾出现过的数字来完成我们的样本，它们是：22、25、30和24。这样我们获得包含10个人的样本，包括40人列表中的第1、2、10、11、15、22、24、25、30和36位。由于我们的抽样规则保证了40人中的每个人都具有同样被选中的机会，因而该样本是随机的。

1702647901

1702647902 现在这类抽样常在电脑的辅助下完成，我们构建总体中所有成员的序列表，并从表中进行随机抽样，抽样原理完全一致。显然，一个包含总体中所有个体的列表是必需的。但获取这样一份列表却并非总是易事，而且经常是不现实的，比如我们无法获得美国人口的完整列表。

1702647903

1702647904 在有些情况下，总体列表虽然可以获得，但却不是电脑可读的格式。此时我们会用系统抽样代替随机抽样。先随机选择一个起点，然后在表中每间隔k个样本进行抽样，其中k是总体规模与样本规模之比。在当前的例子中，我们可以简单地选择一个随机起点，比如用随机数表选取第一个人，然后在班级列表中每隔4名学生选取一人，并在必要时由列表末端再循环到开始，最终从40人的班级中得到一个10人的样本。

1702647905

1702647906 在现实中，系统抽样具有与随机抽样非常相似的性质（Sudman，1976：56-57），我们一般将其作为随机样本处理。在某些方面它们甚至优于随机样本，因为不管样本的何种特征与其排列的顺序相关，系统抽样都可以对样本进行有效的分层（比如当人口按字母顺序排列时，种族就与样本的排列顺序相关；见本章稍后“用分层抵消整群效应”一节中的讨论）。我对简单随机抽样的所有讨论同样适用于系统抽样。

1702647907

1702647908 多阶段概率样本

1702647909

1702647910 简单随机抽样只在有限的条件下适用，即在可获得总体的完整列表，并且从某个中心可以通过电话、信函或网络与所有受访者联络的时候。在对美国人口进行全国性样本的面对面家访时——访谈是调查者在受访者家里进行的——这两项条件都无法得到满足。第一，像之前我们提到的，美国人口没有全国性的登记，所以根本不可能从总体中抽取简单随机样本。第二，即使可能抽取这样一个样本，走访那些分散在全国的受访者的高昂成本也令人望而却步。因此关于抽样和实地调查的双重考虑都促使我们设计针对全国家户调查的多阶段概率样本。

1702647911

1702647912 电话调查因为较之面对面访谈成本更为低廉，电话调查（telephone surveys）正被日益广泛地使用。在美国，目前重要的学术调查中心进行的全国性概率抽样调查中每份问卷的一小时面访需花费大约300美元，相比之下，同样时间长度的电话访谈只需150美元。除了成本之外，电话调查的主要优点是可以接近那些很难亲自入户访谈的家户，比如在有保安守卫的社区或设门禁的建筑，以及人们不愿接受访谈的犯罪高发地带（而且调查员也不愿去此类社区工作）。但另一方面，通过电话与受访者密切互动并询问复杂的问题是很困难的，因而电话访谈必须比面访简短，以缓解受访者的疲劳情绪。此外，在一个很少有人擅长大声朗读的时代，我们很难找到胜任的电话调查员。

1702647913

1702647914 电话调查的最终困难在于受访者越来越强的敌对态度。电话销售扰乱了合法的电话调查研究领域，尤其是自一些电话销售代理声称正在进行某项调查以作为引导人们进入谈话的工具以来。

1702647915

1702647916 在抽样方面，电话访谈一般比入户访谈容易，因为从原则上讲我们可以随机拨号以进行随机抽样。但我们仍需要采取一定的措施筛选出商业电话，并调整多电话用户带来的误差。移动电话、传真机和来电过滤设备的激增也带来了一些新的麻烦。尽管如此，因为几乎所有的美国家庭都拥有电话，所以抽样误差这一问题并不严重。当然，在许多其他国家，这或许是一个主要的问题。

1702647917

[ 上一页 ] [ :1.702647868e+09 ] [ 下一页 ]