1702646000
1702646001
人们一般愿意配合(精心设计和精心管理的)调查 有趣的是,当问卷设计得很好时,拒绝回答某些敏感问题的人是很少的。总的来说,人们很高兴有人问自己的意见及谈论自己。在调查分析界有一个著名的故事,是关于印第安纳波利斯生育调查的,这是明确询问性行为的最早的调查之一。一位访问员惴惴不安地拿着问卷去做预调查,不知道妇女会如何回答有关“性关系”这样的敏感问题。完全出乎意料,访谈进展得很顺利——直到即将结束时,当访问员开始询问有关个人的基本信息时(即问受访者的年龄时),女士愤怒地挺直身子说:“现在你开始打探个人的隐私了!”
1702646002
1702646003
当然,这也存在例外,即人们担心填写自己的信息——如收入——将给自己带来危害,他们担心这些信息会被税务当局获悉。
1702646004
1702646005
在高质量的调查中,最大的困难是最小化误差。在读取数据集以进行分析时,数据是被清理过的(cleaned),也就是说,被编辑过从而能够被识别,并且如果可能的话修改了不恰当的编码(与有效应答类别不一致的编码),以及逻辑上不可能的编码组合。例如,当一名受访者声称自己未婚但却同时给出了初婚年龄时,有时可以通过查看这个人对其他问题的回答来决定哪个是正确的,哪个是不正确的。当不可能做到这一点时,可能需要联系受访者以更改不一致的地方。
1702646006
1702646007
当然,错误有可能在编辑过程中被引入,也可能在更正过程中被引入。例如,我在威斯康星州麦迪逊市的时候,曾看到为了1970年美国人口普查于1968年进行的预调查的现场编辑操作工作。在此次操作中,作为人口普查局临时雇员的中产阶级家庭妇女负责“更正”人口普查表中的一类缺失值,即如果女性在人口普查表中未填写婚姻状态但在后面提到有孩子,则把婚姻状态“更正”为“已婚”。当然,在1968年有些未填写婚姻状态的母亲实际上可能是未婚母亲,她们通过故意忽略而回避回答这个问题。这种使得世界更加有序的编辑操作——威斯康星州的中产阶级妇女这样认为——被认为是不应该发生的,但它的确发生了。
1702646008
1702646009
在编辑过程中,要给非实质性回答的各种类别指定明确的编码,依照每个变量的类别应该相互排斥且穷尽的原则——这种设计保证每个个体对应于每个变量有且仅有一个编码。例如,一个编码可能被指定为“不知道”,另一个编码被指定为“拒答”,还有一个编码被指定为“不适用”,当空白项也需要被指定一个编码时则需要另外设定一个编码。通常情况下,这是一种好的做法,将非实质性回答区分为不同形式,从而保证在数据分析过程中能灵活处理这些不同类别。例如,像前面讲到的,对某一态度问题的“不知道”应答可能被看作无应答或某种介于正面和负面之间的中性回答。如果在编码过程中将“不知道”与“没有回答”合并在一起,那么就不可能做这样的区分。总之,详细保存实质性应答的编码非常重要(这在前一章的“合并类别以表达新概念”部分讨论过),出于同样的理由,详细保存非实质性应答的编码也同样重要。
1702646010
1702646011
分析带有缺失数据的调查
1702646012
1702646013
假设数据是以这种方式编码保留了所有相关的差别,分析者将面临一系列如何定义和对待“缺失数据”的决定。第一个问题是实质性的:哪个回答可被看作实质上有意义的而哪个回答代表信息缺失呢?一个典型的例子就是前面讨论过的如何处理有关态度问题的“不知道”回答。另一种在表格分析中经常出现的情况就是怎样对待数量很小的类别。例如,一个美国样本中有关种族问题的“其他”类别(既不是白人也不是黑人的类别)。一种方便的做法是从分析中删除此类别。但这不是一种好方法——数据应该对研究的总体而言有代表性。因此,如果你们正在研究美国成年人口,那么表格应该指全部成年人口,而不仅仅是白人和黑人。解决这个问题的一个简单方法是创建一个剩余类别“其他”,将它放在表中但不讨论。这样做是出于完整性的考虑——这样也使读者可以出于别的目的重新组织表格——但通常不做具体讨论,因为剩余类别样本数量较少且异质性较大,讨论它们一般没有什么意义。
1702646014
1702646015
另一个更麻烦的问题是,有时表格中的一些变量真的没有包含任何信息。比如受访者没有报告他们的受教育程度或收入。同理,我们可以在表的每一行或每一列添加“没有回答”这个类别。当存在很多缺失数据时,这是一种明智的做法。但如果仅有个别数据缺失,因类别增加导致表格变大难免显得不太合理。在这种情况下,简单的做法是给表格加条脚注,报告有多少样本缺失。
1702646016
1702646017
当变量是连续型的时候,我们要么从分析中删除缺失值,要么用某种方法填补它们。第8章将介绍缺失数据的处理问题。
1702646018
1702646019
多数统计软件包程序允许分析者指定哪些编码为缺失值(missing values)(从某种意义上讲确实需要这种指定,因为无论你是有意还是无意,没有被指定为缺失值的任何编码都被包括在计算中)。一般来说,各种统计软件包程序在不同步骤(命令)上处理缺失数据会不完全一致,所以准确理解每一步在做什么,并相应地设计你们的分析是非常重要的。在设计分析时,你们必须知道每一步程序将如何处理数据中每个逻辑上可能的编码,尤其包括那些被指定为缺失值的编码,否则你们很有可能会遇到麻烦。
1702646020
1702646021
在前面讨论的有关受教育程度的例子中,“缺失信息”被编码为-1。当计算均值时,我们一般会声明-1是受教育程度的缺失值。在SPSS句法中,缺失值在程序中是被明确注明的,即“missing values educ(-1)”;在Stata中,正如前面讲到的,缺失值会通过赋予其中一种“缺失值”编码的方式被自动排除,或通过用如果(if)条件语句限定样本的步骤来准确地加以排除:…if educ~=-1(即如果EDUC不等于-1)。这些语句告诉计算机在计算均值时删掉所有受教育程度编码为-1(或为指定的缺失值编码)的个人。忽略此步骤会导致一个不正确的均值,因为那些编码为-1年受教育年限的人被包括在计算中。这类错误很常见,这就是为什么反复检查命令的逻辑是非常必要的。一种有效的检查方法是对原始变量的特定赋值逐行查看计算机命令的逻辑,看计算机是如何在每一步中变换它们的。
1702646022
1702646023
数据分析新手常遇到的一个问题是,他们在进行计算时,发现计算机输出结果中没有样本或样本很少。这通常是数据变换的逻辑错误导致的结果。例如,考虑一个收入变量,其原始编码是一组表达收入范围的类别,如1=每年少于3000美元,2=3000~4999美元,等等,但同时用97、98、99表示各种无应答类别。如果分析者将收入类别重新编码为这些范围的中点,如将1重新编码为1500美元,2为4000美元,等等,但随后忘了这一点,仍然指定编码大于或等于97的样本为缺失值,结果是所有的样本都会被排除,因为所有报告了收入的样本被重新编码为上千元的数值,即大于97。如果你认为这些不会发生在自己身上,那我们就等你试的时候瞧瞧!这在我们所有人身上都发生过。关键是要在你建构整个理论体系之前发现这些逻辑上相似但有细微差别的错误。
1702646024
1702646025
1702646026
1702646027
1702646029
量化数据分析:通过社会研究检验想法 本章小结
1702646030
1702646031
本章是对计算机执行统计计算的一个介绍,涉及一些社会科学计算的发展史,更多地关注处理数据的逻辑和缺失数据的处理方法。因此,本章可以看作学习任何统计软件包程序——如我们在本书后面章节将使用的软件包Stata,或其他软件包如SPSS或SAS——的入门基础。
1702646032
1702646033
我们在下一章开始介绍一般线性模型,该介绍将从细致讨论双变量相关和回归开始。
1702646034
1702646035
1702646036
1702646037
1702646039
量化数据分析:通过社会研究检验想法 附录 用Stata进行分析
1702646040
1702646041
用Stata进行分析的一些建议
1702646042
1702646043
本附录提供了一些简单建议,它们会使你们在用Stata进行分析的时候更加容易和有效率。此外,附录列出了一些容易被忽略但特别实用的命令。
1702646044
1702646045
用-do-文件做所有工作
1702646046
1702646047
你们应该从一开始就养成通过创建命令文件来进行所有分析的习惯,Stata术语称之为“-do-文件”。这样做主要有两个优点:在正确分析之前很容易重复尝试不同的分析,并且容易记录你们的分析。而对你们的分析保留一份日志却并不总是必要的(当然,尽管你们必须创建一个-log-文件来保存你们的输出结果),因为日志完整地记录了所有输出错误和错误步骤,这使你们很难一下子找到分析正确的路径,并且还会重复记录你们的分析结果。这里有一个例子(是我曾创建的-do-文件的一部分),你们可以用作一个标准格式的参考。我创建的每个-do-文件的开头部分都用这组命令。文件中的命令用英文字体Courier New来表示,在方括号中的内容是我的评论。
1702646048
1702646049
capture log close
[
上一页 ]
[ :1.702646e+09 ]
[
下一页 ]