打字猴:1.70264596e+09
1702645960         7           14
1702645961
1702645962         8           16
1702645963
1702645964         9           18
1702645965
1702645966         10           -1
1702645967
1702645968 按照这种顺序重新编码,重要的是解释你们的赋值选择而不是随意赋值。例如,必须对类别“5年或更多年大学”赋值为“18年”而不是17年或19年的决定说明理由,不能简单臆断。
1702645969
1702645970 注意10“没有信息”这一特殊类别。在进行分析时,我们要么排除此类别,要么做特殊处理。因此,我们给它指定一个特殊编码,既可将其定义为缺失数据(missing data,参见本章后面的讨论),也可以更改。用负数来表示作为缺失数据处理的类别比较方便,因为这样做可以尽量避免由于疏忽大意把这个类别作为有意义的值来处理的可能性。(当我们不需要区分缺失数据的类别时,另一个在Stata中常用的有用方法是用“.”来识别缺失值。当我们想区分缺失值的类别——见本章后面对缺失数据的讨论——时,我们可以分别将其编码为“.a”、“.b”……“.z”之类。)例如,假设我们将“没有信息”这个类别重新编码为99。如果我们随后决定分析至少受过一些大学教育的人群,我们会选择所有受教育年限大于或等于14年的所有样本,这样做就忘记了类别99为“没有信息”。当然,这样做会将那些受过大学教育和受教育年限未知的人都包含在受过最高等的教育类别内。
1702645971
1702645972 把缺失值当作非缺失值来处理 有一个将缺失数据误编为实际数值的知名例子。Guillermina Jasso(1985:237)在文献中表明,每月的性生活频数随妻子年龄的增加而增加——与所有人的期望相反!正如Kahn和Udry所发现的(1986:736),她没有注意到4个异常值,即错误地将4个有缺失值(编码为99)的样本编码为88。当删除这4个样本后,妻子年龄的正效应就消失了。Kahn和Udry也删除了其他4个异常值,从而回答了Jasso(1986)提出的“什么可以被看作异常值”这个问题。在第10章介绍回归诊断时,我们会再次讨论异常值这个问题。
1702645973
1702645974 重新编码的最后一种用途是将顶部打0孔和空白记录的旧调查数据转化为能够用数值处理的数据类型。这可以通过读取字母数字形式的数据,并将它们转化为浮点十进制格式来实现。
1702645975
1702645976 代数变换
1702645977
1702645978 我们有时想用数学运算方式变换变量。当我们介绍回归分析时,这种变换将非常重要,因为有时可以用包含非线性变量的线性方程来表达非线性关系。例如,众所周知,收入和年龄之间存在曲线关系——收入随着年龄的增加而增加,到特定年龄后下降。此关系可以通过构建下面形式的回归方程来表示:
1702645979
1702645980
1702645981
1702645982
1702645983 即收入(=Y)作为年龄和年龄平方的线性函数。为了估计此方程,我们需要创建一个新变量——年龄的平方。因此,我们只需计算
1702645984
1702645985 AGESQ=AGE*AGE      (4.2)
1702645986
1702645987 然后用AGE和AGESQ对Y进行回归。大多数统计软件包的程序都有强大的变换能力,它们一般可以用任何算术运算或任何特别的函数如平方根函数来变换变量。
1702645988
1702645989 列联变换
1702645990
1702645991 变换变量的最后一种方法是在命令中用“if”这个术语。“if”术语是重新编码的一种替代方法,因为它能同时根据几个变量之间的复杂关系来设定新变量,所以这种方法比其他重新编码的方法更灵活。例如,如果我们想区分那些向上流动和没有流动的人,那么我们可以将那些职业声望比父亲的职业声望高的人识别为向上流动的人。这可以通过下面的识别方法来完成:先创建一个新变量MOBILITY,如果变量PRESTIGE比变量PRESTIGE-OF-FATHER大,则赋值为1;其他情况赋值为0。虽然执行这个计算机命令的句法根据所用程序有所变化,但其逻辑通常很简单易懂:创建一个二分变量(dichotomous variable),将那些向上流动的人赋值为1,其他的人赋值为0(这里,“向上流动”被定义为拥有比父亲的职业声望高的职业)。
1702645992
1702645993 另一种列联变换方法是创建一个变量,它是由一组特定的且符合一定标准的应答数构成的变量。例如,我们可能会创建一个测量接受堕胎的量表,这个量表是通过对一组有关在什么条件下允许堕胎的问题,计算在多少项上回答为“堕胎是合法的”(或“接受”)来得到。
1702645994
1702645995 列联表述不仅可用来变换变量而且可用来选择分析样本。例如,如果我们对分析生育史感兴趣,那么我们会将样本限定为年龄在45岁及以上的女性。在一些计算机统计软件包(如SPSS)中,通过选择一个子样本并只对此样本进行操作即可。尽管其他软件包(如Stata)也可以选择子样本,但这些软件包通常把选择样本作为每条命令的一部分。
1702645996
1702645997 缺失数据
1702645998
1702645999 数据集中经常会出现某些变量的信息缺失。缺失数据的原因不胜枚举,例如,通过访问抽样人群获得的数据集,有些信息就可能永远不能从受访者那里得到,这是由误差或设计等因素造成的(一些问题可能“不适合”某类群体,例如,未婚者配偶的受教育程度;有时为了增加问卷长度同时避免给受访者增加太多负担,增加的问题只要求随机抽取的部分受访者回答——GSS经常这样做)。受访者可能拒绝回答一些问题,也可能通过声称“不知道”或“没有意见”来回答一些问题,或者给出一些逻辑上不一致的回答(例如,在婚姻状态这道题上选择了“未婚”这个选项,但又给出了具体的“初婚年龄”)。访问员可能没有记录受访者的答案或者记录不正确。在准备分析数据的过程中也可能产生错误——如编码人员错误地将叙述式回答归入编码类别,或在数据录入过程中将正确的编码键入错误。类似的棘手问题在其他类型的数据集中也同样存在。官方数据通常不完整,而且经常存在不一致的信息。
1702646000
1702646001 人们一般愿意配合(精心设计和精心管理的)调查 有趣的是,当问卷设计得很好时,拒绝回答某些敏感问题的人是很少的。总的来说,人们很高兴有人问自己的意见及谈论自己。在调查分析界有一个著名的故事,是关于印第安纳波利斯生育调查的,这是明确询问性行为的最早的调查之一。一位访问员惴惴不安地拿着问卷去做预调查,不知道妇女会如何回答有关“性关系”这样的敏感问题。完全出乎意料,访谈进展得很顺利——直到即将结束时,当访问员开始询问有关个人的基本信息时(即问受访者的年龄时),女士愤怒地挺直身子说:“现在你开始打探个人的隐私了!”
1702646002
1702646003 当然,这也存在例外,即人们担心填写自己的信息——如收入——将给自己带来危害,他们担心这些信息会被税务当局获悉。
1702646004
1702646005 在高质量的调查中,最大的困难是最小化误差。在读取数据集以进行分析时,数据是被清理过的(cleaned),也就是说,被编辑过从而能够被识别,并且如果可能的话修改了不恰当的编码(与有效应答类别不一致的编码),以及逻辑上不可能的编码组合。例如,当一名受访者声称自己未婚但却同时给出了初婚年龄时,有时可以通过查看这个人对其他问题的回答来决定哪个是正确的,哪个是不正确的。当不可能做到这一点时,可能需要联系受访者以更改不一致的地方。
1702646006
1702646007 当然,错误有可能在编辑过程中被引入,也可能在更正过程中被引入。例如,我在威斯康星州麦迪逊市的时候,曾看到为了1970年美国人口普查于1968年进行的预调查的现场编辑操作工作。在此次操作中,作为人口普查局临时雇员的中产阶级家庭妇女负责“更正”人口普查表中的一类缺失值,即如果女性在人口普查表中未填写婚姻状态但在后面提到有孩子,则把婚姻状态“更正”为“已婚”。当然,在1968年有些未填写婚姻状态的母亲实际上可能是未婚母亲,她们通过故意忽略而回避回答这个问题。这种使得世界更加有序的编辑操作——威斯康星州的中产阶级妇女这样认为——被认为是不应该发生的,但它的确发生了。
1702646008
1702646009 在编辑过程中,要给非实质性回答的各种类别指定明确的编码,依照每个变量的类别应该相互排斥且穷尽的原则——这种设计保证每个个体对应于每个变量有且仅有一个编码。例如,一个编码可能被指定为“不知道”,另一个编码被指定为“拒答”,还有一个编码被指定为“不适用”,当空白项也需要被指定一个编码时则需要另外设定一个编码。通常情况下,这是一种好的做法,将非实质性回答区分为不同形式,从而保证在数据分析过程中能灵活处理这些不同类别。例如,像前面讲到的,对某一态度问题的“不知道”应答可能被看作无应答或某种介于正面和负面之间的中性回答。如果在编码过程中将“不知道”与“没有回答”合并在一起,那么就不可能做这样的区分。总之,详细保存实质性应答的编码非常重要(这在前一章的“合并类别以表达新概念”部分讨论过),出于同样的理由,详细保存非实质性应答的编码也同样重要。
[ 上一页 ]  [ :1.70264596e+09 ]  [ 下一页 ]