1702645950
2 2.5
1702645951
1702645952
3 6
1702645953
1702645954
4 8
1702645955
1702645956
5 10
1702645957
1702645958
6 12
1702645959
1702645960
7 14
1702645961
1702645962
8 16
1702645963
1702645964
9 18
1702645965
1702645966
10 -1
1702645967
1702645968
按照这种顺序重新编码,重要的是解释你们的赋值选择而不是随意赋值。例如,必须对类别“5年或更多年大学”赋值为“18年”而不是17年或19年的决定说明理由,不能简单臆断。
1702645969
1702645970
注意10“没有信息”这一特殊类别。在进行分析时,我们要么排除此类别,要么做特殊处理。因此,我们给它指定一个特殊编码,既可将其定义为缺失数据(missing data,参见本章后面的讨论),也可以更改。用负数来表示作为缺失数据处理的类别比较方便,因为这样做可以尽量避免由于疏忽大意把这个类别作为有意义的值来处理的可能性。(当我们不需要区分缺失数据的类别时,另一个在Stata中常用的有用方法是用“.”来识别缺失值。当我们想区分缺失值的类别——见本章后面对缺失数据的讨论——时,我们可以分别将其编码为“.a”、“.b”……“.z”之类。)例如,假设我们将“没有信息”这个类别重新编码为99。如果我们随后决定分析至少受过一些大学教育的人群,我们会选择所有受教育年限大于或等于14年的所有样本,这样做就忘记了类别99为“没有信息”。当然,这样做会将那些受过大学教育和受教育年限未知的人都包含在受过最高等的教育类别内。
1702645971
1702645972
把缺失值当作非缺失值来处理 有一个将缺失数据误编为实际数值的知名例子。Guillermina Jasso(1985:237)在文献中表明,每月的性生活频数随妻子年龄的增加而增加——与所有人的期望相反!正如Kahn和Udry所发现的(1986:736),她没有注意到4个异常值,即错误地将4个有缺失值(编码为99)的样本编码为88。当删除这4个样本后,妻子年龄的正效应就消失了。Kahn和Udry也删除了其他4个异常值,从而回答了Jasso(1986)提出的“什么可以被看作异常值”这个问题。在第10章介绍回归诊断时,我们会再次讨论异常值这个问题。
1702645973
1702645974
重新编码的最后一种用途是将顶部打0孔和空白记录的旧调查数据转化为能够用数值处理的数据类型。这可以通过读取字母数字形式的数据,并将它们转化为浮点十进制格式来实现。
1702645975
1702645976
代数变换
1702645977
1702645978
我们有时想用数学运算方式变换变量。当我们介绍回归分析时,这种变换将非常重要,因为有时可以用包含非线性变量的线性方程来表达非线性关系。例如,众所周知,收入和年龄之间存在曲线关系——收入随着年龄的增加而增加,到特定年龄后下降。此关系可以通过构建下面形式的回归方程来表示:
1702645979
1702645980
1702645981
1702645982
1702645983
即收入(=Y)作为年龄和年龄平方的线性函数。为了估计此方程,我们需要创建一个新变量——年龄的平方。因此,我们只需计算
1702645984
1702645985
AGESQ=AGE*AGE (4.2)
1702645986
1702645987
然后用AGE和AGESQ对Y进行回归。大多数统计软件包的程序都有强大的变换能力,它们一般可以用任何算术运算或任何特别的函数如平方根函数来变换变量。
1702645988
1702645989
列联变换
1702645990
1702645991
变换变量的最后一种方法是在命令中用“if”这个术语。“if”术语是重新编码的一种替代方法,因为它能同时根据几个变量之间的复杂关系来设定新变量,所以这种方法比其他重新编码的方法更灵活。例如,如果我们想区分那些向上流动和没有流动的人,那么我们可以将那些职业声望比父亲的职业声望高的人识别为向上流动的人。这可以通过下面的识别方法来完成:先创建一个新变量MOBILITY,如果变量PRESTIGE比变量PRESTIGE-OF-FATHER大,则赋值为1;其他情况赋值为0。虽然执行这个计算机命令的句法根据所用程序有所变化,但其逻辑通常很简单易懂:创建一个二分变量(dichotomous variable),将那些向上流动的人赋值为1,其他的人赋值为0(这里,“向上流动”被定义为拥有比父亲的职业声望高的职业)。
1702645992
1702645993
另一种列联变换方法是创建一个变量,它是由一组特定的且符合一定标准的应答数构成的变量。例如,我们可能会创建一个测量接受堕胎的量表,这个量表是通过对一组有关在什么条件下允许堕胎的问题,计算在多少项上回答为“堕胎是合法的”(或“接受”)来得到。
1702645994
1702645995
列联表述不仅可用来变换变量而且可用来选择分析样本。例如,如果我们对分析生育史感兴趣,那么我们会将样本限定为年龄在45岁及以上的女性。在一些计算机统计软件包(如SPSS)中,通过选择一个子样本并只对此样本进行操作即可。尽管其他软件包(如Stata)也可以选择子样本,但这些软件包通常把选择样本作为每条命令的一部分。
1702645996
1702645997
缺失数据
1702645998
1702645999
数据集中经常会出现某些变量的信息缺失。缺失数据的原因不胜枚举,例如,通过访问抽样人群获得的数据集,有些信息就可能永远不能从受访者那里得到,这是由误差或设计等因素造成的(一些问题可能“不适合”某类群体,例如,未婚者配偶的受教育程度;有时为了增加问卷长度同时避免给受访者增加太多负担,增加的问题只要求随机抽取的部分受访者回答——GSS经常这样做)。受访者可能拒绝回答一些问题,也可能通过声称“不知道”或“没有意见”来回答一些问题,或者给出一些逻辑上不一致的回答(例如,在婚姻状态这道题上选择了“未婚”这个选项,但又给出了具体的“初婚年龄”)。访问员可能没有记录受访者的答案或者记录不正确。在准备分析数据的过程中也可能产生错误——如编码人员错误地将叙述式回答归入编码类别,或在数据录入过程中将正确的编码键入错误。类似的棘手问题在其他类型的数据集中也同样存在。官方数据通常不完整,而且经常存在不一致的信息。
[
上一页 ]
[ :1.70264595e+09 ]
[
下一页 ]