打字猴:1.702645931e+09
1702645931
1702645932 5.1~3年中学
1702645933
1702645934 6.4年中学
1702645935
1702645936 7.1~3年大学
1702645937
1702645938 8.4年大学
1702645939
1702645940 9.5年或更多年大学
1702645941
1702645942 10.没有信息
1702645943
1702645944 出于多种目的,我们也常常将受教育年限作为一个比率变量来用。依此做法,就可能计算不同人群的平均受教育年限,在回归方程中使用受教育年限,等等。因此,我们可以通过指定中点或每一类中个体受教育年限的估计值对初始变量进行重新编码:
1702645945
1702645946       初始编码      重新编码
1702645947
1702645948         1           0
1702645949
1702645950         2           2.5
1702645951
1702645952         3           6
1702645953
1702645954         4           8
1702645955
1702645956         5           10
1702645957
1702645958         6           12
1702645959
1702645960         7           14
1702645961
1702645962         8           16
1702645963
1702645964         9           18
1702645965
1702645966         10           -1
1702645967
1702645968 按照这种顺序重新编码,重要的是解释你们的赋值选择而不是随意赋值。例如,必须对类别“5年或更多年大学”赋值为“18年”而不是17年或19年的决定说明理由,不能简单臆断。
1702645969
1702645970 注意10“没有信息”这一特殊类别。在进行分析时,我们要么排除此类别,要么做特殊处理。因此,我们给它指定一个特殊编码,既可将其定义为缺失数据(missing data,参见本章后面的讨论),也可以更改。用负数来表示作为缺失数据处理的类别比较方便,因为这样做可以尽量避免由于疏忽大意把这个类别作为有意义的值来处理的可能性。(当我们不需要区分缺失数据的类别时,另一个在Stata中常用的有用方法是用“.”来识别缺失值。当我们想区分缺失值的类别——见本章后面对缺失数据的讨论——时,我们可以分别将其编码为“.a”、“.b”……“.z”之类。)例如,假设我们将“没有信息”这个类别重新编码为99。如果我们随后决定分析至少受过一些大学教育的人群,我们会选择所有受教育年限大于或等于14年的所有样本,这样做就忘记了类别99为“没有信息”。当然,这样做会将那些受过大学教育和受教育年限未知的人都包含在受过最高等的教育类别内。
1702645971
1702645972 把缺失值当作非缺失值来处理 有一个将缺失数据误编为实际数值的知名例子。Guillermina Jasso(1985:237)在文献中表明,每月的性生活频数随妻子年龄的增加而增加——与所有人的期望相反!正如Kahn和Udry所发现的(1986:736),她没有注意到4个异常值,即错误地将4个有缺失值(编码为99)的样本编码为88。当删除这4个样本后,妻子年龄的正效应就消失了。Kahn和Udry也删除了其他4个异常值,从而回答了Jasso(1986)提出的“什么可以被看作异常值”这个问题。在第10章介绍回归诊断时,我们会再次讨论异常值这个问题。
1702645973
1702645974 重新编码的最后一种用途是将顶部打0孔和空白记录的旧调查数据转化为能够用数值处理的数据类型。这可以通过读取字母数字形式的数据,并将它们转化为浮点十进制格式来实现。
1702645975
1702645976 代数变换
1702645977
1702645978 我们有时想用数学运算方式变换变量。当我们介绍回归分析时,这种变换将非常重要,因为有时可以用包含非线性变量的线性方程来表达非线性关系。例如,众所周知,收入和年龄之间存在曲线关系——收入随着年龄的增加而增加,到特定年龄后下降。此关系可以通过构建下面形式的回归方程来表示:
1702645979
1702645980
[ 上一页 ]  [ :1.702645931e+09 ]  [ 下一页 ]