1702645920
我们可以按党派来分类,将2重新编码为1,3重新编码为4,这样生成一个新变量,其赋值为1(=共和党)和4(=民主党)。我们也可以将国会议员按自由或保守来分类,将2重新编码为4,3重新编码为1,这样产生另一个新变量,其赋值为1(=保守)和4(=自由)。然而,注意,当我们把变量重新编码为二分变量时,我们习惯上将其中一类编为1,另一类编为0,并且以编码1的类别命名此变量。因此,在第一个例子中,习惯的做法是创建一个新变量——“共和党人”,将初始变量中的赋值1和2重新编码为1,而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的,0~1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。
1702645921
1702645922
重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如,我们假设有一个测量教育获得的变量,其初始编码如下:
1702645923
1702645924
1.没有上过学
1702645925
1702645926
2.1~4年小学
1702645927
1702645928
3.5~7年小学
1702645929
1702645930
4.8年小学
1702645931
1702645932
5.1~3年中学
1702645933
1702645934
6.4年中学
1702645935
1702645936
7.1~3年大学
1702645937
1702645938
8.4年大学
1702645939
1702645940
9.5年或更多年大学
1702645941
1702645942
10.没有信息
1702645943
1702645944
出于多种目的,我们也常常将受教育年限作为一个比率变量来用。依此做法,就可能计算不同人群的平均受教育年限,在回归方程中使用受教育年限,等等。因此,我们可以通过指定中点或每一类中个体受教育年限的估计值对初始变量进行重新编码:
1702645945
1702645946
初始编码 重新编码
1702645947
1702645948
1 0
1702645949
1702645950
2 2.5
1702645951
1702645952
3 6
1702645953
1702645954
4 8
1702645955
1702645956
5 10
1702645957
1702645958
6 12
1702645959
1702645960
7 14
1702645961
1702645962
8 16
1702645963
1702645964
9 18
1702645965
1702645966
10 -1
1702645967
1702645968
按照这种顺序重新编码,重要的是解释你们的赋值选择而不是随意赋值。例如,必须对类别“5年或更多年大学”赋值为“18年”而不是17年或19年的决定说明理由,不能简单臆断。
1702645969
[
上一页 ]
[ :1.70264592e+09 ]
[
下一页 ]