1702645890
其中的一种用途是将一个变量的类别合并成较少的类别,例如,根据表1-1得到的表2-3中最左边那列的值。为了解整个过程,下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始:
1702645891
1702645892
1.非常虔诚
1702645893
1702645894
2.有点虔诚
1702645895
1702645896
3.不怎么虔诚
1702645897
1702645898
4.根本不信教
1702645899
1702645900
(我们暂时忽略存在缺失数据的可能性。)将最后两类合并——我只是将类别4重新编码为类别3,得到一个新变量:
1702645901
1702645902
1.非常虔诚
1702645903
1702645904
2.有点虔诚
1702645905
1702645906
3.不信教
1702645907
1702645908
虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法;相反,你们应该创建一个包含变换赋值的新变量。其中的原因很明显:既避免出错又允许在同一次计算机运行中多次变换一个变量。因此,你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下,统计软件包的计算程序是逐行执行的,每行命令处理的是前一行命令处理后得到的数据。因此,除非在变换过程中创建一个新变量,否则在变换变量的过程中一不小心就容易出错。
1702645909
1702645910
重新编码的第二种用途是通过创建一组代表新维度的新类别来重新定义一个变量。我们在第3章的讨论中也举过这样一个例子。在这个例子中,我们将美国国会议员分成:
1702645911
1702645912
1.标准共和党
1702645913
1702645914
2.自由共和党
1702645915
1702645916
3.保守民主党
1702645917
1702645918
4.标准民主党
1702645919
1702645920
我们可以按党派来分类,将2重新编码为1,3重新编码为4,这样生成一个新变量,其赋值为1(=共和党)和4(=民主党)。我们也可以将国会议员按自由或保守来分类,将2重新编码为4,3重新编码为1,这样产生另一个新变量,其赋值为1(=保守)和4(=自由)。然而,注意,当我们把变量重新编码为二分变量时,我们习惯上将其中一类编为1,另一类编为0,并且以编码1的类别命名此变量。因此,在第一个例子中,习惯的做法是创建一个新变量——“共和党人”,将初始变量中的赋值1和2重新编码为1,而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的,0~1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。
1702645921
1702645922
重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如,我们假设有一个测量教育获得的变量,其初始编码如下:
1702645923
1702645924
1.没有上过学
1702645925
1702645926
2.1~4年小学
1702645927
1702645928
3.5~7年小学
1702645929
1702645930
4.8年小学
1702645931
1702645932
5.1~3年中学
1702645933
1702645934
6.4年中学
1702645935
1702645936
7.1~3年大学
1702645937
1702645938
8.4年大学
1702645939
[
上一页 ]
[ :1.70264589e+09 ]
[
下一页 ]