打字猴:1.702645903e+09
1702645903
1702645904 2.有点虔诚
1702645905
1702645906 3.不信教
1702645907
1702645908 虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法;相反,你们应该创建一个包含变换赋值的新变量。其中的原因很明显:既避免出错又允许在同一次计算机运行中多次变换一个变量。因此,你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下,统计软件包的计算程序是逐行执行的,每行命令处理的是前一行命令处理后得到的数据。因此,除非在变换过程中创建一个新变量,否则在变换变量的过程中一不小心就容易出错。
1702645909
1702645910 重新编码的第二种用途是通过创建一组代表新维度的新类别来重新定义一个变量。我们在第3章的讨论中也举过这样一个例子。在这个例子中,我们将美国国会议员分成:
1702645911
1702645912 1.标准共和党
1702645913
1702645914 2.自由共和党
1702645915
1702645916 3.保守民主党
1702645917
1702645918 4.标准民主党
1702645919
1702645920 我们可以按党派来分类,将2重新编码为1,3重新编码为4,这样生成一个新变量,其赋值为1(=共和党)和4(=民主党)。我们也可以将国会议员按自由或保守来分类,将2重新编码为4,3重新编码为1,这样产生另一个新变量,其赋值为1(=保守)和4(=自由)。然而,注意,当我们把变量重新编码为二分变量时,我们习惯上将其中一类编为1,另一类编为0,并且以编码1的类别命名此变量。因此,在第一个例子中,习惯的做法是创建一个新变量——“共和党人”,将初始变量中的赋值1和2重新编码为1,而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的,0~1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。
1702645921
1702645922 重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如,我们假设有一个测量教育获得的变量,其初始编码如下:
1702645923
1702645924 1.没有上过学
1702645925
1702645926 2.1~4年小学
1702645927
1702645928 3.5~7年小学
1702645929
1702645930 4.8年小学
1702645931
1702645932 5.1~3年中学
1702645933
1702645934 6.4年中学
1702645935
1702645936 7.1~3年大学
1702645937
1702645938 8.4年大学
1702645939
1702645940 9.5年或更多年大学
1702645941
1702645942 10.没有信息
1702645943
1702645944 出于多种目的,我们也常常将受教育年限作为一个比率变量来用。依此做法,就可能计算不同人群的平均受教育年限,在回归方程中使用受教育年限,等等。因此,我们可以通过指定中点或每一类中个体受教育年限的估计值对初始变量进行重新编码:
1702645945
1702645946       初始编码      重新编码
1702645947
1702645948         1           0
1702645949
1702645950         2           2.5
1702645951
1702645952         3           6
[ 上一页 ]  [ :1.702645903e+09 ]  [ 下一页 ]