打字猴:1.70264589e+09

1702645890 其中的一种用途是将一个变量的类别合并成较少的类别，例如，根据表1-1得到的表2-3中最左边那列的值。为了解整个过程，下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始：

1702645891

1702645892 1.非常虔诚

1702645893

1702645894 2.有点虔诚

1702645895

1702645896 3.不怎么虔诚

1702645897

1702645898 4.根本不信教

1702645899

1702645900 （我们暂时忽略存在缺失数据的可能性。）将最后两类合并——我只是将类别4重新编码为类别3，得到一个新变量：

1702645901

1702645902 1.非常虔诚

1702645903

1702645904 2.有点虔诚

1702645905

1702645906 3.不信教

1702645907

1702645908 虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法；相反，你们应该创建一个包含变换赋值的新变量。其中的原因很明显：既避免出错又允许在同一次计算机运行中多次变换一个变量。因此，你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下，统计软件包的计算程序是逐行执行的，每行命令处理的是前一行命令处理后得到的数据。因此，除非在变换过程中创建一个新变量，否则在变换变量的过程中一不小心就容易出错。

1702645909

1702645910 重新编码的第二种用途是通过创建一组代表新维度的新类别来重新定义一个变量。我们在第3章的讨论中也举过这样一个例子。在这个例子中，我们将美国国会议员分成：

1702645911

1702645912 1.标准共和党

1702645913

1702645914 2.自由共和党

1702645915

1702645916 3.保守民主党

1702645917

1702645918 4.标准民主党

1702645919

1702645920 我们可以按党派来分类，将2重新编码为1，3重新编码为4，这样生成一个新变量，其赋值为1（=共和党）和4（=民主党）。我们也可以将国会议员按自由或保守来分类，将2重新编码为4，3重新编码为1，这样产生另一个新变量，其赋值为1（=保守）和4（=自由）。然而，注意，当我们把变量重新编码为二分变量时，我们习惯上将其中一类编为1，另一类编为0，并且以编码1的类别命名此变量。因此，在第一个例子中，习惯的做法是创建一个新变量——“共和党人”，将初始变量中的赋值1和2重新编码为1，而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的，0～1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。

1702645921

1702645922 重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如，我们假设有一个测量教育获得的变量，其初始编码如下：

1702645923

1702645924 1.没有上过学

1702645925

1702645926 2.1～4年小学

1702645927

1702645928 3.5～7年小学

1702645929

1702645930 4.8年小学

1702645931

1702645932 5.1～3年中学

1702645933

1702645934 6.4年中学

1702645935

1702645936 7.1～3年大学

1702645937

1702645938 8.4年大学

1702645939

[ 上一页 ] [ :1.70264589e+09 ] [ 下一页 ]