打字猴:1.702645881e+09

1702645881 量化数据分析：通过社会研究检验想法 [:1702644743]

1702645882 量化数据分析：通过社会研究检验想法变换数据

1702645883

1702645884 像前几章多次谈到的，数据并不总是按我们分析所需要的格式给出的。出于多种目的，我们可能想更改一个变量的编码或合并几个变量，这些操作被称为“数据变换”（data transformations），每个主要的统计软件包都有一系列完成数据变换的步骤。下面举一些例子来说明几种可能的数据变换。将变量变换成一种最贴近理论概念的格式的能力是量化数据分析者的一项重要技能。

1702645885

1702645886 重新编码

1702645887

1702645888 重新编码是指将一个变量的赋值变为一组不同的赋值。重新编码有许多用途，其中的一些我们已经看到过。

1702645889

1702645890 其中的一种用途是将一个变量的类别合并成较少的类别，例如，根据表1-1得到的表2-3中最左边那列的值。为了解整个过程，下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始：

1702645891

1702645892 1.非常虔诚

1702645893

1702645894 2.有点虔诚

1702645895

1702645896 3.不怎么虔诚

1702645897

1702645898 4.根本不信教

1702645899

1702645900 （我们暂时忽略存在缺失数据的可能性。）将最后两类合并——我只是将类别4重新编码为类别3，得到一个新变量：

1702645901

1702645902 1.非常虔诚

1702645903

1702645904 2.有点虔诚

1702645905

1702645906 3.不信教

1702645907

1702645908 虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法；相反，你们应该创建一个包含变换赋值的新变量。其中的原因很明显：既避免出错又允许在同一次计算机运行中多次变换一个变量。因此，你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下，统计软件包的计算程序是逐行执行的，每行命令处理的是前一行命令处理后得到的数据。因此，除非在变换过程中创建一个新变量，否则在变换变量的过程中一不小心就容易出错。

1702645909

1702645910 重新编码的第二种用途是通过创建一组代表新维度的新类别来重新定义一个变量。我们在第3章的讨论中也举过这样一个例子。在这个例子中，我们将美国国会议员分成：

1702645911

1702645912 1.标准共和党

1702645913

1702645914 2.自由共和党

1702645915

1702645916 3.保守民主党

1702645917

1702645918 4.标准民主党

1702645919

1702645920 我们可以按党派来分类，将2重新编码为1，3重新编码为4，这样生成一个新变量，其赋值为1（=共和党）和4（=民主党）。我们也可以将国会议员按自由或保守来分类，将2重新编码为4，3重新编码为1，这样产生另一个新变量，其赋值为1（=保守）和4（=自由）。然而，注意，当我们把变量重新编码为二分变量时，我们习惯上将其中一类编为1，另一类编为0，并且以编码1的类别命名此变量。因此，在第一个例子中，习惯的做法是创建一个新变量——“共和党人”，将初始变量中的赋值1和2重新编码为1，而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的，0～1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。

1702645921

1702645922 重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如，我们假设有一个测量教育获得的变量，其初始编码如下：

1702645923

1702645924 1.没有上过学

1702645925

1702645926 2.1～4年小学

1702645927

1702645928 3.5～7年小学

1702645929

1702645930 4.8年小学

[ 上一页 ] [ :1.702645881e+09 ] [ 下一页 ]