1702645882
量化数据分析:通过社会研究检验想法 变换数据
1702645883
1702645884
像前几章多次谈到的,数据并不总是按我们分析所需要的格式给出的。出于多种目的,我们可能想更改一个变量的编码或合并几个变量,这些操作被称为“数据变换”(data transformations),每个主要的统计软件包都有一系列完成数据变换的步骤。下面举一些例子来说明几种可能的数据变换。将变量变换成一种最贴近理论概念的格式的能力是量化数据分析者的一项重要技能。
1702645885
1702645886
重新编码
1702645887
1702645888
重新编码是指将一个变量的赋值变为一组不同的赋值。重新编码有许多用途,其中的一些我们已经看到过。
1702645889
1702645890
其中的一种用途是将一个变量的类别合并成较少的类别,例如,根据表1-1得到的表2-3中最左边那列的值。为了解整个过程,下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始:
1702645891
1702645892
1.非常虔诚
1702645893
1702645894
2.有点虔诚
1702645895
1702645896
3.不怎么虔诚
1702645897
1702645898
4.根本不信教
1702645899
1702645900
(我们暂时忽略存在缺失数据的可能性。)将最后两类合并——我只是将类别4重新编码为类别3,得到一个新变量:
1702645901
1702645902
1.非常虔诚
1702645903
1702645904
2.有点虔诚
1702645905
1702645906
3.不信教
1702645907
1702645908
虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法;相反,你们应该创建一个包含变换赋值的新变量。其中的原因很明显:既避免出错又允许在同一次计算机运行中多次变换一个变量。因此,你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下,统计软件包的计算程序是逐行执行的,每行命令处理的是前一行命令处理后得到的数据。因此,除非在变换过程中创建一个新变量,否则在变换变量的过程中一不小心就容易出错。
1702645909
1702645910
重新编码的第二种用途是通过创建一组代表新维度的新类别来重新定义一个变量。我们在第3章的讨论中也举过这样一个例子。在这个例子中,我们将美国国会议员分成:
1702645911
1702645912
1.标准共和党
1702645913
1702645914
2.自由共和党
1702645915
1702645916
3.保守民主党
1702645917
1702645918
4.标准民主党
1702645919
1702645920
我们可以按党派来分类,将2重新编码为1,3重新编码为4,这样生成一个新变量,其赋值为1(=共和党)和4(=民主党)。我们也可以将国会议员按自由或保守来分类,将2重新编码为4,3重新编码为1,这样产生另一个新变量,其赋值为1(=保守)和4(=自由)。然而,注意,当我们把变量重新编码为二分变量时,我们习惯上将其中一类编为1,另一类编为0,并且以编码1的类别命名此变量。因此,在第一个例子中,习惯的做法是创建一个新变量——“共和党人”,将初始变量中的赋值1和2重新编码为1,而将初始变量中的3和4重新编码为0。像我们在后面章节中将看到的,0~1编码非常方便二分变量在最小二乘回归和逻辑斯蒂回归中使用。
1702645921
1702645922
重新编码的第三种用途是给一个变量的各个类别指定测量得分。例如,我们假设有一个测量教育获得的变量,其初始编码如下:
1702645923
1702645924
1.没有上过学
1702645925
1702645926
2.1~4年小学
1702645927
1702645928
3.5~7年小学
1702645929
1702645930
4.8年小学
[
上一页 ]
[ :1.702645881e+09 ]
[
下一页 ]