打字猴:1.70264586e+09

1702645860

1702645861

1702645862

1702645863

1702645864 图4-1 一张IBM打孔卡

1702645865

1702645866 一个卡片数据库由每个受访者的一张或多张卡组成。例如，要呈现我们前面提到的257个变量、422列数据库的所有数据，需要9654张卡，即每人6张卡（=422/80，取整数）乘以1609名受访者。第一位受访者呈现在IBM卡上的信息如图4-1所示，对总统政策评价的回答在第64列，除此之外，其余的列对应于表4-1中其他的信息。

1702645867

1702645868 如果分析者想按性别对总统政策评价的回答做列联表，他们将把这叠卡片通过计算机分选器，实际上是通过读取事先设计好的打孔列（在此例中是第5列）把这叠卡片分成两副。在孔“1”处打孔的卡片将会落进分选器的第1个口袋，在孔“2”处打孔的卡片会落进分选器的第2个口袋。新分的每副卡片将再次通过分选器，分选器将计算第64列的打孔分布并呈现给分析者，分析者可以把这个数抄录到纸上。这些通过计数得到的是按性别分的对总统政策评价的双变量频数分布，通常会表示成常规的百分数表形式（即用便携计算器计算得到）。

1702645869

1702645870 此项技术对数据组织和分析产生了几点重要的影响。首先，尽管它可以被用于列联表，但却阻碍了统计方法的应用。因为这项技术所能做的就是生成输入统计程序所需要的计数——代数运算仍然需要手工来完成。其次，它阻碍了详细信息的保留；实际上，因为一个占用两列的变量较难处理（它需要更繁琐的卡片处理过程，因为变量须先按第一个数字排序，然后排序后的每个类别再按第二个数字排序），且产生的更加详细的结果在列联表中无法有效应用，所以如果可能，将应答类别压缩为一列将有很多有利之处。这就导致所谓的顶部打0孔的应用，即在IBM卡数值列上方的位置，也用“+”和“-”号（有时称作“X”和“Y”孔），空白处（没有孔）也作为有意义的类别来使用。因此，比如年龄就不能用单个数字记录来表示，因为用一位数来表示年龄是不可能的；也就是说，年龄类别的位数应当事先设计好。再次，为了在一张卡片上呈现尽可能多的变量——因为将同一组变量放在不同卡片上是不可能的——一些分析者试图将多个变量放在同一列内。想一下前面例子（表4-1）中第2列和第257列的变量。因为性别项只有两种可能的应答，对总统政策评价的项有6种应答，所以只需简单地用4～9个孔反映对总统政策评价的应答类别就能够将两个变量放在一列中。计算机分选器可以压缩孔并使排序成为可能。这种列被称为多孔列（multiple-punched columns）。

1702645871

1702645872 当数据分析开始转向由计算机执行时，这些将尽可能多的数据放在一张简单的IBM卡上的策略就成了沉重的负担。因为多数计算机程序是为把数据从一套符号重新编码为另一套符号而编写的，简单的做法应该是把那些顶部的0孔和空白都作为有意义的类别。当卡片是多孔卡时，问题会更加复杂。在这种情况下通常需要大量的专门程序将它们转换成机读格式。

1702645873

1702645874 即使计算机在社会研究中被普遍应用之后，数据集经常还是被先用键控穿孔机在IBM卡上做机读格式准备，然后将数据读进计算机并转存在诸如计算机磁带之类的存储介质上。直到近年，键控穿孔机才被其他工作平台取代，研究者可以直接键入数据并存为计算机文件。因此，目前许多数据集，包括1990年代之前的NORC GSS数据，仍然是以卡片形式记录的。也就是说，在计算机存储介质中它们是用一系列80列记录来表示每个受访者的。一般来说，前三或四列是受访者的身份识别号，第80列是记录码或识别码（deck ID）。这种数据组织形式对数据分析没有影响，但它确实影响计算机读取数据的方式。具体的细节差异随你们使用程序的不同而不同，但是，除了能认识到我们在开始讨论时谈及的每名受访者的长记录格式之外，你们应该知道这些数据组织的不同方式。

1702645875

1702645876 以往的传统在电子数据输入终端出现之前，命令文件也通过IBM打孔卡输入计算机。分析者写好命令文件，然后将命令文件的每行指令键入一张单独的IBM卡（通过键控穿孔机，或者对缺乏经费的研究生而言，这项工作可以由分析者自己来做）。随后，一叠IBM卡被送到学校的计算中心，交给工作人员或直接输入卡片读取器。最后，执行命令文件（批处理），通常在几个小时后，分析者会拿到打印好的结果和一盒卡片。如果有错误，整个过程将重来一遍。这种技术限制计算机每天只能计算2～3次，以今天的标准来看，完成一项分析工作非常耗时——但这至少也有一个好处，即在等待时有更多的时间去思考。

1702645877

1702645878

1702645879

1702645880

1702645881 量化数据分析：通过社会研究检验想法 [:1702644743]

1702645882 量化数据分析：通过社会研究检验想法变换数据

1702645883

1702645884 像前几章多次谈到的，数据并不总是按我们分析所需要的格式给出的。出于多种目的，我们可能想更改一个变量的编码或合并几个变量，这些操作被称为“数据变换”（data transformations），每个主要的统计软件包都有一系列完成数据变换的步骤。下面举一些例子来说明几种可能的数据变换。将变量变换成一种最贴近理论概念的格式的能力是量化数据分析者的一项重要技能。

1702645885

1702645886 重新编码

1702645887

1702645888 重新编码是指将一个变量的赋值变为一组不同的赋值。重新编码有许多用途，其中的一些我们已经看到过。

1702645889

1702645890 其中的一种用途是将一个变量的类别合并成较少的类别，例如，根据表1-1得到的表2-3中最左边那列的值。为了解整个过程，下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始：

1702645891

1702645892 1.非常虔诚

1702645893

1702645894 2.有点虔诚

1702645895

1702645896 3.不怎么虔诚

1702645897

1702645898 4.根本不信教

1702645899

1702645900 （我们暂时忽略存在缺失数据的可能性。）将最后两类合并——我只是将类别4重新编码为类别3，得到一个新变量：

1702645901

1702645902 1.非常虔诚

1702645903

1702645904 2.有点虔诚

1702645905

1702645906 3.不信教

1702645907

1702645908 虽然有些计算机程序允许变量被“覆盖”——被一个新变量替代——但这并不是一种好的做法；相反，你们应该创建一个包含变换赋值的新变量。其中的原因很明显：既避免出错又允许在同一次计算机运行中多次变换一个变量。因此，你们应该保存变量的最初编码和任何重新编码或变换后的变量形式。一般情况下，统计软件包的计算程序是逐行执行的，每行命令处理的是前一行命令处理后得到的数据。因此，除非在变换过程中创建一个新变量，否则在变换变量的过程中一不小心就容易出错。

1702645909

[ 上一页 ] [ :1.70264586e+09 ] [ 下一页 ]