1702645853
告诉计算机按SEX(列变量)对POLICY(行变量)做列联表,并计算列百分比。注意,Stata对变量名很敏感,如Stata将sex、SEX和Sex看作三个不同的变量。〔尽管在此书中,所有的变量名都用大写字母表示,但这样做是为了在句中(英文版书中)有别于其他单词。而在本书的Stata命令文件(-log-文件——见下面的讨论)中,我总是用小写字母来命名文件,以避免额外打字及由此可能产生的错误。〕
1702645854
1702645855
题外话:卡片组和卡片形式的计算机文件
1702645856
1702645857
计算机被广泛应用于社会科学始于1960年代中期,但直到1970年代才开始普及。因此,许多研究人员仍感兴趣的数据库是按照计算机分析技术产生之前的方式来创建的,尤其在用能读IBM打孔卡(见图4-1)的机器处理数据时。虽然数据组织的逻辑与用计算机进行分析时相似,但这两者在技术方面存在几个重要的不同点。尽管理论上计算机的每条记录中所包含的变量数没有限制(不过一个程序能够处理的变量数有一些限制),但一张IBM卡却只有80列。因为读IBM卡的机器仅能一次处理一张卡(这类机器被称为单个记录装置,记录只能是一张卡的长度),所以研究人员通常尽可能多地将变量放进一张卡中。
1702645858
1702645859
HERMAN HOLLERITH(1860~1929)是打孔卡的发明者,这项技术革命性地改变了数据处理的方式,它从根本上减少了1890年人口普查数据的处理时间(这是第一次使用打孔卡)。Herman Hollerith出生在纽约水牛城,1875年进入纽约城市大学学习,在15岁那年转往哥伦比亚大学矿业学院,并于1879年获得EM(矿业工程师)学位。他完成学业后开始从事1880年人口普查工作,接触到当时使用起来费力且容易出错的手工计算方法。他设计的机械化数据处理系统(打孔卡和阅读器)赢得了联邦普查局主办的比赛。正因为他的发明,哥伦比亚大学矿业学院于1890年授予他博士学位,而实际上他并没有参与任何博士生项目。(多好的时代啊!)1896年,他成立了自己的公司,之后兼并其他公司组建IBM(the International Business Machine Company,IBM)。Hollerith在数据处理方面做了很多改进工作,在其他领域也有一些发明。
1702645860
1702645861
1702645862
1702645863
1702645864
图4-1 一张IBM打孔卡
1702645865
1702645866
一个卡片数据库由每个受访者的一张或多张卡组成。例如,要呈现我们前面提到的257个变量、422列数据库的所有数据,需要9654张卡,即每人6张卡(=422/80,取整数)乘以1609名受访者。第一位受访者呈现在IBM卡上的信息如图4-1所示,对总统政策评价的回答在第64列,除此之外,其余的列对应于表4-1中其他的信息。
1702645867
1702645868
如果分析者想按性别对总统政策评价的回答做列联表,他们将把这叠卡片通过计算机分选器,实际上是通过读取事先设计好的打孔列(在此例中是第5列)把这叠卡片分成两副。在孔“1”处打孔的卡片将会落进分选器的第1个口袋,在孔“2”处打孔的卡片会落进分选器的第2个口袋。新分的每副卡片将再次通过分选器,分选器将计算第64列的打孔分布并呈现给分析者,分析者可以把这个数抄录到纸上。这些通过计数得到的是按性别分的对总统政策评价的双变量频数分布,通常会表示成常规的百分数表形式(即用便携计算器计算得到)。
1702645869
1702645870
此项技术对数据组织和分析产生了几点重要的影响。首先,尽管它可以被用于列联表,但却阻碍了统计方法的应用。因为这项技术所能做的就是生成输入统计程序所需要的计数——代数运算仍然需要手工来完成。其次,它阻碍了详细信息的保留;实际上,因为一个占用两列的变量较难处理(它需要更繁琐的卡片处理过程,因为变量须先按第一个数字排序,然后排序后的每个类别再按第二个数字排序),且产生的更加详细的结果在列联表中无法有效应用,所以如果可能,将应答类别压缩为一列将有很多有利之处。这就导致所谓的顶部打0孔的应用,即在IBM卡数值列上方的位置,也用“+”和“-”号(有时称作“X”和“Y”孔),空白处(没有孔)也作为有意义的类别来使用。因此,比如年龄就不能用单个数字记录来表示,因为用一位数来表示年龄是不可能的;也就是说,年龄类别的位数应当事先设计好。再次,为了在一张卡片上呈现尽可能多的变量——因为将同一组变量放在不同卡片上是不可能的——一些分析者试图将多个变量放在同一列内。想一下前面例子(表4-1)中第2列和第257列的变量。因为性别项只有两种可能的应答,对总统政策评价的项有6种应答,所以只需简单地用4~9个孔反映对总统政策评价的应答类别就能够将两个变量放在一列中。计算机分选器可以压缩孔并使排序成为可能。这种列被称为多孔列(multiple-punched columns)。
1702645871
1702645872
当数据分析开始转向由计算机执行时,这些将尽可能多的数据放在一张简单的IBM卡上的策略就成了沉重的负担。因为多数计算机程序是为把数据从一套符号重新编码为另一套符号而编写的,简单的做法应该是把那些顶部的0孔和空白都作为有意义的类别。当卡片是多孔卡时,问题会更加复杂。在这种情况下通常需要大量的专门程序将它们转换成机读格式。
1702645873
1702645874
即使计算机在社会研究中被普遍应用之后,数据集经常还是被先用键控穿孔机在IBM卡上做机读格式准备,然后将数据读进计算机并转存在诸如计算机磁带之类的存储介质上。直到近年,键控穿孔机才被其他工作平台取代,研究者可以直接键入数据并存为计算机文件。因此,目前许多数据集,包括1990年代之前的NORC GSS数据,仍然是以卡片形式记录的。也就是说,在计算机存储介质中它们是用一系列80列记录来表示每个受访者的。一般来说,前三或四列是受访者的身份识别号,第80列是记录码或识别码(deck ID)。这种数据组织形式对数据分析没有影响,但它确实影响计算机读取数据的方式。具体的细节差异随你们使用程序的不同而不同,但是,除了能认识到我们在开始讨论时谈及的每名受访者的长记录格式之外,你们应该知道这些数据组织的不同方式。
1702645875
1702645876
以往的传统 在电子数据输入终端出现之前,命令文件也通过IBM打孔卡输入计算机。分析者写好命令文件,然后将命令文件的每行指令键入一张单独的IBM卡(通过键控穿孔机,或者对缺乏经费的研究生而言,这项工作可以由分析者自己来做)。随后,一叠IBM卡被送到学校的计算中心,交给工作人员或直接输入卡片读取器。最后,执行命令文件(批处理),通常在几个小时后,分析者会拿到打印好的结果和一盒卡片。如果有错误,整个过程将重来一遍。这种技术限制计算机每天只能计算2~3次,以今天的标准来看,完成一项分析工作非常耗时——但这至少也有一个好处,即在等待时有更多的时间去思考。
1702645877
1702645878
1702645879
1702645880
1702645882
量化数据分析:通过社会研究检验想法 变换数据
1702645883
1702645884
像前几章多次谈到的,数据并不总是按我们分析所需要的格式给出的。出于多种目的,我们可能想更改一个变量的编码或合并几个变量,这些操作被称为“数据变换”(data transformations),每个主要的统计软件包都有一系列完成数据变换的步骤。下面举一些例子来说明几种可能的数据变换。将变量变换成一种最贴近理论概念的格式的能力是量化数据分析者的一项重要技能。
1702645885
1702645886
重新编码
1702645887
1702645888
重新编码是指将一个变量的赋值变为一组不同的赋值。重新编码有许多用途,其中的一些我们已经看到过。
1702645889
1702645890
其中的一种用途是将一个变量的类别合并成较少的类别,例如,根据表1-1得到的表2-3中最左边那列的值。为了解整个过程,下面我们详细介绍这个例子。我从包含以下类别的宗教信仰虔诚度的测度开始:
1702645891
1702645892
1.非常虔诚
1702645893
1702645894
2.有点虔诚
1702645895
1702645896
3.不怎么虔诚
1702645897
1702645898
4.根本不信教
1702645899
1702645900
(我们暂时忽略存在缺失数据的可能性。)将最后两类合并——我只是将类别4重新编码为类别3,得到一个新变量:
1702645901
1702645902
1.非常虔诚
[
上一页 ]
[ :1.702645853e+09 ]
[
下一页 ]