打字猴:1.702645821e+09

1702645821 量化数据分析：通过社会研究检验想法 [:1702644742]

1702645822 量化数据分析：通过社会研究检验想法如何组织数据文件

1702645823

1702645824 在计算机中组织数据文件最容易想到的方法是设想一个矩阵，行是样本，列（或列组）是变量。具体来讲，设想一个有257个变量（但这个数据集有422列，因为一些变量要求用多个列来表示；例如，受访者身份识别号需要用4列来表示，年龄需要用2列来表示）和1609个样本（因此数据有1609行）的数据集。再具体一些，可将此数据集看作是来自美国人口总体的一个代表性样本。在此数据集中，信息可以被组织成如表4-1中的格式。

1702645825

1702645826 为了处理这些数据，我们需要一个地图来告诉我们：特定的信息在矩阵中的什么位置，以及这些信息是什么意思。这个地图被称为编码本（codebook）。在此例中，我们假设有一个像表4-2所示的编码本。

1702645827

1702645828 表4-1 如何管理数据的说明

1702645829

1702645830

1702645831

1702645832

1702645833 表4-2 对应于表4-1的编码本

1702645834

1702645835

1702645836

1702645837

1702645838 根据编码本中的信息，我们现在可以准确地知道数据集包含的内容：它包含了1609名受访者中每个人的一项记录。高质量的编码本一般也提供数据集的样本特征信息，以及处理数据的其他必要文件等信息。计算机能读取的数据集被称为机读数据（machine readable或computer readable），也称文件（files）。在此例中，前4列是每个受访者的身份识别号。在分析数据时我们通常不关注这个身份识别号，但当我们需要追踪数据或添加数据到文件中时——比如，我们对同一批受访者实施了另一项调查并想将两次调查的数据合并在一起，或者如果我们想往已经整理好的样本中添加其他受访者的信息时，等等——这个身份识别号就变得至关重要了。第5列是受访者的性别，第6列和第7列是受访者的年龄，第422列是一个关于对总统政策的评价问题。

1702645839

1702645840 通过编码本中的应答分类，我们知道第一位受访者是27岁的男性，他认为总统的政策不怎么好；第二位受访者是41岁的女性，她认为总统的政策很好。第三位受访者是女性，但有关她的年龄信息及对总统政策评价的信息都是缺失的。这也许是因为她在调查时拒绝回答这些问题，或者回答不符合常理，或者是编码出现错误使得这些信息缺失。无论哪种情况，分析者都无法获得这些缺失的信息。（注意，性别栏没有“n/a”这项编码。至少在访谈调查中，很少发现性别出现“无应答编码”项，因为调查者通常会记录受访者的性别。）有些编码本给出了每个变量的频数分布（或边缘分布）。这种做法非常有用，如果你们要创建一个编码本，建议你们包含边缘分布（这可用Stata软件的-codebook-命令来完成）。在你们寻找变量合适的分界点时这些内容使你们能够更好地做出初步判断，并且为检验你们计算结果的精确性提供一个标准。在用计算机进行具体操作时很容易出错，因此，你们应该检查每一步计算是否与前面的计算和边缘分布一致。

1702645841

1702645842 假如我们想判断男性和女性在支持总统政策方面是否不同。要做此判断，我们可以将对总统政策的评价问题与性别做列联表，以对总统政策的评价为因变量做百分数表。因此，我们需要告诉计算机如何找到每个变量做列联表，并以合适的方向做百分数表。我们也要告诉计算机如何处理对总统政策的评价变量中的“无应答”类别。

1702645843

1702645844 有两种方法来判别如何定位文件中的数据，计算机程序在执行“二者之一”还是“两者都”的计算时是完全不同的。一些程序用指定文件中特定的列——如“按第5列对第422列做列联表”——来执行。更常见的是，程序要求分析者首先说明每个变量在数据中的位置，然后用变量名去执行具体的操作——例如，“变量SEX是第5列，变量POLICY是第422列，按SEX对POLICY做列联表”。此方法的另一种表达方式是用一张地图依次给变量赋值，并确定它们的位置，例如：

1702645845

1702645846

1702645847

1702645848

1702645849 “按VAR 003对VAR 257做列联表”。在多数最新的软件中，如Stata、SAS和SPSS中，这类地图是在创建系统文件（system files）的过程中生成的；作为文件准备的一部分，变量名（variable names）（通常被限定为8个字符，尽管自Stata的6.0版本之后没有这一限制）、变量标签（variable labels）和赋值标签（value labels）（说明每个回答类别的含义）均附在文件中，因而能用变量名来识别变量。在程序指令〔即命令（commands）〕中，分析者使用变量名，而不必关心它们在文件中的位置。例如，Stata命令

1702645850

1702645851 tab policy sex，col

1702645852

1702645853 告诉计算机按SEX（列变量）对POLICY（行变量）做列联表，并计算列百分比。注意，Stata对变量名很敏感，如Stata将sex、SEX和Sex看作三个不同的变量。〔尽管在此书中，所有的变量名都用大写字母表示，但这样做是为了在句中（英文版书中）有别于其他单词。而在本书的Stata命令文件（-log-文件——见下面的讨论）中，我总是用小写字母来命名文件，以避免额外打字及由此可能产生的错误。〕

1702645854

1702645855 题外话：卡片组和卡片形式的计算机文件

1702645856

1702645857 计算机被广泛应用于社会科学始于1960年代中期，但直到1970年代才开始普及。因此，许多研究人员仍感兴趣的数据库是按照计算机分析技术产生之前的方式来创建的，尤其在用能读IBM打孔卡（见图4-1）的机器处理数据时。虽然数据组织的逻辑与用计算机进行分析时相似，但这两者在技术方面存在几个重要的不同点。尽管理论上计算机的每条记录中所包含的变量数没有限制（不过一个程序能够处理的变量数有一些限制），但一张IBM卡却只有80列。因为读IBM卡的机器仅能一次处理一张卡（这类机器被称为单个记录装置，记录只能是一张卡的长度），所以研究人员通常尽可能多地将变量放进一张卡中。

1702645858

1702645859 HERMAN HOLLERITH（1860～1929）是打孔卡的发明者，这项技术革命性地改变了数据处理的方式，它从根本上减少了1890年人口普查数据的处理时间（这是第一次使用打孔卡）。Herman Hollerith出生在纽约水牛城，1875年进入纽约城市大学学习，在15岁那年转往哥伦比亚大学矿业学院，并于1879年获得EM（矿业工程师）学位。他完成学业后开始从事1880年人口普查工作，接触到当时使用起来费力且容易出错的手工计算方法。他设计的机械化数据处理系统（打孔卡和阅读器）赢得了联邦普查局主办的比赛。正因为他的发明，哥伦比亚大学矿业学院于1890年授予他博士学位，而实际上他并没有参与任何博士生项目。（多好的时代啊！）1896年，他成立了自己的公司，之后兼并其他公司组建IBM（the International Business Machine Company，IBM）。Hollerith在数据处理方面做了很多改进工作，在其他领域也有一些发明。

1702645860

1702645861

1702645862

1702645863

1702645864 图4-1 一张IBM打孔卡

1702645865

1702645866 一个卡片数据库由每个受访者的一张或多张卡组成。例如，要呈现我们前面提到的257个变量、422列数据库的所有数据，需要9654张卡，即每人6张卡（=422/80，取整数）乘以1609名受访者。第一位受访者呈现在IBM卡上的信息如图4-1所示，对总统政策评价的回答在第64列，除此之外，其余的列对应于表4-1中其他的信息。

1702645867

1702645868 如果分析者想按性别对总统政策评价的回答做列联表，他们将把这叠卡片通过计算机分选器，实际上是通过读取事先设计好的打孔列（在此例中是第5列）把这叠卡片分成两副。在孔“1”处打孔的卡片将会落进分选器的第1个口袋，在孔“2”处打孔的卡片会落进分选器的第2个口袋。新分的每副卡片将再次通过分选器，分选器将计算第64列的打孔分布并呈现给分析者，分析者可以把这个数抄录到纸上。这些通过计数得到的是按性别分的对总统政策评价的双变量频数分布，通常会表示成常规的百分数表形式（即用便携计算器计算得到）。

1702645869

1702645870 此项技术对数据组织和分析产生了几点重要的影响。首先，尽管它可以被用于列联表，但却阻碍了统计方法的应用。因为这项技术所能做的就是生成输入统计程序所需要的计数——代数运算仍然需要手工来完成。其次，它阻碍了详细信息的保留；实际上，因为一个占用两列的变量较难处理（它需要更繁琐的卡片处理过程，因为变量须先按第一个数字排序，然后排序后的每个类别再按第二个数字排序），且产生的更加详细的结果在列联表中无法有效应用，所以如果可能，将应答类别压缩为一列将有很多有利之处。这就导致所谓的顶部打0孔的应用，即在IBM卡数值列上方的位置，也用“+”和“-”号（有时称作“X”和“Y”孔），空白处（没有孔）也作为有意义的类别来使用。因此，比如年龄就不能用单个数字记录来表示，因为用一位数来表示年龄是不可能的；也就是说，年龄类别的位数应当事先设计好。再次，为了在一张卡片上呈现尽可能多的变量——因为将同一组变量放在不同卡片上是不可能的——一些分析者试图将多个变量放在同一列内。想一下前面例子（表4-1）中第2列和第257列的变量。因为性别项只有两种可能的应答，对总统政策评价的项有6种应答，所以只需简单地用4～9个孔反映对总统政策评价的应答类别就能够将两个变量放在一列中。计算机分选器可以压缩孔并使排序成为可能。这种列被称为多孔列（multiple-punched columns）。

[ 上一页 ] [ :1.702645821e+09 ] [ 下一页 ]