打字猴:1.702645811e+09

1702645811 量化数据分析：通过社会研究检验想法 [:1702644741]

1702645812 量化数据分析：通过社会研究检验想法引言

1702645813

1702645814 社会科学家进行的多数统计分析都是用被称为“软件包”（package programs）的工具完成的。大量多种用途的计算机程序可以满足研究者对任意数据集进行各类数据处理和统计分析的需要。虽然从计算的角度来看它们并不非常有效率（即它们通常比专门针对某一任务设计的程序耗时长），但是随着计算机的运算速度变快，这一点已经不重要了。更确切地说，它们对研究者来说是非常有效的。研究者经常需要为新的分析编一些新程序，因而需要一种简单的方法能让计算机执行任意特定的操作。统计软件包很好地满足了这一需求。使用最广泛的软件包包括SPSS和SAS。在学术界，Stata统计软件包被越来越多的人使用。这三种软件包都有Unix系统和PC系统的版本。三者之中，Stata的两个系统版本是最接近一致的。当然，还有许多其他统计软件包，其中许多都值得你们去尝试，但还是等你们掌握本书的内容后再说吧。你们会发现，尽管各种程序的命令语句（command syntax）有些不一样，但用计算机进行数据分析的逻辑几乎是通用的。一旦你们掌握了这个基本逻辑，你们就会很容易地把它应用到其他数据集和其他统计软件包程序上。

1702645815

1702645816 社会科学中计算机软件包的发展史介绍在很长一段时间内，SPSS曾是社会学家首选的软件包，可能是因为它不仅是由社会科学家编写而且也是为社会科学家编写的。早前版本的用户手册（直到出现SPSS-X版本）是标准的技术参考手册和对SPSS所使用的统计技术的精彩介绍。事实上，这个参考手册起到了销售SPSS的作用，而作为计算机程序来说SPSS比不上其他很多软件包。SPSS-X手册以及SPSS后来的版本都是由计算机程序员编写的。但不幸的是，作为计算手册来说它们写得不够清晰，而作为介绍统计的书来说它们又介绍得不够详细。但是早期的手册已不再容易得到，而且SPSS越来越倾向于被商业用户使用。虽然它在欧洲和亚洲仍然被很多社会科学家使用，但在美国顶尖的研究型大学中它已经失去了很大的市场。随着社会科学家们越来越擅长统计分析和计算机应用，许多研究者转向统计功能更强大的SAS。使用SAS最大的困难在于它的手册很难读懂，而且它的命令经常不够直观。因此，这不是一门简单易学或易教的语言。幸运的是，Stata作为最早用于计量经济学的一个软件包，尽管最初在数据管理能力方面不够强大，但逐渐变得越来越好，因此到目前为止，它可以作为一个多用途的软件包来使用。Stata功能强大且运算速度快，它可以在PC机上执行分析，即使是处理大型数据集（例如，中国人口普查1%样本数据）。它能做当代数据分析所需要的大多数工作，而且命令一般很简单和直观。同时，Stata数据集可以被用于其他任何平台。总之，Stata是我们做各种工作的一个很好的选择。本章结尾处的附录4提供了用Stata执行数据分析的一些指南。

1702645817

1702645818

1702645819

1702645820

1702645821 量化数据分析：通过社会研究检验想法 [:1702644742]

1702645822 量化数据分析：通过社会研究检验想法如何组织数据文件

1702645823

1702645824 在计算机中组织数据文件最容易想到的方法是设想一个矩阵，行是样本，列（或列组）是变量。具体来讲，设想一个有257个变量（但这个数据集有422列，因为一些变量要求用多个列来表示；例如，受访者身份识别号需要用4列来表示，年龄需要用2列来表示）和1609个样本（因此数据有1609行）的数据集。再具体一些，可将此数据集看作是来自美国人口总体的一个代表性样本。在此数据集中，信息可以被组织成如表4-1中的格式。

1702645825

1702645826 为了处理这些数据，我们需要一个地图来告诉我们：特定的信息在矩阵中的什么位置，以及这些信息是什么意思。这个地图被称为编码本（codebook）。在此例中，我们假设有一个像表4-2所示的编码本。

1702645827

1702645828 表4-1 如何管理数据的说明

1702645829

1702645830

1702645831

1702645832

1702645833 表4-2 对应于表4-1的编码本

1702645834

1702645835

1702645836

1702645837

1702645838 根据编码本中的信息，我们现在可以准确地知道数据集包含的内容：它包含了1609名受访者中每个人的一项记录。高质量的编码本一般也提供数据集的样本特征信息，以及处理数据的其他必要文件等信息。计算机能读取的数据集被称为机读数据（machine readable或computer readable），也称文件（files）。在此例中，前4列是每个受访者的身份识别号。在分析数据时我们通常不关注这个身份识别号，但当我们需要追踪数据或添加数据到文件中时——比如，我们对同一批受访者实施了另一项调查并想将两次调查的数据合并在一起，或者如果我们想往已经整理好的样本中添加其他受访者的信息时，等等——这个身份识别号就变得至关重要了。第5列是受访者的性别，第6列和第7列是受访者的年龄，第422列是一个关于对总统政策的评价问题。

1702645839

1702645840 通过编码本中的应答分类，我们知道第一位受访者是27岁的男性，他认为总统的政策不怎么好；第二位受访者是41岁的女性，她认为总统的政策很好。第三位受访者是女性，但有关她的年龄信息及对总统政策评价的信息都是缺失的。这也许是因为她在调查时拒绝回答这些问题，或者回答不符合常理，或者是编码出现错误使得这些信息缺失。无论哪种情况，分析者都无法获得这些缺失的信息。（注意，性别栏没有“n/a”这项编码。至少在访谈调查中，很少发现性别出现“无应答编码”项，因为调查者通常会记录受访者的性别。）有些编码本给出了每个变量的频数分布（或边缘分布）。这种做法非常有用，如果你们要创建一个编码本，建议你们包含边缘分布（这可用Stata软件的-codebook-命令来完成）。在你们寻找变量合适的分界点时这些内容使你们能够更好地做出初步判断，并且为检验你们计算结果的精确性提供一个标准。在用计算机进行具体操作时很容易出错，因此，你们应该检查每一步计算是否与前面的计算和边缘分布一致。

1702645841

1702645842 假如我们想判断男性和女性在支持总统政策方面是否不同。要做此判断，我们可以将对总统政策的评价问题与性别做列联表，以对总统政策的评价为因变量做百分数表。因此，我们需要告诉计算机如何找到每个变量做列联表，并以合适的方向做百分数表。我们也要告诉计算机如何处理对总统政策的评价变量中的“无应答”类别。

1702645843

1702645844 有两种方法来判别如何定位文件中的数据，计算机程序在执行“二者之一”还是“两者都”的计算时是完全不同的。一些程序用指定文件中特定的列——如“按第5列对第422列做列联表”——来执行。更常见的是，程序要求分析者首先说明每个变量在数据中的位置，然后用变量名去执行具体的操作——例如，“变量SEX是第5列，变量POLICY是第422列，按SEX对POLICY做列联表”。此方法的另一种表达方式是用一张地图依次给变量赋值，并确定它们的位置，例如：

1702645845

1702645846

1702645847

1702645848

1702645849 “按VAR 003对VAR 257做列联表”。在多数最新的软件中，如Stata、SAS和SPSS中，这类地图是在创建系统文件（system files）的过程中生成的；作为文件准备的一部分，变量名（variable names）（通常被限定为8个字符，尽管自Stata的6.0版本之后没有这一限制）、变量标签（variable labels）和赋值标签（value labels）（说明每个回答类别的含义）均附在文件中，因而能用变量名来识别变量。在程序指令〔即命令（commands）〕中，分析者使用变量名，而不必关心它们在文件中的位置。例如，Stata命令

1702645850

1702645851 tab policy sex，col

1702645852

1702645853 告诉计算机按SEX（列变量）对POLICY（行变量）做列联表，并计算列百分比。注意，Stata对变量名很敏感，如Stata将sex、SEX和Sex看作三个不同的变量。〔尽管在此书中，所有的变量名都用大写字母表示，但这样做是为了在句中（英文版书中）有别于其他单词。而在本书的Stata命令文件（-log-文件——见下面的讨论）中，我总是用小写字母来命名文件，以避免额外打字及由此可能产生的错误。〕

1702645854

1702645855 题外话：卡片组和卡片形式的计算机文件

1702645856

1702645857 计算机被广泛应用于社会科学始于1960年代中期，但直到1970年代才开始普及。因此，许多研究人员仍感兴趣的数据库是按照计算机分析技术产生之前的方式来创建的，尤其在用能读IBM打孔卡（见图4-1）的机器处理数据时。虽然数据组织的逻辑与用计算机进行分析时相似，但这两者在技术方面存在几个重要的不同点。尽管理论上计算机的每条记录中所包含的变量数没有限制（不过一个程序能够处理的变量数有一些限制），但一张IBM卡却只有80列。因为读IBM卡的机器仅能一次处理一张卡（这类机器被称为单个记录装置，记录只能是一张卡的长度），所以研究人员通常尽可能多地将变量放进一张卡中。

1702645858

1702645859 HERMAN HOLLERITH（1860～1929）是打孔卡的发明者，这项技术革命性地改变了数据处理的方式，它从根本上减少了1890年人口普查数据的处理时间（这是第一次使用打孔卡）。Herman Hollerith出生在纽约水牛城，1875年进入纽约城市大学学习，在15岁那年转往哥伦比亚大学矿业学院，并于1879年获得EM（矿业工程师）学位。他完成学业后开始从事1880年人口普查工作，接触到当时使用起来费力且容易出错的手工计算方法。他设计的机械化数据处理系统（打孔卡和阅读器）赢得了联邦普查局主办的比赛。正因为他的发明，哥伦比亚大学矿业学院于1890年授予他博士学位，而实际上他并没有参与任何博士生项目。（多好的时代啊！）1896年，他成立了自己的公司，之后兼并其他公司组建IBM（the International Business Machine Company，IBM）。Hollerith在数据处理方面做了很多改进工作，在其他领域也有一些发明。

1702645860

[ 上一页 ] [ :1.702645811e+09 ] [ 下一页 ]