1702645791
量化数据分析:通过社会研究检验想法 本章小结
1702645792
1702645793
我们在本章已经看到如何从已发表的表格中获取新信息。然后,我们注意到一种使“反向”百分数表有意义的情形——当我们分析“基于应答”的样本数据时,样本是按照因变量分层的。接着,我们看到,为什么有必要提供包括在样本中但并没有包括在表中的样本的信息,以及如何操作。然后,我们介绍了当单元格数值是均值(和标准差)时如何构建和描述列联表。我们学习了如何计算相异指数(Δ)——一种测量比例分布相似性的指标。此外,我们还介绍了如何描述列联表。
1702645794
1702645795
到目前为止,我们所有的工作都可以用纸笔来运算——最多使用一个计算器。我们在下一章通过学习如何从个体数据构建列联表进入现代社会研究的世界。列联表是通过专为统计分析设计的计算机软件来构建的。本书主要使用统计软件Stata,后面的所有章节都会用到它。
1702645796
1702645797
1702645798
1702645799
1702645801
量化数据分析:通过社会研究检验想法 第4章 用计算机进行数据操作
1702645802
1702645804
本章内容
1702645805
1702645806
本章将介绍如何用计算机处理数据来获得列联表。当进行回归分析时,我们也使用同样的方法来处理数据,因此本章也是为介绍用计算机进行统计分析做准备的。本章的内容包括如何组织数据文件(即本书所关注的数据文件类型)和如何从中提取数据;如何把变量转换成能表达我们想研究什么的概念;同时我们还将讨论如何处理缺失值这一麻烦的问题。
1702645807
1702645808
1702645809
1702645810
1702645812
量化数据分析:通过社会研究检验想法 引言
1702645813
1702645814
社会科学家进行的多数统计分析都是用被称为“软件包”(package programs)的工具完成的。大量多种用途的计算机程序可以满足研究者对任意数据集进行各类数据处理和统计分析的需要。虽然从计算的角度来看它们并不非常有效率(即它们通常比专门针对某一任务设计的程序耗时长),但是随着计算机的运算速度变快,这一点已经不重要了。更确切地说,它们对研究者来说是非常有效的。研究者经常需要为新的分析编一些新程序,因而需要一种简单的方法能让计算机执行任意特定的操作。统计软件包很好地满足了这一需求。使用最广泛的软件包包括SPSS和SAS。在学术界,Stata统计软件包被越来越多的人使用。这三种软件包都有Unix系统和PC系统的版本。三者之中,Stata的两个系统版本是最接近一致的。当然,还有许多其他统计软件包,其中许多都值得你们去尝试,但还是等你们掌握本书的内容后再说吧。你们会发现,尽管各种程序的命令语句(command syntax)有些不一样,但用计算机进行数据分析的逻辑几乎是通用的。一旦你们掌握了这个基本逻辑,你们就会很容易地把它应用到其他数据集和其他统计软件包程序上。
1702645815
1702645816
社会科学中计算机软件包的发展史介绍 在很长一段时间内,SPSS曾是社会学家首选的软件包,可能是因为它不仅是由社会科学家编写而且也是为社会科学家编写的。早前版本的用户手册(直到出现SPSS-X版本)是标准的技术参考手册和对SPSS所使用的统计技术的精彩介绍。事实上,这个参考手册起到了销售SPSS的作用,而作为计算机程序来说SPSS比不上其他很多软件包。SPSS-X手册以及SPSS后来的版本都是由计算机程序员编写的。但不幸的是,作为计算手册来说它们写得不够清晰,而作为介绍统计的书来说它们又介绍得不够详细。但是早期的手册已不再容易得到,而且SPSS越来越倾向于被商业用户使用。虽然它在欧洲和亚洲仍然被很多社会科学家使用,但在美国顶尖的研究型大学中它已经失去了很大的市场。随着社会科学家们越来越擅长统计分析和计算机应用,许多研究者转向统计功能更强大的SAS。使用SAS最大的困难在于它的手册很难读懂,而且它的命令经常不够直观。因此,这不是一门简单易学或易教的语言。幸运的是,Stata作为最早用于计量经济学的一个软件包,尽管最初在数据管理能力方面不够强大,但逐渐变得越来越好,因此到目前为止,它可以作为一个多用途的软件包来使用。Stata功能强大且运算速度快,它可以在PC机上执行分析,即使是处理大型数据集(例如,中国人口普查1%样本数据)。它能做当代数据分析所需要的大多数工作,而且命令一般很简单和直观。同时,Stata数据集可以被用于其他任何平台。总之,Stata是我们做各种工作的一个很好的选择。本章结尾处的附录4提供了用Stata执行数据分析的一些指南。
1702645817
1702645818
1702645819
1702645820
1702645822
量化数据分析:通过社会研究检验想法 如何组织数据文件
1702645823
1702645824
在计算机中组织数据文件最容易想到的方法是设想一个矩阵,行是样本,列(或列组)是变量。具体来讲,设想一个有257个变量(但这个数据集有422列,因为一些变量要求用多个列来表示;例如,受访者身份识别号需要用4列来表示,年龄需要用2列来表示)和1609个样本(因此数据有1609行)的数据集。再具体一些,可将此数据集看作是来自美国人口总体的一个代表性样本。在此数据集中,信息可以被组织成如表4-1中的格式。
1702645825
1702645826
为了处理这些数据,我们需要一个地图来告诉我们:特定的信息在矩阵中的什么位置,以及这些信息是什么意思。这个地图被称为编码本(codebook)。在此例中,我们假设有一个像表4-2所示的编码本。
1702645827
1702645828
表4-1 如何管理数据的说明
1702645829
1702645830
1702645831
1702645832
1702645833
表4-2 对应于表4-1的编码本
1702645834
1702645835
1702645836
1702645837
1702645838
根据编码本中的信息,我们现在可以准确地知道数据集包含的内容:它包含了1609名受访者中每个人的一项记录。高质量的编码本一般也提供数据集的样本特征信息,以及处理数据的其他必要文件等信息。计算机能读取的数据集被称为机读数据(machine readable或computer readable),也称文件(files)。在此例中,前4列是每个受访者的身份识别号。在分析数据时我们通常不关注这个身份识别号,但当我们需要追踪数据或添加数据到文件中时——比如,我们对同一批受访者实施了另一项调查并想将两次调查的数据合并在一起,或者如果我们想往已经整理好的样本中添加其他受访者的信息时,等等——这个身份识别号就变得至关重要了。第5列是受访者的性别,第6列和第7列是受访者的年龄,第422列是一个关于对总统政策的评价问题。
1702645839
[
上一页 ]
[ :1.70264579e+09 ]
[
下一页 ]