打字猴:1.70264501e+09
1702645010 量化数据分析:通过社会研究检验想法 [:1702644720]
1702645011 量化数据分析:通过社会研究检验想法 通过具体实例介绍全书
1702645012
1702645013 社会学家Gary Marx于1967年在《美国社会学评论》(American Sociological Review)上发表了一篇文章,题目是“宗教:黑人民权意识的镇定剂还是催化剂?”(“Religion:opiate or inspiration of civil rights militancy among Negroes?”)(Marx,1967a;也可见Marx,1967b)。题目表达了宗教如何影响黑人民权意识的两种截然不同的观点:一种观点认为信教的黑人相比于不信教的黑人的民权意识要弱,因为宗教使前者超凡脱俗,而不是世俗化,而且,宗教组织一般与现状休戚相关,因此他们更倾向于保守;另一种观点认为,信教黑人的民权意识更强,因为黑人的教堂是民权意识的主要传播场所,而且宗教也是普遍的人文主义价值的一个重要源泉。当然,还有一种可能是宗教与民权意识之间根本没有关系。
1702645014
1702645015 如果想判断哪种观点是正确的,我们该怎样做呢?一种方法是——这是本章的核心内容——在黑人中做一项概率抽样调查,了解他们的宗教信仰如何、民权意识如何,然后通过对这两个变量做列联表来确定信教与不信教黑人的民权意识强弱的相对可能性或概率。如果信教的人比不信教的人更不可能表达他们的民权意识,那么事实将会支持第一种观点。如果信教的人更有可能表达他们的民权意识,那么事实将会支持第二种观点。如果信教的人和不信教的人在表达民权意识的相对可能性方面没有差别,那么事实将会支持第三种可能。当然,支持何种观点的事实并不能完全证明这种观点就是对的。我们在后面将会更多地讨论此问题。
1702645016
1702645017 这个表面上看似简单的例子包含了我们将会在此书中介绍的所有要素,同时,这些要素也是一个研究者对任何研究问题给出有意义并令人信服的答案时必须考虑的。下面让我们逐项来介绍。
1702645018
1702645019 第一,是想法(idea):宗教是民权意识的镇定剂还是催化剂?没有想法指导的数据分析是毫无意义的。正如我们将不断看到的,一个研究者期望检验怎样的想法将会决定他收集数据的类型和收集的过程。如果没有想法,一个研究者是不可能知道应该做什么的。这时他可能在胡乱尝试一下后,不知如何从各种结果中做出选择。需要检验的想法通常被称为假设(hypotheses),除此之外还涉及理论(theories)。一个理论不必太宏大或太抽象。任何关于什么导致什么、两个变量之间为何且如何相关的观点都是理论。
1702645020
1702645021 第二,信息(information)或数据(data),它们被用来检验想法或假设(或理论)。在本书中,我们关注的数据来自对总体的概率抽样。总体(population)是指任何可定义的事物的集合。大多数情况下我们讨论的是人的总体,如“美国人口”。但是,社会科学家同样对组织、城市、职业等的总体感兴趣。一个概率抽样(probability sample)是指通过使用概率方法从总体中抽出子样本,而这个子样本中的个体被抽中的概率是已知的。研究者只有使用概率样本才能将抽样样本的特征推论到总体,进而得到总体的特征。也就是说,根据从抽样数据中得到的结果,我们就能够在一定范围内推论总体可能的结果是什么。
1702645022
1702645023 Marx使用的抽样方法实际上很复杂,对南部之外的大都市地区依概率抽样方法抽取了492名黑人,此外又做了四个特别抽样——从芝加哥、纽约、亚特兰大和伯明翰依概率抽样方法取得黑人样本。非南部城市样本加上四个特别样本,合计1119个样本。Marx将这些联合样本看作可以代表美国城市黑人总体的概率样本。事实上,这种方法并不完全合理。之后我们将会讨论一些方法,这些方法可以通过对复杂抽样进行加权处理以使得它们真实地代表目标总体。对数据分析者来说,对分析中使用的抽样进行评估是一项重要的工作。但现在,我们暂且认为Marx的抽样样本可以作为代表美国城市黑人的一个概率抽样。
1702645024
1702645025 当我们研究人们的行为或态度时,收集数据的一种标准方法是从一个合适的人口总体中进行概率抽样,然后通过让被抽出的受访者回答一组特定的问题来了解他们的行为和态度。也就是说,我们在调查(survey)样本中,询问每个人一组特定的问题,并记录他们的回答。在大多数抽样调查中,每一道问题的可选答案都是事先设计好的,被抽中的人——受访者(respondent)——被要求从列出的所有答案(也有例外,请看下面对开放式问题的评论)中选择他们认为最贴切的答案。例如,Marx问的其中一个问题是:
1702645026
1702645027 请谈一谈您对过去几年民权示威游行的看法:它们对黑人有很大帮助、有一点儿帮助、有一点儿伤害或者伤害很大?
1702645028
1702645029 有很大帮助    1
1702645030
1702645031 有一点儿帮助   2
1702645032
1702645033 有一点儿伤害   3
1702645034
1702645035 伤害很大     4
1702645036
1702645037 不清楚      5
1702645038
1702645039 开放式问题 有时候问题要求以文字叙述的方式回答;这些问题被称为开放式问题(open-ended questions)。当对问题可能的回答过于复杂多样且不能简明地列在问卷中时,或者研究者对可能的回答没有明确的想法时,问卷就常常需要使用开放式问题。开放式问题必须通过编码——可以转换成一组标准的应答类别——成为可编辑操作的数据形式。这是一项非常耗时间且花费昂贵的工作,如果可能,研究者应尽量避免使用这类问题。尽管如此,仍然有一些问题不得不以开放的形式来提问。例如,在美国每十年一次的人口普查和许多当代抽样调查中,为了能够获得详细的信息来对职业和行业进行标准分类(3位数),调查者专门设计了以三个问题为一组的开放式问题要求被调查者回答。
1702645040
1702645041 每种应答或应答类别都有一个数字与之相对应,这被称为编码。编码数字就是记录下来用于数据分析的内容,被用来管理计算机中的数据。通常情况下,一些受访者会拒绝回答问题,或在自填式问卷中选择多个答案。有时候,访问员也会忘了记录答案,甚至以不正确的方式记录答案。在这些情况下,通常用一个特别的数字表示没有回答或不能编码的答案。例如,当准备分析数据时,编码“9”被用来表示上面问题中的无应答情况(这在后面会介绍得更多)。怎样处理无应答或缺失数据是调查分析中一直存在的问题之一,下面我们将给予重点关注。
1702645042
1702645043 每组的答案选项及其相关的编码被称为变量(variable)。一个计算机可读的数据集(不管是保存在计算机数据带、硬盘、磁盘、光盘、U盘,还是现在几乎消失的IBM记录卡上)包含了样本中每个人的一套编码数字,它们对应于数据集中变量的回答选项。例如,假设上面讨论的有关“民权示威游行对黑人是否有帮助”的问题在调查中是第十个变量,同时假设样本中第一个受访者说“有一点儿帮助”,则数据集就会在第一个人的第十个位置上标记为“2”。为了准确知道数据集包含的内容及变量在数据集中的位置,我们需要准备一个编码表。这个编码表就好比是针对数据集的一张地图,我会在第4章介绍怎样使用编码表。在这里,你们会注意到本书进行分析所需的基本资料包括一个数据集、这个数据集的编码表以及详述样本的记录。我们并不特别关注如何收集数据以及整理计算机可读数据的问题,除非附带提到这些问题。这些内容都有专门的文献进行研究,我们在此不做讨论。
1702645044
1702645045 习惯上,变量按照测量的层次可分为四类:名义(nominal)变量、序次(ordinal)变量、间距(interval)变量或比率(ratio)变量。名义变量由一组相互排斥并完全穷尽的类别构成,如个人的宗教信仰。例如,我们可能有下面的应答类别和编码。
1702645046
1702645047 新教    1
1702645048
1702645049 天主教   2
1702645050
1702645051 犹太教   3
1702645052
1702645053 其他    4
1702645054
1702645055 不信教   5
1702645056
1702645057 未答    9
1702645058
1702645059 注意,在这些回答中没有顺序——没有哪个回答比任何其他的回答“较好”或者“更高”。这类变量简单地提供了一种将人分成不同宗教群体的方法。同时还要注意的是,调查中的每个人都有一个编码,即使那些没有回答问题的人——由“其他”和“未答”来表示。一个恰当的变量设计要求分类一定要相互排斥并要穷尽,也就是说,在样本中的每一个人有且仅有一个编码(我们将在第4章讨论缺失数据编码的各种方法)。
[ 上一页 ]  [ :1.70264501e+09 ]  [ 下一页 ]