1702645030
1702645031
有一点儿帮助 2
1702645032
1702645033
有一点儿伤害 3
1702645034
1702645035
伤害很大 4
1702645036
1702645037
不清楚 5
1702645038
1702645039
开放式问题 有时候问题要求以文字叙述的方式回答;这些问题被称为开放式问题(open-ended questions)。当对问题可能的回答过于复杂多样且不能简明地列在问卷中时,或者研究者对可能的回答没有明确的想法时,问卷就常常需要使用开放式问题。开放式问题必须通过编码——可以转换成一组标准的应答类别——成为可编辑操作的数据形式。这是一项非常耗时间且花费昂贵的工作,如果可能,研究者应尽量避免使用这类问题。尽管如此,仍然有一些问题不得不以开放的形式来提问。例如,在美国每十年一次的人口普查和许多当代抽样调查中,为了能够获得详细的信息来对职业和行业进行标准分类(3位数),调查者专门设计了以三个问题为一组的开放式问题要求被调查者回答。
1702645040
1702645041
每种应答或应答类别都有一个数字与之相对应,这被称为编码。编码数字就是记录下来用于数据分析的内容,被用来管理计算机中的数据。通常情况下,一些受访者会拒绝回答问题,或在自填式问卷中选择多个答案。有时候,访问员也会忘了记录答案,甚至以不正确的方式记录答案。在这些情况下,通常用一个特别的数字表示没有回答或不能编码的答案。例如,当准备分析数据时,编码“9”被用来表示上面问题中的无应答情况(这在后面会介绍得更多)。怎样处理无应答或缺失数据是调查分析中一直存在的问题之一,下面我们将给予重点关注。
1702645042
1702645043
每组的答案选项及其相关的编码被称为变量(variable)。一个计算机可读的数据集(不管是保存在计算机数据带、硬盘、磁盘、光盘、U盘,还是现在几乎消失的IBM记录卡上)包含了样本中每个人的一套编码数字,它们对应于数据集中变量的回答选项。例如,假设上面讨论的有关“民权示威游行对黑人是否有帮助”的问题在调查中是第十个变量,同时假设样本中第一个受访者说“有一点儿帮助”,则数据集就会在第一个人的第十个位置上标记为“2”。为了准确知道数据集包含的内容及变量在数据集中的位置,我们需要准备一个编码表。这个编码表就好比是针对数据集的一张地图,我会在第4章介绍怎样使用编码表。在这里,你们会注意到本书进行分析所需的基本资料包括一个数据集、这个数据集的编码表以及详述样本的记录。我们并不特别关注如何收集数据以及整理计算机可读数据的问题,除非附带提到这些问题。这些内容都有专门的文献进行研究,我们在此不做讨论。
1702645044
1702645045
习惯上,变量按照测量的层次可分为四类:名义(nominal)变量、序次(ordinal)变量、间距(interval)变量或比率(ratio)变量。名义变量由一组相互排斥并完全穷尽的类别构成,如个人的宗教信仰。例如,我们可能有下面的应答类别和编码。
1702645046
1702645047
新教 1
1702645048
1702645049
天主教 2
1702645050
1702645051
犹太教 3
1702645052
1702645053
其他 4
1702645054
1702645055
不信教 5
1702645056
1702645057
未答 9
1702645058
1702645059
注意,在这些回答中没有顺序——没有哪个回答比任何其他的回答“较好”或者“更高”。这类变量简单地提供了一种将人分成不同宗教群体的方法。同时还要注意的是,调查中的每个人都有一个编码,即使那些没有回答问题的人——由“其他”和“未答”来表示。一个恰当的变量设计要求分类一定要相互排斥并要穷尽,也就是说,在样本中的每一个人有且仅有一个编码(我们将在第4章讨论缺失数据编码的各种方法)。
1702645060
1702645061
序次变量有一个额外的特征:它们可以按照一定的维度——数量、价值或水平——进行排序。上面关于民权示威游行的问题就是序次变量的一个例子:对应答进行排序的维度是对黑人的帮助程度。实际上,这是我们在调查中经常碰到的一个有用的例子。其中的两个回答——“不知道”和明确的“未答”——显然不能像其他应答那样排序。在这些情况下,研究者有两个选择:要么从分析中删除这些应答,要么重新对它们进行编码,即改变编码使之表示新的顺序。一种可行的方法是将“不知道”放在“有一点儿帮助”和“有一点儿伤害”之间,因为“不知道”本质上是中立的,而不是正面的或者负面的回答。此时,分析人员应该将变量重新编码,将“不知道”赋值为“3”、“有一点儿伤害”赋值为“4”、“伤害很大”赋值为“5”。是否这样做取决于研究问题的具体需要。非常重要的一点是,这些操作在执行之前要预先告知读者,并在分析报告中予以详述。但是,将“未答”视为中性回答未免有些牵强,因为没有应答的情况千差万别,包括简单错误、没有完成问卷等。由于无法预测未应答者本来会如何应答这些“未答”的问题,因此,更明智的做法或许是将“未答”作为缺失数据来处理。
1702645062
1702645063
序次变量的重要特征是不包含类别间的间距信息。例如,我们不知道民权示威游行“有一点儿伤害”的判断与“有一点儿帮助”的判断之间的差异是否大于或小于“有一点儿帮助”与“有很大帮助”之间的差异。因此,一些统计学家和社会科学研究者认为应该用序数统计方法(ordinal statistics)来分析序次变量,因为序数统计方法对变量类别之间的间距没有做任何假设,仅仅利用了序次的性质。不过,这个问题并不是本书要讨论的内容。在本书中,我们主要介绍两类统计方法:一类适用于名义变量;另一类适用于间距和比率变量,后者被称为参数统计方法。我们没有特别为序次变量设计专门的统计方法(第14章介绍的序次逻辑斯蒂回归除外),主要有以下几点理由。首先,参数统计方法不仅比序数统计方法强大得多,而且更容易在数学上进行处理。更重要的是,结果非常稳健,也就是说,一般情况下,它们对那些违反了数据属性假设的情况非常不敏感,例如误差服从正态分布。其次,序数统计方法的应用范围远远比参数统计方法窄,而且同样的问题有许多可供选择的方法,而研究者对使用哪类序数统计方法却难以达成一致意见。再次,许多序数统计方法暗含一些假设,这些假设正如参数统计方法中的潜在假设一样,为序数统计方法增加了许多限制。例如,当间距或比率变量转换为序次变量时,可以证明斯皮尔曼等级序数相关(Spearman’s rank order correlation,一种序数统计方法)与皮尔森积矩相关〔product-moment(Pearson)correlation,一种常规的参数相关系数〕是一致的。实际上,斯皮尔曼等级序数相关并不是对类别之间的距离不做假设,而是假设每两个类别之间是等距的。总之,使用序数统计方法反而会得不偿失。然而,如果你们对这类统计方法感兴趣,可以参看Davis(1971)和Hildebrand等(1977)在文献中的讨论。
1702645064
1702645065
间距变量与比率变量类似,因为这两种变量类别之间的间距是有意义的。我们不仅(从某些维度)可以说某一类别高于另一类别,而且可以指出高出多少。这类变量理所当然地适用各种标准数学运算——加法、减法、乘法和除法。因此,我们能够计算出它们的平均值和标准差等统计量。两者的差别在于比率变量有一个内在零点,而间距变量则没有。因此,比率变量能够通过把某一个受访者(或某一组受访者)的值与另一个受访者或另一组受访者的值相除来比较,但间距变量只能通过类别之间的差来比较。间距变量的例子如智商、职业声望等,比率变量的例子如受教育年限、年收入等。如果说某人的智商比其他人高两倍是没有意义的,但我们可以说某人的智商比其他人高10点,或者说智商在种族内的方差大于种族间的方差。相比较而言,我们可以说男女的平均年收入相差10000美元,也可以说男性的平均收入是女性的两倍。
1702645066
1702645067
在本书中,我们经常将序次变量视为间距变量来处理,以便能使用前面提到的参数统计方法。但是,我们也会介绍如何评估间距假设是否恰当的方法,以及在允许同时处理名义变量、间距变量或比率变量的一般参数方法的范畴内,将变量看作名义变量来使用的方法。这些方法涉及回归分析的各种形式。
1702645068
1702645069
通常情况下,一个研究涉及的概念不能用单个题项完全表达。例如,在Marx的问卷中,没有单个题项能够完全表达他所定义的“激进”概念。因此,他构建了一个多题项测度(scale)来表达这个概念。具体地讲,他用了与1964年情况相关的8个题项来构建这个“激进”测度。如果一个受访者在下面8个题项中至少在6个题项上给出激进的回答(见括号内),那么这个人就被归为“激进分子”(Marx,1967b:41)。
1702645070
1702645071
在您看来,华盛顿政府推进种族融合的措施太慢、太快,还是刚好?(太慢)
1702645072
1702645073
黑人通过努力工作获得成功的难易程度和其他人一样吗?(不同意)
1702645074
1702645075
黑人应该花更多的时间祈祷,花更少的时间游行示威。(不同意)
1702645076
1702645077
实话说,我害怕加入民权示威游行。(不同意)
1702645078
1702645079
您希望看到更多的民权示威游行还是较少的民权示威游行?(更多)
[
上一页 ]
[ :1.70264503e+09 ]
[
下一页 ]