打字猴:1.702645978e+09
1702645978 我们有时想用数学运算方式变换变量。当我们介绍回归分析时,这种变换将非常重要,因为有时可以用包含非线性变量的线性方程来表达非线性关系。例如,众所周知,收入和年龄之间存在曲线关系——收入随着年龄的增加而增加,到特定年龄后下降。此关系可以通过构建下面形式的回归方程来表示:
1702645979
1702645980
1702645981
1702645982
1702645983 即收入(=Y)作为年龄和年龄平方的线性函数。为了估计此方程,我们需要创建一个新变量——年龄的平方。因此,我们只需计算
1702645984
1702645985 AGESQ=AGE*AGE      (4.2)
1702645986
1702645987 然后用AGE和AGESQ对Y进行回归。大多数统计软件包的程序都有强大的变换能力,它们一般可以用任何算术运算或任何特别的函数如平方根函数来变换变量。
1702645988
1702645989 列联变换
1702645990
1702645991 变换变量的最后一种方法是在命令中用“if”这个术语。“if”术语是重新编码的一种替代方法,因为它能同时根据几个变量之间的复杂关系来设定新变量,所以这种方法比其他重新编码的方法更灵活。例如,如果我们想区分那些向上流动和没有流动的人,那么我们可以将那些职业声望比父亲的职业声望高的人识别为向上流动的人。这可以通过下面的识别方法来完成:先创建一个新变量MOBILITY,如果变量PRESTIGE比变量PRESTIGE-OF-FATHER大,则赋值为1;其他情况赋值为0。虽然执行这个计算机命令的句法根据所用程序有所变化,但其逻辑通常很简单易懂:创建一个二分变量(dichotomous variable),将那些向上流动的人赋值为1,其他的人赋值为0(这里,“向上流动”被定义为拥有比父亲的职业声望高的职业)。
1702645992
1702645993 另一种列联变换方法是创建一个变量,它是由一组特定的且符合一定标准的应答数构成的变量。例如,我们可能会创建一个测量接受堕胎的量表,这个量表是通过对一组有关在什么条件下允许堕胎的问题,计算在多少项上回答为“堕胎是合法的”(或“接受”)来得到。
1702645994
1702645995 列联表述不仅可用来变换变量而且可用来选择分析样本。例如,如果我们对分析生育史感兴趣,那么我们会将样本限定为年龄在45岁及以上的女性。在一些计算机统计软件包(如SPSS)中,通过选择一个子样本并只对此样本进行操作即可。尽管其他软件包(如Stata)也可以选择子样本,但这些软件包通常把选择样本作为每条命令的一部分。
1702645996
1702645997 缺失数据
1702645998
1702645999 数据集中经常会出现某些变量的信息缺失。缺失数据的原因不胜枚举,例如,通过访问抽样人群获得的数据集,有些信息就可能永远不能从受访者那里得到,这是由误差或设计等因素造成的(一些问题可能“不适合”某类群体,例如,未婚者配偶的受教育程度;有时为了增加问卷长度同时避免给受访者增加太多负担,增加的问题只要求随机抽取的部分受访者回答——GSS经常这样做)。受访者可能拒绝回答一些问题,也可能通过声称“不知道”或“没有意见”来回答一些问题,或者给出一些逻辑上不一致的回答(例如,在婚姻状态这道题上选择了“未婚”这个选项,但又给出了具体的“初婚年龄”)。访问员可能没有记录受访者的答案或者记录不正确。在准备分析数据的过程中也可能产生错误——如编码人员错误地将叙述式回答归入编码类别,或在数据录入过程中将正确的编码键入错误。类似的棘手问题在其他类型的数据集中也同样存在。官方数据通常不完整,而且经常存在不一致的信息。
1702646000
1702646001 人们一般愿意配合(精心设计和精心管理的)调查 有趣的是,当问卷设计得很好时,拒绝回答某些敏感问题的人是很少的。总的来说,人们很高兴有人问自己的意见及谈论自己。在调查分析界有一个著名的故事,是关于印第安纳波利斯生育调查的,这是明确询问性行为的最早的调查之一。一位访问员惴惴不安地拿着问卷去做预调查,不知道妇女会如何回答有关“性关系”这样的敏感问题。完全出乎意料,访谈进展得很顺利——直到即将结束时,当访问员开始询问有关个人的基本信息时(即问受访者的年龄时),女士愤怒地挺直身子说:“现在你开始打探个人的隐私了!”
1702646002
1702646003 当然,这也存在例外,即人们担心填写自己的信息——如收入——将给自己带来危害,他们担心这些信息会被税务当局获悉。
1702646004
1702646005 在高质量的调查中,最大的困难是最小化误差。在读取数据集以进行分析时,数据是被清理过的(cleaned),也就是说,被编辑过从而能够被识别,并且如果可能的话修改了不恰当的编码(与有效应答类别不一致的编码),以及逻辑上不可能的编码组合。例如,当一名受访者声称自己未婚但却同时给出了初婚年龄时,有时可以通过查看这个人对其他问题的回答来决定哪个是正确的,哪个是不正确的。当不可能做到这一点时,可能需要联系受访者以更改不一致的地方。
1702646006
1702646007 当然,错误有可能在编辑过程中被引入,也可能在更正过程中被引入。例如,我在威斯康星州麦迪逊市的时候,曾看到为了1970年美国人口普查于1968年进行的预调查的现场编辑操作工作。在此次操作中,作为人口普查局临时雇员的中产阶级家庭妇女负责“更正”人口普查表中的一类缺失值,即如果女性在人口普查表中未填写婚姻状态但在后面提到有孩子,则把婚姻状态“更正”为“已婚”。当然,在1968年有些未填写婚姻状态的母亲实际上可能是未婚母亲,她们通过故意忽略而回避回答这个问题。这种使得世界更加有序的编辑操作——威斯康星州的中产阶级妇女这样认为——被认为是不应该发生的,但它的确发生了。
1702646008
1702646009 在编辑过程中,要给非实质性回答的各种类别指定明确的编码,依照每个变量的类别应该相互排斥且穷尽的原则——这种设计保证每个个体对应于每个变量有且仅有一个编码。例如,一个编码可能被指定为“不知道”,另一个编码被指定为“拒答”,还有一个编码被指定为“不适用”,当空白项也需要被指定一个编码时则需要另外设定一个编码。通常情况下,这是一种好的做法,将非实质性回答区分为不同形式,从而保证在数据分析过程中能灵活处理这些不同类别。例如,像前面讲到的,对某一态度问题的“不知道”应答可能被看作无应答或某种介于正面和负面之间的中性回答。如果在编码过程中将“不知道”与“没有回答”合并在一起,那么就不可能做这样的区分。总之,详细保存实质性应答的编码非常重要(这在前一章的“合并类别以表达新概念”部分讨论过),出于同样的理由,详细保存非实质性应答的编码也同样重要。
1702646010
1702646011 分析带有缺失数据的调查
1702646012
1702646013 假设数据是以这种方式编码保留了所有相关的差别,分析者将面临一系列如何定义和对待“缺失数据”的决定。第一个问题是实质性的:哪个回答可被看作实质上有意义的而哪个回答代表信息缺失呢?一个典型的例子就是前面讨论过的如何处理有关态度问题的“不知道”回答。另一种在表格分析中经常出现的情况就是怎样对待数量很小的类别。例如,一个美国样本中有关种族问题的“其他”类别(既不是白人也不是黑人的类别)。一种方便的做法是从分析中删除此类别。但这不是一种好方法——数据应该对研究的总体而言有代表性。因此,如果你们正在研究美国成年人口,那么表格应该指全部成年人口,而不仅仅是白人和黑人。解决这个问题的一个简单方法是创建一个剩余类别“其他”,将它放在表中但不讨论。这样做是出于完整性的考虑——这样也使读者可以出于别的目的重新组织表格——但通常不做具体讨论,因为剩余类别样本数量较少且异质性较大,讨论它们一般没有什么意义。
1702646014
1702646015 另一个更麻烦的问题是,有时表格中的一些变量真的没有包含任何信息。比如受访者没有报告他们的受教育程度或收入。同理,我们可以在表的每一行或每一列添加“没有回答”这个类别。当存在很多缺失数据时,这是一种明智的做法。但如果仅有个别数据缺失,因类别增加导致表格变大难免显得不太合理。在这种情况下,简单的做法是给表格加条脚注,报告有多少样本缺失。
1702646016
1702646017 当变量是连续型的时候,我们要么从分析中删除缺失值,要么用某种方法填补它们。第8章将介绍缺失数据的处理问题。
1702646018
1702646019 多数统计软件包程序允许分析者指定哪些编码为缺失值(missing values)(从某种意义上讲确实需要这种指定,因为无论你是有意还是无意,没有被指定为缺失值的任何编码都被包括在计算中)。一般来说,各种统计软件包程序在不同步骤(命令)上处理缺失数据会不完全一致,所以准确理解每一步在做什么,并相应地设计你们的分析是非常重要的。在设计分析时,你们必须知道每一步程序将如何处理数据中每个逻辑上可能的编码,尤其包括那些被指定为缺失值的编码,否则你们很有可能会遇到麻烦。
1702646020
1702646021 在前面讨论的有关受教育程度的例子中,“缺失信息”被编码为-1。当计算均值时,我们一般会声明-1是受教育程度的缺失值。在SPSS句法中,缺失值在程序中是被明确注明的,即“missing values educ(-1)”;在Stata中,正如前面讲到的,缺失值会通过赋予其中一种“缺失值”编码的方式被自动排除,或通过用如果(if)条件语句限定样本的步骤来准确地加以排除:…if educ~=-1(即如果EDUC不等于-1)。这些语句告诉计算机在计算均值时删掉所有受教育程度编码为-1(或为指定的缺失值编码)的个人。忽略此步骤会导致一个不正确的均值,因为那些编码为-1年受教育年限的人被包括在计算中。这类错误很常见,这就是为什么反复检查命令的逻辑是非常必要的。一种有效的检查方法是对原始变量的特定赋值逐行查看计算机命令的逻辑,看计算机是如何在每一步中变换它们的。
1702646022
1702646023 数据分析新手常遇到的一个问题是,他们在进行计算时,发现计算机输出结果中没有样本或样本很少。这通常是数据变换的逻辑错误导致的结果。例如,考虑一个收入变量,其原始编码是一组表达收入范围的类别,如1=每年少于3000美元,2=3000~4999美元,等等,但同时用97、98、99表示各种无应答类别。如果分析者将收入类别重新编码为这些范围的中点,如将1重新编码为1500美元,2为4000美元,等等,但随后忘了这一点,仍然指定编码大于或等于97的样本为缺失值,结果是所有的样本都会被排除,因为所有报告了收入的样本被重新编码为上千元的数值,即大于97。如果你认为这些不会发生在自己身上,那我们就等你试的时候瞧瞧!这在我们所有人身上都发生过。关键是要在你建构整个理论体系之前发现这些逻辑上相似但有细微差别的错误。
1702646024
1702646025
1702646026
1702646027
[ 上一页 ]  [ :1.702645978e+09 ]  [ 下一页 ]