打字猴:1.702645542e+09
1702645542 量化数据分析:通过社会研究检验想法 [:1702644733]
1702645543 量化数据分析:通过社会研究检验想法 重新组织表格以获取新的信息
1702645544
1702645545 在分析已发表的数据或阅读研究文章时,我们经常希望数据是用不同的方式来表达的。有时,表格里的信息足以让我们重新组织或重新计算表格,从而能得到我们想要的但与原作者论点不同的结论。下面将介绍两种可以使用的方法。
1702645546
1702645547 合并维度
1702645548
1702645549 假如你们对堕胎接受程度和宗教信仰虔诚度之间的关系感兴趣,但你们只有像第2章中表2-1那样的数据,那么,你们将如何构建一个二维表来表示“按宗教信仰虔诚度划分的接受堕胎(即认为在具体条件下堕胎是合法的)的百分比”呢?其实,做法非常简单。首先,你们将百分数表转换成一张频数表:90的31%等于27.9,近似为28;96的33%等于31.68,近似为32;其余的依此类推。这样得到表3-1(当然,行的合计是将每列加总。你们通过计算——将表3-1行的合计加总,将表2-1中的频数加总——来检验表3-1和表2-1的总频数是否相等。这两者得到的样本数均为1368)。行的合计可以通过惯用的方式表示成百分比,从而得到天主教徒中32%(=100×[112/(112+238)])的人接受堕胎,而新教徒中的这一比例为39%(=100×[398/(398+620)])。
1702645550
1702645551 我们只需简单地通过分别针对天主教徒和新教徒计算四个受教育程度类别的接受堕胎百分比的加权平均值,就能更快地得到同样的结果。其计算方法与我们为了获得直接标准化率而计算加权平均值一样。比如,天主教徒接受堕胎百分比的加权平均值为[(31%)(90)+(33%)(96)+(33%)(89)+(31%)(75)]/(90+96+89+75)=32%。计算整个频数表有两个优点:首先,它能更好地检验计算的准确性;其次,它允许构建其他列联表,如受教育程度和接受堕胎之间的零级相关。
1702645552
1702645553 虽然我们还可以举出许多其他例子,但是它们都遵循同样的逻辑。你们应该习惯根据已有的表格获取信息。这不仅仅是一种有用的技能,同时还有助于你们更好地理解表格是如何构建的。
1702645554
1702645555 表3-1 1965年美国成人按宗教派别和受教育程度分的接受堕胎的频数分布(N=1368)
1702645556
1702645557
1702645558
1702645559
1702645560 合并类别以表达新概念
1702645561
1702645562 有时,我们想从完全不同于原始调查者的角度来研究一个变量,比如我们想重新排列或组合类别。我们在第1章介绍如何处理名义变量的“无应答”一类时,已经讨论过这样的一个例子。对“无应答”有两种处理方法:一是视之为中性回答,介于想回答和不想回答之间;二是认为“无应答”根本与其他类别不是一个连续统一体,从而把它作为缺失值对待。
1702645563
1702645564 现在,我们以美国国会为例来介绍这个概念。在1970年代末期,《纽约时报》(New York Times)、《华盛顿邮报》(Washington Post)及类似的报纸都称保守民主党为“棉籽象鼻虫”(boll weevils)、自由共和党为“舞毒蛾”(gypsy moths)(流行词常常变来变去,现在你们不会再听到这些词了)。假设我们正在开展一项关于美国众议院议员的研究,最初将议员分为以下四类:
1702645565
1702645566 1.标准共和党
1702645567
1702645568 2.自由共和党
1702645569
1702645570 3.保守民主党
1702645571
1702645572 4.标准民主党可以将此四分类合并成三种明显不同的二分类,每种分法都反映了一种不同的理论构想。如果我们对党派政治研究感兴趣,想知道哪个党派控制众议院,那么我们可以将类别1和2合并,将类别3和4合并,从而得到:
1702645573
1702645574
1702645575
1702645576
1702645577 如果我们想区分自由派和保守派,那么我们可以将类别1和3合并,将类别2和4合并:
1702645578
1702645579
1702645580
1702645581
1702645582 如果我们对研究党派的忠诚度感兴趣,想知道众议院议员中党派忠诚分子占多大比例,我们可以将类别1和4合并,将类别2和3合并:
1702645583
1702645584
1702645585
1702645586
1702645587 所有这些的要点在于一个变量的原始构建方式并不是一成不变的。你们能够且应该对变量自由地重新编码,以便更好地表达你们想要研究的概念。
1702645588
1702645589 从这一点我们可以得出一个非常重要的推论:当你们设计数据收集方法或进行数据收集时,你们应该总是尽可能详细地保留原信息。在调查研究早期,数据处理技术促使研究人员将尽可能多的变量存储在一张IBM记录卡中。因此,为了节省存储空间(及避免繁琐的操作),研究人员采用高度汇总的分类。随着技术的发展,现在这些理由都不复存在,从而我们应该在原始编码中尽可能保留详细的信息——只有一种例外(此例外是,你们在设计数据收集方法时,应该尽可能地使受访者、访问员和编码员所犯的错误最少。例如,在一个通过面对面访谈收集数据的调查中,一个变量冗长、复杂的编码可能增大访问员犯错误的机会)。你们永远不知道何时会有一个需要重新编码一个或多个变量的新想法;哪怕你们没有这种想法,但这并不表示使用该数据集的其他人没有新想法。有一定经验的调查分析员常常碰到这样的情况:因为起初收集数据的人员本应该但却并没有保留足够详细的信息,使得分析难以进行。将变量合并或汇总成较少类别操作起来比较容易;但是拆分变量是不可能的,至少不回到初始问卷是不可能做到的,甚至回到初始问卷也不可能做到。
1702645590
1702645591
[ 上一页 ]  [ :1.702645542e+09 ]  [ 下一页 ]