1702645560
合并类别以表达新概念
1702645561
1702645562
有时,我们想从完全不同于原始调查者的角度来研究一个变量,比如我们想重新排列或组合类别。我们在第1章介绍如何处理名义变量的“无应答”一类时,已经讨论过这样的一个例子。对“无应答”有两种处理方法:一是视之为中性回答,介于想回答和不想回答之间;二是认为“无应答”根本与其他类别不是一个连续统一体,从而把它作为缺失值对待。
1702645563
1702645564
现在,我们以美国国会为例来介绍这个概念。在1970年代末期,《纽约时报》(New York Times)、《华盛顿邮报》(Washington Post)及类似的报纸都称保守民主党为“棉籽象鼻虫”(boll weevils)、自由共和党为“舞毒蛾”(gypsy moths)(流行词常常变来变去,现在你们不会再听到这些词了)。假设我们正在开展一项关于美国众议院议员的研究,最初将议员分为以下四类:
1702645565
1702645566
1.标准共和党
1702645567
1702645568
2.自由共和党
1702645569
1702645570
3.保守民主党
1702645571
1702645572
4.标准民主党可以将此四分类合并成三种明显不同的二分类,每种分法都反映了一种不同的理论构想。如果我们对党派政治研究感兴趣,想知道哪个党派控制众议院,那么我们可以将类别1和2合并,将类别3和4合并,从而得到:
1702645573
1702645574
1702645575
1702645576
1702645577
如果我们想区分自由派和保守派,那么我们可以将类别1和3合并,将类别2和4合并:
1702645578
1702645579
1702645580
1702645581
1702645582
如果我们对研究党派的忠诚度感兴趣,想知道众议院议员中党派忠诚分子占多大比例,我们可以将类别1和4合并,将类别2和3合并:
1702645583
1702645584
1702645585
1702645586
1702645587
所有这些的要点在于一个变量的原始构建方式并不是一成不变的。你们能够且应该对变量自由地重新编码,以便更好地表达你们想要研究的概念。
1702645588
1702645589
从这一点我们可以得出一个非常重要的推论:当你们设计数据收集方法或进行数据收集时,你们应该总是尽可能详细地保留原信息。在调查研究早期,数据处理技术促使研究人员将尽可能多的变量存储在一张IBM记录卡中。因此,为了节省存储空间(及避免繁琐的操作),研究人员采用高度汇总的分类。随着技术的发展,现在这些理由都不复存在,从而我们应该在原始编码中尽可能保留详细的信息——只有一种例外(此例外是,你们在设计数据收集方法时,应该尽可能地使受访者、访问员和编码员所犯的错误最少。例如,在一个通过面对面访谈收集数据的调查中,一个变量冗长、复杂的编码可能增大访问员犯错误的机会)。你们永远不知道何时会有一个需要重新编码一个或多个变量的新想法;哪怕你们没有这种想法,但这并不表示使用该数据集的其他人没有新想法。有一定经验的调查分析员常常碰到这样的情况:因为起初收集数据的人员本应该但却并没有保留足够详细的信息,使得分析难以进行。将变量合并或汇总成较少类别操作起来比较容易;但是拆分变量是不可能的,至少不回到初始问卷是不可能做到的,甚至回到初始问卷也不可能做到。
1702645590
1702645591
1702645592
1702645593
1702645595
量化数据分析:通过社会研究检验想法 何时用“反向”百分数表
1702645596
1702645597
通常,我们处理表格的原则是,应该将表格做成百分比形式,使得因变量各类别在加总之后等于100%。但有一个例外,即当样本不能反映总体落入因变量各个类别中的“风险”的情形。有时样本是按因变量而不是按自变量或自变量组来分层的;也就是说,样本有时是基于因变量的值来选择的。这种抽样通常用于各种不易找到的总体,例如罪犯、大学生、政治活动家、癌症患者等。
1702645598
1702645599
例如,表3-2显示了美国各类精英的社会出身。此处,将表格做成百分比的形式以表示每个精英群体父亲的职业分布。表格也列出了某些年份美国男性劳动力作为一个整体的职业分布。这里,这些年份大概对应于他们的父亲处于劳动力市场的年份。当然,此表的要点是说明精英出自精英家庭:相对于总体劳动力中父亲是专业人员和管理人员的比例,这些精英的父亲为专业人员或管理人员的比例要高很多。在此表中计算百分比的方法与以往不同。通常情况下,百分比表示在给定某一原因或先决条件的情况下某个因变量的条件概率。而此表是根据精英样本(加上一些一般劳动者的数据)的信息构建的,因此它并不代表总体的社会出身。用一个能反映总体的样本数据来研究专业人员的孩子成为最高法院法官、诺贝尔奖得主及其他杰出人士的可能性是不切实际的,因为实际上样本中可能根本就没有一个像最高法院法官、诺贝尔奖得主这样的精英样本。因为精英的数量非常稀少,除非我们能获得整个总体的数据。因此,在这种情况下,我们使用基于应答的样本(response-based samples),使百分数表能反映每个因变量类别的自变量的分布——如在此例中,精英群体的社会出身与普通人的社会出身相比较。
1702645600
1702645601
表3-2 诺贝尔奖得主(1901~1972年)和其他美国社会精英的社会出身(为了便于比较,同时列出了1900~1920年男性从业人员的职业分布)
1702645602
1702645603
1702645604
1702645605
1702645606
1702645607
1702645608
[
上一页 ]
[ :1.70264556e+09 ]
[
下一页 ]