1702645701
量化数据分析:通过社会研究检验想法 相异指数
1702645702
1702645703
到目前为止,我们已经通过比较自变量或自变量组的类别间的百分比、均值或中位值来研究两个或更多变量之间的关系。正如我们已经注意到的,在某些情况下使用这些方法不能得出特别有价值的结果。特别是当某个变量的分类数过多时,比较任何一个类别的条件百分比都会忽略表中的大部分信息。
1702645704
1702645705
假设你们想知道劳动力市场的性别隔离和种族隔离哪个更严重,你们可能会做一个像表3-6那样的分性别分种族的职业列联表来研究这个问题。从直观上看,此表对研究这个问题没有多大帮助——因为从表中看不出职业分布是在种族之间还是性别之间更相似。为了研究这个问题,你们可以计算相异指数(Index of Dissimilarity,Δ),公式如下:
1702645706
1702645707
1702645708
1702645709
1702645710
这里,Pi等于第一种分布的第i个类别的样本比例,Qi等于第二种分布的第i个类别的样本比例。这个指数可以解释成,为了使两种分布相同,要把其中一种分布中多少比例的样本转到另一种分布中。如果这两种分布相同,那么Δ当然等于0。如果这两种分布完全不相同,例如,在一所女子学校和一所男子学校中学生的性别分布完全不同,那么Δ将为100。
1702645711
1702645712
根据表3-6我们能够计算每对列的Δ。例如,白人男性和白人女性的Δ(它告诉我们在白人中存在多大程度的职业性别隔离)计算如下:42.1=(|15.6-16.4|+|14.9-6.8|+…+|1.5-0.9|)/2。在这个例子中,在6组比较中,我们对其中4组感兴趣:
1702645713
1702645714
职业性别隔离的相异指数
1702645715
1702645716
白人 42.1
1702645717
1702645718
黑人及其他 41.3
1702645719
1702645720
职业种族隔离的相异指数
1702645721
1702645722
男性 24.3
1702645723
1702645724
女性 18.2
1702645725
1702645726
从这些计算结果我们看到,40%以上的白人女性需要改变她们主要的职业以使白人女性的职业分布与白人男性的一致;黑人及其他种族的女性也需要改变类似的职业比例才能与黑人及其他种族男性的职业分布相同(注意,这个系数是对称的,因此我们很容易发现,要使男性的职业分布与女性的相同,男性需要改变职业的比例与女性相同)。相比较而言,不到四分之一的黑人男性需改变主要职业类别以使黑人男性的职业分布与白人男性的一样;而在女性中,相应的比例不到五分之一。因此,我们得出结论:职业性别隔离比职业种族隔离大得多。虽然报告相异指数的显著性检验不是很常见,但要做还是可能的〔见Johnson和Farley(1985),以及Ransom(2000)对Δ抽样分布的讨论〕。
1702645727
1702645728
相异指数的一个显著的弱点是,随着类别数的增加,它也倾向于增大(如果一个分布的类别被细分成更多类别时,Δ不会变小,而只会变大或保持不变)。因此,只有当计算Δ各分布的类别相同时,Δ之间的比较才是合理的。例如,用Δ来测量不同国家的职业性别隔离程度是不对的,因为每个国家的职业分类往往不同。〔当然,除非各国的职业重新编码为标准分类,如国际标准职业分类(International Standard Classification of Occupations)(International Labour Office 1969;1990)或这种分类的一些集合。〕
1702645729
1702645730
表3-6 1979年美国劳动力分种族分性别的主要职业类别的百分比分布(N=96945)
1702645731
1702645732
1702645733
1702645734
1702645735
1702645736
1702645737
1702645739
量化数据分析:通过社会研究检验想法 如何描述列联表
1702645740
1702645741
在描述列联表或任何量化关系时,目标是清晰(clarity)而不是简洁(elegance)。你们应该尽可能阐述清楚表格的内容,引导读者理解它,但不要太啰嗦以免把读者搞糊涂或使他们厌烦。一定力求言简意赅。在这一点上,海明威是出色的典范。在量化社会科学家中,Nathan Keyfitz(他使简单变得有魅力)和Paul Lazarsfeld(他是一个好榜样,因为他的母语是德语而不是英语,据说他的初稿要修改无数次才能让他对其中的语句感到满意)都是值得效仿的。Robert Merton不是一位量化社会学家,但却是一个很好的负面例子。他对用词过于修饰,在处理语言上用华而不实的做法,以显示自己博学。大多数社会科学家的写作冗长乏味。Howard Becker的著作《写给社会科学家》(Writing for Social Scientists,1986)是一本关于如何做好社会科学研究的精彩入门书,但遗憾的是,他没太注意讨论如何描述量化数据。最近,Jane Miller(2004,2005)的两本书写得很好,在这方面提供了很多很有用的建议。这两本书都非常值得你们花时间去读:第一本书主要描述列联表,第二本书主要描述多元模型。下面给出了几点关于如何描述所讨论数据的具体忠告。
1702645742
1702645743
·主要根据表格本身的实际含义来描述 尽量只引用那些清楚地表达表格内容所需的数字,然后根据这些数字得出结论。给出数据的目的是检验想法,因此必须根据待验想法(假设)的实际含义来讨论数据。也就是说,简单引用数字是不够的。另一方面,因为多数读者——包括很多有经验的社会科学家——并不擅长阅读表格,因此你们需要引用足够多的数字来引导读者理解表格。
1702645744
1702645745
·力求简洁 努力像销售人员推销电器产品给你们奶奶或堂兄妹那样使用简洁的语句来陈述你们的观点及描述结论。晦涩难懂没有什么好处。晦涩不同于深奥;在这里,晦涩等同于把人搞糊涂。正如我们的物理学同行所知道的,真正完美的解释几乎总是简洁的。
1702645746
1702645747
·避免使用无意义的措辞 例如,我们应该把“我们试图研究的问题是,是否可以推导出A对B存在影响这个结论”替换为“A影响B吗?”
1702645748
1702645749
·避免使用被动语态 在我们看来,“X与Y相关被发现”与“X与Y相关”没有差别。尽量不要说“一个支持美国外交政策的量表被构建”。谁构建了这个量表,谁知道啊?应该写为“我构建了一个支持美国外交政策的量表”或“我用密歇根大学国际性量表来测量民众对美国外交政策的支持情况”。
[
上一页 ]
[ :1.7026457e+09 ]
[
下一页 ]