1702645690
比较组间均值的一个显著缺点是:与中位值不同,均值对异常值(outliers)——极端值——非常敏感。因此,例如,在样本中包括一些收入很高的人将显著地影响均值。当收入被编码成好几类,且高于某个值的收入都被编为最高收入类别(像GSS中的收入测量那样)时,也存在同样的问题。1980年最高收入类别的值被设定为50000美元。在这种情况下,为了计算均值,需要给每一类设定一个值。这对大多数类别来说都不是问题;通常情况下,简单地取每个类别的中值来表示相应类别就足够准确了。例如,最低类别“低于1000美元”可被指定为500美元,其他类别依此类推。但是对于最高类别,任何赋值都可能是主观随意的。一种可能的方法是用帕累托转换来估计最高类别的均值(Miller,1966:215-220),但这需要对分布的形状做非常强的假设。因此,在本章的分析中,我相当随意地用62500美元来表示最高类别。如果我选择更大的值,如75000美元,那么受教育程度高的男—女收入差异将变大,且男性收入的标准差也会变大。在偏态(不对称)分布——一个尾部比另一个长,可能最常见的例子是收入的分布——的情况下,虽然出于分析目的大多数分析人员对收入进行变换——通常对收入取自然对数,但出于描述的目的使用中位值(median)将更有意义。分析时不用中位值是因为中位值用代数方法很难处理。除了用中位值替换了均值外,表3-5与表3-3没有差别(如果哪位分析人员想用一个类似标准差的指标,那么可以选择常用的四分位差)。在这个例子中,使用均值和中位值得出了相似的结论,但通常情况下这两者可能得出不同的结论。
1702645691
1702645692
表3-5 1980年美国全职成年人按受教育程度和性别划分的1979年的收入中位值(括号中是各类别的频数)
1702645693
1702645694
1702645695
1702645696
1702645697
1702645698
1702645699
1702645701
量化数据分析:通过社会研究检验想法 相异指数
1702645702
1702645703
到目前为止,我们已经通过比较自变量或自变量组的类别间的百分比、均值或中位值来研究两个或更多变量之间的关系。正如我们已经注意到的,在某些情况下使用这些方法不能得出特别有价值的结果。特别是当某个变量的分类数过多时,比较任何一个类别的条件百分比都会忽略表中的大部分信息。
1702645704
1702645705
假设你们想知道劳动力市场的性别隔离和种族隔离哪个更严重,你们可能会做一个像表3-6那样的分性别分种族的职业列联表来研究这个问题。从直观上看,此表对研究这个问题没有多大帮助——因为从表中看不出职业分布是在种族之间还是性别之间更相似。为了研究这个问题,你们可以计算相异指数(Index of Dissimilarity,Δ),公式如下:
1702645706
1702645707
1702645708
1702645709
1702645710
这里,Pi等于第一种分布的第i个类别的样本比例,Qi等于第二种分布的第i个类别的样本比例。这个指数可以解释成,为了使两种分布相同,要把其中一种分布中多少比例的样本转到另一种分布中。如果这两种分布相同,那么Δ当然等于0。如果这两种分布完全不相同,例如,在一所女子学校和一所男子学校中学生的性别分布完全不同,那么Δ将为100。
1702645711
1702645712
根据表3-6我们能够计算每对列的Δ。例如,白人男性和白人女性的Δ(它告诉我们在白人中存在多大程度的职业性别隔离)计算如下:42.1=(|15.6-16.4|+|14.9-6.8|+…+|1.5-0.9|)/2。在这个例子中,在6组比较中,我们对其中4组感兴趣:
1702645713
1702645714
职业性别隔离的相异指数
1702645715
1702645716
白人 42.1
1702645717
1702645718
黑人及其他 41.3
1702645719
1702645720
职业种族隔离的相异指数
1702645721
1702645722
男性 24.3
1702645723
1702645724
女性 18.2
1702645725
1702645726
从这些计算结果我们看到,40%以上的白人女性需要改变她们主要的职业以使白人女性的职业分布与白人男性的一致;黑人及其他种族的女性也需要改变类似的职业比例才能与黑人及其他种族男性的职业分布相同(注意,这个系数是对称的,因此我们很容易发现,要使男性的职业分布与女性的相同,男性需要改变职业的比例与女性相同)。相比较而言,不到四分之一的黑人男性需改变主要职业类别以使黑人男性的职业分布与白人男性的一样;而在女性中,相应的比例不到五分之一。因此,我们得出结论:职业性别隔离比职业种族隔离大得多。虽然报告相异指数的显著性检验不是很常见,但要做还是可能的〔见Johnson和Farley(1985),以及Ransom(2000)对Δ抽样分布的讨论〕。
1702645727
1702645728
相异指数的一个显著的弱点是,随着类别数的增加,它也倾向于增大(如果一个分布的类别被细分成更多类别时,Δ不会变小,而只会变大或保持不变)。因此,只有当计算Δ各分布的类别相同时,Δ之间的比较才是合理的。例如,用Δ来测量不同国家的职业性别隔离程度是不对的,因为每个国家的职业分类往往不同。〔当然,除非各国的职业重新编码为标准分类,如国际标准职业分类(International Standard Classification of Occupations)(International Labour Office 1969;1990)或这种分类的一些集合。〕
1702645729
1702645730
表3-6 1979年美国劳动力分种族分性别的主要职业类别的百分比分布(N=96945)
1702645731
1702645732
1702645733
1702645734
1702645735
1702645736
1702645737
1702645739
量化数据分析:通过社会研究检验想法 如何描述列联表
[
上一页 ]
[ :1.70264569e+09 ]
[
下一页 ]