打字猴:1.70264566e+09

1702645660

1702645661 高中毕业　　　　　　　　　　　　　　63

1702645662

1702645663 高中以下　　　　　　　　　　　　　　53

1702645664

1702645665 合计　　　　　　　　　　　　　　　　55

1702645666

1702645667 这里的计算只是用比率乘以100，这样得到女性的均值占男性均值的比例。结果显示，在受教育程度相同的情况下，女性的平均收入只有男性的2/5～2/3。你们或许会好奇自1980年以来这种情况是否已发生变化。为了寻找答案，你们可以用最近年份的综合社会调查数据构建同样的表。

1702645668

1702645669 表3-3的实质要点

1702645670

1702645671 表中女性与男性收入的比率（55%）在一定程度上低于根据普查数据估计的比率——约60%（例如，Treiman and Hartmann，1981：16）。这个差异可能是由全职工作的定义不同引起的。大多数基于普查〔或当前人口调查（Current Population Survey，CPS）〕的计算，定义“全职”工作为在调查前一周至少工作35个小时并在调查前一年至少工作50周。相比较而言，综合社会调查（GSS）是询问受访者在调查前一周是否在工作。如果在工作，那么接着问工作多少个小时；或者如果他们有工作但在调查前一周没有工作，那么接着问他们通常工作多少个小时。因而，GSS表有可能包括了许多因前一年没有全职工作从而收入比全职工作的人低的人，而在普查或CPS数据中这些人不被包括在计算内。因为女性比男性的工作稳定性差，所以有可能被包括在GSS中而不在普查定义的“全职”人员中的主要是妇女，从而根据GSS计算得到的比率比用普查或CPS计算得到的比率要低。注意，在用GSS或普查定义的“全职工人”做相关分析时，存在一些棘手的问题：在调查时点每周工作小时数的信息是与所计算的前一年的收入有关的。但没有办法，因为要么询问去年每周工作的小时数，这非常容易出错；要么询问现在每月或每小时的工资——这也很可能出错，因为收入在一年中变化很大。习惯做法是询问上周工作小时数而不是问工作周数和去年的收入问题，之所以称之为习惯做法，是因为这样做被认为可以获得最佳的数据。

1702645672

1702645673 GSS与普查在对女性和男性收入之比的估计上存在差异的另一可能原因是GSS估计值的抽样误差比较大。我们将在第9章继续介绍调查分析中的统计推断问题。

1702645674

1702645675 这一注解的要点在于强调，每当你们计算的结果与其他人的结果——特别是与那些被广泛引用的结果——存在出入时，重要的是你们要尽最大努力去解释这些差异，排除可能的错误解释。你们的文章应当充分体现这类解释，这样读者会相信你们已经仔细思考过这些问题并知道你们的数据和文献是怎么一回事。

1702645676

1702645677 从缺失数据的信息做推断

1702645678

1702645679 在表3-3的技术要点中我们提到，缺失数据来源的类别可以同表中的信息一起用来近似估计劳动力参与率的性别差异。表的行边缘值告诉我们有完整信息的全职工作的男性有380人，女性有246人。从前面技术要点中我们知道，没有全职工作的男性有235人，女性有549人。如果我们忽略那59个受教育程度或收入信息缺失但有全职工作的人，那么我们可以估计样本中有62%（=［380/（380+235）］×100%）的男性和31%（=［246/（246+549）］×100%）的女性在调查的一周内有全职工作。当然，因为我们有这一数据，所以我们能够直接得到这些估计，而且不必忽略那59个缺失样本。但是，如果我们只有已发表的数据表和对缺失数据来源的记录，那么我们可以利用它们来估计劳动参与率，即使表中没有显示这些信息。

1702645680

1702645681 表达同样数据的其他方法

1702645682

1702645683 有时像表3-3那样在列出均值的同时也列出标准差是非常有用的。当你们需要同时列出标准差和均值时，避免表格过于拥挤的一种方法是像表3-4那样分块列出。列出标准差的意义在于读者能根据表中的数据做统计推断（需要用标准差计算置信区间来做均值差异的显著性检验），以及提供更多的信息。例如，注意到下面这一点将给我们提供很多信息：从表3-4的最右边一列可以看出，具有研究生学历的男性收入的异质性是同等受教育程度女性的三倍多——这个比率比其他任何受教育程度的人都大。这向我们暗示为什么具有研究生学历的女性的平均收入如此低——不像具有同等学历的男性，其中一些人所从事的工作的薪水非常高，这些女性似乎局限于一些收入变动幅度很小的工作。我们可以通过研究这些工作的性质来进一步分析这个问题——但这里我们不再展开讨论。

1702645684

1702645685 表3-4 1980年美国成年人按受教育程度和性别划分的1979年收入的均值和标准差

1702645686

1702645687

1702645688

1702645689

1702645690 比较组间均值的一个显著缺点是：与中位值不同，均值对异常值（outliers）——极端值——非常敏感。因此，例如，在样本中包括一些收入很高的人将显著地影响均值。当收入被编码成好几类，且高于某个值的收入都被编为最高收入类别（像GSS中的收入测量那样）时，也存在同样的问题。1980年最高收入类别的值被设定为50000美元。在这种情况下，为了计算均值，需要给每一类设定一个值。这对大多数类别来说都不是问题；通常情况下，简单地取每个类别的中值来表示相应类别就足够准确了。例如，最低类别“低于1000美元”可被指定为500美元，其他类别依此类推。但是对于最高类别，任何赋值都可能是主观随意的。一种可能的方法是用帕累托转换来估计最高类别的均值（Miller，1966：215-220），但这需要对分布的形状做非常强的假设。因此，在本章的分析中，我相当随意地用62500美元来表示最高类别。如果我选择更大的值，如75000美元，那么受教育程度高的男—女收入差异将变大，且男性收入的标准差也会变大。在偏态（不对称）分布——一个尾部比另一个长，可能最常见的例子是收入的分布——的情况下，虽然出于分析目的大多数分析人员对收入进行变换——通常对收入取自然对数，但出于描述的目的使用中位值（median）将更有意义。分析时不用中位值是因为中位值用代数方法很难处理。除了用中位值替换了均值外，表3-5与表3-3没有差别（如果哪位分析人员想用一个类似标准差的指标，那么可以选择常用的四分位差）。在这个例子中，使用均值和中位值得出了相似的结论，但通常情况下这两者可能得出不同的结论。

1702645691

1702645692 表3-5 1980年美国全职成年人按受教育程度和性别划分的1979年的收入中位值（括号中是各类别的频数）

1702645693

1702645694

1702645695

1702645696

1702645697

1702645698

1702645699

1702645700 量化数据分析：通过社会研究检验想法 [:1702644736]

1702645701 量化数据分析：通过社会研究检验想法相异指数

1702645702

1702645703 到目前为止，我们已经通过比较自变量或自变量组的类别间的百分比、均值或中位值来研究两个或更多变量之间的关系。正如我们已经注意到的，在某些情况下使用这些方法不能得出特别有价值的结果。特别是当某个变量的分类数过多时，比较任何一个类别的条件百分比都会忽略表中的大部分信息。

1702645704

1702645705 假设你们想知道劳动力市场的性别隔离和种族隔离哪个更严重，你们可能会做一个像表3-6那样的分性别分种族的职业列联表来研究这个问题。从直观上看，此表对研究这个问题没有多大帮助——因为从表中看不出职业分布是在种族之间还是性别之间更相似。为了研究这个问题，你们可以计算相异指数（Index of Dissimilarity，Δ），公式如下：

1702645706

1702645707

1702645708

1702645709

[ 上一页 ] [ :1.70264566e+09 ] [ 下一页 ]