打字猴:1.70264564e+09

1702645640

1702645641 　　　　　　样本总数　　　　　　　　　　　　 1469

1702645642

1702645643 这张表显示的样本总数是1469，而实际的样本总数是1468，这种误差产生的原因是四舍五入。因为在1980年综合社会调查采用“分别抽样”（split ballot）方法产生了误差，所以需要对数据进行加权处理以代表总体（Davis，Smith，and Marsden，2007）。我们将在第9章介绍加权问题。

1702645644

1702645645 即使你们没有呈现此表中的信息，你们也可以自己做一个这样的表以便检查所做的计算。事实上，在前面有关缺失样本的计算过程中，我发现了一个计算上的错误，这导致表3-3中的数据出错（现在已经更正）。

1702645646

1702645647 （4）呈现这些数据的另一种方法是在表的最右边一列显示女性的均值占男性均值的比例，而不是总的均值，这能使读者更快地掌握表的重点。做表是一种艺术，其目的在于使信息尽可能清楚和易于理解。

1702645648

1702645649 从表3-3中你会发现，1980年，尽管男性和女性的收入都随着受教育程度的提高而增加，但是女性比接受同等教育的男性的收入低很多。收入的性别差异非常显著：平均来讲，女性的收入只比男性的一半多一点，受教育程度最高（即具有研究生学历）的女性的平均收入低于受教育程度最低的男性（即没有完成高中教育的那些人）。

1702645650

1702645651 为了更好地比较在每个受教育程度类别上平均收入的性别差异，我们可以计算女性和男性均值的比率。通常情况下，我们在表中多加一列来呈现这些数据或替换合计那一列。

1702645652

1702645653 受教育程度　　　　　　女性的平均年收入占男性平均年收入的比例

1702645654

1702645655 研究生学历　　　　　　　　　　　　　44

1702645656

1702645657 大学毕业　　　　　　　　　　　　　　43

1702645658

1702645659 大学未毕业　　　　　　　　　　　　　68

1702645660

1702645661 高中毕业　　　　　　　　　　　　　　63

1702645662

1702645663 高中以下　　　　　　　　　　　　　　53

1702645664

1702645665 合计　　　　　　　　　　　　　　　　55

1702645666

1702645667 这里的计算只是用比率乘以100，这样得到女性的均值占男性均值的比例。结果显示，在受教育程度相同的情况下，女性的平均收入只有男性的2/5～2/3。你们或许会好奇自1980年以来这种情况是否已发生变化。为了寻找答案，你们可以用最近年份的综合社会调查数据构建同样的表。

1702645668

1702645669 表3-3的实质要点

1702645670

1702645671 表中女性与男性收入的比率（55%）在一定程度上低于根据普查数据估计的比率——约60%（例如，Treiman and Hartmann，1981：16）。这个差异可能是由全职工作的定义不同引起的。大多数基于普查〔或当前人口调查（Current Population Survey，CPS）〕的计算，定义“全职”工作为在调查前一周至少工作35个小时并在调查前一年至少工作50周。相比较而言，综合社会调查（GSS）是询问受访者在调查前一周是否在工作。如果在工作，那么接着问工作多少个小时；或者如果他们有工作但在调查前一周没有工作，那么接着问他们通常工作多少个小时。因而，GSS表有可能包括了许多因前一年没有全职工作从而收入比全职工作的人低的人，而在普查或CPS数据中这些人不被包括在计算内。因为女性比男性的工作稳定性差，所以有可能被包括在GSS中而不在普查定义的“全职”人员中的主要是妇女，从而根据GSS计算得到的比率比用普查或CPS计算得到的比率要低。注意，在用GSS或普查定义的“全职工人”做相关分析时，存在一些棘手的问题：在调查时点每周工作小时数的信息是与所计算的前一年的收入有关的。但没有办法，因为要么询问去年每周工作的小时数，这非常容易出错；要么询问现在每月或每小时的工资——这也很可能出错，因为收入在一年中变化很大。习惯做法是询问上周工作小时数而不是问工作周数和去年的收入问题，之所以称之为习惯做法，是因为这样做被认为可以获得最佳的数据。

1702645672

1702645673 GSS与普查在对女性和男性收入之比的估计上存在差异的另一可能原因是GSS估计值的抽样误差比较大。我们将在第9章继续介绍调查分析中的统计推断问题。

1702645674

1702645675 这一注解的要点在于强调，每当你们计算的结果与其他人的结果——特别是与那些被广泛引用的结果——存在出入时，重要的是你们要尽最大努力去解释这些差异，排除可能的错误解释。你们的文章应当充分体现这类解释，这样读者会相信你们已经仔细思考过这些问题并知道你们的数据和文献是怎么一回事。

1702645676

1702645677 从缺失数据的信息做推断

1702645678

1702645679 在表3-3的技术要点中我们提到，缺失数据来源的类别可以同表中的信息一起用来近似估计劳动力参与率的性别差异。表的行边缘值告诉我们有完整信息的全职工作的男性有380人，女性有246人。从前面技术要点中我们知道，没有全职工作的男性有235人，女性有549人。如果我们忽略那59个受教育程度或收入信息缺失但有全职工作的人，那么我们可以估计样本中有62%（=［380/（380+235）］×100%）的男性和31%（=［246/（246+549）］×100%）的女性在调查的一周内有全职工作。当然，因为我们有这一数据，所以我们能够直接得到这些估计，而且不必忽略那59个缺失样本。但是，如果我们只有已发表的数据表和对缺失数据来源的记录，那么我们可以利用它们来估计劳动参与率，即使表中没有显示这些信息。

1702645680

1702645681 表达同样数据的其他方法

1702645682

1702645683 有时像表3-3那样在列出均值的同时也列出标准差是非常有用的。当你们需要同时列出标准差和均值时，避免表格过于拥挤的一种方法是像表3-4那样分块列出。列出标准差的意义在于读者能根据表中的数据做统计推断（需要用标准差计算置信区间来做均值差异的显著性检验），以及提供更多的信息。例如，注意到下面这一点将给我们提供很多信息：从表3-4的最右边一列可以看出，具有研究生学历的男性收入的异质性是同等受教育程度女性的三倍多——这个比率比其他任何受教育程度的人都大。这向我们暗示为什么具有研究生学历的女性的平均收入如此低——不像具有同等学历的男性，其中一些人所从事的工作的薪水非常高，这些女性似乎局限于一些收入变动幅度很小的工作。我们可以通过研究这些工作的性质来进一步分析这个问题——但这里我们不再展开讨论。

1702645684

1702645685 表3-4 1980年美国成年人按受教育程度和性别划分的1979年收入的均值和标准差

1702645686

1702645687

1702645688

1702645689

[ 上一页 ] [ :1.70264564e+09 ] [ 下一页 ]