打字猴:1.70264667e+09

1702646670

1702646671

1702646672 表6-2的技术要点

1702646673

1702646674 注意，表6-2中的两个模型都是基于完全相同的样本，样本数显示在表6-1中。研究者常犯的一个错误是在显示相继的模型时基于不同的样本，即各模型只包含有完整信息变量的样本。这种做法不好，因为我们不能确定相继模型中系数的差异是由增加变量引起的还是由样本变化引起的。此外，如果模型不是基于相同的样本，对因增加变量而使判定系数增加（将在下一节讨论）的正式检验也不可行。Stata有一个-mark-命令能很容易地保证所有模型都基于相同的样本进行比较。

1702646675

1702646676 模型1用除“文化资本”之外的所有变量来预测识别中文词的数量。在此模型中所有变量在0.001水平上显著。在控制其他变量后，从事非体力工作的人比体力工人得分高1/4点，在城镇长大的人比在农村长大的人得分高1/4点，男性比女性得分高1/3点。显然，所有这些影响都是真实的，但除了受教育年限变量，其他变量对识别中文词的影响不是很大。有意思的是，在控制其他变量后，父亲的受教育年限使词汇知识显著地增加，尽管影响很小（那些父亲所受教育最好的人与父亲所受教育最差的人之间的期望差异只有半个词，确切值为0.54=0.030×18）。总体上看，模型1中的变量解释了词汇知识三分之二以上的方差，这是非常强的关系。同样，估计量的标准误是1.25，它告诉我们有95%的实际中文词得分落在距回归面2.45分（±1.96×1.25）的范围内。知道误差大小是有指导性意义的。即使有按照社会科学的标准来看很大的R2，样本也会分散在近一半的因变量值域范围内。这提示我们必须非常谨慎地解释回归估计量。

1702646677

1702646678 截距项0.579可以被解释为那些在每个自变量上取值为0的人的期望中文词得分，即在农村长大、从事体力工作、本人及其父亲都没有受过教育的妇女。这不是很有意义的数值。尽管在中国有些人符合这些条件，但在许多国家，在所有变量上取值为0的人势必超出观测数据的范围。要获得有意义的截距项，将连续型自变量重新表示为与它们均值的偏差通常很有用。如果完成了这一步，截距项就可以被解释为那些在每个连续型变量上都取均值的人的因变量期望值（当然，每个二分变量的取值为0）。在当前的例子中，这种重新表示的结果告诉我们，从事体力工作、本人及其父亲的受教育年限取均值的农村妇女（每个二分变量的取值为0）的期望中文词得分为3.30分。注意，这种重新表示的自变量对回归系数、标准误、R2或估计量的标准误没有影响，受影响的只是截距项。

1702646679

1702646680 模型2将“文化资本”纳入模型。相关的系数表示，在控制了所有其他变量后，在有最高“文化资本”家庭（即有最好的阅读习惯的家庭）里长大的人比在没有阅读习惯家庭长大的人的中文词得分几乎高出一分。虽然判定系数显著地增加了（我们在下一节介绍如何评估R2增加量的显著性），但从实用观点看其增加并不重要。重要的是引入“文化资本”使得父亲受教育年限的影响降低至不显著。这提供了清晰的解释，说明为什么在控制受访者自己的受教育年限后，词汇知识因父亲受教育年限的增加而提高，即父亲受教育好的家庭比其他家庭有更好的阅读习惯。在考虑了家庭的“文化资本”后，父亲的受教育年限对词汇知识没有额外影响。“文化资本”变量也减弱了“在城镇长大”变量的影响程度，这说明城镇成长环境的优越性部分在于城镇家庭比情况类似的农村家庭有更好的阅读习惯。引入文化资本对其他系数的影响不大。

1702646681

1702646682 图示结果

1702646683

1702646684 为了方便解释，有时图示模型中某一给定自变量与因变量之间的净关系是很有帮助的。这很容易做到。作图技巧是对感兴趣的变量之外的所有其他变量通过替换均值或其他合适的数值以使它们为常数以达到简化估计方程的目的。这就使其他自变量保持固定值不变，得到在自变量的每个水平上因变量的期望值。这可以扩展到分别图示某一分类变量的各个类别——例如，假设我们对模型2中中文词得分和受教育年限的关系在男性和女性之间有何不同感兴趣。对连续型变量而言，均值是方程中数值替换的一种好的选择。对二分变量而言，我们可以用均值或其他合适值替换，例如在城镇长大的非体力劳动者。当然，对二分变量而言，均值就是该变量为“正值”的比例。因此，如果替换二分变量的均值，那么我们不是针对具体的人来评估方程——毕竟一个人不能是18%在城镇长大或56%是男性，在某种意义上，我们是在评估人口的典型状况。

1702646685

1702646686 要了解作图的步骤，让我们用两种方法来评估方程：对在城镇长大的非体力劳动者作图，或者对这些变量取均值作图。在每一种情况下，我们分别针对男性和女性来评估方程并创建分别显示男性和女性曲线的图示。我们先针对在城镇长大的非体力劳动者来评估方程。对女性，我们有：

1702646687

1702646688

1702646689

1702646690

1702646691 对男性，我们有：

1702646692

1702646693

1702646694

1702646695

1702646696 从而我们得到一对双变量方程，差异只是一个常数（=0.0385，与“男性”有关的系数），我们可以简单地图示方程。图6-2清楚地显示在控制了所有其他词汇知识的决定因素后在中国受教育年限和性别对词汇知识相对影响的程度。显然，受教育年限远比性别重要，尽管在给定的受教育水平下，男性的识字水平稍高于女性。

1702646697

1702646698

1702646699

1702646700

1702646701 图6-2 按受教育年限和性别分的期望识别的中文词数量（十分制），1996年中国在城镇长大的成人（20～69岁）、从事非体力工作、父亲受教育年限和文化资本为均值（N=4802）

1702646702

1702646703 注：女性的曲线没有超过16岁，因为样本中没有女性具有研究生学历。

1702646704

1702646705 现在，假设我们不以在城镇长大的非体力劳动者来评估方程，而是以每个自变量的均值来评估方程（当然，受教育年限和性别不包括在内，因为我们正要显示这两个变量的影响）。对女性，我们的方程为：

1702646706

1702646707

1702646708

1702646709

1702646710 对男性，我们的方程为：

1702646711

1702646712

1702646713

1702646714

1702646715 注意，方程6.6、6.7、6.8、6.9之间仅有的差别在于截距项，并且每对方程的截距项之差是一致的。因此，方程6.8和方程6.9的图示几乎与图6-2一样，只是两条线被下移了。正是出于此原因我不再显示方程6.8和方程6.9的图。当评估一个方程时，是替换为均值还是其他具体数值，由研究者根据具体情况来判断。

1702646716

1702646717

1702646718

1702646719

[ 上一页 ] [ :1.70264667e+09 ] [ 下一页 ]