1702646650
1702646651
表6-1显示了所有分析变量的均值、标准差和相关系数。中国成年人在调查问卷的10个中文词中平均能够正确识别3.6个。成年人的平均受教育年限为6.5年(相比较而言,他们的父母亲平均约为3年);18%的人从事非体力工作;18%的人在城镇地区长大;56%的样本是男性(注意,这是一个劳动力样本),一般受访者拥有的“文化资本”量相当于拥有“文化资本”最多的人的四分之一。(之所以说这是一个劳动力样本,是因为我删除了职业信息缺失的样本。我也删除了那些在其他变量上有缺失的样本,但成批删除的主要是缺失职业信息的样本。我们在第8章会看到,当一些变量存在相当数量的缺失信息时如何保留样本。)分析结果一点也不让人感到意外,正确识别中文词的数量与受教育年限的相关度远远高于其他变量。
1702646652
1702646653
始终给出描述统计量 我们应该始终给出一张表,显示分析中用到的变量的描述统计量。这些统计量给读者提供了非常有用的信息,也允许读者使用其他模型对数据另行估计。现在的趋势是许多研究者一开始就给出复杂模型,这是不合适的,因为它往往使读者不了解所分析数据的基本特点。例如,在中国,每个人平均的受教育年限不到7年,80%以上的人从事体力工作,80%以上的人在农村长大;相比另一个社会如美国,每个人平均的受教育年限约为13年,大多数人在城镇长大,大部分人从事非体力工作:你会因此对某一个社会识字水平的决定因素产生非常不同的印象。
1702646654
1702646655
表6-1 影响1996年中国在职成年人(20~69岁)词汇知识变量的均值、标准差和相关系数(N=4802)
1702646656
1702646657
1702646658
1702646659
1702646660
续表
1702646661
1702646662
1702646663
1702646664
1702646665
表6-2证明了受教育年限的重要性,因为两个模型中受教育年限的标准化系数比任何其他变量的标准化系数都大得多。在控制了所有其他变量后,受教育年限每增加一年,正确识别中文词的数量预期增加约0.4个。举例来说,这意味着一位大学毕业生(接受16年教育)预期比在其他方面相似的职业学校或技术学校的毕业生(接受7年教育)大约多识别2个词。
1702646666
1702646667
表6-2 1996年中国在职成年人(20~69岁)在识别10个词的测试中正确识别词的数量的决定因素(括号中是标准误)a
1702646668
1702646669
1702646670
1702646671
1702646672
表6-2的技术要点
1702646673
1702646674
注意,表6-2中的两个模型都是基于完全相同的样本,样本数显示在表6-1中。研究者常犯的一个错误是在显示相继的模型时基于不同的样本,即各模型只包含有完整信息变量的样本。这种做法不好,因为我们不能确定相继模型中系数的差异是由增加变量引起的还是由样本变化引起的。此外,如果模型不是基于相同的样本,对因增加变量而使判定系数增加(将在下一节讨论)的正式检验也不可行。Stata有一个-mark-命令能很容易地保证所有模型都基于相同的样本进行比较。
1702646675
1702646676
模型1用除“文化资本”之外的所有变量来预测识别中文词的数量。在此模型中所有变量在0.001水平上显著。在控制其他变量后,从事非体力工作的人比体力工人得分高1/4点,在城镇长大的人比在农村长大的人得分高1/4点,男性比女性得分高1/3点。显然,所有这些影响都是真实的,但除了受教育年限变量,其他变量对识别中文词的影响不是很大。有意思的是,在控制其他变量后,父亲的受教育年限使词汇知识显著地增加,尽管影响很小(那些父亲所受教育最好的人与父亲所受教育最差的人之间的期望差异只有半个词,确切值为0.54=0.030×18)。总体上看,模型1中的变量解释了词汇知识三分之二以上的方差,这是非常强的关系。同样,估计量的标准误是1.25,它告诉我们有95%的实际中文词得分落在距回归面2.45分(±1.96×1.25)的范围内。知道误差大小是有指导性意义的。即使有按照社会科学的标准来看很大的R2,样本也会分散在近一半的因变量值域范围内。这提示我们必须非常谨慎地解释回归估计量。
1702646677
1702646678
截距项0.579可以被解释为那些在每个自变量上取值为0的人的期望中文词得分,即在农村长大、从事体力工作、本人及其父亲都没有受过教育的妇女。这不是很有意义的数值。尽管在中国有些人符合这些条件,但在许多国家,在所有变量上取值为0的人势必超出观测数据的范围。要获得有意义的截距项,将连续型自变量重新表示为与它们均值的偏差通常很有用。如果完成了这一步,截距项就可以被解释为那些在每个连续型变量上都取均值的人的因变量期望值(当然,每个二分变量的取值为0)。在当前的例子中,这种重新表示的结果告诉我们,从事体力工作、本人及其父亲的受教育年限取均值的农村妇女(每个二分变量的取值为0)的期望中文词得分为3.30分。注意,这种重新表示的自变量对回归系数、标准误、R2或估计量的标准误没有影响,受影响的只是截距项。
1702646679
1702646680
模型2将“文化资本”纳入模型。相关的系数表示,在控制了所有其他变量后,在有最高“文化资本”家庭(即有最好的阅读习惯的家庭)里长大的人比在没有阅读习惯家庭长大的人的中文词得分几乎高出一分。虽然判定系数显著地增加了(我们在下一节介绍如何评估R2增加量的显著性),但从实用观点看其增加并不重要。重要的是引入“文化资本”使得父亲受教育年限的影响降低至不显著。这提供了清晰的解释,说明为什么在控制受访者自己的受教育年限后,词汇知识因父亲受教育年限的增加而提高,即父亲受教育好的家庭比其他家庭有更好的阅读习惯。在考虑了家庭的“文化资本”后,父亲的受教育年限对词汇知识没有额外影响。“文化资本”变量也减弱了“在城镇长大”变量的影响程度,这说明城镇成长环境的优越性部分在于城镇家庭比情况类似的农村家庭有更好的阅读习惯。引入文化资本对其他系数的影响不大。
1702646681
1702646682
图示结果
1702646683
1702646684
为了方便解释,有时图示模型中某一给定自变量与因变量之间的净关系是很有帮助的。这很容易做到。作图技巧是对感兴趣的变量之外的所有其他变量通过替换均值或其他合适的数值以使它们为常数以达到简化估计方程的目的。这就使其他自变量保持固定值不变,得到在自变量的每个水平上因变量的期望值。这可以扩展到分别图示某一分类变量的各个类别——例如,假设我们对模型2中中文词得分和受教育年限的关系在男性和女性之间有何不同感兴趣。对连续型变量而言,均值是方程中数值替换的一种好的选择。对二分变量而言,我们可以用均值或其他合适值替换,例如在城镇长大的非体力劳动者。当然,对二分变量而言,均值就是该变量为“正值”的比例。因此,如果替换二分变量的均值,那么我们不是针对具体的人来评估方程——毕竟一个人不能是18%在城镇长大或56%是男性,在某种意义上,我们是在评估人口的典型状况。
1702646685
1702646686
要了解作图的步骤,让我们用两种方法来评估方程:对在城镇长大的非体力劳动者作图,或者对这些变量取均值作图。在每一种情况下,我们分别针对男性和女性来评估方程并创建分别显示男性和女性曲线的图示。我们先针对在城镇长大的非体力劳动者来评估方程。对女性,我们有:
1702646687
1702646688
1702646689
1702646690
1702646691
对男性,我们有:
1702646692
1702646693
1702646694
1702646695
1702646696
从而我们得到一对双变量方程,差异只是一个常数(=0.0385,与“男性”有关的系数),我们可以简单地图示方程。图6-2清楚地显示在控制了所有其他词汇知识的决定因素后在中国受教育年限和性别对词汇知识相对影响的程度。显然,受教育年限远比性别重要,尽管在给定的受教育水平下,男性的识字水平稍高于女性。
1702646697
1702646698
1702646699
[
上一页 ]
[ :1.70264665e+09 ]
[
下一页 ]