打字猴:1.702646676e+09
1702646676 模型1用除“文化资本”之外的所有变量来预测识别中文词的数量。在此模型中所有变量在0.001水平上显著。在控制其他变量后,从事非体力工作的人比体力工人得分高1/4点,在城镇长大的人比在农村长大的人得分高1/4点,男性比女性得分高1/3点。显然,所有这些影响都是真实的,但除了受教育年限变量,其他变量对识别中文词的影响不是很大。有意思的是,在控制其他变量后,父亲的受教育年限使词汇知识显著地增加,尽管影响很小(那些父亲所受教育最好的人与父亲所受教育最差的人之间的期望差异只有半个词,确切值为0.54=0.030×18)。总体上看,模型1中的变量解释了词汇知识三分之二以上的方差,这是非常强的关系。同样,估计量的标准误是1.25,它告诉我们有95%的实际中文词得分落在距回归面2.45分(±1.96×1.25)的范围内。知道误差大小是有指导性意义的。即使有按照社会科学的标准来看很大的R2,样本也会分散在近一半的因变量值域范围内。这提示我们必须非常谨慎地解释回归估计量。
1702646677
1702646678 截距项0.579可以被解释为那些在每个自变量上取值为0的人的期望中文词得分,即在农村长大、从事体力工作、本人及其父亲都没有受过教育的妇女。这不是很有意义的数值。尽管在中国有些人符合这些条件,但在许多国家,在所有变量上取值为0的人势必超出观测数据的范围。要获得有意义的截距项,将连续型自变量重新表示为与它们均值的偏差通常很有用。如果完成了这一步,截距项就可以被解释为那些在每个连续型变量上都取均值的人的因变量期望值(当然,每个二分变量的取值为0)。在当前的例子中,这种重新表示的结果告诉我们,从事体力工作、本人及其父亲的受教育年限取均值的农村妇女(每个二分变量的取值为0)的期望中文词得分为3.30分。注意,这种重新表示的自变量对回归系数、标准误、R2或估计量的标准误没有影响,受影响的只是截距项。
1702646679
1702646680 模型2将“文化资本”纳入模型。相关的系数表示,在控制了所有其他变量后,在有最高“文化资本”家庭(即有最好的阅读习惯的家庭)里长大的人比在没有阅读习惯家庭长大的人的中文词得分几乎高出一分。虽然判定系数显著地增加了(我们在下一节介绍如何评估R2增加量的显著性),但从实用观点看其增加并不重要。重要的是引入“文化资本”使得父亲受教育年限的影响降低至不显著。这提供了清晰的解释,说明为什么在控制受访者自己的受教育年限后,词汇知识因父亲受教育年限的增加而提高,即父亲受教育好的家庭比其他家庭有更好的阅读习惯。在考虑了家庭的“文化资本”后,父亲的受教育年限对词汇知识没有额外影响。“文化资本”变量也减弱了“在城镇长大”变量的影响程度,这说明城镇成长环境的优越性部分在于城镇家庭比情况类似的农村家庭有更好的阅读习惯。引入文化资本对其他系数的影响不大。
1702646681
1702646682 图示结果
1702646683
1702646684 为了方便解释,有时图示模型中某一给定自变量与因变量之间的净关系是很有帮助的。这很容易做到。作图技巧是对感兴趣的变量之外的所有其他变量通过替换均值或其他合适的数值以使它们为常数以达到简化估计方程的目的。这就使其他自变量保持固定值不变,得到在自变量的每个水平上因变量的期望值。这可以扩展到分别图示某一分类变量的各个类别——例如,假设我们对模型2中中文词得分和受教育年限的关系在男性和女性之间有何不同感兴趣。对连续型变量而言,均值是方程中数值替换的一种好的选择。对二分变量而言,我们可以用均值或其他合适值替换,例如在城镇长大的非体力劳动者。当然,对二分变量而言,均值就是该变量为“正值”的比例。因此,如果替换二分变量的均值,那么我们不是针对具体的人来评估方程——毕竟一个人不能是18%在城镇长大或56%是男性,在某种意义上,我们是在评估人口的典型状况。
1702646685
1702646686 要了解作图的步骤,让我们用两种方法来评估方程:对在城镇长大的非体力劳动者作图,或者对这些变量取均值作图。在每一种情况下,我们分别针对男性和女性来评估方程并创建分别显示男性和女性曲线的图示。我们先针对在城镇长大的非体力劳动者来评估方程。对女性,我们有:
1702646687
1702646688
1702646689
1702646690
1702646691 对男性,我们有:
1702646692
1702646693
1702646694
1702646695
1702646696 从而我们得到一对双变量方程,差异只是一个常数(=0.0385,与“男性”有关的系数),我们可以简单地图示方程。图6-2清楚地显示在控制了所有其他词汇知识的决定因素后在中国受教育年限和性别对词汇知识相对影响的程度。显然,受教育年限远比性别重要,尽管在给定的受教育水平下,男性的识字水平稍高于女性。
1702646697
1702646698
1702646699
1702646700
1702646701 图6-2 按受教育年限和性别分的期望识别的中文词数量(十分制),1996年中国在城镇长大的成人(20~69岁)、从事非体力工作、父亲受教育年限和文化资本为均值(N=4802)
1702646702
1702646703 注:女性的曲线没有超过16岁,因为样本中没有女性具有研究生学历。
1702646704
1702646705 现在,假设我们不以在城镇长大的非体力劳动者来评估方程,而是以每个自变量的均值来评估方程(当然,受教育年限和性别不包括在内,因为我们正要显示这两个变量的影响)。对女性,我们的方程为:
1702646706
1702646707
1702646708
1702646709
1702646710 对男性,我们的方程为:
1702646711
1702646712
1702646713
1702646714
1702646715 注意,方程6.6、6.7、6.8、6.9之间仅有的差别在于截距项,并且每对方程的截距项之差是一致的。因此,方程6.8和方程6.9的图示几乎与图6-2一样,只是两条线被下移了。正是出于此原因我不再显示方程6.8和方程6.9的图。当评估一个方程时,是替换为均值还是其他具体数值,由研究者根据具体情况来判断。
1702646716
1702646717
1702646718
1702646719
1702646720 量化数据分析:通过社会研究检验想法 [:1702644760]
1702646721 量化数据分析:通过社会研究检验想法 虚拟变量
1702646722
1702646723 我们经常要分析诸如宗教派别、婚姻状态或政党成员身份等分类变量对一些结果变量的作用。此外,我们往往想同时分析间距变量和分类变量,以研究在控制了另一个变量后某个变量的影响。因此,我们需要一种将分类变量纳入回归框架的方法。
1702646724
1702646725 为了知道如何做到这一点,让我们再来看第5章最后一节讨论过的相关比率问题。回想我们当时感兴趣的是宗教派别和接受堕胎之间的关系,我们使用2006年综合社会调查(General Social Survey,GSS)的数据,通过估计4个宗教信仰群体(新教徒、天主教徒、犹太教徒以及其他宗教信仰群体或不信教的群体)中的每个群体对一份有7个题项的量表的正向(接受)应答的平均数来分析此问题。这里,我们继续探讨一个类似的问题,但这次使用的数据来自1974年的GSS,因为这一年的结果更为清晰,因此更适合对方法进行讲解(作为练习,你们可以用2006年的数据进行同样的分析)。我们首先将宗教派别变量变换为一组四个二分变量,每个二分变量对应于一个宗教信仰群体,若某人信仰该宗教则该变量赋值为1,否则为0。这样我们就定义了一组新变量(见可下载的-do-或-log-文件):
[ 上一页 ]  [ :1.702646676e+09 ]  [ 下一页 ]