1702646600
1702646601
这里有一个恰当的例子。当研究生第一次阅读有关地位获得的文献时,有时会因他们所理解的“R2很小”感到失望〔对美国人口最有说服力的研究——例如,Featherman和Hauser(1978:235)的研究——只解释了职业获得40%的方差,教育成就约30%的方差,以及年收入约20%的方差〕,然后建议其他没有被纳入分析的变量也应该被包括进来。然而,前面提到的问题是,对解释方差有很大影响的新变量必须与模型中已有的变量相对不相关。找到影响教育获得并与父母的受教育年限、父亲的职业、兄弟姐妹数等不相关的变量不是件容易的事。我支持Dudley Duncan的观点,应该为R2较小感到高兴而非失望,至少在地位获得的分析中,我敢说许多其他现象也是如此。R2较小与其说是对我们研究科学性的责难,不如说是对我们社会的颂扬。Duncan曾说(Blau and Duncan,1967:174):
1702646602
1702646603
社会学家经常因残差的大小而失望,因为他们把它看作成功“解释”所研究现象的一个测量指标。他们很少反思,如果我们生活在一个因变量可以被父亲的职业或受访者的受教育年限等原因变量完美解释的社会中,那将意味着什么。在这种社会中,“由于父母的经济地位或职业……他们命中注定生来就贫穷”就会成为事实。当然,其他人则“命中注定”会生活富裕或宽裕。不管如何努力,人们都不可能从本质上改变命运,任何好或坏的运气也不会有任何影响,“结局”早已经写好了。
1702646604
1702646605
实际上,令人惊奇的是,种族隔离时代的南非是一个用模型来预测地位属性时R2很大的社会,这个社会有一个非常严格的、以种族为基础的分层系统(例如,参见Treiman,McKeever,and Fodor,1996;Treiman,2007b)。
1702646606
1702646607
用相关系数计算R2的一个公式 用相关矩阵和标准化回归系数计算R2的一个简便公式是:
1702646608
1702646609
1702646610
1702646611
1702646612
也就是说,R2可以用每个自变量和因变量之间的相关系数与相应的标准化回归系数的乘积之和计算。
1702646613
1702646614
修正判定系数 当模型中变量的数量相对于样本的数量来说较大时,被解释的方差必定较大,因为在解释中用到的信息量接近于被解释的信息量。为了修正它,多数计算机程序在报告常规R2的同时,也报告“修正判定系数”(Adjusted R2)。修正判定系数的公式为:
1702646615
1702646616
1702646617
1702646618
1702646619
这里,N是样本数,k是自变量的数量。显然,当k接近N时,R2adj变小;实际上,它甚至可能变为负值。过度拟合数据的问题只在样本非常小的时候出现;但在此种情况下,必须认真对待修正判定系数。然而,在检验R2提高的显著性时,应该用常规判定系数(R2)(在本章后面“组间比较的方法”一节讨论)。
1702646620
1702646621
估计量的标准误(均方根误差)
1702646622
1702646623
判断回归方程拟合程度的另一个有用的指标是估计量的标准误(standard error of estimate,s.e.e.)(Stata称为“root mean square error”(均方根误差)——英文简称root MSE)。这由公式给出:
1702646624
1702646625
1702646626
1702646627
1702646628
1702646629
这里,N是样本量,k是自变量的数量,而ei是误差,即第i个人的因变量的实际值与预测值之间的差异。因此,估计量的标准误等于误差的平方和除以自由度再取平方根,自由度为N-k。它可以被解释为观测值与回归面之间的平均偏差,或残差的平均值(Fox,1997:104)。根据误差服从正态分布的假设(OLS回归的一般假设),我们可以构建估计量标准误的置信区间。例如,95%的置信区间可由得到。这告诉我们,可以期望有95%的观测值落入距离回归面1.96(s.e.e.)的范围内(Hanushek and Jackson,1977:57)。
1702646630
1702646631
s.e.e比R2优越的一点是,s.e.e.对自变量或因变量方差的相对大小不敏感——也就是说,它不受删截的影响,而删截影响r2和R2。通常可取的方法是同时报告R2和s.e.e.。
1702646632
1702646633
1702646634
1702646635
1702646637
量化数据分析:通过社会研究检验想法 一个具体例子:中国人识字水平的决定因素
1702646638
1702646639
在一篇拟发表的论文中,多元线性回归的结果应该怎样呈现和解释?以下我们就把这些步骤走一遍(产生以下所讨论系数的Stata-do-和-log-文件可以从课程网址下载)。在1996年中国人口抽样调查(详细信息可见附录A,也可见Treiman,1998)中,有一张短格式的词汇测试表,请受访者识别十个难易程度不同的中文词。我们在这里研究能够解释正确识别中文词数量变化的影响因素。
1702646640
1702646641
显然,影响识字能力的最重要的因素是受教育年限。因为汉字是一种表意语言,教育的一个主要目标就是增加汉语词汇知识,在中国,有文化实际上是用所掌握词汇量来衡量的。这很像在西方国家词汇量会随着受教育年限增加的预期。
1702646642
1702646643
除了受教育年限,其他一些因素也会影响识字能力。首先,即使考虑了受访者自己的受教育水平,来自有文化家庭的人仍可能有较高的识字能力。家庭教育可能增强或替代学校教育。家庭环境用两个变量测量:父亲的受教育年限和家庭“文化资本”——一个测量受访者14岁时家中对阅读重视程度的指标。
1702646644
1702646645
城镇成长环境(14岁时居住在城市或镇,而不是农村)可能增强识字能力:一是因为在中国城镇地区教育质量较好;二是像世界上其他地方一样,中国城镇地区提供更多的接触图书资料的机会。在城镇地区更容易读到报纸,且有更多选择;城镇更可能有图书馆,且提供更广泛的图书选择;等等。
1702646646
1702646647
在控制了受教育年限后,从事非体力职业的人应该比从事体力职业的人有更高的识字能力,因为文字是从事非体力职业的人的交流工具。与体力职业相比,非体力职业对阅读文件和准备备忘录的要求高得多。因此,在学校所掌握的词汇知识在从事非体力工作的人身上比从事体力工作的人身上更可能得到增强。
1702646648
1702646649
最后,与许多东亚国家一样,中国是男性主导的社会——这表现在强烈的男孩偏好,男性的受教育程度比女性高,以及婚后居住在男方。男性相对于女性的优势很有可能会扩展到工作中和工作以外的语言交流机会,因而进一步巩固男性在学校所掌握的词汇知识。例如,男性更可能获得管理职位,在众多的非体力和体力部门中,男性更可能获得对文字使用能力要求更高的高地位工作。为了检验此假设,我在模型中纳入一个区分男性和女性的变量。
[
上一页 ]
[ :1.7026466e+09 ]
[
下一页 ]