1702646610
1702646611
1702646612
也就是说,R2可以用每个自变量和因变量之间的相关系数与相应的标准化回归系数的乘积之和计算。
1702646613
1702646614
修正判定系数 当模型中变量的数量相对于样本的数量来说较大时,被解释的方差必定较大,因为在解释中用到的信息量接近于被解释的信息量。为了修正它,多数计算机程序在报告常规R2的同时,也报告“修正判定系数”(Adjusted R2)。修正判定系数的公式为:
1702646615
1702646616
1702646617
1702646618
1702646619
这里,N是样本数,k是自变量的数量。显然,当k接近N时,R2adj变小;实际上,它甚至可能变为负值。过度拟合数据的问题只在样本非常小的时候出现;但在此种情况下,必须认真对待修正判定系数。然而,在检验R2提高的显著性时,应该用常规判定系数(R2)(在本章后面“组间比较的方法”一节讨论)。
1702646620
1702646621
估计量的标准误(均方根误差)
1702646622
1702646623
判断回归方程拟合程度的另一个有用的指标是估计量的标准误(standard error of estimate,s.e.e.)(Stata称为“root mean square error”(均方根误差)——英文简称root MSE)。这由公式给出:
1702646624
1702646625
1702646626
1702646627
1702646628
1702646629
这里,N是样本量,k是自变量的数量,而ei是误差,即第i个人的因变量的实际值与预测值之间的差异。因此,估计量的标准误等于误差的平方和除以自由度再取平方根,自由度为N-k。它可以被解释为观测值与回归面之间的平均偏差,或残差的平均值(Fox,1997:104)。根据误差服从正态分布的假设(OLS回归的一般假设),我们可以构建估计量标准误的置信区间。例如,95%的置信区间可由得到。这告诉我们,可以期望有95%的观测值落入距离回归面1.96(s.e.e.)的范围内(Hanushek and Jackson,1977:57)。
1702646630
1702646631
s.e.e比R2优越的一点是,s.e.e.对自变量或因变量方差的相对大小不敏感——也就是说,它不受删截的影响,而删截影响r2和R2。通常可取的方法是同时报告R2和s.e.e.。
1702646632
1702646633
1702646634
1702646635
1702646637
量化数据分析:通过社会研究检验想法 一个具体例子:中国人识字水平的决定因素
1702646638
1702646639
在一篇拟发表的论文中,多元线性回归的结果应该怎样呈现和解释?以下我们就把这些步骤走一遍(产生以下所讨论系数的Stata-do-和-log-文件可以从课程网址下载)。在1996年中国人口抽样调查(详细信息可见附录A,也可见Treiman,1998)中,有一张短格式的词汇测试表,请受访者识别十个难易程度不同的中文词。我们在这里研究能够解释正确识别中文词数量变化的影响因素。
1702646640
1702646641
显然,影响识字能力的最重要的因素是受教育年限。因为汉字是一种表意语言,教育的一个主要目标就是增加汉语词汇知识,在中国,有文化实际上是用所掌握词汇量来衡量的。这很像在西方国家词汇量会随着受教育年限增加的预期。
1702646642
1702646643
除了受教育年限,其他一些因素也会影响识字能力。首先,即使考虑了受访者自己的受教育水平,来自有文化家庭的人仍可能有较高的识字能力。家庭教育可能增强或替代学校教育。家庭环境用两个变量测量:父亲的受教育年限和家庭“文化资本”——一个测量受访者14岁时家中对阅读重视程度的指标。
1702646644
1702646645
城镇成长环境(14岁时居住在城市或镇,而不是农村)可能增强识字能力:一是因为在中国城镇地区教育质量较好;二是像世界上其他地方一样,中国城镇地区提供更多的接触图书资料的机会。在城镇地区更容易读到报纸,且有更多选择;城镇更可能有图书馆,且提供更广泛的图书选择;等等。
1702646646
1702646647
在控制了受教育年限后,从事非体力职业的人应该比从事体力职业的人有更高的识字能力,因为文字是从事非体力职业的人的交流工具。与体力职业相比,非体力职业对阅读文件和准备备忘录的要求高得多。因此,在学校所掌握的词汇知识在从事非体力工作的人身上比从事体力工作的人身上更可能得到增强。
1702646648
1702646649
最后,与许多东亚国家一样,中国是男性主导的社会——这表现在强烈的男孩偏好,男性的受教育程度比女性高,以及婚后居住在男方。男性相对于女性的优势很有可能会扩展到工作中和工作以外的语言交流机会,因而进一步巩固男性在学校所掌握的词汇知识。例如,男性更可能获得管理职位,在众多的非体力和体力部门中,男性更可能获得对文字使用能力要求更高的高地位工作。为了检验此假设,我在模型中纳入一个区分男性和女性的变量。
1702646650
1702646651
表6-1显示了所有分析变量的均值、标准差和相关系数。中国成年人在调查问卷的10个中文词中平均能够正确识别3.6个。成年人的平均受教育年限为6.5年(相比较而言,他们的父母亲平均约为3年);18%的人从事非体力工作;18%的人在城镇地区长大;56%的样本是男性(注意,这是一个劳动力样本),一般受访者拥有的“文化资本”量相当于拥有“文化资本”最多的人的四分之一。(之所以说这是一个劳动力样本,是因为我删除了职业信息缺失的样本。我也删除了那些在其他变量上有缺失的样本,但成批删除的主要是缺失职业信息的样本。我们在第8章会看到,当一些变量存在相当数量的缺失信息时如何保留样本。)分析结果一点也不让人感到意外,正确识别中文词的数量与受教育年限的相关度远远高于其他变量。
1702646652
1702646653
始终给出描述统计量 我们应该始终给出一张表,显示分析中用到的变量的描述统计量。这些统计量给读者提供了非常有用的信息,也允许读者使用其他模型对数据另行估计。现在的趋势是许多研究者一开始就给出复杂模型,这是不合适的,因为它往往使读者不了解所分析数据的基本特点。例如,在中国,每个人平均的受教育年限不到7年,80%以上的人从事体力工作,80%以上的人在农村长大;相比另一个社会如美国,每个人平均的受教育年限约为13年,大多数人在城镇长大,大部分人从事非体力工作:你会因此对某一个社会识字水平的决定因素产生非常不同的印象。
1702646654
1702646655
表6-1 影响1996年中国在职成年人(20~69岁)词汇知识变量的均值、标准差和相关系数(N=4802)
1702646656
1702646657
1702646658
1702646659
[
上一页 ]
[ :1.70264661e+09 ]
[
下一页 ]