1702646570
一些研究人员试图通过逐步回归(stepwise regression)将共线性的程度降到最低,即每次只选择将一个变量纳入(或剔除出)模型,其标准是该变量使R2增大最多(或减少最少)。考虑到前面讲到的当变量之间高度相关时回归系数不稳定的问题,这类方法通常很不适用,因为一方面它们完全没有理论依据,另一方面变量被选择的顺序也相当随意。
1702646571
1702646572
标准化系数
1702646573
1702646574
当因变量有多个决定因素时,自然会出现一个问题,即哪个因素的影响最大。我们不能直接比较每个自变量对应的系数,因为它们通常是用不同的度量单位来表示。父亲的受教育年数相差一年的影响跟兄弟姐妹数相差一个的影响哪个更大?当然,虽然此问题能够得到回答——正如你们在前面看到的,每增加一个兄弟姐妹的负面影响在一定程度上大于父亲的受教育年数每增加一年的正面影响——答案没有告诉我们哪个变量对因变量具有较强的影响,因为兄弟姐妹数的方差比父亲受教育年限的方差小得多。如果你们不明白为什么我们要考虑方差大小的问题,那么请考虑受教育年限和收入对某人汽车价值的影响。假设有一个美国成人样本,我们估计并得到下面的方程:
1702646575
1702646576
1702646577
1702646578
1702646579
我们不能从这里得出结论,认为受教育年限的影响是收入影响的1000倍,或者用100美元为单位测量收入,然后得出结论说受教育年限的影响是收入影响的10倍。实际上,方程表示在控制了收入的影响后,每多受一年教育使某人的汽车(预期)价值损失500美元;然而,在控制了受教育年限的影响后,收入每增加1000美元使某人的汽车(预期)价值增加500美元。从此精确意义上讲,一年教育相当于1000美元的收入。然而,一种比回归系数更为一般的方法是将它们变换成相同的度量单位。
1702646580
1702646581
这样做的传统方法是用标准化变量表示因变量和自变量的关系——通过将变量减去均值再除以标准差转换为标准化变量。因为所有这些变量的标准差都是1,经标准化后变量的回归系数表示,在控制了所有其他自变量的影响后,某一自变量一个标准差的变化所引起的因变量标准差变化的数量。在当前的例子中,用标准化系数表示的方程(即与方程6.2对应的标准化方程)为:
1702646582
1702646583
1702646584
1702646585
1702646586
(记住:像前面章节提到的,该方程没有截距项,因为所有标准化变量的均值都等于0,回归面必定穿过每个变量的均值。)通过查看方程6.4中的系数,我们得出结论,父亲的受教育年限比兄弟姐妹数对教育获得的影响大——确切地说,父亲的受教育年限变化一个标准差意味着受访者的受教育年限有0.60个标准差的期望差异,而兄弟姐妹数一个标准差的变化意味着受访者的受教育年限仅有-0.26个标准差的期望差异。
1702646587
1702646588
注意,在实际分析中我们一般不会对变量进行标准化,然后重新计算回归方程,而是让软件报告标准化系数(通常附上量测系数)。因为通常不报告标准化系数,特别是在经济学文献中,我们也可以利用关系式βYX=bYX(sX/sY)——将自变量X与因变量Y联系起来的标准化系数等于量测系数乘上自变量和因变量标准差的比率——将量测系数转化为标准化系数(反之亦然)(回想公式5.7和5.8)。
1702646589
1702646590
关于标准化回归系数存在一些争论。社会学或其他社会科学一般认为,它们只在前述目的(即评估每个自变量对结果的相对影响的大小)下才有意义。但是,评估某一变量在不同总体中的相对影响大小是不合适的,而这正是因为如果某一变量的标准差在不同总体中不同,即使量测回归系数相同,标准化系数也将不一样(Kim and Mueller,1976)(注意,这类似于前一章讨论的相关系数的删截。事实上,正像上一章讲到的,相关系数与标准化回归系数在两个变量的情况下是相同的)。例如,假设我们想比较美国黑人和白人的兄弟姐妹数对教育获得的影响。进一步假设,黑人与白人的兄弟姐妹数影响受教育年限的量测回归系数相同,黑人和白人受教育年限的标准差相等,但是,黑人兄弟姐妹数的标准差大于白人。在这些假设的条件下,就联系兄弟姐妹数与受教育年限的标准化系数来说,黑人的大于白人的(这直接来自方程5.7和5.8显示的标准化回归系数与测量回归系数之间的数学关系)。我们真的想由此推论:即使黑人和白人每增加一个兄弟姐妹导致的(以受教育年数计算的)“损失”相同,兄弟姐妹数在决定他们的受教育年限方面对黑人的影响大于对白人的影响吗?或许不应该。然而,有些学者(如Hargins,1976)认为,正是因为黑人家庭中的兄弟姐妹数有更大的变化,所以兄弟姐妹数对黑人的影响更大。
1702646591
1702646592
通过一个简单的例子来比较标准化系数和非标准化系数可以将这个问题看得更加清楚。通过利用1962年美国代表性样本对教育获得进行分析,Beverly Duncan(1965:60,65)的研究显示在控制了许多其他变量的影响后,不完整家庭的负面影响非常大,使受访者的受教育年限减少约一年。然而,受教育年限和家庭完整性之间的标准化系数相对较小,约0.09,远小于最大的标准化系数。如何理解这两个看似不一致的结果?事实是它们之间并没有不一致。量测系数显示,来自不完整家庭的人数虽然相对较少(记住,这是1962年的数据),但其负面影响显得很突出。但是,标准化系数显示,家庭是否完整不是教育获得方差的一个很重要的决定因素,这正是因为样本中只有很小比例的人来自不完整家庭。考虑到家庭是否完整这一变量的不变特性,它很难解释教育获得方面太多的变异。
1702646593
1702646594
1702646595
关于二分变量方差的提示 “家庭完整”是一个二分变量。回顾初级统计学,我们知道这类变量的标准差由定义为“正值”(不管哪个类别被定义为“正值”)的比例决定。也就是说,。因此,分布越偏,即越是偏离正0.5或-0.5,标准差越小,进而标准化系数越小。对二分变量来说,由于标准化系数的大小不仅依赖于量测系数的大小,而且依赖于具有“正值”属性样本的比例,一般不适宜对这类变量过多地进行阐释。
1702646596
1702646597
判定系数(R2)
1702646598
1702646599
方程6.2解释教育获得方差的程度如何?我们通过一个与r2非常相似的指标来判断,即判定系数(coefficient of determination)R2,它告诉我们因变量方差被所有自变量解释的比例。正如r2一样,R2=1-误差方差(围绕回归面的方差)与因变量的总方差之比率。在当前的例子中,R2=0.586。注意,方程6.2中的R2并不比方程5.2中的r2(=0.536)大多少。这是两个自变量相关这一事实的另一个结果:任一变量的影响包括它单独的影响加上它与其他自变量的共同影响。方程6.2中的R2与方程5.2中的r2之差值告诉我们兄弟姐妹数对教育获得的独立影响。在本章的后面“组间比较的方法”一节,我们将看到如何用此方法比较不同的回归模型。现在我们来解释它的实际含义:加入回归模型的变量能在多大程度上增大模型解释方差,取决于它与模型中已有变量不相关的部分。这一简单的事实使理论构建面临诸多限制。
1702646600
1702646601
这里有一个恰当的例子。当研究生第一次阅读有关地位获得的文献时,有时会因他们所理解的“R2很小”感到失望〔对美国人口最有说服力的研究——例如,Featherman和Hauser(1978:235)的研究——只解释了职业获得40%的方差,教育成就约30%的方差,以及年收入约20%的方差〕,然后建议其他没有被纳入分析的变量也应该被包括进来。然而,前面提到的问题是,对解释方差有很大影响的新变量必须与模型中已有的变量相对不相关。找到影响教育获得并与父母的受教育年限、父亲的职业、兄弟姐妹数等不相关的变量不是件容易的事。我支持Dudley Duncan的观点,应该为R2较小感到高兴而非失望,至少在地位获得的分析中,我敢说许多其他现象也是如此。R2较小与其说是对我们研究科学性的责难,不如说是对我们社会的颂扬。Duncan曾说(Blau and Duncan,1967:174):
1702646602
1702646603
社会学家经常因残差的大小而失望,因为他们把它看作成功“解释”所研究现象的一个测量指标。他们很少反思,如果我们生活在一个因变量可以被父亲的职业或受访者的受教育年限等原因变量完美解释的社会中,那将意味着什么。在这种社会中,“由于父母的经济地位或职业……他们命中注定生来就贫穷”就会成为事实。当然,其他人则“命中注定”会生活富裕或宽裕。不管如何努力,人们都不可能从本质上改变命运,任何好或坏的运气也不会有任何影响,“结局”早已经写好了。
1702646604
1702646605
实际上,令人惊奇的是,种族隔离时代的南非是一个用模型来预测地位属性时R2很大的社会,这个社会有一个非常严格的、以种族为基础的分层系统(例如,参见Treiman,McKeever,and Fodor,1996;Treiman,2007b)。
1702646606
1702646607
用相关系数计算R2的一个公式 用相关矩阵和标准化回归系数计算R2的一个简便公式是:
1702646608
1702646609
1702646610
1702646611
1702646612
也就是说,R2可以用每个自变量和因变量之间的相关系数与相应的标准化回归系数的乘积之和计算。
1702646613
1702646614
修正判定系数 当模型中变量的数量相对于样本的数量来说较大时,被解释的方差必定较大,因为在解释中用到的信息量接近于被解释的信息量。为了修正它,多数计算机程序在报告常规R2的同时,也报告“修正判定系数”(Adjusted R2)。修正判定系数的公式为:
1702646615
1702646616
1702646617
1702646618
1702646619
这里,N是样本数,k是自变量的数量。显然,当k接近N时,R2adj变小;实际上,它甚至可能变为负值。过度拟合数据的问题只在样本非常小的时候出现;但在此种情况下,必须认真对待修正判定系数。然而,在检验R2提高的显著性时,应该用常规判定系数(R2)(在本章后面“组间比较的方法”一节讨论)。
[
上一页 ]
[ :1.70264657e+09 ]
[
下一页 ]