打字猴:1.70264659e+09
1702646590 关于标准化回归系数存在一些争论。社会学或其他社会科学一般认为,它们只在前述目的(即评估每个自变量对结果的相对影响的大小)下才有意义。但是,评估某一变量在不同总体中的相对影响大小是不合适的,而这正是因为如果某一变量的标准差在不同总体中不同,即使量测回归系数相同,标准化系数也将不一样(Kim and Mueller,1976)(注意,这类似于前一章讨论的相关系数的删截。事实上,正像上一章讲到的,相关系数与标准化回归系数在两个变量的情况下是相同的)。例如,假设我们想比较美国黑人和白人的兄弟姐妹数对教育获得的影响。进一步假设,黑人与白人的兄弟姐妹数影响受教育年限的量测回归系数相同,黑人和白人受教育年限的标准差相等,但是,黑人兄弟姐妹数的标准差大于白人。在这些假设的条件下,就联系兄弟姐妹数与受教育年限的标准化系数来说,黑人的大于白人的(这直接来自方程5.7和5.8显示的标准化回归系数与测量回归系数之间的数学关系)。我们真的想由此推论:即使黑人和白人每增加一个兄弟姐妹导致的(以受教育年数计算的)“损失”相同,兄弟姐妹数在决定他们的受教育年限方面对黑人的影响大于对白人的影响吗?或许不应该。然而,有些学者(如Hargins,1976)认为,正是因为黑人家庭中的兄弟姐妹数有更大的变化,所以兄弟姐妹数对黑人的影响更大。
1702646591
1702646592 通过一个简单的例子来比较标准化系数和非标准化系数可以将这个问题看得更加清楚。通过利用1962年美国代表性样本对教育获得进行分析,Beverly Duncan(1965:60,65)的研究显示在控制了许多其他变量的影响后,不完整家庭的负面影响非常大,使受访者的受教育年限减少约一年。然而,受教育年限和家庭完整性之间的标准化系数相对较小,约0.09,远小于最大的标准化系数。如何理解这两个看似不一致的结果?事实是它们之间并没有不一致。量测系数显示,来自不完整家庭的人数虽然相对较少(记住,这是1962年的数据),但其负面影响显得很突出。但是,标准化系数显示,家庭是否完整不是教育获得方差的一个很重要的决定因素,这正是因为样本中只有很小比例的人来自不完整家庭。考虑到家庭是否完整这一变量的不变特性,它很难解释教育获得方面太多的变异。
1702646593
1702646594
1702646595 关于二分变量方差的提示 “家庭完整”是一个二分变量。回顾初级统计学,我们知道这类变量的标准差由定义为“正值”(不管哪个类别被定义为“正值”)的比例决定。也就是说,。因此,分布越偏,即越是偏离正0.5或-0.5,标准差越小,进而标准化系数越小。对二分变量来说,由于标准化系数的大小不仅依赖于量测系数的大小,而且依赖于具有“正值”属性样本的比例,一般不适宜对这类变量过多地进行阐释。
1702646596
1702646597 判定系数(R2)
1702646598
1702646599 方程6.2解释教育获得方差的程度如何?我们通过一个与r2非常相似的指标来判断,即判定系数(coefficient of determination)R2,它告诉我们因变量方差被所有自变量解释的比例。正如r2一样,R2=1-误差方差(围绕回归面的方差)与因变量的总方差之比率。在当前的例子中,R2=0.586。注意,方程6.2中的R2并不比方程5.2中的r2(=0.536)大多少。这是两个自变量相关这一事实的另一个结果:任一变量的影响包括它单独的影响加上它与其他自变量的共同影响。方程6.2中的R2与方程5.2中的r2之差值告诉我们兄弟姐妹数对教育获得的独立影响。在本章的后面“组间比较的方法”一节,我们将看到如何用此方法比较不同的回归模型。现在我们来解释它的实际含义:加入回归模型的变量能在多大程度上增大模型解释方差,取决于它与模型中已有变量不相关的部分。这一简单的事实使理论构建面临诸多限制。
1702646600
1702646601 这里有一个恰当的例子。当研究生第一次阅读有关地位获得的文献时,有时会因他们所理解的“R2很小”感到失望〔对美国人口最有说服力的研究——例如,Featherman和Hauser(1978:235)的研究——只解释了职业获得40%的方差,教育成就约30%的方差,以及年收入约20%的方差〕,然后建议其他没有被纳入分析的变量也应该被包括进来。然而,前面提到的问题是,对解释方差有很大影响的新变量必须与模型中已有的变量相对不相关。找到影响教育获得并与父母的受教育年限、父亲的职业、兄弟姐妹数等不相关的变量不是件容易的事。我支持Dudley Duncan的观点,应该为R2较小感到高兴而非失望,至少在地位获得的分析中,我敢说许多其他现象也是如此。R2较小与其说是对我们研究科学性的责难,不如说是对我们社会的颂扬。Duncan曾说(Blau and Duncan,1967:174):
1702646602
1702646603 社会学家经常因残差的大小而失望,因为他们把它看作成功“解释”所研究现象的一个测量指标。他们很少反思,如果我们生活在一个因变量可以被父亲的职业或受访者的受教育年限等原因变量完美解释的社会中,那将意味着什么。在这种社会中,“由于父母的经济地位或职业……他们命中注定生来就贫穷”就会成为事实。当然,其他人则“命中注定”会生活富裕或宽裕。不管如何努力,人们都不可能从本质上改变命运,任何好或坏的运气也不会有任何影响,“结局”早已经写好了。
1702646604
1702646605 实际上,令人惊奇的是,种族隔离时代的南非是一个用模型来预测地位属性时R2很大的社会,这个社会有一个非常严格的、以种族为基础的分层系统(例如,参见Treiman,McKeever,and Fodor,1996;Treiman,2007b)。
1702646606
1702646607 用相关系数计算R2的一个公式 用相关矩阵和标准化回归系数计算R2的一个简便公式是:
1702646608
1702646609
1702646610
1702646611
1702646612 也就是说,R2可以用每个自变量和因变量之间的相关系数与相应的标准化回归系数的乘积之和计算。
1702646613
1702646614 修正判定系数 当模型中变量的数量相对于样本的数量来说较大时,被解释的方差必定较大,因为在解释中用到的信息量接近于被解释的信息量。为了修正它,多数计算机程序在报告常规R2的同时,也报告“修正判定系数”(Adjusted R2)。修正判定系数的公式为:
1702646615
1702646616
1702646617
1702646618
1702646619 这里,N是样本数,k是自变量的数量。显然,当k接近N时,R2adj变小;实际上,它甚至可能变为负值。过度拟合数据的问题只在样本非常小的时候出现;但在此种情况下,必须认真对待修正判定系数。然而,在检验R2提高的显著性时,应该用常规判定系数(R2)(在本章后面“组间比较的方法”一节讨论)。
1702646620
1702646621 估计量的标准误(均方根误差)
1702646622
1702646623 判断回归方程拟合程度的另一个有用的指标是估计量的标准误(standard error of estimate,s.e.e.)(Stata称为“root mean square error”(均方根误差)——英文简称root MSE)。这由公式给出:
1702646624
1702646625
1702646626
1702646627
1702646628
1702646629 这里,N是样本量,k是自变量的数量,而ei是误差,即第i个人的因变量的实际值与预测值之间的差异。因此,估计量的标准误等于误差的平方和除以自由度再取平方根,自由度为N-k。它可以被解释为观测值与回归面之间的平均偏差,或残差的平均值(Fox,1997:104)。根据误差服从正态分布的假设(OLS回归的一般假设),我们可以构建估计量标准误的置信区间。例如,95%的置信区间可由得到。这告诉我们,可以期望有95%的观测值落入距离回归面1.96(s.e.e.)的范围内(Hanushek and Jackson,1977:57)。
1702646630
1702646631 s.e.e比R2优越的一点是,s.e.e.对自变量或因变量方差的相对大小不敏感——也就是说,它不受删截的影响,而删截影响r2和R2。通常可取的方法是同时报告R2和s.e.e.。
1702646632
1702646633
1702646634
1702646635
1702646636 量化数据分析:通过社会研究检验想法 [:1702644759]
1702646637 量化数据分析:通过社会研究检验想法 一个具体例子:中国人识字水平的决定因素
1702646638
1702646639 在一篇拟发表的论文中,多元线性回归的结果应该怎样呈现和解释?以下我们就把这些步骤走一遍(产生以下所讨论系数的Stata-do-和-log-文件可以从课程网址下载)。在1996年中国人口抽样调查(详细信息可见附录A,也可见Treiman,1998)中,有一张短格式的词汇测试表,请受访者识别十个难易程度不同的中文词。我们在这里研究能够解释正确识别中文词数量变化的影响因素。
[ 上一页 ]  [ :1.70264659e+09 ]  [ 下一页 ]