打字猴:1.70264655e+09
1702646550
1702646551
1702646552
1702646553
1702646554 此方程告诉我们,如果一个人没有兄弟姐妹,且他的父亲没有受过教育,则预期会受6.26年教育;那些父亲具有同样受教育程度的人,每增加一个兄弟姐妹,其预期受教育年数会减少将近三分之二年(确切地说是0.64年);那些有同样数量兄弟姐妹的人,他们父亲的受教育年数相差一年,他们自己的预期受教育年数将相差半年多一点(确切地说是0.564年)。
1702646555
1702646556 注意,方程6.2中与父亲的受教育年限有关的系数比方程5.2中相应的系数小(分别为0.564和0.687)。这是因为父亲的受教育年限和兄弟姐妹数相关(事实上,此例中r=-0.503)。因此,在方程5.2中,父亲的受教育年限对受访者受教育年限的部分观测影响可以归结为这样的事实,即所受教育差的父亲倾向于有更多的孩子,而来自大家庭的人上学的年数更少。方程6.2考虑到了这种关联,并给出了父亲的受教育年限在排除了(或者说保持不变或控制了)兄弟姐妹数影响后的净影响。此结果的含义很重要:如果一个变量没有被包含在方程中,但它是因变量的真正原因,那么方程中变量的系数将是有偏的,即会高估或低估了给定自变量和因变量之间真实的因果关系(除非此未被纳入方程的变量与方程中的变量不相关,但这种情况很少见)。这就是模型设定误差(specification error)或省略变量偏误(omitted variable bias)。
1702646557
1702646558 一些分析者提供了一系列相关的更加复杂的多元回归模型,并讨论在引入额外变量后某些特定系数大小的变化。在某一特定条件下这是一种合理的策略——当分析者想知道一个或多个变量的效果如何因引入另一个变量(或多个变量)而变化的时候。也就是说,一定程度上与在列联表分析中寻找虚假或真实关系(见第2章和第3章)的方法相似,分析者可能想研究某一特殊关系是否可以或部分地被另一个因素解释。例如,我们可能观察到南方人对社会越轨行为的容忍度比南方之外的人差。然而,分析者受这样的事实启发:南方人与其他地方的人相比所受教育较差且多在农村,而受过良好的教育和居住在城镇会提高容忍度。所以分析者想评估这种关系是否完全(或很可能)是虚假的。在这种情况下,给出两个模型是比较合适的——一个对在南方居住回归,另一个对在南方居住、受教育程度和地方大小回归,然后讨论当受教育程度和地方大小变量被纳入方程后与在南方居住有关的系数的减小程度。然而,如果没有虚假或间接影响的具体假设,就没必要一步步增加变量来估计方程(除非模型中要纳入我们在下一节讨论的一组虚拟变量,或我们改变了变量的函数形式,这会在下一章讨论);相反,所有相关变量都应被纳入一个简单的回归方程中。然而,即使在这种情况下,分析者也应该提供一张成对变量的零阶(双变量)相关系数表,并加上所有间距和连续型变量的均值与标准误,以及所有分类变量的百分比分布。这些描述统计量有助于读者理解被分析变量的性质。此外,正如前面提到的,零阶相关提供了在控制其他变量后评估净效应大小的一个基准。
1702646559
1702646560 检验单个系数的显著性
1702646561
1702646562 一般来说,我们会计算并报告每个自变量系数的标准误——然而,就像你们将在下面看到的,对虚拟变量或交互项来说,标准误没有太大意义。习惯上,当系数至少是标准误的两倍时,我们认为它在统计上显著。这种习惯来自这样的事实:回归系数的抽样分布服从t分布,当自由度(d.f.)为60时(自由度用N-k-1计算,k是h自变量的数量),t=2.00确定了b=0的95%置信区间。t统计量表示在控制了模型中所有其他变量后各个系数的显著性,理解这一点很重要。因此,当几个高度相关的变量被包括在模型中时,可能没有一个变量显著地不等于0——尽管作为一组变量它们是显著的(也可见下面对多重共线性的评论)。
1702646563
1702646564 一些学者用几个自变量来估计回归模型,删除系数不显著的变量(这被称为修饰回归方程),然后再估计模型,其依据是将影响不显著的变量保留在模型中会影响对其他变量的估计。然而,另一些学者主张对因变量的最佳估计是通过纳入所有可能的预测因子来得到,即使有些变量并不显著地不等于0。后一种方法更可取,因为它基于一组变量提供了最佳的点估计,而研究人员对这些变量是否影响结果已经有了一些先验认识。
1702646565
1702646566 多重共线性 当自变量高度相关时,这种情况被称为多重共线性(multicollinearity),回归系数会有很大的标准误且非常不稳定,因而数据分布非常小的变化可能导致系数发生非常大的变化。正如Fox(1991:11;也可见Fox,1997:337-366)所指出的,一个自变量j的抽样方差因共线性而增加的倍数可由公式1/(1-R2j)给出,这里,R2j是变量j对其余自变量进行回归所得到的判定系数(本章后面会讨论);这被称为方差增加因子(variance inflation factor),可以在Stata软件的-regress-命令之后用-estat vif-命令获得。〔见Fox和Monette(1992)关于生成一组自变量的讨论,如一组虚拟变量或一个变量和它的平方;也可见本书第7章“非线性变换”一节的讨论。〕
1702646567
1702646568 显然,只有在自变量高度相关时,多重共线性才成为一个严重的问题。例如,如果R2j=0.75,误差方差将变为原来的4倍,标准误则是原标准误的2倍。因为R2j大到0.75的情况很少见,在社会科学中共线性的问题也不常见。共线性问题通常是在这样的情况下出现,即同一概念的不同测量被包括在一个简单模型中,最常见的是在分析汇总数据的时候,如职业的性质、城市或国家。在这种情况下,一种合理的解决方法是将测量合并成多项测度(见第11章)。
1702646569
1702646570 一些研究人员试图通过逐步回归(stepwise regression)将共线性的程度降到最低,即每次只选择将一个变量纳入(或剔除出)模型,其标准是该变量使R2增大最多(或减少最少)。考虑到前面讲到的当变量之间高度相关时回归系数不稳定的问题,这类方法通常很不适用,因为一方面它们完全没有理论依据,另一方面变量被选择的顺序也相当随意。
1702646571
1702646572 标准化系数
1702646573
1702646574 当因变量有多个决定因素时,自然会出现一个问题,即哪个因素的影响最大。我们不能直接比较每个自变量对应的系数,因为它们通常是用不同的度量单位来表示。父亲的受教育年数相差一年的影响跟兄弟姐妹数相差一个的影响哪个更大?当然,虽然此问题能够得到回答——正如你们在前面看到的,每增加一个兄弟姐妹的负面影响在一定程度上大于父亲的受教育年数每增加一年的正面影响——答案没有告诉我们哪个变量对因变量具有较强的影响,因为兄弟姐妹数的方差比父亲受教育年限的方差小得多。如果你们不明白为什么我们要考虑方差大小的问题,那么请考虑受教育年限和收入对某人汽车价值的影响。假设有一个美国成人样本,我们估计并得到下面的方程:
1702646575
1702646576
1702646577
1702646578
1702646579 我们不能从这里得出结论,认为受教育年限的影响是收入影响的1000倍,或者用100美元为单位测量收入,然后得出结论说受教育年限的影响是收入影响的10倍。实际上,方程表示在控制了收入的影响后,每多受一年教育使某人的汽车(预期)价值损失500美元;然而,在控制了受教育年限的影响后,收入每增加1000美元使某人的汽车(预期)价值增加500美元。从此精确意义上讲,一年教育相当于1000美元的收入。然而,一种比回归系数更为一般的方法是将它们变换成相同的度量单位。
1702646580
1702646581 这样做的传统方法是用标准化变量表示因变量和自变量的关系——通过将变量减去均值再除以标准差转换为标准化变量。因为所有这些变量的标准差都是1,经标准化后变量的回归系数表示,在控制了所有其他自变量的影响后,某一自变量一个标准差的变化所引起的因变量标准差变化的数量。在当前的例子中,用标准化系数表示的方程(即与方程6.2对应的标准化方程)为:
1702646582
1702646583
1702646584
1702646585
1702646586 (记住:像前面章节提到的,该方程没有截距项,因为所有标准化变量的均值都等于0,回归面必定穿过每个变量的均值。)通过查看方程6.4中的系数,我们得出结论,父亲的受教育年限比兄弟姐妹数对教育获得的影响大——确切地说,父亲的受教育年限变化一个标准差意味着受访者的受教育年限有0.60个标准差的期望差异,而兄弟姐妹数一个标准差的变化意味着受访者的受教育年限仅有-0.26个标准差的期望差异。
1702646587
1702646588 注意,在实际分析中我们一般不会对变量进行标准化,然后重新计算回归方程,而是让软件报告标准化系数(通常附上量测系数)。因为通常不报告标准化系数,特别是在经济学文献中,我们也可以利用关系式βYX=bYX(sX/sY)——将自变量X与因变量Y联系起来的标准化系数等于量测系数乘上自变量和因变量标准差的比率——将量测系数转化为标准化系数(反之亦然)(回想公式5.7和5.8)。
1702646589
1702646590 关于标准化回归系数存在一些争论。社会学或其他社会科学一般认为,它们只在前述目的(即评估每个自变量对结果的相对影响的大小)下才有意义。但是,评估某一变量在不同总体中的相对影响大小是不合适的,而这正是因为如果某一变量的标准差在不同总体中不同,即使量测回归系数相同,标准化系数也将不一样(Kim and Mueller,1976)(注意,这类似于前一章讨论的相关系数的删截。事实上,正像上一章讲到的,相关系数与标准化回归系数在两个变量的情况下是相同的)。例如,假设我们想比较美国黑人和白人的兄弟姐妹数对教育获得的影响。进一步假设,黑人与白人的兄弟姐妹数影响受教育年限的量测回归系数相同,黑人和白人受教育年限的标准差相等,但是,黑人兄弟姐妹数的标准差大于白人。在这些假设的条件下,就联系兄弟姐妹数与受教育年限的标准化系数来说,黑人的大于白人的(这直接来自方程5.7和5.8显示的标准化回归系数与测量回归系数之间的数学关系)。我们真的想由此推论:即使黑人和白人每增加一个兄弟姐妹导致的(以受教育年数计算的)“损失”相同,兄弟姐妹数在决定他们的受教育年限方面对黑人的影响大于对白人的影响吗?或许不应该。然而,有些学者(如Hargins,1976)认为,正是因为黑人家庭中的兄弟姐妹数有更大的变化,所以兄弟姐妹数对黑人的影响更大。
1702646591
1702646592 通过一个简单的例子来比较标准化系数和非标准化系数可以将这个问题看得更加清楚。通过利用1962年美国代表性样本对教育获得进行分析,Beverly Duncan(1965:60,65)的研究显示在控制了许多其他变量的影响后,不完整家庭的负面影响非常大,使受访者的受教育年限减少约一年。然而,受教育年限和家庭完整性之间的标准化系数相对较小,约0.09,远小于最大的标准化系数。如何理解这两个看似不一致的结果?事实是它们之间并没有不一致。量测系数显示,来自不完整家庭的人数虽然相对较少(记住,这是1962年的数据),但其负面影响显得很突出。但是,标准化系数显示,家庭是否完整不是教育获得方差的一个很重要的决定因素,这正是因为样本中只有很小比例的人来自不完整家庭。考虑到家庭是否完整这一变量的不变特性,它很难解释教育获得方面太多的变异。
1702646593
1702646594
1702646595 关于二分变量方差的提示 “家庭完整”是一个二分变量。回顾初级统计学,我们知道这类变量的标准差由定义为“正值”(不管哪个类别被定义为“正值”)的比例决定。也就是说,。因此,分布越偏,即越是偏离正0.5或-0.5,标准差越小,进而标准化系数越小。对二分变量来说,由于标准化系数的大小不仅依赖于量测系数的大小,而且依赖于具有“正值”属性样本的比例,一般不适宜对这类变量过多地进行阐释。
1702646596
1702646597 判定系数(R2)
1702646598
1702646599 方程6.2解释教育获得方差的程度如何?我们通过一个与r2非常相似的指标来判断,即判定系数(coefficient of determination)R2,它告诉我们因变量方差被所有自变量解释的比例。正如r2一样,R2=1-误差方差(围绕回归面的方差)与因变量的总方差之比率。在当前的例子中,R2=0.586。注意,方程6.2中的R2并不比方程5.2中的r2(=0.536)大多少。这是两个自变量相关这一事实的另一个结果:任一变量的影响包括它单独的影响加上它与其他自变量的共同影响。方程6.2中的R2与方程5.2中的r2之差值告诉我们兄弟姐妹数对教育获得的独立影响。在本章的后面“组间比较的方法”一节,我们将看到如何用此方法比较不同的回归模型。现在我们来解释它的实际含义:加入回归模型的变量能在多大程度上增大模型解释方差,取决于它与模型中已有变量不相关的部分。这一简单的事实使理论构建面临诸多限制。
[ 上一页 ]  [ :1.70264655e+09 ]  [ 下一页 ]