1702646520
1702646521
8 13 3
1702646522
1702646523
4 6 4
1702646524
1702646525
8 6 3
1702646526
1702646527
10 11 4
1702646528
1702646529
注意,前两列只是前面章节例子的简单重复(见第83~84页)。
1702646530
1702646531
为了检验我们的假设,即兄弟姐妹数对教育获得有负面影响,我们估计下面的方程:
1702646532
1702646533
1702646534
1702646535
1702646536
(注意,我用常规符号表示常规方程中的变量,如X和Y,但用有助于记忆的符号表示具体例子方程中的变量,如E、EF和S。我发现用有助于记忆的符号代表变量更容易记录清楚曾经估计的方程。)
1702646537
1702646538
像方程6.1那样的方程,被称为多元回归(multiple regression)方程。在多元回归方程中,每个变量的系数是测量在所有其他自变量都保持不变的情况下,某一给定自变量一个单位的变化导致因变量期望值的相应变化。所以,在当前这个例子中,与兄弟姐妹数有关的系数告诉我们,对那些父亲具有完全相同受教育年限的人,每增加一个兄弟姐妹,其教育获得的期望值将会发生变化。相应地,与父亲受教育年限有关的系数告诉我们,那些兄弟姐妹数完全相同的人,父亲的受教育年限相差一年,其受教育年限的期望差异。在三个变量的情况下(即当我们只有两个自变量时),而不是有更多变量的时候,我们可以构建一个几何图示来说明保持一个变量不变并估计另一个变量净(net)效应的含义。
1702646539
1702646540
在多元回归中,与两个变量的回归一样,我们用最小二乘准则寻找“最佳”方程,即寻找能够使预测误差平方和最小的方程。然而,在双变量回归中,我们从每个观测点与一条线之间的偏差的角度思考问题;而在多元回归中,则是要最小化每个观测点与一个k维度的几何面之间的偏差,这里,k=1+自变量数量。因此,如图6-1所示,有两个自变量,使用最小二乘准则使每个观测点距离平面(plane)的偏差平方和最小。
1702646541
1702646542
1702646543
1702646544
1702646545
图6-1 兄弟姐妹数、父亲的受教育年限和受访者的受教育年限之间关系的三维图示(假想数据;N=10)
1702646546
1702646547
量测回归系数
1702646548
1702646549
与每个自变量有关的系数被称为回归系数(regression coefficients),或净回归系数(net regression coefficients)〔或有时为原或量测回归系数(raw or metric regression coefficients),以区别于标准化系数(standardized coefficients),关于这一系数,在后面你们会学到更多〕。在当前的例子中,估计出来的回归方程为:
1702646550
1702646551
1702646552
1702646553
1702646554
此方程告诉我们,如果一个人没有兄弟姐妹,且他的父亲没有受过教育,则预期会受6.26年教育;那些父亲具有同样受教育程度的人,每增加一个兄弟姐妹,其预期受教育年数会减少将近三分之二年(确切地说是0.64年);那些有同样数量兄弟姐妹的人,他们父亲的受教育年数相差一年,他们自己的预期受教育年数将相差半年多一点(确切地说是0.564年)。
1702646555
1702646556
注意,方程6.2中与父亲的受教育年限有关的系数比方程5.2中相应的系数小(分别为0.564和0.687)。这是因为父亲的受教育年限和兄弟姐妹数相关(事实上,此例中r=-0.503)。因此,在方程5.2中,父亲的受教育年限对受访者受教育年限的部分观测影响可以归结为这样的事实,即所受教育差的父亲倾向于有更多的孩子,而来自大家庭的人上学的年数更少。方程6.2考虑到了这种关联,并给出了父亲的受教育年限在排除了(或者说保持不变或控制了)兄弟姐妹数影响后的净影响。此结果的含义很重要:如果一个变量没有被包含在方程中,但它是因变量的真正原因,那么方程中变量的系数将是有偏的,即会高估或低估了给定自变量和因变量之间真实的因果关系(除非此未被纳入方程的变量与方程中的变量不相关,但这种情况很少见)。这就是模型设定误差(specification error)或省略变量偏误(omitted variable bias)。
1702646557
1702646558
一些分析者提供了一系列相关的更加复杂的多元回归模型,并讨论在引入额外变量后某些特定系数大小的变化。在某一特定条件下这是一种合理的策略——当分析者想知道一个或多个变量的效果如何因引入另一个变量(或多个变量)而变化的时候。也就是说,一定程度上与在列联表分析中寻找虚假或真实关系(见第2章和第3章)的方法相似,分析者可能想研究某一特殊关系是否可以或部分地被另一个因素解释。例如,我们可能观察到南方人对社会越轨行为的容忍度比南方之外的人差。然而,分析者受这样的事实启发:南方人与其他地方的人相比所受教育较差且多在农村,而受过良好的教育和居住在城镇会提高容忍度。所以分析者想评估这种关系是否完全(或很可能)是虚假的。在这种情况下,给出两个模型是比较合适的——一个对在南方居住回归,另一个对在南方居住、受教育程度和地方大小回归,然后讨论当受教育程度和地方大小变量被纳入方程后与在南方居住有关的系数的减小程度。然而,如果没有虚假或间接影响的具体假设,就没必要一步步增加变量来估计方程(除非模型中要纳入我们在下一节讨论的一组虚拟变量,或我们改变了变量的函数形式,这会在下一章讨论);相反,所有相关变量都应被纳入一个简单的回归方程中。然而,即使在这种情况下,分析者也应该提供一张成对变量的零阶(双变量)相关系数表,并加上所有间距和连续型变量的均值与标准误,以及所有分类变量的百分比分布。这些描述统计量有助于读者理解被分析变量的性质。此外,正如前面提到的,零阶相关提供了在控制其他变量后评估净效应大小的一个基准。
1702646559
1702646560
检验单个系数的显著性
1702646561
1702646562
一般来说,我们会计算并报告每个自变量系数的标准误——然而,就像你们将在下面看到的,对虚拟变量或交互项来说,标准误没有太大意义。习惯上,当系数至少是标准误的两倍时,我们认为它在统计上显著。这种习惯来自这样的事实:回归系数的抽样分布服从t分布,当自由度(d.f.)为60时(自由度用N-k-1计算,k是h自变量的数量),t=2.00确定了b=0的95%置信区间。t统计量表示在控制了模型中所有其他变量后各个系数的显著性,理解这一点很重要。因此,当几个高度相关的变量被包括在模型中时,可能没有一个变量显著地不等于0——尽管作为一组变量它们是显著的(也可见下面对多重共线性的评论)。
1702646563
1702646564
一些学者用几个自变量来估计回归模型,删除系数不显著的变量(这被称为修饰回归方程),然后再估计模型,其依据是将影响不显著的变量保留在模型中会影响对其他变量的估计。然而,另一些学者主张对因变量的最佳估计是通过纳入所有可能的预测因子来得到,即使有些变量并不显著地不等于0。后一种方法更可取,因为它基于一组变量提供了最佳的点估计,而研究人员对这些变量是否影响结果已经有了一些先验认识。
1702646565
1702646566
多重共线性 当自变量高度相关时,这种情况被称为多重共线性(multicollinearity),回归系数会有很大的标准误且非常不稳定,因而数据分布非常小的变化可能导致系数发生非常大的变化。正如Fox(1991:11;也可见Fox,1997:337-366)所指出的,一个自变量j的抽样方差因共线性而增加的倍数可由公式1/(1-R2j)给出,这里,R2j是变量j对其余自变量进行回归所得到的判定系数(本章后面会讨论);这被称为方差增加因子(variance inflation factor),可以在Stata软件的-regress-命令之后用-estat vif-命令获得。〔见Fox和Monette(1992)关于生成一组自变量的讨论,如一组虚拟变量或一个变量和它的平方;也可见本书第7章“非线性变换”一节的讨论。〕
1702646567
1702646568
显然,只有在自变量高度相关时,多重共线性才成为一个严重的问题。例如,如果R2j=0.75,误差方差将变为原来的4倍,标准误则是原标准误的2倍。因为R2j大到0.75的情况很少见,在社会科学中共线性的问题也不常见。共线性问题通常是在这样的情况下出现,即同一概念的不同测量被包括在一个简单模型中,最常见的是在分析汇总数据的时候,如职业的性质、城市或国家。在这种情况下,一种合理的解决方法是将测量合并成多项测度(见第11章)。
1702646569
[
上一页 ]
[ :1.70264652e+09 ]
[
下一页 ]