打字猴:1.70264651e+09

1702646510

1702646511 　　　　　　　　　 12　　　　　　　　　　　　　 10　　　　　　　　　　　　3

1702646512

1702646513 　　　　　　　　　　4　　　　　　　　　　　　　 8　　　　　　　　　　　　 4

1702646514

1702646515 　　　　　　　　　 13　　　　　　　　　　　　　 13　　　　　　　　　　　　0

1702646516

1702646517 　　　　　　　　　　6　　　　　　　　　　　　　 9　　　　　　　　　　　　 2

1702646518

1702646519 　　　　　　　　　　6　　　　　　　　　　　　　 4　　　　　　　　　　　　 5

1702646520

1702646521 　　　　　　　　　　8　　　　　　　　　　　　　 13　　　　　　　　　　　　3

1702646522

1702646523 　　　　　　　　　　4　　　　　　　　　　　　　 6　　　　　　　　　　　　 4

1702646524

1702646525 　　　　　　　　　　8　　　　　　　　　　　　　 6　　　　　　　　　　　　 3

1702646526

1702646527 　　　　　　　　　 10　　　　　　　　　　　　　 11　　　　　　　　　　　　4

1702646528

1702646529 注意，前两列只是前面章节例子的简单重复（见第83～84页）。

1702646530

1702646531 为了检验我们的假设，即兄弟姐妹数对教育获得有负面影响，我们估计下面的方程：

1702646532

1702646533

1702646534

1702646535

1702646536 （注意，我用常规符号表示常规方程中的变量，如X和Y，但用有助于记忆的符号表示具体例子方程中的变量，如E、EF和S。我发现用有助于记忆的符号代表变量更容易记录清楚曾经估计的方程。）

1702646537

1702646538 像方程6.1那样的方程，被称为多元回归（multiple regression）方程。在多元回归方程中，每个变量的系数是测量在所有其他自变量都保持不变的情况下，某一给定自变量一个单位的变化导致因变量期望值的相应变化。所以，在当前这个例子中，与兄弟姐妹数有关的系数告诉我们，对那些父亲具有完全相同受教育年限的人，每增加一个兄弟姐妹，其教育获得的期望值将会发生变化。相应地，与父亲受教育年限有关的系数告诉我们，那些兄弟姐妹数完全相同的人，父亲的受教育年限相差一年，其受教育年限的期望差异。在三个变量的情况下（即当我们只有两个自变量时），而不是有更多变量的时候，我们可以构建一个几何图示来说明保持一个变量不变并估计另一个变量净（net）效应的含义。

1702646539

1702646540 在多元回归中，与两个变量的回归一样，我们用最小二乘准则寻找“最佳”方程，即寻找能够使预测误差平方和最小的方程。然而，在双变量回归中，我们从每个观测点与一条线之间的偏差的角度思考问题；而在多元回归中，则是要最小化每个观测点与一个k维度的几何面之间的偏差，这里，k=1+自变量数量。因此，如图6-1所示，有两个自变量，使用最小二乘准则使每个观测点距离平面（plane）的偏差平方和最小。

1702646541

1702646542

1702646543

1702646544

1702646545 图6-1 兄弟姐妹数、父亲的受教育年限和受访者的受教育年限之间关系的三维图示（假想数据；N=10）

1702646546

1702646547 量测回归系数

1702646548

1702646549 与每个自变量有关的系数被称为回归系数（regression coefficients），或净回归系数（net regression coefficients）〔或有时为原或量测回归系数（raw or metric regression coefficients），以区别于标准化系数（standardized coefficients），关于这一系数，在后面你们会学到更多〕。在当前的例子中，估计出来的回归方程为：

1702646550

1702646551

1702646552

1702646553

1702646554 此方程告诉我们，如果一个人没有兄弟姐妹，且他的父亲没有受过教育，则预期会受6.26年教育；那些父亲具有同样受教育程度的人，每增加一个兄弟姐妹，其预期受教育年数会减少将近三分之二年（确切地说是0.64年）；那些有同样数量兄弟姐妹的人，他们父亲的受教育年数相差一年，他们自己的预期受教育年数将相差半年多一点（确切地说是0.564年）。

1702646555

1702646556 注意，方程6.2中与父亲的受教育年限有关的系数比方程5.2中相应的系数小（分别为0.564和0.687）。这是因为父亲的受教育年限和兄弟姐妹数相关（事实上，此例中r=-0.503）。因此，在方程5.2中，父亲的受教育年限对受访者受教育年限的部分观测影响可以归结为这样的事实，即所受教育差的父亲倾向于有更多的孩子，而来自大家庭的人上学的年数更少。方程6.2考虑到了这种关联，并给出了父亲的受教育年限在排除了（或者说保持不变或控制了）兄弟姐妹数影响后的净影响。此结果的含义很重要：如果一个变量没有被包含在方程中，但它是因变量的真正原因，那么方程中变量的系数将是有偏的，即会高估或低估了给定自变量和因变量之间真实的因果关系（除非此未被纳入方程的变量与方程中的变量不相关，但这种情况很少见）。这就是模型设定误差（specification error）或省略变量偏误（omitted variable bias）。

1702646557

1702646558 一些分析者提供了一系列相关的更加复杂的多元回归模型，并讨论在引入额外变量后某些特定系数大小的变化。在某一特定条件下这是一种合理的策略——当分析者想知道一个或多个变量的效果如何因引入另一个变量（或多个变量）而变化的时候。也就是说，一定程度上与在列联表分析中寻找虚假或真实关系（见第2章和第3章）的方法相似，分析者可能想研究某一特殊关系是否可以或部分地被另一个因素解释。例如，我们可能观察到南方人对社会越轨行为的容忍度比南方之外的人差。然而，分析者受这样的事实启发：南方人与其他地方的人相比所受教育较差且多在农村，而受过良好的教育和居住在城镇会提高容忍度。所以分析者想评估这种关系是否完全（或很可能）是虚假的。在这种情况下，给出两个模型是比较合适的——一个对在南方居住回归，另一个对在南方居住、受教育程度和地方大小回归，然后讨论当受教育程度和地方大小变量被纳入方程后与在南方居住有关的系数的减小程度。然而，如果没有虚假或间接影响的具体假设，就没必要一步步增加变量来估计方程（除非模型中要纳入我们在下一节讨论的一组虚拟变量，或我们改变了变量的函数形式，这会在下一章讨论）；相反，所有相关变量都应被纳入一个简单的回归方程中。然而，即使在这种情况下，分析者也应该提供一张成对变量的零阶（双变量）相关系数表，并加上所有间距和连续型变量的均值与标准误，以及所有分类变量的百分比分布。这些描述统计量有助于读者理解被分析变量的性质。此外，正如前面提到的，零阶相关提供了在控制其他变量后评估净效应大小的一个基准。

1702646559

[ 上一页 ] [ :1.70264651e+09 ] [ 下一页 ]