1702646505
让我们先来看前面曾讲过的两个自变量的例子。这10个样本的例子来自前面的章节,但有所扩展。假设我们认为受教育年限不仅依赖于父亲的受教育年限而且依赖于兄弟姐妹数。其依据是,(在其他情况一样时)兄弟姐妹数越多的人从父母那儿得到的关注越少,因而其结果是在学校的表现不好,因此最终所受的教育较差〔如文献中关于兄弟姐妹数影响的研究,见Downey(1995),Maralani(2004),Lu(2005),Lu和Treiman(2008)〕。进一步假设我们有这10个样本关于所有三个变量的信息:
1702646506
1702646507
父亲的受教育年限 受访者的受教育年限 兄弟姐妹数
1702646508
1702646509
2 4 3
1702646510
1702646511
12 10 3
1702646512
1702646513
4 8 4
1702646514
1702646515
13 13 0
1702646516
1702646517
6 9 2
1702646518
1702646519
6 4 5
1702646520
1702646521
8 13 3
1702646522
1702646523
4 6 4
1702646524
1702646525
8 6 3
1702646526
1702646527
10 11 4
1702646528
1702646529
注意,前两列只是前面章节例子的简单重复(见第83~84页)。
1702646530
1702646531
为了检验我们的假设,即兄弟姐妹数对教育获得有负面影响,我们估计下面的方程:
1702646532
1702646533
1702646534
1702646535
1702646536
(注意,我用常规符号表示常规方程中的变量,如X和Y,但用有助于记忆的符号表示具体例子方程中的变量,如E、EF和S。我发现用有助于记忆的符号代表变量更容易记录清楚曾经估计的方程。)
1702646537
1702646538
像方程6.1那样的方程,被称为多元回归(multiple regression)方程。在多元回归方程中,每个变量的系数是测量在所有其他自变量都保持不变的情况下,某一给定自变量一个单位的变化导致因变量期望值的相应变化。所以,在当前这个例子中,与兄弟姐妹数有关的系数告诉我们,对那些父亲具有完全相同受教育年限的人,每增加一个兄弟姐妹,其教育获得的期望值将会发生变化。相应地,与父亲受教育年限有关的系数告诉我们,那些兄弟姐妹数完全相同的人,父亲的受教育年限相差一年,其受教育年限的期望差异。在三个变量的情况下(即当我们只有两个自变量时),而不是有更多变量的时候,我们可以构建一个几何图示来说明保持一个变量不变并估计另一个变量净(net)效应的含义。
1702646539
1702646540
在多元回归中,与两个变量的回归一样,我们用最小二乘准则寻找“最佳”方程,即寻找能够使预测误差平方和最小的方程。然而,在双变量回归中,我们从每个观测点与一条线之间的偏差的角度思考问题;而在多元回归中,则是要最小化每个观测点与一个k维度的几何面之间的偏差,这里,k=1+自变量数量。因此,如图6-1所示,有两个自变量,使用最小二乘准则使每个观测点距离平面(plane)的偏差平方和最小。
1702646541
1702646542
1702646543
1702646544
1702646545
图6-1 兄弟姐妹数、父亲的受教育年限和受访者的受教育年限之间关系的三维图示(假想数据;N=10)
1702646546
1702646547
量测回归系数
1702646548
1702646549
与每个自变量有关的系数被称为回归系数(regression coefficients),或净回归系数(net regression coefficients)〔或有时为原或量测回归系数(raw or metric regression coefficients),以区别于标准化系数(standardized coefficients),关于这一系数,在后面你们会学到更多〕。在当前的例子中,估计出来的回归方程为:
1702646550
1702646551
1702646552
1702646553
1702646554
此方程告诉我们,如果一个人没有兄弟姐妹,且他的父亲没有受过教育,则预期会受6.26年教育;那些父亲具有同样受教育程度的人,每增加一个兄弟姐妹,其预期受教育年数会减少将近三分之二年(确切地说是0.64年);那些有同样数量兄弟姐妹的人,他们父亲的受教育年数相差一年,他们自己的预期受教育年数将相差半年多一点(确切地说是0.564年)。
[
上一页 ]
[ :1.702646505e+09 ]
[
下一页 ]