打字猴:1.7026442e+09
1702644200
1702644201 这为我们验证回归分析的结果是否具有统计学意义,提供了第一条线索。与民意测验或其他形式的推理类似,我们也可以计算出回归系数的标准误差。标准误差衡量的是,对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。假如我们抽取3000名美国成年人进行身高和体重数据的收集,那么在回归分析中我们可能会发现,他们平均身高每增高1英寸,相应的体重增加值为4.3磅;如果重复抽样和计算,那么每英寸身高所对应的体重增加值有可能变成5.2磅。正态分布又一次成为我们的朋友。对于像“变化的一生”这样的大型数据样本来说,我们可以假设不同的回归系数围绕着全体美国成年人的身高和体重的真实情况呈正态分布。在此基础上计算得出标准误差,我们就能够对不同样本的回归系数的分布有一个大体认识。接下来,我将不再占用宝贵的篇幅来介绍标准误差的计算方程式了,原因有二:一是因为大量的数学运算会干扰本章的研究方向,二是所有最基本的统计软件都可以帮你完成这一计算。
1702644202
1702644203 但是,我必须警告你的是,对于小型样本数据(例如20位成年人而非“变化的一生”项目的3000人)来说,正态分布将不再是我们的“好朋友”。具体来说,假如我们对不同的小型样本进行回归分析,就不能指望这些回归系数会围绕着全体美国成年人身高和体重的真实情况呈正态分布,此时的分布情况我们称为“t分布”(简单概括之,t分布比起正态分布来说更加分散,因此左右两条“尾巴”的幅度更大)。其他的情况也是一样的,任何一款基础统计软件都能轻易地解决这个稍微复杂的问题,因此有关t分布的种种细节请参考本章结尾的补充知识点。
1702644204
1702644205 还是回到大型数据(以及正态分布)上来,我们必须认识到标准误差的重要性。从民意测验和其他统计推断中我们可以想见,有超过50%的回归系数会落在真实人口参数一个标准误差的范围内,约95%的回归系数会落在两个标准误差的范围内,以此类推。在理解了这一点以后,我们基本上就算弄清楚了,因为现在我们就可以进行假设检验了(说真的,别告诉我你已经忘了有这么一步了!)一旦得出了回归系数和标准误差,我们便能对“解释变量和因变量之间没有相关关系(即回归系数为0)”的零假设进行检验了。
1702644206
1702644207 在上述有关身高和体重的简单例子中,假如对于全体人口来说身高和体重并不存在任何相关关系,那么我们在“变化的一生”样本中得出每英寸身高对应4.5磅体重的概率有多高?我在电脑上用一款最基础的统计软件进行了回归运算,得出身高系数的标准误差为0.13,也就是说,如果我们重复此分析,比如说有100个不同的样本,那么预计将会有约95个回归系数落在人口真实参数两个标准误差的范围内。
1702644208
1702644209 由此,我们可以用两种不同但彼此相关的方式呈现这一结果。第一种方式是,我们可以建立一个95%的置信区间(4.5±0.26),也就是说,在95%的情况下回归系数会落在此区间里,也就是4.24~4.76之间,用基本的统计软件就能算出这一区间。第二种方式是,我们可以说在身高和体重的相关性95%的置信区间里不包括零。由此,我们就能有95%的把握推翻“身高与体重之间不存在相关关系”的零假设了。这个例子的显着性水平为0.05,也就是说在推翻零假设这件事情上只有5%的概率是错的。
1702644210
1702644211 事实上,我们的统计结果还要更极端。标准误差(0.13)相比起回归系数(4.5)来说,是一个极小的数字,一个经验法则就是,当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。使用统计软件还可以计算出这个例子中的假定值约为零,这就意味着如果整体人口的身高和体重真的不存在任何相关性的话,那么得到如此极端(或更加极端)结果的概率基本上为零。要记住,我们并没有证明身高略高的人的体重就一定更重,我们只不过表明了,由“变化的一生”样本得出的身高与体重相关性假如不为真的话,那会是一件极为反常的事。
1702644212
1702644213 通过基础的回归分析,我们还可以得出一个值得注意的统计值:用以衡量所有能够用回归方程表示的数据总和R2。在“变化的一生”样本中,仅体重一项就有大量不同的数值,有一些人重于所有人的体重平均值,有一些人的体重还不足平均值,通过R2,我们便可以知道这些围绕在平均值周围的体重与身高两项因素之间的相关关系到底有多“亲密”,即回归系数。在这个例子中,答案是0.25或25%。也就是说,我们的样本中有75%的体重数据无法在回归方程上表现出来。对于“变化的一生”项目的研究对象来说,影响他们体重的因素显然不仅身高这一项,别着急,有趣的内容马上就要讲到了。
1702644214
1702644215 我必须承认的是,本章一开始讲到回归分析的时候,我是把它当成社会科学研究过程中神奇的“万金油”来介绍的。到目前为止,我做的所有事情就是使用统计软件和一组数据来说明身高高的人比身高矮的人重。任何人只要去购物中心走一圈,恐怕都能得出相同的结论。现在,既然大家都对基本知识了解得差不多了,那么,就到了释放回归分析真正的“超能力”的时候了。
1702644216
1702644217 诚如我所承诺的,回归分析能够让我们解开多种影响因素和某个大家所关心的结果(如考试分数、收入或心脏病)之间的错综复杂的关系。当我们将多个变量都纳入回归方程式时,接下来的分析可以让我们计算出因变量与每个解释变量之间的线性关系,与此同时,可视其他变量为常数,相当于把其他变量放人“控制组”里。还是上述有关体重的例子。我们已经找到了身高与体重之间的关系,同时我们还知道其他一些能够解释体重的因素(年龄、性别、饮食、运动等),回归分析(当有超过一个解释变量的时候,我们通常称其为多元回归分析或多变量复回归分析)会为回归方程中的每一个解释变量配备一个系数。具体而言,那些性别和身高都相同的人,他们的年龄和体重是怎样一种关系?当我们的解释变量数目超过一个时,就无法在一个二维的坐标中将数据表示出来。想象一下,如果将“变化的一生”项目的每一位研究对象的体重、性别、身高和年龄都在一个多维的图中表示出来,将会是多么壮观的一幅图景。但要记住的是,我们的基本原理并没有改变,无论是之前简单的身高与体重变量,还是现在的多个变量,只要将它们输入电脑上的统计软件,就会自动生成让残差平方和最小的回归系数与回归方程。
1702644218
1702644219 我们暂时还是以“变化的一生”为例,后面我将通过另外一个例子直观地告诉大家多变量回归分析是如何在我们的生活中创造奇迹的。首先,我们为“变化的一生”项目的研究对象的体重再增加一个解释变量:年龄。在电脑中输入相关的身高和年龄数据后,我们得到了如下的方程式:
1702644220
1702644221 体重=-145+4.6×身高+0.1×年龄
1702644222
1702644223 年龄的回归系数是0.1,也就是说,在其他变量不变的条件下,年龄每增加一岁,体重相应地增加0.1磅。对于任意一组相同身高的人来说,年龄大的人的平均体重要高于年龄小的人,年长10岁表现在体重上就是体重重1磅。从方程式上看,虽然年龄对于体重来说并不是一个很显着的影响因素,但确实和我们在生活中看到的一致,该系数的显着性水平为0.05。
1702644224
1702644225 你可能还注意到了身高的回归系数比之前增加了一点儿。当把年龄变量考虑进来后,我们对于身高对体重的影响有了一个更加精确的认识。样本里相同年龄的人中,也就是“当年龄为常量时”,身高每增加1英寸,体重增加4.6镑。
1702644226
1702644227 我们再加入一个变量:性别。这次就有一点不同了,因为性别只存在两种可能性:男性或女性。我们总不能把“男”和“女”放到回归方程式里吧?这时候我们需要用到二进制变量(又称虚拟变量)。在输入数据的时候,如果参与者是女性,我们就用1来表示;如果参与者是男性,我们就用0来表示。性别系数可以理解为,在其他因素不变的情况下对女性体重的影响。该系数为-4.8,并没有出乎大多数人的意料,具体来说,就是对于相同身高和年龄的人来说,女性要比男性轻4.8磅。现在,我们可以开始领略多元回归分析的一些神奇之处了。我们知道女性一般要比男性矮一点儿,但好在我们已经将身高“控制”起来,因此最后呈现的系数也应该会表现出女性比男性矮的特点。最新的回归方程式如下:
1702644228
1702644229 体重=-118+4.3×身高+0.12×年龄-4.8×性别(女性为1,男性为0)
1702644230
1702644231 对于一位身高为65英寸的53岁女性来说,她的体重最有可能约为-118x4.3x65+0.12x53-4.8=163镑。对于一位身高75英寸的35岁男性来说,他的体重最有可能约为-118+4.3x75+0.12x35=209磅,我们之所以跳过回归方程式的最后一项(-4.8),是因为这个人不是女性。
1702644232
1702644233 现在,我们可以开始思考那些更有趣但也更难以预测的因素了,比如教育。教育如何对体重产生影响?如果是我,我会假设受教育程度高的个人对健康更加关注,因此在其他情况都相同的条件下,这类人的体重会轻一些。我们还没仔细考虑过体育锻炼对体重的影响。我会认为,在其他因素不变的前提下,运动量越大,体重就会越轻。
1702644234
1702644235 贫困这一因素又有何影响呢?在美国,收入低也会表现在体重方面吗?“变化的一生”项目的研究人员会向每一位研究对象询问他们是否正在接受美国政府的粮食补助,这是一个衡量贫困程度的好方法。此外,我对种族也很感兴趣。众所周知,在美国有色人种有着不一样的生活体验,与种族相关的文化和居住因素会对体重造成影响,许多城市至今还保持着高度的种族隔离,非洲裔美国人比起其他美国人,更有可能居住在“食品沙漠”中,也就是销售水果、蔬菜和其他新鲜食物的食品杂货店匮乏的区域。
1702644236
1702644237 我们可以通过回归分析将上述解释因素所造成的影响单独分解出来进行观察。例如,我们可以先保持其他社会经济因素——比如教育背景和贫困水平相同,单独分析种族和体重的相关关系,对于接受政府粮食补助的高中学历人群而言,他们的体重和肤色之间存在着怎样的统计学关系?
1702644238
1702644239 讲解到这里,我们的回归方程式已经变得非常繁杂了,也就不在这里为大家展示了。如果是学术论文,一般来说会在这个时候插人一个庞大的表格来总结各种回归方程的结果,在本章的补充知识点中你们可以找到一个完整的回归分析表格。与此同时,我要为大家梳理一下当加入教育、运动量、贫困水平(是否接受政府粮食补助),以及种族因素后所发生的变化。
1702644240
1702644241 我们原来所有的变量(身高、年龄和性别)都还是有意义的,但随着解释变量的不断加入,原来的回归系数发生了微小的变化。我们所有的新变量都以0.05作为显着性水平,此时R2从0.25上升到了0.29(要记住,当R2为0时,表示我们的回归方程式预测样本中个体体重的能力并没有比“平均值”好多少;当R2为1时,表示我们的回归方程式能够完美地预测样本中的每个人的体重),但还是有很多人的体重无法落在回归线上。
1702644242
1702644243 正如我所说的,教育与体重呈现负相关关系。在“变化的一生”项目的所有研究对象中,受教育时间每增加一年,体重就相应减少1.3磅。
1702644244
1702644245 运动与体重也呈现负相关关系,这一点并不令人感到意外。“变化的一生”项目组专门增设了运动指数来衡量每位研究对象的运动量水平。在保持其他因素不变的条件下,运动量最靠后的1/5的人要比其他人平均重4.5磅,比运动量最靠前的1/5的人重将近9磅。
1702644246
1702644247 接受政府食物补助(在本次回归分析中代表贫困)的个人要比其他人重。在其他因素保持不变的条件下,接受补助的人要比其他研究对象平均重5.6磅。
1702644248
1702644249 种族变量是其中最有趣的变量。就算将上述所有因素都“控制”起来,种族因素依然对体重有着举足轻重的影响。“变化的一生”参与者中非西班牙裔成年黑人要比其他人平均重10磅,无论是从绝对意义上还是与回归方程式中的其他解释因素对体重产生的影响相比较,10磅都是一个非常大的数字。而且这还不是一个数据错误,因为该虚拟变量的假定值(怕大家过了这么久忘了,再次提醒一下,假定值就是在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率)为零,95%的置信区间是7.7~16.1磅。
[ 上一页 ]  [ :1.7026442e+09 ]  [ 下一页 ]