1702644220
1702644221
体重=-145+4.6×身高+0.1×年龄
1702644222
1702644223
年龄的回归系数是0.1,也就是说,在其他变量不变的条件下,年龄每增加一岁,体重相应地增加0.1磅。对于任意一组相同身高的人来说,年龄大的人的平均体重要高于年龄小的人,年长10岁表现在体重上就是体重重1磅。从方程式上看,虽然年龄对于体重来说并不是一个很显着的影响因素,但确实和我们在生活中看到的一致,该系数的显着性水平为0.05。
1702644224
1702644225
你可能还注意到了身高的回归系数比之前增加了一点儿。当把年龄变量考虑进来后,我们对于身高对体重的影响有了一个更加精确的认识。样本里相同年龄的人中,也就是“当年龄为常量时”,身高每增加1英寸,体重增加4.6镑。
1702644226
1702644227
我们再加入一个变量:性别。这次就有一点不同了,因为性别只存在两种可能性:男性或女性。我们总不能把“男”和“女”放到回归方程式里吧?这时候我们需要用到二进制变量(又称虚拟变量)。在输入数据的时候,如果参与者是女性,我们就用1来表示;如果参与者是男性,我们就用0来表示。性别系数可以理解为,在其他因素不变的情况下对女性体重的影响。该系数为-4.8,并没有出乎大多数人的意料,具体来说,就是对于相同身高和年龄的人来说,女性要比男性轻4.8磅。现在,我们可以开始领略多元回归分析的一些神奇之处了。我们知道女性一般要比男性矮一点儿,但好在我们已经将身高“控制”起来,因此最后呈现的系数也应该会表现出女性比男性矮的特点。最新的回归方程式如下:
1702644228
1702644229
体重=-118+4.3×身高+0.12×年龄-4.8×性别(女性为1,男性为0)
1702644230
1702644231
对于一位身高为65英寸的53岁女性来说,她的体重最有可能约为-118x4.3x65+0.12x53-4.8=163镑。对于一位身高75英寸的35岁男性来说,他的体重最有可能约为-118+4.3x75+0.12x35=209磅,我们之所以跳过回归方程式的最后一项(-4.8),是因为这个人不是女性。
1702644232
1702644233
现在,我们可以开始思考那些更有趣但也更难以预测的因素了,比如教育。教育如何对体重产生影响?如果是我,我会假设受教育程度高的个人对健康更加关注,因此在其他情况都相同的条件下,这类人的体重会轻一些。我们还没仔细考虑过体育锻炼对体重的影响。我会认为,在其他因素不变的前提下,运动量越大,体重就会越轻。
1702644234
1702644235
贫困这一因素又有何影响呢?在美国,收入低也会表现在体重方面吗?“变化的一生”项目的研究人员会向每一位研究对象询问他们是否正在接受美国政府的粮食补助,这是一个衡量贫困程度的好方法。此外,我对种族也很感兴趣。众所周知,在美国有色人种有着不一样的生活体验,与种族相关的文化和居住因素会对体重造成影响,许多城市至今还保持着高度的种族隔离,非洲裔美国人比起其他美国人,更有可能居住在“食品沙漠”中,也就是销售水果、蔬菜和其他新鲜食物的食品杂货店匮乏的区域。
1702644236
1702644237
我们可以通过回归分析将上述解释因素所造成的影响单独分解出来进行观察。例如,我们可以先保持其他社会经济因素——比如教育背景和贫困水平相同,单独分析种族和体重的相关关系,对于接受政府粮食补助的高中学历人群而言,他们的体重和肤色之间存在着怎样的统计学关系?
1702644238
1702644239
讲解到这里,我们的回归方程式已经变得非常繁杂了,也就不在这里为大家展示了。如果是学术论文,一般来说会在这个时候插人一个庞大的表格来总结各种回归方程的结果,在本章的补充知识点中你们可以找到一个完整的回归分析表格。与此同时,我要为大家梳理一下当加入教育、运动量、贫困水平(是否接受政府粮食补助),以及种族因素后所发生的变化。
1702644240
1702644241
我们原来所有的变量(身高、年龄和性别)都还是有意义的,但随着解释变量的不断加入,原来的回归系数发生了微小的变化。我们所有的新变量都以0.05作为显着性水平,此时R2从0.25上升到了0.29(要记住,当R2为0时,表示我们的回归方程式预测样本中个体体重的能力并没有比“平均值”好多少;当R2为1时,表示我们的回归方程式能够完美地预测样本中的每个人的体重),但还是有很多人的体重无法落在回归线上。
1702644242
1702644243
正如我所说的,教育与体重呈现负相关关系。在“变化的一生”项目的所有研究对象中,受教育时间每增加一年,体重就相应减少1.3磅。
1702644244
1702644245
运动与体重也呈现负相关关系,这一点并不令人感到意外。“变化的一生”项目组专门增设了运动指数来衡量每位研究对象的运动量水平。在保持其他因素不变的条件下,运动量最靠后的1/5的人要比其他人平均重4.5磅,比运动量最靠前的1/5的人重将近9磅。
1702644246
1702644247
接受政府食物补助(在本次回归分析中代表贫困)的个人要比其他人重。在其他因素保持不变的条件下,接受补助的人要比其他研究对象平均重5.6磅。
1702644248
1702644249
种族变量是其中最有趣的变量。就算将上述所有因素都“控制”起来,种族因素依然对体重有着举足轻重的影响。“变化的一生”参与者中非西班牙裔成年黑人要比其他人平均重10磅,无论是从绝对意义上还是与回归方程式中的其他解释因素对体重产生的影响相比较,10磅都是一个非常大的数字。而且这还不是一个数据错误,因为该虚拟变量的假定值(怕大家过了这么久忘了,再次提醒一下,假定值就是在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率)为零,95%的置信区间是7.7~16.1磅。
1702644250
1702644251
到底出现了什么情况?一个诚实的回答是:其实我也不太清楚。让我来重申一下之前深藏的一个观点:我在这里只是用数据来说明回归分析的工作原理,仅此而已。刚刚所作的那些分析在真正的学者和研究人员眼里根本就是小儿科,就好像NBA球员在看街头小孩打篮球。如果这是一个严肃的研究项目,那么将会有长达数周甚至几个月的跟踪分析,以便观察结果的稳定性。我唯一能说的就是,我在这里向大家展示了为什么在面对一个复杂的大型数据样本时多元回归分析是寻找有意义结论的最佳工具。在一开始的时候,我们只能进行一个“老掉牙”的练习:量化身高和体重之间的相关关系,如今我们已经在讨论真正具有社会意义的话题了。
1702644252
1702644253
既然说到这里了,我们就来看一个真实的、具有深刻社会意义的回归分析研究案例:职场的性别歧视。谈到歧视,一个最大的感受就是隐晦和不易察觉。没有一个雇主会公开说你的工资比别人少是出于种族或性别的原因,又或者没有录用你是基于某些歧视性理由(这样容易导致这些求职失败者只能找其他工资待遇较低的工作)。所以我们只好另辟蹊径,看看不同种族和性别的人的收入差距有多大:白人挣得比黑人多,男人挣得比女人多……方法论带给我们的挑战是,这些收入差距也有可能是由于个人选择的不同而引起的,与职场歧视并无关系,例如更多女性倾向于选择半日制工作。那么,收入差距中有多少是因为工作量的不同,又有多少是因为职场歧视呢?我想这是所有人都愿意关心的问题。
1702644254
1702644255
回归分析可以帮助我们回答这个问题。但是,我们这次采用的方法就没那么直截了当了,会比之前解释体重的影响因素时略显复杂。我们会考虑其他一些影响收入的传统因素,如教育、工作经验、行业等,在控制这些因素相同的条件下,假如还存在显着的收入差距,那么就有可能是歧视因素在作祟。无法解释的收入差距的成分越多,职场歧视的嫌疑也就越大。举个例子,3位经济学家对毕业于芝加哥大学布斯商学院约2500名工商管理硕士(MBA)的收入轨迹进行了跟踪研究,毕业时,男女毕业生的起薪大体相等:男性的收入为13万美元,女性的收入为11.5万美元。但是10年以后,他们的收入出现了巨大差异:女性的平均收入(24.3万美元)比男性收入(44.2万美元)低了45%。在另一个大型样本中,1990~2006年间毕业并进入职场的18万名MBA里,女性的收入要比男性低29%。离开学校以后,我们的女同学都怎么了?
1702644256
1702644257
根据研究人员(布斯商学院的玛丽安·贝特兰德以及哈佛大学的克劳迪安·戈尔丁和劳伦斯•卡茨)的调查,其实绝大部分收入差距与歧视因素的关系并不大。当有越来越多的解释变量加入分析中去,性别差异对收入的影响就变得越来越微不足道。例如,在校期间男性选择金融相关课程的人数比女性多,成绩平均分也高于女性,当将这些数据作为控制变量加入回归方程式之后,男女收入差距中无法解释的成分就下降到了19%。再将毕业后的工作经历、不在公司的时间作为变量放入回归方程式去,男女收入差距中无法解释的成分又进一步降到了9%。继续加入其他与工作特点有关的解释变量,如雇主类型和加班时长,男女收入差距中无法解释的成分已经不足4%了。
1702644258
1702644259
对于人行10年的雇员来说,他们之间存在的收入差距有99%都可以用非歧视性因素来解释,只有1%的概率与歧视有关。研究人员总结道:“我们发现有3个最主要的因素影响了男性和女性之间不断扩大的收入差距:MBA学习期间不同的课程选择、事业中断的原因和时间长度的差别、每周工作长度的不同。这3个决定因素基本上可以解释男性和女性在完成MBA学业多年之后的收入差距。”
1702644260
1702644261
我希望通过我的介绍,大家能够认可多元回归分析的价值所在,尤其是在控制其他变量的条件下单独考虑某个解释变量给结果带来的影响。但是,我还没给大家举例说明这一神奇的统计学“万金油”到底是如何发挥作用的。在其他因素相同的情况下,当我们用回归分析法来考察教育和体重之间的关系时,假如“变化的一生”项目的研究对象在其他方面都不完全一样,那统计软件是如何控制身高、性别、年龄、收入等解释因素呢?
1702644262
1702644263
下面,我们就先分离出某个单一变量(比如教育)并观察其对体重的影响,为了让大家的头脑能够反应过来,我们先来设想如下情形。假设“变化的一生”项目的所有研究对象都被召集在同一个地方——马萨诸塞州的弗雷明汉,首先将他们按性别进行区分,然后再以身高为标准将男性和女性由高到矮作进一步划分,并安排到不同的房间里。现在,我们有一个房间里面全都是身高为6英尺的男性,隔壁房间是身高为6英尺1英寸的男性,以此类推,女性的情况也是如此。假如我们的研究对象数量足够多,那么还可以将每个房间里的人按收入状况再进行分类。最后,研究对象全都被安排进了面积不同的房间,每个房间里的人除了教育和体重以外其他方面全都相同,此时教育和体重是我们所关心的两个变量。有一个房间里全都是年龄为45岁、身高为5英尺5英寸、年收入在3万~4万美元的男性,而隔壁房间里可能全是年龄为45岁、身高为5英尺5英寸、年收入在3万〜4万美元之间的女性,诸如此类。
1702644264
1702644265
每个房间里个人的体重还是有所差别的,相同性别、身高和收入的人在体重上不一定都相同——但按理来讲,每个房间里的体重差异应该要小于整体样本的体重差异。那我们现在的目标就是,确定每个房间里剩余的体重差异里有多少成分可以用教育因素来解释,换句话说,教育和体重之间的最佳线性关系是什么?
1702644266
1702644267
现在就剩下最后一个挑战了,那就是如何解决这些房间内出现的不同的回归系数的问题。整个过程的重点就是,在保持其他因素不变的情况下,计算出一个单一的系数来对整个样本的教育和体重关系进行一个最佳描述。我们想要看到的是,用这个唯一的系数使所有房间内不同体重值的残差平方和为最小。那怎样的一个系数才能达到如此效果呢?答案就是回归系数,因为在性别、身高和收入相同的条件下,回归系数能够最好地描述教育和体重之间的线性关系。
1702644268
1702644269
最后说一句题外话,现在你见识到大型数据组的厉害了吧。它们能够让研究人员在控制了许多因素之后,还能让每个“房间”里都有数据可以被记录和观察。当然,我们完全不需要费力地让几千人奔波于各个房间,只要有一台电脑,所有这一切在一秒时间内就能完成了。
[
上一页 ]
[ :1.70264422e+09 ]
[
下一页 ]