打字猴:1.70264425e+09
1702644250
1702644251 到底出现了什么情况?一个诚实的回答是:其实我也不太清楚。让我来重申一下之前深藏的一个观点:我在这里只是用数据来说明回归分析的工作原理,仅此而已。刚刚所作的那些分析在真正的学者和研究人员眼里根本就是小儿科,就好像NBA球员在看街头小孩打篮球。如果这是一个严肃的研究项目,那么将会有长达数周甚至几个月的跟踪分析,以便观察结果的稳定性。我唯一能说的就是,我在这里向大家展示了为什么在面对一个复杂的大型数据样本时多元回归分析是寻找有意义结论的最佳工具。在一开始的时候,我们只能进行一个“老掉牙”的练习:量化身高和体重之间的相关关系,如今我们已经在讨论真正具有社会意义的话题了。
1702644252
1702644253 既然说到这里了,我们就来看一个真实的、具有深刻社会意义的回归分析研究案例:职场的性别歧视。谈到歧视,一个最大的感受就是隐晦和不易察觉。没有一个雇主会公开说你的工资比别人少是出于种族或性别的原因,又或者没有录用你是基于某些歧视性理由(这样容易导致这些求职失败者只能找其他工资待遇较低的工作)。所以我们只好另辟蹊径,看看不同种族和性别的人的收入差距有多大:白人挣得比黑人多,男人挣得比女人多……方法论带给我们的挑战是,这些收入差距也有可能是由于个人选择的不同而引起的,与职场歧视并无关系,例如更多女性倾向于选择半日制工作。那么,收入差距中有多少是因为工作量的不同,又有多少是因为职场歧视呢?我想这是所有人都愿意关心的问题。
1702644254
1702644255 回归分析可以帮助我们回答这个问题。但是,我们这次采用的方法就没那么直截了当了,会比之前解释体重的影响因素时略显复杂。我们会考虑其他一些影响收入的传统因素,如教育、工作经验、行业等,在控制这些因素相同的条件下,假如还存在显着的收入差距,那么就有可能是歧视因素在作祟。无法解释的收入差距的成分越多,职场歧视的嫌疑也就越大。举个例子,3位经济学家对毕业于芝加哥大学布斯商学院约2500名工商管理硕士(MBA)的收入轨迹进行了跟踪研究,毕业时,男女毕业生的起薪大体相等:男性的收入为13万美元,女性的收入为11.5万美元。但是10年以后,他们的收入出现了巨大差异:女性的平均收入(24.3万美元)比男性收入(44.2万美元)低了45%。在另一个大型样本中,1990~2006年间毕业并进入职场的18万名MBA里,女性的收入要比男性低29%。离开学校以后,我们的女同学都怎么了?
1702644256
1702644257 根据研究人员(布斯商学院的玛丽安·贝特兰德以及哈佛大学的克劳迪安·戈尔丁和劳伦斯•卡茨)的调查,其实绝大部分收入差距与歧视因素的关系并不大。当有越来越多的解释变量加入分析中去,性别差异对收入的影响就变得越来越微不足道。例如,在校期间男性选择金融相关课程的人数比女性多,成绩平均分也高于女性,当将这些数据作为控制变量加入回归方程式之后,男女收入差距中无法解释的成分就下降到了19%。再将毕业后的工作经历、不在公司的时间作为变量放入回归方程式去,男女收入差距中无法解释的成分又进一步降到了9%。继续加入其他与工作特点有关的解释变量,如雇主类型和加班时长,男女收入差距中无法解释的成分已经不足4%了。
1702644258
1702644259 对于人行10年的雇员来说,他们之间存在的收入差距有99%都可以用非歧视性因素来解释,只有1%的概率与歧视有关。研究人员总结道:“我们发现有3个最主要的因素影响了男性和女性之间不断扩大的收入差距:MBA学习期间不同的课程选择、事业中断的原因和时间长度的差别、每周工作长度的不同。这3个决定因素基本上可以解释男性和女性在完成MBA学业多年之后的收入差距。”
1702644260
1702644261 我希望通过我的介绍,大家能够认可多元回归分析的价值所在,尤其是在控制其他变量的条件下单独考虑某个解释变量给结果带来的影响。但是,我还没给大家举例说明这一神奇的统计学“万金油”到底是如何发挥作用的。在其他因素相同的情况下,当我们用回归分析法来考察教育和体重之间的关系时,假如“变化的一生”项目的研究对象在其他方面都不完全一样,那统计软件是如何控制身高、性别、年龄、收入等解释因素呢?
1702644262
1702644263 下面,我们就先分离出某个单一变量(比如教育)并观察其对体重的影响,为了让大家的头脑能够反应过来,我们先来设想如下情形。假设“变化的一生”项目的所有研究对象都被召集在同一个地方——马萨诸塞州的弗雷明汉,首先将他们按性别进行区分,然后再以身高为标准将男性和女性由高到矮作进一步划分,并安排到不同的房间里。现在,我们有一个房间里面全都是身高为6英尺的男性,隔壁房间是身高为6英尺1英寸的男性,以此类推,女性的情况也是如此。假如我们的研究对象数量足够多,那么还可以将每个房间里的人按收入状况再进行分类。最后,研究对象全都被安排进了面积不同的房间,每个房间里的人除了教育和体重以外其他方面全都相同,此时教育和体重是我们所关心的两个变量。有一个房间里全都是年龄为45岁、身高为5英尺5英寸、年收入在3万~4万美元的男性,而隔壁房间里可能全是年龄为45岁、身高为5英尺5英寸、年收入在3万〜4万美元之间的女性,诸如此类。
1702644264
1702644265 每个房间里个人的体重还是有所差别的,相同性别、身高和收入的人在体重上不一定都相同——但按理来讲,每个房间里的体重差异应该要小于整体样本的体重差异。那我们现在的目标就是,确定每个房间里剩余的体重差异里有多少成分可以用教育因素来解释,换句话说,教育和体重之间的最佳线性关系是什么?
1702644266
1702644267 现在就剩下最后一个挑战了,那就是如何解决这些房间内出现的不同的回归系数的问题。整个过程的重点就是,在保持其他因素不变的情况下,计算出一个单一的系数来对整个样本的教育和体重关系进行一个最佳描述。我们想要看到的是,用这个唯一的系数使所有房间内不同体重值的残差平方和为最小。那怎样的一个系数才能达到如此效果呢?答案就是回归系数,因为在性别、身高和收入相同的条件下,回归系数能够最好地描述教育和体重之间的线性关系。
1702644268
1702644269 最后说一句题外话,现在你见识到大型数据组的厉害了吧。它们能够让研究人员在控制了许多因素之后,还能让每个“房间”里都有数据可以被记录和观察。当然,我们完全不需要费力地让几千人奔波于各个房间,只要有一台电脑,所有这一切在一秒时间内就能完成了。
1702644270
1702644271 让我们回到本章一开始提到的那个例子,再来看看工作压力和心脏病之间的关系。多年以来,“白厅”研究项目一直在观察英国的公务员群体,试图发现岗位层级和心脏病死亡率之间的关联。一项早期开展的研究对17530名公务员进行了长达7年半时间的连续观察,发现“低级别的男性雇员相比起高级别的男性雇员来说,身高较矮、体重较重、血压较高、血糖较高、吸烟较多、下班后健身活动较少。考虑到这些因素以及高血脂对健康的危害,研究人员用回归分析的方法对其进行了控制,但即使如此,工作控制力与死亡率(表现为心脏相关疾病)之间的负相关关系还是十分明显。”这项研究告诉我们,在其他健康因素相同的情况下(包栝身高,因为身高可以很好地衡量儿童时期的健康和营养状况),在一个低级别岗位工作真的可以“置人于死地”。
1702644272
1702644273 有的读者看到这里或许会怀疑了,这一点很好,因为在统计学中,持怀疑态度是值得提倡的第一反应。我在本章一开始的时候就表示低级别的工作对健康不利,这里的“低级别”指的是对自身工作的控制力和话语权不高,不一定与行政级别挂钩,一项对包含10308名英国公务员的样本的跟踪研究就试图理清这其中的差别。这一次雇员们还是按照行政级别进行划分——高级、中级和低级,只不过这一次参与者还必须完成一份15个题目的问卷,这份问卷主要是评价他们的“决策力或控制力”水平,其中设置的问题包括“你可以选择自己在工作中从事哪些项目吗?”对应的选项按程度划分(“从不”到“经常”),还有陈述句,比如“我在工作中可以决定何时停下来休息”。研究者们发现整个观察过程中“控制力低”的雇员患上冠心病的风险要高于“控制力高”的雇员。同时,研究人员还发现对工作要求高的雇员患心脏疾病的风险并没有比其他人高,在社会认可度低的岗位上工作的雇员也没有表现出容易患上心脏病的倾向。因此,似乎只有对工作缺乏控制力和话语权才是“生命杀手”。
1702644274
1702644275 “白厅”研究有两个非常突出的特点,称得上是当之无愧的“最佳研究”。首先,其研究结论在其他地方能找到佐证。如果搜索发表的公共健康文献,会发现“低控制力”的观点已经发展成为一个专有名词——工作疲劳,专指那些“精神负担重”、“决策水平低”的工作。1981~1993年间,已发表36项研究成果关于此类课题,其中绝大多数的研究成果都发现工作疲劳和心脏病之间存在显着的正相关关系。
1702644276
1702644277 其次,研究人员探索并发现了相关的生物学证据,解释为什么这一特殊的工作压力能够导致健康状况的恶化。要求严格但控制力低的工作环境能够导致一系列生理反应(如释放与压力有关的荷尔蒙),长此以往会增加患心脏类疾病的风险,甚至连动物研究都为解释其病变原理发挥了作用。研究人员发现,地位低的猴子和拂狒(它们与权力系统中处于底层的公务员的境遇有着相似之处)与地位高的同类在某些生理指标上存在差异,使得前者更容易患上心脏血管疾病。
1702644278
1702644279 所以,最好还是不要做一头地位低下的“狒狒”——我经常向我的孩子们灌输这一个观点,尤其是我的儿子。除此之外,一个更重要的信息是,回归分析可能是在处理大型数据的过程中帮助我们发现有意义结论的最重要工具。尤其是在评价工作歧视或寻找心脏病诱因的时候,我们是无法进行控制实验的,因此对于这些以及其他具有深刻社会意义的课题来说,我们需要使用本章所讲的研究手段。毫不夸张地讲,在过去的半个世纪的社科领域(尤其自计算机普及以来),有很大一部分的重要发现都要归功于回归分析。
1702644280
1702644281 回归分析大大地充实了科学方法,使人类更好地认识了这个世界、身体更加健康、生活更加安全。
1702644282
1702644283 那么,在使用这样一个强大、实用的统计工具时,我们又应该注意些什么呢?请接着阅读下一章的内容。
1702644284
1702644285 本章补充知识
1702644286
1702644287 在进行回归分析(或其他形式的统计推断)时,小型样本数据会让推断过程变得稍微复杂一点。假设我们要分析的是体重和身高之间的相关关系,手中的样本只包含25名成年人,而不是之前像“变化的一生”那样庞大的数据库。逻辑告诉我们,只有25人的样本分析结果肯定没有3000人样本更能体现整体成年人口的体重特征,本书一直在强调的一点就是:样本越小,结果就越分散。虽然一个25人的样本也能为我们提供有意义的信息,5人、10人也是如此,但这些信息的意义能有多大?
1702644288
1702644289 t分布可以回答这个问题。就算我们多次抽取25个成年人作为样本来分析身高和体重之间的关系,每一次得出的身高系数最后也不会围绕着“真实”系数呈正态分布,虽然它们的确分散在真实系数的周围,但得到的形状绝不会是我们所熟悉的代表正态分布的“钟”形。随着样本容量的降低,每一次抽样得到的系数会分布得更加离散,因此分布曲线两端的“尾巴”相比起正态分布曲线来会显得“肥大”。如果样本容量减少到10,那么离散程度会更高,得到的“尾巴”会更“肥大”。t分布实际上指的是各种不同容量样本的概率密度集体或“家族”,具体来说,样本中所包含的个体数量越多,那我们在分配适当的分布区间来评价研究结论时所拥有的“自由度”就越高。在更高阶的课程中,你会学习如何精确地计算出“自由度”,我们在这里姑且将其等同于样本中个体的数量。举个例子,一个样本容量为10、解释变量个数为1的基本回归分析的自由度为9。自由度越高,我们对该样本能够代表全体人口越有信心,其分布也会越“紧密”,如图12-3所示。
1702644290
1702644291
1702644292
1702644293
1702644294 图12-3 t分布图
1702644295
1702644296 随着自由度的增大,t分布逐渐向正态分布靠拢。这也是为什么当我们在处理大型数据组时,可以直接使用正态分布曲线的基本特点来作为计算依据。
1702644297
1702644298 对于整本书一直在贯彻的统计推断过程,t分布的引人只不过稍微丰富了这个工具,我们的思路并没有改变,依然是先提出一个零假设,然后依据一些观察数据来检验其真伪。如果得到零假设结果的概率非常低,那么我们就可以推翻零假设。t分布唯一的变化就在于这些结果的发生概率与正态分布曲线有所不同。概率曲线的“尾巴”越“肥大”(例如自由度为8的t分布曲线),数据离散的程度越高,巧合的情况就越容易出现,推翻零假设的信心越显不足。
1702644299
[ 上一页 ]  [ :1.70264425e+09 ]  [ 下一页 ]