打字猴:1.70264415e+09
1702644150
1702644151 等一下,让我们先好好思考一下上述这个例子。假设这项研究对比的是一群定期打壁球的人和一群从不运动的人——两类人的体重相当。打壁球的确对增强心脏功能有好处,但是,我们也不能忽略壁球这种运动并不是一般人能长期消费得起的,那些有打壁球习惯的人通常是社会的上流人士,他们加入的一些俱乐部常常有壁球场地供他们使用。同时,富有的人所能接触到的医疗资源自然更为丰富,这也有利于他们保持心脏健康。如果研究人员想草草了事,当然可以将这些人的心脏健康归功于打壁球,但事实上真正的健康受益于足够支撑壁球运动习惯的财富(打马球也是相同的道理,有人说参与马球运动的人更健康,其实这也是财富和优质医疗的功劳,不用想都知道打马球的过程中真正锻炼了身体的主要是马)。
1702644152
1702644153 还有可能是因果关系倒置,会不会是拥有了健康的身体才更愿意运动呢?当然有可能。那些体弱多病的人,尤其是心脏有先天性缺陷的人不宜从事剧烈运动,他们不大可能定期去打壁球。但如果研究分析过于敷衍和简单化,就会说运动有益于身体健康,而实际上却是那些天生身体不好的人不经常从事运动。照这个观点,打壁球并没有让任何人变得更健康,而只不过是将健康的人与体质差的人区分开罢了。
1702644154
1702644155 回归陷阱的形式多种多样,在下一章中我将会为大家介绍一些最“恶名昭著”的错误。现在,让我们把焦点放在正确的做法上。回归分析的强大能力表现在:将我们所关心的统计关联隔离出来,如工作中的支配力和心脏病,同时还不忘考虑其他可能会对这一相关关系产生影响的因素。
1702644156
1702644157 具体是如何做到的呢?如果我们得知英国政府中低级别雇员的身体要比他们上司的体质更弱,那我们怎么确定在心血管健康状况不佳的致病原因里,有多少比例源于他们低级别的工作,多少比例因为吸烟?这两个因素看上去似乎是彼此缠绕、密不可分的。
1702644158
1702644159 通过回归分析就能将它们解开。为了让大家都能理解其中的奥妙,我必须从基础说起,无论是哪种形式的回归分析——从最简单的统计学关联到诺贝尔奖获得者搭建的复杂模型,都离不开的基本概念。最核心的一点是,回归分析寻找的是两个变量之间的最佳拟合线性关系。举个简单的例子,身高和体重的关系。虽然不是绝对的,但身高较高的人一般体重应该更重。我们将一组大学毕业生的身高和体重标记在坐标轴上,不知道你会不会回忆起我们在前文中讲过的内容。
1702644160
1702644161
1702644162
1702644163
1702644164 图12-1 身高与体重散点分布图
1702644165
1702644166 如果让你描述一下上面的图,你或许会说“体重看上去似乎随着身高的增加而增大”之类的话,说得很对,但离满分还有点距离。回归分析能够让我们更进一步,用更加精确的话语来描述这两个变量之间的线性关系。
1702644167
1702644168 大致来看,符合身高和体重数据趋势的线有很多条,但我们如何知道哪一条才是“最佳”的?我们又如何定义“最佳”这两个字?回归分析的一个常用方法为最小二乘法(OLS),为什么OLS能够得出最佳拟合线性关系,我们留给更高阶的课本去解释,这里的关键点在于,OLS直线可以让所有数据的残差平方和为最小——别慌,这句话其实并没有那么难以理解。在我们的身高与体重数据组中,每一个数据都有一个残差,即距离回归线的垂直高度差,而对于那些直接落在回归线上的数据点,它们的残差则为零。在下图中,A同学的残差(用e表示)被标了出来。如果残差的和越大,则回归线就越不准确,这一点很好理解。OLS公式中唯一不好理解的地方在于,在相加之前,我们需要将每个数据的残差平方(这就增加了那些离回归线特别远的数据,即极端异常值在结果中的比重)。
1702644169
1702644170 下图就展示了一条可以让所有数据的残差平方和为最小的OLS直线。
1702644171
1702644172
1702644173
1702644174
1702644175 图12-2身高和体重的最佳拟合回归线
1702644176
1702644177 如果前文中提及的技术性描述让你感到头疼的话,请记住一点:OLS是两个变量线性关系的最佳描述。当然,结果不仅仅是一条直线,如果你还记得高中几何课程的话,一定能回想起一个直线方程,也就是我们所说的回归方程:y=a+bx,其中y表示体重(磅),a为截距(当x=0时y的值),x为身高(英寸)。而OLS所决定的直线的“坡度”,就描述了这个例子中身高和体重之间的“最佳”线性关系。
1702644178
1702644179 当然,回归线不可能把数据组中的每一个点都包含进去,但若要在身高和体重之间寻找到一个有意义的关联,回归线是我们所能做到的最佳描述。同时,每一个数据都可以用一个方程式来表示:体重=a+b(身高)+e,其中e作为残差,代表的是相同身高条件下不同体重的人的差异。最后,通过这条回归线我们还可以得出,该组数据中如果根据身高猜测体重,最准的办法是求出a+b(身高)的值。虽然绝大部分的数据并非恰好落在回归线上,它们的残差之和依然有可能为零,这是因为有些人的体重超过回归线的预测体重,而有些人的体重却比回归线的预测体重轻。
1702644180
1702644181 是不是快要对本章内容失去耐心了?那我们就一起来看一些取自“变化的一生”项目研究的真实数据吧。首先,还是向大家介绍几个基本术语。被解释的变量——在这个例子中变量为体重——被称作因变量(这是因为它依赖于其他因素),而我们用来解释因变量的变量被称作解释变量,有些时候,解释变量又被称作自变量或控制变量。我们先用身高来解释“变化的一生”项目的研究对象的体重,随后再加入其他潜在的解释因素。在“变化的一生”研究中,一共有3537名成年美国人参与,即我们的数据量n(有些研究论文会记作n=3537)。接下来,我们对这些研究对象的数据进行简单的回归分析,视体重为因变量,视身高为唯一的解释变量,便得到了如下结果:
1702644182
1702644183 体重=-135+4.5x身高
1702644184
1702644185 a=-135。这是回归线在Y轴上的截距,本身并没有什么特别的含义。(如果仅从表面上理解,它代表的是一个人如果身高为零英寸,则体重为-135磅,但这显然是不可能发生的事。)我们也会将其称为恒量,因为这是计算所有体重的起点。
1702644186
1702644187 b=4.5。我们称为回归系数(或身高系数)的b经计算为4.5,此为对“变化的一生”项目的研究对象的身高和体重关系的最佳描述。我们对回归系数有一个简单、实用的解读:自变量(身高)每增加一个单位,因变量(体重)就增加4.5个单位。放在我们的数据样本中,就意味着身高每增加1英寸,体重就会相应增加4.5磅。在没有其他额外相关信息的情况下,我们对“变化的一生”里一个身高为70英寸的参与者体重的最佳预测为-135+4.5x70=180磅。
1702644188
1702644189 看到了吧,这就是回报,因为我们已经量化了“变化的一生”项目的研究对象身高与体重的最佳线性关系。通过同样的原理,我们还可以解释更加复杂的关系和解决更加具有社会意义的问题。对于任意一个回归系数,我们只需要关心3件事情就行了:正负、大小和含义。
1702644190
1702644191 正负。回归系数的正负揭示了自变量与因变量之间相关关系的方向。在上述简单的例子中,身高系数为正,也就是说,身高略高的人倾向于体重略重。而有一些关联正好相反,比如说运动量和体重。假如“变化的一生”研究中还包含了如“每个月跑步的英里数”,那我可以肯定这个“英里系数”就是负的,通常跑得越多,体重就会越轻。
1702644192
1702644193 大小。自变量到底能对因变量产生多大的影响?这种影响会达到何种程度?在上述例子中,每英寸身高都关系着4.5磅的体重,而4.5磅对于一个人的体重来说是一个不小的重量。在解释一些人为什么比另一些人的体重更重时,身高自然是一个重要的因素。但在其他研究中,我们有时候会发现一个奇特的现象:某个解释变量在统计学意义上对结果有着非常巨大的影响,也就是说出现这样的结果不可能是巧合,但这个解释变量的社会学意义却渺小到几乎可以被忽略。举个例子,影响收入的决定性因素。为什么一些人比另外一些人挣得多?解释变量最有可能是教育、经验、从业时间等。在一个大型数据组中,研究人员还发现在其他因素相似的前提下,牙齿白的人平均每年要比其他人多挣86美元。这些研究对象有着相同的条件:教育、工作经验等(我在以下的内容中会为大家解释研究人员是如何神奇地做到这一点的),“洁白牙齿系数”为正,而且具有统计学意义^该统计分析显示,一口洁白的牙齿与每年多挣86美元之间存在相关关系,而且基本上排除了这一结果是巧合的可能性。也就是说(1)我们刚刚用充分的自信推翻了“牙齿洁白和高收入没有关系”的零假设;(2)如果对其他数据样本进行分析,我们也会在洁白的牙齿和更高的收入之间找到类似的相关关系。
1702644194
1702644195 但是,那又怎么样?我们的确发现了一个具有统计学意义的现象,但从社会学角度来看它其实无关紧要。首先,86美元并不是一笔足以改变人生的金钱,在公共政策制定者的眼里,86美元或许还不够每年牙齿美容的费用,因此我们甚至无法向年轻雇员推荐这类投资。此外,虽然下一章的内容会着重讲解回归分析中的陷阱,但我还是忍不住想要就方法论这方面的内容先说几句。例如,拥有完美的牙齿很有可能与本人的性格特点有关,正是因为这种性格特点,才带来了更高的收入,他们之所以挣得比别人多,是因为他们具备爱护牙齿这种性格,而非牙齿本身。这个例子告诉我们,要时刻关注解释变量与我们所关心的结果之间相关关系的大小。
1702644196
1702644197 含义。统计结果到底是一个基于糟糕数据样本的错误,还是能够反映整个群体普遍真相的有意义的相关关系?在之前的多个章节里,我们其实一直在反复追问这个问题。放到身高和体重的例子中,我们是否能够在其他代表性样本中寻找到这两个变量之间类似的正相关关系?回答这个问题,我们可以用之前学过的推断方法。我们的回归系数所描述的是某组具体的样本数据中身高和体重的关系,如果我们在同一个人群中再随机抽取另一组大型样本,该样本的身高和体重数据肯定会有所不同,因此,就会得出另一个不同的回归系数。“白厅”研究(英国政府官员系统)数据里的身高和体重的关系很有可能与“变化的一生”项目的研究对象的身高和体重的关系有所区别。但是,由中心极限定理可知,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的平均值,同样的,我们也可以说,不同变量之间的关系(如身高和体重)不会因为样本的不同而发生特别大的变化,当然前提是这些样本都来自同一个群体,而且都是正确抽取的大型样本。
1702644198
1702644199 设想一下,我们发现“变化的一生”的研究对象的身高和体重存在正相关关系——增加的每英寸身高都对应着增加4.5磅体重,但在另外一组包含3000名成年美国人的样本中却没有找到身高和体重之间的任何相关关系,这可能吗?几乎不可能(但也不能完全排除偶然性)。
[ 上一页 ]  [ :1.70264415e+09 ]  [ 下一页 ]