打字猴:1.70264417e+09
1702644170 下图就展示了一条可以让所有数据的残差平方和为最小的OLS直线。
1702644171
1702644172
1702644173
1702644174
1702644175 图12-2身高和体重的最佳拟合回归线
1702644176
1702644177 如果前文中提及的技术性描述让你感到头疼的话,请记住一点:OLS是两个变量线性关系的最佳描述。当然,结果不仅仅是一条直线,如果你还记得高中几何课程的话,一定能回想起一个直线方程,也就是我们所说的回归方程:y=a+bx,其中y表示体重(磅),a为截距(当x=0时y的值),x为身高(英寸)。而OLS所决定的直线的“坡度”,就描述了这个例子中身高和体重之间的“最佳”线性关系。
1702644178
1702644179 当然,回归线不可能把数据组中的每一个点都包含进去,但若要在身高和体重之间寻找到一个有意义的关联,回归线是我们所能做到的最佳描述。同时,每一个数据都可以用一个方程式来表示:体重=a+b(身高)+e,其中e作为残差,代表的是相同身高条件下不同体重的人的差异。最后,通过这条回归线我们还可以得出,该组数据中如果根据身高猜测体重,最准的办法是求出a+b(身高)的值。虽然绝大部分的数据并非恰好落在回归线上,它们的残差之和依然有可能为零,这是因为有些人的体重超过回归线的预测体重,而有些人的体重却比回归线的预测体重轻。
1702644180
1702644181 是不是快要对本章内容失去耐心了?那我们就一起来看一些取自“变化的一生”项目研究的真实数据吧。首先,还是向大家介绍几个基本术语。被解释的变量——在这个例子中变量为体重——被称作因变量(这是因为它依赖于其他因素),而我们用来解释因变量的变量被称作解释变量,有些时候,解释变量又被称作自变量或控制变量。我们先用身高来解释“变化的一生”项目的研究对象的体重,随后再加入其他潜在的解释因素。在“变化的一生”研究中,一共有3537名成年美国人参与,即我们的数据量n(有些研究论文会记作n=3537)。接下来,我们对这些研究对象的数据进行简单的回归分析,视体重为因变量,视身高为唯一的解释变量,便得到了如下结果:
1702644182
1702644183 体重=-135+4.5x身高
1702644184
1702644185 a=-135。这是回归线在Y轴上的截距,本身并没有什么特别的含义。(如果仅从表面上理解,它代表的是一个人如果身高为零英寸,则体重为-135磅,但这显然是不可能发生的事。)我们也会将其称为恒量,因为这是计算所有体重的起点。
1702644186
1702644187 b=4.5。我们称为回归系数(或身高系数)的b经计算为4.5,此为对“变化的一生”项目的研究对象的身高和体重关系的最佳描述。我们对回归系数有一个简单、实用的解读:自变量(身高)每增加一个单位,因变量(体重)就增加4.5个单位。放在我们的数据样本中,就意味着身高每增加1英寸,体重就会相应增加4.5磅。在没有其他额外相关信息的情况下,我们对“变化的一生”里一个身高为70英寸的参与者体重的最佳预测为-135+4.5x70=180磅。
1702644188
1702644189 看到了吧,这就是回报,因为我们已经量化了“变化的一生”项目的研究对象身高与体重的最佳线性关系。通过同样的原理,我们还可以解释更加复杂的关系和解决更加具有社会意义的问题。对于任意一个回归系数,我们只需要关心3件事情就行了:正负、大小和含义。
1702644190
1702644191 正负。回归系数的正负揭示了自变量与因变量之间相关关系的方向。在上述简单的例子中,身高系数为正,也就是说,身高略高的人倾向于体重略重。而有一些关联正好相反,比如说运动量和体重。假如“变化的一生”研究中还包含了如“每个月跑步的英里数”,那我可以肯定这个“英里系数”就是负的,通常跑得越多,体重就会越轻。
1702644192
1702644193 大小。自变量到底能对因变量产生多大的影响?这种影响会达到何种程度?在上述例子中,每英寸身高都关系着4.5磅的体重,而4.5磅对于一个人的体重来说是一个不小的重量。在解释一些人为什么比另一些人的体重更重时,身高自然是一个重要的因素。但在其他研究中,我们有时候会发现一个奇特的现象:某个解释变量在统计学意义上对结果有着非常巨大的影响,也就是说出现这样的结果不可能是巧合,但这个解释变量的社会学意义却渺小到几乎可以被忽略。举个例子,影响收入的决定性因素。为什么一些人比另外一些人挣得多?解释变量最有可能是教育、经验、从业时间等。在一个大型数据组中,研究人员还发现在其他因素相似的前提下,牙齿白的人平均每年要比其他人多挣86美元。这些研究对象有着相同的条件:教育、工作经验等(我在以下的内容中会为大家解释研究人员是如何神奇地做到这一点的),“洁白牙齿系数”为正,而且具有统计学意义^该统计分析显示,一口洁白的牙齿与每年多挣86美元之间存在相关关系,而且基本上排除了这一结果是巧合的可能性。也就是说(1)我们刚刚用充分的自信推翻了“牙齿洁白和高收入没有关系”的零假设;(2)如果对其他数据样本进行分析,我们也会在洁白的牙齿和更高的收入之间找到类似的相关关系。
1702644194
1702644195 但是,那又怎么样?我们的确发现了一个具有统计学意义的现象,但从社会学角度来看它其实无关紧要。首先,86美元并不是一笔足以改变人生的金钱,在公共政策制定者的眼里,86美元或许还不够每年牙齿美容的费用,因此我们甚至无法向年轻雇员推荐这类投资。此外,虽然下一章的内容会着重讲解回归分析中的陷阱,但我还是忍不住想要就方法论这方面的内容先说几句。例如,拥有完美的牙齿很有可能与本人的性格特点有关,正是因为这种性格特点,才带来了更高的收入,他们之所以挣得比别人多,是因为他们具备爱护牙齿这种性格,而非牙齿本身。这个例子告诉我们,要时刻关注解释变量与我们所关心的结果之间相关关系的大小。
1702644196
1702644197 含义。统计结果到底是一个基于糟糕数据样本的错误,还是能够反映整个群体普遍真相的有意义的相关关系?在之前的多个章节里,我们其实一直在反复追问这个问题。放到身高和体重的例子中,我们是否能够在其他代表性样本中寻找到这两个变量之间类似的正相关关系?回答这个问题,我们可以用之前学过的推断方法。我们的回归系数所描述的是某组具体的样本数据中身高和体重的关系,如果我们在同一个人群中再随机抽取另一组大型样本,该样本的身高和体重数据肯定会有所不同,因此,就会得出另一个不同的回归系数。“白厅”研究(英国政府官员系统)数据里的身高和体重的关系很有可能与“变化的一生”项目的研究对象的身高和体重的关系有所区别。但是,由中心极限定理可知,一个正确抽取的大型样本的平均值并不会特别偏离其所在群体的平均值,同样的,我们也可以说,不同变量之间的关系(如身高和体重)不会因为样本的不同而发生特别大的变化,当然前提是这些样本都来自同一个群体,而且都是正确抽取的大型样本。
1702644198
1702644199 设想一下,我们发现“变化的一生”的研究对象的身高和体重存在正相关关系——增加的每英寸身高都对应着增加4.5磅体重,但在另外一组包含3000名成年美国人的样本中却没有找到身高和体重之间的任何相关关系,这可能吗?几乎不可能(但也不能完全排除偶然性)。
1702644200
1702644201 这为我们验证回归分析的结果是否具有统计学意义,提供了第一条线索。与民意测验或其他形式的推理类似,我们也可以计算出回归系数的标准误差。标准误差衡量的是,对取自相同群体的多个样本进行回归分析所得出的回归系数的离散程度。假如我们抽取3000名美国成年人进行身高和体重数据的收集,那么在回归分析中我们可能会发现,他们平均身高每增高1英寸,相应的体重增加值为4.3磅;如果重复抽样和计算,那么每英寸身高所对应的体重增加值有可能变成5.2磅。正态分布又一次成为我们的朋友。对于像“变化的一生”这样的大型数据样本来说,我们可以假设不同的回归系数围绕着全体美国成年人的身高和体重的真实情况呈正态分布。在此基础上计算得出标准误差,我们就能够对不同样本的回归系数的分布有一个大体认识。接下来,我将不再占用宝贵的篇幅来介绍标准误差的计算方程式了,原因有二:一是因为大量的数学运算会干扰本章的研究方向,二是所有最基本的统计软件都可以帮你完成这一计算。
1702644202
1702644203 但是,我必须警告你的是,对于小型样本数据(例如20位成年人而非“变化的一生”项目的3000人)来说,正态分布将不再是我们的“好朋友”。具体来说,假如我们对不同的小型样本进行回归分析,就不能指望这些回归系数会围绕着全体美国成年人身高和体重的真实情况呈正态分布,此时的分布情况我们称为“t分布”(简单概括之,t分布比起正态分布来说更加分散,因此左右两条“尾巴”的幅度更大)。其他的情况也是一样的,任何一款基础统计软件都能轻易地解决这个稍微复杂的问题,因此有关t分布的种种细节请参考本章结尾的补充知识点。
1702644204
1702644205 还是回到大型数据(以及正态分布)上来,我们必须认识到标准误差的重要性。从民意测验和其他统计推断中我们可以想见,有超过50%的回归系数会落在真实人口参数一个标准误差的范围内,约95%的回归系数会落在两个标准误差的范围内,以此类推。在理解了这一点以后,我们基本上就算弄清楚了,因为现在我们就可以进行假设检验了(说真的,别告诉我你已经忘了有这么一步了!)一旦得出了回归系数和标准误差,我们便能对“解释变量和因变量之间没有相关关系(即回归系数为0)”的零假设进行检验了。
1702644206
1702644207 在上述有关身高和体重的简单例子中,假如对于全体人口来说身高和体重并不存在任何相关关系,那么我们在“变化的一生”样本中得出每英寸身高对应4.5磅体重的概率有多高?我在电脑上用一款最基础的统计软件进行了回归运算,得出身高系数的标准误差为0.13,也就是说,如果我们重复此分析,比如说有100个不同的样本,那么预计将会有约95个回归系数落在人口真实参数两个标准误差的范围内。
1702644208
1702644209 由此,我们可以用两种不同但彼此相关的方式呈现这一结果。第一种方式是,我们可以建立一个95%的置信区间(4.5±0.26),也就是说,在95%的情况下回归系数会落在此区间里,也就是4.24~4.76之间,用基本的统计软件就能算出这一区间。第二种方式是,我们可以说在身高和体重的相关性95%的置信区间里不包括零。由此,我们就能有95%的把握推翻“身高与体重之间不存在相关关系”的零假设了。这个例子的显着性水平为0.05,也就是说在推翻零假设这件事情上只有5%的概率是错的。
1702644210
1702644211 事实上,我们的统计结果还要更极端。标准误差(0.13)相比起回归系数(4.5)来说,是一个极小的数字,一个经验法则就是,当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。使用统计软件还可以计算出这个例子中的假定值约为零,这就意味着如果整体人口的身高和体重真的不存在任何相关性的话,那么得到如此极端(或更加极端)结果的概率基本上为零。要记住,我们并没有证明身高略高的人的体重就一定更重,我们只不过表明了,由“变化的一生”样本得出的身高与体重相关性假如不为真的话,那会是一件极为反常的事。
1702644212
1702644213 通过基础的回归分析,我们还可以得出一个值得注意的统计值:用以衡量所有能够用回归方程表示的数据总和R2。在“变化的一生”样本中,仅体重一项就有大量不同的数值,有一些人重于所有人的体重平均值,有一些人的体重还不足平均值,通过R2,我们便可以知道这些围绕在平均值周围的体重与身高两项因素之间的相关关系到底有多“亲密”,即回归系数。在这个例子中,答案是0.25或25%。也就是说,我们的样本中有75%的体重数据无法在回归方程上表现出来。对于“变化的一生”项目的研究对象来说,影响他们体重的因素显然不仅身高这一项,别着急,有趣的内容马上就要讲到了。
1702644214
1702644215 我必须承认的是,本章一开始讲到回归分析的时候,我是把它当成社会科学研究过程中神奇的“万金油”来介绍的。到目前为止,我做的所有事情就是使用统计软件和一组数据来说明身高高的人比身高矮的人重。任何人只要去购物中心走一圈,恐怕都能得出相同的结论。现在,既然大家都对基本知识了解得差不多了,那么,就到了释放回归分析真正的“超能力”的时候了。
1702644216
1702644217 诚如我所承诺的,回归分析能够让我们解开多种影响因素和某个大家所关心的结果(如考试分数、收入或心脏病)之间的错综复杂的关系。当我们将多个变量都纳入回归方程式时,接下来的分析可以让我们计算出因变量与每个解释变量之间的线性关系,与此同时,可视其他变量为常数,相当于把其他变量放人“控制组”里。还是上述有关体重的例子。我们已经找到了身高与体重之间的关系,同时我们还知道其他一些能够解释体重的因素(年龄、性别、饮食、运动等),回归分析(当有超过一个解释变量的时候,我们通常称其为多元回归分析或多变量复回归分析)会为回归方程中的每一个解释变量配备一个系数。具体而言,那些性别和身高都相同的人,他们的年龄和体重是怎样一种关系?当我们的解释变量数目超过一个时,就无法在一个二维的坐标中将数据表示出来。想象一下,如果将“变化的一生”项目的每一位研究对象的体重、性别、身高和年龄都在一个多维的图中表示出来,将会是多么壮观的一幅图景。但要记住的是,我们的基本原理并没有改变,无论是之前简单的身高与体重变量,还是现在的多个变量,只要将它们输入电脑上的统计软件,就会自动生成让残差平方和最小的回归系数与回归方程。
1702644218
1702644219 我们暂时还是以“变化的一生”为例,后面我将通过另外一个例子直观地告诉大家多变量回归分析是如何在我们的生活中创造奇迹的。首先,我们为“变化的一生”项目的研究对象的体重再增加一个解释变量:年龄。在电脑中输入相关的身高和年龄数据后,我们得到了如下的方程式:
[ 上一页 ]  [ :1.70264417e+09 ]  [ 下一页 ]