打字猴:1.70264435e+09
1702644350 只有当变量之间的关系为线性时,回归分析才可派上用场。课本以及其他高阶统计学课本还将介绍更多有关回归分析的主要概念,但万变不离其宗的是,无论是什么工具,离它的初始功能偏差越大,其效果就会越差,有时候甚至还会有危险。
1702644351
1702644352 相关关系并不等同于因果关系。如我之前所说,回归分析只能证明两个变量之间存在关系,至于是不是其中一个变量发生变化就一定能导致另一个变量也发生变化,仅凭数据我们无法给出证明。事实上,一个并不十分严谨的回归分析也能在两个完全不相关的变量之间找到显着且有统计学意义的关系。假设我们正在探寻过去20年里美国的自闭症病例不断增多的原因。我们的因变量——也就是我们正在试图对其做出解释的现象——需要对自闭症进行量化,比如每千名某个年龄段儿童中自闭症的病例数量。与此同时,假如我们将中国的人均年收入看作一个解释变量,我们肯定能够在过去20年里激增的中国人均收入和上升的美国儿童自闭症确诊率之间发现一个正相关且具有显着统计学意义的关系。
1702644353
1702644354 这是为什么呢?因为它们在同一时期都出现了快速上涨的趋势。但是,我高度怀疑即使中国出现经济衰退,美国的自闭症儿童也不会因此减少。为了公平起见,假如我在中国高速增长的经济和中国国内自闭症确诊率之间发现了显着的相关关系,那么我或许会开始调查一些与经济增长相关的环境因素,例如工业污染等,这些因素或许能够解释这一相关关系。
1702644355
1702644356 像我刚刚讲到的这种存在于两个变量之间的错误的相关关系只不过是“冰山一角”,曲解甚至错误解释A与B之间相关关系的做法还有很多,广义上我们将这类现象称为伪因果关系。
1702644357
1702644358 因果倒置。假如A与B之间存在统计学关系,我们不能直接推出A导致B,因为完全有可能是B导致A。还记得刚刚的那个高尔夫球课的例子吗?我当时已经暗示了这种现象的存在。在我搭建的解释模型里,击球成绩始终是因变量,解释变量一直锁定在累计课程上。也就是说,上的课越多,成绩越差!一种解释是我的高尔夫球教练教得很差,但另一种更加说得通的解释是,我在状态不好时总是会想着多上几节课——状态不佳导致了更多的课程,而不是相反的情况。(对于这类问题来说,我们在方法论上有多种解决办法。例如,我可以将这个月的高尔夫球课作为下个月成绩的解释变量)。
1702644359
1702644360 正如本章一开始所讲的,因果关系有时候是双向的。假设你手头正在做的一项调查显示,美国在K-12(指从幼儿园到12年级儿童教育)上投入多的州的经济增长率要高于K-12项目投入少的州。但就算这两个变量之间的正相关关系再显着,我们也无法从中看出因果关系的方向。我们既可以说K-12教育的投人推动了经济增长,也可以认为只有那些经济实力雄厚的州才有钱在K-12教育上投人更多,因此是增长的经济带来了教育的投入。还可以说,教育支出推动了经济增长,继而为进一步加大教育投入提供了可能,即它们互为因果。
1702644361
1702644362 关键在于,我们不应该使用那些(我们正在花大力气解释的)受结果影响的解释变量,不然的话,因和果将会永无休止地纠缠下去。举例来说,解释GDP增长时,在回归方程中加入失业率因素是不合适的,因为失业率很显然会受GDP增长率的影响。或者换一个角度来看,通过回归分析,发现失业率的下降会促进GDP的增长,这样的结论是可笑的、没有任何意义的,因为为了降低失业率,通常的做法是促进GDP的增长。
1702644363
1702644364 我们应该确保解释变量会影响因变量,而不是相反情况。
1702644365
1702644366 变量遗漏偏差。下次当你在报纸上读到类似于《常打高尔夫易患心脏病、癌症和关节炎》这类标题时,千万不要轻信。高尔夫球球员患上这些疾病的概率比不打高尔夫球的人高——关于这一点我一点儿都不觉得奇怪,但我同时也认为打高尔夫球有益健康,因为它不仅能够丰富你的社交生活,还能为你提供适当的运动量。我应该如何在这两个截然不同的观点之间进行取舍呢?非常容易。无论什么研究,在量化高尔夫球对健康的影响时都必须正确控制“年龄”变量,通常来说,年龄越大,打高尔夫球的时间和机会越多,尤其是在退休之后。在打高尔夫球这个课题上,任何没有将年龄作为解释变量的研究都不可避免地遗漏了一个事实,那就是打高尔夫球的人总体上比不打高尔夫球的人年长。因此,杀人的不是高尔夫球,而是衰老,而且那些正在老去的人恰巧对打高尔夫球乐此不疲。如果将年龄纳入回归分析中去,得到的结论将很有可能是另外一幅光景:在年纪相仿的一群人中,打高尔夫球可能还会对严重疾病的预防起到正面的效果。这跟前面提到的报纸标题有着天壤之别。
1702644367
1702644368 在这个例子中,年龄是一个被遗漏的重要变量。当我们用回归方程式解释打高尔夫球与心脏病或其他疾病的关系时,如果将年龄因素排除在外,那“打高尔夫球”就会超出自身的解释作用,而相当于扮演了两个解释因素的角色:它不仅告诉我们打高尔夫球对心脏病的影响,而且还告诉我们年纪的增长对心脏病的影响(因为打高尔夫球的人通常比其他人要年老一些)。用统计学术语来表达,就是打高尔夫球这个变量“覆盖”了年龄这个变量的影响。也就是说,这两种不同的影响在分析中被混为一谈,就算计算得再仔细,结果也逃脱不了一团糟的宿命,当然,最糟糕的结果就是认为打高尔夫球对健康有损害,而真实情况却恰恰相反。
1702644369
1702644370 假如回归方程式中遗漏了某个重要的解释变量,尤其是当方程式中的其他变量又恰好“覆盖”了遗漏的解释变量的影响,那么回归分析的结果就会变得非常具有误导性,甚至与真相背道而驰。假设我们要评估学校质量,必须了解的一点是:什么样的学校才是好学校?我们的因变量即质量的量化衡量指标,最有可能是考试分数。基本可以肯定的是,我们会将学校的开销作为一个解释变量,希望能够量化开销和分数之间的关系。花钱花得多的学校在统考中的分数也会更高一些吗?假如学校开销是唯一的解释变量,那么毫无疑问,我们将会在开销和考试分数之间寻找到具有显着统计学意义的相关关系。但是,这样的一个暗示“分数可以通过大量花钱推升”的发现,是存在巨大漏洞的。
1702644371
1702644372 有许多重要的潜在解释变量在分析中被遗漏了,其中最关键的一个变量就是家长的教育。受教育程度高的家庭更有可能住在相对富裕的地区,配套的学校设施更好,开销自然更大,培养出来的孩子在考试中的表现也更有可能比穷人家的孩子出色。假如在回归分析中没有将学生群体所在家庭的社会经济地位作为解释变量进行控制,那么回归分析结果将极有可能显示学校开销和考试分数之间存在显着的正相关关系。而实际上,分数的高低取决于跨进校门的学生的优劣,而不是教学楼的造价高低。
1702644373
1702644374 我记得一位大学教授曾经指出,SAT考试分数与家庭的汽车数量之间存在高度的相关性。因此,这位教授暗示SAT在大学录取这个问题上是一个非常不公平、不适合的参考工具。SAT的确存在缺陷,但我最关心的并不是这门考试与家庭汽车数量之间的相关关系——富裕的家庭就算额外再购买3辆汽车,也无法保证将孩子送进大学。私人车库里的汽车数量在一定程度上反映了这个家庭的收入、教育等社会经济地位的高低,而富人家的孩子在SAT考试中的表现优于穷人家的孩子早已不是什么新闻(前文提到,家庭收入高于20万美元的孩子的SAT阅读理解部分的平均分要比家庭收入低于两万美元的孩子高出134分)。一个更大的隐忧在于,SAT高分是不是可以被“训练”出来的?学生通过参加考前私人培训能够提高多少分?假如培训和分数之间存在任何的正相关关系,那么家境好的孩子就容易占到“便宜”。假如两个天资和能力都相同的孩子,一个来自于富人家庭,一个来自于穷人家庭,前者参加了考前培训并取得了不错的成绩,而后者本来也可以考出一样的高分,但由于家境因素没有机会参加培训SE,不得已在考试中处于劣势。
1702644375
1702644376 高度相关的解释变量(多元共线性)。在一个回归方程式中,假如两个或两个以上解释变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每一个变量与因变量之间的真实关系。举例说明,假设我们想要知道吸毒对SAT考试分数的影响,我们会询问研究对象是否吸食过可卡因或海洛因(并且假设已经对其他许多变量进行了控制),并使用回归分析的方法,在控制其他变量的基础上(包括海洛因的使用),计算出可卡因对SAT考试分数的影响;再同理计算出海洛因对考试的影响。
1702644377
1702644378 但即使我们最后分别求出了海洛因和可卡因的回归系数,依然无法揭开真实的情况。方法论上的一大挑战在于,通常吸食可卡因的人同时也在吸食海洛因,只吸食过其中一种毒品的人的人数非常少,因此在计算两种毒品的独立影响时能用得上的数据量非常小,而且差异将不会很大。回到上一章用来解释回归分析的那个虚拟场景,我们将数据样本分配到不同的“房间”里,每个房间里的人除了某个变量不同,其他全都相同,这样我们就能在控制其他潜在混淆因素的前提下观察某一个因素对结果的影响。在我们的样本人群中,可能有692个人曾经吸食过可卡因和海洛因,但有3个人只吸食过可卡因,2个人只吸食过海洛因。任何有关海洛因或可卡因的独立影响的统计推断,都只能从这些微小的数据中来。
1702644379
1702644380 无论是可卡因还是海洛因的回归系数都不可能告诉我们有统计学意义的结论,而且还会让SAT成绩与吸食毒品之间的关系变得更加扑朔迷离。当两个解释变量高度相关时,研究人员通常会在回归方程中只采用其中一个,或创造一个新的综合变量,如“吸食过可卡因或海洛因”。例如,当研究人员想要控制学生的整体经济背景时,他们会将父母双方的受教育程度都纳入方程式中,因为这才是家庭教育背景的有益参考。但是,如果回归分析的目标是单独隔离父亲或母亲的受教育程度,那么将两个因素都纳入考虑范围反而会引起混淆,让分析变得模糊。丈夫和妻子的受教育程度存在着相当大的相关性,以至于我们无法通过回归分析得出一个有意义的关于某个家长的教育程度系数(就好像我们难以区分可卡因和海洛因对考试的影响一样)。
1702644381
1702644382 脱离数据进行推断。和所有其他形式的统计推断一样,回归分析的目的是帮助我们更好地认识这个世界,发现能够适用于所有人口的规律。但需要强调的是,我们的结论仅仅是对与所分析样本相似的人口有效。在上一章中,我设计了一个回归方程,通过几个独立的解释变量来预测体重,最终我的模型的R2为0.29,表示其能够较好地解释大量个体不同的体重,而且大量的个体恰好都是成年人。
1702644383
1702644384 当我们用这个回归方程式来预测新生儿的体重时,又会发生什么呢?现在就来试一试。我的女儿在出生时身高为21寸,年龄设定为零,教育程度为零,锻炼为零,她还是一个白人女性。再将这些信息输入到由“变化的一生”数据样本得到的回归方程式中去,计算出我刚出生的女儿体重为-19.6磅(而实际上,她刚出生时的体重为8.5磅)。
1702644385
1702644386 上一章所提到的“白厅”研究项目的作者在给出结论时就明确地规定了适用范围,可以说具体得不能再具体了:“从事缺乏控制力的工作将会增加未来患上冠心病的风险,该结论仅适用于受雇于政府部门的男性和女性。”
1702644387
1702644388 数据矿(变量过多)。假如遗漏重要的解释变量会带来诸多麻烦,那是不是就是说在回归方程式中加入大量解释变量,而且加入的变量越多越好,就一定可以解决问题了呢?并不是,物极必反。
1702644389
1702644390 假如变量过多,尤其当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。举个例子,我们在设计研究策略时千万不能按如下方法行事:既然我们不知道是什么引起了自闭症,那就应该在回归方程式中加入尽可能多的潜在解释变量,看看最后有哪些变量具备显着的统计学意义,到那个时候我们或许就会得到一些答案了。如果在回归方程式中加入了足够多的无关变量,那么总会有一个恰好达到显着性水平的门槛,而且像这类无关变量并不是那么容易被察觉的。至于为什么某些在实际操作中说不通的变量在方程式里具有了显着的统计学意义,聪明的研究人员总是能够在事后建立理论模型时给出解释。
1702644391
1702644392 为了说明这一点,我经常会回到介绍概率时所举的那个抛硬币的例子。在一个约40人的班级里,我会让每一个学生都抛一枚硬币,抛到反面朝上的学生自动退出,剩下的接着抛,在第二轮中,抛到反面朝上的学生退出,剩下的接着抛第三轮,就这样一直进行下去,直到有一个学生一连抛出五六次正面朝上的结果。或许你还记得对那个学生提出的一些搞笑问题:“你的秘密是什么?诀窍是在手腕吗?你能教大家怎么使硬币一直正面朝上吗?有没有可能是因为你今天穿了哈佛大学的文化衫?”
1702644393
1702644394 连续抛硬币的结果都是正面朝上显然只是凭运气,周围的学生都是见证人。但是,统计学却有可能不这么认为。连续5次抛出正面朝上的概率为1/32,约0.03,完全低于我们通常要推翻零假设时所定的0.05的门槛。在这个例子中,我们的零假设是学生抛硬币时并不存在特殊能力;而刚刚连续抛出5次正面朝上的运气(如果我召集了大量学生参与实验,那么这种情况至少能够发生在一位同学身上)就足以让我们推翻零假设,宣布备择假设成立,即这位学生拥有抛硬币总是正面朝上的特殊能力。在他结束了这一令人印象深刻的“神技”表演之后,我们便可以从他下手,寻找成功抛硬币的蛛丝马迹了:他抛硬币的动作、他的体育训练、当硬币在空中时他的注意力放在哪里,等等。自然,所有这一切到最后都可以用“荒唐”二字来概括。
1702644395
1702644396 这一现象甚至还蔓延到了正式、严肃的研究中。一个广为接受的研究惯例是,在零假设成立的前提下,如果某个概率小于或等于1/20的偶然结果真的发生了,则我们就可以推翻零假设。当然,假如我们进行20次试验,或在某个回归方程式中加入20个无关变量,那么一般说来就会出现一个具有统计学意义的伪发现。《纽约时报》就引用了医学统计专家和流行病学家理查德•彼托的话很好地概括了这一令人不安的现实:“流行病学是一门如此美妙的学科,为我们了解人类生命和死亡提供了重要的视角,但同时也出版了多得令人咋舌的学术垃圾。”
1702644397
1702644398 甚至连医学研究的黄金标准——采取随机抽样的临床试验都应该以怀疑的眼光来审视。2011年,《华尔街日报》头版刊登了一篇有关医学研究的“一个不可见人的秘密”的文章,报纸这样写道:“绝大部分的试验结果,包括那些刊登在顶级同行间审阅的学术期刊上的论文,都是无法复制的。”(同行间审阅期刊上的研究成果和文章,在刊登之前都需要经过同领域的其他专家的审阅以确保研究的可靠性,这类刊物被视作学术研究成果的“把关人”。)之所以会有这样一个“不可见人的秘密”,其中一个原因就是在前面的章节中介绍的“发表性偏见”,如果研究人员和医学杂志大量关注肯定性发现而忽略否定性发现,那么它们就有可能发表唯一的一篇结论为某试验药物有效的论文,而忽略其他19篇证明该药物没有疗效的论文。某些临床试验同样有可能采用小型样本(比如某一种罕见的疾病),这样就提升了观察结果中一些随机偏离的数据在统计的过程中被过度重视的可能性。此外,研究人员可能原本就具有一些有意无意的偏见,或者是出于某个先入为主、根深蒂固的观点,或者是因为某项肯定性发现对他们的事业更有帮助(毕竟,没有人会因为证明某药不能治愈癌症而发财或出名的)。
1702644399
[ 上一页 ]  [ :1.70264435e+09 ]  [ 下一页 ]