1702644315
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第13章 致命的回归错误
1702644316
1702644317
世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以,”尽量不要用你的回归分析研究杀人”。
1702644318
1702644319
在进行回归分析时,需要记住的最重要的一点就是:尽量不要杀人。你甚至可以在你的电脑屏幕旁贴上一句话时刻提醒自己:“不要用你的研究杀人”。因为即使一些非常聪明的家伙有时候都免不了违反这条规定。
1702644320
1702644321
从20世纪90年代起,许多家医学机构相继支持一个观点:上了年纪的女性可以通过摄入雌激素来预防心脏病、骨质疏松以及其他与更年期有关的疾病。截止到2001年,有差不多1500万名女性正在服用雌激素,开药的医生声称她们服用雌激素以后身体会更健康。为什么呢?因为当时的研究采用了我们在上一章内容中所讲的基本统计方法,得出结论说给女性病人开雌激素药物是一个合理的治疗手段。具体来说,一项针对12.2万名女性的纵向调查‘护士健康研究”项目)显示,雌激素摄入量和心脏病之间存在负相关关系,定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。要知道,这可不是几个青少年在父亲的电脑上一边搜索成人视频、一边用统计软件随意得出的回归方程式,“护士健康研究”项目是由哈佛大学医学院和公共卫生学院共同主持的。
1702644322
1702644323
与此同时,科学家和医生们还为补充雌激素有利于女性健康提供了医学上的理论支持。随着年龄的增长,女性卵巢分泌雌激素的能力下降,如果雌激素真的对身体非常重要的话,那么在老年时补充这一不足将有利于女性的长期健康,因此他们还为这种治疗方法取了名字:雌激素补充疗法。一些研究人员甚至开始建议上了年纪的男性也应该适当补充一些雌激素。
1702644324
1702644325
在数百万的女性听从了医生的建议,开始接受荷尔蒙补充疗法的同时,雌激素也进入了最为严格的科学审查阶段:临床试验。与之前观察一个大型数据(如“护士健康研究”样本)并得出一个可能具有因果关系的统计学关系不同,临床试验包含了控制实验。一组样本服用雌激素补充片剂,另一组样本只是服用安慰片剂,结果显示,摄人雌激素的女性患心脏病、中风、血栓、乳腺癌和其他疾病的风险要高于对照组。补充雌激素确实存在一些益处,但这些益处跟其他风险相比根本不值一提。从2002年开始,医生被建议尽量避免对年长的女性病人开具雌激素类药物。《纽约时报杂志》提出了一个敏感但又有深刻社会意义的问题:有多少女性是因为服用了医生“出于病人健康”考虑开出的雌激素药片而中风或患上乳腺癌过早离世的?
1702644326
1702644327
回答是:“合理估计至少有上万人。”
1702644328
1702644329
回归分析可以说是统计学弹药库中的“氢弹”。无论是谁,只要有一台电脑和一个大型样本数据,在家中或者办公室里就能成为一个研究员。这样做会出什么错呢?各种错误。回归分析为复杂的问题提供了精确的答案,但这些答案却不一定准确。在错误运用这一统计工具的人的手中,回归分析会得出误导甚至错误的结果;但就如雌激素案例所示,即使在正确运用这一统计工具的人的手中,这一强大的统计工具依
1702644330
1702644331
然可以让我们在错误的方向上危险超速、越走越远。本章的写作初衷就是为了提供一个平衡,解释最常见的回归“错误”,我之所以将错误打上引号,是因为跟所有其他类型的统计分析一样,聪明的人有时候也会出于邪恶的目的“明知故犯”。
1702644332
1702644333
以下就是让回归分析这一非凡的工具沦为“邪恶”工具的7个最常见的错误。
1702644334
1702644335
用回归方程式来分析非线性关系。不知道你是否留意过吹风机上贴的那句警示标语——禁止在浴缸中使用。如果你看到了,心里一定会想:“有谁会傻到在浴缸里吹头发呢?”吹风机是电器,我们都知道在有水的环境中应该远离电器,因为会触电。假如回归分析也有一个类似的警示标语,那么上面写的就会是:当分析的两个变量之间不存在线性关系时禁止使用。请记住,回归系数所描述的是那条“数据最佳拟合直线”的坡度,一定要是一条直线,假如不是,就需要在另外的地方用不一样的坡度方程来诠释。举个例子,如下是我每个月上的高尔夫球课(解释变量)和每场18洞练习的平均杆数(因变量)之间的关系,如你所见,两者之间并不存在一致的线性关系。
1702644336
1702644337
1702644338
1702644339
1702644340
图13-1高尔夫球课程对打球成绩的影响
1702644341
1702644342
上图中并非完全没有规律,只不过是难以用一条直线来描述罢了。前几节高尔夫球课使我的杆数快速降了下来,因此在这个阶段,我的课程数与杆数是呈负相关关系的,斜度为负,也就是说,上课降低了我的杆数(对于高尔夫球来说这是一件好事)。
1702644343
1702644344
但是,当我的学费累计交到了200〜300美元时,这个阶段的课程似乎对我的球场表现没有太大的帮助。高尔夫球课程与我的成绩之间似乎不存在一个明确的关系,因此斜度为零。
1702644345
1702644346
随着上课的次数越来越多,我的成绩甚至出现了下滑。当累计学费达到300美元以上,增加的课程反而使我的杆数越来越高,在这个阶段斜率就为正了(后面的内容我会为大家解释为什么是发挥不佳导致了学习更多的课程,而不是学习更多的课程导致了发挥不佳)。
1702644347
1702644348
最重要的一点是,我们无法用一个系数来准确概括高尔夫球课程和成绩之间的关系。对于上述关系来说,一个最佳的描述方式是:高尔夫球课程与我的挥球杆数之间存在着若干个不同的线性关系。你看得到这种情况,但是在电脑上的统计软件却看不到。如果你一股脑儿地把这些数据输人回归方程中,电脑也会生成一个系数,但这个系数将无法准确地反映不同变量之间的真正关系,这其实与在浴室里用吹风机是一样的。
1702644349
1702644350
只有当变量之间的关系为线性时,回归分析才可派上用场。课本以及其他高阶统计学课本还将介绍更多有关回归分析的主要概念,但万变不离其宗的是,无论是什么工具,离它的初始功能偏差越大,其效果就会越差,有时候甚至还会有危险。
1702644351
1702644352
相关关系并不等同于因果关系。如我之前所说,回归分析只能证明两个变量之间存在关系,至于是不是其中一个变量发生变化就一定能导致另一个变量也发生变化,仅凭数据我们无法给出证明。事实上,一个并不十分严谨的回归分析也能在两个完全不相关的变量之间找到显着且有统计学意义的关系。假设我们正在探寻过去20年里美国的自闭症病例不断增多的原因。我们的因变量——也就是我们正在试图对其做出解释的现象——需要对自闭症进行量化,比如每千名某个年龄段儿童中自闭症的病例数量。与此同时,假如我们将中国的人均年收入看作一个解释变量,我们肯定能够在过去20年里激增的中国人均收入和上升的美国儿童自闭症确诊率之间发现一个正相关且具有显着统计学意义的关系。
1702644353
1702644354
这是为什么呢?因为它们在同一时期都出现了快速上涨的趋势。但是,我高度怀疑即使中国出现经济衰退,美国的自闭症儿童也不会因此减少。为了公平起见,假如我在中国高速增长的经济和中国国内自闭症确诊率之间发现了显着的相关关系,那么我或许会开始调查一些与经济增长相关的环境因素,例如工业污染等,这些因素或许能够解释这一相关关系。
1702644355
1702644356
像我刚刚讲到的这种存在于两个变量之间的错误的相关关系只不过是“冰山一角”,曲解甚至错误解释A与B之间相关关系的做法还有很多,广义上我们将这类现象称为伪因果关系。
1702644357
1702644358
因果倒置。假如A与B之间存在统计学关系,我们不能直接推出A导致B,因为完全有可能是B导致A。还记得刚刚的那个高尔夫球课的例子吗?我当时已经暗示了这种现象的存在。在我搭建的解释模型里,击球成绩始终是因变量,解释变量一直锁定在累计课程上。也就是说,上的课越多,成绩越差!一种解释是我的高尔夫球教练教得很差,但另一种更加说得通的解释是,我在状态不好时总是会想着多上几节课——状态不佳导致了更多的课程,而不是相反的情况。(对于这类问题来说,我们在方法论上有多种解决办法。例如,我可以将这个月的高尔夫球课作为下个月成绩的解释变量)。
1702644359
1702644360
正如本章一开始所讲的,因果关系有时候是双向的。假设你手头正在做的一项调查显示,美国在K-12(指从幼儿园到12年级儿童教育)上投入多的州的经济增长率要高于K-12项目投入少的州。但就算这两个变量之间的正相关关系再显着,我们也无法从中看出因果关系的方向。我们既可以说K-12教育的投人推动了经济增长,也可以认为只有那些经济实力雄厚的州才有钱在K-12教育上投人更多,因此是增长的经济带来了教育的投入。还可以说,教育支出推动了经济增长,继而为进一步加大教育投入提供了可能,即它们互为因果。
1702644361
1702644362
关键在于,我们不应该使用那些(我们正在花大力气解释的)受结果影响的解释变量,不然的话,因和果将会永无休止地纠缠下去。举例来说,解释GDP增长时,在回归方程中加入失业率因素是不合适的,因为失业率很显然会受GDP增长率的影响。或者换一个角度来看,通过回归分析,发现失业率的下降会促进GDP的增长,这样的结论是可笑的、没有任何意义的,因为为了降低失业率,通常的做法是促进GDP的增长。
1702644363
[
上一页 ]
[ :1.702644314e+09 ]
[
下一页 ]