打字猴:1.702644274e+09

1702644274

1702644275 “白厅”研究有两个非常突出的特点，称得上是当之无愧的“最佳研究”。首先，其研究结论在其他地方能找到佐证。如果搜索发表的公共健康文献，会发现“低控制力”的观点已经发展成为一个专有名词——工作疲劳，专指那些“精神负担重”、“决策水平低”的工作。1981~1993年间，已发表36项研究成果关于此类课题，其中绝大多数的研究成果都发现工作疲劳和心脏病之间存在显着的正相关关系。

1702644276

1702644277 其次，研究人员探索并发现了相关的生物学证据，解释为什么这一特殊的工作压力能够导致健康状况的恶化。要求严格但控制力低的工作环境能够导致一系列生理反应（如释放与压力有关的荷尔蒙），长此以往会增加患心脏类疾病的风险，甚至连动物研究都为解释其病变原理发挥了作用。研究人员发现，地位低的猴子和拂狒（它们与权力系统中处于底层的公务员的境遇有着相似之处）与地位高的同类在某些生理指标上存在差异,使得前者更容易患上心脏血管疾病。

1702644278

1702644279 所以，最好还是不要做一头地位低下的“狒狒”——我经常向我的孩子们灌输这一个观点，尤其是我的儿子。除此之外，一个更重要的信息是，回归分析可能是在处理大型数据的过程中帮助我们发现有意义结论的最重要工具。尤其是在评价工作歧视或寻找心脏病诱因的时候，我们是无法进行控制实验的，因此对于这些以及其他具有深刻社会意义的课题来说，我们需要使用本章所讲的研究手段。毫不夸张地讲，在过去的半个世纪的社科领域（尤其自计算机普及以来），有很大一部分的重要发现都要归功于回归分析。

1702644280

1702644281 回归分析大大地充实了科学方法，使人类更好地认识了这个世界、身体更加健康、生活更加安全。

1702644282

1702644283 那么，在使用这样一个强大、实用的统计工具时，我们又应该注意些什么呢？请接着阅读下一章的内容。

1702644284

1702644285 本章补充知识

1702644286

1702644287 在进行回归分析（或其他形式的统计推断）时，小型样本数据会让推断过程变得稍微复杂一点。假设我们要分析的是体重和身高之间的相关关系，手中的样本只包含25名成年人，而不是之前像“变化的一生”那样庞大的数据库。逻辑告诉我们，只有25人的样本分析结果肯定没有3000人样本更能体现整体成年人口的体重特征，本书一直在强调的一点就是：样本越小，结果就越分散。虽然一个25人的样本也能为我们提供有意义的信息，5人、10人也是如此，但这些信息的意义能有多大？

1702644288

1702644289 t分布可以回答这个问题。就算我们多次抽取25个成年人作为样本来分析身高和体重之间的关系，每一次得出的身高系数最后也不会围绕着“真实”系数呈正态分布，虽然它们的确分散在真实系数的周围，但得到的形状绝不会是我们所熟悉的代表正态分布的“钟”形。随着样本容量的降低，每一次抽样得到的系数会分布得更加离散，因此分布曲线两端的“尾巴”相比起正态分布曲线来会显得“肥大”。如果样本容量减少到10,那么离散程度会更高，得到的“尾巴”会更“肥大”。t分布实际上指的是各种不同容量样本的概率密度集体或“家族”，具体来说，样本中所包含的个体数量越多，那我们在分配适当的分布区间来评价研究结论时所拥有的“自由度”就越高。在更高阶的课程中，你会学习如何精确地计算出“自由度”，我们在这里姑且将其等同于样本中个体的数量。举个例子，一个样本容量为10、解释变量个数为1的基本回归分析的自由度为9。自由度越高，我们对该样本能够代表全体人口越有信心，其分布也会越“紧密”，如图12-3所示。

1702644290

1702644291

1702644292

1702644293

1702644294 图12-3 t分布图

1702644295

1702644296 随着自由度的增大，t分布逐渐向正态分布靠拢。这也是为什么当我们在处理大型数据组时，可以直接使用正态分布曲线的基本特点来作为计算依据。

1702644297

1702644298 对于整本书一直在贯彻的统计推断过程，t分布的引人只不过稍微丰富了这个工具，我们的思路并没有改变，依然是先提出一个零假设，然后依据一些观察数据来检验其真伪。如果得到零假设结果的概率非常低，那么我们就可以推翻零假设。t分布唯一的变化就在于这些结果的发生概率与正态分布曲线有所不同。概率曲线的“尾巴”越“肥大”（例如自由度为8的t分布曲线），数据离散的程度越高，巧合的情况就越容易出现，推翻零假设的信心越显不足。

1702644299

1702644300 例如，假设我们正在计算一个回归方程式，零假设是某个具体变量的回归系数为零。在得到回归结果以后，我们便可以计算出一个t统计量，也就是所得系数与该系数标准误差的比。然后，再根据适合于样本容量的t分布（样本容量的大小直接决定了自由度水平）来评价所得的t统计量。当t统计量足够大时，也就是我们观察得到的系数与零假设相差甚远，那么就可以在某个显着性水平基础上推翻零假设。再强调一遍，这与整本书一直在使用的统计推断的基本流程是一样的。

1702644301

1702644302 自由度越低（相对应的t分布曲线的“尾巴”越“肥大”），所需要的t统计量越大，这样我们才可以在某个显着性水平的基础上推翻零假设。在上面假设的回归例子中，假如我们的自由度为4,我们所需要的t统计量至少要达到2.13,才能在0.05的显着性水平上（在单尾假设检验中）推翻零假设。

1702644303

1702644304 但是，假如我们的自由度为20000（足以符合正态分布对样本容量的要求），t统计量只需要达到1.65，就可以在显着性水平为0.05的单尾假设检验中推翻零假设。

1702644305

1702644306 表12-1体重回归方程式表

1702644307

1702644308

1702644309

1702644310

1702644311

1702644312

1702644313

1702644314 赤裸裸的统计学：除去大数据的枯燥外衣，呈现真实的数字之美 [:1702642313]

1702644315 赤裸裸的统计学：除去大数据的枯燥外衣，呈现真实的数字之美第13章致命的回归错误

1702644316

1702644317 世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了，所以，”尽量不要用你的回归分析研究杀人”。

1702644318

1702644319 在进行回归分析时，需要记住的最重要的一点就是：尽量不要杀人。你甚至可以在你的电脑屏幕旁贴上一句话时刻提醒自己：“不要用你的研究杀人”。因为即使一些非常聪明的家伙有时候都免不了违反这条规定。

1702644320

1702644321 从20世纪90年代起，许多家医学机构相继支持一个观点：上了年纪的女性可以通过摄入雌激素来预防心脏病、骨质疏松以及其他与更年期有关的疾病。截止到2001年，有差不多1500万名女性正在服用雌激素，开药的医生声称她们服用雌激素以后身体会更健康。为什么呢？因为当时的研究采用了我们在上一章内容中所讲的基本统计方法，得出结论说给女性病人开雌激素药物是一个合理的治疗手段。具体来说，一项针对12.2万名女性的纵向调查‘护士健康研究”项目）显示，雌激素摄入量和心脏病之间存在负相关关系，定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。要知道，这可不是几个青少年在父亲的电脑上一边搜索成人视频、一边用统计软件随意得出的回归方程式，“护士健康研究”项目是由哈佛大学医学院和公共卫生学院共同主持的。

1702644322

1702644323 与此同时，科学家和医生们还为补充雌激素有利于女性健康提供了医学上的理论支持。随着年龄的增长，女性卵巢分泌雌激素的能力下降，如果雌激素真的对身体非常重要的话，那么在老年时补充这一不足将有利于女性的长期健康，因此他们还为这种治疗方法取了名字：雌激素补充疗法。一些研究人员甚至开始建议上了年纪的男性也应该适当补充一些雌激素。

[ 上一页 ] [ :1.702644274e+09 ] [ 下一页 ]