打字猴:1.702644281e+09
1702644281 回归分析大大地充实了科学方法,使人类更好地认识了这个世界、身体更加健康、生活更加安全。
1702644282
1702644283 那么,在使用这样一个强大、实用的统计工具时,我们又应该注意些什么呢?请接着阅读下一章的内容。
1702644284
1702644285 本章补充知识
1702644286
1702644287 在进行回归分析(或其他形式的统计推断)时,小型样本数据会让推断过程变得稍微复杂一点。假设我们要分析的是体重和身高之间的相关关系,手中的样本只包含25名成年人,而不是之前像“变化的一生”那样庞大的数据库。逻辑告诉我们,只有25人的样本分析结果肯定没有3000人样本更能体现整体成年人口的体重特征,本书一直在强调的一点就是:样本越小,结果就越分散。虽然一个25人的样本也能为我们提供有意义的信息,5人、10人也是如此,但这些信息的意义能有多大?
1702644288
1702644289 t分布可以回答这个问题。就算我们多次抽取25个成年人作为样本来分析身高和体重之间的关系,每一次得出的身高系数最后也不会围绕着“真实”系数呈正态分布,虽然它们的确分散在真实系数的周围,但得到的形状绝不会是我们所熟悉的代表正态分布的“钟”形。随着样本容量的降低,每一次抽样得到的系数会分布得更加离散,因此分布曲线两端的“尾巴”相比起正态分布曲线来会显得“肥大”。如果样本容量减少到10,那么离散程度会更高,得到的“尾巴”会更“肥大”。t分布实际上指的是各种不同容量样本的概率密度集体或“家族”,具体来说,样本中所包含的个体数量越多,那我们在分配适当的分布区间来评价研究结论时所拥有的“自由度”就越高。在更高阶的课程中,你会学习如何精确地计算出“自由度”,我们在这里姑且将其等同于样本中个体的数量。举个例子,一个样本容量为10、解释变量个数为1的基本回归分析的自由度为9。自由度越高,我们对该样本能够代表全体人口越有信心,其分布也会越“紧密”,如图12-3所示。
1702644290
1702644291
1702644292
1702644293
1702644294 图12-3 t分布图
1702644295
1702644296 随着自由度的增大,t分布逐渐向正态分布靠拢。这也是为什么当我们在处理大型数据组时,可以直接使用正态分布曲线的基本特点来作为计算依据。
1702644297
1702644298 对于整本书一直在贯彻的统计推断过程,t分布的引人只不过稍微丰富了这个工具,我们的思路并没有改变,依然是先提出一个零假设,然后依据一些观察数据来检验其真伪。如果得到零假设结果的概率非常低,那么我们就可以推翻零假设。t分布唯一的变化就在于这些结果的发生概率与正态分布曲线有所不同。概率曲线的“尾巴”越“肥大”(例如自由度为8的t分布曲线),数据离散的程度越高,巧合的情况就越容易出现,推翻零假设的信心越显不足。
1702644299
1702644300 例如,假设我们正在计算一个回归方程式,零假设是某个具体变量的回归系数为零。在得到回归结果以后,我们便可以计算出一个t统计量,也就是所得系数与该系数标准误差的比。然后,再根据适合于样本容量的t分布(样本容量的大小直接决定了自由度水平)来评价所得的t统计量。当t统计量足够大时,也就是我们观察得到的系数与零假设相差甚远,那么就可以在某个显着性水平基础上推翻零假设。再强调一遍,这与整本书一直在使用的统计推断的基本流程是一样的。
1702644301
1702644302 自由度越低(相对应的t分布曲线的“尾巴”越“肥大”),所需要的t统计量越大,这样我们才可以在某个显着性水平的基础上推翻零假设。在上面假设的回归例子中,假如我们的自由度为4,我们所需要的t统计量至少要达到2.13,才能在0.05的显着性水平上(在单尾假设检验中)推翻零假设。
1702644303
1702644304 但是,假如我们的自由度为20000(足以符合正态分布对样本容量的要求),t统计量只需要达到1.65,就可以在显着性水平为0.05的单尾假设检验中推翻零假设。
1702644305
1702644306 表12-1体重回归方程式表
1702644307
1702644308
1702644309
1702644310
1702644311
1702644312
1702644313
1702644314 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642313]
1702644315 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第13章 致命的回归错误
1702644316
1702644317 世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以,”尽量不要用你的回归分析研究杀人”。
1702644318
1702644319 在进行回归分析时,需要记住的最重要的一点就是:尽量不要杀人。你甚至可以在你的电脑屏幕旁贴上一句话时刻提醒自己:“不要用你的研究杀人”。因为即使一些非常聪明的家伙有时候都免不了违反这条规定。
1702644320
1702644321 从20世纪90年代起,许多家医学机构相继支持一个观点:上了年纪的女性可以通过摄入雌激素来预防心脏病、骨质疏松以及其他与更年期有关的疾病。截止到2001年,有差不多1500万名女性正在服用雌激素,开药的医生声称她们服用雌激素以后身体会更健康。为什么呢?因为当时的研究采用了我们在上一章内容中所讲的基本统计方法,得出结论说给女性病人开雌激素药物是一个合理的治疗手段。具体来说,一项针对12.2万名女性的纵向调查‘护士健康研究”项目)显示,雌激素摄入量和心脏病之间存在负相关关系,定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。要知道,这可不是几个青少年在父亲的电脑上一边搜索成人视频、一边用统计软件随意得出的回归方程式,“护士健康研究”项目是由哈佛大学医学院和公共卫生学院共同主持的。
1702644322
1702644323 与此同时,科学家和医生们还为补充雌激素有利于女性健康提供了医学上的理论支持。随着年龄的增长,女性卵巢分泌雌激素的能力下降,如果雌激素真的对身体非常重要的话,那么在老年时补充这一不足将有利于女性的长期健康,因此他们还为这种治疗方法取了名字:雌激素补充疗法。一些研究人员甚至开始建议上了年纪的男性也应该适当补充一些雌激素。
1702644324
1702644325 在数百万的女性听从了医生的建议,开始接受荷尔蒙补充疗法的同时,雌激素也进入了最为严格的科学审查阶段:临床试验。与之前观察一个大型数据(如“护士健康研究”样本)并得出一个可能具有因果关系的统计学关系不同,临床试验包含了控制实验。一组样本服用雌激素补充片剂,另一组样本只是服用安慰片剂,结果显示,摄人雌激素的女性患心脏病、中风、血栓、乳腺癌和其他疾病的风险要高于对照组。补充雌激素确实存在一些益处,但这些益处跟其他风险相比根本不值一提。从2002年开始,医生被建议尽量避免对年长的女性病人开具雌激素类药物。《纽约时报杂志》提出了一个敏感但又有深刻社会意义的问题:有多少女性是因为服用了医生“出于病人健康”考虑开出的雌激素药片而中风或患上乳腺癌过早离世的?
1702644326
1702644327 回答是:“合理估计至少有上万人。”
1702644328
1702644329 回归分析可以说是统计学弹药库中的“氢弹”。无论是谁,只要有一台电脑和一个大型样本数据,在家中或者办公室里就能成为一个研究员。这样做会出什么错呢?各种错误。回归分析为复杂的问题提供了精确的答案,但这些答案却不一定准确。在错误运用这一统计工具的人的手中,回归分析会得出误导甚至错误的结果;但就如雌激素案例所示,即使在正确运用这一统计工具的人的手中,这一强大的统计工具依
1702644330
[ 上一页 ]  [ :1.702644281e+09 ]  [ 下一页 ]