打字猴:1.702644114e+09
1702644114
1702644115 本章补充知误点
1702644116
1702644117 下面为大家解释一下,为什么当某个回答占所有受访者人数的比例接近50%时(同时意味着1-p也接近50%),标准误差会达到最大。先假设你正在美国的北达科他州进行两项民意测验。第一项民意测验的目的是弄清该州民主党和共和党的人数比例。假设这个州真实的两党人数正好各占50%,但你的民调结果却显示为60%的共和党人和40%的民主党人。因此,你的结果距离真实情况出现了10%的巨大误差。但是,你在这个统计过程中并没有犯下什么难以饶恕的数据收集错误,你只是使共和党人增多了20%,使民主党人减少了20%。这种计算错误时常会发生,有时候即使是一个方法设计良好的民意测验也无法避免。
1702644118
1702644119 你的第二项民意测验旨在获取生活在北达科他州的印第安人占该州总人口的比例。假设真实情况是印第安人占全州人口的10%,非印第安人占90%。那么现在我们就来讨论一下假如你的民调结果也存在10%的误差,那你的样本数据收集必须差到什么地步。有两种情况都可以造成这种误差。第一种,你没有发现任何印第安人,认为100%的人都是非印第安人,第二种,你发现有20%的人口是印第安人,非印第安人占80%。在第一种情况I下,你漏掉了生活在该州的全部印第安人;在第二种情况下,你在计算印第安人数量时多计算了整整一倍。无论是哪种情况,都是极其严重的抽样错误,你的计算结果均偏离了100%:[(0-10)/10]以及[(20-10)/10]。但是,如果你只是错误地计算了20%的印第安人——与第一项共和党民主党人数调查的错误程度一样,则你的结果将会是8%的印第安人和92%的非印第安人,跟该州的真实人口情况只相差20%。
1702644120
1702644121 当P与1-P接近50%时,相对小的抽样错误在民调结果中就会被放大为严重的绝对错误。而当P或者1-P接近于零时,就会出现相反的现象:即使是相对严重的抽样错误反映在民调结果中,也会变得微不足道。
1702644122
1702644123 同样是20%的抽样错误,在民主党和共和党人数调查中导致结果出现10%的误差,但在印第安人口的调查中却只有2%的误差。由于民意测验中的标准误差是以绝对值的形式表达的(例如±5%),计算公式决定了这一误差在p和1-p接近50%时达到最大。
1702644124
1702644125
1702644126
1702644127
1702644128 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642312]
1702644129 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第12章 回归分析与线性关系
1702644130
1702644131 你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力加话语权”的工作,还是“权力大,责任也大”的工作?
1702644132
1702644133 工作压力过大会致人死亡吗?答案是肯定的,有大量证据表明工作压力会导致早逝,尤其使心脏病猝死的概率陆增。但这种致命的压力或许跟你想象的有所不同。公司高管们几乎每天都要做出重要决策,这些决策关系到他们公司的前途命运,但他们所承受的风险要远远小于他们的秘书,后者必须兢兢业业地接听电话,完成上级布置的各种任务。但这怎么可能呢?其实最危险的一类工作压力来自于对自己的工作任务“缺乏控制力”。针对数千名英国公务员的多项调查(“白厅”研究)发现,那些对自己的工作没有支配能力的雇员——也就是基本上对干什么、怎么干没有话语权的人——相比起那些拥有更多决策权的雇员来说,前者的死亡率更高。由此表明,并不是那些“权力越大,责任也越大”的压力置你于死地,而是那种等着上司给你布置任务,但自己又没有权力决定怎么完成、何时完成这些任务的压力把人压垮了。
1702644134
1702644135 本章并不是要讲工作压力、心脏病或英国的公务员等内容。之所以要提到“白厅”研究,是为了引出本章真正要讨论的问题:研究人员是如何得出这样的结论的?很显然,类似于上面的问题都无法用随机试验的方式解决,因为我们不可能把人强行分配到各个工作岗位并强迫他们在那里工作好几年,然后再看看谁因公殉职(就算不考虑道德因素,这样做也会把英国政府的日常公务弄得一团糟)。在实际操作中,研究人员在很长一段时间里对英国政府系统的数千名公务员进行了详细的纵向数据收集,这些数据经过分析能提供有意义的相关关系信息,如“缺乏控制力”的工作与冠心病发病率之间的关系等。
1702644136
1702644137 一个简单的相关关系,并不足以让人得出某类工作对健康有害的结论。在发现了英国政府系统中低级别的雇员更容易患上心脏病之后,我们还必须考虑到其他可能的因素。例如,我们可以想见这些低级别雇员的受教育水平要比高层官员们低;这些人更有可能染上烟瘾(或许是因为他们在工作中郁郁不得志);低级别雇员小时候的体质较弱,从而影响了长大后的工作前景;又或者较低的收入使得他们无法享受到好的医疗资源等。重点在于,任何一项只是简单地比较某个大型人群中个体(或不同人群)健康状况的研究都不会告诉我们太多有用的结论,在这样庞杂的数据中有太多的干扰因素会模糊我们对那些真正值得注意的关系的看法。心脏病真的是“低级别工作”导致的吗?又或者只是这类雇员所共有的一些因素共同导致的?如果我们认同了后者,那就等于完全无视一个真正的公共健康威胁。
1702644138
1702644139 回归分析就是帮助我们处理这类问题的统计学工具。具体来说,回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。也就是说,我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来,例如从事某项特定的工作。“白厅”研究用回归分析来衡量低级别工作对某个人群的健康状况的伤害,这类人群在工作生活中的其他方面都是相似的,例如吸烟习惯(低级别雇员抽烟总数的确要比他们的上级多,但这对整个政府系统员工的心脏病发病率差异的影响相对来说并不是很大)。
1702644140
1702644141 在报纸上读到的绝大多数研究成果,都是以回归分析作为基础的。研究人员发现,在幼儿园长大的孩子升人小学后比没上过幼儿园的孩子更容易出现行为问题,这项研究并没有将几千名儿童随机分配给幼儿园或家人抚养,也不是简单地将在不同环境中长大的小学生进行比较,而忽略了其他可能会对他们的行为造成影响的根本性因素。不同的家庭对孩子的抚养决策是不同的,这是因为每个家庭和每个孩子都是不同的。一些家庭双亲俱在,一些家庭则没有那么幸运;一些家庭的双亲都有工作,一些家庭则并非如此;一些家庭更加富裕,家长的受教育程度也更高,一些家庭却没有这么好的条件。所有这些因素都会影响到家长的育儿决策,而这些决策会进一步影响到孩子在小学期间的表现。如果处理得当,回归分析能够排除其他因素的影响(如家庭收入、家庭成员结构、家长受教育水平等),辅助我们认清幼儿园对孩子升入小学后的行为影响。
1702644142
1702644143 在上述这句话中,有两个关键词。第一个关键词是“处理得当”,如果具备充足的数据和一台笔记本电脑,一个关于6岁小孩的回归分析就能在一个基础的统计程序上生成。电脑的出现让回归分析变得毫不费力,因此问题的核心不是回归分析的技术性部分,而在于确定分析过程中要用到哪些变量以及如何才能将这些变量的作用发挥到最佳。回归分析就像是一件外观华丽、功能强大的工具,使用起来非常容易,但若要使用得好,就得下一番功夫了,而且如果使用不当,还会带来意想不到的危害。
1702644144
1702644145 第二个关键词是“辅助”,刚刚那个研究并没有给我们提供一个关于幼儿园与孩子在小学的行为表现之间关系的“正确”回答,而是针对某个特定时间段内的某群特定儿童量化了这一关系。我们能够从中得出可以推而广之的结论吗?当然,但是和其他类别的推断一样,我们也是有限制和条件的。首先,抽取的样本必须能够代表我们所关心的群体,一项包含2000名瑞典儿童的调查并不能指导我们如何在墨西哥的乡村地区开展最好的学前教育。其次,不同样本之间应该存在差异。在抽样方法完善且相似的前提下,如果我们抽取不同的样本进行研究,每一份样本的结果彼此之间应该存在细微的差异。
1702644146
1702644147 回归分析与民意测验相类似。好消息是,在样本数量大、具有代表性且方法论成立的情况下,样本数据所呈现的相关性基本上与全体人口的现实情况差别不大。假如样本容量均为10000人,那么每周锻炼3次或以上样本组的人的心血管疾病发病率要大大低于从来不锻炼的样本组的人(但这两组人在其他重要方面都相似),对于全体人口来说,锻炼和心血管疾病之间就很有可能存在类似的关系。这也是为什么我们要进行这些研究(记住,研究的重点并不是在研究结束时告诉病患年轻时应该多做运动)。
1702644148
1702644149 坏消息是,我们并不能确切地证明运动可以预防心脏病,我们只是推翻了“运动与心脏病无关”的零假设。具体来说,该项研究的作者在报告中写道,如果运动与心脏疾病并无相关关系,那么经常运动的人和不运动的人得心脏病的比例出现如此巨大差异的概率将不到5%,如果将统计学的基本概率门槛设定为5%,那么这一个发现就具有了统计学意义。
1702644150
1702644151 等一下,让我们先好好思考一下上述这个例子。假设这项研究对比的是一群定期打壁球的人和一群从不运动的人——两类人的体重相当。打壁球的确对增强心脏功能有好处,但是,我们也不能忽略壁球这种运动并不是一般人能长期消费得起的,那些有打壁球习惯的人通常是社会的上流人士,他们加入的一些俱乐部常常有壁球场地供他们使用。同时,富有的人所能接触到的医疗资源自然更为丰富,这也有利于他们保持心脏健康。如果研究人员想草草了事,当然可以将这些人的心脏健康归功于打壁球,但事实上真正的健康受益于足够支撑壁球运动习惯的财富(打马球也是相同的道理,有人说参与马球运动的人更健康,其实这也是财富和优质医疗的功劳,不用想都知道打马球的过程中真正锻炼了身体的主要是马)。
1702644152
1702644153 还有可能是因果关系倒置,会不会是拥有了健康的身体才更愿意运动呢?当然有可能。那些体弱多病的人,尤其是心脏有先天性缺陷的人不宜从事剧烈运动,他们不大可能定期去打壁球。但如果研究分析过于敷衍和简单化,就会说运动有益于身体健康,而实际上却是那些天生身体不好的人不经常从事运动。照这个观点,打壁球并没有让任何人变得更健康,而只不过是将健康的人与体质差的人区分开罢了。
1702644154
1702644155 回归陷阱的形式多种多样,在下一章中我将会为大家介绍一些最“恶名昭著”的错误。现在,让我们把焦点放在正确的做法上。回归分析的强大能力表现在:将我们所关心的统计关联隔离出来,如工作中的支配力和心脏病,同时还不忘考虑其他可能会对这一相关关系产生影响的因素。
1702644156
1702644157 具体是如何做到的呢?如果我们得知英国政府中低级别雇员的身体要比他们上司的体质更弱,那我们怎么确定在心血管健康状况不佳的致病原因里,有多少比例源于他们低级别的工作,多少比例因为吸烟?这两个因素看上去似乎是彼此缠绕、密不可分的。
1702644158
1702644159 通过回归分析就能将它们解开。为了让大家都能理解其中的奥妙,我必须从基础说起,无论是哪种形式的回归分析——从最简单的统计学关联到诺贝尔奖获得者搭建的复杂模型,都离不开的基本概念。最核心的一点是,回归分析寻找的是两个变量之间的最佳拟合线性关系。举个简单的例子,身高和体重的关系。虽然不是绝对的,但身高较高的人一般体重应该更重。我们将一组大学毕业生的身高和体重标记在坐标轴上,不知道你会不会回忆起我们在前文中讲过的内容。
1702644160
1702644161
1702644162
1702644163
[ 上一页 ]  [ :1.702644114e+09 ]  [ 下一页 ]