打字猴:1.702643728e+09
1702643728
1702643729
1702643730
1702643731
1702643732 图9-6样本平均值概率分布图
1702643733
1702643734 现在让我们回到对失踪客车案例的思考中(但这个例子还将会延续其“荒诞”的特点,我保证下一章会引用更多真实、合理的案例),这次我们需要用数字来代替直觉。假设“变化的一生”研究小组邀请了所有参与者前往波士顿共度周末,并在这期间进行一次完整的数据采集工作。参与者被随机分配到每一辆客车上,来往于不同的设备进行称重、验血等检测。令人意外的是,其中有一辆客车失踪了,当地新闻还特地报道了此事。与此同时,你正从国际香肠节的活动现场赶往这里,因为你刚刚处理了一起交通事故,一辆客车为了躲避一只野生狐狸冲到了马路外边,客车上所有的乘客都失去了意识,但所幸伤得不重(这个例子需要他们失去交流能力,但我个人又不想使他们伤势过重,于是只能出此下策)。医护人员告诉你那辆客车上所有62名乘客的平均体重为194磅,此外,客车想要竭力躲闪的狐狸也受伤了,一条后肢看上去似乎骨折了。
1702643735
1702643736
1702643737 幸运的是,你恰好知道“变化的一生”数据库上所有参与者的平均体重和标准差,而且你也知道中心极限定理的工作原理,最重要的是,你还知道如何给一头野生狐狸急救。“变化的一生”研究的参与者的平均体重为162磅,标准差是36,在此基础上,我们能够计算得出一个数量为62人(也就是客车上正处于昏迷中的那些乘客)的样本的标准误差为:,即4.6。
1702643738
1702643739 样本平均体重(194镑)与整体平均体重(162磅)之间有32磅的差距,是标准误差的3倍多。我们从中心极限定理得知,99.7%的样本平均值会处于整体人口平均值3个标准误差的范围内,因此出事的那辆客车上搭载的是“变化的一生”项目的研究对象的概率几乎为零。作为这座文明城市的一分子,你有义务呼叫研究中心,告诉相关人员这很有可能不是他们所要找的那辆客车,而且除了告诉他们你的“直觉”以外,你还可以用统计数据来支撑你的判断。你在电话里可以这样说,你有99.7%的把握认定这辆客车不是他们正在寻找的那辆,由于电话那边听你说话的都是研究人员,他们肯定能够理解这个数字背后的含义。
1702643740
1702643741 在医护人员对客车上昏迷的乘客进行验血之后,你的分析得到了进一步的证实。这些乘客血液中的胆固醇含量的平均值比“变化的一生”项目的研究对象的平均值高出了5个标准误差,这些昏迷不醒的乘客事后被证明是国际香肠节邀请的嘉宾。
1702643742
1702643743 这个故事还有一个皆大欢喜的结局。在客车上的乘客们恢复了知觉以后,“变化的一生”研究组的科学家们为他们举办了一次名为“高饱和脂肪饮食的危害”的讲座,促使他们中的许多人逐渐养成了比以前更为健康的饮食习惯。与此同时,那只受伤的狐狸也在当地一家野生动物保护中心得到了悉心照料并痊愈了,最终健康地回归大自然。[⑤]
1702643744
1702643745 本章自始至终讲的都是最基本的知识。大家要引起注意的是,为了能够让中心极限定理成立,样本数量必须足够多(依照经验法则,至少有30个);如果我们想要假设群体的标准差等同于样本的标准差,那么更要保证样本数量足够多了。当这些情况都无法满足时,我们还有多种多样的统计学方法来弥补,但这些都是蛋糕上的装饰(甚至仅仅是蛋糕上的糖霜)。本章所介绍的“真家伙”才是既简单又实用的:
1702643746
1702643747 1.   如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布(不论该群体自身的分布情况是怎样的)。
1702643748
1702643749 2.   绝大多数的样本平均值都会紧紧围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底是离得“近”还是“远”。
1702643750
1702643751 3.   通过中心极限定理,我们便可知道样本平均值与整体平均值之间的距离及其概率。样本平均值离整体平均值两个标准误差的概率相对较低,3个或以上标准误差的概率基本上为零。
1702643752
1702643753 4.   如果出现了某个概率较低的结果,我们便可以推测是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。
1702643754
1702643755 这些基本上囊括了统计推断的所有内容,而中心极限定理是让这一切发生的重要推动力。只要勒布朗•詹姆斯的NBA总冠军戒指的数量没有超过迈克尔•乔丹(6枚),中心极限定理的魅力就将始终在乔丹之上。
1702643756
1702643757
1702643758
1702643759
1702643760 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 [:1702642310]
1702643761 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第10章 统计推断与假设检验
1702643762
1702643763 垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们最不能容忍哪件事锖出错,又有哪件事情是可以“睁一只眼闭一只眼”的?
1702643764
1702643765 我在大四的第二学期选修了统计学课程。那时我对统计学或其他以数学为基础的学科并没有太大的兴趣,但我已经答应了我的父亲选这门课,回报就是可以跟他去苏联旅游10天。就这样,为了一次苏联之旅(当然还有10天的额外假期),我走上了学习统计学这条路。这是一项相当不错的交易,一方面上课之后我发现我对统计学的热爱远远超出了我的想象,另一方面我得以在1988年的春天游览了苏联。
1702643766
1702643767 我的这段往事实际上与本章的内容密切相关。需要指出的是,那个学期的统计学课程我学得并不专心。因为除了各种各样的杂事要处理,我还有一篇论文要赶在学期结束前完成。每周的统计课都要进行小测试,我每次要么不去参加测试、要么考试成绩不及格。期中考试前我突击复习了一下,这门课程才得以勉强过关。但就在离学期结束还有几周的时候,发生了两件事情:第一件事,我终于把论文写完了,这样我就有了大量的空余时间;第二件事,我意识到其实统计学也没有我想象中那么难,因此我拾起了统计学课本,将之前没有做完的习题逐个补上。期末考试的时候,我的成绩是A。
1702643768
1702643769 在这个时候,我的统计学老师(至于他叫什么名字,我早就忘得一干二净了)把我叫到了他的办公室。他具体说了什么,我已经记不太清了,只是隐约记得他说过“你的期末考试成绩比起你的期中考试成绩有了很大的提高”之类的话,但丝毫听不出有任何夸奖的意味,从始至终我心里都感觉不太舒服,觉得老师话中有话,因为他一直在问我到底是怎么做到的,言外之意就是他怀疑我作弊了。现在做了多年老师的我,也终于能体会他那时的想法了,在我教过的所有课程里,几乎所有学生的期中成绩和期末成绩都有着极为显着的相关性。如果某一个学生的期中考试成绩在班上处于中等偏下的水平,而在期末考试中却一举成为班上的佼佼者,这是一件非常不寻常的事。
1702643770
1702643771 我当时的解释是,我提早完成了论文,而且开始重视这门课程(认真阅读了课本,并完成了老师布置的课后作业),他看上去似乎对我的回答感到较为满意。我随后离开了他的办公室,但还是被他的含蓄“指控”搅得心神不宁。
1702643772
1702643773 说出来你们可能不信,通过这么一个小插曲,我们就可以窥见统计推断的优劣。统计学无法确凿地证明任何东西。与之相反,统计推断的力量在于:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。假设有一个举止怪异的赌徒来到小镇,跟你打了一个赌:如果他用一个骰子掷出6点,那么他可以赢1000美元;但如果他掷出的是其他点数,那么你可以赢500美元。这看上去对你十分有利,但结果是,他连续10次掷骰子的点数都是6点,从你这里赢走了10000美元。
1702643774
1702643775 一种可能的解释是:他的运气实在是太好了。还有一种解释是:他运用了某种不为人知的作弊手段。如果是一个正常的骰子,连续掷出10次6点的概率约为六千万分之一。虽然你无法证明他作弊了,但你至少应该检查一下他所用的骰子。
1702643776
1702643777 当然,有时候最有可能的解释并非正确的解释,极端罕见的事情总会发生。
[ 上一页 ]  [ :1.702643728e+09 ]  [ 下一页 ]