打字猴:1.70264384e+09
1702643840
1702643841 如果觉得0.05的显着性水平过于任意和武断,那也没办法,因为这个指标是既定的。在推翻零假设这个问题上,并不存在一个标准单一的统计学“门槛”。对于上述分析来说,将显着性水平设为0.01或0.1都是合理和常见的。
1702643842
1702643843 可以想见的是,当显着性水平为0.01(即只有小于1%的概率能够推翻零假设)时,其推翻零假设的难度明显大于显着性水平为0.1的情况(有小于10%的概率能够推翻零假设),因此前者在统计学上的分量自然也会更重。本章后面的段落会讨论不同显着性水平的优势和劣势。当前最需要了解的一点是,当我们能够在某个合理的显着性水平上推翻一个零假设时,其结果可以被认为是具有“统计学意义”的。
1702643844
1702643845 下面来举一个现实生活中的例子。当你在报纸上读到每天吃20个麸皮饼的人患结肠癌的概率要低于那些不爱吃麸皮饼的人时,其背后所进行的学术研究很有可能是:(1)在一个大型数据组中,研究人员发现每天吃至少20个麸皮饼的人患结肠癌的概率要低于那些说自己不爱吃麸皮饼的人;(2)研究人员的零假设是,吃麸皮饼对结肠癌的发病率没有影响;(3)吃麸皮饼和不吃麸皮饼的人之间患结肠癌概率的巨大差别如果仅仅用巧合来解释,似乎并不那么让人信服。具体来说,如果吃麸皮饼与结肠癌之间没有任何联系,那么这两类人在患结肠癌这件事上仅仅是因为巧合就出现如此巨大差别的概率要低于某个“门槛”,如0.05(该显着性水平应该在数据分析开始前确定,这样就可以避免为了得出一个具有统计学意义的研究结果而“量身定制”一个“门槛”;(4)这篇学术论文里可能还会有一个结论,差不多是这样说的:“在每天至少吃20个麸皮饼与结肠癌发病率降低之间,我们发现了一个具有统计学意义的联系,其显着性水平为0.05。”
1702643846
1702643847 后来的某一天,当我早餐吃着培根和鸡蛋时,在《芝加哥太阳报》上读到另一篇类似的研究报道,其标题更加直接和有趣:“每天吃20个麸皮饼,结肠癌就不会来找你”。但是,那份报纸的标题虽然比学术论文更具有可读性和吸引力,但同时也可能在传递一个错误的信息。该研究事实上并没有宣称吃麸皮饼可以降低个
1702643848
1702643849 人患结肠癌的风险,它仅仅是揭示了某个大型数据组中吃麸皮饼与患结肠癌之间的负相关关系。这一统计学关系并不足以证明吃麸皮饼能够、带来健康状况的改善。毕竟,那些吃麸皮饼的人(尤其是每天吃20个以上麸皮饼的人!)有可能还有其他降低癌症发病率的生活习惯,如少吃红色肉类、定期锻炼、常做身体检查等(这就是前面章节里介绍的“健康用户偏见”)。到底是麸皮饼的功劳,还是因为这群爱吃麸皮饼的人恰好具备的其他行为或个人素质?分清楚“相关关系”和“因果关系”将有助于我们更好地理解统计结论。有关“相关关系并不等同于因果关系”的内容,本书将在后面的章节里详细阐述。
1702643850
1702643851 而两个变量之间如果不存在“统计学意义的相关性”,则意味着两者之间的任何关系都可以用“巧合”二字进行合理解释。《纽约时报》近期刊登了某些科技公司涉嫌发布虚假广告的新闻,文章称,这些公司宣称它们的软件有助于提高学生的考试成绩,而数据却给出了相反的结果。卡内基梅隆大学销售的一款名为“认知教学”的软件程序,其广告宣传语是“革命性的数学课程,革命性的成绩提高”,但美国教育部在一份测试报告中却称该软件对高中生的考试成绩“没有效果”。对此,《纽约时报》建议卡内基梅隆大学应该将广告词改为“未突破的数学课程,未证实的成绩提高”。事实上,一项计对10个教学软件的研究发现,在这些声称能够提高学生数学、阅读等能力的软件产品中,有9个与提高考试分数之间不存在统计学意义上的相关性,也就是说,美国联邦研究员无法排除那些使用过和未使用这些产品的学生之间的成绩差别,仅仅是出于巧合的可能性。
1702643852
1702643853 知识介绍暂且停一下,让我先提醒一下大家刚刚这部分内容的重要性。2011年5月《华尔街日报》刊登标题文章,题为“自闭症和脑量”,由于自闭症谱群疾病的病因至今尚未明确,因此该发现被认为是一项重大的研究突破。这篇文章的第一句话总结了发表在美国《普通精神医学纪要》中的相关学术论文:“本周一刊登的一项新研究发现,自闭症儿童的脑量要比其他儿童大,而且这一趋势在孩子未满两周岁时就出现了。”北卡罗来纳州州立大学的研究人员对59位患有自闭症的儿童和38位健康儿童进行了大脑成像,发现自闭症儿童的脑量要比同龄的健康孩子大10%。
1702643854
1702643855 一个相关的医学问题是:患有自闭症谱群疾病的孩子的大脑在生理结构上与其他孩子有什么不同吗?如果回答是肯定的,那么将有助于研究人员更好地理解自闭症的发病原理,从而为自闭症的治疗和预防提供新的信息。
1702643856
1702643857 一个相关的统计学问题是:仅凭一项样本规模并不是太大的研究(只有59位自闭症儿童,健康儿童的数量更少,仅为38位),我们就能推而广之地认为所有患有自闭症谱群疾病的儿童的脑量都异于常人吗?回答是肯定的。研究人员总结道,在儿童的脑量与患自闭症无关的前提下,两组样本(59位自闭症儿童和38位健康儿童)的脑量出现如此差异的概率只有千分之二(p=0.002)。
1702643858
1702643859 我还特地找到了那期《普通精神医学纪要》,翻看了论文原文。里面的研究人员所采用的方法并没有比截至目前我们所学的概念更复杂,接下来,我将为大家大致介绍一下这篇在社会影响力方面和统计学意义上都非常重要的论文。首先你应该认识到,研究中的两组孩子59位自闭症患儿和38位健康孩子——能够合理地代表他们所在的群体,而且样本数量足够了,因此适用于中心极限定理。如果你早已将上一章的内容忘得差不多了,没关系,我们先来简单复习一下:(1)任意一个群体的样本平均值将会在群体平均值周围呈正态分布(⑵样本的平均值和标准差约等于所在群体的整体平均值和标准差;(3)约有68%的样本平均值位于群体平均值一个标准误差以内,约有95%的样本平均值位于群体平均值两个标准误差以内,以此类推。
1702643860
1702643861 如果用通俗的语言来总结上述3点内容,就是任何一个样本与其所代表的群体之间应该具有相似性;虽然每个样本都是不同的,但任何一个正确抽取的样本的平均值与整体平均值相差甚大的概率相对来说都是非常小的。同样的,我们可以预测,取自相同群体的两个样本彼此之间也应该差不多。在此基础上我们换个角度思考,如果两个样本的平均值相差甚远,那么最有可能的解释就是它们来自于不同的群体。
1702643862
1702643863 这里有一个凭直觉就能做出判断的例子。你的零假设为:男性职业篮球运动员的平均身高与其他普通男性一样。你随机抽取了50位职业篮球运动员和50位非职业篮球运动员,假设你选择的篮球运动员们的平均身高为6英尺7英寸(约2.01米),非篮球运动员的平均身高为5英尺10英寸(约1.78米),两者之间存在9英寸的差距(约0.23米)。假如篮球运动员与非篮球运动员之间没有身高差距,那么这两个样本的平均值之间出现如此巨大差距的概率有多大呢?通俗的说法就是:非常低。
1702643864
1702643865 那份关于自闭症的研究论文所用的基本方法论是一样的。研究人员将两组孩子的几次大脑检测结果进行了比较(孩子在2~5岁通过核磁共振成像分别对大脑进行一次检测)。我们现在只看其中的一项指标——总脑量。研究人员的零假设大致上是:无论孩子有没有自闭症,他们的大脑在解剖学上都没有什么差别。备择假设为:患有自闭症谱群疾病的儿童,他们的大脑与健康儿童的大脑有根本性的不同。像这样的一个研究发现自然会存在许多问题,但至少为未来的自闭症研究和探索提供了一个方向。
1702643866
1702643867 在该研究中,自闭症儿童的平均脑量为1310.4立方厘米,对照组儿童的平均脑量为1238.8立方厘米,所以两组儿童的平均脑量之差为71.6立方厘米。假如自闭症跟儿童的平均脑量并无任何关系,那么出现这一结果的概率有多大?
1702643868
1702643869 如果你还记得上一章的内容,就会很自然地想到我们可以先求出样本的标准误差:s/fa,其中8为样本的标准差,n为样本数量。研究为我们提供了这些数据:自闭症组中59位儿童脑量的标准误差为13立方厘米;对照组中38位健康儿童脑量的标准误差为18立方厘米。你应该还记得中心极限定理告诉我们,有95%的样本平均值会落在整体平均值左右两个标准误差的范围内。
1702643870
1702643871 因此,我们可以从手中的样本推断出,所有自闭症儿童的平均脑量在1310.4±26立方厘米范围内的概率为95%,在统计学上我们称之为置信区间。我们可以有95%的把握声称,在1284.4〜1336.4立方厘米的置信区间里包含了广义上所有患自闭症谱群疾病的儿童的平均脑量。
1702643872
1702643873 用同样的方法,我们也能够有95%的把握声称,在1238.8土36立方厘米的范围内,也就是1202.8~1274.8立方厘米的置信区间里,包含了所有非自闭症儿童的平均脑量。
1702643874
1702643875 我承认,上面出现了很多数字,或许烦躁的你刚刚已经将这本书扔到了角落里。假如你没有做出这么冲动的事情,或者你又走过去把书捡了起来,那么你就应该会发现,这两个置信区间居然没有重合的地方。自闭症儿童的平均脑量所处的置信区间的最小值(1284.4立方厘米),依然要高于非自闭症儿童平均脑量所处的置信区间的最大值(1274.8立方厘米),请看下面的图解。
1702643876
1702643877
1702643878
1702643879
1702643880 图10-2平均脑量样本分布图
1702643881
1702643882 这可能是证明自闭症儿童的大脑,的确存在解剖学差异的第一条线索。是的,照目前来看,这只能算是一条线索,因为我们所有的推断都是建立在不到100位儿童组成的样本的基础上,或许我们只是遇上了比较特殊的样本。
1702643883
1702643884 现在只要那“临门一脚”的最后一个步骤,就能赋予所有推断以生命,我们也将迎来收获的那一刻。如果把统计学比作花样滑冰,那么现在要进行的就是最后一组动作,在此之后,兴奋的观众们便可将一束束鲜花抛入滑冰场。假设自闭症儿童和健康儿童的脑量真的不存在任何解剖学上的差别,即他们属于同一个群体,那么两组样本出现如此巨大差距(一个是1310.4立方厘米,一个是1238.8立方厘米)的准确概率有多少?我们可以算出已知平均值差异的假定值。
1702643885
1702643886 考虑到你可能会再次将书扔到角落里,我这次将计算公式放到了本章的补充知识点里。道理其实很简单,如果我们从同一个群体里随机抽取两个大型样本,那么我们可以推断出它们的平均值应该是非常接近的。举个例子,如果我选取了100位NBA球员并计算出他们的平均身高为6英尺7英寸(约2.01米),那么另外再随机抽取100位NBA球员,他们的平均身高也应该接近6英尺7英寸。好吧,或许这两组样本之间会存在一两英寸的差别,但存在4英寸差别的概率就没有那么大了,相差6~8英寸的概率可以说是微乎其微。我们可以计算出两个样本平均值之间差异的标准误差,通过这个标准误差,以及不同样本平均值之间的差距,我们可以判断样本平均值的离散程度。重要的是,我们可以通过这一标准误差计算出两个样本来自同一个群体的概率。以下就是具体流程:
1702643887
1702643888 1.   假如两个样本均抽取自同一个群体,那么最好的结果是它们的平均值之差为零。
1702643889
[ 上一页 ]  [ :1.70264384e+09 ]  [ 下一页 ]