打字猴:1.701024452e+09
1701024452
1701024453 得知你因为以内曼与皮尔逊等为代表的显著性检验而忐忑不安,对此我感到些许遗憾。这些装腔作势的检验毫无价值而言,我和我在世界各地的学生根本不会使用这种检验方法。如果你希望了解具体原因,那么我告诉你,这种检验方法大错特错,它没有从研究人员的视角来解决问题,也没有以有理有据的知识为根基。一直以来,人们都在使用这种方法检验各种猜想以及自相矛盾的研究结果,尽管所检验的猜想与研究结果的数量时多时少,但从未间断。检验的目的是为“我是否应该关注”这个问题提供一个可信度高的答案。这个问题当然也可以(为了使思考过程尽善尽美,也应该)表述成:“该假设是否被推翻了?如果被推翻了,那么根据这些研究结果,其显著性程度有多高?”我之所以确信可以使用这种表述形式,唯一的原因是:真正的研究人员已经知道如何回答,内曼与皮尔逊的拥趸(我想他们必定徒劳无功)试图单凭数学方法来解决的那些问题了。
1701024454
1701024455 费舍尔当然也知道顺利通过显著性检验与发现真理并不是一回事儿。1926年,他在著作中提到了一种内涵更丰富、迭代次数更多的检验方法,“科学事实被判定为经受住了实验的检验,必须满足一个前提条件:只要实验设计合理,每次得到的结果几乎都能表现出一定程度的显著性”。
1701024456
1701024457 他所说的不是“有一次成功地表现出”,而是“几乎都能表现出”。具有统计学显著性的发现会为我们提供线索,指明研究方向。显著性检验是调查员,而不是审判员。一篇介绍诸如“甲导致乙”或者“丙阻止丁”等重大发现的文章,在结尾部分总会毫无新意地引用某位事先并没有参与该项研究的资深科研人员的评价,内容大多是“该发现极有价值,应该加大研究力度”之类的陈词滥调,在读到这样的文章时,我们知道是怎么回事吗?我们认为这些必不可少的评价其实空洞无物,因此跳过不读,这又是怎么回事呢?
1701024458
1701024459 我告诉你们答案吧。科研人员每次都会写下这样的句子,原因是这些句子非常重要,而且是真实的。令人感兴趣、具有明显统计学显著性的发现不是科研过程的终结,它意味着科研活动才刚刚开始。如果某位科研人员有了一个重大、新奇的发现,其他实验室的研究人员应该对这个现象及其变量反复进行检验,以确认该结果到底是昙花一现的侥幸成功,还是真的达到了费舍尔“几乎都能表现出”的标准。如果某个结果经过多次实验都无法得到验证,科学界就会满怀歉意地拒绝承认它。重复实验程序是科学的免疫系统,对大量研究结果进行检验,摒弃达不到标准的研究结果。
1701024460
1701024461 这是我们应该追求的理想做法,但是,在实际操作中,科学的免疫作用受到了抑制。当然,有些实验难以重复。如果我们的研究内容是检验4岁儿童延迟满足的能力,以及这项能力与该儿童30年后的生活状况之间的相关性,那么我们无法轻易地通过重复实验验证这项研究结果。
1701024462
1701024463 但是,即使可以通过重复实验验证的研究结果,也很少得到重复实验的验证。所有杂志都希望发表重大发现,有哪家愿意发表重复一年前的实验且得出相同结果的论文呢?更糟糕的是,如果做了重复实验却没有得出具有统计学显著性的结果,那么这篇论文会面临什么样的命运呢?为了保证科研体系的正常运行,这些实验结果也应该向公众公开,但它们却被锁进了文件柜。
1701024464
1701024465 不过,文化并不是一成不变的。约安尼迪斯、西蒙逊等改革派大声疾呼,告诫人们科学研究正面临着沦落为大规模肠卜术的风险。呼吁的对象不仅限于科学界,还延伸至全体大众,使人们产生了新的危机感。2013年,美国心理科学协会宣布,他们愿意发表一种叫作“重复实验报告”的新类型论文。这类报告的目的是通过重复实验验证被广泛引用的研究结果,在处理程序上与普通论文有很大的不同:在研究开始之前,必须就重复实验的结果提出发表申请。如果重复实验的结果支持原发现,就是个好消息;如果两者不一致,那也没关系,照样可以公开发表,让整个学术界都能完整地了解该项研究结果的重复实验情况。另外一个科研项目——“多实验室计划”(Many Labs project),旨在通过重复实验验证心理学方面的著名成果。2013年11月,该计划的第一批重复实验结果产生了,在接受重复实验验证的13项研究结果中,有10项验证成功,这让心理学家们感到欢欣鼓舞。
1701024466
1701024467 当然,在重复实验的最后阶段,必须做出判断和制定标准。费舍尔说的“几乎都能表现出”中的“几乎”到底有什么含义呢?如果我们随随便便就为这个概念赋予一个临界值(比如,“如果某个结果在超过90%的实验中具有统计学显著性,则该结果为真”),我们就有可能再次陷入麻烦。
1701024468
1701024469 费舍尔认为,设置一条一成不变的红线的做法是不妥当的,费舍尔不相信理论数学的形式主义。1956年,已经进入垂暮之年的费舍尔指出:“事实上,科研人员不会设置一个固定的显著性程度,然后年复一年,无论情况如何变化,都依据这个红线推翻各个假设。相反,他们会在证据的启示下,结合自己的想法,认真考虑每一个具体案例。”
1701024470
1701024471 在后文,我们将讨论如何使“证据的启示”变得更加具体。
1701024472
1701024473 [1]xkcd漫画是由兰德尔·门罗(Randall Munroe)绘制的网络漫画。作者给它的定位是“关于浪漫、讽刺、数学和语言的网络漫画”。
1701024474
1701024475 [2]所有这些例子都选自健康心理学家马修·汉金斯(Matthew Hankins)的博客。汉金斯对于非显著性实验结果颇有研究,他的博客中收集了大量诸如此类的说辞。
1701024476
1701024477 [3]所有数字都是我杜撰的。原因之一在于,真实的置信区间计算非常复杂,限于篇幅,我做了这样的处理。
1701024478
1701024479 [4]这个说法有过分简单化的嫌疑。费舍尔、内曼与皮尔逊的寿命及创作生涯都比较长,在几十年的时间内,他们的观点与立场不断改变。我在简单描述他们在哲学观上的分歧时,忽略了他们思想中的很多重要组成部分。他们之间最突出的分歧是:相较于皮尔逊,内曼更加坚定地认为统计学的第一要务是决策。
1701024480
1701024481
1701024482
1701024483
1701024484 魔鬼数学:大数据时代,数学思维的力量 [:1701022625]
1701024485 魔鬼数学:大数据时代,数学思维的力量 第10章 大数据与精准预测
1701024486
1701024487 在很多人眼里,大数据时代非常可怕,原因之一是:大数据时代隐晦地表明,如果有足够多的数据,算法(algorithm)的推理能力将超过人类。所有超能力都令人害怕:可以变形的存在令人害怕,能死而复生的存在令人害怕,推理能力超过人类的存在也令人害怕。令人害怕的事还有:塔吉特公司的客户营销分析小组建立的一个统计学模型,基于采购数据,能准确地推断出其中一个顾客(哦,对不起,应该是“客户”)怀孕了,推断的依据是明尼苏达州的这位少女购买的商品比较神秘,其中无香味的护肤液、矿物质补充剂以及棉球的数量有所增加。于是,塔吉特开始向这位少女派送婴儿服装优惠券,这一举动令女孩的父亲大为惊愕。作为人类,他的推理能力太弱,他还不知道自己的女儿怀孕了。生活在这个世界上,谷歌、脸谱网、智能手机甚至塔吉特公司,甚至比我们的父母更加了解我们,一想到这些,就不由得让人惴惴不安。
1701024488
1701024489 不过,我们也许应该少花点儿时间考虑那些能力超强的算法,而应该多花点儿时间考虑那些蹩脚的算法。
1701024490
1701024491 一方面,算法的结果可能是正确的,也可能非常蹩脚。的确,通过算法,硅谷的经营手段一年比一年老练,收集的数据越来越多,作用也越来越大。有人预测,未来谷歌会对我们了如指掌。通过归纳和分析数以百万计的微观察结果(在点击这个链接前他犹豫了多长时间,他的谷歌眼镜在那个上面停留了多长时间),中心备件库可以预测我们的喜好、欲望、行动,更重要的是,它还可以预测我们可能想购买什么,或者可能说服我们购买什么。
1701024492
1701024493 这种情况有可能发生,也有可能不会发生。在研究很多数学问题时,得到的数据越多,越能提高研究结果的准确度,而且准确度提高的幅度在很大程度上是可以预见的。如果要预测小行星的运行轨迹,我们需要测算它的速度与位置,还需要测算宇宙中其他天体的万有引力。相关数据越多、越精确,预测的准确度越高。
1701024494
1701024495 但是,有的预测就像天气预报一样,难度极大。在这种情况下,大量精确的数据以及可以迅速处理这些数据的算法可以一展它们的身手。1950年,早期的计算机“埃尼阿克”(ENIAC)需要花24个小时才能模拟出未来24个小时的天气,这是太空时代计算机在数据运算能力方面取得的令人叹为观止的成绩。2008年,人们用诺基亚6300手机重新进行了这项计算,耗时还不到1秒钟。现在,天气预报不仅更新更快,预报时效更长,也更准确。2010年普通的5天天气预报与1986年的三天天气预报相比,准确度不分伯仲。
1701024496
1701024497 随着数据收集能力的不断增强,我们想当然地认为预测水平也会越来越高:美国国家气象频道总部的服务器机房总有一天可以更精准地模拟整个大气层,如果想了解下个月的天气情况,我们只需要在运行模拟程序时将时间往前推进一点儿就可以了。
1701024498
1701024499 这不会成为现实。大气中的能量从非常小的区域迅速蔓延至全球大部分地区,所需的时间非常短,因此,某时某地的一个微不足道的变化可能会在随后几天里造成显著不同的结果。用技术术语来表述,就是天气情况是混沌无序的。事实上,爱德华·洛伦兹(Edward Lorenz)第一次提出“混沌”这个数学概念时,就是受到了天气预报的启发。洛伦兹说:“一位气象学家认为,如果该理论是正确的,海鸥的一次振翅就足以永久地改变天气变化的趋势。关于这个说法的争论还没有平息,但是近期的大多数证据似乎都支持这个说法。”
1701024500
1701024501 无论我们收集多少数据,天气预报的时效都是一个严格的限制条件。洛伦兹认为,这个时效大约是两周时间。到目前为止,尽管全世界的气象学家都在全神贯注地研究这个问题,但是我们仍然没有理由怀疑这个限制条件。
[ 上一页 ]  [ :1.701024452e+09 ]  [ 下一页 ]