打字猴:1.701024461e+09
1701024461 这是我们应该追求的理想做法,但是,在实际操作中,科学的免疫作用受到了抑制。当然,有些实验难以重复。如果我们的研究内容是检验4岁儿童延迟满足的能力,以及这项能力与该儿童30年后的生活状况之间的相关性,那么我们无法轻易地通过重复实验验证这项研究结果。
1701024462
1701024463 但是,即使可以通过重复实验验证的研究结果,也很少得到重复实验的验证。所有杂志都希望发表重大发现,有哪家愿意发表重复一年前的实验且得出相同结果的论文呢?更糟糕的是,如果做了重复实验却没有得出具有统计学显著性的结果,那么这篇论文会面临什么样的命运呢?为了保证科研体系的正常运行,这些实验结果也应该向公众公开,但它们却被锁进了文件柜。
1701024464
1701024465 不过,文化并不是一成不变的。约安尼迪斯、西蒙逊等改革派大声疾呼,告诫人们科学研究正面临着沦落为大规模肠卜术的风险。呼吁的对象不仅限于科学界,还延伸至全体大众,使人们产生了新的危机感。2013年,美国心理科学协会宣布,他们愿意发表一种叫作“重复实验报告”的新类型论文。这类报告的目的是通过重复实验验证被广泛引用的研究结果,在处理程序上与普通论文有很大的不同:在研究开始之前,必须就重复实验的结果提出发表申请。如果重复实验的结果支持原发现,就是个好消息;如果两者不一致,那也没关系,照样可以公开发表,让整个学术界都能完整地了解该项研究结果的重复实验情况。另外一个科研项目——“多实验室计划”(Many Labs project),旨在通过重复实验验证心理学方面的著名成果。2013年11月,该计划的第一批重复实验结果产生了,在接受重复实验验证的13项研究结果中,有10项验证成功,这让心理学家们感到欢欣鼓舞。
1701024466
1701024467 当然,在重复实验的最后阶段,必须做出判断和制定标准。费舍尔说的“几乎都能表现出”中的“几乎”到底有什么含义呢?如果我们随随便便就为这个概念赋予一个临界值(比如,“如果某个结果在超过90%的实验中具有统计学显著性,则该结果为真”),我们就有可能再次陷入麻烦。
1701024468
1701024469 费舍尔认为,设置一条一成不变的红线的做法是不妥当的,费舍尔不相信理论数学的形式主义。1956年,已经进入垂暮之年的费舍尔指出:“事实上,科研人员不会设置一个固定的显著性程度,然后年复一年,无论情况如何变化,都依据这个红线推翻各个假设。相反,他们会在证据的启示下,结合自己的想法,认真考虑每一个具体案例。”
1701024470
1701024471 在后文,我们将讨论如何使“证据的启示”变得更加具体。
1701024472
1701024473 [1]xkcd漫画是由兰德尔·门罗(Randall Munroe)绘制的网络漫画。作者给它的定位是“关于浪漫、讽刺、数学和语言的网络漫画”。
1701024474
1701024475 [2]所有这些例子都选自健康心理学家马修·汉金斯(Matthew Hankins)的博客。汉金斯对于非显著性实验结果颇有研究,他的博客中收集了大量诸如此类的说辞。
1701024476
1701024477 [3]所有数字都是我杜撰的。原因之一在于,真实的置信区间计算非常复杂,限于篇幅,我做了这样的处理。
1701024478
1701024479 [4]这个说法有过分简单化的嫌疑。费舍尔、内曼与皮尔逊的寿命及创作生涯都比较长,在几十年的时间内,他们的观点与立场不断改变。我在简单描述他们在哲学观上的分歧时,忽略了他们思想中的很多重要组成部分。他们之间最突出的分歧是:相较于皮尔逊,内曼更加坚定地认为统计学的第一要务是决策。
1701024480
1701024481
1701024482
1701024483
1701024484 魔鬼数学:大数据时代,数学思维的力量 [:1701022625]
1701024485 魔鬼数学:大数据时代,数学思维的力量 第10章 大数据与精准预测
1701024486
1701024487 在很多人眼里,大数据时代非常可怕,原因之一是:大数据时代隐晦地表明,如果有足够多的数据,算法(algorithm)的推理能力将超过人类。所有超能力都令人害怕:可以变形的存在令人害怕,能死而复生的存在令人害怕,推理能力超过人类的存在也令人害怕。令人害怕的事还有:塔吉特公司的客户营销分析小组建立的一个统计学模型,基于采购数据,能准确地推断出其中一个顾客(哦,对不起,应该是“客户”)怀孕了,推断的依据是明尼苏达州的这位少女购买的商品比较神秘,其中无香味的护肤液、矿物质补充剂以及棉球的数量有所增加。于是,塔吉特开始向这位少女派送婴儿服装优惠券,这一举动令女孩的父亲大为惊愕。作为人类,他的推理能力太弱,他还不知道自己的女儿怀孕了。生活在这个世界上,谷歌、脸谱网、智能手机甚至塔吉特公司,甚至比我们的父母更加了解我们,一想到这些,就不由得让人惴惴不安。
1701024488
1701024489 不过,我们也许应该少花点儿时间考虑那些能力超强的算法,而应该多花点儿时间考虑那些蹩脚的算法。
1701024490
1701024491 一方面,算法的结果可能是正确的,也可能非常蹩脚。的确,通过算法,硅谷的经营手段一年比一年老练,收集的数据越来越多,作用也越来越大。有人预测,未来谷歌会对我们了如指掌。通过归纳和分析数以百万计的微观察结果(在点击这个链接前他犹豫了多长时间,他的谷歌眼镜在那个上面停留了多长时间),中心备件库可以预测我们的喜好、欲望、行动,更重要的是,它还可以预测我们可能想购买什么,或者可能说服我们购买什么。
1701024492
1701024493 这种情况有可能发生,也有可能不会发生。在研究很多数学问题时,得到的数据越多,越能提高研究结果的准确度,而且准确度提高的幅度在很大程度上是可以预见的。如果要预测小行星的运行轨迹,我们需要测算它的速度与位置,还需要测算宇宙中其他天体的万有引力。相关数据越多、越精确,预测的准确度越高。
1701024494
1701024495 但是,有的预测就像天气预报一样,难度极大。在这种情况下,大量精确的数据以及可以迅速处理这些数据的算法可以一展它们的身手。1950年,早期的计算机“埃尼阿克”(ENIAC)需要花24个小时才能模拟出未来24个小时的天气,这是太空时代计算机在数据运算能力方面取得的令人叹为观止的成绩。2008年,人们用诺基亚6300手机重新进行了这项计算,耗时还不到1秒钟。现在,天气预报不仅更新更快,预报时效更长,也更准确。2010年普通的5天天气预报与1986年的三天天气预报相比,准确度不分伯仲。
1701024496
1701024497 随着数据收集能力的不断增强,我们想当然地认为预测水平也会越来越高:美国国家气象频道总部的服务器机房总有一天可以更精准地模拟整个大气层,如果想了解下个月的天气情况,我们只需要在运行模拟程序时将时间往前推进一点儿就可以了。
1701024498
1701024499 这不会成为现实。大气中的能量从非常小的区域迅速蔓延至全球大部分地区,所需的时间非常短,因此,某时某地的一个微不足道的变化可能会在随后几天里造成显著不同的结果。用技术术语来表述,就是天气情况是混沌无序的。事实上,爱德华·洛伦兹(Edward Lorenz)第一次提出“混沌”这个数学概念时,就是受到了天气预报的启发。洛伦兹说:“一位气象学家认为,如果该理论是正确的,海鸥的一次振翅就足以永久地改变天气变化的趋势。关于这个说法的争论还没有平息,但是近期的大多数证据似乎都支持这个说法。”
1701024500
1701024501 无论我们收集多少数据,天气预报的时效都是一个严格的限制条件。洛伦兹认为,这个时效大约是两周时间。到目前为止,尽管全世界的气象学家都在全神贯注地研究这个问题,但是我们仍然没有理由怀疑这个限制条件。
1701024502
1701024503 人类的行为更像小行星,还是与天气情况更类似呢?这当然取决于我们讨论的是人类哪个方面的行为。至少在某个方面,人类行为应该比天气更加难以预测。我们已经为天气建立了一个效果极佳的数学预测模型,尽管天气内在的混沌特性最终必将胜出,但在获取更多的数据之后,我们借助这个数学模型,仍有可能提高短期天气预报的准确性。而关于人类行为,我们还没有这样的预测模型,而且可能永远都不会有,所以预测人类行为的难度要大得多。
1701024504
1701024505 2006年,在线娱乐公司奈飞(Netflix)举行了一个奖金额高达100万美元的竞赛,让全世界的参赛者编写一个向顾客推荐影片的算法,而且效果要胜过奈飞公司自己研发的产品。活动有效期不是很长,因为奈飞公司规定,只要有人第一个编写出推荐效果比奈飞产品优越10%的算法,他就是赢家。
1701024506
1701024507 参与竞赛的人收到一个巨大的文件,其中包含100万个匿名的影片评级,涉及17 700部电影,来自近50万名奈飞用户。编程的难点在于预测用户会如何评价自己没看过的影片。参赛者手里有大量数据,都与他们准备预测的顾客行为有直接相关性。但是,这种预测的难度非常大,直到三年后才有人获胜,而且还是几个小组联合起来,将各自近乎完美的算法程序结合到一起,才勉强达到要求。但是,在这项竞赛尚未结束时,奈飞公司的业务已经从邮寄电影DVD(数字多功能光盘)转变为向顾客提供在线流媒体影片服务,影片推荐效果不佳也不再是一个大问题了。如果我们曾经接受过奈飞(或者亚马逊、脸谱网等尝试基于所收集的客户信息向客户推荐产品的网站)的服务,就会知道这些推荐的效果仍然非常差。如果在用户的档案资料中添加更多的数据流,推荐效果也许会有所提升,当然,也有可能不会提升。
1701024508
1701024509 然而,在收集数据的公司看来,情况并不像以上描述的那么糟糕。如果塔吉特仅凭跟踪你的会员积分卡的使用情况,就能够百分之百地确定你怀孕了,对他们来说这当然是个好消息。可是,他们做不到。然而,如果能够把猜测你是否怀孕的准确度提高10%,这就是个好消息。谷歌的情况也是一样,他们无须了解我们到底想要购买什么产品,只要他们的想法优于他们的竞争对手即可。公司的利润通常并不是很丰厚,客户行为预测的准确度提高10%,在我们看来并不是什么了不起的事,但对公司而言则可能意味着大笔利润。在那次大赛期间,我找到了奈飞公司负责影片推荐业务的副总裁吉姆·班尼特(Jim Bennett),问他为什么会提供那么一大笔奖金。他告诉我,我应该问的问题是奖金为什么那么少。推荐效果提高10%,尽管这个数字看起来很小,但是公司很快就能赚回那100万美元奖金,而且比再拍摄一部《速度与激情》(Fast and Furious)还要快。
1701024510
[ 上一页 ]  [ :1.701024461e+09 ]  [ 下一页 ]