1701012688
1701012689
除了“摘樱桃”,应用不恰当统计方法的错误也比比皆是,这是因为统计方法有很多种,但并不是所有方法都适用于所有情况。最常见的问题也许是样本过小和样本选取不当。很多“软科学”实验的参与者比较少,往往很难得出明确的结论。样本选取不当的问题之所以经常发生,原因是人们在选择参与者时往往会选择有利于某种观点的人。曾经有人在调查最受欢迎汽车的活动中,选择的样本都是当时拥有某个特定车型汽车的人,这是一个非常典型的样本选取不当的例子,这个样本肯定不能代表所有人。
1701012690
1701012691
实验设计也有可能影响结果的公正性。在心理学的某些领域,实验者往往希望实验结果与他们的预期之间只有非常细微的偏差。假设在完全随机的条件下,我们预期某个实验得到A、B两种结果的机会各占一半。于是,我们准备进行多轮实验,以便得到更准确的数据。比如,进行25轮实验。选择做奇数轮实验,两种结果就不可能恰好各占50%的比例。
1701012692
1701012693
从很多实验可以看出,实验者收集的数据很可能是机缘巧合的结果。经常有报告宣称某种超心理能力肯定存在,因为碰巧出现这些结果的概率非常低。但是,实验者在发布这些信息的时候有些操之过急。原因之一在于,心理学家预防巧合发生的力度远小于物理学家。如果出现随机条件下发生概率为5%的结果,心理学实验人员通常就会认为这不是一种随机结果,尽管这种小概率结果经常出现。更糟糕的是,仅仅证明实验结果可能不是随机结果,往往不能证明某个假设是真实的,也就是说,不能证明这些是超心理能力作用的结果。
1701012694
1701012695
虽然研究人员使用统计工具的过程无可挑剔,但是由于数据解读的问题,他们仍然很难解释实验结果的含义。欧洲核子研究中心大型强子对撞机寻找希格斯玻色子的项目显然就遇到了这个难题。希格斯玻色子是粒子物理学标准模型预言的一种粒子,这种粒子可以使其他粒子具有质量。发现希格斯玻色子与在野外发现一只稀有的老虎是不同的。看到老虎,你可以捕捉、拍照或者取血样并验DNA(脱氧核糖核酸),以确定你看到的确实是一只老虎。但是在寻找希格斯玻色子时,这些方法全部失去了作用。别的不说,实验并没有真的让我们看到希格斯玻色子,而是其他粒子留下来的间接痕迹,实验者认为这些痕迹是希格斯玻色子衰变造成的。由于不是直接证明,实验人员只能通过发生概率来解释,问题也随之而来了。
1701012696
1701012697
科学家经常用“西格玛”(σ)这个符号表示标准差这个统计量度。如果把某个事件随机产生某些结果的频率绘制成图,往往就会得到一种叫作正态分布的钟形曲线。比如,手机的重量大多位于某个范围之内,均匀地分布在平均重量的周围。
1701012698
1701012699
并不是所有的随机事件都遵循正态分布的规律,因为根据这些信息绘制成的图形不是钟形曲线。有的教科书以人的身高为例,介绍数据集的正态分布特点。但是,这个例子并不恰当。美国男性公民的平均身高大约是5英尺6英寸[2],从这个数字就能看出一些问题,因为典型美国男性公民的身高(用统计学术语来表示,就是中位身高)超过这个高度。分布图的右侧表示身高越来越高,但在超过平均身高1英尺之后,人数就变得非常少了,超过6英尺6英寸的人更是寥寥无几。然而,分布图向左延伸的幅度较大,最左侧的身高比平均身高低2英尺多。这个图像并不是真正的正态分布曲线,而是向右“倾斜”,在左侧留下了一个扁扁的长尾巴。
1701012700
1701012701
标准差是分布形态的一个量度(只在正态分布这种对称分布中才有效)。标准差表示数据的离散程度,可以告诉我们数据是四处分散还是聚拢在平均数周围。如果数据的离散程度是一个标准差,则表示作为随机事件,统计结果有略高于68%的可能性会落在距离平均值一个标准差的范围内。如果数据的离散程度是两个标准差,统计结果有约95%的可能性落在距离平均值两个标准差的范围内。心理学等“软科学”经常采用这种统计方法。但希格斯玻色子数据分布的离散程度是5个标准差。也就是说,我们所寻找的事件落在距离平均值5个标准差范围之外的概率是350万分之一。但是,如果从他们发现的就是希格斯玻色子的置信度这个角度来考虑,又该如何解释这个实验结果呢?
1701012702
1701012703
因此,媒体在报道这项研究时,不得不面对一个可怕的雷区。数据表明大型粒子对撞机给出的结果是一个巧合的可能性非常低。但是,与萨莉·克拉克案一样,我们也不能反过来说,因为巧合发生的可能性非常低,所以希格斯玻色子存在的可能性非常高。数据并不能证明希格斯玻色子可能存在,而只能表明这些数据事出有因的可能性非常高,而且我们猜测造成这个结果的“因”可能就是希格斯玻色子。
1701012704
1701012705
更糟糕的是,两者之间的区别十分微妙,几乎不可避免地会造成误读。有的新闻媒体报道,实验结果表明,不存在希格斯玻色子的可能性是350万分之一。但是,统计数据实际上表明,这些数据事出无因的可能性是350万分之一。这项统计指标并没有说实验结果是巧合导致的可能性非常低,而是说在没有原因的情况下产生这些数据的可能性非常低。这就好比一个人说“从这些结果看,事出无因的可能性非常小”(错误),另一个人说“考虑到这是一个百分之百的随机事件,出现这些结果的频率非常低”(正确),两个人的说法是不一样的。所强调的内容有微小的不同,对于科研的意义却相距甚远。
1701012706
1701012707
一言以蔽之,只要运用得当,概率与统计学可以和现实世界实现完美的契合。这样说是有道理的。我们不是利用抽象的数学为现实世界的某个过程建模,而是测量现实世界的某个基于数据的事实或准事实(例如,“抛一枚质地均匀的硬币,得到正面和反面的概率都是1/2”),并在确认这个数据事实成立之后才使用相关的计算方法。与其说我们利用数学探索宇宙的奥秘,不如说我们是在使用数学研究数字的秘密。
1701012708
1701012709
即使在使用概率和统计学这两大武器时没有犯错误,我们也会遇到一些问题,主要是因为我们无法轻而易举地洞悉一切。我们通过规律去认识、了解周围的世界,即使有的时候根本不存在任何规律,我们也能“找到”规律。尽管我们知道事件的随机性与非正态分布是它们的真实属性,但我们却感到不舒服。正因为如此,即使专业人士在使用基于概率的统计工具时,也必须小心谨慎。
1701012710
1701012711
实践证明,对于以数学为基础的物理学(不仅仅是寻找希格斯玻色子)而言,概率与统计的重要性在不断增加。但是,人们还没来得及证明概率是构成所有物质的粒子的核心属性之一,数学就已经把科学思维推到了另外一个临界点,一个光芒四射的临界点。
1701012712
1701012713
[1]在三牌赌皇后游戏中,作弊者用一只手拿着三张牌,然后用另一只手将这三张牌展开。在操作时,要让其他人以为他每次拿的都是最下面那张牌。但是,通过不断练习,作弊者可以从最上面拿牌而不被人发觉,尤其是当这些牌稍稍弯曲时,作弊的效果更好。
1701012714
1701012715
[2]1英尺约合30.5厘米,1英寸约合2.5厘米。——译者注
1701012716
1701012717
1701012718
1701012719
1701012721
数学世界的探奇之旅 第11章 麦克斯韦:关于电磁波的数学方程组
1701012722
1701012723
1701012724
1701012725
1701012726
几年前,我在伦敦的英国皇家研究院(RI)参加过一次辩论会。辩论会的主题很有意思——谁是历史上的第一位科学家。4个人选都不出意外地在本书中占有一席之地。在辩论过程中,阿基米德和罗吉尔·培根(由我提名)的早期成果在伽利略面前相形见绌,后者凭借现代科学成就最终胜出。但是,研究院常驻科学史学家提名的候选人却是比伽利略在历史上出现的时间晚得多的詹姆斯·克拉克·麦克斯韦。
1701012727
1701012728
麦克斯韦角逐这个头衔有一个不是很公平的理由——“科学家”这个词在他那个时代才正式出现。在那之前,人们普遍使用的是一个拗口的名称——“自然哲学家”。1834年,人们认为,既然从事艺术工作的人被称作艺术家(artist),那么把从事科学研究的人称作科学家(scientist)似乎是合情合理的。(当时,他们提出了几个备选方案,值得庆幸的是,他们最终没有选择“博学之士”这个词。)但是,在那次辩论会上,人们支持麦克斯韦的理由却更加微妙:麦克斯韦是科学领域中让数学彻底摆脱现实的束缚,并在他提出的理论中有所体现的第一人。
1701012729
1701012730
当然,麦克斯韦不是第一个使用数学工具的科学家。我们知道,牛顿早已用他的数学知识构造出一个蔚为壮观的科学魔法世界。麦克斯韦在电磁学领域取得的研究成果虽然与光的本质有关,但是与数学的联系更加紧密。最终版本的麦克斯韦方程组浑然天成,充满美感,完全摆脱了与物理现实的联系,是直接源自数学公式的产物。同时,它也开启了离经叛道的痛苦历程。牛顿处心积虑地为自己的基础数学罩上了一层晦涩难懂的外衣,一旦脱下这层外衣,我们就会发现它特别简单。但是,漫不经心的观察者是无法理解麦克斯韦的研究成果的,他们唯一的选择就是毫不犹豫地接受它。这一点对于科学本身,对于帮助科学赢得社会支持,都具有非常深远的意义。
1701012731
1701012732
如果你从未听说过麦克斯韦,也不会令人感到特别奇怪。如果在科学家当中做一次问卷调查,请他们提供三个名字:历史上最伟大的物理学家、有史以来最受他们喜爱的物理学家和最被普通大众低估的物理学家,结果一定非常有意思。艾萨克·牛顿和阿尔伯特·爱因斯坦的名字肯定会出现在第一个名单中,理查德·费曼应该可以轻松地在第二个名单上名列前茅,而詹姆斯·克拉克·麦克斯韦则很有可能成功当选最被普通大众低估的物理学家。值得注意的是,爱因斯坦的书房墙壁上挂着三个人的照片:牛顿、法拉第和麦克斯韦。
1701012733
1701012734
介绍麦克斯韦生平的科普读物非常多,但是我认为仍然有必要告诉你们他这个不同寻常的姓名是怎么来的。麦克斯韦的父亲本来名叫约翰·克拉克,但是约翰的父亲继承了克拉克家族麦克斯韦系的庄园和头衔。约翰的父亲死后,约翰的哥哥又继承了这个头衔和位于米德尔比的主体庄园,约翰则继承了位于哥伦莱尔的子庄园,并且从此以后,他在姓名中添加了“麦克斯韦”,以强调这种关系。因此,詹姆斯出生后,他的姓就是克拉克·麦克斯韦,简写为麦克斯韦。
1701012735
1701012736
由于家境殷实,麦克斯韦从小就自由自在,而且有机会深入探索附近村庄的自然史。他后来进入爱丁堡大学,攻读物理学学士学位,之后又进入著名的剑桥大学。毕业后,他先后在剑桥大学、阿伯丁大学和伦敦大学国王学院任职。接着,他离开大学校园,回到哥伦莱尔庄园,潜心做研究。这种没有压力的生活让他感觉十分惬意。直到剑桥大学成立卡文迪什实验室(在这个新实验室的推动下,剑桥大学一举抢占了当代物理学研究的核心地位),冲着第一个卡文迪什教授的头衔,麦克斯韦才又回到剑桥大学,继续他的学术生涯。
1701012737
[
上一页 ]
[ :1.701012688e+09 ]
[
下一页 ]