打字猴:1.707630825e+09
1707630825
1707630826 如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论。这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?
1707630827
1707630828 安德森对科学理论及科学方法的全面唱衰所具有的争议性是显而易见的。他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志。(谁让安德森是主编呢?)比如卡内基梅隆大学(Carnegie Mellon University)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发“等候室时间”(waiting-room time)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间。有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景其实倒是光明的。
1707630829
1707630830 当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析。我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下。如我们在前面所介绍的,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学研究的范例。既然如此,就让我们先以谷歌翻译为例考察一下,看它是否有可能承载安德森赋予它们的重任。
1707630831
1707630832
1707630833
1707630834
1707630835 霍金的派对:从科学天地到数码时代 [:1707629799]
1707630836 霍金的派对:从科学天地到数码时代 3.统计方法与高级密码
1707630837
1707630838 常言道:是骡子是马,拉出来遛遛。考察谷歌翻译的最佳办法当然是检验它的翻译效果。我们随便举几个例子。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结:数据洪流让科学方法过时”,谷歌翻译给出的英译中结果是“理论的终结:数据洪水滔天使废弃的科学方法”。这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷。如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷。
1707630839
1707630840 谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(Isaac Newton)的那段名言:
1707630841
1707630842 我不知道我在别人眼里是怎样的,但对我自己来说我只不过像是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋。
1707630843
1707630844 用谷歌翻译给出的英译中结果是(5):
1707630845
1707630846 我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现。
1707630847
1707630848 要看懂这种比绕口令还拗口的翻译是需要毅力的。谷歌翻译能作为未来科学研究的范例吗?答案应该是不言而喻的。
1707630849
1707630850 安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statistical learning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的。
1707630851
1707630852 如果我们稍稍深入地思考一下,就会发现谷歌的思路人们在其他场合也曾用过。举个例子来说,密码学中有一种简单的密码叫做置换密码(substitution cipher),它是通过对字母或其他文字单元进行置换来达到加密的目的。破译这种密码的主要途径就是统计分析。比如在英文中字母e是出现频率最高的,假如我们截获了一份经过字母置换加密的文件,我们就可以对文件中各符号的使用频率进行统计,其中使用频率最高的符号就很可能代表字母e。对其他字母也可如法炮制,这种方法类似于谷歌翻译。但密码学上的经验告诉我们,单纯使用统计方法是很难完全破译一份密码的,通常你会碰对一些字母或文字单元,就像谷歌翻译会碰对一些单词一样,但完整的破译往往需要辅以更仔细的分析和微调。更重要的是,这种方法只能破译像置换密码那样初级的密码,对于更复杂的密码则完全无能为力。
1707630853
1707630854 科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码,但这种密码显然不像置换密码那样简单,因而绝不可能通过单纯的统计分析来破译。积累足够多有关行星运动的数据,我们也许能发现开普勒定律,但无论积累多少数据,我们也不可能依靠单纯的统计分析得到像爱因斯坦的广义相对论那样的理论。事实上,单纯的统计分析至多能够知其然,却无法知其所以然,它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的,这就好比用破译置换密码的方法永远也破译不了更高级的密码。
1707630855
1707630856
1707630857
1707630858
1707630859 霍金的派对:从科学天地到数码时代 [:1707629800]
1707630860 霍金的派对:从科学天地到数码时代 4.数据洪流中的灯塔
1707630861
1707630862 谷歌新思路的另一个问题,是不可避免地受到大量无效信息的干扰。这一点想必每位网民都有自己的切身体会,互联网既是信息库,也是垃圾场,数据洪流必然携带泥沙。怎么办呢?让我们回过头来看看本文开头提到过的阿西莫夫为自己对信息时代的担忧找到的答案。那答案就是他那篇文章的标题:忘掉它!忘掉什么呢?忘掉那些无效信息。这位智商高达160的著名作家认为,只要我们能足够有效地忘掉所有的无效信息,信息爆炸就远没有人们想象得那样可怕。
1707630863
1707630864 如果数据洪流真的如安德森设想的那样成为未来科学研究的主战场,那么对未来的研究者来说至关重要的一点就是阿西莫夫所说的忘掉无效信息,或者说去除数据洪流中的泥沙。要想做到这一点,首先要能识别无效信息,而这种识别离不开模型或理论,甚至它本身就有可能是一种模型或理论。如果未来的科学研究真的摒弃了模型或理论,而只关心数据之间的关联,那它在泥沙俱下的数据洪流中不仅会遇到谷歌翻译与谷歌广告已经遇到过的问题,甚至还可能产生出一些荒谬的结果,比如像很多伪科学人士所热衷的那样把金字塔的高度(曾经为147米)与日地距离(1.49亿千米)联系起来,把金字塔的底边周长(36560英寸)与一年的天数(365.2)联系在一起。这种纯粹的数值巧合在科学研究单纯依赖于数据分析的情形下将能够轻易地登堂入室,混淆于科学成果之中。
1707630865
1707630866 我们曾经提到,安德森在文章开头引用了博克斯的话:“所有模型都是错误的,但有些是有用的”,他引用这句话显然是要为自己的观点作注解。可惜他张冠李戴了,博克斯是一位统计学家,他所说的模型并非泛指科学理论或科学模型,而是特指统计模型。因此博克斯的话与其说是能为安德森的观点作注解,不如说恰恰是拆了他的台。
1707630867
1707630868 不过另一方面,统计分析虽绝不可能如安德森预言的那样一统天下,取代科学方法,但它作为科学方法的一种,在过去、现在及将来都将发挥积极的作用,这一点是任何人也否认不了的。正如博克斯的后半句话所说的:有些模型是有用的。在数据总量空前膨胀的信息时代,统计分析的作用有可能得到局部的加强;在某些理论性不很强的领域中,它甚至有可能成为主要方法,从这些意义上讲,安德森的观点虽失之偏颇,却并非完全脱靶。不过我们可以肯定的是,面对滚滚而来的数字洪流,科学方法绝不是即将被冲离视野的竹筏,相反,它是帮助我们在洪流中辨明方向,看清未来的灯塔。
1707630869
1707630870 (1) 本文发表于《科学画报》2009年第5期(上海科学技术出版社出版)。
1707630871
1707630872 (2) 该书的英文名为《Asimov on Numbers》,确切译名应该是《阿西莫夫论数》,它汇集了阿西莫夫撰写的17篇科学专栏文章。
1707630873
1707630874 (3) 这家公司是国际数据公司(International Data Corporation,IDC),该统计报告发布于2008年3月,标题为The Diverse and Exploding Digital Universe。
[ 上一页 ]  [ :1.707630825e+09 ]  [ 下一页 ]