1707630810
1707630812
霍金的派对:从科学天地到数码时代 2.谷歌的新思路
1707630813
1707630814
信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化,也吸引了越来越多的人对信息爆炸的前景进行着思考。不过与阿西莫夫当年那种忧虑性的思考不同,当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代,且对其前景作出了与前人截然不同的设想。2008年6月,美国的一位技术杂志的主编发表了一篇标新立异的文章,题目为《理论的终结:数据洪流让科学方法过时》(The End of Theory:The Data Deluge Makes the Scientific Method Obsolete)。
1707630815
1707630816
这份杂志名为《连线》(Wired),是一份以探讨技术影响力为主题的杂志,创刊于1993年,订阅人数在50万~100万之间。而撰写那篇文章的主编名叫安德森(Chris Anderson),是一位经验丰富的传媒人士,曾在《自然》(Nature)、《科学》(Science)及《经济学家》(The Economist)等著名刊物任职。安德森担任主编期间,《连线》杂志曾多次获奖,而安德森本人也在2005年获得过一项年度最佳主编奖。
1707630817
1707630818
安德森这篇文章的观点标新立异不说,就连标题也相当耸人听闻,不仅预言科学理论将会终结,而且宣称科学方法将会过时。他的这一奇异想法从何而来呢?我们来简单介绍一下他那篇文章的思路。安德森的文章以著名统计学家博克斯(George Box)的一句引文作为开篇,那句引文是:“所有模型都是错误的,但有些是有用的(all models are wrong but some are useful)。”安德森提出,虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象,但最近这些年里,像谷歌(Google)那样扎根于信息时代最前沿的公司已经采用了新的思路。
1707630819
1707630820
安德森举了谷歌翻译及谷歌广告作为例子。我们知道,常规的机器翻译是通过一系列静态的规则——比如字典及语法规则——来把握文章的内容。但谷歌翻译另辟蹊径,借助数以亿计来自不同语言的语句之间的统计关联来做翻译。这种翻译的最大特点是无需知道被翻译文字的含义,而只关心两种语言之间的统计关联。类似地,使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的。谷歌既不在乎你搜索的东西的含义,也不关心它所显示的广告是什么,它之所以列出那些广告,完全是因为统计关联表明它们与你搜索的东西有关。
1707630821
1707630822
谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。据说谷歌的研究主管诺维格(Peter Norvig)曾在2008年3月的一次技术会议上,将安德森文章开头所引的博克斯的话改成了“所有模型都是错误的,没有它们你也能日益成功”。谷歌这种新思路给了安德森很大的启发。他做出了一个大胆的预测:谷歌的新思路不仅适用于商业,而且会越来越多地渗透到科学上,并如他文章标题所说的那样,最终取代现有的科学方法。在他看来,科学才是这种新思路的“大目标”(big target)。
1707630823
1707630824
我们知道,科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论,然后用新的实验或观测来检验它们。安德森认为这种模式在信息时代的数据洪流中将会过时,今后人们只需像谷歌那样直接从大量数据的统计关联中得出结论就行了。用他的话说:“关联就已足够,我们可以停止寻找模型。”按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学无法发现的关联。那些关联将取代因果关系,科学将摆脱模型和理论而继续前进。
1707630825
1707630826
如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论。这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?
1707630827
1707630828
安德森对科学理论及科学方法的全面唱衰所具有的争议性是显而易见的。他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志。(谁让安德森是主编呢?)比如卡内基梅隆大学(Carnegie Mellon University)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发“等候室时间”(waiting-room time)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间。有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景其实倒是光明的。
1707630829
1707630830
当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析。我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下。如我们在前面所介绍的,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学研究的范例。既然如此,就让我们先以谷歌翻译为例考察一下,看它是否有可能承载安德森赋予它们的重任。
1707630831
1707630832
1707630833
1707630834
1707630836
霍金的派对:从科学天地到数码时代 3.统计方法与高级密码
1707630837
1707630838
常言道:是骡子是马,拉出来遛遛。考察谷歌翻译的最佳办法当然是检验它的翻译效果。我们随便举几个例子。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结:数据洪流让科学方法过时”,谷歌翻译给出的英译中结果是“理论的终结:数据洪水滔天使废弃的科学方法”。这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷。如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷。
1707630839
1707630840
谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(Isaac Newton)的那段名言:
1707630841
1707630842
我不知道我在别人眼里是怎样的,但对我自己来说我只不过像是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋。
1707630843
1707630844
用谷歌翻译给出的英译中结果是(5):
1707630845
1707630846
我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现。
1707630847
1707630848
要看懂这种比绕口令还拗口的翻译是需要毅力的。谷歌翻译能作为未来科学研究的范例吗?答案应该是不言而喻的。
1707630849
1707630850
安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statistical learning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的。
1707630851
1707630852
如果我们稍稍深入地思考一下,就会发现谷歌的思路人们在其他场合也曾用过。举个例子来说,密码学中有一种简单的密码叫做置换密码(substitution cipher),它是通过对字母或其他文字单元进行置换来达到加密的目的。破译这种密码的主要途径就是统计分析。比如在英文中字母e是出现频率最高的,假如我们截获了一份经过字母置换加密的文件,我们就可以对文件中各符号的使用频率进行统计,其中使用频率最高的符号就很可能代表字母e。对其他字母也可如法炮制,这种方法类似于谷歌翻译。但密码学上的经验告诉我们,单纯使用统计方法是很难完全破译一份密码的,通常你会碰对一些字母或文字单元,就像谷歌翻译会碰对一些单词一样,但完整的破译往往需要辅以更仔细的分析和微调。更重要的是,这种方法只能破译像置换密码那样初级的密码,对于更复杂的密码则完全无能为力。
1707630853
1707630854
科学家们对自然规律的研究在一定程度上好比是在破译大自然的密码,但这种密码显然不像置换密码那样简单,因而绝不可能通过单纯的统计分析来破译。积累足够多有关行星运动的数据,我们也许能发现开普勒定律,但无论积累多少数据,我们也不可能依靠单纯的统计分析得到像爱因斯坦的广义相对论那样的理论。事实上,单纯的统计分析至多能够知其然,却无法知其所以然,它甚至不能告诉我们行星的运动是不是因为一个看不见的精灵在推动。科学是一项需要高度创造力的工作,科学上的很多成果,仅凭实验数据、发达的计算机和统计分析是永远也得不到的,这就好比用破译置换密码的方法永远也破译不了更高级的密码。
1707630855
1707630856
1707630857
1707630858
[
上一页 ]
[ :1.70763081e+09 ]
[
下一页 ]