打字猴:1.707630802e+09
1707630802 阿西莫夫在那篇文章的开头引用了一本生物教科书的前言片段,大意是说我们的科学知识每隔一代就会增加几倍,以生物学为例,2000年的知识将是1900年的100倍。那段话让阿西莫夫深感不安,甚至感到“世界好像在我身边崩溃了”。为什么呢?因为在阿西莫夫看来,像他这样快速写作的科普作家,几乎是在职业性地追逐科学的发展,可在一个信息爆炸的时代里,他有可能追得上形势吗?
1707630803
1707630804 阿西莫夫在那篇文章中为自己的问题找到了答案。不过,我们先不去看他的答案。阿西莫夫那篇文章发表于1964年,在那之前的1961年,“信息爆炸”(information explosion)这一用语首次出现在了IBM公司的一则广告中。自那以后,信息爆炸一直拨动着人们的心弦。也许很多人都会产生与阿西莫夫同样的担忧:在一个信息爆炸的时代里,我有可能追得上形势吗?
1707630805
1707630806 如果我们把阿西莫夫时代的信息爆炸比作常规爆炸,那么由互联网及信息数字化所带来的当代信息爆炸恐怕就是核爆炸了。因为常规的信息爆炸只是书本知识的爆炸,而能在书本上占据一席之地的人毕竟是不多的。但互联网时代几乎让每个人都拥有了发布信息的能力,由此带来的信息爆炸无疑要惊人得多。据一家美国研究机构统计(3),截至2007年,人类拥有的数字化信息——文字和音像都算在内——约有225000亿亿比特(2.25×1021b),约合15000亿亿个汉字,而且这一数字几乎每隔5年就增加一个数量级。在这些信息中,约70%是个人创造的。以时下最流行的博客来说,其数量在过去几年里几乎每6个月就翻一番。到2008年底,仅中国网民开设博客者就超过了1.6亿人(4)。
1707630807
1707630808
1707630809
1707630810
1707630811 霍金的派对:从科学天地到数码时代 [:1707629798]
1707630812 霍金的派对:从科学天地到数码时代 2.谷歌的新思路
1707630813
1707630814 信息爆炸——尤其是互联网上的信息爆炸——带来了一系列深刻的社会变化,也吸引了越来越多的人对信息爆炸的前景进行着思考。不过与阿西莫夫当年那种忧虑性的思考不同,当代的思考者中有很多人全心地拥抱着这个信息爆炸的新时代,且对其前景作出了与前人截然不同的设想。2008年6月,美国的一位技术杂志的主编发表了一篇标新立异的文章,题目为《理论的终结:数据洪流让科学方法过时》(The End of Theory:The Data Deluge Makes the Scientific Method Obsolete)。
1707630815
1707630816 这份杂志名为《连线》(Wired),是一份以探讨技术影响力为主题的杂志,创刊于1993年,订阅人数在50万~100万之间。而撰写那篇文章的主编名叫安德森(Chris Anderson),是一位经验丰富的传媒人士,曾在《自然》(Nature)、《科学》(Science)及《经济学家》(The Economist)等著名刊物任职。安德森担任主编期间,《连线》杂志曾多次获奖,而安德森本人也在2005年获得过一项年度最佳主编奖。
1707630817
1707630818 安德森这篇文章的观点标新立异不说,就连标题也相当耸人听闻,不仅预言科学理论将会终结,而且宣称科学方法将会过时。他的这一奇异想法从何而来呢?我们来简单介绍一下他那篇文章的思路。安德森的文章以著名统计学家博克斯(George Box)的一句引文作为开篇,那句引文是:“所有模型都是错误的,但有些是有用的(all models are wrong but some are useful)。”安德森提出,虽然人们长期以来一直在用模型——比如宇宙学模型——来解释现象,但最近这些年里,像谷歌(Google)那样扎根于信息时代最前沿的公司已经采用了新的思路。
1707630819
1707630820 安德森举了谷歌翻译及谷歌广告作为例子。我们知道,常规的机器翻译是通过一系列静态的规则——比如字典及语法规则——来把握文章的内容。但谷歌翻译另辟蹊径,借助数以亿计来自不同语言的语句之间的统计关联来做翻译。这种翻译的最大特点是无需知道被翻译文字的含义,而只关心两种语言之间的统计关联。类似地,使谷歌获得巨大利润的谷歌广告——那些当你搜索东西时出现在结果右侧的小广告——也是建立在统计关联之上的。谷歌既不在乎你搜索的东西的含义,也不关心它所显示的广告是什么,它之所以列出那些广告,完全是因为统计关联表明它们与你搜索的东西有关。
1707630821
1707630822 谷歌这种全面依赖统计分析的新思路几乎体现在它的所有产品之中。据说谷歌的研究主管诺维格(Peter Norvig)曾在2008年3月的一次技术会议上,将安德森文章开头所引的博克斯的话改成了“所有模型都是错误的,没有它们你也能日益成功”。谷歌这种新思路给了安德森很大的启发。他做出了一个大胆的预测:谷歌的新思路不仅适用于商业,而且会越来越多地渗透到科学上,并如他文章标题所说的那样,最终取代现有的科学方法。在他看来,科学才是这种新思路的“大目标”(big target)。
1707630823
1707630824 我们知道,科学研究的常规模式是从实验数据或观测数据中提出假设、模型或理论,然后用新的实验或观测来检验它们。安德森认为这种模式在信息时代的数据洪流中将会过时,今后人们只需像谷歌那样直接从大量数据的统计关联中得出结论就行了。用他的话说:“关联就已足够,我们可以停止寻找模型。”按照安德森的设想,我们只需将大量数据扔进巨型计算机,让它运用统计算法去发现那些科学无法发现的关联。那些关联将取代因果关系,科学将摆脱模型和理论而继续前进。
1707630825
1707630826 如果安德森的设想成为现实,那么不仅今天的科学方法将成为历史,甚至连科学家——起码是理论科学家——这个职业也很可能会不复存在,因为我们所需要的将只是能建造和维护计算机的技术人员,以及懂得统计学原理的编程人员,我们将再也不需要理论。这样的前景对科学家来说无疑是陌生的,但安德森认为这是信息时代带给我们的一种认识世界的全新方法,它展示了巨大的机会,科学家们不应墨守传统的科学方法,而应该自问:科学能从谷歌中学到什么?
1707630827
1707630828 安德森对科学理论及科学方法的全面唱衰所具有的争议性是显而易见的。他的文章一经发表,立刻遭到了很多人的批评,有人甚至迁怒于《连线》杂志。(谁让安德森是主编呢?)比如卡内基梅隆大学(Carnegie Mellon University)的一位助理教授在看过安德森的文章后,把自己前不久接受《连线》杂志的采访称为是一个错误,而且是在试图打发“等候室时间”(waiting-room time)时所犯的错误,言下之意,哪怕是在等候室里无所事事的时候,也不值得为《连线》杂志浪费时间。有意思的是,这位助理教授原本是物理学博士,目前则在统计系工作,如果安德森的观点能够成立,他的前景其实倒是光明的。
1707630829
1707630830 当然,对更多的人来说,安德森的观点不过是一家之说,赞成也好,反对也罢,都可以平心静气地进行分析。我们感兴趣的问题是:安德森的观点到底能不能成立?或者最低限度说,它有道理吗?在本文接下来的篇幅里,我们就来稍稍分析一下。如我们在前面所介绍的,安德森的立论在很大程度上借鉴了谷歌翻译及谷歌广告的思路,从某种意义上讲,他将这些谷歌技术当成了未来科学研究的范例。既然如此,就让我们先以谷歌翻译为例考察一下,看它是否有可能承载安德森赋予它们的重任。
1707630831
1707630832
1707630833
1707630834
1707630835 霍金的派对:从科学天地到数码时代 [:1707629799]
1707630836 霍金的派对:从科学天地到数码时代 3.统计方法与高级密码
1707630837
1707630838 常言道:是骡子是马,拉出来遛遛。考察谷歌翻译的最佳办法当然是检验它的翻译效果。我们随便举几个例子。其中最简单的例子是翻译安德森这篇文章的标题“理论的终结:数据洪流让科学方法过时”,谷歌翻译给出的英译中结果是“理论的终结:数据洪水滔天使废弃的科学方法”。这个例子虽然简单,却很清楚地体现了谷歌翻译的特点及缺陷。如我们在上文中所说,谷歌翻译的特点是以统计关联而非语法为基础,上述译文的不通顺很清楚地显示了这一特点带来的缺陷。
1707630839
1707630840 谷歌翻译的这种缺陷在更长的句子中显得更为清楚,比如牛顿(Isaac Newton)的那段名言:
1707630841
1707630842 我不知道我在别人眼里是怎样的,但对我自己来说我只不过像是一个在海边玩耍的男孩,因为时不时地找到一块比通常更光滑的卵石或更漂亮的贝壳而兴奋,却全然没有发现展现在我面前的伟大的真理海洋。
1707630843
1707630844 用谷歌翻译给出的英译中结果是(5):
1707630845
1707630846 我不知道我可能会出现的世界,而是为了自己,我似乎已经不仅就像一个男孩玩海上岸上,和挪用自己现在然后找到平滑卵石或比普通漂亮外壳,而大洋的真相躺在我面前的所有未被发现。
1707630847
1707630848 要看懂这种比绕口令还拗口的翻译是需要毅力的。谷歌翻译能作为未来科学研究的范例吗?答案应该是不言而喻的。
1707630849
1707630850 安德森所举的谷歌技术的另一个例子,即谷歌广告,也具有非常显著的缺陷,事实上,利用谷歌广告乃至整个谷歌系统的缺陷来提升自己网站的广告效果早已是互联网上公开的秘密。谷歌技术当然不无优越之处,比如它具有所谓的统计学习(statistical learning)功能(细心的网民会注意到,不同时候用谷歌做同样的事情得到的结果通常会有一定的差异),但这种纯粹建立在统计关联之上的结果具有无可避免的模糊性,这种模糊性虽不足以妨碍商业上的成功,但它与科学理论之间的差距是巨大的,并且是本质性的。
1707630851
[ 上一页 ]  [ :1.707630802e+09 ]  [ 下一页 ]