1707631020
1707631021
1707631022
1707631023
1707631024
日内瓦西北郊有一个著名的科学中心——欧洲核子研究组织(European Organization for Nuclear Research,CERN)。那里有目前世界上最大的高能粒子加速器——大型强子对撞机(Large Hadron Collider)。这个周长27千米的庞然大物在过去几年里可谓新闻不断,比如有人担心它可能会因产生微型黑洞而毁灭地球(如今还担着这份心的读者可用拙作《黑洞略谈》(2)来宽宽心)。而它对与质量的起源有着密切关系、被称为“上帝粒子”(the God particle)的所谓希格斯粒子(Higgs)的寻找更是科学家、媒体和公众共同关注的焦点。
1707631025
1707631026
不过,相对少为人知的是,CERN除了科学中心这一身份外,还是一个重量级的信息技术中心,尤其是在互联网发展史上起到过很重要的作用。20世纪90年代初,CERN的计算机科学家伯纳斯-李(Tim Berners-Lee)与同事研发出了以超文本(hypertext)为基础的网站,成为互联网上最重要的服务之一——万维网(World Wide Web)——的发明者,CERN则成为了万维网的诞生地。CERN扮演这一角色不是偶然的。事实上,早在万维网诞生之前,它就已是欧洲最主要的电脑网络枢纽。而且直至今日,CERN在互联网领域里依然维持着重要地位。2008年,外界甚至一度传闻CERN即将推出新一代的互联网。
1707631027
1707631028
那消息很快被证实为是不确实的,但它也并非空穴来风,其源头就是大名鼎鼎的大型强子对撞机。该对撞机的“日常”工作就是让大量粒子以极高的能量相互碰撞,而物理学家们要做的则是通过那些碰撞来探索大自然的奥秘——其中包括寻找希格斯粒子。但这个简短介绍却忽略了一个极重要的“幕后”环节——对数据的处理。
1707631029
1707631030
跟老式物理实验中的看仪表读数据、铺稿纸做计算完全不同,大型强子对撞机产生的数据是如此之多,不仅使得肉眼读取和纸笔分析变得不再现实,就连大型计算机也应付为艰。更要命的是,那些数据是以极快的速度源源产生出来的,从而必须以极快的速度进行采集、甄别和存储。除此之外,物理学家们当然还希望尽可能迅速地分析数据。这一系列艰巨工作把CERN再次推到了信息技术的前沿。
1707631031
1707631032
为了以最快的速度处理数据,CERN建立了目前世界上最大的网格计算系统——全球大型强子对撞机计算网格(World Wide LHC computing grid,WLCG)。WLCG的核心部分被称为“零级中心”(Tier 0)。该中心与负责采集、甄别数据的“计数室”(counting room)以每秒100亿比特(10 Gb/s)的超高速光缆相联,接收甄别后的数据——别小看这甄别,它是用数以千计的计算机共同进行的,将来自大型强子对撞机的多达每秒3000亿字节(300 GB)以上的数据剔除99.9%左右,从而大大减少后续处理的工作量。“零级中心”所获得的数据又通过每秒100亿比特的超高速光缆传往北美、欧洲和亚洲的11个“一级中心”(Tier 1),而后者则通过普通互联网与分布在世界几十个国家的150个“二级中心”(Tier 2)相联。截至2011年底,在这个庞大的网络上已有约26万台电脑(确切地说是26万个中央处理器),总存储空间高达15亿亿字节(150 PB,约相当于两亿张光盘),每天处理的数据达几十万亿字节。当我们在报纸上读到一则有关希格斯粒子的消息时,也许很少有人会想到过大型强子对撞机幕后那个庞大的计算机网络,以及为该网络而工作着的数以万计的工程师。正是他们与科学家们一起,从浩如烟海的数据之中淘出了有用信息。也正是有了他们的帮助,科学家们才可以在几星期甚至更短的时间内将数据变成论文或新闻。
1707631033
1707631034
高能粒子在日内瓦郊外的一个小空间内碰撞着,信息却在散布于全球的几十万台电脑中处理着,这是所谓“大科学”的典型例子。
1707631035
1707631036
由于WLCG在很多方面与互联网相似,加上其所采用的新技术所具有的巨大魅力(比如每秒100亿比特的超高速光缆下载一部DVD影片只需几秒钟),以及CERN在互联网发展史上的先驱地位,使得一些人——如前所述——产生了一种历史重演的感觉,一度将WLCG当成了新一代的互联网。这种感觉在目前还只是错觉,因为WLCG还只是一个专有领域内的东西,而不是像互联网那样开放的(起码核心部分还不是)。但技术本身是跨领域的,从这个意义上讲,那错觉未必没有真理的成分。
1707631037
1707631038
(1) 本文发表于2013年7月22日《北京青年报》的“锐科技”栏目。
1707631039
1707631040
(2) 《黑洞略谈》收录于拙作《因为星星在那里:科学殿堂的砖与瓦》(清华大学出版社2015年6月出版)。
1707631041
1707631042
1707631043
1707631044
1707631046
霍金的派对:从科学天地到数码时代 大数据的小应用(1)
1707631047
1707631048
1707631049
1707631050
1707631051
随着信息技术的快速发展,近来,大数据(big data)及以之为基础的研究范式——大数据范式(big data paradigm)——成为越来越流行的概念。虽说大数据的“大”乃是相对概念,即相对于数据存储和处理技术而言的“大”,从而并无绝对意义,但这几年很多人对相对于当前技术而言的“大”似乎产生了特殊感觉,认为它已超越了某种临界值,将引发诸多领域的重大甚至革命性的变革。每当有大的新东西出现在地平线上时,这种稍显迫不及待地迎接革命的感觉乃是常见的衍生现象,其可靠性往往大可商榷。不过,大数据有着各种各样的具体应用倒是不争的事实。
1707631052
1707631053
在本文中,我们就来介绍一项小应用。
1707631054
1707631055
严格讲,本文的标题有些“拉大旗作虎皮”,因为这项小应用所涉及的数据相对于当前技术而言远远算不上“大”,不过它所采用的以数据关联为核心,将因果置一旁的做法乃是大数据范式中的典型方法,而且这项小应用规模虽小,毕竟也需动用计算机,从而在手段上跟大数据范式也算搭界。
1707631056
1707631057
这项小应用就是确定某些历史文件的年代。
1707631058
1707631059
确定历史文件的年代一向是史学家们关心且必须要做的事情,因为很多资料只有确定了年代才能发挥应有的作用。但由于不难想象的种种原因,很多历史文件的年代是未知的。为确定这类文件的年代,一种典型的做法是求助于碳-14年代测定法(radiocarbon dating)。但是,由此测定的年代往往有几十年的误差,对远古文件也许不算什么,对近代文件却稍嫌粗糙。此外,这种方法有时还会对文件产生一定程度的破坏。除碳-14年代测定法外,利用纸张、油墨等技术的演进历史,从文件所用的纸张或油墨的类型上确定年代也是常用方法,但可惜误差往往也在几十年以上。这些方法的不尽如人意之处,使得其他方法有了用武之地。最近,加拿大多伦多大学(University of Toronto)的研究者蒂拉亨(Gelila Tilahun)等人就示范了一种新方法。
1707631060
1707631061
蒂拉亨等人的研究对象是英国中世纪(medieval)的大量契据(charter)。那些契据大都为拉丁文,记录的是各类财产及土地的交易,对研究中世纪的英国历史有不小的参考价值。不过,在现存百万份以上的契据中,大部分是既没有标注年代,也无法从所述内容中推断出年代的。另一方面,中世纪距今不过几百年,前面提到的那些方法的几十年误差相对来说就显得很大,而且上百万份的巨大数量也使那些方法变得不太现实。为此,蒂拉亨等人采用了一种新方法。他们以几千份年代已知的契据为基准,对年代未知的契据与年代已知的契据中的词汇及词组的分布规律进行了统计对比,由此分析出前者与不同年代的后者之间的相似程度,并以此确定前者最有可能的年代(即相似程度最大的年代);或者,也可以先由后者估算出不同词汇及词组在不同年代的出现概率,再以它们在前者中的出现数量估算出前者在各个年代的出现概率,进而确定最有可能的年代(即出现概率最大的年代)。
1707631062
1707631063
这类方法的准确度如何呢?蒂拉亨等人用一个很聪明的方法进行了测算,那就是将之应用到年代已知的文件上,将估算结果与实际年代进行比较。他们发现,这种估算的平均误差可缩小至10年以下,从而比前面提到的那些传统方法更精确。
1707631064
1707631065
当然,这种方法中也有许多不确定性,比如契据之间的相似程度,契据在不同年代的出现概率等都并无唯一定义,统计对比所用的算法也并不唯一。这些不确定性在大数据范式中是很常见的,它们有弊也有利。“弊”者在于理据不像碳-14年代测定法之类的传统方法那样明晰;“利”者则在于提供了改进方法所需的额外自由度。事实上,蒂拉亨等人的研究本身就是这种额外自由度的体现,因为他们并不是这类方法的创始人,而只是利用不确定性所提供的额外自由度,引进了新的定义及算法。
1707631066
1707631067
蒂拉亨等人所示范的方法也适用于其他时期或其他类型的文件,并且除了帮助确定年代外,还有助于确定与文件有关的其他属性——比如作者。
1707631068
1707631069
(1) 本文发表于《科学画报》2013年第9期(上海科学技术出版社出版)。
[
上一页 ]
[ :1.70763102e+09 ]
[
下一页 ]