1707631010
1707631011
而更麻烦的则是,那种“最好的代码混淆”也许好到了“物极必反”的境界。假如上面提到的问题全被解决了,那它无疑既是保护软件知识产权的屏障,也是掩盖软件漏洞的保护伞。但稍稍细想,就不难发觉这些功用全是双刃剑。比如它的屏障作用既有助于保护软件知识产权,也便于盗用软件知识产权,因为破解越困难,也就意味着盗用行为越难被发现和确认。又比如它的保护伞作用既可以掩盖软件漏洞,也可以隐藏恶意软件,因为破解越困难,也就越能隐藏“恶意”。因此,“最好的代码混淆”若真能进入实用阶段,对普罗大众究竟是福音还是噩梦恐怕还很难说。
1707631012
1707631013
(1) 本文发表于《科学画报》2014年第9期(上海科学技术出版社出版)。
1707631014
1707631015
1707631016
1707631017
1707631019
霍金的派对:从科学天地到数码时代 在大型强子对撞机的幕后(1)
1707631020
1707631021
1707631022
1707631023
1707631024
日内瓦西北郊有一个著名的科学中心——欧洲核子研究组织(European Organization for Nuclear Research,CERN)。那里有目前世界上最大的高能粒子加速器——大型强子对撞机(Large Hadron Collider)。这个周长27千米的庞然大物在过去几年里可谓新闻不断,比如有人担心它可能会因产生微型黑洞而毁灭地球(如今还担着这份心的读者可用拙作《黑洞略谈》(2)来宽宽心)。而它对与质量的起源有着密切关系、被称为“上帝粒子”(the God particle)的所谓希格斯粒子(Higgs)的寻找更是科学家、媒体和公众共同关注的焦点。
1707631025
1707631026
不过,相对少为人知的是,CERN除了科学中心这一身份外,还是一个重量级的信息技术中心,尤其是在互联网发展史上起到过很重要的作用。20世纪90年代初,CERN的计算机科学家伯纳斯-李(Tim Berners-Lee)与同事研发出了以超文本(hypertext)为基础的网站,成为互联网上最重要的服务之一——万维网(World Wide Web)——的发明者,CERN则成为了万维网的诞生地。CERN扮演这一角色不是偶然的。事实上,早在万维网诞生之前,它就已是欧洲最主要的电脑网络枢纽。而且直至今日,CERN在互联网领域里依然维持着重要地位。2008年,外界甚至一度传闻CERN即将推出新一代的互联网。
1707631027
1707631028
那消息很快被证实为是不确实的,但它也并非空穴来风,其源头就是大名鼎鼎的大型强子对撞机。该对撞机的“日常”工作就是让大量粒子以极高的能量相互碰撞,而物理学家们要做的则是通过那些碰撞来探索大自然的奥秘——其中包括寻找希格斯粒子。但这个简短介绍却忽略了一个极重要的“幕后”环节——对数据的处理。
1707631029
1707631030
跟老式物理实验中的看仪表读数据、铺稿纸做计算完全不同,大型强子对撞机产生的数据是如此之多,不仅使得肉眼读取和纸笔分析变得不再现实,就连大型计算机也应付为艰。更要命的是,那些数据是以极快的速度源源产生出来的,从而必须以极快的速度进行采集、甄别和存储。除此之外,物理学家们当然还希望尽可能迅速地分析数据。这一系列艰巨工作把CERN再次推到了信息技术的前沿。
1707631031
1707631032
为了以最快的速度处理数据,CERN建立了目前世界上最大的网格计算系统——全球大型强子对撞机计算网格(World Wide LHC computing grid,WLCG)。WLCG的核心部分被称为“零级中心”(Tier 0)。该中心与负责采集、甄别数据的“计数室”(counting room)以每秒100亿比特(10 Gb/s)的超高速光缆相联,接收甄别后的数据——别小看这甄别,它是用数以千计的计算机共同进行的,将来自大型强子对撞机的多达每秒3000亿字节(300 GB)以上的数据剔除99.9%左右,从而大大减少后续处理的工作量。“零级中心”所获得的数据又通过每秒100亿比特的超高速光缆传往北美、欧洲和亚洲的11个“一级中心”(Tier 1),而后者则通过普通互联网与分布在世界几十个国家的150个“二级中心”(Tier 2)相联。截至2011年底,在这个庞大的网络上已有约26万台电脑(确切地说是26万个中央处理器),总存储空间高达15亿亿字节(150 PB,约相当于两亿张光盘),每天处理的数据达几十万亿字节。当我们在报纸上读到一则有关希格斯粒子的消息时,也许很少有人会想到过大型强子对撞机幕后那个庞大的计算机网络,以及为该网络而工作着的数以万计的工程师。正是他们与科学家们一起,从浩如烟海的数据之中淘出了有用信息。也正是有了他们的帮助,科学家们才可以在几星期甚至更短的时间内将数据变成论文或新闻。
1707631033
1707631034
高能粒子在日内瓦郊外的一个小空间内碰撞着,信息却在散布于全球的几十万台电脑中处理着,这是所谓“大科学”的典型例子。
1707631035
1707631036
由于WLCG在很多方面与互联网相似,加上其所采用的新技术所具有的巨大魅力(比如每秒100亿比特的超高速光缆下载一部DVD影片只需几秒钟),以及CERN在互联网发展史上的先驱地位,使得一些人——如前所述——产生了一种历史重演的感觉,一度将WLCG当成了新一代的互联网。这种感觉在目前还只是错觉,因为WLCG还只是一个专有领域内的东西,而不是像互联网那样开放的(起码核心部分还不是)。但技术本身是跨领域的,从这个意义上讲,那错觉未必没有真理的成分。
1707631037
1707631038
(1) 本文发表于2013年7月22日《北京青年报》的“锐科技”栏目。
1707631039
1707631040
(2) 《黑洞略谈》收录于拙作《因为星星在那里:科学殿堂的砖与瓦》(清华大学出版社2015年6月出版)。
1707631041
1707631042
1707631043
1707631044
1707631046
霍金的派对:从科学天地到数码时代 大数据的小应用(1)
1707631047
1707631048
1707631049
1707631050
1707631051
随着信息技术的快速发展,近来,大数据(big data)及以之为基础的研究范式——大数据范式(big data paradigm)——成为越来越流行的概念。虽说大数据的“大”乃是相对概念,即相对于数据存储和处理技术而言的“大”,从而并无绝对意义,但这几年很多人对相对于当前技术而言的“大”似乎产生了特殊感觉,认为它已超越了某种临界值,将引发诸多领域的重大甚至革命性的变革。每当有大的新东西出现在地平线上时,这种稍显迫不及待地迎接革命的感觉乃是常见的衍生现象,其可靠性往往大可商榷。不过,大数据有着各种各样的具体应用倒是不争的事实。
1707631052
1707631053
在本文中,我们就来介绍一项小应用。
1707631054
1707631055
严格讲,本文的标题有些“拉大旗作虎皮”,因为这项小应用所涉及的数据相对于当前技术而言远远算不上“大”,不过它所采用的以数据关联为核心,将因果置一旁的做法乃是大数据范式中的典型方法,而且这项小应用规模虽小,毕竟也需动用计算机,从而在手段上跟大数据范式也算搭界。
1707631056
1707631057
这项小应用就是确定某些历史文件的年代。
1707631058
1707631059
确定历史文件的年代一向是史学家们关心且必须要做的事情,因为很多资料只有确定了年代才能发挥应有的作用。但由于不难想象的种种原因,很多历史文件的年代是未知的。为确定这类文件的年代,一种典型的做法是求助于碳-14年代测定法(radiocarbon dating)。但是,由此测定的年代往往有几十年的误差,对远古文件也许不算什么,对近代文件却稍嫌粗糙。此外,这种方法有时还会对文件产生一定程度的破坏。除碳-14年代测定法外,利用纸张、油墨等技术的演进历史,从文件所用的纸张或油墨的类型上确定年代也是常用方法,但可惜误差往往也在几十年以上。这些方法的不尽如人意之处,使得其他方法有了用武之地。最近,加拿大多伦多大学(University of Toronto)的研究者蒂拉亨(Gelila Tilahun)等人就示范了一种新方法。
[
上一页 ]
[ :1.70763101e+09 ]
[
下一页 ]