1707631035
1707631036
由于WLCG在很多方面与互联网相似,加上其所采用的新技术所具有的巨大魅力(比如每秒100亿比特的超高速光缆下载一部DVD影片只需几秒钟),以及CERN在互联网发展史上的先驱地位,使得一些人——如前所述——产生了一种历史重演的感觉,一度将WLCG当成了新一代的互联网。这种感觉在目前还只是错觉,因为WLCG还只是一个专有领域内的东西,而不是像互联网那样开放的(起码核心部分还不是)。但技术本身是跨领域的,从这个意义上讲,那错觉未必没有真理的成分。
1707631037
1707631038
(1) 本文发表于2013年7月22日《北京青年报》的“锐科技”栏目。
1707631039
1707631040
(2) 《黑洞略谈》收录于拙作《因为星星在那里:科学殿堂的砖与瓦》(清华大学出版社2015年6月出版)。
1707631041
1707631042
1707631043
1707631044
1707631046
霍金的派对:从科学天地到数码时代 大数据的小应用(1)
1707631047
1707631048
1707631049
1707631050
1707631051
随着信息技术的快速发展,近来,大数据(big data)及以之为基础的研究范式——大数据范式(big data paradigm)——成为越来越流行的概念。虽说大数据的“大”乃是相对概念,即相对于数据存储和处理技术而言的“大”,从而并无绝对意义,但这几年很多人对相对于当前技术而言的“大”似乎产生了特殊感觉,认为它已超越了某种临界值,将引发诸多领域的重大甚至革命性的变革。每当有大的新东西出现在地平线上时,这种稍显迫不及待地迎接革命的感觉乃是常见的衍生现象,其可靠性往往大可商榷。不过,大数据有着各种各样的具体应用倒是不争的事实。
1707631052
1707631053
在本文中,我们就来介绍一项小应用。
1707631054
1707631055
严格讲,本文的标题有些“拉大旗作虎皮”,因为这项小应用所涉及的数据相对于当前技术而言远远算不上“大”,不过它所采用的以数据关联为核心,将因果置一旁的做法乃是大数据范式中的典型方法,而且这项小应用规模虽小,毕竟也需动用计算机,从而在手段上跟大数据范式也算搭界。
1707631056
1707631057
这项小应用就是确定某些历史文件的年代。
1707631058
1707631059
确定历史文件的年代一向是史学家们关心且必须要做的事情,因为很多资料只有确定了年代才能发挥应有的作用。但由于不难想象的种种原因,很多历史文件的年代是未知的。为确定这类文件的年代,一种典型的做法是求助于碳-14年代测定法(radiocarbon dating)。但是,由此测定的年代往往有几十年的误差,对远古文件也许不算什么,对近代文件却稍嫌粗糙。此外,这种方法有时还会对文件产生一定程度的破坏。除碳-14年代测定法外,利用纸张、油墨等技术的演进历史,从文件所用的纸张或油墨的类型上确定年代也是常用方法,但可惜误差往往也在几十年以上。这些方法的不尽如人意之处,使得其他方法有了用武之地。最近,加拿大多伦多大学(University of Toronto)的研究者蒂拉亨(Gelila Tilahun)等人就示范了一种新方法。
1707631060
1707631061
蒂拉亨等人的研究对象是英国中世纪(medieval)的大量契据(charter)。那些契据大都为拉丁文,记录的是各类财产及土地的交易,对研究中世纪的英国历史有不小的参考价值。不过,在现存百万份以上的契据中,大部分是既没有标注年代,也无法从所述内容中推断出年代的。另一方面,中世纪距今不过几百年,前面提到的那些方法的几十年误差相对来说就显得很大,而且上百万份的巨大数量也使那些方法变得不太现实。为此,蒂拉亨等人采用了一种新方法。他们以几千份年代已知的契据为基准,对年代未知的契据与年代已知的契据中的词汇及词组的分布规律进行了统计对比,由此分析出前者与不同年代的后者之间的相似程度,并以此确定前者最有可能的年代(即相似程度最大的年代);或者,也可以先由后者估算出不同词汇及词组在不同年代的出现概率,再以它们在前者中的出现数量估算出前者在各个年代的出现概率,进而确定最有可能的年代(即出现概率最大的年代)。
1707631062
1707631063
这类方法的准确度如何呢?蒂拉亨等人用一个很聪明的方法进行了测算,那就是将之应用到年代已知的文件上,将估算结果与实际年代进行比较。他们发现,这种估算的平均误差可缩小至10年以下,从而比前面提到的那些传统方法更精确。
1707631064
1707631065
当然,这种方法中也有许多不确定性,比如契据之间的相似程度,契据在不同年代的出现概率等都并无唯一定义,统计对比所用的算法也并不唯一。这些不确定性在大数据范式中是很常见的,它们有弊也有利。“弊”者在于理据不像碳-14年代测定法之类的传统方法那样明晰;“利”者则在于提供了改进方法所需的额外自由度。事实上,蒂拉亨等人的研究本身就是这种额外自由度的体现,因为他们并不是这类方法的创始人,而只是利用不确定性所提供的额外自由度,引进了新的定义及算法。
1707631066
1707631067
蒂拉亨等人所示范的方法也适用于其他时期或其他类型的文件,并且除了帮助确定年代外,还有助于确定与文件有关的其他属性——比如作者。
1707631068
1707631069
(1) 本文发表于《科学画报》2013年第9期(上海科学技术出版社出版)。
1707631070
1707631071
1707631072
1707631073
1707631075
霍金的派对:从科学天地到数码时代 大数据的陷阱(1)
1707631076
1707631077
1707631078
1707631079
1707631080
这几年,大数据(big data)的“出镜率”颇高。连带着,“数据科学家”(data scientist)成为了新的高薪一族。人气、财气的提升也带动了士气,有人开始高估大数据的神通,仿佛只要积累了足够多数据,请“数据科学家”们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘,各种问题就都能迎刃而解。
1707631081
1707631082
大数据真有如此神通吗?回顾一段小历史对我们也许不无启示。
1707631083
1707631084
那是在1936年,美国共和党人艾尔弗·兰登(Alfred Landon)与民主党人富兰克林·罗斯福(Franklin D.Roosevelt)竞选总统。当时很有影响力的《文摘》杂志(The Literary Digest)决定搞一次超大规模的民意调查,调查人数高达1000万,约为当时选民总数的1/4,最终收到的回复约有240万份,对于民意调查来说可谓是“大数据”——事实上,哪怕在今天,一些全国性民意调查的调查对象也只有几千。通过对这组“大数据”的分析,《文摘》杂志预测兰登将以55%比41%的显著优势获胜。但不久后揭晓的真正结果却是罗斯福以61%比37%的优势大胜。《文摘》杂志的“大数据”遭到了惨败。
[
上一页 ]
[ :1.707631035e+09 ]
[
下一页 ]