打字猴:1.70763106e+09
1707631060
1707631061 蒂拉亨等人的研究对象是英国中世纪(medieval)的大量契据(charter)。那些契据大都为拉丁文,记录的是各类财产及土地的交易,对研究中世纪的英国历史有不小的参考价值。不过,在现存百万份以上的契据中,大部分是既没有标注年代,也无法从所述内容中推断出年代的。另一方面,中世纪距今不过几百年,前面提到的那些方法的几十年误差相对来说就显得很大,而且上百万份的巨大数量也使那些方法变得不太现实。为此,蒂拉亨等人采用了一种新方法。他们以几千份年代已知的契据为基准,对年代未知的契据与年代已知的契据中的词汇及词组的分布规律进行了统计对比,由此分析出前者与不同年代的后者之间的相似程度,并以此确定前者最有可能的年代(即相似程度最大的年代);或者,也可以先由后者估算出不同词汇及词组在不同年代的出现概率,再以它们在前者中的出现数量估算出前者在各个年代的出现概率,进而确定最有可能的年代(即出现概率最大的年代)。
1707631062
1707631063 这类方法的准确度如何呢?蒂拉亨等人用一个很聪明的方法进行了测算,那就是将之应用到年代已知的文件上,将估算结果与实际年代进行比较。他们发现,这种估算的平均误差可缩小至10年以下,从而比前面提到的那些传统方法更精确。
1707631064
1707631065 当然,这种方法中也有许多不确定性,比如契据之间的相似程度,契据在不同年代的出现概率等都并无唯一定义,统计对比所用的算法也并不唯一。这些不确定性在大数据范式中是很常见的,它们有弊也有利。“弊”者在于理据不像碳-14年代测定法之类的传统方法那样明晰;“利”者则在于提供了改进方法所需的额外自由度。事实上,蒂拉亨等人的研究本身就是这种额外自由度的体现,因为他们并不是这类方法的创始人,而只是利用不确定性所提供的额外自由度,引进了新的定义及算法。
1707631066
1707631067 蒂拉亨等人所示范的方法也适用于其他时期或其他类型的文件,并且除了帮助确定年代外,还有助于确定与文件有关的其他属性——比如作者。
1707631068
1707631069 (1) 本文发表于《科学画报》2013年第9期(上海科学技术出版社出版)。
1707631070
1707631071
1707631072
1707631073
1707631074 霍金的派对:从科学天地到数码时代 [:1707629808]
1707631075 霍金的派对:从科学天地到数码时代 大数据的陷阱(1)
1707631076
1707631077
1707631078
1707631079
1707631080 这几年,大数据(big data)的“出镜率”颇高。连带着,“数据科学家”(data scientist)成为了新的高薪一族。人气、财气的提升也带动了士气,有人开始高估大数据的神通,仿佛只要积累了足够多数据,请“数据科学家”们坐在电脑前——就像福尔摩斯坐在太师椅上——敲一通键盘,各种问题就都能迎刃而解。
1707631081
1707631082 大数据真有如此神通吗?回顾一段小历史对我们也许不无启示。
1707631083
1707631084 那是在1936年,美国共和党人艾尔弗·兰登(Alfred Landon)与民主党人富兰克林·罗斯福(Franklin D.Roosevelt)竞选总统。当时很有影响力的《文摘》杂志(The Literary Digest)决定搞一次超大规模的民意调查,调查人数高达1000万,约为当时选民总数的1/4,最终收到的回复约有240万份,对于民意调查来说可谓是“大数据”——事实上,哪怕在今天,一些全国性民意调查的调查对象也只有几千。通过对这组“大数据”的分析,《文摘》杂志预测兰登将以55%比41%的显著优势获胜。但不久后揭晓的真正结果却是罗斯福以61%比37%的优势大胜。《文摘》杂志的“大数据”遭到了惨败。
1707631085
1707631086 当然,那是陈年旧事了。区区240万份回复作为民意调查是超大规模的,从数据角度讲,以今天的标准来衡量却实在小得可怜。不过,今天的“大”在几十年后也未必不会如昔日的“小”一样可怜。那段小历史的真正启示在于:数据已大到了统计误差可以忽略的地步,结果却错得离谱。这种类型的错误对于大数据是一种警示。
1707631087
1707631088 现在让我们回到当代。2008年8月,大数据“成功偶像”之一的谷歌公司领衔在《自然》杂志上发表论文,推介了一个如今被称为“谷歌流感趋势”(Google Flu Trends)的系统。这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。谷歌表示,这一系统给出的估计不仅比美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC)的数据更快速,而且还有“不依赖于理论”(theory-free)的特点。
1707631089
1707631090 但是,这个一度引起轰动的系统经过几年的运行后,却引人注目地演示了大数据可能带来的陷阱。
1707631091
1707631092 2013年2月,《自然》杂志资深记者巴特勒(Declan Butler)发表了一篇题为《当谷歌弄错了流感》(When Google Got Flu Wrong)的文章,指出“谷歌流感趋势”对2012年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的实际数据高了约一倍。不仅如此,“谷歌流感趋势”在2008—2009年间对瑞士、德国、比利时等国的流感类疾病患者数目的估计也都失准过。
1707631093
1707631094 大数据在这些例子中为什么会失败呢?人们很快找到了原因。比如《文摘》杂志对1936美国总统竞选预测的失败,是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的,而汽车及电话在当时的美国尚未普及,使得由此选出的调查对象缺乏代表性。而谷歌对2012年底美国流感类疾病患者数目的估计失败,则是因为媒体对那段时间的美国流感类疾病作了渲染,使得很多非患者也进行了有关流感的搜索,从而干扰了“谷歌流感趋势”的估计。在统计学中,这被称为系统误差(systematic error),只要存在这种误差,数据量再大也无济于事。
1707631095
1707631096 当然,原因一旦找到,对结果进行修正也就不无可能了。比如在有关流感的搜索中,来自患者的搜索往往随疫情的暴发而迅速增加,随疫情的缓慢结束而缓慢降低,呈现出前后的不对称,而来自非患者的搜索则前后比较对称。利用这一区别,原则上可对结果进行校正。
1707631097
1707631098 但另一方面,原因之所以很快找到,是因为失败已成事实,从而有了明确的分析对象,在千变万化的大数据分析中要想每次都“先发制人”地避免失败却并不容易。比如大数据分析对数据间的相关性情有独钟,其所津津乐道的“不依赖于理论”的特点却在很大程度上排斥了对相关性的价值进行甄别——就如知名技术类刊物《连线》(Wired)杂志的主编安德森(Chris Anderson)曾经宣称的:“只要有足够多数据,数字自己就能说话(with enough data,the numbers speak for themselves)。”数字也许是能说话,但说出的未必都是有价值的话。事实上,未经甄别的相关性可谓处处是陷阱。比如2006—2011年间,美国的犯罪率和微软IE浏览器的市场占有率就明显相关(同步下降),但却是毫无价值的相关性——这是纽约大学(New York University)计算机教授戴维斯(Ernest Davis)举出的例子。在统计学中,这是所谓“相关性不蕴涵因果性”(correlation does not imply causation)的一个例子。
1707631099
1707631100 无论是系统误差还是“相关性不蕴涵因果性”,大数据的这些陷阱其实都是统计学家们所熟知的。只不过,太急于赶路时,人们有时会忘掉曾经走过的路。
1707631101
1707631102 (1) 本文发表于《科学画报》2014年第11期(上海科学技术出版社出版)。
1707631103
1707631104
1707631105
1707631106
1707631107 霍金的派对:从科学天地到数码时代 [:1707629809]
1707631108 霍金的派对:从科学天地到数码时代 网络战——没有硝烟的战争(1)
1707631109
[ 上一页 ]  [ :1.70763106e+09 ]  [ 下一页 ]