1707631085
1707631086
当然,那是陈年旧事了。区区240万份回复作为民意调查是超大规模的,从数据角度讲,以今天的标准来衡量却实在小得可怜。不过,今天的“大”在几十年后也未必不会如昔日的“小”一样可怜。那段小历史的真正启示在于:数据已大到了统计误差可以忽略的地步,结果却错得离谱。这种类型的错误对于大数据是一种警示。
1707631087
1707631088
现在让我们回到当代。2008年8月,大数据“成功偶像”之一的谷歌公司领衔在《自然》杂志上发表论文,推介了一个如今被称为“谷歌流感趋势”(Google Flu Trends)的系统。这一系统能利用互联网上有关流感的搜索的数量和分布来估计各地区流感类疾病的患者数目。谷歌表示,这一系统给出的估计不仅比美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC)的数据更快速,而且还有“不依赖于理论”(theory-free)的特点。
1707631089
1707631090
但是,这个一度引起轰动的系统经过几年的运行后,却引人注目地演示了大数据可能带来的陷阱。
1707631091
1707631092
2013年2月,《自然》杂志资深记者巴特勒(Declan Butler)发表了一篇题为《当谷歌弄错了流感》(When Google Got Flu Wrong)的文章,指出“谷歌流感趋势”对2012年底美国流感类疾病患者数目的估计比美国疾病控制与预防中心给出的实际数据高了约一倍。不仅如此,“谷歌流感趋势”在2008—2009年间对瑞士、德国、比利时等国的流感类疾病患者数目的估计也都失准过。
1707631093
1707631094
大数据在这些例子中为什么会失败呢?人们很快找到了原因。比如《文摘》杂志对1936美国总统竞选预测的失败,是因为该杂志的调查对象是从汽车注册资料及电话簿中选取的,而汽车及电话在当时的美国尚未普及,使得由此选出的调查对象缺乏代表性。而谷歌对2012年底美国流感类疾病患者数目的估计失败,则是因为媒体对那段时间的美国流感类疾病作了渲染,使得很多非患者也进行了有关流感的搜索,从而干扰了“谷歌流感趋势”的估计。在统计学中,这被称为系统误差(systematic error),只要存在这种误差,数据量再大也无济于事。
1707631095
1707631096
当然,原因一旦找到,对结果进行修正也就不无可能了。比如在有关流感的搜索中,来自患者的搜索往往随疫情的暴发而迅速增加,随疫情的缓慢结束而缓慢降低,呈现出前后的不对称,而来自非患者的搜索则前后比较对称。利用这一区别,原则上可对结果进行校正。
1707631097
1707631098
但另一方面,原因之所以很快找到,是因为失败已成事实,从而有了明确的分析对象,在千变万化的大数据分析中要想每次都“先发制人”地避免失败却并不容易。比如大数据分析对数据间的相关性情有独钟,其所津津乐道的“不依赖于理论”的特点却在很大程度上排斥了对相关性的价值进行甄别——就如知名技术类刊物《连线》(Wired)杂志的主编安德森(Chris Anderson)曾经宣称的:“只要有足够多数据,数字自己就能说话(with enough data,the numbers speak for themselves)。”数字也许是能说话,但说出的未必都是有价值的话。事实上,未经甄别的相关性可谓处处是陷阱。比如2006—2011年间,美国的犯罪率和微软IE浏览器的市场占有率就明显相关(同步下降),但却是毫无价值的相关性——这是纽约大学(New York University)计算机教授戴维斯(Ernest Davis)举出的例子。在统计学中,这是所谓“相关性不蕴涵因果性”(correlation does not imply causation)的一个例子。
1707631099
1707631100
无论是系统误差还是“相关性不蕴涵因果性”,大数据的这些陷阱其实都是统计学家们所熟知的。只不过,太急于赶路时,人们有时会忘掉曾经走过的路。
1707631101
1707631102
(1) 本文发表于《科学画报》2014年第11期(上海科学技术出版社出版)。
1707631103
1707631104
1707631105
1707631106
1707631108
霍金的派对:从科学天地到数码时代 网络战——没有硝烟的战争(1)
1707631109
1707631110
1707631111
1707631112
1707631113
我们这个时代被称为信息时代已经很多年了,如果要从中挑出一个最具时代性的特征,我想一定非互联网莫属。这个几乎无边无际的网络在带给人们信息与便利的同时,也逐渐成为了兵家的必争之地。
1707631114
1707631115
2011年10月,《纽约时报》(The New York Times)等美国媒体披露了一则消息:在北约(NATO)对利比亚局势进行军事干预之前,美国高层曾为是否针对利比亚防空系统发动网络战(cyber warfare)进行过慎重讨论,讨论的结果否决了网络战,理由是怕给其他国家树立一个不良示范。
1707631116
1707631117
其实,这一理由恐怕是高估了美国在这一领域的示范作用。因为事实上,根本无需美国的示范,网络战就已得到了广泛的重视。根据著名网络安全公司迈克菲(McAfee)的一份年度报告,截至2007年就已约有120个国家在一定程度上发展了网络战技术。这些国家中的某几个甚至有可能已在一定程度上实施过了网络战。
1707631118
1707631119
比如2007年,前苏联加盟共和国之一的爱沙尼亚(Estonia)因拆除一座苏军“二战”纪念碑,而遭到了来自俄罗斯的大规模网络攻击;一年后,也是在前苏联留下的烂摊子上,发生了所谓的南奥塞梯战争(South Ossetiawar),在那次战争中,参战各方(南奥塞梯、格鲁吉亚、俄罗斯等)均遭到了来自敌方的网络攻击。世界其他热点地区也晃动着网络战的幽灵:比如2010年9月,伊朗的核设施遭到了疑似来自美国或以色列的计算机蠕虫(worm)攻击;2010年底,印度和巴基斯坦这对宿敌的若干政府网站分别遭到了来自对方的网络攻击;2012年初,以色列的若干重要网站遭到了分布式拒绝服务攻击(DDoS)。
1707631120
1707631121
而美国高层虽一度否决了网络战的实施,对网络战的研究却未有丝毫的轻忽。2009年,美国总统奥巴马(Barack Obama)将美国的信息基础设施列为了“国家战略资产”;2010年,美国军方设立了美国网络司令部(United States Cyber Command),并将造成大量平民损失的网络攻击界定为战争行为,为实施反击作了概念准备。2011年11月,美国国防部下属的研究机构首次公开承认正在研发进攻型网络战技术。2011年底通过的美国国防预算则正式为实施先发制人的网络战开启了绿灯。
1707631122
1707631123
网络战作为继陆、海、空、及外层空间之后新出现的战争维度,它的一个令人瞩目的特点是模糊了大国与小国、强国与弱国,乃至国家与个人的区分。在网络战中,一名优秀的黑客完全可以对一个大国发动“一个人的战斗”。网络战的这一特点使责任认定变得非常困难,比如前面所举的网络战例子就大都找不到确切的攻击者。不过,这一模糊特点有时倒也为大国博弈提供了回旋余地。拿2007年遭到网络攻击的爱沙尼亚来说,由于它是北约成员国,按照条约,整个北约都有义务为它出头。但结果却是:“嫌犯”俄罗斯宣称那是个人行为,“法官”北约的调查不了了之,这除了责任认定确实不太容易外,是否也是因为北约无意为爱沙尼亚这个小喽啰而与俄罗斯发生冲突,从而大事化小、小事化了,恐怕只有天知道了。也许正是为了便于在必要时和稀泥或赖账,多数国家对自己的网络战方略避讳莫深。网络战的这个类似于即时策略型电脑游戏中的“战争迷雾”(fog of war)的模糊特点,被一些人戏称为“网络战迷雾”(fog of cyberwar)。
1707631124
1707631125
除受到军方的重视外,网络战还因一些出版物的渲染而受到了公众的关注。比如2010年,前白宫安全助理克拉克(Richard Clarke)撰写的一本名为《网络战》(Cyber War)的书就引起了很大的公众关注。遗憾的是,那本书写得很不严谨,不仅加油添醋,而且还用阴谋论手法,把发生在2003年的北美大停电及2007年的巴西大停电这两次已被证实为与网络攻击无关的事件都归因于网络攻击。
1707631126
1707631127
不过,尽管军方的避讳与出版物的渲染都有碍于人们了解网络战的真相,网络战的潜力与可能性的增加恐怕是无法否认的趋势。随着珍视所有人的生命越来越成为人类共识,也许有朝一日战争会向网络战这种没有硝烟的形式转变。如果能用网络战达到攻击敌方的目的,何必背负杀伤人命的道德责任而进行血与火的传统战争呢?但另一方面,未来的网络有可能通过植入人体的芯片而延伸到人类自身,那时候,也许网络战又将重新具备杀伤人命的能力。
1707631128
1707631129
(1) 本文发表于《科学画报》2012年第4期(上海科学技术出版社出版)。
1707631130
1707631131
1707631132
1707631133
[
上一页 ]
[ :1.707631085e+09 ]
[
下一页 ]