1703947894
考虑到这些,如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力。但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的。
1703947895
1703947896
近年来,科学家一直在试图减少这些实验的花费,比如说,通过巧妙地结合相似的调查,做成“类似实验”。这样一来,因果关系的调查成本就降低了,但还是很难与相关关系体现的优越性相抗衡。还有,正如我们之前提到的,在专家进行因果关系的调查时,相关关系分析本来就会起到帮助的作用。
1703947897
1703947898
大数据洞察
1703947899
1703947900
在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
1703947901
1703947902
因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。曼哈顿沙井盖(即下水道的修检口)的爆炸就是一个很好的例子。
1703947903
1703947905
改变,从操作方式开始
1703947906
1703947907
每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。这可不是什么好事。
1703947908
1703947909
为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。
1703947910
1703947911
这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。比如说,常见的“服务设施”代码就有38个之多,而计算机算法需要处理的就是这么混乱的数据:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICE BOX……
1703947912
1703947913
负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)回忆道:
1703947914
1703947915
乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。
1703947916
1703947917
鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本,因为说不定,这成千上万个沙井盖中的某一个就是一个定时炸弹,所以只有使用“样本=总体”的方法才可以。虽然找出因果关系也是不错的,但是这可能需要一个世纪之久,而且还不一定找得对。要完成这项任务,比较好的办法就是,找出它们之间的相关关系。相比“为什么”,她更关心“是什么”。但是她也知道当面对联合爱迪生电力公司高层的时候,她需要证明选择方案的正确性。预测可能是由机器完成的,但是消费者是人类,而人就习惯性地想通过找出原因来理解事物。
1703947918
1703947919
鲁丁希望尽快找到整理这些数据的便捷方法。她们将杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。在布朗克斯(Bronx)的电网测试中,他们对2008年中期之前的数据都进行了分析,并利用这些数据预测了2009年会出现问题的沙井盖。预测效果非常好,在他们列出的前10%的高危沙井盖名单里,有44%的沙井盖都发生了严重的事故。
1703947920
1703947921
最终,最重要的因素是这些电缆的使用年限和有没有出现过问题。讽刺的是,这个发现非常有意义,因为联合爱迪生电力公司的高层们可以在此基础上,迅速进行沙井盖事故可能性排序。但是,这些因素看起来会不会太过明显了?
1703947922
1703947923
好吧,既是又不是。因为一方面,就像数学家邓肯·沃茨(Duncan Watts)说的,“一旦你知道了结果,一切都很容易。”但是另一方面,我们不能忘记最开始的时候我们可是找出了106种预警情况。如何权衡以及优先修理成千上万个沙井盖中的哪一个,这不是那么容易做出决定的,因为各种各样的因素加入到了这个庞大的数据库中,而且这些数据记录的方式使得它本来就不适合处理分析。
1703947924
1703947925
这个例子说明了数据正在以新的方式帮助我们解决现实生活中的难题。
1703947926
1703947927
大数据洞察
1703947928
1703947929
我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
1703947930
1703947932
大数据,改变人类探索世界的方法
1703947933
1703947934
在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假想。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
1703947935
1703947936
假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了。
1703947937
1703947938
2008年,《连线》杂志主编克里斯·安德森(Chris Anderson)就指出:“数据爆炸使得科学的研究方法都落伍了。”后来,他又在《拍字节时代》(The Petabyte Age)的封面故事中讲到,大量的数据从某种程度上意味着“理论的终结”。安德森也表示,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。
1703947939
1703947940
为了支撑自己的观点,安德森阐述了量子物理学已变成一门纯理论学科的原因,就是因为实验复杂、耗费多而且不可行。他潜在的观点就是,量子物理学的理论已经脱离实际。[6]他提到了谷歌的搜索引擎和基因排序工程,指出:“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具。而且只要数据足够,就能说明问题。如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”
1703947941
1703947942
这篇文章引发了激烈的争论,虽然安德森本人很快就意识到自己的言辞过于激烈了,但是他的观点确实值得深思。安德森的核心思想是,直到目前为止,我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代,我们不再需要理论了,只要关注数据就足够了。这就意味着所有的普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今,重要的就是数据分析,它可以揭示一切问题。
1703947943
[
上一页 ]
[ :1.703947894e+09 ]
[
下一页 ]