打字猴:1.703947888e+09
1703947888 例如,Kaggle,一家为所有人提供数据挖掘竞赛平台的公司,举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。
1703947889
1703947890 当我们读到这里的时候,不禁也会思考其中的原因。难道是因为橙色车的车主更爱车,所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗?还是因为橙色的车更显眼、出车祸的概率更小,所以转手的时候,各方面的性能保持得更好?
1703947891
1703947892 马上,我们就陷入了各种各样谜一样的假设中。若要找出相关关系,我们可以用数学方法,但如果是因果关系的话,这却是行不通的。所以,我们没必要一定要找出相关关系背后的原因,当我们知道了“是什么”的时候,“为什么”其实没那么重要了,否则就会催生一些滑稽的想法。比方说上面提到的例子里,我们是不是应该建议车主把车漆成橙色呢?毕竟,这样就说明车子的质量更过硬啊!
1703947893
1703947894 考虑到这些,如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力。但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的。
1703947895
1703947896 近年来,科学家一直在试图减少这些实验的花费,比如说,通过巧妙地结合相似的调查,做成“类似实验”。这样一来,因果关系的调查成本就降低了,但还是很难与相关关系体现的优越性相抗衡。还有,正如我们之前提到的,在专家进行因果关系的调查时,相关关系分析本来就会起到帮助的作用。
1703947897
1703947898 大数据洞察
1703947899
1703947900 在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
1703947901
1703947902 因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。曼哈顿沙井盖(即下水道的修检口)的爆炸就是一个很好的例子。
1703947903
1703947904 大数据时代:生活、工作与思维的大变革 [:1703946863]
1703947905 改变,从操作方式开始
1703947906
1703947907 每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。这可不是什么好事。
1703947908
1703947909 为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。
1703947910
1703947911 这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。比如说,常见的“服务设施”代码就有38个之多,而计算机算法需要处理的就是这么混乱的数据:SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICE BOX……
1703947912
1703947913 负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)回忆道:
1703947914
1703947915 乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。
1703947916
1703947917 鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本,因为说不定,这成千上万个沙井盖中的某一个就是一个定时炸弹,所以只有使用“样本=总体”的方法才可以。虽然找出因果关系也是不错的,但是这可能需要一个世纪之久,而且还不一定找得对。要完成这项任务,比较好的办法就是,找出它们之间的相关关系。相比“为什么”,她更关心“是什么”。但是她也知道当面对联合爱迪生电力公司高层的时候,她需要证明选择方案的正确性。预测可能是由机器完成的,但是消费者是人类,而人就习惯性地想通过找出原因来理解事物。
1703947918
1703947919 鲁丁希望尽快找到整理这些数据的便捷方法。她们将杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。在布朗克斯(Bronx)的电网测试中,他们对2008年中期之前的数据都进行了分析,并利用这些数据预测了2009年会出现问题的沙井盖。预测效果非常好,在他们列出的前10%的高危沙井盖名单里,有44%的沙井盖都发生了严重的事故。
1703947920
1703947921 最终,最重要的因素是这些电缆的使用年限和有没有出现过问题。讽刺的是,这个发现非常有意义,因为联合爱迪生电力公司的高层们可以在此基础上,迅速进行沙井盖事故可能性排序。但是,这些因素看起来会不会太过明显了?
1703947922
1703947923 好吧,既是又不是。因为一方面,就像数学家邓肯·沃茨(Duncan Watts)说的,“一旦你知道了结果,一切都很容易。”但是另一方面,我们不能忘记最开始的时候我们可是找出了106种预警情况。如何权衡以及优先修理成千上万个沙井盖中的哪一个,这不是那么容易做出决定的,因为各种各样的因素加入到了这个庞大的数据库中,而且这些数据记录的方式使得它本来就不适合处理分析。
1703947924
1703947925 这个例子说明了数据正在以新的方式帮助我们解决现实生活中的难题。
1703947926
1703947927 大数据洞察
1703947928
1703947929 我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
1703947930
1703947931 大数据时代:生活、工作与思维的大变革 [:1703946864]
1703947932 大数据,改变人类探索世界的方法
1703947933
1703947934 在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假想。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
1703947935
1703947936 假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了。
1703947937
[ 上一页 ]  [ :1.703947888e+09 ]  [ 下一页 ]