1703947458
1703947459
[7] 全球最权威的复杂网络研究专家之一,其最新作品《爆发》(Bursts)是大数据新科学范式的典型代表,该书的简体中文版已由湛庐文化策划、中国人民大学出版社出版,推荐与本书参照阅读。——译者注
1703947460
1703947461
[8] 作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点(手机用户)的情形,而是考察从网络中移除链路(通话关系)对网络结构的影响。借鉴渗流理论(Percolation Theory),作者发现,移除弱关系而非强关系反而会导致快速破碎成若干小碎片。详细分析可以参考Onnela等人2007年在《美国科学院院刊》上发表的“Structure and tie strengths in mobile communication networks”一文。——译者注
1703947462
1703947463
[9] 就个人而言,可以通过重叠社区挖掘的方法找到同时属于多个社区的节点,这些人往往对网络连通性至关重要。就联系而言,可以挖掘起桥接作用的连边,这些连边往往对网络连通性至关重要。这方面的概念和算术可参考2005年Palla等人在《自然》上发表的名为“Uncovering the overlapping community structure of complex networks in nature and society”一文及2010年程学旗等人在《统计力学杂志》上发表的名为“Bridgeness:a local index on edge significance in maintaining global connectivity”一文。——译者注
1703947464
1703947465
1703947466
1703947467
1703947469
大数据时代:生活、工作与思维的大变革 02 更杂:不是精确性,而是混杂性
1703947470
1703947471
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
1703947472
1703947473
【大数据先锋】
1703947474
1703947475
微软与语料库数据添加
1703947476
1703947477
IBM Candidate计算机翻译项目
1703947478
1703947479
无所不包的谷歌翻译系统
1703947480
1703947481
英国石油公司与无线感应器
1703947482
1703947483
麻省理工与通货紧缩预测软件
1703947484
1703947485
Hadoop与VISA的13分钟
1703947486
1703947488
允许不精确
1703947489
1703947490
在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。
1703947491
1703947492
对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
1703947493
1703947494
历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。事实上,对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史学家阿尔弗雷德·克罗斯比(Alfred Crosby)的话来说就是“测量现实”。
1703947495
1703947496
我们研究一个现象,是因为我们相信我们能够理解它。后来,测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录,并呈现可重复结果的能力。伟大的物理学家开尔文男爵曾说过:“测量就是认知。”这已成为一条至理名言。培根也曾说过:“知识就是力量。”同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法。
1703947497
1703947498
19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,这套系统还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。仅半个世纪之后,20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。然而,在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。随着理性学科,如数学和统计学逐渐影响到商业领域,商业界更加崇尚这种思想。
1703947499
1703947500
然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
1703947501
1703947502
同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。例如,与服务器处理投诉时的数据进行比较,用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果,但也是有助于我们把握整个事情的大致情况的。
1703947503
1703947504
混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。“大数据”专家帕堤尔(D.J.Patil)指出,I.B.M.、T.J.Watson Labs、International Business Machines都可以用来指代IBM,甚至可能有成千上万种方法称呼IBM。当然,在萃取或处理数据的时候,混乱也会发生。因为在进行数据转化的时候,我们是在把它变成另外的事物。比如,我们在对Twitter的信息进行情感分析来预测好莱坞票房的时候,就会出现一定的混乱。其实,混乱的起源和类型本来就是一团乱麻。
1703947505
1703947506
假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。
1703947507
[
上一页 ]
[ :1.703947458e+09 ]
[
下一页 ]