打字猴:1.703948342e+09
1703948342 用物理学家解释能量的方法或许可以帮助我们理解数据。他们认为物体拥有“储存着的”或“潜在的”能量,只是处于休眠状态,比如压缩了的弹簧或放置在小山顶的小球。这些物体中的能量是隐藏着的、潜在的,直到它们被释放出来。当弹簧被释放或者小球被轻碰而滚下山坡时,这些物体的能量就变成了“动能”,因为它们在移动并对其他物体施力。同理,在基本用途完成后,数据的价值仍然存在,只是处于休眠状态,就像弹簧或小球一样,直到它被二次利用并重新释放它的能量。在大数据时代,我们终于有了这种思维、创造力和工具,来释放数据的隐藏价值。
1703948343
1703948344 大数据洞察
1703948345
1703948346 最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的“潜在价值”。
1703948347
1703948348 过去,一旦数据的基本用途实现了,我们便认为数据已经达到了它的目的,准备将其删除,让它就此消失。毕竟,数据的首要价值已经得以提取。而在大数据时代,数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。
1703948349
1703948350 大数据时代:生活、工作与思维的大变革 [:1703946875]
1703948351 数据创新1:数据的再利用
1703948352
1703948353 数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。乍看起来,这些信息在实现了基本用途之后似乎变得一文不值。但是,以往的查询也可以变得非常有价值。有的公司,如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。通过Hitwise营销人员可以了解到粉红色是否会成为今夏的潮流色,或者黑色是否会回归潮流。谷歌整理了一个版本的搜索词分析,公开供人们查询,并与西班牙第二大银行BBVA合作推出了实时经济指标以及旅游部门的业务预报服务,这些指标都是基于搜索数据得到的。英国央行通过搜索查询房地产的相关信息,更好地了解到了住房价格的升降情况。
1703948354
1703948355 大数据先锋
1703948356
1703948357 亚马逊,让数据的价值再大一点
1703948358
1703948359 未能理解数据再利用重要性的公司以惨痛的代价换来了经验教训。例如,亚马逊早期与AOL达成了一项协议,为AOL电子商务网站提供后台技术服务。在大多数人眼里,这只是一个普通的外包协议,而亚马逊真正的用意在于掌握用户的数据:他们在看什么、买什么。“这些数据可以帮助亚马逊提高它的推荐引擎性能。”亚马逊前首席科学家韦思岸(Andreas Weigend)一语道破。可怜的AOL从来没有意识到这一点,只看到了销售这个基本用途所带来的利益;而聪明的亚马逊却知道如何从二次利用中获利。
1703948360
1703948361 再来看另一个例子,谷歌在2007—2010年之间计划在本地搜索列表中加入GOOG—411语音识别服务,但这家搜索巨头并没有自己的语音识别技术,因此急需购买许可。于是,谷歌与该领域的领导者Nuance公司达成合作协议,这家公司因为搭上了这样一个珍贵的客户而感到十分高兴。但Nuance公司在数据方面完全是个十足的笨蛋:合同中没有规定由谁来保存语音翻译记录!于是谷歌自己保存了数据。这些数据在改进技术方面是不可或缺的,谷歌甚至据此从头创建了一个新的语音识别服务系统。当时Nuance公司只考虑到了软件许可的业务交易,而忽视了数据的处理。当认识到自己犯下的错误后,它立即与移动运营商和手机制造商达成其语音识别服务的使用交易,从而进行数据收集。
1703948362
1703948363 数据再利用的价值对于那些收集或控制着大型数据集但目前却很少使用的机构来说是个好消息,比如在那些线下运作的传统企业。他们或许正坐在尚未开发的信息喷泉上。有些企业可能已经收集了数据并使用过一次(如果可能的话),且因为存储成本低而将其保存了下来,数据科学家们称这类保存旧信息的计算机为“数据坟墓”。互联网和科技公司在利用海量数据方面走在了最前沿,因为他们仅仅通过在线就能收集大量的信息,分析能力也领先于其他行业。但是,所有的公司都可能会从中获利。麦肯锡的咨询顾问们列举了一家物流公司(名称保密)。这家公司在交付货物的过程中积累了大量产品的全球出货信息。嗅到了这个机会之后,该公司成立了专门的部门,以商业和经济预测的形式出售汇总数据。换言之,它创造了谷歌过去搜索查询业务的一个线下版本。
1703948364
1703948365 由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但是他们并不急需使用也并不擅长再次利用这些数据。例如,移动电话运营商收集用户的位置信息来传输电话信号。对于这些公司来说,数据只具有狭窄的技术用途。但是当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。有时候,数据的价值并非来自于单个的数据值,而是从数据汇总中体现出来的。因此,AirSage和Sense Networks这些企业会出售诸如人们周五晚上聚集在哪里或者汽车在哪个地段行驶多慢等信息,这种信息集合可以用来确定房地产价值或广告牌的价格。
1703948366
1703948367 大数据先锋
1703948368
1703948369 移动运营商与数据再利用
1703948370
1703948371 如果得到使用正确,即使是最平凡的信息也可以具有特殊的价值。看看移动运营商吧:他们记录了人们的手机在何时何地连接基站的信息,包括信号的强度。运营商们长期使用这些数据来微调其网络的性能,决定哪里需要添加或者升级基础设施。但这些数据还有很多其他潜在的用途,比如手机制造商可以用它来了解影响信号强度的因素,以改善手机的接收质量。一直以来,处于隐私保护相关法律的限制,移动运营商们并没有用这些数据来谋取利益。但如今,伴随着经济颓势,它们开始逐渐改变立场,认为数据也可以作为其利润的潜在来源。2012年,西班牙电话公司(Telefónica of Spain),一家国际电讯公司,甚至创立了独立公司Telefonica Digital Insights来向零售商和其他买家出售其收集到的匿名用户位置信息。
1703948372
1703948373 大数据时代:生活、工作与思维的大变革 [:1703946876]
1703948374 数据创新2:重组数据
1703948375
1703948376 有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,我们可以做出很有创意的东西来。一个成功的例子是2011年发表的关于手机是否增加致癌可能性的一项有趣的研究。全球约有60亿部手机,几乎人手一部,因而这个问题是至关重要的。人们做了大量的研究来寻找其中的关联,但都受困于各种障碍:样本量太小、研究时间太短或者是被试自己报告的数据中充满错误。然而,丹麦癌症协会的研究团队基于以往收集的数据想出了一个有趣的方法。
1703948377
1703948378 大数据先锋
1703948379
1703948380 丹麦癌症协会:手机是否增加致癌率
1703948381
1703948382 丹麦拥有1985年手机推出以来所有手机用户的数据库。这项研究分析了1990年至2007年间拥有手机的用户(企业用户和其他社会经济数据不可用的用户除外),共涉及358403人。该国同时记录了所有癌症患者的信息,在那期间共有10729名中枢神经系统肿瘤患者。结合这两个数据集后,研究人员开始寻找两者的关系:手机用户是否比非手机用户显示出较高的癌症发病率?使用手机时间较长的用户是否比时间较短的用户更容易患上癌症?
1703948383
1703948384 尽管研究的规模很大,数据却没有出现丝毫混乱或含糊不清。为了满足医疗或商业的目的,两个数据集都采用了严格的质量标准,信息的收集不存在偏差。事实上,数据是在多年前就已经生成的,当时的目的与这项研究毫不相关。最重要的是,这项研究并没有基于任何样本,却很接近“样本=总体”的准则,即包括了几乎所有癌症患者和移动用户。数据包含了所有的情况,这意味着研究人员掌握了各种亚人群组信息,比如吸烟人群。
1703948385
1703948386 最后,研究没有发现使用移动电话和癌症风险增加之间存在任何关系。因此,当2011年10月研究结果在《英国医学杂志》上发布时,并未在媒体中引起任何轰动。但是如果两者之间存在关联的话,它可能马上就会登上世界各地的头版头条,而“重组数据”也可能会随之名声大噪。
1703948387
1703948388 随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。如今,互联网用户都熟悉基本的混搭式应用,即将两个或多个数据源以一种新颖的方法结合起来。例如,房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上,同时还聚合了大量的信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。
1703948389
1703948390 这个结果极具指导意义,尽管通过视觉展示使得数据更加亲和且非常简单,但采用位置信息并将其置于地图上毕竟不是一个创造性的飞跃。随着大数据的出现,我们可以走得更远,丹麦的癌症研究就为我们提示了更多的可能性。
1703948391
[ 上一页 ]  [ :1.703948342e+09 ]  [ 下一页 ]