打字猴:1.703947383e+09
1703947383
1703947384 大数据先锋
1703947385
1703947386 大数据与乔布斯的癌症治疗
1703947387
1703947388 苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用,这是23andme报价的几百倍之多。所以,他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档。
1703947389
1703947390 对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药,也就是乔布斯所说的,“从一片睡莲叶跳到另一片上。”乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。
1703947391
1703947392 大数据时代:生活、工作与思维的大变革 [:1703946853]
1703947393 全数据模式,样本=总体
1703947394
1703947395 在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、手机导航、网站点击和Twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。
1703947396
1703947397 采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。
1703947398
1703947399 采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择,只能利用采样分析法来进行考察,但是在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话,我们会收集所有的数据,即“样本=总体”。
1703947400
1703947401 正如我们所看到的,“样本=总体”是指我们能对数据进行深度探讨,而采样几乎无法达到这样的效果。上面提到的有关采样的例子证明,用采样的方法分析整个人口的情况,正确率可达97%。对于某些事物来说,3%的错误率是可以接受的。但是你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。我们不能满足于正态分布一般中庸平凡的景象。生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。
1703947402
1703947403 谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。Farecast的初始系统使用的样本包含12000个数据,所以取得了不错的预测结果。随着奥伦·埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终,Farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说:“这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。”
1703947404
1703947405 所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据。我们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据收集方法也很重要。过去,这些问题中的任何一个都很棘手。在一个资源有限的时代,要解决这些问题需要付出很高的代价。但是现在,解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情,现在绝大部分的公司都可以做到了。
1703947406
1703947407 通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。这是一个大数据问题。而且,因为交易是即时的,所以你的数据分析也应该是即时的。
1703947408
1703947409 大数据先锋
1703947410
1703947411 Xoom与跨境汇款异常交易报警
1703947412
1703947413 Xoom是一个专门从事跨境汇款业务的公司,它得到了很多拥有大数据的大公司的支持。它会分析一笔交易的所有相关数据。2011年,它注意到用“发现卡”从新泽西州汇款的交易量比正常情况多一些,系统于是启动报警。Xoom公司的首席执行官约翰·孔泽(John Kunze)解释说:“这个系统关注的是不应该出现的情况。”单独来看,每笔交易都是合法的,但是事实证明这是一个犯罪集团在试图诈骗。而发现异常的唯一方法就是,重新检查所有的数据,找出样本分析法错过的信息。
1703947414
1703947415 然而,使用所有的数据并不代表这是一项艰巨的任务。大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。谷歌流感趋势预测建立在数亿的数学模型上,而它们又建立在数十亿数据节点的基础之上。完整的人体基因组有约30亿个碱基对。但这只是单纯的数据节点的绝对数量,并不代表它们就是大数据。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法。
1703947416
1703947417 日本国民体育运动“相扑”中非法操纵比赛结果的发现过程,就恰到好处地说明了使用“样本=总体”这种全数据模式的重要性。消极比赛一直被极力禁止,备受谴责,很多运动员深受困扰。芝加哥大学的一位很有前途的经济学家斯蒂夫·列维特(Steven Levitt),在《美国经济评论》上发表了一篇研究论文,其中提到了一种发现这种情况的方法:查看运动员过去所有的比赛资料。他的畅销书《魔鬼经济学》(Freakonomics)中也提到了这个观点,他认为检查所有的数据是非常有价值的。
1703947418
1703947419 列维特和他的同事马克·达根(Mark Duggan)使用了11年中超过64000场摔跤比赛的记录,来寻找异常性。他们获得了重大的发现。非法操纵比赛结果的情况确实时有发生,但是不会出现在大家很关注的比赛上。冠军赛也有可能被操纵,但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没有什么风险,因为很多选手根本就没有获奖的希望。
1703947420
1703947421 相扑比赛的一个比较特殊的地方是,选手需要在15场赛事中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一名7胜7负的摔跤手碰到一个8胜6负的对手时,比赛结果对第一个选手来说极其重要,对他的对手而言则没有那么重要。列维特和达根发现,在这样的情况下,需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”,因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路。
1703947422
1703947423 有没有可能是要赢的决心帮助这个选手获胜呢?答案是,有可能。但是数据显示的情况是,需要赢的选手的求胜心也只能把胜率提高25%。所以,把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现,与他们在先前比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方更高的胜率。因为在相扑界,你的付出总会有所“回报”,所以第一次的胜利看上去更像是一名选手送给另一名选手的礼物。
1703947424
1703947425 这个情况是显而易见的。但是如果采用随机采样分析法,就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况。这就像捕鱼一样,开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼。
1703947426
1703947427 一个数据库并不需要有以太字节[5]计的数据。在这个相扑案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的。
1703947428
1703947429 很长一段时间内,随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的,在采样分析的时候,很多信息就丢失了——你能欣赏一首歌的抽样吗?拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。
1703947430
1703947431 我们可以用Lytro相机来打一个恰当的比方。Lytro相机是具有革新性的,因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同,Lytro相机可以记录整个光场里所有的光,达到1100万束之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了,也就是收集了所有的数据,“样本=总体”。因此,与普通照片相比,这些照片就更具“可循环利用性”。如果使用普通相机,摄影师就必须在拍照之前决定好聚焦点。
1703947432
[ 上一页 ]  [ :1.703947383e+09 ]  [ 下一页 ]