1703947618
新的数据库设计的诞生
1703947619
1703947620
这些现实条件导致了新的数据库设计的诞生,它们打破了关于记录和预设场域的成规。预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言,英文缩写为“SQL”——它的名字就显示了它的僵化。但是,近年的大转变就是非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。但是,一旦考虑到大大降低的存储和处理成本,这就是一个我们支付得起的公平交易。
1703947621
1703947622
帕特·赫兰德(Pat Helland)是来自微软的世界上最权威的数据库设计专家之一,在一篇题为《如果你有足够多的数据,那么“足够好”真的足够好》(If You Have Too Much Data,then‘Good Enough’Is Good Enough)的文章中,他把这称为一个重大的转变。分析了被各种各样质量参差不齐的数据所侵蚀的传统数据库设计的核心原则,他得出的结论是,“我们再也不能假装活在一个齐整的世界里”。他认为,处理海量数据会不可避免地导致部分信息的缺失。虽然这本来就是有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。赫兰德总结说:“略有瑕疵的答案并不会伤了商家的胃口,因为他们更看重高频率。”
1703947623
1703947624
传统数据库的设计要求在不同的时间提供一致的结果。比方说,如果你查询你的账户结余,它会提供给你确切的数目;而你几秒钟之后查询的时候,系统应该提供给你同样的结果,没有任何改变。但是,随着数据数量的大幅增加以及系统用户的增加,这种一致性将越来越难保持。
1703947625
1703947626
大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新,然而,当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万条搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的方法。
1703947627
1703947628
大数据先锋
1703947629
1703947630
Hadoop与VISA的13分钟
1703947631
1703947632
最能代表这个转变的,就是Hadoop的流行。Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。它预设硬件可能会瘫痪,所以在内部建立了数据的副本,它还假定数据量之大导致数据在处理之前不可能整齐排列。典型的数据分析需要经过“萃取、转移和下载”这样一个操作流程,但是Hadoop就不拘泥于这样的方式。相反,它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。
1703947633
1703947634
Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。
1703947635
1703947636
信用卡公司VISA使用Hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩减至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许Hadoop不适合正规记账,但是当可以允许少量错误的时候它就非常实用。
1703947637
1703947638
ZestFinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次验证了“宽容错误会给我们带来更多价值”这一观点。这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。传统的信用评分机制关注少量突出的事件,比如一次还款的延迟,而ZestFinance则分析了大量不那么突出的事件。2012年,让ZestFinance引以为豪的就是,它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的得胜之道还是拥抱混杂。
1703947639
1703947640
梅里尔说:“有趣的是,对我们而言,基本没有任何一个人的信息是齐备的,事实上,总有大量的数据缺失。”由ZestFinance创建的用来记录客户信息的矩阵是难以想象得稀疏,里面充满了数据的空洞,但ZestFinance在这些支离破碎的数据中如鱼得水。举个例子,有10%的客户属性信息显示“已经死亡”,但是依然可以从他们身上收回贷款。梅里尔一脸坏笑地说:“显然,没有人会企盼僵尸复活并且主动还贷。但是我们的数据显示,放贷给僵尸是一项不错的生意。”
1703947641
1703947642
接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了这么大规模的数据。
1703947643
1703947644
大数据的力量
1703947645
1703947646
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未涉足的世界的窗户。
1703947647
1703947648
社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。
1703947649
1703947650
第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。
1703947651
1703947652
第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
1703947653
1703947654
大数据洞察
1703947655
1703947656
我们怎么看待使用所有数据和使用部分数据的差别,以及我们怎样选择放松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入我们的思维中。
1703947657
1703947658
现在,我们能够容忍模糊和不确定出现在一些过去依赖于清晰和精确的领域,当然过去可能也只是有清晰的假象和不完全的精确。只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了。
1703947659
1703947660
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节,也依然会错过事物的全貌。
1703947661
1703947662
大数据洞察
1703947663
1703947664
大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
1703947665
1703947666
这些思想上的重大转变导致了第三个变革,这个变革有望颠覆很多传统观念。这些传统观念更加基本,往往被认为是社会建立的根基:找到一切事情发生背后的原因。然而其实很多时候,寻找数据间的关联并利用这种关联就足够了。这是我们下一个章节将要讨论的。
1703947667
[
上一页 ]
[ :1.703947618e+09 ]
[
下一页 ]