1700431040
■ 在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。
1700431041
1700431042
■ Facebook每个月都会有300亿条新信息被分享。
1700431043
1700431044
■ 在美国17大行业中的15个行业,每个企业的平均数据量都超过了美国国会图书馆的数据量。〔3〕
1700431045
1700431046
大数据的“大”并不仅仅指容量
1700431047
1700431048
尽管大数据必然包含大量的数据,但是大数据并不仅仅指数据的容量。与过去的数据源相比,大数据的速度(例如,数据传输和接收的速度)、复杂度以及多样性都有所增加。
1700431049
1700431050
大数据并不是仅仅指数据的容量即数据量的大小。根据Gartner Group公司的定义,大数据的“大”也涉及大数据源的其他特征。〔4〕这些特征不仅仅包括不断增加的容量,还包括不断增加的速度和多样性。当然,这些因素也导致了额外的复杂度。这意味着当你在处理大数据时,你并不仅仅是拿到了一堆数据而已。大数据正在以复杂的格式,从不同的数据源高速地朝你奔涌而来。
1700431051
1700431052
所以,不难理解为什么我们要用浪潮来比喻涌向我们的大数据,以及为什么驾驭它们是一个挑战!企业的分析技术、流程和系统已经接近或者超越处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程,从而更加有效地分析和处理大数据。在本书中,我们将讨论所有这些主题,论证为什么驾驭大数据所付出的努力是值得的。
1700431053
1700431055
1.2 大数据中的“大”和“数据”哪个更重要
1700431056
1700431057
现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要?请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。
1700431058
1700431059
好了,既然你已经锁定了答案,让我们来看一下它是否正确。这个问题的答案应该选(4),其实“大”和“数据”都不是大数据中最重要的。根本而言,最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析,以及随之采取的业务改进措施才是最重要的。
1700431060
1700431061
无论如何,拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多,可那又如何?事实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用,数据将毫无意义。对于任何大量或少量的大数据,大数据的威力体现在如何处理这些数据上。如何分析这些数据?基于这些洞察又将采取怎样的行动?如何利用这些数据来改变业务?
1700431062
1700431063
或许因为读了很多炒作大数据的文章,很多人开始相信正是由于大数据的大容量、高速和多样性,才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的,在很多大数据中,毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时,它们将不再显得如此庞大。但这并不重要,因为不管它是保持原始大小,还是被处理后变得很小,容量并不重要,重要的是如何处理它。
1700431064
1700431065
重要的不是它的容量,而是你如何使用它!
1700431066
1700431067
当然,我们正在谈论的是大数据!我们并不关注大数据的数据量很大这样的事实,也不关注大数据确实会带来很多内在价值的事实。这些价值体现在你如何分析它们,并采取怎样的措施来提升你的业务。
1700431068
1700431069
当我们开始阅读本书时,第一个关键点是要记住大数据的数据量很大,而且大数据是数据。然而,这并不是使你和你的企业为之兴奋的原因。令人激动的部分在于,使用这些数据时采用的所有新的、强大的分析方法。后边我们将讨论到大量全新的分析方法。
1700431070
1700431072
1.3 大数据有何不同
1700431073
1700431074
大数据具有一些区别于传统数据源的重要特征。并非每个大数据源都具备所有这些特征,但是大多数大数据源都会具备其中的一些特征。
1700431075
1700431076
首先,大数据通常是由机器自动生成的。在新数据的产生过程中,并不会涉及人工参与,它们完全由机器自动生成。如果你分析一下传统的数据源,它们通常会涉及人工的因素。例如,零售业和银行交易、电话呼叫的详细记录、产品出货,或是发票付款。以上这些都会涉及某个人做某些事情,从而记录或生成一些数据。有人需要储蓄,有人需要采购,还有人需要打电话、发货和进行支付等。在每种情形中,总有一个人参与到新数据的生成流程中。在很多情况下,大数据并不是这样产生的。大量大数据源的产生根本不涉及与人的互动。例如,引擎中内置的传感器,即使没有人触摸或下达指令,它也会自动地生成关于周围环境的数据。
1700431077
1700431078
其次,大数据通常是一种全新的数据源,并非仅仅是对已有数据的扩展收集。例如,通过使用互联网,顾客可以与银行或零售商进行在线交易。然而,这些交易和传统的交易方式并没有本质上的差别,顾客仅仅是通过一种不同的渠道进行交易。企业可以收集网络交易数据,但是同他们多年来拥有的传统交易数据相比,这些数据仅仅是数量更多的相同类型数据而已。然而,对顾客在进行交易时的浏览行为进行收集,却产生了一种本质上全新的数据,我们将在第2章中对这类数据进行详细的讨论。
1700431079
1700431080
有时,“数量更多的相同类型数据”也可以达到另一个极端,从而变成一种新的数据。例如,或许很多年来都是人工方式读取你的电表。可以这样说,一个每隔15分钟自动读取用电数据的智能电表所产生的仅仅是更多“相同类型的数据”。然而,我们也有理由认为这种“数量更多的相同类型数据”已经不同于以前人工读取的数据,因为它可以使用一种全新的、更深层次的分析,所以它确实是一种新数据源。我们将在第3章讨论这种数据源。
1700431081
1700431082
再次,很多大数据源的设计并不友好。事实上,一些数据源根本没有被设计过!以社交媒体网站上的文本流为例,我们不可能要求用户使用一定标准的语法、语序或是词汇表。当人们发布信息时,你可以获得这些数据。处理这些时而规范,时而丑陋的数据是非常困难的事情。我们将在第3章和第6章中讨论文本数据。大多数传统数据源在设计之初都会尽量使其友好。例如,用于收集交易信息的系统通常会以整洁的、预先规范好的模板方式来生成数据,以确保数据容易被加载和使用。部分原因在于曾经对空间高效利用的需求,以前并没有空间记录其他的繁文缛节。
1700431083
1700431084
大数据可能是凌乱而丑陋的
1700431085
1700431086
传统数据源通常在最开始就被严格地定义。数据的每一个比特都有重要的价值,否则就不会包含这个数据比特。随着存储空间的开销变得微乎其微,大数据源在最开始通常不会被严格地定义,而是去收集所有可能使用到的各种信息。因此,在分析大数据时,可能会遇到各种杂乱无章、充斥着垃圾的数据。
1700431087
1700431088
最后,大量数据可能并不蕴含大量的价值。事实上,大部分数据甚至毫无价值。一篇网页日志中会含有非常重要的数据,但其中也包含了很多根本没有价值的数据。对其进行提炼,从而保留有价值的部分是非常必要的。传统数据源在定义之初,就被要求所有的数据要百分之百有用。这主要是由于当时可扩展性的限制,在数据中包含一些不重要信息的代价是非常昂贵的。不仅数据记录的格式被预先定义过了,而且数据中的每一部分都包含了重要价值。而如今,存储空间已不再是主要的瓶颈。因此,大数据会默认收集所有可能使用到的信息,后面再去考虑这种做法可能带来的麻烦。这样可以保证所有信息都不会被遗漏,但同时也导致了分析大数据变得更加棘手和令人头痛。
1700431089
[
上一页 ]
[ :1.70043104e+09 ]
[
下一页 ]