1700431023
第1章什么是大数据,大数据为什么重要
1700431024
1700431025
在未来几年中,各种新的、强大的数据源会持续爆炸式地增长,它们将会对高级分析产生巨大的影响。例如,仅仅依靠人口统计学和销售历史来分析顾客的时代已经成为了历史。事实上,每一个行业中,都将出现或者已经出现了至少一种崭新的数据源。其中一些数据源被广泛应用于各个行业,而另外一些数据源则只对很小一部分行业和市场具有重大意义。这些数据源都涉及了一个新术语,该术语受到人们越来越多的议论,这个术语便是——大数据。
1700431026
1700431027
大数据如雨后春笋般地出现在各行各业中,如果能够适当地使用大数据,将可以扩大企业的竞争优势。如果一个企业忽视了大数据,这将会为其带来风险,并导致在竞争中渐渐落后。为了保持竞争力,企业必须积极地去收集和分析这些新的数据源,并深入了解这些新数据源带来的新信息。专业的分析人士将有很多的工作要做!将大数据和其他已经被分析了多年的数据结合在一起,并不是一件容易的事情。
1700431028
1700431029
本章首先介绍了大数据的背景、它的作用,然后从企业如何利用大数据的角度做了大量介绍。如果读者想要成功驾驭大数据浪潮,那么在理解本书其他部分的同时,需要更深刻地理解本章内容。
1700431030
1700431032
1.1 什么是大数据
1700431033
1700431034
关于大数据,业界并没有一个统一的定义,但却有几个一致的观点。有两份资料很好地诠释了大数据的本质。第一个定义来自于Gartner公司的Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇文章。他说,“大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。”〔1〕另一个定义来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年5月发表的一篇论文:“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。”〔2〕
1700431035
1700431036
这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据,在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同,因为它们所用工具和技术的处理能力可能大相径庭。我们将在本章的“今天的大数据将不再是明天的大数据”一节中对此展开更详细的讨论。
1700431037
1700431038
麦肯锡的论文中列举了一些有趣的事实,这些事实能够帮助读者认识今天的数据量是多么庞大。
1700431039
1700431040
■ 在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。
1700431041
1700431042
■ Facebook每个月都会有300亿条新信息被分享。
1700431043
1700431044
■ 在美国17大行业中的15个行业,每个企业的平均数据量都超过了美国国会图书馆的数据量。〔3〕
1700431045
1700431046
大数据的“大”并不仅仅指容量
1700431047
1700431048
尽管大数据必然包含大量的数据,但是大数据并不仅仅指数据的容量。与过去的数据源相比,大数据的速度(例如,数据传输和接收的速度)、复杂度以及多样性都有所增加。
1700431049
1700431050
大数据并不是仅仅指数据的容量即数据量的大小。根据Gartner Group公司的定义,大数据的“大”也涉及大数据源的其他特征。〔4〕这些特征不仅仅包括不断增加的容量,还包括不断增加的速度和多样性。当然,这些因素也导致了额外的复杂度。这意味着当你在处理大数据时,你并不仅仅是拿到了一堆数据而已。大数据正在以复杂的格式,从不同的数据源高速地朝你奔涌而来。
1700431051
1700431052
所以,不难理解为什么我们要用浪潮来比喻涌向我们的大数据,以及为什么驾驭它们是一个挑战!企业的分析技术、流程和系统已经接近或者超越处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程,从而更加有效地分析和处理大数据。在本书中,我们将讨论所有这些主题,论证为什么驾驭大数据所付出的努力是值得的。
1700431053
1700431055
1.2 大数据中的“大”和“数据”哪个更重要
1700431056
1700431057
现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要?请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。
1700431058
1700431059
好了,既然你已经锁定了答案,让我们来看一下它是否正确。这个问题的答案应该选(4),其实“大”和“数据”都不是大数据中最重要的。根本而言,最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析,以及随之采取的业务改进措施才是最重要的。
1700431060
1700431061
无论如何,拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多,可那又如何?事实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用,数据将毫无意义。对于任何大量或少量的大数据,大数据的威力体现在如何处理这些数据上。如何分析这些数据?基于这些洞察又将采取怎样的行动?如何利用这些数据来改变业务?
1700431062
1700431063
或许因为读了很多炒作大数据的文章,很多人开始相信正是由于大数据的大容量、高速和多样性,才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的,在很多大数据中,毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时,它们将不再显得如此庞大。但这并不重要,因为不管它是保持原始大小,还是被处理后变得很小,容量并不重要,重要的是如何处理它。
1700431064
1700431065
重要的不是它的容量,而是你如何使用它!
1700431066
1700431067
当然,我们正在谈论的是大数据!我们并不关注大数据的数据量很大这样的事实,也不关注大数据确实会带来很多内在价值的事实。这些价值体现在你如何分析它们,并采取怎样的措施来提升你的业务。
1700431068
1700431069
当我们开始阅读本书时,第一个关键点是要记住大数据的数据量很大,而且大数据是数据。然而,这并不是使你和你的企业为之兴奋的原因。令人激动的部分在于,使用这些数据时采用的所有新的、强大的分析方法。后边我们将讨论到大量全新的分析方法。
1700431070
[
上一页 ]
[ :1.700431022e+09 ]
[
下一页 ]