打字猴:1.70043103e+09
1700431030
1700431031 驾驭大数据 [:1700430516]
1700431032 1.1 什么是大数据
1700431033
1700431034 关于大数据,业界并没有一个统一的定义,但却有几个一致的观点。有两份资料很好地诠释了大数据的本质。第一个定义来自于Gartner公司的Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇文章。他说,“大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。”〔1〕另一个定义来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年5月发表的一篇论文:“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。”〔2〕
1700431035
1700431036 这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据,在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同,因为它们所用工具和技术的处理能力可能大相径庭。我们将在本章的“今天的大数据将不再是明天的大数据”一节中对此展开更详细的讨论。
1700431037
1700431038 麦肯锡的论文中列举了一些有趣的事实,这些事实能够帮助读者认识今天的数据量是多么庞大。
1700431039
1700431040 ■ 在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。
1700431041
1700431042 ■ Facebook每个月都会有300亿条新信息被分享。
1700431043
1700431044 ■ 在美国17大行业中的15个行业,每个企业的平均数据量都超过了美国国会图书馆的数据量。〔3〕
1700431045
1700431046 大数据的“大”并不仅仅指容量
1700431047
1700431048 尽管大数据必然包含大量的数据,但是大数据并不仅仅指数据的容量。与过去的数据源相比,大数据的速度(例如,数据传输和接收的速度)、复杂度以及多样性都有所增加。
1700431049
1700431050 大数据并不是仅仅指数据的容量即数据量的大小。根据Gartner Group公司的定义,大数据的“大”也涉及大数据源的其他特征。〔4〕这些特征不仅仅包括不断增加的容量,还包括不断增加的速度和多样性。当然,这些因素也导致了额外的复杂度。这意味着当你在处理大数据时,你并不仅仅是拿到了一堆数据而已。大数据正在以复杂的格式,从不同的数据源高速地朝你奔涌而来。
1700431051
1700431052 所以,不难理解为什么我们要用浪潮来比喻涌向我们的大数据,以及为什么驾驭它们是一个挑战!企业的分析技术、流程和系统已经接近或者超越处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程,从而更加有效地分析和处理大数据。在本书中,我们将讨论所有这些主题,论证为什么驾驭大数据所付出的努力是值得的。
1700431053
1700431054 驾驭大数据 [:1700430517]
1700431055 1.2 大数据中的“大”和“数据”哪个更重要
1700431056
1700431057 现在让我们先做一个小测验!在你继续阅读之前,请先停下片刻,并思考这个问题:术语“大数据”中,哪部分是最重要的?是(1)“大”,(2)“数据”,(3)二者同等重要,还是(4)都不重要?请花一分钟时间来思考这个问题,如果你已经锁定了自己的答案,请继续阅读后面的内容。同时,想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。
1700431058
1700431059 好了,既然你已经锁定了答案,让我们来看一下它是否正确。这个问题的答案应该选(4),其实“大”和“数据”都不是大数据中最重要的。根本而言,最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析,以及随之采取的业务改进措施才是最重要的。
1700431060
1700431061 无论如何,拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多,可那又如何?事实上,拥有任何一个数据集,无论它们多大或者多小,其自身都不会带来任何价值。被收集来的数据如果从不使用,不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用,数据将毫无意义。对于任何大量或少量的大数据,大数据的威力体现在如何处理这些数据上。如何分析这些数据?基于这些洞察又将采取怎样的行动?如何利用这些数据来改变业务?
1700431062
1700431063 或许因为读了很多炒作大数据的文章,很多人开始相信正是由于大数据的大容量、高速和多样性,才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的,在很多大数据中,毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时,它们将不再显得如此庞大。但这并不重要,因为不管它是保持原始大小,还是被处理后变得很小,容量并不重要,重要的是如何处理它。
1700431064
1700431065 重要的不是它的容量,而是你如何使用它!
1700431066
1700431067 当然,我们正在谈论的是大数据!我们并不关注大数据的数据量很大这样的事实,也不关注大数据确实会带来很多内在价值的事实。这些价值体现在你如何分析它们,并采取怎样的措施来提升你的业务。
1700431068
1700431069 当我们开始阅读本书时,第一个关键点是要记住大数据的数据量很大,而且大数据是数据。然而,这并不是使你和你的企业为之兴奋的原因。令人激动的部分在于,使用这些数据时采用的所有新的、强大的分析方法。后边我们将讨论到大量全新的分析方法。
1700431070
1700431071 驾驭大数据 [:1700430518]
1700431072 1.3 大数据有何不同
1700431073
1700431074 大数据具有一些区别于传统数据源的重要特征。并非每个大数据源都具备所有这些特征,但是大多数大数据源都会具备其中的一些特征。
1700431075
1700431076 首先,大数据通常是由机器自动生成的。在新数据的产生过程中,并不会涉及人工参与,它们完全由机器自动生成。如果你分析一下传统的数据源,它们通常会涉及人工的因素。例如,零售业和银行交易、电话呼叫的详细记录、产品出货,或是发票付款。以上这些都会涉及某个人做某些事情,从而记录或生成一些数据。有人需要储蓄,有人需要采购,还有人需要打电话、发货和进行支付等。在每种情形中,总有一个人参与到新数据的生成流程中。在很多情况下,大数据并不是这样产生的。大量大数据源的产生根本不涉及与人的互动。例如,引擎中内置的传感器,即使没有人触摸或下达指令,它也会自动地生成关于周围环境的数据。
1700431077
1700431078 其次,大数据通常是一种全新的数据源,并非仅仅是对已有数据的扩展收集。例如,通过使用互联网,顾客可以与银行或零售商进行在线交易。然而,这些交易和传统的交易方式并没有本质上的差别,顾客仅仅是通过一种不同的渠道进行交易。企业可以收集网络交易数据,但是同他们多年来拥有的传统交易数据相比,这些数据仅仅是数量更多的相同类型数据而已。然而,对顾客在进行交易时的浏览行为进行收集,却产生了一种本质上全新的数据,我们将在第2章中对这类数据进行详细的讨论。
1700431079
[ 上一页 ]  [ :1.70043103e+09 ]  [ 下一页 ]