打字猴:1.70043113e+09
1700431130 驾驭大数据 [:1700430521]
1700431131 1.6 你为什么需要驾驭大数据
1700431132
1700431133 目前为止,很多企业在大数据上所做的事情还非常少。幸运的是,在2012年,如果你的企业还没重视大数据,你们落后得还不算很远,除非你是在电子商务这样的行业(在这些行业中,大数据分析已经被标准化了)。然而,随着势头的飞快增长,这种情况会很快改变。迄今为止,大部分企业所错过的仅仅是做领导者的机会。事实上,这对于很多企业来说并不是什么问题。今天,它们仍有机会迎头赶上。然而再过几年,如果一家企业还没有分析大数据,那么它在这场游戏中将很难再赶上别的企业。驾驭大数据最好的时机正是现在!
1700431134
1700431135 一家企业完全可以借助新的数据源来获取业务价值,而其竞争对手却没有做同样的事情,这种情况并不常见。这是如今大数据所带来的巨大商机,你将有机会超过你的竞争对手并击败它们。在未来几年内,我们将会继续看到通过大数据分析进行成功业务转型的案例。你将会从很多案例分析中看到,竞争对手是如何被猝不及防地抛进历史的尘埃中。在很多文章、会议以及其他的讨论中,已经有很多此类案例引人瞩目。一些案例正是来自于行业中那些迟钝、落后以及守旧的企业。在电子商务这样新兴而火爆的行业中,情况则完全两样。在第2章和第3章中,我们将会看到很多如何使用大数据的案例。
1700431136
1700431137 现在正是时候!
1700431138
1700431139 你的企业需要从现在开始驾驭大数据。如果迄今为止,你一直都在忽视大数据,那么你所错过的只是当领导者的机会,你仍有机会可以迎头赶上。再过几年,如果你还在袖手旁观,那么你将会被淘汰。如果你的企业已经开始着手收集数据,并通过分析进行决策,那么对于你们来说,跟上大数据的步伐并不是一件夸张的事情。处理大数据仅仅是你现在所做事情的简单延伸。
1700431140
1700431141 事实上,下决心开始驾驭大数据并不是一件困难的事情。大多数企业已经开始着手收集和分析数据,并将其作为其战略的核心部分。数据仓库、报表和分析已经开始普及。一家企业一旦开始认识到数据的价值,那么驾驭和分析大数据仅仅是它们现有工作的扩展和延伸。不要轻信怀疑论者的言论:大数据不值得探索,它们没有得到验证,它们风险太大等。在过去的几十年里,这些同样的借口一直在阻挠着数据分析的进步。对于那些对大数据感到不确定或是不安的人,要让他们明白大数据仅仅是企业现在所做事情的简单延伸。大数据并没有任何翻天覆地的变化,大数据没有什么让我们可畏惧的。
1700431142
1700431143 驾驭大数据 [:1700430522]
1700431144 1.7 大数据的结构
1700431145
1700431146 当你阅读大数据的相关文章时,你可能会遇到很多关于以下概念的讨论,数据如何被结构化、非结构化、半结构化,甚至多结构化。大数据通常被描述为非结构化的,而传统数据则是结构化的。然而它们之间的界限并不像这些标签所划分的那么清楚。让我们以非专家的视角来探讨这3种数据类型,更高深的技术细节超出了本书讨论的范畴。
1700431147
1700431148 绝大多数传统数据都是完全结构化的。这意味着传统数据源会以明确的、预先规范好所有细节的格式呈现。每时每刻所产生的新数据,都不会违背这些预先定义好的格式。对于股票交易,其交易信息的第一部分应该是格式为月份/日期/年份的时间信息,接下来的是12位账户数字,而下面紧跟的是由3到5位字母表示的股票代码等。每条信息事先都已很明确了,以规范好的格式和顺序给出,这使得它们很容易被处理。
1700431149
1700431150 对于非结构化的数据,你没有或几乎没有控制权,你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的,但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而,对于大部分数据来说,至少都是半结构化的。
1700431151
1700431152 半结构化的数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的。有时,半结构化数据也被称为多结构化数据。在这类数据里,有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据,要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据,必须要有一套复杂的规则,在读到每条信息后,能够动态地决定随后的处理方法。
1700431153
1700431154 网络日志是半结构化数据的最好例子。当你看到网络日志时,你会觉得它们非常丑陋;但是,其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。
1700431155
1700431156
1700431157
1700431158
1700431159 图1-1 原始网络日志的例子
1700431160
1700431161 你的大数据具有怎样的结构?
1700431162
1700431163 事实上,很多大数据源都是半结构化或多结构化的,而不是非结构化的。这些数据具有可被理解的逻辑流程,因此可以从它们中提取出用于分析的信息。处理这类数据不像处理传统结构化数据那么简单。要驾驭半结构化数据,需要花费很多时间,并且要努力才能找出处理它们的最好方法。
1700431164
1700431165 网络日志中的信息都有一定的逻辑,尽管第一眼看上去可能并不那么明显。日志中有不同的字段和分隔符,就像结构化的数据一样,其中也蕴含着价值。然而,这些元素并没有按照固定的方式紧密地联系在一起。点击一个网站所产生的日志文本比起一分钟前点击另一个网页产生的日志文本,可能更长,也可能更短。最后,一定要理解半结构化的数据都具有其内在的逻辑,在它的各部分之间建立联系是完全可能的。要做到这一点,需要比处理结构化数据付出更多的努力。
1700431166
1700431167 对分析专家来说,完全非结构化的数据要比半结构化数据更加恐怖。想要征服半结构化数据,他们可能需要付出一番努力,但是他们确实可以做到。分析专家们可以将半结构化数据重新组织得非常结构化,并将其运用到他们的分析流程中。然而,征服完全非结构化的数据要困难得多,即使企业已经征服了半结构化的数据,征服非结构化的数据对他们来说,仍将是一个巨大的挑战。
1700431168
1700431169 驾驭大数据 [:1700430523]
1700431170 1.8 探索大数据
1700431171
1700431172 开始着手处理大数据并不是一件困难的事情。很简单,收集一些大数据,让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业所要做的仅仅是让分析专家团队先去切身接触那些数据,然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入角色并完成好他们的工作。
1700431173
1700431174 有一个很老的拇指法则:数据分析工作有70%~80%的时间花在收集和准备数据上面,而仅有20%~30%的时间花在分析本身上。在刚开始处理大数据时,这个比例估计会更低。一开始,分析专家可能至少要花95%的时间,甚至几乎100%的时间去弄清楚某一种大数据源,然后才会去思考如何利用这些数据做更深层次的分析。
1700431175
1700431176 理解上述做法是非常重要的。弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程,从而选择能够更好地服务于目标的数据,虽然看起来不那么吸引人、令人兴奋,但却是至关重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。
1700431177
1700431178 确定大数据中有价值的部分,并且确定如何最优而精确地提取这些部分,这一过程非常关键。可以预料到这一过程会花费很多时间,但即使在它上面花的时间超出了你的预期,也不要感到沮丧。在弄明白新数据源的过程中,企业的分析专家和其业务赞助商应该积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西,不管这些东西是多么的微不足道。这样可以让人们保持对这一过程的兴趣,并帮助人们理解所取得的进展。一个跨部门的团队绝不能在组建一年之后,还宣称他们仍在试图搞明白如何通过大数据来做一些事情。必须能够时不时地迸发出一些想法,即使这些点子很小,然后迅速地采取一些行动。
1700431179
[ 上一页 ]  [ :1.70043113e+09 ]  [ 下一页 ]