1700431150
对于非结构化的数据,你没有或几乎没有控制权,你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的,但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而,对于大部分数据来说,至少都是半结构化的。
1700431151
1700431152
半结构化的数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的。有时,半结构化数据也被称为多结构化数据。在这类数据里,有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据,要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据,必须要有一套复杂的规则,在读到每条信息后,能够动态地决定随后的处理方法。
1700431153
1700431154
网络日志是半结构化数据的最好例子。当你看到网络日志时,你会觉得它们非常丑陋;但是,其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。
1700431155
1700431156
1700431157
1700431158
1700431159
图1-1 原始网络日志的例子
1700431160
1700431161
你的大数据具有怎样的结构?
1700431162
1700431163
事实上,很多大数据源都是半结构化或多结构化的,而不是非结构化的。这些数据具有可被理解的逻辑流程,因此可以从它们中提取出用于分析的信息。处理这类数据不像处理传统结构化数据那么简单。要驾驭半结构化数据,需要花费很多时间,并且要努力才能找出处理它们的最好方法。
1700431164
1700431165
网络日志中的信息都有一定的逻辑,尽管第一眼看上去可能并不那么明显。日志中有不同的字段和分隔符,就像结构化的数据一样,其中也蕴含着价值。然而,这些元素并没有按照固定的方式紧密地联系在一起。点击一个网站所产生的日志文本比起一分钟前点击另一个网页产生的日志文本,可能更长,也可能更短。最后,一定要理解半结构化的数据都具有其内在的逻辑,在它的各部分之间建立联系是完全可能的。要做到这一点,需要比处理结构化数据付出更多的努力。
1700431166
1700431167
对分析专家来说,完全非结构化的数据要比半结构化数据更加恐怖。想要征服半结构化数据,他们可能需要付出一番努力,但是他们确实可以做到。分析专家们可以将半结构化数据重新组织得非常结构化,并将其运用到他们的分析流程中。然而,征服完全非结构化的数据要困难得多,即使企业已经征服了半结构化的数据,征服非结构化的数据对他们来说,仍将是一个巨大的挑战。
1700431168
1700431170
1.8 探索大数据
1700431171
1700431172
开始着手处理大数据并不是一件困难的事情。很简单,收集一些大数据,让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业所要做的仅仅是让分析专家团队先去切身接触那些数据,然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入角色并完成好他们的工作。
1700431173
1700431174
有一个很老的拇指法则:数据分析工作有70%~80%的时间花在收集和准备数据上面,而仅有20%~30%的时间花在分析本身上。在刚开始处理大数据时,这个比例估计会更低。一开始,分析专家可能至少要花95%的时间,甚至几乎100%的时间去弄清楚某一种大数据源,然后才会去思考如何利用这些数据做更深层次的分析。
1700431175
1700431176
理解上述做法是非常重要的。弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程,从而选择能够更好地服务于目标的数据,虽然看起来不那么吸引人、令人兴奋,但却是至关重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。
1700431177
1700431178
确定大数据中有价值的部分,并且确定如何最优而精确地提取这些部分,这一过程非常关键。可以预料到这一过程会花费很多时间,但即使在它上面花的时间超出了你的预期,也不要感到沮丧。在弄明白新数据源的过程中,企业的分析专家和其业务赞助商应该积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西,不管这些东西是多么的微不足道。这样可以让人们保持对这一过程的兴趣,并帮助人们理解所取得的进展。一个跨部门的团队绝不能在组建一年之后,还宣称他们仍在试图搞明白如何通过大数据来做一些事情。必须能够时不时地迸发出一些想法,即使这些点子很小,然后迅速地采取一些行动。
1700431179
1700431180
前进过程中产生的价值
1700431181
1700431182
搞明白如何将大数据源应用到你的业务中需要付出很多的努力。企业的分析专家和业务赞助商们在工作过程中,应该积极地寻找代价小、见效快的方法。这样可以向企业证明他们所取得的进展,从而继续为其后面的努力工作赢得支持。这些进展也可以产生稳固的投资回报。
1700431183
1700431184
有一个很好的例子来自于一个欧洲的零售商,这家公司想要利用详细的网络日志数据。当通过一个长期而复杂的过程收集好数据之后,这家公司实施了一些简单的举措。他们开始鉴别每个用户所浏览过的商品。利用这些浏览信息,他们随后建立起一个电子邮件系统,向离开网站前浏览过该商品,但并未购买该商品的顾客发送电子邮件。这个简单的举措为这家企业创造了巨大的利润。
1700431185
1700431186
除了采取其他类似的基本早期措施,公司还需要对收集和加载网络数据进行投资。更重要的是,它们以前并没有过处理整套数据流的意愿和经验。想象一下未来当它们对数据进行更深层次分析后的回报。正是由于这些迅速而及时的进展,企业里的每个人才乐意继续下去,因为从对数据进行的这些早期举措中,他们已经看到了其强大的威力。况且,他们已经为未来的努力买过单了。
1700431187
1700431189
1.9 很多大数据其实并不重要
1700431190
1700431191
事实上,绝大多数大数据都是无关紧要的。这听起来必然很残酷,不是吗?但这并不是我们对大数据的预期。正如我们已经讨论过的,一个大数据流体现在容量、速度、多样性和复杂度等多个方面。大数据流的很多内容对于某些特定目标来说是没有价值的,而有些内容则没有任何用处。驾驭大数据并不意味着一定要将所有的水牢牢地圈在游泳池中。事实更像是通过一个吸管吸水:你只需要把你所需要的部分吸出来就可以了,剩下的部分就随它去吧。
1700431192
1700431193
在一个大数据流中,有些信息具有长期的战略价值,有些信息只具有临时的战术价值,而另外一些信息则毫无价值。驾驭大数据的关键部分是弄清楚不同信息所属的类别。
1700431194
1700431195
有个例子能够很好地说明这一点,这就是我们将在第3章中讨论的无线射频标签(RFID),今天很多产品在运输时都会在运货箱上打上这种标签。对于一些昂贵的货物,甚至在每一个货物上都会打上标签。将来,为每件货物打上标签最终会成为一个标准做法。但是在今天的很多情况下,这么做的代价仍然过于昂贵,因此通常只在每个运货箱上打一个标签。这些标签使得运货箱当前的位置、装载和卸载的时间、存放的地点都很容易被追踪到。
1700431196
1700431197
想象一个存放了数以万计运货箱的仓库。每个运货箱都打上了一个RFID标签。RFID识别器每隔10秒都要向仓库询问一次:“是谁在那里?”每个运货箱都会给出如下回应:“是我。”让我们来讨论一下,在这个例子中大数据是如何很快瘦身的。
1700431198
1700431199
今天第一个到达的运货箱会发出信息:“我是运货箱123456789。我在这里。”在未来3个星期内,只要这个运货箱还在仓库中,那么每隔10秒它都会重复地应答:“我在这里。我在这里。我在这里。”在每隔10秒的轮询过后,非常有必要去分析所有的应答,并鉴别出状态发生了改变的运货箱。通过这种方式,可以确认那些预期的变化,并对状态发生了非预期变化的运货箱采取相应措施。
[
上一页 ]
[ :1.70043115e+09 ]
[
下一页 ]