1700431144
1.7 大数据的结构
1700431145
1700431146
当你阅读大数据的相关文章时,你可能会遇到很多关于以下概念的讨论,数据如何被结构化、非结构化、半结构化,甚至多结构化。大数据通常被描述为非结构化的,而传统数据则是结构化的。然而它们之间的界限并不像这些标签所划分的那么清楚。让我们以非专家的视角来探讨这3种数据类型,更高深的技术细节超出了本书讨论的范畴。
1700431147
1700431148
绝大多数传统数据都是完全结构化的。这意味着传统数据源会以明确的、预先规范好所有细节的格式呈现。每时每刻所产生的新数据,都不会违背这些预先定义好的格式。对于股票交易,其交易信息的第一部分应该是格式为月份/日期/年份的时间信息,接下来的是12位账户数字,而下面紧跟的是由3到5位字母表示的股票代码等。每条信息事先都已很明确了,以规范好的格式和顺序给出,这使得它们很容易被处理。
1700431149
1700431150
对于非结构化的数据,你没有或几乎没有控制权,你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的,但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而,对于大部分数据来说,至少都是半结构化的。
1700431151
1700431152
半结构化的数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的。有时,半结构化数据也被称为多结构化数据。在这类数据里,有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据,要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据,必须要有一套复杂的规则,在读到每条信息后,能够动态地决定随后的处理方法。
1700431153
1700431154
网络日志是半结构化数据的最好例子。当你看到网络日志时,你会觉得它们非常丑陋;但是,其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。
1700431155
1700431156
1700431157
1700431158
1700431159
图1-1 原始网络日志的例子
1700431160
1700431161
你的大数据具有怎样的结构?
1700431162
1700431163
事实上,很多大数据源都是半结构化或多结构化的,而不是非结构化的。这些数据具有可被理解的逻辑流程,因此可以从它们中提取出用于分析的信息。处理这类数据不像处理传统结构化数据那么简单。要驾驭半结构化数据,需要花费很多时间,并且要努力才能找出处理它们的最好方法。
1700431164
1700431165
网络日志中的信息都有一定的逻辑,尽管第一眼看上去可能并不那么明显。日志中有不同的字段和分隔符,就像结构化的数据一样,其中也蕴含着价值。然而,这些元素并没有按照固定的方式紧密地联系在一起。点击一个网站所产生的日志文本比起一分钟前点击另一个网页产生的日志文本,可能更长,也可能更短。最后,一定要理解半结构化的数据都具有其内在的逻辑,在它的各部分之间建立联系是完全可能的。要做到这一点,需要比处理结构化数据付出更多的努力。
1700431166
1700431167
对分析专家来说,完全非结构化的数据要比半结构化数据更加恐怖。想要征服半结构化数据,他们可能需要付出一番努力,但是他们确实可以做到。分析专家们可以将半结构化数据重新组织得非常结构化,并将其运用到他们的分析流程中。然而,征服完全非结构化的数据要困难得多,即使企业已经征服了半结构化的数据,征服非结构化的数据对他们来说,仍将是一个巨大的挑战。
1700431168
1700431170
1.8 探索大数据
1700431171
1700431172
开始着手处理大数据并不是一件困难的事情。很简单,收集一些大数据,让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业所要做的仅仅是让分析专家团队先去切身接触那些数据,然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入角色并完成好他们的工作。
1700431173
1700431174
有一个很老的拇指法则:数据分析工作有70%~80%的时间花在收集和准备数据上面,而仅有20%~30%的时间花在分析本身上。在刚开始处理大数据时,这个比例估计会更低。一开始,分析专家可能至少要花95%的时间,甚至几乎100%的时间去弄清楚某一种大数据源,然后才会去思考如何利用这些数据做更深层次的分析。
1700431175
1700431176
理解上述做法是非常重要的。弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程,从而选择能够更好地服务于目标的数据,虽然看起来不那么吸引人、令人兴奋,但却是至关重要的。如果没有完成这些步骤,也就不可能进入后面的分析环节。
1700431177
1700431178
确定大数据中有价值的部分,并且确定如何最优而精确地提取这些部分,这一过程非常关键。可以预料到这一过程会花费很多时间,但即使在它上面花的时间超出了你的预期,也不要感到沮丧。在弄明白新数据源的过程中,企业的分析专家和其业务赞助商应该积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西,不管这些东西是多么的微不足道。这样可以让人们保持对这一过程的兴趣,并帮助人们理解所取得的进展。一个跨部门的团队绝不能在组建一年之后,还宣称他们仍在试图搞明白如何通过大数据来做一些事情。必须能够时不时地迸发出一些想法,即使这些点子很小,然后迅速地采取一些行动。
1700431179
1700431180
前进过程中产生的价值
1700431181
1700431182
搞明白如何将大数据源应用到你的业务中需要付出很多的努力。企业的分析专家和业务赞助商们在工作过程中,应该积极地寻找代价小、见效快的方法。这样可以向企业证明他们所取得的进展,从而继续为其后面的努力工作赢得支持。这些进展也可以产生稳固的投资回报。
1700431183
1700431184
有一个很好的例子来自于一个欧洲的零售商,这家公司想要利用详细的网络日志数据。当通过一个长期而复杂的过程收集好数据之后,这家公司实施了一些简单的举措。他们开始鉴别每个用户所浏览过的商品。利用这些浏览信息,他们随后建立起一个电子邮件系统,向离开网站前浏览过该商品,但并未购买该商品的顾客发送电子邮件。这个简单的举措为这家企业创造了巨大的利润。
1700431185
1700431186
除了采取其他类似的基本早期措施,公司还需要对收集和加载网络数据进行投资。更重要的是,它们以前并没有过处理整套数据流的意愿和经验。想象一下未来当它们对数据进行更深层次分析后的回报。正是由于这些迅速而及时的进展,企业里的每个人才乐意继续下去,因为从对数据进行的这些早期举措中,他们已经看到了其强大的威力。况且,他们已经为未来的努力买过单了。
1700431187
1700431189
1.9 很多大数据其实并不重要
1700431190
1700431191
事实上,绝大多数大数据都是无关紧要的。这听起来必然很残酷,不是吗?但这并不是我们对大数据的预期。正如我们已经讨论过的,一个大数据流体现在容量、速度、多样性和复杂度等多个方面。大数据流的很多内容对于某些特定目标来说是没有价值的,而有些内容则没有任何用处。驾驭大数据并不意味着一定要将所有的水牢牢地圈在游泳池中。事实更像是通过一个吸管吸水:你只需要把你所需要的部分吸出来就可以了,剩下的部分就随它去吧。
1700431192
[
上一页 ]
[ :1.700431143e+09 ]
[
下一页 ]