1700431212
1.10 有效过滤大数据
1700431213
1700431214
大数据带来的最大挑战可能并不是你要对它做的分析工作,而是你为分析做的一系列准备,而是提取、转换和加载(ETL)流程。ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合等转换(T),使其变为可用数据。最终,数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。
1700431215
1700431216
让我们再回头看一下之前讨论过的那个比喻:通过一个吸管吸水。当你从吸管中吸水的时候,你并不关心喝到你嘴里的水是来自于哪一部分。然而对大数据来说,你对收集数据流的哪一部分却非常在乎。有必要事先探索和理解整个数据流,只有这样你才能过滤出你想要的那部分信息。这也解释了为什么驾驭大数据需要付出如此之多的前期努力。
1700431217
1700431218
从吸管中吸水
1700431219
1700431220
处理分析大数据和从吸管中吸水有很多相似之处。大部分数据都只是匆匆经过,就像大部分的水经过一样。目标是当数据经过的时候,从中吸取出那些需要的部分,而不是尝试把它全部喝下去。专注于大数据中的重要部分,可以使得处理数据更容易,并有精力去做真正重要的事情。
1700431221
1700431222
当大数据流开始到达的时候,分析流程要求前端的过滤器先滤除掉一部分数据。在数据被处理的过程中,还会有其他的过滤器。例如,在处理网络日志的时候,通常需要先过滤掉与浏览器版本或操作系统相关的信息。除非为了某些特殊的操作原因,这些数据将很少被用到。在流程后期,数据可能被过滤到只剩下某些由于业务需要而待检查的特定页面和用户操作。
1700431223
1700431224
复杂的规则和每个阶段被滤除和保留的数据量会根据具体的数据源和业务挑战有所不同。早期处理大数据的加载流程和过滤器是非常关键的。如果它们没有被正确地使用,分析将很难成功。传统的结构化数据不需要在这些方面花多大功夫,因为它们都已被事先指定、理解并标准化。对于大数据,在很多情况下都有必要将其指定、理解并标准化,并成为分析流程的一部分。
1700431225
1700431227
1.11 将大数据和传统数据混合
1700431228
1700431229
大数据最令人激动的部分并不是它本身能为企业做什么,而是当它和企业的其他数据结合后,能为企业做什么。
1700431230
1700431231
例如,浏览历史是非常强大的信息源。如果将其用于更大的环境中,就能够知道每个顾客的价值,知道顾客在过去通过各种渠道所购买的商品,这些将使得网络数据的威力变得更强大。我们将在第2章中对其进行更详细的探讨。
1700431232
1700431233
智能电网数据对于电力公司非常有用。将其用于更大的环境中,如果能够知道顾客的历史计费模式、住宅类型,以及其他一些因素,将会使从智能电表上读来的数据更加有用。我们将在第3章中对其进行探讨。
1700431234
1700431235
顾客在线聊天和电子邮件中获得的文本数据非常有用。将其用于更大的环境中,如果能够知道所讨论产品的具体规格,关于这些产品的销售数据,以及以往的产品缺陷信息将会使这些文本数据的效力剧增。我们将在第3章和第6章从不同的视角对其进行探讨。
1700431236
1700431237
企业数据仓库(EDW)已经成为被广泛使用的企业工具,其主要原因并不是为了将海量数据集中起来以节省硬件和软件成本。EDW允许不同的数据源相互混合,彼此增强,从而创造价值。通过EDW,可以将对用户和雇员信息一起进行分析,因为这两种信息联系紧密,且不再被分开分析。例如,某些雇员是否通过其个人影响比其他雇员创造了更多的顾客价值?如果将数据结合起来放在一起,这些问题将更容易回答。大数据的加入使得越来越多的数据类型可以结合在一起,以增添新的视角和处理环境,从而推动解决更多和更大规模的问题。
1700431238
1700431239
将它们混合起来
1700431240
1700431241
大数据最大的价值在于它们可以和其他企业数据结合起来。将大数据里找出的东西放到更大的处理环境中,新的洞察的数量和质量都会呈指数级增长。这也解释了为什么需要制定大数据和其他数据相结合的整体数据战略,而不是独立的大数据战略。
1700431242
1700431243
这就是企业不制定严格区别于传统数据战略的大数据战略的关键原因。这样做会导致失败。大数据和传统数据都是整体战略的一部分。要想成功,企业需要发展凝聚性的战略,大数据在该战略中并不是被严格区分的独立概念。相反地,大数据必须只是企业数据战略的一个方面。从一开始,企业所必须考虑和计划的就不仅仅是如何收集和分析大数据本身,还包括如何将其和其他企业数据结合起来,并将其作为企业数据整体方案的一部分。
1700431244
1700431246
1.12 对大数据标准的需求
1700431247
1700431248
大数据会继续以狂野西部式的风格,以及无限制及缺乏定义的数据流格式存在吗?或许不会。随着时间推移,会有一些标准被制定出来。一些半格式化的数据源会逐渐变得更加格式化,而且一些独立的组织会微调它们的大数据流,使之对分析更加友好。然而更重要的是,发展行业标准是大势所趋。尽管诸如电子邮件和社交媒体评论之类的文本数据无法在其输入端施加很多控制,然而标准化解释这些数据并用于分析的方法却是可行的。事实上,这些变化已经开始发生了。
1700431249
1700431250
例如,哪些词是“好”的,哪些词是“坏”的?对于哪些状况默认的规则会失效?哪些电子邮件值得一字不漏地解析和分析,而哪些可以被很快地处理?产生大数据的方法,以及处理和分析大数据的过程,都会被制定标准。输入端和输出端都会被涉及。结果,征服大数据的任务将会变得更加容易。这个过程还需要一些时间,而且,这些被制定的标准更像是一些被从业人员普遍接受的实践法则,而不是由官方标准化组织正式声明的规则或政策。不管如何,标准会越来越多。
1700431251
1700431252
标准化所有可能的范围
1700431253
1700431254
尽管类似于电子邮件的文本数据无法在其输入端施加很多控制,然而解析这些数据并用于分析的方法是可以被标准化的。你并没有能力将大数据的一切都标准化,但是通过部分标准化,已经足以让任务变得更简单。应当把注意力集中在使用大数据和标准化大数据流输入上。
1700431255
1700431256
能够迅速切入大数据领域的企业具有制定标准和影响标准发展的能力,从而保证它们的特殊需求可以被满足。某些行业甚至可以遥遥领先。对于电力公司行业,在具备收集数据的能力之前,已经有相当多的工作用于定义智能电网数据的参数。当项目以一般定义和规则启动时,如果每家电力公司都以它们自己的方式创造数据,而没有事先与它们的同行共同商议,那么智能电网数据将更加难以管理。
1700431257
1700431259
1.13 今天的大数据将不再是明天的大数据
1700431260
[
上一页 ]
[ :1.700431211e+09 ]
[
下一页 ]