1700431180
前进过程中产生的价值
1700431181
1700431182
搞明白如何将大数据源应用到你的业务中需要付出很多的努力。企业的分析专家和业务赞助商们在工作过程中,应该积极地寻找代价小、见效快的方法。这样可以向企业证明他们所取得的进展,从而继续为其后面的努力工作赢得支持。这些进展也可以产生稳固的投资回报。
1700431183
1700431184
有一个很好的例子来自于一个欧洲的零售商,这家公司想要利用详细的网络日志数据。当通过一个长期而复杂的过程收集好数据之后,这家公司实施了一些简单的举措。他们开始鉴别每个用户所浏览过的商品。利用这些浏览信息,他们随后建立起一个电子邮件系统,向离开网站前浏览过该商品,但并未购买该商品的顾客发送电子邮件。这个简单的举措为这家企业创造了巨大的利润。
1700431185
1700431186
除了采取其他类似的基本早期措施,公司还需要对收集和加载网络数据进行投资。更重要的是,它们以前并没有过处理整套数据流的意愿和经验。想象一下未来当它们对数据进行更深层次分析后的回报。正是由于这些迅速而及时的进展,企业里的每个人才乐意继续下去,因为从对数据进行的这些早期举措中,他们已经看到了其强大的威力。况且,他们已经为未来的努力买过单了。
1700431187
1700431189
1.9 很多大数据其实并不重要
1700431190
1700431191
事实上,绝大多数大数据都是无关紧要的。这听起来必然很残酷,不是吗?但这并不是我们对大数据的预期。正如我们已经讨论过的,一个大数据流体现在容量、速度、多样性和复杂度等多个方面。大数据流的很多内容对于某些特定目标来说是没有价值的,而有些内容则没有任何用处。驾驭大数据并不意味着一定要将所有的水牢牢地圈在游泳池中。事实更像是通过一个吸管吸水:你只需要把你所需要的部分吸出来就可以了,剩下的部分就随它去吧。
1700431192
1700431193
在一个大数据流中,有些信息具有长期的战略价值,有些信息只具有临时的战术价值,而另外一些信息则毫无价值。驾驭大数据的关键部分是弄清楚不同信息所属的类别。
1700431194
1700431195
有个例子能够很好地说明这一点,这就是我们将在第3章中讨论的无线射频标签(RFID),今天很多产品在运输时都会在运货箱上打上这种标签。对于一些昂贵的货物,甚至在每一个货物上都会打上标签。将来,为每件货物打上标签最终会成为一个标准做法。但是在今天的很多情况下,这么做的代价仍然过于昂贵,因此通常只在每个运货箱上打一个标签。这些标签使得运货箱当前的位置、装载和卸载的时间、存放的地点都很容易被追踪到。
1700431196
1700431197
想象一个存放了数以万计运货箱的仓库。每个运货箱都打上了一个RFID标签。RFID识别器每隔10秒都要向仓库询问一次:“是谁在那里?”每个运货箱都会给出如下回应:“是我。”让我们来讨论一下,在这个例子中大数据是如何很快瘦身的。
1700431198
1700431199
今天第一个到达的运货箱会发出信息:“我是运货箱123456789。我在这里。”在未来3个星期内,只要这个运货箱还在仓库中,那么每隔10秒它都会重复地应答:“我在这里。我在这里。我在这里。”在每隔10秒的轮询过后,非常有必要去分析所有的应答,并鉴别出状态发生了改变的运货箱。通过这种方式,可以确认那些预期的变化,并对状态发生了非预期变化的运货箱采取相应措施。
1700431200
1700431201
一旦一个运货箱离开了仓库,它将不再做出任何应答。一旦确认这个运货箱是按照预期方式离开的,那之前所有“我在这里”的记录将不再有用。随着时间的推移,真正有用的是这些运货箱到达和离开的日期和时间。如果这两个时间点相隔了3个星期,我们需要保留的也仅仅是运货箱到达和离开的这两个时间戳。在这期间里,所有那些每隔10秒做出“我在这里”的应答虽然没有任何长期价值,但是仍有必要收集它们。而且在它们产生的每个时刻,都有必要去分析它们。但是那些在这两个时刻点之外的应答将不再有任何长期价值。一旦这个运货箱离开,这些数据便可以被安全地丢弃。
1700431202
1700431203
准备好丢弃数据
1700431204
1700431205
驾驭大数据的一个关键是要鉴别出那些重要的信息。有些信息具有长期的战略价值,有些信息只具有临时的战术价值,而另外一些信息则毫无价值。让大量数据放任自流显得很奇怪,但对大数据来说却是意料之中的事情。也许你需要一些时间来适应丢弃一些低价值的数据。
1700431206
1700431207
如果原始的大数据流可以被保存一段时间,那么就可以返回并提取一些在第一次处理过程中丢掉的信息。关于这种做法的一个例子是我们现在正在做的网络活动跟踪。大多数网站都使用了基于标签的方法。在基于标签的方法中,首先需要弄明白需要对用户交互过程中的哪些文本、图像或链接进行跟踪。那些用户看不见的标签,将会汇报用户正在做的事情。由于只有被标签标注了的内容才会被汇报,所以从一开始,大部分的浏览信息就被忽略掉了。问题是,如果不小心丢失了创建一个新促销图片标签的请求,我们将无法返回并分析这张图片的访问信息。虽然以后也可以加上标签,但就只能收集到此时间点后的活动信息了。
1700431208
1700431209
有一些新的方法可以用来解析原始网络日志,无需预先定义也可以对事件进行鉴别。这些方法是基于日志的,因为它们直接使用原始网络日志。这种方法的价值在于,如果你后来意识到曾忘记收集关于该促销图片的交互信息,你仍可以重新解析那些数据并把它们提取出来。在这种情况下,所有数据在开始时都不会被丢弃,但是在分析时要决定留下哪些数据。这是一种重要的能力,也解释了为什么尽管代价是昂贵的,但保留一些历史数据仍然是有意义的。需要保存多少数据取决于数据流的大小以及可用的存储空间。一个不错的解决方案是在存储成本所允许的范围内,保存尽可能多的历史数据,从而获得尽可能高的灵活度。
1700431210
1700431212
1.10 有效过滤大数据
1700431213
1700431214
大数据带来的最大挑战可能并不是你要对它做的分析工作,而是你为分析做的一系列准备,而是提取、转换和加载(ETL)流程。ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合等转换(T),使其变为可用数据。最终,数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。
1700431215
1700431216
让我们再回头看一下之前讨论过的那个比喻:通过一个吸管吸水。当你从吸管中吸水的时候,你并不关心喝到你嘴里的水是来自于哪一部分。然而对大数据来说,你对收集数据流的哪一部分却非常在乎。有必要事先探索和理解整个数据流,只有这样你才能过滤出你想要的那部分信息。这也解释了为什么驾驭大数据需要付出如此之多的前期努力。
1700431217
1700431218
从吸管中吸水
1700431219
1700431220
处理分析大数据和从吸管中吸水有很多相似之处。大部分数据都只是匆匆经过,就像大部分的水经过一样。目标是当数据经过的时候,从中吸取出那些需要的部分,而不是尝试把它全部喝下去。专注于大数据中的重要部分,可以使得处理数据更容易,并有精力去做真正重要的事情。
1700431221
1700431222
当大数据流开始到达的时候,分析流程要求前端的过滤器先滤除掉一部分数据。在数据被处理的过程中,还会有其他的过滤器。例如,在处理网络日志的时候,通常需要先过滤掉与浏览器版本或操作系统相关的信息。除非为了某些特殊的操作原因,这些数据将很少被用到。在流程后期,数据可能被过滤到只剩下某些由于业务需要而待检查的特定页面和用户操作。
1700431223
1700431224
复杂的规则和每个阶段被滤除和保留的数据量会根据具体的数据源和业务挑战有所不同。早期处理大数据的加载流程和过滤器是非常关键的。如果它们没有被正确地使用,分析将很难成功。传统的结构化数据不需要在这些方面花多大功夫,因为它们都已被事先指定、理解并标准化。对于大数据,在很多情况下都有必要将其指定、理解并标准化,并成为分析流程的一部分。
1700431225
1700431227
1.11 将大数据和传统数据混合
1700431228
1700431229
大数据最令人激动的部分并不是它本身能为企业做什么,而是当它和企业的其他数据结合后,能为企业做什么。
[
上一页 ]
[ :1.70043118e+09 ]
[
下一页 ]