打字猴:1.700432416e+09
1700432416 驾驭大数据 [:1700430575]
1700432417 4.6.3 MapReduce小结
1700432418
1700432419 随着大数据成为企业需要应对的一大问题,MapReduce也得到了越来越多的使用,影响力也在不断增长。当处理海量数据时,由于其中大部分的数据长期来看都没有价值,MapReduce这种使用普通硬件进行并行处理的能力就变得很有吸引力。通过把大型任务分解成小型任务,MapReduce可以比其他方式更快、更便宜的完成各类数据处理的任务。
1700432420
1700432421 MapReduce不是数据库,它也不会取代数据库,但是MapReduce的确可以给企业的数据库增加巨大的价值。一旦MapReduce被部署完成,并开始从大数据流中抽取部分重要的数据,这些数据就可以被其他传统的数据库使用,并进行深入分析,也可以提供各种类型的查询和分析报表。在某些方面,MapReduce有点类似于ETL。
1700432422
1700432423 在本节的最后,让我们再来看一个简单的例子。网络日志是非常大的,包含了很多无用的信息。就像大海捞针,MapReduce可以从大数据的海洋中找到有价值的针。想象一个MapReduce的处理流程,它对网络日志进行实时扫描,并识别出需要执行的动作。例如,MapReduce可以发现哪些客户浏览了某个产品但是最终却没有购买,这些信息立刻被传递给电子邮件生成流程,企业就可以给这些客户发送后续的促销邮件。这所有的一切都发生在把原始数据导入关系型数据库并执行查询语句之前。
1700432424
1700432425 一旦这个实时扫描任务执行完了,最重要的信息就可以导入数据库了。这些信息可以和其他重要的客户历史记录关联起来,更多跨时间、跨部门的战略型分析就可以进行了。在这个例子里,被识别出来的客户名单会被导入数据库,并记录企业给他们发送过的促销邮件。企业随后可以进行跟踪分析,研究邮件营销的历史记录,就像每一次邮件营销活动中做的事情一样。
1700432426
1700432427 驾驭大数据 [:1700430576]
1700432428 4.7 这不是一个单选题
1700432429
1700432430 在驾驭大数据的分析生态环境中,海量并行关系型数据库、云计算、MapReduce都可以发挥重要的作用。可以将这3项技术整合起来使用,并从大数据中获得最大的价值。有许多方式可以把这些不同的技术整合起来。
1700432431
1700432432 ■ 数据库可以运行在云里。
1700432433
1700432434 ■ 数据库可以内置MapReduce功能。例如,Teradata公司的Aster平台拥有一项SQL MapReduce相关的专利技术,能把MapReduce的处理过程转换为SQL查询的一部分。
1700432435
1700432436 ■ 还有一种同时使用数据库和MapReduce的方法,MapReduce可以对数据库内的数据进行处理,也可以把自身的处理结果导入数据库。
1700432437
1700432438 ■ MapReduce也可以直接处理云计算环境内的数据。
1700432439
1700432440 ■ 更进一步,MapReduce可以对部署在云内的数据库的库内数据进行处理!
1700432441
1700432442 这3种技术可以相互影响并协同工作。每一项技术都能加强其他技术,只要被正确地使用。你完全可以同时使用这些技术,这并不是一个单选题。分析环境内可以同时包含这些不同的技术与方案,许多企业已经开始努力实现这3类技术的整合和协作了。此外,在刚才提到的各种分析场景下,还可以同时部署并配置网格计算方案。
1700432443
1700432444 驾驭大数据 [:1700430577]
1700432445 4.8 本章小结
1700432446
1700432447 以下是本章的重点内容。
1700432448
1700432449 ■ 几十年以来,分析师一直在推动提高分析可扩展性,大数据是人们要驾驭的下一代“可怕”数据。
1700432450
1700432451 ■ 分析环境与数据管理环境正在互相融合。库内处理模式正在逐渐取代传统的离线分析处理模式,以支持各类高级分析。
1700432452
1700432453 ■ 海量并行处理(MPP)数据库,云计算架构,以及MapReduce都是驾驭大数据强有力的工具。
1700432454
1700432455 ■ 分析专家可以使用MPP数据库来完成数据准备和评分,具体方法包括直接提交SQL、用户自定义函数(UDF)、嵌入式过程以及预测模型标记语言(PMML)。
1700432456
1700432457 ■ 云可以是公有云,也可以是私有云。不管是哪种云,都将使用户更容易地获得所需的系统资源,你只需要为自己的使用付费。对于研发类的活动与工作,云计算可以带来巨大的帮助。
1700432458
1700432459 ■ 公有云并不提供性能承诺,数据安全必须被严格监管,因为数据已经脱离了企业的直接控制。
1700432460
1700432461 ■ 一旦企业内公有云被广泛使用,使用公有云的成本将可能超过内部构建的自有系统。
1700432462
1700432463 ■ 私有云在一个安全的环境下提供了灵活性,这对于大型企业有重要的意义。
1700432464
1700432465 ■ 网格计算可以完成一些无法直接交给单一数据库处理的超大型任务。网格计算将被越来越广泛地使用,且功能变得更加强大。
[ 上一页 ]  [ :1.700432416e+09 ]  [ 下一页 ]