打字猴:1.70043245e+09
1700432450
1700432451 ■ 分析环境与数据管理环境正在互相融合。库内处理模式正在逐渐取代传统的离线分析处理模式,以支持各类高级分析。
1700432452
1700432453 ■ 海量并行处理(MPP)数据库,云计算架构,以及MapReduce都是驾驭大数据强有力的工具。
1700432454
1700432455 ■ 分析专家可以使用MPP数据库来完成数据准备和评分,具体方法包括直接提交SQL、用户自定义函数(UDF)、嵌入式过程以及预测模型标记语言(PMML)。
1700432456
1700432457 ■ 云可以是公有云,也可以是私有云。不管是哪种云,都将使用户更容易地获得所需的系统资源,你只需要为自己的使用付费。对于研发类的活动与工作,云计算可以带来巨大的帮助。
1700432458
1700432459 ■ 公有云并不提供性能承诺,数据安全必须被严格监管,因为数据已经脱离了企业的直接控制。
1700432460
1700432461 ■ 一旦企业内公有云被广泛使用,使用公有云的成本将可能超过内部构建的自有系统。
1700432462
1700432463 ■ 私有云在一个安全的环境下提供了灵活性,这对于大型企业有重要的意义。
1700432464
1700432465 ■ 网格计算可以完成一些无法直接交给单一数据库处理的超大型任务。网格计算将被越来越广泛地使用,且功能变得更加强大。
1700432466
1700432467 ■ MapReduce架构是一种可以使程序并发执行的技术,它将变得越来越重要。
1700432468
1700432469 ■ MapReduce可以帮助人们驾驭大数据,它可以对大数据进行预处理,从中抽取重要的部分信息以进行更深入的分析。
1700432470
1700432471 ■ 关系型数据库、云计算、MapReduce都能帮助人们驾驭大数据。这3项技术可以整合起来协同工作,这使得每一项技术都变得更加强大和高效。
1700432472
1700432473
1700432474
1700432475
1700432476 驾驭大数据 [:1700430578]
1700432477 驾驭大数据 第5章分析流程的演进
1700432478
1700432479 第4章讨论过了分析扩展性的提升会给企业带来什么影响。如果企业不使用这些分析能力,那么答案是什么也不会发生。如果还是使用传统的分析流程,升级新技术能带来的分析可扩展性的提升,将不会创造太多的价值。就像买了一个拥有很多诱人功能的3D电视,但接收的还是原有的电视信号,与老式电视机相比,也许新的3D电视画面确实要清晰一些,但观看体验与老式电视机没有本质区别,您并没有获得3D电视应有的观看体验。
1700432480
1700432481 类似地,使用高级分析的企业在提升分析可扩展性的同时,执行与部署分析的流程也必须随之改变。过去常规的分析执行与部署流程不能充分地挖掘分析应有的价值。如果现有的分析流程不进行一些根本的改变,企业只能获得分析能力与生产力的部分提升,远远低于高级分析可扩展性具备的全部价值。如果使用传统的方法来执行分析流程,驾驭大数据将是不可能实现的任务。
1700432482
1700432483 一个首要的改变是,配置并管理分析专家所需的工作空间。传统的做法是在一个专门支持分析工作的独立服务器上部署工作空间。前面已经讨论过,库内分析已经成为了新的标准。为了充分利用库内分析带来的可扩展性的优势,分析专家需要一个直接驻留在数据库系统内的工作空间,或者称为“分析沙箱”。在大数据领域,MapReduce环境将是传统分析沙箱的补充。本章的第一部分将讨论什么是分析沙箱,它为什么很重要,以及如何使用分析沙箱。
1700432484
1700432485 在数据库平台中使用分析沙箱进行分析工作时,分析专家常需要重复执行一些任务。例如,不管做什么类型的客户分析,每一个分析专家都需要获得客户的各项核心指标。企业分析数据集是一个重要的工具,用来显著提高分析专家工作的数据一致性与工作效率,以及降低公司使用高级分析流程所带来风险。本章的5.2小节将介绍基础的分析数据集,然后我们会讨论企业分析数据集(Enterprise Analytic Data Set,EADS),包括什么是EADS,它有什么好处,以及某个分析专家开发了EADS后,如何让其他人和其他应用来使用它。
1700432486
1700432487 许多分析需要对某些基础数据定期执行重复的评分工作。例如,一个客户倾向模型需要定期重复评分过程,以获得下个月这些客户购买某一产品的概率。在过去,更新每一个客户的评分结果是一项耗时巨大并且不常执行的任务。如今必须及时更新这些客户倾向的评分结果,即使不是实时生成的,也必须按天进行更新。本章的5.3小节将讨论如何在数据库环境中嵌入这些评分过程,以及如何更高效地管理和监控这些通过模型管理开发的分析模型和流程。
1700432488
1700432489 驾驭大数据 [:1700430579]
1700432490 5.1 分析沙箱
1700432491
1700432492 在第4章,我们讨论了海量并行数据库系统的巨大威力。这种数据库系统的一种应用是加快高级分析流程的构建与部署。为了帮助分析专家高效地使用企业级数据仓库和数据集市,分析专家必须获得这些系统的正确权限,并进行访问。分析沙箱就是这样的一种管理机制,如果被恰当地使用,分析沙箱能给大数据领域带来巨大价值。
1700432493
1700432494 “沙箱”这个词来自一种孩子们常见的玩具。在沙箱里,孩子们可以创建他们想要的任何东西,他们可以根据自己的意愿把沙子堆砌成各种形状。类似地,分析环境的沙箱就是一个资源组。在这个资源组里,分析专家能根据自己的意愿对数据进行各种探索研究。沙箱还有另外一个名称,叫做敏捷分析云或数据实验室。具体是什么名称并不重要,重要的是你理解了背后的理念。
1700432495
1700432496 驾驭大数据 [:1700430580]
1700432497 5.1.1 分析沙箱:定义与范围
1700432498
1700432499 分析沙箱提供了一个资源组,可以支持各种高级分析,以找到各类关键业务问题的答案。分析沙箱最适合进行数据探索、分析流程开发、概念验证以及原型开发。这些探索性的分析流程一旦发展为用户管理流程或者生产流程,就应该从分析沙箱里挪出去。
[ 上一页 ]  [ :1.70043245e+09 ]  [ 下一页 ]