打字猴:1.7004329e+09
1700432900
1700432901 ■ 如果有必要,除了当前评分,还可以保存历史评分。某些企业会保留一段时间内的历史评分,有一些则不会。你需要决定你的企业使用哪一种方式更合理。
1700432902
1700432903 驾驭大数据 [:1700430600]
1700432904 5.5 本章小结
1700432905
1700432906 以下是本章的重点内容。
1700432907
1700432908 ■ 部署了分析流程和模型并不意味着就能获得价值。更新分析流程来充分利用分析的可扩展性,这对于驾驭大数据是非常关键的。
1700432909
1700432910 ■ 分析专家比其他类型的用户更需要系统资源与权限。分析沙箱这种机制使得分析专家自由地探索数据,还能让IT人员保证系统资源的平衡。
1700432911
1700432912 ■ 沙箱最适合数据探索、分析开发以及原型创建这些活动,它不适合那些重复性或生产性的任务。
1700432913
1700432914 ■ 有多种类型的沙箱环境,包括内部沙箱、外部沙箱以及混合式沙箱。每一种沙箱都可以与MapReduce环境组合在一起处理大数据。
1700432915
1700432916 ■ 分析数据集是可以直接用于分析的数据集合,例如,客户、区域、产品、供应商等。
1700432917
1700432918 ■ 不要把传统基于ADS的分析项目简单地迁移到库内分析架构中,而是应该把ADS升级为更加规范的企业分析数据集(EADS)架构。
1700432919
1700432920 ■ EADS是一个预定义好的汇总表和概要视图,它可以方便地访问成百上千个分析所需的通用指标。
1700432921
1700432922 ■ EADS提升了系统性能,减少了数据冗余,增加了透明度,并确保各项分析所用数据一致。
1700432923
1700432924 ■ EADS的使用对象和范围不应该局限于分析专家与分析应用,应该开放给其他的应用和用户使用。EADS里包含重要的信息,应该被广泛地使用。
1700432925
1700432926 ■ 嵌入式评分过程可以部署在沙箱环境或者EADS环境内,并提供了评分程序,这些程序可以很容易地被各种用户和应用访问。
1700432927
1700432928 ■ 嵌入式评分的实现方式包括SQL、UDF、嵌入式过程或者PMML。
1700432929
1700432930 ■ 如果企业开始广泛地使用模型,那么就应该建立模型和评分管理流程。
1700432931
1700432932 ■ 模型与评分管理系统有4个主要组件:输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。
1700432933
1700432934
1700432935
1700432936
1700432937 驾驭大数据 [:1700430601]
1700432938 驾驭大数据 第6章分析工具与方法的演进
1700432939
1700432940 使用几十年前的设计图纸和手动工具,能建造好一个房子吗?当然可以,但在已经拥有现代化工具和最新图纸的今天,很少有人会愿意这么做。类似地,分析专家可以使用自定义代码和传统方法来完成各类分析。然而,如果要花时间了解可能的各种选项,很少有人会选择这么做。正如建造房屋一样,人们能够比十年前花更少的人力建造功能更多的房屋,分析工作亦是如此。
1700432941
1700432942 分析专家一直在使用各种类型的分析工具。这些工具可以帮助分析师准备分析所需的数据,执行分析算法,并评估分析结果。分析工具的深度与功能性也一直在提高。除了更丰富更友好的用户界面外,分析工具也可以自动化或流水线式地执行一些常见任务。因此,分析专家们可以花费更多的时间专注于分析本身。使用新的工具和方法,结合第4章与第5章讨论过的分析可扩展性与流程,企业就能轻松地驾驭大数据。
1700432943
1700432944 在本章,我们会阐述分析专家如何改变工作方法来构建分析流程,以更好地利用各种分析工具带来的性能与可扩展性的提升。我们会讨论组合模型,简易模型,以及文本分析。我们还会讨论分析工具演进的各种路径,以及这些新技术和工具如何改变分析专家的工作方式。我们还会讨论点击式的可视化用户界面,开源工具,以及数据可视化工具。
1700432945
1700432946 驾驭大数据 [:1700430602]
1700432947 6.1 分析方法的演进
1700432948
1700432949 不少分析和建模方法已经被广泛使用了很多年,其中的一些,如线性回归模型或决策树模型,计算效率较高,实施起来也相对简单。在过去,简单是必需的,因为当时分析工具的可用性与可扩展性严格受限,直到今天,人们才拥有了更多可能。
[ 上一页 ]  [ :1.7004329e+09 ]  [ 下一页 ]