打字猴:1.70043283e+09
1700432830
1700432831 ■ 用户自定义函数(UDF)让事情更有趣了,它把定期评分过程嵌入到数据库中,作为数据库的自由函数执行。
1700432832
1700432833 ■ 预测建模标记语言(PMML)可以在一个系统内开发模型,然后把模型部署到另外一个系统。PMML传输的信息可以确保接收模型的新系统自动地生成评分结果。
1700432834
1700432835 ■ 最后,嵌入式过程让分析工具直接在数据库内运行程序,不需要把分析工具的语言转换为其他语言。
1700432836
1700432837 读者可以回顾第4章来了解这4种方案的详细内容。在这里进行强调的目的是,所有这些应用方案同样适用于嵌入式评分过程。
1700432838
1700432839 驾驭大数据 [:1700430599]
1700432840 5.4.2 模型与评分管理
1700432841
1700432842 要管理完成开发的模型与分析流程,企业需要管理4个主要组件,如图5-9所示,包括输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。一些商业化的可用工具可以用于模型和评分的管理,也可以开发客户化的解决方案来满足企业的特定需求。我们来说明一下这4个组件。
1700432843
1700432844
1700432845
1700432846
1700432847 图5-9 模型与评分管理组件
1700432848
1700432849 1.输入分析数据集
1700432850
1700432851 有必要监控那些用于分析流程的分析数据集和EADS,监控的信息包括数据集的各类细节信息,以及创建与保存数据集的技术细节。模型与评分管理系统的这个组件会管理分析数据集本身的信息。请注意,这些数据集可以是企业分析数据集,也可以是个性化的数据集,或者两者的组合。监控的具体信息包括以下几项。
1700432852
1700432853 ■ 提供数据给用户的各类数据集的名称,包括SQL脚本、数据存储脚本、UDF、嵌入式过程、表格、视图等。
1700432854
1700432855 ■ 运行这些数据处理任务的参数。例如,某个分析也许只针对某一时间范围或有限的几类产品。
1700432856
1700432857 ■ 数据处理过程中创建的输出表或者视图,以及这些输出包含的信息。
1700432858
1700432859 ■ 分析数据集与分析流程之间的关系。一个分析数据集可以被多个分析流程使用,而一个分析流程可以使用多个分析数据集。
1700432860
1700432861 2.模型定义
1700432862
1700432863 有必要监控每一个模型和分析流程的描述信息。请注意,这里的模型可以是一个预测模型,也可以是一个分析流程,如客户按销售收入从高到低的排序,这些模型需要定期更新并被广泛使用。模型或分析流程在创建时需要到模型管理系统进行注册。监控的具体信息包括以下几项。
1700432864
1700432865 ■ 模型的使用目的。模型解决的业务问题是什么?使用模型的业务场景是什么?
1700432866
1700432867 ■ 模型的历史。什么时候创建的?谁创建的?模型经历了几个版本?
1700432868
1700432869 ■ 模型的状态。它是处于开发阶段么?正在生产环境下使用,还是已经退出了?
1700432870
1700432871 ■ 模型的类型。模型使用了什么算法?开发方案是什么?
1700432872
1700432873 ■ 模型的评分功能。那些能给出评分结果的程序名称是什么?包括SQL脚本、存储过程、UDF、嵌入式过程。请注意,假设这里的评分功能可以获得所需的任何数据集。
1700432874
1700432875 ■ 模型的输入变量信息。输入的分析数据集里,哪些变量被模型使用了?模型使用了一个还是多个分析数据集?
1700432876
1700432877 3.模型验证与报表制作
1700432878
1700432879 通常还需要建立一套模型验证与报表来帮助管理模型和分析流程。这些报表覆盖了很多主题和目标。监控的具体信息包括以下几项。
[ 上一页 ]  [ :1.70043283e+09 ]  [ 下一页 ]