打字猴:1.7004322e+09
1700432200
1700432201 对于嵌入式过程,情况就完全不一样了。嵌入式过程是将分析工具的处理引擎直接运行在数据库中。嵌入式过程具备在数据库内直接运行程序的能力。嵌入式过程充分利用了那些已经被部署在数据库内的分析程序。当需要运行某一段分析程序时,为了利用数据库的并行处理能力,嵌入式过程会把分析程序运行在数据库的每一个处理单元上。嵌入式过程不需要转换脚本语言,只需要修改很少的内部代码,但部署嵌入式过程会比较困难。各个分析软件与数据库供应商们已经开始广泛地研究并应用嵌入式过程。在不久的将来,嵌入式过程将成为一种可选的处理方法。
1700432202
1700432203 4.预测建模标记语言(PMML)
1700432204
1700432205 预测建模标记语言(Predictive Modeling Markup Language,PMML),可以把模型结果从一个分析工具导入另外一个工具中。从概念上讲,PMML包集成了预测模型进行准确预测所必需的各种信息,与模型无关的信息则不包含在内。一个PMML包的内部信息通常包括模型类型、变量名称、变量格式以及必要的参数值。〔1〕分析师可以使用任何兼容PMML的分析工具开发分析模型,当模型开发完成后,如果要把这个模型部署到另外一个兼容PMML的工具内,那么分析师只需把PMML文件直接导入新的工具,新工具内的评分模型就可以使用了。
1700432206
1700432207 PMML有一个不那么明显的缺点。要使用PMML在新的工具和环境下部署分析模型,前提条件是这个新环境内的变量名称和数据格式,必须和开发模型的原始环境中相应的名称和格式完全保持一致。例如,开发某一个模型时,某一个输入变量叫做“SumOfSales”,代表客户在某一段时间内的消费总额,格式是数值类型。那么,使用PMML在新的环境下部署这个模型时,就要确保在新的环境下也有“SumOfSales”这个变量,并且名称、含义、格式都完全相同。这意味着人们不得不在新系统里再次创建这个变量。
1700432208
1700432209 最初,很多分析专家认为,在开发模型时使用PMML,意味着他们不需要去考虑库内处理的问题。他们认为,使用分析工具开发好了模型,利用PMML就可以轻松地把模型部署到关系型数据库内了。这种想法是错误的,PMML要求不同环境下的数据变量完全一致,但事实上这不太可能出现。因此,在利用PMML部署模型前,如果分析师在数据库之外对数据进行了一些处理和转换,那么这些操作必须在数据库内完整地重复执行一遍。PMML并不负责任何数据准备的工作,它只是把同样的算法直接应用于最终数据,而PMML假定这些数据都已经被处理过了。
1700432210
1700432211 不要错误地理解PMML
1700432212
1700432213 PMML的确强化了在数据库内进行数据准备的必要性与好处。如果分析工具在数据库外部进行了任何形式的数据处理,这些过程必须在数据库内重复执行一遍,以确保PMML能正常工作。为什么要在2个环境中重复地执行数据处理过程呢?还是直接在数据库里执行吧。
1700432214
1700432215 PMML确实强化了库内处理的必要性。为了确保PMML高效地工作,建模所需的输入数据必须提前准备好。这些数据不能有任何变化,分析算法必须能够直接使用。只有这样,PMML生成的模型评分代码才能立刻开始工作,否则就需要在部署环境下进行数据的重新组织与二次处理。
1700432216
1700432217 新版的PMML已经开始具备部分特定的数据处理能力,但要彻底弥补我们提到的这个缺陷,PMML还有很长的路要走,这也限制了PMML的应用范围。
1700432218
1700432219 驾驭大数据 [:1700430566]
1700432220 4.3.2 使用MPP系统进行数据准备与评分小结
1700432221
1700432222 海量并行处理平台(MPP)是当代数据分析架构中价值很高且越来越重要的一种方法。今天,大部分大型企业都已经建立了企业级的数据仓库,对企业内大量的重要数据进行集中管理,而小型企业则通常选择建立各种数据集市。越来越多的数据处理过程将在数据仓库内进行,这种趋势将会长期地持续下去。
1700432223
1700432224 任何希望提高自身分析能力的公司,都必须了解并使用MPP。在数据规模持续增长的今天,为了进行某项分析,除非完全不可避免,我们都不应该把数据从仓库中抽取出来。使用MPP可以给企业带来分析可扩展性的额外提升,扩大可分析数据的广度与规模。不管是传统数据、大数据还是这两类数据的混合体,均可以使用这种处理方法。
1700432225
1700432226 在我们结束这一小节前,还要讨论最后一个主题。当企业级数据仓库已经成为分析环境的核心主题时,许多MPP系统供应商也开始提供比数据仓库性能略低的“一体机平台”系统。这些一体机平台系统是为某一些特定目的而设计的,例如,高级分析团队希望对海量数据进行复杂的处理。区别在于,企业级数据仓库能支持许多不同类型的数据管理工作,而这些一体机平台只能支持某一种或特定的几种数据管理工作。
1700432227
1700432228 高级分析也是分析系统承担的一项工作,而且是很重要的一项工作。当计划使用企业级数据仓库支持高级分析时,要确保数据仓库也能同时完成其承担的其他工作,如报表或查询等,通常所有这些工作都在数据仓库中同时进行。如果数据仓库实现不了,可以考虑部署独立的一体机平台系统。这些独立的一体机平台系统的价格是可以接受的,并且遵循与MPP架构一样的设计原则。
1700432229
1700432230 驾驭大数据 [:1700430567]
1700432231 4.4 云计算
1700432232
1700432233 最近云计算的概念得到了越来越多的关注。就像很多的其他热门技术一样,云计算也曾被大肆地炒作。在详细论述前,我们必须先定义什么是云计算,它是如何帮助高级分析与大数据分析的。跟所有的新技术一样,云计算也存在不少互相冲突的定义,我们会讨论其中的两种定义,作为进一步论述的基础。第一种定义是麦肯锡公司在2009年的某一份报告中提出的。〔2〕这篇报告认为云环境有以下3个最重要的特征。
1700432234
1700432235 1.企业无需进行基础设施建设,没有固定资本的支出,有的只是运营成本。这些运营成本是根据使用量付费的,并没有合同对这些运营成本的金额进行限制或要求。
1700432236
1700432237 2.系统能力可以在很短的时间内显著地扩大或缩小。而传统的IT托管服务提供商存在系统扩展性的限制,无法做到这一点。这也是云计算与传统托管服务的区别。
1700432238
1700432239 3.云计算的底层硬件可以在地理意义上的任何地方。这些硬件设施对于最终用户来说是抽象的、透明的。而且,这些硬件的租用模式是多样化的,某一硬件设备可以在同一时间被不同公司的不同用户使用。
1700432240
1700432241 只有同时满足这3个条件,才能将其称之为真正的云计算。对用户而言,底层硬件是未知的、变化的,可以根据需求弹性地调整系统能力,还可以按用户的使用量进行计费。
1700432242
1700432243 你要我跳多高?
1700432244
1700432245 云计算彻底地解决了资源的约束问题。用户在需要的时候可以获得任何想要的系统资源。当然,他们要为此付费,但他们只为自己的使用付费。系统管理人员对资源的争夺再也不存在了。当你要求云计算跳起来,它不会和你争论是否应该跳,而是直接问你,“你要我跳多高?”
1700432246
1700432247 另外一个定义来自于美国国家标准技术研究所(National Institute of Standards and Technology,NIST),这是美国政府商务部的一个分支机构。它列出了云环境的5个必要特性。〔3〕
1700432248
1700432249 1.按需的自助服务。
[ 上一页 ]  [ :1.7004322e+09 ]  [ 下一页 ]