打字猴:1.700432219e+09
1700432219 驾驭大数据 [:1700430566]
1700432220 4.3.2 使用MPP系统进行数据准备与评分小结
1700432221
1700432222 海量并行处理平台(MPP)是当代数据分析架构中价值很高且越来越重要的一种方法。今天,大部分大型企业都已经建立了企业级的数据仓库,对企业内大量的重要数据进行集中管理,而小型企业则通常选择建立各种数据集市。越来越多的数据处理过程将在数据仓库内进行,这种趋势将会长期地持续下去。
1700432223
1700432224 任何希望提高自身分析能力的公司,都必须了解并使用MPP。在数据规模持续增长的今天,为了进行某项分析,除非完全不可避免,我们都不应该把数据从仓库中抽取出来。使用MPP可以给企业带来分析可扩展性的额外提升,扩大可分析数据的广度与规模。不管是传统数据、大数据还是这两类数据的混合体,均可以使用这种处理方法。
1700432225
1700432226 在我们结束这一小节前,还要讨论最后一个主题。当企业级数据仓库已经成为分析环境的核心主题时,许多MPP系统供应商也开始提供比数据仓库性能略低的“一体机平台”系统。这些一体机平台系统是为某一些特定目的而设计的,例如,高级分析团队希望对海量数据进行复杂的处理。区别在于,企业级数据仓库能支持许多不同类型的数据管理工作,而这些一体机平台只能支持某一种或特定的几种数据管理工作。
1700432227
1700432228 高级分析也是分析系统承担的一项工作,而且是很重要的一项工作。当计划使用企业级数据仓库支持高级分析时,要确保数据仓库也能同时完成其承担的其他工作,如报表或查询等,通常所有这些工作都在数据仓库中同时进行。如果数据仓库实现不了,可以考虑部署独立的一体机平台系统。这些独立的一体机平台系统的价格是可以接受的,并且遵循与MPP架构一样的设计原则。
1700432229
1700432230 驾驭大数据 [:1700430567]
1700432231 4.4 云计算
1700432232
1700432233 最近云计算的概念得到了越来越多的关注。就像很多的其他热门技术一样,云计算也曾被大肆地炒作。在详细论述前,我们必须先定义什么是云计算,它是如何帮助高级分析与大数据分析的。跟所有的新技术一样,云计算也存在不少互相冲突的定义,我们会讨论其中的两种定义,作为进一步论述的基础。第一种定义是麦肯锡公司在2009年的某一份报告中提出的。〔2〕这篇报告认为云环境有以下3个最重要的特征。
1700432234
1700432235 1.企业无需进行基础设施建设,没有固定资本的支出,有的只是运营成本。这些运营成本是根据使用量付费的,并没有合同对这些运营成本的金额进行限制或要求。
1700432236
1700432237 2.系统能力可以在很短的时间内显著地扩大或缩小。而传统的IT托管服务提供商存在系统扩展性的限制,无法做到这一点。这也是云计算与传统托管服务的区别。
1700432238
1700432239 3.云计算的底层硬件可以在地理意义上的任何地方。这些硬件设施对于最终用户来说是抽象的、透明的。而且,这些硬件的租用模式是多样化的,某一硬件设备可以在同一时间被不同公司的不同用户使用。
1700432240
1700432241 只有同时满足这3个条件,才能将其称之为真正的云计算。对用户而言,底层硬件是未知的、变化的,可以根据需求弹性地调整系统能力,还可以按用户的使用量进行计费。
1700432242
1700432243 你要我跳多高?
1700432244
1700432245 云计算彻底地解决了资源的约束问题。用户在需要的时候可以获得任何想要的系统资源。当然,他们要为此付费,但他们只为自己的使用付费。系统管理人员对资源的争夺再也不存在了。当你要求云计算跳起来,它不会和你争论是否应该跳,而是直接问你,“你要我跳多高?”
1700432246
1700432247 另外一个定义来自于美国国家标准技术研究所(National Institute of Standards and Technology,NIST),这是美国政府商务部的一个分支机构。它列出了云环境的5个必要特性。〔3〕
1700432248
1700432249 1.按需的自助服务。
1700432250
1700432251 2.高速网络接入。
1700432252
1700432253 3.资源池。
1700432254
1700432255 4.快速的系统弹性。
1700432256
1700432257 5.可以衡量的服务。
1700432258
1700432259 同时满足这5个特性的才是云计算。很容易就能发现,麦肯锡的定义与NIST的定义有很多相似之处。你可以在NIST的网站获取更多云计算领域的相关信息。〔4〕
1700432260
1700432261 任何事情都有好的一面和坏的一面,有强项与弱项,有优点与缺点,云计算也一样。一个组织要了解足够多的信息以做出正确的选择。毋庸置疑,未来在高级分析领域,云计算将得到越来越广泛的应用,开发类的工作更是如此。但随后我们也将看到,对于生产性的工作,云计算的应用方式还不是非常清晰。我们将讨论2种不同类型的云:(1)公有云;(2)私有云。
1700432262
1700432263 驾驭大数据 [:1700430568]
1700432264 4.4.1 公有云
1700432265
1700432266 公有云已经获得了相当多的宣传与关注。对公有云的用户来说,他们将自己的数据上传至外部的某一云计算系统中,获得系统所分配的资源以进行数据处理工作,最后系统会根据用户的使用量向他们收取相应的费用。
1700432267
1700432268 这种模式很显然有许多优点。
[ 上一页 ]  [ :1.700432219e+09 ]  [ 下一页 ]