打字猴:1.70043207e+09
1700432070
1700432071
1700432072
1700432073
1700432074 1 评论基于这个网站的信息:http://whatsabyte.com。
1700432075
1700432076 驾驭大数据 [:1700430563]
1700432077 4.2 分析与数据环境的关联性
1700432078
1700432079 在过去,分析专家在进行分析时把所需的所有数据导入一个独立的分析环境中,这常常是不可避免的。分析专家需要的数据大都不在一个地方,而分析专家使用的分析工具通常也无法直接对这些数据集进行分析,唯一可行的选择就是把数据汇集到一个独立的分析环境中,然后再进行各种分析。分析专家最常做的工作是各种高级分析,包括数据挖掘、预测模型和其他的一些复杂技术,我们会在第7章讨论这些内容。
1700432080
1700432081 数据分析师早期做的事情与数据仓库有着有趣的相似性。当人们仔细思考数据分析与数据仓库,常常会惊讶于这两者竟然如此相似。分析师一直在处理各种不同的数据集,这些分析师定义的数据集与数据库里的表并没有本质区别。与数据库里的表一样,分析数据集也有行和列,每一行数据通常代表了某一实体,如一个客户,而不同列则是这个实体的各种信息,如客户名称、消费水平、当前状态等。
1700432082
1700432083 分析师一直在把不同数据集“整合”在一起进行分析。猜猜看?数据库里也有一个完全一样的操作,即库内数据表的“连接”。“整合”与“连接”都需要把两个或者更多的数据集或库内数据表进行关联,即把某个数据集或表的某些行数据与另一个数据集或表的某些行数据连接在一起。例如,某一个数据集或表里有客户的人口统计类信息,另外一个数据集或表里有客户的消费支出,把这两个数据集或表关联起来,我们将同时获得每个客户的人口统计与消费支出信息。
1700432084
1700432085 另外,分析师还经常做一项叫做“数据准备”的工作。在这项工作中,分析师抽取不同数据源的数据,把这些数据汇集在一起,然后建立分析所需的各种变量。在数据仓库中,我们把这个过程叫做“提取(Extract),转换(Transform)和加载(Load)”,简称为ETL过程。从本质上讲,在数据集市和数据仓库还没有被发明前,分析师们就一直在开发个性化的数据集市或数据仓库了!区别在于,分析师是根据自己的使用需要为不同项目进行开发,而数据集市和数据仓库通常遵循一个标准化的开发过程,并开放给很多人使用。
1700432086
1700432087 20年以前,大多数分析师都在主机系统上进行分析。主机系统里的数据都存储在类似大圆盘的磁带库上。为了让自己的工作能在截止日期前顺利完成,我还记得曾经给主机系统的管理员打电话,请求他们早点加载我的磁带库数据。随着时代的变迁,一个重大的变革出现了,那就是关系型数据库。
1700432088
1700432089 关系型数据库管理系统(Relational Database Management System,RDBMS)很快就流行了起来,并且显著增强了数据扩展性和适应性。关系型数据库已经成为了管理数据的事实标准,使用大型主机进行分析在今天已经极为罕见。因此,现在绝大部分用于分析的数据都存储于关系型数据库内。关系型数据库无处不在,但也存在例外情况,如基于MapReduce技术的非结构化数据处理平台。我们将在随后“MapReduce”这一节进行详细阐述。
1700432090
1700432091 集中化的力量
1700432092
1700432093 集中化的企业级数据仓库已经成为了一种趋势,而这种趋势给数据分析,特别是复杂的高级分析带来了巨大的影响。数据仓库把企业内的数据集中到一个地方,分析师们再也不用为了某一项分析把数据挪来挪去进行整合了,数据仓库里的数据已经被整合好了,分析师可以直接进行分析。这些技术开辟了一个新的分析世界,让分析具有了更大的可扩展性与更多的可能性。
1700432094
1700432095 最开始,数据库都是为了某一个特定目的或团队构建的,企业里通常存在许多不同的关系型数据库。这些单一目的的数据库通常被称为“数据集市(Data Mart)”。当许多企业还在忙着使用数据集市时,一些领先的公司看到了把不同数据集市的数据集中到一个大系统中的价值,这个大系统叫做企业级数据仓库(Enterprise Data Warehouse,EDW)。
1700432096
1700432097 企业级数据仓库的目标是把企业所有重要的数据都集中到一个中央数据库中,从而创建对于事实唯一版本的描述。数据仓库把不同数据进行交叉关联,让不同业务主题与数据领域的关联分析与报表成为可能。财务数据与市场数据完全割裂的时代一去不复返了。
1700432098
1700432099 让事情变得更有趣的是,一旦所有的数据都在一起了,分析时就再也不用从不同的数据源抽取数据了。越来越多的分析都可以直接使用数据仓库内部的数据完成。图4-1和图4-2清晰地说明了这两种不同的工作方式。
1700432100
1700432101
1700432102
1700432103
1700432104 图4-1 传统的分析架构
1700432105
1700432106
1700432107
1700432108
1700432109 图4-2 现代的库内分析架构
1700432110
1700432111 在企业级数据仓库环境中,大部分数据源都已经被整合在一起了。如果企业级数据库存在部分数据缺失,那么将从数据仓库中抽取出来的90%~95%的数据与外部5%~10%的数据进行整合分析是完全没有意义的。正确的做法是把外部5%~10%的数据导入数据仓库内,然后在数据仓库内进行分析。换句话说,在数据所处的地方进行分析,而不是把数据拿到分析的地方去,这就是库内分析的理念。
1700432112
1700432113 优化你的架构
1700432114
1700432115 既然可以在数据所在的地方进行分析,为什么还要耗费大量的时间、人力和金钱把数据抽取到分析的地方呢?这就是库内分析的简洁原则,并将为扩展性带来实质性的飞跃。在大数据时代,不使用库内分析技术,将使驾驭大数据变得前所未有的困难。
1700432116
1700432117 在20世纪90年代,Teradata公司是第一家推行库内分析的公司。到了今天,几乎所有的数据库厂商都接受了这个概念。企业级数据仓库,以及数据集市的扩展性和灵活性已经足以支持库内分析过程。库内分析对于大规模并行处理系统更加重要,我们将在随后进行讨论。关键的概念是,就像前面提到的,要在数据所在的地方进行分析,而不是把数据拿到分析的地方去。让数据库做它最适合做的事情,就是管理数据。
1700432118
1700432119 今天的大学生可能已经不太了解主机系统,也很难想象在磁带驱动器上进行分析。也许过不了多久,他们将会不理解为什么分析环境与数据环境曾经是彼此独立的,也将无法区分数据分析环境与存储环境。这两者将融为一体不分彼此,因为它本来就该是这样的。
[ 上一页 ]  [ :1.70043207e+09 ]  [ 下一页 ]