1700432678
1700432679
1700432680
图5-6 传统的分析数据集流程
1700432681
1700432682
之前我们提到过,某些企业分析环境内的数据是其企业数据规模的10倍或20倍。如果企业决定升级为一个更先进、更大可扩展性的分析流程时,肯定不希望保留这些服务于不同用户和模型的数据副本。这时需要一个变通的方法,我们随后会谈到这一点。
1700432683
1700432684
传统的分析数据集有一个人们不太了解的严重问题,那就是数据的不一致。也许,某个分析专家把销售收入定义为销售毛收入减去折扣与返点。同一时间,另外一个项目中的分析专家可能把销售收入定义为销售毛收入减去折扣,没有减去返点。两位分析专家的定义有一些差别,但你很难说谁的定义是错的。如果他们俩都为同一个业务部门服务,问题就出现了,在他们提供给业务部门的分析报告中,数据是不一致的!
1700432685
1700432686
传统分析数据集带来的另外一个大问题是重复性工作。如果分析专家不断地创建相似又略有差别的数据集,这不仅会占用数据存储空间和系统资源,还会耗费分析专家的时间。他们不得不创建一个ADS开发流程,执行并监控这些任务,以确保任务顺利完成。这不仅耗费了大量的时间,也增加了所有项目的成本。
1700432687
1700432688
数据不一致比数据冗余的危害更大!
1700432689
1700432690
传统分析数据集的工作方式确实会产生大量的数据冗余,但这还不是最严重的问题。人们很容易忽略的一个事实是,分析专家们经常开发略有差异的关键指标定义。这会带来数据的不一致。这个现象常被忽视,甚至没人知道。
1700432691
1700432692
还有一个地方会浪费资源与精力。当为某项目开发的ADS流程完成了,工作才刚刚开始。为了让ADS流程在生产环境中执行,分析专家需要对它进行反向工程,并备份到生产环境中。生产环境和开发环境总是有一些差别的,把开发环境下的程序迁移到生产环境下,常常意味着重新开发整个处理流程。例如,也许你需要把分析工具生成的代码转化成SQL或自定义函数(UDF),这通常成本很高,还极易出错。有些企业在部署分析方面耗费的时间和资金比前期开发阶段还要多。
1700432693
1700432695
5.3 企业分析数据集
1700432696
1700432697
我们将讨论如何通过企业分析数据集(EADS)来优化分析数据集的创建过程。EADS是可共享的、可复用的、集中化的、标准化的、用于分析的数据集。
1700432698
1700432699
EADS做的事情是把成百上千个变量汇总到某些数据表和视图内。这些数据表和视图可供分析专家、不同应用、不同用户来共同使用。EADS的结构可以是一张大宽表,也可以是关联在一起的多张表。
1700432700
1700432701
EADS有利于协作,因为每个分析专家都可以共享同样的、一致的数据。EADS把许多维度的指标汇集起来让分析专家直接使用,这简化了数据的获取过程。分析专家们再也不需要从第三范式的原始数据表里创建这些指标了。EADS显著减少了分析时间,开发完成后还可被多次使用,如图5-7所示。
1700432702
1700432703
1700432704
1700432705
1700432706
图5-7 企业分析数据集流程
1700432707
1700432708
EADS最重要的一个优点是保证了不同分析工作的数据一致性,人们最初往往想不到这一点。企业使用一致的数据进行分析,这意味着不同分析主题所使用的指标都是按相同指标计算出来的,这让用户很放心。恰当地使用企业分析数据集,项目准备时间能从总项目时间的60%~80%降低到一个比较低的水平,甚至降低为原来时间的20%~30%。企业分析数据集的关键特性包括以下几点。
1700432709
1700432710
■ 一个标准数据视图可以支持不同的分析任务。
1700432711
1700432712
■ 一种能显著加快数据准备过程的方法。
1700432713
1700432714
■ 一种为分析流程提供了更高一致性、更精确、更具可视性的数据的方式。
1700432715
1700432716
■ 除了使用高级分析流程之外,一种帮助应用程序和分析专家开启新视图的方式。
1700432717
1700432718
■ 可以让分析专家专注于分析本身。
1700432719
1700432721
5.3.1 什么时候创建企业分析数据集
1700432722
1700432723
假如你要在某一个业务领域做大量的分析,且分析还会越来越多,那么你就应该创建企业分析数据集。你可以在你专注的分析领域为任何实体创建EADS,包括客户、产品、区域、雇员以及供应商等。任何需要定期分析的实体都是EADS潜在的创建目标。EADS会随着时间变化。如果接入一个新的大数据源,包含新信息的属性和指标就可以添加到EADS中。
1700432724
1700432725
创建企业分析数据集需要时间与成本。不要被这些吓到!要知道企业分析数据集可以帮助企业节省大量工作时间与设备成本,节约的成本将远远超过创建的成本。第6章中的简易建模理念就是一个实例,如果没有EADS,就很难实现快速建模所需的敏捷分析。
1700432726
1700432727
创建一个有效的企业分析数据集,需要跨职能、跨领域的团队协作。业务团队要定义业务分析所需的各类指标,分析团队要开发处理程序来生成这些数据,IT团队则需要维护企业分析数据集架构,并在生产环境下部署并执行数据处理任务。只有三方共同努力才能最大化EADS的价值。下一节我们会更深入地讨论这个协作过程。
[
上一页 ]
[ :1.700432678e+09 ]
[
下一页 ]