1700432670
例如,在开发一个客户模型时,分析专家可能要研究500个不同的属性,分析的是从整体客户中抽取的10万个客户。因此,开发分析数据集很宽但比较浅。在生产过程中对客户应用评分模型时,可能只需要使用其中12个属性,但需要对全部3000万个客户进行计算。所以,生产分析数据集很窄但比较深。
1700432671
1700432673
5.2.2 传统的分析数据集
1700432674
1700432675
在一个传统环境下,所有的分析数据都在数据库外部创建,如图5-6所示。每一个分析专家都会独立地创建自己的分析数据集。更糟糕的是,这些工作是由每一个分析专家独立完成的,这意味着可能会有几百个人同时在创建不同的企业数据视图。更糟糕的事情是,一个ADS通常只服务于一个项目,每个分析专家都拥有一份生产数据的独立副本。更严重的问题是,分析专家还会创建新的数据集,导致每个项目最终都会产生大量的数据。
1700432676
1700432677
1700432678
1700432679
1700432680
图5-6 传统的分析数据集流程
1700432681
1700432682
之前我们提到过,某些企业分析环境内的数据是其企业数据规模的10倍或20倍。如果企业决定升级为一个更先进、更大可扩展性的分析流程时,肯定不希望保留这些服务于不同用户和模型的数据副本。这时需要一个变通的方法,我们随后会谈到这一点。
1700432683
1700432684
传统的分析数据集有一个人们不太了解的严重问题,那就是数据的不一致。也许,某个分析专家把销售收入定义为销售毛收入减去折扣与返点。同一时间,另外一个项目中的分析专家可能把销售收入定义为销售毛收入减去折扣,没有减去返点。两位分析专家的定义有一些差别,但你很难说谁的定义是错的。如果他们俩都为同一个业务部门服务,问题就出现了,在他们提供给业务部门的分析报告中,数据是不一致的!
1700432685
1700432686
传统分析数据集带来的另外一个大问题是重复性工作。如果分析专家不断地创建相似又略有差别的数据集,这不仅会占用数据存储空间和系统资源,还会耗费分析专家的时间。他们不得不创建一个ADS开发流程,执行并监控这些任务,以确保任务顺利完成。这不仅耗费了大量的时间,也增加了所有项目的成本。
1700432687
1700432688
数据不一致比数据冗余的危害更大!
1700432689
1700432690
传统分析数据集的工作方式确实会产生大量的数据冗余,但这还不是最严重的问题。人们很容易忽略的一个事实是,分析专家们经常开发略有差异的关键指标定义。这会带来数据的不一致。这个现象常被忽视,甚至没人知道。
1700432691
1700432692
还有一个地方会浪费资源与精力。当为某项目开发的ADS流程完成了,工作才刚刚开始。为了让ADS流程在生产环境中执行,分析专家需要对它进行反向工程,并备份到生产环境中。生产环境和开发环境总是有一些差别的,把开发环境下的程序迁移到生产环境下,常常意味着重新开发整个处理流程。例如,也许你需要把分析工具生成的代码转化成SQL或自定义函数(UDF),这通常成本很高,还极易出错。有些企业在部署分析方面耗费的时间和资金比前期开发阶段还要多。
1700432693
1700432695
5.3 企业分析数据集
1700432696
1700432697
我们将讨论如何通过企业分析数据集(EADS)来优化分析数据集的创建过程。EADS是可共享的、可复用的、集中化的、标准化的、用于分析的数据集。
1700432698
1700432699
EADS做的事情是把成百上千个变量汇总到某些数据表和视图内。这些数据表和视图可供分析专家、不同应用、不同用户来共同使用。EADS的结构可以是一张大宽表,也可以是关联在一起的多张表。
1700432700
1700432701
EADS有利于协作,因为每个分析专家都可以共享同样的、一致的数据。EADS把许多维度的指标汇集起来让分析专家直接使用,这简化了数据的获取过程。分析专家们再也不需要从第三范式的原始数据表里创建这些指标了。EADS显著减少了分析时间,开发完成后还可被多次使用,如图5-7所示。
1700432702
1700432703
1700432704
1700432705
1700432706
图5-7 企业分析数据集流程
1700432707
1700432708
EADS最重要的一个优点是保证了不同分析工作的数据一致性,人们最初往往想不到这一点。企业使用一致的数据进行分析,这意味着不同分析主题所使用的指标都是按相同指标计算出来的,这让用户很放心。恰当地使用企业分析数据集,项目准备时间能从总项目时间的60%~80%降低到一个比较低的水平,甚至降低为原来时间的20%~30%。企业分析数据集的关键特性包括以下几点。
1700432709
1700432710
■ 一个标准数据视图可以支持不同的分析任务。
1700432711
1700432712
■ 一种能显著加快数据准备过程的方法。
1700432713
1700432714
■ 一种为分析流程提供了更高一致性、更精确、更具可视性的数据的方式。
1700432715
1700432716
■ 除了使用高级分析流程之外,一种帮助应用程序和分析专家开启新视图的方式。
1700432717
1700432718
■ 可以让分析专家专注于分析本身。
1700432719
[
上一页 ]
[ :1.70043267e+09 ]
[
下一页 ]