1700432695
5.3 企业分析数据集
1700432696
1700432697
我们将讨论如何通过企业分析数据集(EADS)来优化分析数据集的创建过程。EADS是可共享的、可复用的、集中化的、标准化的、用于分析的数据集。
1700432698
1700432699
EADS做的事情是把成百上千个变量汇总到某些数据表和视图内。这些数据表和视图可供分析专家、不同应用、不同用户来共同使用。EADS的结构可以是一张大宽表,也可以是关联在一起的多张表。
1700432700
1700432701
EADS有利于协作,因为每个分析专家都可以共享同样的、一致的数据。EADS把许多维度的指标汇集起来让分析专家直接使用,这简化了数据的获取过程。分析专家们再也不需要从第三范式的原始数据表里创建这些指标了。EADS显著减少了分析时间,开发完成后还可被多次使用,如图5-7所示。
1700432702
1700432703
1700432704
1700432705
1700432706
图5-7 企业分析数据集流程
1700432707
1700432708
EADS最重要的一个优点是保证了不同分析工作的数据一致性,人们最初往往想不到这一点。企业使用一致的数据进行分析,这意味着不同分析主题所使用的指标都是按相同指标计算出来的,这让用户很放心。恰当地使用企业分析数据集,项目准备时间能从总项目时间的60%~80%降低到一个比较低的水平,甚至降低为原来时间的20%~30%。企业分析数据集的关键特性包括以下几点。
1700432709
1700432710
■ 一个标准数据视图可以支持不同的分析任务。
1700432711
1700432712
■ 一种能显著加快数据准备过程的方法。
1700432713
1700432714
■ 一种为分析流程提供了更高一致性、更精确、更具可视性的数据的方式。
1700432715
1700432716
■ 除了使用高级分析流程之外,一种帮助应用程序和分析专家开启新视图的方式。
1700432717
1700432718
■ 可以让分析专家专注于分析本身。
1700432719
1700432721
5.3.1 什么时候创建企业分析数据集
1700432722
1700432723
假如你要在某一个业务领域做大量的分析,且分析还会越来越多,那么你就应该创建企业分析数据集。你可以在你专注的分析领域为任何实体创建EADS,包括客户、产品、区域、雇员以及供应商等。任何需要定期分析的实体都是EADS潜在的创建目标。EADS会随着时间变化。如果接入一个新的大数据源,包含新信息的属性和指标就可以添加到EADS中。
1700432724
1700432725
创建企业分析数据集需要时间与成本。不要被这些吓到!要知道企业分析数据集可以帮助企业节省大量工作时间与设备成本,节约的成本将远远超过创建的成本。第6章中的简易建模理念就是一个实例,如果没有EADS,就很难实现快速建模所需的敏捷分析。
1700432726
1700432727
创建一个有效的企业分析数据集,需要跨职能、跨领域的团队协作。业务团队要定义业务分析所需的各类指标,分析团队要开发处理程序来生成这些数据,IT团队则需要维护企业分析数据集架构,并在生产环境下部署并执行数据处理任务。只有三方共同努力才能最大化EADS的价值。下一节我们会更深入地讨论这个协作过程。
1700432728
1700432730
5.3.2 企业分析数据集里有什么
1700432731
1700432732
企业分析数据集的设计并不复杂。首先,要收集并汇总各个分析专家常用的各种属性和指标。如果某一个业务指标有多种定义,最好把它们全部合并。例如,也许有些分析专家使用总销售收入减去折扣与返点,有些分析专家使用总销售收入减去折扣,不减去返点。把这两种销售收入指标都包含在EADS内,没有必要只选择其中一种。随着时间推移,如果发现了新的关键指标,那就将它加入EADS内。企业分析数据集一直在不断地变化。最初EADS也许只有一两个指标,但随后越来越多的指标会被添加进来。
1700432733
1700432734
全部选中!
1700432735
1700432736
很多时候,当你作出选择时,你很难有机会说“我全要了”。企业分析数据集就给了你这种机会。把每一种指标都包含进来,这样可以覆盖所有的需求。添加一个新指标并不会耗费你太多的资源。不要争论哪个指标更准确更合适,全部选上吧,不管哪个指标最终赢了,你都有相应的数据。
1700432737
1700432738
企业分析数据集通常不会包含分析专家所需的全部数据,理解这一点非常重要。通常情况下,EADS可以提供90%左右的数据,每一个项目都需要一些自定义的、不经常使用的指标,这些指标通常没有包含在EADS中,这并不是问题。
1700432739
1700432740
例如,某一个分析专家研究节假日哪些产品卖得最好。这项分析只会研究少数特定产品。EADS中的数据可能是这些畅销产品按类别汇总的销售指标。对单个产品进行分析并不是常见的需求,所以单个产品的指标就不应该加入EADS中。
1700432741
1700432742
企业分析数据集能满足分析专家80%~90%的数据需求,分析专家可以把重点放在剩下10%~20%的个性化数据上。分析专家也可以复用EADS的数据生成程序和处理逻辑。随着时间推移,分析专家也许又发现了一些新的数据指标,这些数据需要保持一致并要重复地生成。如果出现了这种情况,把这些新指标加入EADS。这要需要建立一个管理流程来处理这些新加入的指标。
1700432743
[
上一页 ]
[ :1.700432694e+09 ]
[
下一页 ]