打字猴:1.70043272e+09
1700432720 驾驭大数据 [:1700430591]
1700432721 5.3.1 什么时候创建企业分析数据集
1700432722
1700432723 假如你要在某一个业务领域做大量的分析,且分析还会越来越多,那么你就应该创建企业分析数据集。你可以在你专注的分析领域为任何实体创建EADS,包括客户、产品、区域、雇员以及供应商等。任何需要定期分析的实体都是EADS潜在的创建目标。EADS会随着时间变化。如果接入一个新的大数据源,包含新信息的属性和指标就可以添加到EADS中。
1700432724
1700432725 创建企业分析数据集需要时间与成本。不要被这些吓到!要知道企业分析数据集可以帮助企业节省大量工作时间与设备成本,节约的成本将远远超过创建的成本。第6章中的简易建模理念就是一个实例,如果没有EADS,就很难实现快速建模所需的敏捷分析。
1700432726
1700432727 创建一个有效的企业分析数据集,需要跨职能、跨领域的团队协作。业务团队要定义业务分析所需的各类指标,分析团队要开发处理程序来生成这些数据,IT团队则需要维护企业分析数据集架构,并在生产环境下部署并执行数据处理任务。只有三方共同努力才能最大化EADS的价值。下一节我们会更深入地讨论这个协作过程。
1700432728
1700432729 驾驭大数据 [:1700430592]
1700432730 5.3.2 企业分析数据集里有什么
1700432731
1700432732 企业分析数据集的设计并不复杂。首先,要收集并汇总各个分析专家常用的各种属性和指标。如果某一个业务指标有多种定义,最好把它们全部合并。例如,也许有些分析专家使用总销售收入减去折扣与返点,有些分析专家使用总销售收入减去折扣,不减去返点。把这两种销售收入指标都包含在EADS内,没有必要只选择其中一种。随着时间推移,如果发现了新的关键指标,那就将它加入EADS内。企业分析数据集一直在不断地变化。最初EADS也许只有一两个指标,但随后越来越多的指标会被添加进来。
1700432733
1700432734 全部选中!
1700432735
1700432736 很多时候,当你作出选择时,你很难有机会说“我全要了”。企业分析数据集就给了你这种机会。把每一种指标都包含进来,这样可以覆盖所有的需求。添加一个新指标并不会耗费你太多的资源。不要争论哪个指标更准确更合适,全部选上吧,不管哪个指标最终赢了,你都有相应的数据。
1700432737
1700432738 企业分析数据集通常不会包含分析专家所需的全部数据,理解这一点非常重要。通常情况下,EADS可以提供90%左右的数据,每一个项目都需要一些自定义的、不经常使用的指标,这些指标通常没有包含在EADS中,这并不是问题。
1700432739
1700432740 例如,某一个分析专家研究节假日哪些产品卖得最好。这项分析只会研究少数特定产品。EADS中的数据可能是这些畅销产品按类别汇总的销售指标。对单个产品进行分析并不是常见的需求,所以单个产品的指标就不应该加入EADS中。
1700432741
1700432742 企业分析数据集能满足分析专家80%~90%的数据需求,分析专家可以把重点放在剩下10%~20%的个性化数据上。分析专家也可以复用EADS的数据生成程序和处理逻辑。随着时间推移,分析专家也许又发现了一些新的数据指标,这些数据需要保持一致并要重复地生成。如果出现了这种情况,把这些新指标加入EADS。这要需要建立一个管理流程来处理这些新加入的指标。
1700432743
1700432744 驾驭大数据 [:1700430593]
1700432745 5.3.3 逻辑结构与物理结构
1700432746
1700432747 之前我们讨论过,企业分析数据集逻辑上是每个实体拥有一行数据,包括了该实体的十几个、几百个甚至上千个属性和变量。如果你熟悉那些“老派”的扁平文件,你就会发现这两者有些相似。从物理结构上看,如图5-8所示,EADS的存储格式也许并不像我们刚才描述的那样。
1700432748
1700432749
1700432750
1700432751
1700432752 图5-8 EADS的逻辑视图与物理视图
1700432753
1700432754 从逻辑上来看,一个围绕客户实体的EADS包含了客户的销售信息、人口统计信息以及直邮营销的反馈信息。但在物理上,这些信息可能保存在不同表中,也许某张表保存了销售信息,另一张表保存了人口统计信息,还有一张表保存了直邮营销反馈信息。
1700432755
1700432756 用户不需要担心这种现象,只要有正确的属性和指标,管理数据库的人自然会找到最合适的方式来保存这些数据。然后,人们会建立一个视图来帮助用户从这些物理表中找到自己想要的数据。
1700432757
1700432758 驾驭大数据 [:1700430594]
1700432759 5.3.4 更新企业分析数据集
1700432760
1700432761 把EADS保存在不同物理表中的主要原因是由于数据更新。不同类型的数据,如调研数据、销售数据、人口统计信息等,都有不同的数据更新周期。也许销售收入类数据需要每天更新,人口统计类数据每季度更新一次,调研数据则一旦获得了新数据就需要更新。当完成了新的市场调研活动,调研数据就需要导入进来,之后就不用更新了。
1700432762
1700432763 这就是把不同的数据存储在不同物理表的原因,可以对每类数据进行独立的数据更新。把数据存储在一张大型表格中,每次只更新大表里的部分数据,这种方式会耗费更多的系统资源。此外,通过这些独立的表或视图,分析专家也更容易获得所需要的特定数据。最后,不少数据库都限制了一张表内列的数量。对一个大型的企业分析数据集来说,仅仅为了符合列数的限制,就不得不把数据分布到不同表中。
1700432764
1700432765 请注意,不管EADS物理上是怎样存储的,通过视图就能把各个表里的数据汇集起来供人使用。可以建立一个包含销售收入与调研信息的视图,另外一个视图包含调研与人口统计信息,然后第三个视图包含全部信息。如果系统导入了新的数据源,例如社交网络数据或网络数据,基于这些新数据源开发的属性和指标也会加入到企业分析数据集中。添加新数据的方式可以是对视图进行更新,也可以是其他方式。
1700432766
1700432767 驾驭大数据 [:1700430595]
1700432768 5.3.5 汇总表还是概要视图
1700432769
[ 上一页 ]  [ :1.70043272e+09 ]  [ 下一页 ]