1700432745
5.3.3 逻辑结构与物理结构
1700432746
1700432747
之前我们讨论过,企业分析数据集逻辑上是每个实体拥有一行数据,包括了该实体的十几个、几百个甚至上千个属性和变量。如果你熟悉那些“老派”的扁平文件,你就会发现这两者有些相似。从物理结构上看,如图5-8所示,EADS的存储格式也许并不像我们刚才描述的那样。
1700432748
1700432749
1700432750
1700432751
1700432752
图5-8 EADS的逻辑视图与物理视图
1700432753
1700432754
从逻辑上来看,一个围绕客户实体的EADS包含了客户的销售信息、人口统计信息以及直邮营销的反馈信息。但在物理上,这些信息可能保存在不同表中,也许某张表保存了销售信息,另一张表保存了人口统计信息,还有一张表保存了直邮营销反馈信息。
1700432755
1700432756
用户不需要担心这种现象,只要有正确的属性和指标,管理数据库的人自然会找到最合适的方式来保存这些数据。然后,人们会建立一个视图来帮助用户从这些物理表中找到自己想要的数据。
1700432757
1700432759
5.3.4 更新企业分析数据集
1700432760
1700432761
把EADS保存在不同物理表中的主要原因是由于数据更新。不同类型的数据,如调研数据、销售数据、人口统计信息等,都有不同的数据更新周期。也许销售收入类数据需要每天更新,人口统计类数据每季度更新一次,调研数据则一旦获得了新数据就需要更新。当完成了新的市场调研活动,调研数据就需要导入进来,之后就不用更新了。
1700432762
1700432763
这就是把不同的数据存储在不同物理表的原因,可以对每类数据进行独立的数据更新。把数据存储在一张大型表格中,每次只更新大表里的部分数据,这种方式会耗费更多的系统资源。此外,通过这些独立的表或视图,分析专家也更容易获得所需要的特定数据。最后,不少数据库都限制了一张表内列的数量。对一个大型的企业分析数据集来说,仅仅为了符合列数的限制,就不得不把数据分布到不同表中。
1700432764
1700432765
请注意,不管EADS物理上是怎样存储的,通过视图就能把各个表里的数据汇集起来供人使用。可以建立一个包含销售收入与调研信息的视图,另外一个视图包含调研与人口统计信息,然后第三个视图包含全部信息。如果系统导入了新的数据源,例如社交网络数据或网络数据,基于这些新数据源开发的属性和指标也会加入到企业分析数据集中。添加新数据的方式可以是对视图进行更新,也可以是其他方式。
1700432766
1700432768
5.3.5 汇总表还是概要视图
1700432769
1700432770
分析数据集的一种实现方式是建立一个汇总表,汇总表按时间表定期更新。这些以汇总表为基础的企业分析数据集有以下好处。
1700432771
1700432772
首先,你实现了真正意义上的“计算一次,多次使用”。分析专家所造成的系统资源负载会少一些,因为这种方式避免了分析专家重复执行多表之间的关联聚合操作。关联和聚合这些大型的表只需要批处理一次,其结果就可以被所有人共同使用。
1700432773
1700432774
其次,许多高级分析会大量使用历史数据,某一部分数据稍微“过时”不会造成很大的影响,例如,企业也许每天夜里或仅每周一次对销售数据进行更新。对于大多数高级分析项目来说,这是可以接受的。许多指标都是累加值,某一次数据对指标不会有很大的影响。例如,使用一年数据来计算客户平均的单次购买量,这个指标不会因为今天的销售数据没计入计算过程就发生了巨大的改变。
1700432775
1700432776
最后,分析专家可以很快地获取他们想要的数据。EADS表已经建立好了,分析专家直接使用就可以了,不需要运行复杂的查询语句,这些数据直接就可以进行分析。
1700432777
1700432778
以汇总表为基础的分析数据集也存在一些缺点。首先,分析数据集中的表格通常不会包含最新的数据。其次,EADS会占用系统的磁盘空间,占用比例还有可能很高。最后,需要建立针对不同数据内容的数据更新计划和执行方案。
1700432779
1700432780
第二种实现方式是建立一系列的概要视图来实时生成EADS。它有不少优点:首先,企业分析数据集里的数据永远是最新的。其次,如果实时或者准实时分析很重要,那么把最新的数据提供给分析专家就非常关键。最后,企业数据集的任何更新都能快速完成,当视图一旦更新完成,使用视图的所有用户就能立刻得到更新过的最新数据。
1700432781
1700432782
只做需要做的事情
1700432783
1700432784
你需要决定以什么样的频率来更新企业分析数据集。你也需要决定,是以物理表、逻辑视图还是同时使用两种方式来存储你的EADS。根据事实来做决定,收集到的需求会告诉你哪条路更合适你。许多情况下表和视图都会同时存在。
1700432785
1700432786
视图类型的EADS同样也存在缺点。首先,系统负载会加重。这是因为,每个视图都会有很多分析专家来使用,而每一次使用都需要重新运行视图的处理逻辑,这会带来更多的系统负载。其次,这也确保了计算结果的一致性和透明度。最后,因为数据没有提前准备好,而是根据指令从最新细节数据中计算生成,因此分析专家将需要等待更长的时间。
1700432787
1700432788
在许多情况下,在EADS结构中同时使用表和视图是合理的。有些数据也许必须使用最新的数据,另外的一些数据对时限性要求没那么高。不同数据源适合不同的方式。使用汇总表还是概要视图需要基于分析需求、性能要求和存储空间的限制。
1700432789
1700432790
使用汇总表时需要对存储空间进行限制。不要使用存储比例或其他类似的指标,而是使用基于物理表的视图来进行计算。例如,EADS里有总销售收入与交易次数,那么就没有必要储存平均每次交易的收入这个指标。建立一个视图,把总的销售收入除以交易次数,就获得了想要的指标,这只会消耗很少量的系统资源,但是却能节省大量存储空间。
1700432791
1700432793
5.3.6 分享财富
[
上一页 ]
[ :1.700432744e+09 ]
[
下一页 ]