打字猴:1.70043273e+09
1700432730 5.3.2 企业分析数据集里有什么
1700432731
1700432732 企业分析数据集的设计并不复杂。首先,要收集并汇总各个分析专家常用的各种属性和指标。如果某一个业务指标有多种定义,最好把它们全部合并。例如,也许有些分析专家使用总销售收入减去折扣与返点,有些分析专家使用总销售收入减去折扣,不减去返点。把这两种销售收入指标都包含在EADS内,没有必要只选择其中一种。随着时间推移,如果发现了新的关键指标,那就将它加入EADS内。企业分析数据集一直在不断地变化。最初EADS也许只有一两个指标,但随后越来越多的指标会被添加进来。
1700432733
1700432734 全部选中!
1700432735
1700432736 很多时候,当你作出选择时,你很难有机会说“我全要了”。企业分析数据集就给了你这种机会。把每一种指标都包含进来,这样可以覆盖所有的需求。添加一个新指标并不会耗费你太多的资源。不要争论哪个指标更准确更合适,全部选上吧,不管哪个指标最终赢了,你都有相应的数据。
1700432737
1700432738 企业分析数据集通常不会包含分析专家所需的全部数据,理解这一点非常重要。通常情况下,EADS可以提供90%左右的数据,每一个项目都需要一些自定义的、不经常使用的指标,这些指标通常没有包含在EADS中,这并不是问题。
1700432739
1700432740 例如,某一个分析专家研究节假日哪些产品卖得最好。这项分析只会研究少数特定产品。EADS中的数据可能是这些畅销产品按类别汇总的销售指标。对单个产品进行分析并不是常见的需求,所以单个产品的指标就不应该加入EADS中。
1700432741
1700432742 企业分析数据集能满足分析专家80%~90%的数据需求,分析专家可以把重点放在剩下10%~20%的个性化数据上。分析专家也可以复用EADS的数据生成程序和处理逻辑。随着时间推移,分析专家也许又发现了一些新的数据指标,这些数据需要保持一致并要重复地生成。如果出现了这种情况,把这些新指标加入EADS。这要需要建立一个管理流程来处理这些新加入的指标。
1700432743
1700432744 驾驭大数据 [:1700430593]
1700432745 5.3.3 逻辑结构与物理结构
1700432746
1700432747 之前我们讨论过,企业分析数据集逻辑上是每个实体拥有一行数据,包括了该实体的十几个、几百个甚至上千个属性和变量。如果你熟悉那些“老派”的扁平文件,你就会发现这两者有些相似。从物理结构上看,如图5-8所示,EADS的存储格式也许并不像我们刚才描述的那样。
1700432748
1700432749
1700432750
1700432751
1700432752 图5-8 EADS的逻辑视图与物理视图
1700432753
1700432754 从逻辑上来看,一个围绕客户实体的EADS包含了客户的销售信息、人口统计信息以及直邮营销的反馈信息。但在物理上,这些信息可能保存在不同表中,也许某张表保存了销售信息,另一张表保存了人口统计信息,还有一张表保存了直邮营销反馈信息。
1700432755
1700432756 用户不需要担心这种现象,只要有正确的属性和指标,管理数据库的人自然会找到最合适的方式来保存这些数据。然后,人们会建立一个视图来帮助用户从这些物理表中找到自己想要的数据。
1700432757
1700432758 驾驭大数据 [:1700430594]
1700432759 5.3.4 更新企业分析数据集
1700432760
1700432761 把EADS保存在不同物理表中的主要原因是由于数据更新。不同类型的数据,如调研数据、销售数据、人口统计信息等,都有不同的数据更新周期。也许销售收入类数据需要每天更新,人口统计类数据每季度更新一次,调研数据则一旦获得了新数据就需要更新。当完成了新的市场调研活动,调研数据就需要导入进来,之后就不用更新了。
1700432762
1700432763 这就是把不同的数据存储在不同物理表的原因,可以对每类数据进行独立的数据更新。把数据存储在一张大型表格中,每次只更新大表里的部分数据,这种方式会耗费更多的系统资源。此外,通过这些独立的表或视图,分析专家也更容易获得所需要的特定数据。最后,不少数据库都限制了一张表内列的数量。对一个大型的企业分析数据集来说,仅仅为了符合列数的限制,就不得不把数据分布到不同表中。
1700432764
1700432765 请注意,不管EADS物理上是怎样存储的,通过视图就能把各个表里的数据汇集起来供人使用。可以建立一个包含销售收入与调研信息的视图,另外一个视图包含调研与人口统计信息,然后第三个视图包含全部信息。如果系统导入了新的数据源,例如社交网络数据或网络数据,基于这些新数据源开发的属性和指标也会加入到企业分析数据集中。添加新数据的方式可以是对视图进行更新,也可以是其他方式。
1700432766
1700432767 驾驭大数据 [:1700430595]
1700432768 5.3.5 汇总表还是概要视图
1700432769
1700432770 分析数据集的一种实现方式是建立一个汇总表,汇总表按时间表定期更新。这些以汇总表为基础的企业分析数据集有以下好处。
1700432771
1700432772 首先,你实现了真正意义上的“计算一次,多次使用”。分析专家所造成的系统资源负载会少一些,因为这种方式避免了分析专家重复执行多表之间的关联聚合操作。关联和聚合这些大型的表只需要批处理一次,其结果就可以被所有人共同使用。
1700432773
1700432774 其次,许多高级分析会大量使用历史数据,某一部分数据稍微“过时”不会造成很大的影响,例如,企业也许每天夜里或仅每周一次对销售数据进行更新。对于大多数高级分析项目来说,这是可以接受的。许多指标都是累加值,某一次数据对指标不会有很大的影响。例如,使用一年数据来计算客户平均的单次购买量,这个指标不会因为今天的销售数据没计入计算过程就发生了巨大的改变。
1700432775
1700432776 最后,分析专家可以很快地获取他们想要的数据。EADS表已经建立好了,分析专家直接使用就可以了,不需要运行复杂的查询语句,这些数据直接就可以进行分析。
1700432777
1700432778 以汇总表为基础的分析数据集也存在一些缺点。首先,分析数据集中的表格通常不会包含最新的数据。其次,EADS会占用系统的磁盘空间,占用比例还有可能很高。最后,需要建立针对不同数据内容的数据更新计划和执行方案。
1700432779
[ 上一页 ]  [ :1.70043273e+09 ]  [ 下一页 ]