打字猴:1.70043277e+09
1700432770 分析数据集的一种实现方式是建立一个汇总表,汇总表按时间表定期更新。这些以汇总表为基础的企业分析数据集有以下好处。
1700432771
1700432772 首先,你实现了真正意义上的“计算一次,多次使用”。分析专家所造成的系统资源负载会少一些,因为这种方式避免了分析专家重复执行多表之间的关联聚合操作。关联和聚合这些大型的表只需要批处理一次,其结果就可以被所有人共同使用。
1700432773
1700432774 其次,许多高级分析会大量使用历史数据,某一部分数据稍微“过时”不会造成很大的影响,例如,企业也许每天夜里或仅每周一次对销售数据进行更新。对于大多数高级分析项目来说,这是可以接受的。许多指标都是累加值,某一次数据对指标不会有很大的影响。例如,使用一年数据来计算客户平均的单次购买量,这个指标不会因为今天的销售数据没计入计算过程就发生了巨大的改变。
1700432775
1700432776 最后,分析专家可以很快地获取他们想要的数据。EADS表已经建立好了,分析专家直接使用就可以了,不需要运行复杂的查询语句,这些数据直接就可以进行分析。
1700432777
1700432778 以汇总表为基础的分析数据集也存在一些缺点。首先,分析数据集中的表格通常不会包含最新的数据。其次,EADS会占用系统的磁盘空间,占用比例还有可能很高。最后,需要建立针对不同数据内容的数据更新计划和执行方案。
1700432779
1700432780 第二种实现方式是建立一系列的概要视图来实时生成EADS。它有不少优点:首先,企业分析数据集里的数据永远是最新的。其次,如果实时或者准实时分析很重要,那么把最新的数据提供给分析专家就非常关键。最后,企业数据集的任何更新都能快速完成,当视图一旦更新完成,使用视图的所有用户就能立刻得到更新过的最新数据。
1700432781
1700432782 只做需要做的事情
1700432783
1700432784 你需要决定以什么样的频率来更新企业分析数据集。你也需要决定,是以物理表、逻辑视图还是同时使用两种方式来存储你的EADS。根据事实来做决定,收集到的需求会告诉你哪条路更合适你。许多情况下表和视图都会同时存在。
1700432785
1700432786 视图类型的EADS同样也存在缺点。首先,系统负载会加重。这是因为,每个视图都会有很多分析专家来使用,而每一次使用都需要重新运行视图的处理逻辑,这会带来更多的系统负载。其次,这也确保了计算结果的一致性和透明度。最后,因为数据没有提前准备好,而是根据指令从最新细节数据中计算生成,因此分析专家将需要等待更长的时间。
1700432787
1700432788 在许多情况下,在EADS结构中同时使用表和视图是合理的。有些数据也许必须使用最新的数据,另外的一些数据对时限性要求没那么高。不同数据源适合不同的方式。使用汇总表还是概要视图需要基于分析需求、性能要求和存储空间的限制。
1700432789
1700432790 使用汇总表时需要对存储空间进行限制。不要使用存储比例或其他类似的指标,而是使用基于物理表的视图来进行计算。例如,EADS里有总销售收入与交易次数,那么就没有必要储存平均每次交易的收入这个指标。建立一个视图,把总的销售收入除以交易次数,就获得了想要的指标,这只会消耗很少量的系统资源,但是却能节省大量存储空间。
1700432791
1700432792 驾驭大数据 [:1700430596]
1700432793 5.3.6 分享财富
1700432794
1700432795 当企业级分析数据集部署好时,企业应该尽量多使用这些数据。EADS不应该只被分析专家使用。商业智能和报表环境,以及这些环境的用户,没有任何理由不使用EADS。如果EADS已经开发好了可用的属性与指标,为什么还在要报表环境里开发处理逻辑来重复计算呢?
1700432796
1700432797 类似地,所有能从EADS数据中获得好处的应用都应该考虑使用EADS。一个常见例子是客户关系管理系统(CRM),其使用客户域的EADS来加快客户细分的分析流程。EADS内的客户信息可以直接被CRM使用,CRM用户可以直接使用EADS的客户属性来选择客户群体,而不需要在CRM工具中重新进行计算。另一个例子是,使用了客户EADS的呼叫中心可以为呼叫中心客服人员提供用户的各项指标。当客户打入电话时,呼叫中心客服人员的电脑屏幕上会显示客户的大量信息。这些信息,如最近的交易行为,可以帮助客服人员选择如何更好地处理呼叫。
1700432798
1700432799 重要的是,EADS有大量有价值的信息,可以避免不必要的工作,显著地提高规范性与透明性,并确保数据一致性。EADS还提供了更快的分析速度与更大的分析可扩展性。同样重要的还有,EADS给其他用户和应用提供了获取客户信息的简易方式,这些用户和应用也许无法通过其他方式来获得类似的信息。
1700432800
1700432801 驾驭大数据 [:1700430597]
1700432802 5.4 嵌入式评分
1700432803
1700432804 当建立分析沙箱并实施企业分析数据集后,企业可以更快、更高一致性地开发分析流程和模型。分析流程的扩展性也得到了提高。下一步是什么?这些新的分析流程带来的价值如何把企业带到一个更高的层次?一种方式是通过嵌入式评分过程实现分析结果的广泛应用。
1700432805
1700432806 嵌入式评分能在数据库内定期地执行评分过程,让用户更加高效、更加方便地使用模型。一个成功的嵌入式评分,不仅包含部署每一个独立的评分过程,还包括建立一个机制来管理和监控这些评分过程。请注意,“评分结果”可以来自于一个预测模型,也可以是分析模型其他类型的输出。
1700432807
1700432808 回顾一下之前谈到的内容,分析流程会最终产生新的信息。例如,客户购买某一种产品的概率,某个产品的最优价格,或者在促销活动中能带来销量提升的区域。把开发好的分析模型应用于最新数据,这就是评分。例如,在决定给哪些用户发电子邮件前,需要使用最新的数据对客户有多大的可能性参加这次活动进行评分。把评分过程嵌入在数据库环境中能带来一系列的好处,接下来我们逐个讨论这些好处。
1700432809
1700432810 首先,批处理形式的评分过程可以根据需求运行。当按计划完成了对一系列评分结果的更新后,用户想使用数据时,就可以直接使用这些数据。例如,邮件列表一旦创建完成,系统就会自动开始对列表内的客户进行评分。
1700432811
1700432812 其次,嵌入式评分可以用于实时评分。这对于某些场景特别重要,如网页推荐。如果某人登录了这个网页,系统必须立刻基于现有的信息,例如他在这个网页上做了什么等,对他进行评分,然后在他浏览下一个网页时,为他提供最合适的促销方案。类似地,当客户通过电话与呼叫中心的客服人员进行交流时,客服人员会将刚刚了解到的一些客户信息输入系统,系统利用这些信息立刻完成对客户的评分,这样,客户服人员才知道下一步要跟客户说什么。
1700432813
1700432814 再次,嵌入式评分为用户屏蔽了模型的复杂度。不管是用户还是应用,都可以轻易得到评分结果。系统会处理这些复杂运算,因此嵌入式评分使得技术背景不强的用户更容易理解评分结果。
1700432815
1700432816 最后,嵌入式评分把模型集中到了一个地方。模型列表和评分结果通过一个模型管理流程来进行集中管理,监控跟踪这些模型的创建过程就更方便了。分析专家不再需要在企业的不同地方保存并执行这些自己创建的模型了。相反地,为了扩大使用范围,这些模型将被集中地管理和部署。
1700432817
1700432818 驾驭大数据 [:1700430598]
1700432819 5.4.1 嵌入式评分集成
[ 上一页 ]  [ :1.70043277e+09 ]  [ 下一页 ]