打字猴:1.700503272e+09
1700503272
1700503273 19.3 Tom Khabaza的挖掘9律
1700503274
1700503275 数据挖掘作为一门复合型应用学科到目前已经有将近30多年的发展历程,经过一代又一代挖掘者的不懈探索和推动,已经产生了一系列经典且得到广泛实践检验的分析应用方法论。作为数据分析师和数据分析爱好者,学习、掌握并努力实践了这些方法论就等于是站在了巨人的肩膀上,掌握了这些先进的思想武器,可以帮助自己找到正确的分析方向。
1700503276
1700503277 本章着重介绍目前在数据挖掘实践领域影响深远、奉为圭臬的SEMMA方法论和CRISP-DM方法论,另外还介绍了来自Tom Khabaza的著名挖掘9律(9 Laws of Data Mining)。
1700503278
1700503279 这些方法论来源于数据挖掘业务实践,可有效服务于数据挖掘的业务实践。它们就像夜空中的北斗星,让数据分析师面对纷繁复杂的业务分析需求,不再迷茫,更可以为数据分析师提供强有力的心理支持。
1700503280
1700503281 让我们一起走进经典,掌握经典,最终能自由地让经典武装自己、提升自己。
1700503282
1700503283
1700503284
1700503285
1700503286 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497744]
1700503287 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1 SEMMA方法论
1700503288
1700503289 SEMMA是全球领先的商业分析软件与服务供应商SAS所提出的数据挖掘商业应用方法论。SAS公司于1976年创建于美国,是目前全世界范围内商业智能市场中最大的独立厂商。
1700503290
1700503291 SEMMA这5个英文字母分别代表Sample(数据取样)、Explore(数据探索)、Modify(数据调整)、Model(模式化)、Assess(评价与评估)这5个核心环节。这5个环节可以按照SEMMA的顺序流转,在适当情况下各环节之间也可以相互流转,具体参见图19-1所示的SEMMA方法论示意图。
1700503292
1700503293
1700503294
1700503295
1700503296 图19-1 SEMMA方法论示意图
1700503297
1700503298 从图19-1可以看出,主流的分析挖掘流程是左边的箭头所示的内容,即从数据取样开始,依次进行数据探索、数据调整、模式化,最后是评价环节,但是这个顺序不是一成不变的,除数据取样外,其他4个环节都是可以逆向回溯的,这种逆向回溯的目的就是为了更好地调整上一个环节,最终能够更好、更有效地完成数据分析结论或者模型搭建。举例来说,如果在数据调整阶段发现了抽取的数据样本不能很好地支持衍生变量的产生,而衍生变量对于所进行的专题分析来说是非常有意义的,那就很有必要考虑新的取数规则,重新抽取数据了,即使得新的数据可以比较有效支持衍生变量的产生。在这种情况下,就要重走流程,从数据取样开始,沿着SEMMA的顺序按部就班地进行。
1700503299
1700503300 虽然SAS提倡的SEMMA方法论更多的是为了用户更加有效地使用其大名鼎鼎的SAS EM(Enterprise Miner)数据挖掘集成平台中的各种挖掘工具,但是这种方法论也被业界奉为数据挖掘的有效方法论。下面来具体介绍SEMMA方法论的主要内容。
1700503301
1700503302 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497745]
1700503303 19.1.1 数据取样
1700503304
1700503305 俗话说,巧妇难为无米之炊,对于数据分析和挖掘来说,数据样本就是做饭的米,所以,数据挖掘和数据分析的第一步就是数据取样。如何从数据仓库海量数据中取出足够的有代表性的数据,同时又能有效节约计算资源,也就是说,所抽取的数据既要保证信息的丰富性和足够的代表性,又要尽量减少运算时间并降低成本,是本环节要考虑的核心问题。本环节要关注的核心内容如下:
1700503306
1700503307 ❑数据的抽取要正确反映业务分析需求。详细内容可参考本书8.1节。
1700503308
1700503309 ❑数据的抽样问题。详细内容可参考本书8.2节。
1700503310
1700503311 ❑样本规模的考虑。详细内容可参考本书8.3节。
1700503312
1700503313
1700503314
1700503315
1700503316 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497746]
1700503317 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1.2 数据探索
1700503318
1700503319 数据探索阶段,就是对于数据进行深入摸底和熟悉的过程。这个过程可以让数据分析师比较有效地熟悉样本数据,大致摸清数据间简单的统计信息,包括数据间的相关性、数据缺失情况和程度等,以及其他与数据内在规律密切相关的一切信息。
1700503320
1700503321 通过这个环节,可以让数据分析师大致熟悉和了解样本数据的基本信息,为后续的过程和环节提供有效的基础保障。
[ 上一页 ]  [ :1.700503272e+09 ]  [ 下一页 ]