打字猴:1.70050329e+09

1700503290

1700503291 SEMMA这5个英文字母分别代表Sample（数据取样）、Explore（数据探索）、Modify（数据调整）、Model（模式化）、Assess（评价与评估）这5个核心环节。这5个环节可以按照SEMMA的顺序流转，在适当情况下各环节之间也可以相互流转，具体参见图19-1所示的SEMMA方法论示意图。

1700503292

1700503293

1700503294

1700503295

1700503296 图19-1　SEMMA方法论示意图

1700503297

1700503298 从图19-1可以看出，主流的分析挖掘流程是左边的箭头所示的内容，即从数据取样开始，依次进行数据探索、数据调整、模式化，最后是评价环节，但是这个顺序不是一成不变的，除数据取样外，其他4个环节都是可以逆向回溯的，这种逆向回溯的目的就是为了更好地调整上一个环节，最终能够更好、更有效地完成数据分析结论或者模型搭建。举例来说，如果在数据调整阶段发现了抽取的数据样本不能很好地支持衍生变量的产生，而衍生变量对于所进行的专题分析来说是非常有意义的，那就很有必要考虑新的取数规则，重新抽取数据了，即使得新的数据可以比较有效支持衍生变量的产生。在这种情况下，就要重走流程，从数据取样开始，沿着SEMMA的顺序按部就班地进行。

1700503299

1700503300 虽然SAS提倡的SEMMA方法论更多的是为了用户更加有效地使用其大名鼎鼎的SAS EM（Enterprise Miner）数据挖掘集成平台中的各种挖掘工具，但是这种方法论也被业界奉为数据挖掘的有效方法论。下面来具体介绍SEMMA方法论的主要内容。

1700503301

1700503302 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497745]

1700503303 19.1.1　数据取样

1700503304

1700503305 俗话说，巧妇难为无米之炊，对于数据分析和挖掘来说，数据样本就是做饭的米，所以，数据挖掘和数据分析的第一步就是数据取样。如何从数据仓库海量数据中取出足够的有代表性的数据，同时又能有效节约计算资源，也就是说，所抽取的数据既要保证信息的丰富性和足够的代表性，又要尽量减少运算时间并降低成本，是本环节要考虑的核心问题。本环节要关注的核心内容如下：

1700503306

1700503307 ❑数据的抽取要正确反映业务分析需求。详细内容可参考本书8.1节。

1700503308

1700503309 ❑数据的抽样问题。详细内容可参考本书8.2节。

1700503310

1700503311 ❑样本规模的考虑。详细内容可参考本书8.3节。

1700503312

1700503313

1700503314

1700503315

1700503316 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497746]

1700503317 数据挖掘与数据化运营实战：思路、方法、技巧与应用 19.1.2　数据探索

1700503318

1700503319 数据探索阶段，就是对于数据进行深入摸底和熟悉的过程。这个过程可以让数据分析师比较有效地熟悉样本数据，大致摸清数据间简单的统计信息，包括数据间的相关性、数据缺失情况和程度等，以及其他与数据内在规律密切相关的一切信息。

1700503320

1700503321 通过这个环节，可以让数据分析师大致熟悉和了解样本数据的基本信息，为后续的过程和环节提供有效的基础保障。

1700503322

1700503323

1700503324

1700503325

1700503326 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497747]

1700503327 数据挖掘与数据化运营实战：思路、方法、技巧与应用 19.1.3　数据调整

1700503328

1700503329 如果说前面两个环节所针对的数据还是原始数据，那么本环节的核心任务就是把之前所抽取的原始数据进行调整和转换。数据调整和转换的目的主要有以下几点：

1700503330

1700503331 ❑调整后的数据能更加容易地反映出事物的内在规律和联系。比如增加了衍生变量之后，原来不容易被发现的内在规律就变得比较容易显示出来了。

1700503332

1700503333 ❑调整后的数据使得模型的建立更加容易、更加有效，或者使得模型的调整和维护更加方便。本书在8.5节给出了诸多的相关技巧和提示。

1700503334

1700503335

1700503336

1700503337

1700503338 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497748]

1700503339 数据挖掘与数据化运营实战：思路、方法、技巧与应用 19.1.4　模式化

[ 上一页 ] [ :1.70050329e+09 ] [ 下一页 ]