打字猴:1.7005033e+09
1700503300 虽然SAS提倡的SEMMA方法论更多的是为了用户更加有效地使用其大名鼎鼎的SAS EM(Enterprise Miner)数据挖掘集成平台中的各种挖掘工具,但是这种方法论也被业界奉为数据挖掘的有效方法论。下面来具体介绍SEMMA方法论的主要内容。
1700503301
1700503302 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497745]
1700503303 19.1.1 数据取样
1700503304
1700503305 俗话说,巧妇难为无米之炊,对于数据分析和挖掘来说,数据样本就是做饭的米,所以,数据挖掘和数据分析的第一步就是数据取样。如何从数据仓库海量数据中取出足够的有代表性的数据,同时又能有效节约计算资源,也就是说,所抽取的数据既要保证信息的丰富性和足够的代表性,又要尽量减少运算时间并降低成本,是本环节要考虑的核心问题。本环节要关注的核心内容如下:
1700503306
1700503307 ❑数据的抽取要正确反映业务分析需求。详细内容可参考本书8.1节。
1700503308
1700503309 ❑数据的抽样问题。详细内容可参考本书8.2节。
1700503310
1700503311 ❑样本规模的考虑。详细内容可参考本书8.3节。
1700503312
1700503313
1700503314
1700503315
1700503316 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497746]
1700503317 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1.2 数据探索
1700503318
1700503319 数据探索阶段,就是对于数据进行深入摸底和熟悉的过程。这个过程可以让数据分析师比较有效地熟悉样本数据,大致摸清数据间简单的统计信息,包括数据间的相关性、数据缺失情况和程度等,以及其他与数据内在规律密切相关的一切信息。
1700503320
1700503321 通过这个环节,可以让数据分析师大致熟悉和了解样本数据的基本信息,为后续的过程和环节提供有效的基础保障。
1700503322
1700503323
1700503324
1700503325
1700503326 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497747]
1700503327 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1.3 数据调整
1700503328
1700503329 如果说前面两个环节所针对的数据还是原始数据,那么本环节的核心任务就是把之前所抽取的原始数据进行调整和转换。数据调整和转换的目的主要有以下几点:
1700503330
1700503331 ❑调整后的数据能更加容易地反映出事物的内在规律和联系。比如增加了衍生变量之后,原来不容易被发现的内在规律就变得比较容易显示出来了。
1700503332
1700503333 ❑调整后的数据使得模型的建立更加容易、更加有效,或者使得模型的调整和维护更加方便。本书在8.5节给出了诸多的相关技巧和提示。
1700503334
1700503335
1700503336
1700503337
1700503338 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497748]
1700503339 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1.4 模式化
1700503340
1700503341 该环节是数据挖掘的核心环节,也就是模型的搭建和知识的发现环节。
1700503342
1700503343 关于如何建模,有哪些关键的注意事项,本书在第7~13章(总共7章)中从纯粹的挖掘技术和技巧的角度进行了比较详细的分析;另外,本书在第15~18章(总共4章)中从方法、意识、管理等角度对其进行了比较详细的分析。希望这些内容能对有缘的朋友提供点滴帮助。
1700503344
1700503345
1700503346
1700503347
1700503348 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497749]
1700503349 数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.1.5 评价
[ 上一页 ]  [ :1.7005033e+09 ]  [ 下一页 ]