1700503359
1700503361
数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.2 CRISP-DM方法论
1700503362
1700503363
CRISP-DM方法论全称为Cross-Industry Standard Process for Data Mining,即跨行业的数据挖掘标准流程。它是以SPSS、Daimler Chrysler等几家当时在数据挖掘商业实践中经验丰富的商业公司所倡立的(CRISP-DM Special Interest Group,SIG)组织于1999年开发并提炼出来的。CRISP-DM方法论,目前已经成为世界数据挖掘业界公认的有关数据挖掘项目实践的标准方法论。
1700503364
1700503365
按照CRISP-DM方法论,一个数据挖掘商业实践的完整过程包括6个阶段,分别为业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(DataPreparation)、模型搭建(Modeling)、模型评估(Evaluation)和模型发布(Deployment)。
1700503366
1700503367
上述6个阶段的顺序并不是固定不变的,在不同的业务背景中,可以有不同的流转方向,如图19-2所示。但是总体来讲,业务理解(Business Understanding)是第1位的,是数据挖掘商业实践过程中的第1环节。
1700503368
1700503369
1700503370
1700503371
1700503372
图19-2 CRISP-DM方法论示意图[1]
1700503373
1700503374
图19-2的外圈象征数据挖掘自身的循环本质,数据挖掘的过程可以不断循环、优化,后续的过程可以从前面的过程中得到借鉴和启发。
1700503375
1700503376
下面具体介绍一下CRISP-DM方法论所倡导的6个环节。
1700503377
1700503379
19.2.1 业务理解
1700503380
1700503381
本阶段为数据挖掘商业实践(项目)的起始阶段,该阶段的核心内容包括正确理解业务背景和业务需求,同时能把业务需求有效转化成合理的分析需求(建模需求),并完成初步的分析(项目)计划。
1700503382
1700503383
[1]本图片摘自SPSS官方宣传资料。
1700503384
1700503385
1700503386
1700503387
1700503389
数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.2.2 数据理解
1700503390
1700503391
本环节从数据收集开始,通过一系列的数据探索和熟悉,识别数据质量问题,发现数据的内部属性。
1700503392
1700503393
1700503394
1700503395
1700503397
数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.2.3 数据准备
1700503398
1700503399
这个阶段类似于SEMMA中的数据调整阶段,其主要任务是数据清洗、重组、转换及衍生等。
1700503400
1700503401
1700503402
1700503403
1700503405
数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.2.4 模型搭建
1700503406
1700503407
该环节类似于SEMMA中的模式化环节,也就是模型的搭建和知识的发现环节。
1700503408
[
上一页 ]
[ :1.700503359e+09 ]
[
下一页 ]