1700503424
1700503425
本环节的核心内容包括模型投入业务应用,产生商业价值,并且应用效果要及时跟踪和反馈,以便后期的优化和更新。
1700503426
1700503427
仔细对照SEMMA方法论和CRISP-DM方法论,细心的读者不难发现,两者其实表达的是相同的意思,正所谓英雄所见略同。两大最知名的商业智能品牌异口同声说出来的数据挖掘方法论,难道不值得我们回味吗?
1700503428
1700503429
1700503430
1700503431
1700503433
数据挖掘与数据化运营实战:思路、方法、技巧与应用 19.3 Tom Khabaza的挖掘9律
1700503434
1700503435
Tom Khabaza是20世纪90年代著名的数据挖掘工具平台Clementine[1]的早期核心开发者之一。他总结的挖掘9律在数据挖掘业界产生了广泛的反响和认同。本节将简要介绍挖掘9律的主要内容,供感兴趣的数据分析师和数据分析爱好者参考。
1700503436
1700503437
❑挖掘9律之第1律,又称业务目标律(Business Goals Law),业务目标是所有数据挖掘解决方案的本源(Business Objectives Are The Origin Of Every Data Mining Solution)。数据挖掘不是为了挖掘而挖掘,所有的数据挖掘都必须而且应该服务于特定的商业(业务)目的,离开了业务目的和业务应用,就没有数据挖掘的价值。正如Tom Khabaza所说的数据挖掘,首先它不是技术,而是流程,其中存在着一个或多个业务目标,没有业务目标,就没有数据挖掘。
1700503438
1700503439
❑挖掘9律之第2律,又称业务知识律(Business Knowledge Law),业务知识是数据挖掘每一步的核心(Business Knowledge Is Central to Every Step of The Data Mining Process)。数据挖掘的本质就是将业务知识、经验和洞察力与数据挖掘方法相结合,从数据中发现有价值的东西。
1700503440
1700503441
❑挖掘9律之第3律,又称数据准备律(Data Preparation Law),数据准备能让数据挖掘流程事半功倍(Data Preparation Is More Than Half of Every Data Mining Process)。数据准备在整个挖掘过程中所占用的时间常会超过一半,它包括对数据的熟悉、清理、重组、转换等一系列过程,其目的主要是让数据变动更干净,更能真实体现业务背景,更加容易被模型发现其隐含的有价值的商业信息和商业规律。
1700503442
1700503443
❑挖掘9律之第4律,又称天下没有免费的午餐(There Is No Free Lunch for The DataMiner),只有通过实际验证才能发现给定应用的正确模型(The Right Model For A Given Application Can Only Be Discovered By Experiment)。一个模型无论搭建过程如何完美,如果没有在实际数据中经过验证,就没有任何价值和意义。
1700503444
1700503445
❑挖掘9律之第5律,又称沃特金斯[2]定律(Watkins’Law),总会有模式存在(There Are Always Patterns)。只要有数据,一定是可以从中发现有价值的信息的。
1700503446
1700503447
❑挖掘9律之第6律,数据挖掘将业务领域的感知放大(Data Mining AmplifiesPerception In The Business Domain)。得益于数据挖掘的技术和流程,使得数据中隐藏的知识和有价值的信息能被发现。
1700503448
1700503449
❑挖掘9律之第7律,又称预测定律(Prediction Law),预测将信息从局部扩展到整体(Prediction Increase Information Locally By Generalization)。数据挖掘使得我们可以透过已知的去发现(某些)未知的。这里提到的就是数据挖掘中常见的预测(响应、分类)模型的业务应用场景了。
1700503450
1700503451
❑挖掘9律之第8律,又称价值定律(Value Law),数据挖掘的结果的价值并不取决于模型的精度和稳定性(The Value of Data Mining Results Is Not Determined By The Accuracy or Stability of Predictive Models)。还是那句话,模型的价值只能由其所满足的业务需求和商业应用价值来决定,而不是由模型本身的精度和稳定性决定;再精确的模型,再稳定的模型,如果不能解决业务问题,如果不能带来业务的商业应用价值,就是没有价值的。
1700503452
1700503453
❑挖掘9律之第9律,又称变化定律(Change Law),所有的模式都会受到变化(AllPatterns Are Subject to Change)。任何模型或者分析结论都是有时间限制的,今天还是非常有价值的模型,或许明天就过时了,所有模型的维护和优化都非常重要。
1700503454
1700503455
[1]Clementine最开始是由ISL(Integral Solutions Limited)公司推出,并于1999年被SPSS收购,此后不断完善的Clementine日渐成为了SPSS公司最成功、最闪亮的数据挖掘商业软件产品,也是目前市场上占有率最高的数据挖掘分析软件之一。2009年7月28日(北京时间2009年7月29日早晨),IBM公司正式宣布斥资12亿美元收购著名数据分析统计软件开发商SPSS。
1700503456
1700503457
[2]沃特金斯,Clementine的核心开发者之一。
1700503458
1700503459
1700503460
1700503461
1700503462
1700503463
1700503464
1700503465
1700503466
1700503467
1700503468
1700503469
1700503470
1700503471
数据科学家养成手册
1700503472
500000
1700503473
作者: 高扬
[
上一页 ]
[ :1.700503424e+09 ]
[
下一页 ]