1700499989
1700499990
1700499991
1700499992
图7-7 模型捕获率曲线
1700499993
1700499994
1700499995
1700499996
1700499998
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.5 模型稳定性的评估
1700499999
1.7005e9
到目前为止,本章对于模型评估的内容都是侧重于模型本身的精度、准确度、效果、效率等的总结和分享。其实,对于模型的评估主要是从两个方面来进行考虑的,一方面就是模型的精度、准确度、效果、效率等,如前面所介绍的内容,另一方面就是对模型稳定性的评估。一个模型无论多么准确,多么有效,如果其表现不稳定,也是无法投入业务落地应用的。
1700500001
1700500002
一个模型搭建完成后,即使它在训练集和验证集里表现都令人满意,也并不能说现在这个模型就可以投入业务应用了,我们仍然有相当的理由怀疑模型在面对新的数据时是否也能有稳定的表现。这个怀疑的理由是充分的,也是必要的,因为不能排除模型过拟合的情况产生,也不能排除不同时间窗口的业务背景会产生重大变化,包括模型此刻的表现还有一点偶然的成分等因素,都有理由要我们对模型的稳定性进行进一步评估。
1700500003
1700500004
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较(参考本章前面所介绍的关于模型准确度、效果、效率的评估指标和方法),并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
1700500005
1700500006
1700500007
1700500008
1700500010
数据挖掘与数据化运营实战:思路、方法、技巧与应用 第8章 常见的数据处理技巧
1700500011
1700500012
工欲善其事,必先利其器。
1700500013
1700500014
——《论语·卫灵公》
1700500015
1700500016
8.1 数据的抽取要正确反映业务需求
1700500017
1700500018
8.2 数据抽样
1700500019
1700500020
8.3 分析数据的规模有哪些具体的要求
1700500021
1700500022
8.4 如何处理缺失值和异常值
1700500023
1700500024
8.5 数据转换
1700500025
1700500026
8.6 筛选有效的输入变量
1700500027
1700500028
8.7 共线性问题
1700500029
1700500030
在前面的章节里,重点谈到了数据挖掘实践中值得我们警惕和预防的错误观念(第5章),以及模型优化中主要用到的优化原则和方法(第7章)。虽然在“道”层面上的内容对于数据挖掘应用的影响是决定性的和根本性的,但是在“术”层面上的内容对于数据挖掘应用来说也是不可或缺的,只要应用得当定能“锦上添花”。另外,常见挖掘技术上的使用技巧,即所谓的“术”,属于数据分析师分析的基本功,有了基本功不代表你就可以进行完美的数据挖掘应用,但是如果没有基本功,你的数据挖掘应用肯定不会成功,从这个角度来看,这些“术”应该成为每个数据分析师必备的技能和知识,它们很重要也很基础。
1700500031
1700500032
提到数据挖掘中的技巧,首当其冲就是数据处理中的技巧,另外还包括各种挖掘算法的应用技巧,以及数据化运营整个闭环中的各环节所涉及的一些相应技巧。鉴于数据挖掘项目实践中有将近60%左右的时间和精力是用来熟悉、清理和转换数据的,因此本章专门针对数据处理中一些普遍性的,同时也是非常重要的一些技巧进行分析、总结和提炼。至于各种挖掘算法应用中的技巧和数据化运营中的其他技巧,将在随后相关的章节中分别进行讲解。
1700500033
1700500034
本章将对数据挖掘中最常见的一些判断和处理数据的方法进行展开阐述,对于本章的各节都可以看成是一个独立的环节,其中介绍了常见的容易犯错误的地方,同时每一节又会独立地从技术角度来思考挖掘过程中的风险点和需要注意的地方。
1700500035
1700500036
1700500037
1700500038
[
上一页 ]
[ :1.700499989e+09 ]
[
下一页 ]