1700499998
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.5 模型稳定性的评估
1700499999
1.7005e9
到目前为止,本章对于模型评估的内容都是侧重于模型本身的精度、准确度、效果、效率等的总结和分享。其实,对于模型的评估主要是从两个方面来进行考虑的,一方面就是模型的精度、准确度、效果、效率等,如前面所介绍的内容,另一方面就是对模型稳定性的评估。一个模型无论多么准确,多么有效,如果其表现不稳定,也是无法投入业务落地应用的。
1700500001
1700500002
一个模型搭建完成后,即使它在训练集和验证集里表现都令人满意,也并不能说现在这个模型就可以投入业务应用了,我们仍然有相当的理由怀疑模型在面对新的数据时是否也能有稳定的表现。这个怀疑的理由是充分的,也是必要的,因为不能排除模型过拟合的情况产生,也不能排除不同时间窗口的业务背景会产生重大变化,包括模型此刻的表现还有一点偶然的成分等因素,都有理由要我们对模型的稳定性进行进一步评估。
1700500003
1700500004
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较(参考本章前面所介绍的关于模型准确度、效果、效率的评估指标和方法),并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
1700500005
1700500006
1700500007
1700500008
1700500010
数据挖掘与数据化运营实战:思路、方法、技巧与应用 第8章 常见的数据处理技巧
1700500011
1700500012
工欲善其事,必先利其器。
1700500013
1700500014
——《论语·卫灵公》
1700500015
1700500016
8.1 数据的抽取要正确反映业务需求
1700500017
1700500018
8.2 数据抽样
1700500019
1700500020
8.3 分析数据的规模有哪些具体的要求
1700500021
1700500022
8.4 如何处理缺失值和异常值
1700500023
1700500024
8.5 数据转换
1700500025
1700500026
8.6 筛选有效的输入变量
1700500027
1700500028
8.7 共线性问题
1700500029
1700500030
在前面的章节里,重点谈到了数据挖掘实践中值得我们警惕和预防的错误观念(第5章),以及模型优化中主要用到的优化原则和方法(第7章)。虽然在“道”层面上的内容对于数据挖掘应用的影响是决定性的和根本性的,但是在“术”层面上的内容对于数据挖掘应用来说也是不可或缺的,只要应用得当定能“锦上添花”。另外,常见挖掘技术上的使用技巧,即所谓的“术”,属于数据分析师分析的基本功,有了基本功不代表你就可以进行完美的数据挖掘应用,但是如果没有基本功,你的数据挖掘应用肯定不会成功,从这个角度来看,这些“术”应该成为每个数据分析师必备的技能和知识,它们很重要也很基础。
1700500031
1700500032
提到数据挖掘中的技巧,首当其冲就是数据处理中的技巧,另外还包括各种挖掘算法的应用技巧,以及数据化运营整个闭环中的各环节所涉及的一些相应技巧。鉴于数据挖掘项目实践中有将近60%左右的时间和精力是用来熟悉、清理和转换数据的,因此本章专门针对数据处理中一些普遍性的,同时也是非常重要的一些技巧进行分析、总结和提炼。至于各种挖掘算法应用中的技巧和数据化运营中的其他技巧,将在随后相关的章节中分别进行讲解。
1700500033
1700500034
本章将对数据挖掘中最常见的一些判断和处理数据的方法进行展开阐述,对于本章的各节都可以看成是一个独立的环节,其中介绍了常见的容易犯错误的地方,同时每一节又会独立地从技术角度来思考挖掘过程中的风险点和需要注意的地方。
1700500035
1700500036
1700500037
1700500038
1700500040
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.1 数据的抽取要正确反映业务需求
1700500041
1700500042
一个数据挖掘(分析)需求一旦被分析师接受和认可,数据分析师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实践中,因为抽取的数据不能正确反映业务需求而导致挖掘项目失败的例子并不少见,原因很简单,从错误的数据里,肯定是不能找到正确的分析挖掘结论的。举例来说,某业务分析需求是找出因为使用店铺装修工具而带来显著销售收入提升的用户群体特征,如果不对此需求详加思考,仅仅凭借字面意思,就去抽取使用了该装修工具并且有明显销售收入提升的人群,然后对该人群加以特征分析,其结果就很有可能是“垃圾进,垃圾出(Garbage In,Garbage Out)”,错误的结论将严重误导业务方接下来的业务应用。本案例里为什么上面的抽取数据思路有误呢?是其没有正确反映业务需求吗?难道不是严格按照需求描述来抽取数据的吗?
1700500043
1700500044
之所以说上述的抽取思路是错误的,是因为对于本案例所在的平台来说,用户可以有很多不同的付费工具、付费服务去提升他们的销售收入,比如用户在平台上的竞价排名就可以很有效地提升其销售额。很有可能在购买和使用了店铺装修工具的用户中,有相当数量和相当比例的人也同时使用了竞价排名等多种方式去提升销售额,换句话说,如果仅仅抽取使用了店铺装修工具并且带来显著销售收入提升的用户,而没有排除同时也使用了其他诸如竞价排名等方式的用户,那得到的特征人群的描述肯定是不符合当初的业务需求定义的。
1700500045
1700500046
在本案例中,要如何避免出现上述的错误呢?如何保证数据的抽取能尽可能反映和满足业务的需求呢?一个常用的方法就是使用控制变量,确保抽取的用户群里,不包含使用了竞价排名等主要的提升流量和销售收入手段的用户,尽可能使得这个用户群的确是因为仅仅使用了店铺装修工具而带来的销售收入提升。
[
上一页 ]
[ :1.700499997e+09 ]
[
下一页 ]