1700499959
1700499960
举例来说,某二元分类(预测)模型针对10 000名潜在用户打分(预测其购买某产品的可能性),Random Rate为9%,即其中有900人会实际购买该产品,将这10 000名用户经过模型打分后所得的(购买某产品可能性)概率分数从高到低进行排序,如果排名前10%的用户,即1000名概率最高的用户里实际购买产品的用户数量为600人,那么与Random Rate相比较,可得出排名前10%的用户其实际购买率的Lift值为6.67。
1700499961
1700499962
1700499963
1700499964
1700499965
或
1700499966
1700499967
1700499968
1700499969
1700499970
上述两种算法,得到的结果都是6.67,两种算法的思路有什么区别?为什么它们可以殊途同归?感兴趣的读者可以自己进行揣摩和思考。
1700499971
1700499972
上述两种算法,引出了跟Lift相关且在模型评估中也常常用到的两个评价指标,分别是响应率(%Response)和捕获率(%Captured Response),这两个指标反映的是与Lift基本相同的意思,都是评估模型的效果和效率,但是它们比Lift更加直观,更加容易理解,因此在实践中,尤其是在与业务方交流、沟通模型效果评价时)经常采用。
1700499973
1700499974
对%Response和%Captured Response的应用,也如Lift的应用一样,首先要把经过模型预测后的观察对象按照预测概率的分数从高到低进行排序,然后对这些排序后的观察对象按照均等的数量划分成10个区间,或者20个区间,每个区间里观察对象的数量一致(概率分数的顺序不变),这样各个区间可以被命名为排序最高的前10%的对象、排序最高的前20%的对象等。
1700499975
1700499976
响应率是指上述经过概率分数排序后的某区间段或累计区间观察对象中,属于正(1)的观察对象占该区间或该累计区间总体观察对象数量的百分比。很明显,响应率越大,说明在该区间或该累计区间模型的预测准确度越高,如图7-6所示。
1700499977
1700499978
1700499979
1700499980
1700499981
图7-6 模型响应率曲线
1700499982
1700499983
从图7-6可以发现,最上面的一条线是神经网络模型的响应率曲线,在概率得分从高到低排序的前10%的观察对象中,有70%是实际上属于正(1)的;前20%的观察对象中,有将近63%是实际上属于正(1)的,在后面的观察对象也可以依次找出对应的响应率。
1700499984
1700499985
捕获率是指上述经过概率分数排序后的某区间段或累计区间的观察对象中,属于正(1)的观察对象占全体观察对象中属于正(1)的总数的百分比。捕获率顾名思义就是某区间或累计区间模型可以抓住的正(1)的观察对象占总体,正(1)的观察对象的比例,如图7-7所示。
1700499986
1700499987
从图7-7可以看出,最上面的一条线是神经网络模型的捕获率曲线,在概率得分从高到低排序的前10%的观察对象中,实际是正(1)的观察对象占全部正(1)总体数量的近25%;前20%的观察对象中,实际是正(1)的观察对象占全部正(1)总体数量的近44%。
1700499988
1700499989
1700499990
1700499991
1700499992
图7-7 模型捕获率曲线
1700499993
1700499994
1700499995
1700499996
1700499998
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.5 模型稳定性的评估
1700499999
1.7005e9
到目前为止,本章对于模型评估的内容都是侧重于模型本身的精度、准确度、效果、效率等的总结和分享。其实,对于模型的评估主要是从两个方面来进行考虑的,一方面就是模型的精度、准确度、效果、效率等,如前面所介绍的内容,另一方面就是对模型稳定性的评估。一个模型无论多么准确,多么有效,如果其表现不稳定,也是无法投入业务落地应用的。
1700500001
1700500002
一个模型搭建完成后,即使它在训练集和验证集里表现都令人满意,也并不能说现在这个模型就可以投入业务应用了,我们仍然有相当的理由怀疑模型在面对新的数据时是否也能有稳定的表现。这个怀疑的理由是充分的,也是必要的,因为不能排除模型过拟合的情况产生,也不能排除不同时间窗口的业务背景会产生重大变化,包括模型此刻的表现还有一点偶然的成分等因素,都有理由要我们对模型的稳定性进行进一步评估。
1700500003
1700500004
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较(参考本章前面所介绍的关于模型准确度、效果、效率的评估指标和方法),并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
1700500005
1700500006
1700500007
1700500008
[
上一页 ]
[ :1.700499959e+09 ]
[
下一页 ]