1700499909
1700499910
[1]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社,2006.
1700499911
1700499912
1700499913
1700499914
1700499916
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.3 KS值
1700499917
1700499918
KS值也是比较常用的一种判断二元分类(预测)模型准确度的方法,该方法来源于统计学中的Kolmogorov-Smirnov Test。KS值在评价二元分类模型的预测能力时,主要体现在:如果KS值越大,表示模型能够将正(1)、负(0)客户区分开来的程度越大,模型预测的准确性也就越高。通常来讲,KS大于0.2就表示模型有比较好的预测准确性了。
1700499919
1700499920
如何绘制KS曲线呢?其操作步骤如下:
1700499921
1700499922
1)将测试集里所有的观察对象经过模型打分预测出各自为正(1)的概率,然后将这个概率的值按照从高到低的顺序排序(排在最前面的当然是模型预测其为正(1)的概率最大的观察对象),如图7-2所示。
1700499923
1700499924
1700499925
1700499926
1700499927
图7-2 KS曲线绘制步骤1)示意图
1700499928
1700499929
2)分别计算(从高到低)每个概率数值分数所对应的实际上为正(1)、负(0)的观察对象的累计值,以及它们分别占全体总数,实际正(1)或负(0)的总数量的百分比,如图7-3所示。
1700499930
1700499931
1700499932
1700499933
1700499934
图7-3 KS曲线绘制步骤2)示意图
1700499935
1700499936
3)将这两种累计的百分比与评分分数绘制在同一张图上,得到KS曲线,如图7-4所示。
1700499937
1700499938
1700499939
1700499940
1700499941
图7-4 KS曲线绘制步骤3)示意图
1700499942
1700499943
4)各分数对应下累计的、真正的正(1)观察对象的百分比与累计的、真正的负(0)观察对象的百分比之差的最大值就是KS值。在本示范中,KS值为46.7%,如图7-5所示。
1700499944
1700499945
1700499946
1700499947
1700499948
图7-5 KS曲线绘制步骤4)示意图
1700499949
1700499950
1700499951
1700499952
1700499954
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.4 Lift值
1700499955
1700499956
虽然前几节分享了不同的评价指标和方法,但是在数据挖掘建模的业务实践中,用得最多的评价模型方法其实是Lift值,它直观、通俗易懂,容易为业务方理解,更重要的是这种方法可以根据业务需要的不同,直接显示对应不同目标群体规模(不同数量规模)的模型效果,方便业务应用时挑选最恰当的受众群体规模。比如,挑选打分人群里预测分数最高的10%的人群,还是20%的人群,或者是40%的人群等。
1700499957
1700499958
Lift值是如何计算的呢?我们知道,二元分类(预测)模型在具体的业务场景中,都有一个Random Rate,所谓Random Rate,是指在不使用模型的时候,基于已有业务效果的正比例,也就是不使用模型之前“正”的实际观察对象在总体观察对象中的占比,这个占比也称作“正”事件的随机响应概率。如果经过建模,有了一个不错的预测模型,那么这个模型就可以比较有效锁定(正确地分类出、预测出大多数的“正”的观察对象)群体了,所谓“有效”是指在预测概率的数值从高到低的排序中,排名靠前的观察值中,真正的“正”观察值在累计的总观察值里的占比应该是高于Random Rate的。
[
上一页 ]
[ :1.700499909e+09 ]
[
下一页 ]