1700499897
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.2 ROC曲线
1700499898
1700499899
ROC曲线是一种有效比较(或对比)两个(或两个以上)二元分类模型(Binary Models)的可视工具,ROC(Receiver Operating Characteristic,接收者运行特征)曲线来源于信号检测理论,它显示了给定模型的灵敏性(Sensitivity)真正率与假正率(False Positive Rate)之间的比较评定。给定一个二元分类问题,我们通过对测试数据集的不同部分所显示的模型可以正确识别“1”实例的比例与模型将“0”实例错误地识别为“1”的比例进行分析,来比较不同模型的准确率的比较评定。真正率的增加是以假正率的增加为代价的,ROC曲线下面的面积就是比较模型准确度的指标和依据。面积大的模型对应的模型准确度要高,也就是要择优应用的模型。面积越接近0.5,对应的模型的准确率就越低。
1700499900
1700499901
图7-1是两个分类模型所对应的ROC曲线图,其横轴是假正率,其纵轴是真正率,该图同时显示了一条对角线。ROC曲线离对角线越近,模型的准确率就越低。从排序后的最高“正”概率的观察值开始,随着概率从高到低逐渐下降,相应的观察群体里真正的“正”群体则会逐渐减少,而假“正”真“负”的群体则会逐渐增多,ROC曲线也从开始的陡峭变为逐渐水平了。图中最上面的曲线所代表的神经网络模型(Neural)的准确率就要高于其下面的曲线所代表的逻辑回归模型(Reg)的准确率。
1700499902
1700499903
要绘制ROC曲线,首先要对模型所做的判断即对应的数据做排序,把经过模型判断后的观察值预测为正(1)的概率从高到低进行排序(最前面的应该是模型判断最可能为“正”的观察值),ROC曲线的纵轴(垂直轴)表示真正率(模型正确判断为正的数量占实际为正的数量的比值),ROC曲线的横轴(水平轴)表示假正率(模型错误判断为正的数量占实际为负的数量的比值)。具体绘制时,要从左下角开始,在此真正率和假正率都为0,按照刚才概率从高到低的顺序,依次针对每个观察值实际的“正”或“负”进行ROC图形的绘制,如果它是真正的“正”,则在ROC曲线上向上移动并绘制一个点;如果它是真正的“负”,则在ROC曲线上向右移动并绘制一个点。对于每个观察值都重复这个过程(按照预测为“正”的概率从高到低的顺序来绘制),每次对实际上为“正”的在ROC曲线上向上移动一个点,对实际为“负”的在ROC曲线向右移动一个点[1]。当然了,很多数据挖掘软件包已经可以自动实现对ROC曲线的展示了,所以更多的时候只是需要知道其中的原理,并且知道如何评价具体模型的ROC曲线就可以了。
1700499904
1700499905
1700499906
1700499907
1700499908
图7-1 两个分类模型的ROC曲线
1700499909
1700499910
[1]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社,2006.
1700499911
1700499912
1700499913
1700499914
1700499916
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.3 KS值
1700499917
1700499918
KS值也是比较常用的一种判断二元分类(预测)模型准确度的方法,该方法来源于统计学中的Kolmogorov-Smirnov Test。KS值在评价二元分类模型的预测能力时,主要体现在:如果KS值越大,表示模型能够将正(1)、负(0)客户区分开来的程度越大,模型预测的准确性也就越高。通常来讲,KS大于0.2就表示模型有比较好的预测准确性了。
1700499919
1700499920
如何绘制KS曲线呢?其操作步骤如下:
1700499921
1700499922
1)将测试集里所有的观察对象经过模型打分预测出各自为正(1)的概率,然后将这个概率的值按照从高到低的顺序排序(排在最前面的当然是模型预测其为正(1)的概率最大的观察对象),如图7-2所示。
1700499923
1700499924
1700499925
1700499926
1700499927
图7-2 KS曲线绘制步骤1)示意图
1700499928
1700499929
2)分别计算(从高到低)每个概率数值分数所对应的实际上为正(1)、负(0)的观察对象的累计值,以及它们分别占全体总数,实际正(1)或负(0)的总数量的百分比,如图7-3所示。
1700499930
1700499931
1700499932
1700499933
1700499934
图7-3 KS曲线绘制步骤2)示意图
1700499935
1700499936
3)将这两种累计的百分比与评分分数绘制在同一张图上,得到KS曲线,如图7-4所示。
1700499937
1700499938
1700499939
1700499940
1700499941
图7-4 KS曲线绘制步骤3)示意图
1700499942
1700499943
4)各分数对应下累计的、真正的正(1)观察对象的百分比与累计的、真正的负(0)观察对象的百分比之差的最大值就是KS值。在本示范中,KS值为46.7%,如图7-5所示。
1700499944
1700499945
[
上一页 ]
[ :1.700499896e+09 ]
[
下一页 ]