1700499850
1700499851
1700499852
❑Sensitivity(灵敏性):又叫击中率或真正率,模型正确识别为正(1)的对象占全部观察对象中实际为正(1)的对象数量的比值,公式如下:
1700499853
1700499854
1700499855
1700499856
1700499857
❑Specificity(特效性):又叫真负率,模型正确识别为负(0)的对象占全部观察对象中实际为负(0)的对象数量的比值,公式如下:
1700499858
1700499859
1700499860
1700499861
1700499862
❑Precision(精度):模型的精度是指模型正确识别为正(1)的对象占模型识别为正(1)的观察对象总数的比值,公式如下:
1700499863
1700499864
1700499865
1700499866
1700499867
❑False Positive Rate(错正率):又叫假正率,模型错误地识别为正(1)的对象数量占实际为负(0)的对象数量的比值,即1减去真负率Specificity,公式如下:
1700499868
1700499869
1700499870
1700499871
1700499872
❑Negative Predictive Value(负元正确率):模型正确识别为负(0)的对象数量占模型识别为负(0)的观察对象总数的比值,公式如下:
1700499873
1700499874
1700499875
1700499876
1700499877
❑False Discovery Rate(正元错误率):模型错误识别为正(1)的对象数量占模型识别为正(1)的观察对象总数的比值,公式如下:
1700499878
1700499879
1700499880
1700499881
1700499882
可以很容易地发现,正确率是灵敏性和特效性的函数:
1700499883
1700499884
1700499885
1700499886
1700499887
上述各种基本指标,从各个角度对模型的表现进行了评估,在实际业务应用场景中,可以有选择地采用其中某些指标(不一定全部采用),关键要看具体的项目背景和业务场景,针对其侧重点来选择。
1700499888
1700499889
另一方面,上述各种基本指标看上去很容易让人混淆,尤其是与业务方讨论这些指标时更是如此,而且这些指标虽然从各个不同角度对模型效果进行了评价,但指标之间是彼此分散的,因此使用起来需要人为地进行整合。
1700499890
1700499891
鉴于此,在实际业务应用中,数据分析师更多使用的是其他一些可帮助综合性判断的指标,这些就是7.4.2~7.4.4节将要介绍的ROC曲线、KS值和Lift值。
1700499892
1700499893
1700499894
1700499895
1700499897
数据挖掘与数据化运营实战:思路、方法、技巧与应用 7.4.2 ROC曲线
1700499898
1700499899
ROC曲线是一种有效比较(或对比)两个(或两个以上)二元分类模型(Binary Models)的可视工具,ROC(Receiver Operating Characteristic,接收者运行特征)曲线来源于信号检测理论,它显示了给定模型的灵敏性(Sensitivity)真正率与假正率(False Positive Rate)之间的比较评定。给定一个二元分类问题,我们通过对测试数据集的不同部分所显示的模型可以正确识别“1”实例的比例与模型将“0”实例错误地识别为“1”的比例进行分析,来比较不同模型的准确率的比较评定。真正率的增加是以假正率的增加为代价的,ROC曲线下面的面积就是比较模型准确度的指标和依据。面积大的模型对应的模型准确度要高,也就是要择优应用的模型。面积越接近0.5,对应的模型的准确率就越低。
[
上一页 ]
[ :1.70049985e+09 ]
[
下一页 ]