1700533409
1700533410
分析与解答
1700533411
1700533412
事实上,ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点的,通过下面的例子进一步来解释“截断点”的概念。
1700533413
1700533414
在二值分类问题中,模型的输出一般都是预测样本为正例的概率。假设测试集中有20个样本,表2.1是模型的输出结果。样本按照预测概率从高到低排序。在输出最终的正例、负例之前,我们需要指定一个阈值,预测概率大于该阈值的样本会被判为正例,小于该阈值的样本则会被判为负例。比如,指定阈值为0.9,那么只有第一个样本会被预测为正例,其他全部都是负例。上面所说的“截断点”指的就是区分正负预测结果的阈值。
1700533415
1700533416
通过动态地调整截断点,从最高的得分开始(实际上是从正无穷开始,对应着ROC曲线的零点),逐渐调整到最低得分,每一个截断点都会对应一个FPR和TPR,在ROC图上绘制出每个截断点对应的位置,再连接所有点就得到最终的ROC曲线。
1700533417
1700533418
表2.1 二值分类模型的输出结果样例
1700533419
1700533420
样本序号
1700533421
1700533422
真实标签
1700533423
1700533424
模型输出概率
1700533425
1700533426
1
1700533427
1700533428
p
1700533429
1700533430
0.9
1700533431
1700533432
2
1700533433
1700533434
p
1700533435
1700533436
0.8
1700533437
1700533438
3
1700533439
1700533440
n
1700533441
1700533442
0.7
1700533443
1700533444
4
1700533445
1700533446
p
1700533447
1700533448
0.6
1700533449
1700533450
5
1700533451
1700533452
p
1700533453
1700533454
0.55
1700533455
1700533456
6
1700533457
1700533458
p
[
上一页 ]
[ :1.700533409e+09 ]
[
下一页 ]