打字猴:1.70053353e+09

1700533530 n

1700533531

1700533532 0.33

1700533533

1700533534 19

1700533535

1700533536 p

1700533537

1700533538 0.30

1700533539

1700533540 20

1700533541

1700533542 n

1700533543

1700533544 0.1

1700533545

1700533546 就本例来说，当截断点选择为正无穷时，模型把全部样本预测为负例，那么FP和TP必然都为0，FPR和TPR也都为0，因此曲线的第一个点的坐标就是（0,0）。当把截断点调整为0.9时，模型预测1号样本为正样本，并且该样本确实是正样本，因此，TP=1，20个样本中，所有正例数量为P=10，故TPR=TP/P=1/10；这里没有预测错的正样本，即FP=0，负样本总数N=10，故FPR=FP/N=0/10=0，对应ROC曲线上的点（0,0.1）。依次调整截断点，直到画出全部的关键点，再连接关键点即得到最终的ROC曲线，如图2.2所示。

1700533547

1700533548

1700533549

1700533550

1700533551 图2.2　ROC曲线

1700533552

1700533553 其实，还有一种更直观地绘制ROC曲线的方法。首先，根据样本标签统计出正负样本的数量，假设正样本数量为P，负样本数量为N；接下来，把横轴的刻度间隔设置为1/N，纵轴的刻度间隔设置为1/P；再根据模型输出的预测概率对样本进行排序（从高到低）；依次遍历样本，同时从零点开始绘制ROC曲线，每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线，每遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线，直到遍历完所有样本，曲线最终停在（1,1）这个点，整个ROC曲线绘制完成。

1700533554

1700533555 问题3　如何计算AUC？

1700533556

1700533557 难度：★★☆☆☆

1700533558

1700533559 分析与解答

1700533560

1700533561 顾名思义，AUC指的是ROC曲线下的面积大小，该值能够量化地反映基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC横轴做积分就可以了。由于ROC曲线一般都处于y=x这条直线的上方（如果不是的话，只要把模型预测的概率反转成1−p就可以得到一个更好的分类器），所以AUC的取值一般在0.5～1之间。AUC越大，说明分类器越可能把真正的正样本排在前面，分类性能越好。

1700533562

1700533563 问题4　ROC曲线相比P-R曲线有什么特点？

1700533564

1700533565 难度：★★★☆☆

1700533566

1700533567 分析与解答

1700533568

1700533569 本章第一小节曾介绍过同样被经常用来评估分类和排序模型的P-R曲线。相比P-R曲线，ROC曲线有一个特点，当正负样本的分布发生变化时，ROC曲线的形状能够基本保持不变，而P-R曲线的形状一般会发生较剧烈的变化。

1700533570

1700533571 举例来说，图2.3是ROC曲线和P-R曲线的对比图，其中图2.3（a）和图2.3（c）是ROC曲线，图2.3（b）和图2.3（d）是P-R曲线，图2.3（c）和图2.3（d）则是将测试集中的负样本数量增加10倍后的曲线图。

1700533572

1700533573

1700533574

1700533575

1700533576 图2.3　ROC曲线和P-R曲线的对比

1700533577

1700533578 可以看出，P-R曲线发生了明显的变化，而ROC曲线形状基本不变。这个特点让ROC曲线能够尽量降低不同测试集带来的干扰，更加客观地衡量模型本身的性能。这有什么实际意义呢？在很多实际问题中，正负样本数量往往很不均衡。比如，计算广告领域经常涉及转化率模型，正样本的数量往往是负样本数量的1/1000甚至1/10000。若选择不同的测试集，P-R曲线的变化就会非常大，而ROC曲线则能够更加稳定地反映模型本身的好坏。所以，ROC曲线的适用场景更多，被广泛用于排序、推荐、广告等领域。但需要注意的是，选择P-R曲线还是ROC曲线是因实际问题而异的，如果研究者希望更多地看到模型在特定数据集上的表现，P-R曲线则能够更直观地反映其性能。

1700533579

[ 上一页 ] [ :1.70053353e+09 ] [ 下一页 ]