打字猴:1.700533359e+09
1700533359
1700533360 相比RMSE,MAPE相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响。
1700533361
1700533362 ·总结与扩展·
1700533363
1700533364 本小节基于三个假想的Hulu应用场景和对应的问题,说明了选择合适的评估指标的重要性。每个评估指标都有其价值,但如果只从单一的评估指标出发去评估模型,往往会得出片面甚至错误的结论;只有通过一组互补的指标去评估模型,才能更好地发现并解决模型存在的问题,从而更好地解决实际业务场景中遇到的问题。
1700533365
1700533366
1700533367
1700533368
1700533369 百面机器学习:算法工程师带你去面试 [:1700532177]
1700533370 百面机器学习:算法工程师带你去面试 02 ROC曲线
1700533371
1700533372
1700533373
1700533374 场景描述
1700533375
1700533376 二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision、recall、F1 score、P-R曲线等。上一小节已对这些指标做了一定的介绍,但也发现这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有很多优点,经常作为评估二值分类器最重要的指标之一。下面我们来详细了解一下ROC曲线的绘制方法和特点。
1700533377
1700533378 知识点
1700533379
1700533380 ROC曲线,曲线下的面积(Aera Under Curve,AUC),P-R曲线
1700533381
1700533382 问题1 什么是ROC曲线?
1700533383
1700533384 难度:★☆☆☆☆
1700533385
1700533386 分析与解答
1700533387
1700533388 ROC曲线是Receiver Operating Characteristic Curve的简称,中文名为“受试者工作特征曲线”。ROC曲线源于军事领域,而后在医学领域应用甚广,“受试者工作特征曲线”这一名称也正是来自于医学领域。
1700533389
1700533390 ROC曲线的横坐标为假阳性率(False Positive Rate,FPR);纵坐标为真阳性率(True Positive Rate,TPR)。FPR和TPR的计算方法分别为
1700533391
1700533392
1700533393
1700533394
1700533395 (2.5)
1700533396
1700533397
1700533398
1700533399
1700533400 (2.6)
1700533401
1700533402 上式中,P是真实的正样本的数量,N是真实的负样本的数量,TP是P个正样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。
1700533403
1700533404 只看定义确实有点绕,为了更直观地说明这个问题,我们举一个医院诊断病人的例子。假设有10位疑似癌症患者,其中有3位很不幸确实患了癌症(P=3),另外7位不是癌症患者(N=7)。医院对这10位疑似患者做了诊断,诊断出3位癌症患者,其中有2位确实是真正的患者(TP=2)。那么真阳性率TPR=TP/P=2/3。对于7位非癌症患者来说,有一位很不幸被误诊为癌症患者(FP=1),那么假阳性率FPR=FP/N=1/7。对于“该医院”这个分类器来说,这组分类结果就对应ROC曲线上的一个点(1/7,2/3)。
1700533405
1700533406 问题2 如何绘制ROC曲线?
1700533407
1700533408 难度:★★☆☆☆
[ 上一页 ]  [ :1.700533359e+09 ]  [ 下一页 ]