1
电子说
一、ROC曲线的含义
ROC曲线的英文名称为Receiver Operating Characteristic Curve,中文译为受试者工作特征曲线。
ROC曲线是基于混淆矩阵发展而来的系统识别的性能度量。如表一所示,在混淆矩阵中,若系统的TP增加,则该系统FP增加,即若开发人员欲使机器学习系统将更多的正样本识别为正样本(TP增加),则该系统一定会将更多的负样本识别为正样本(FP增加)。
预测 | |||
实际 | 正样本 | 负样本 | |
正样本 | True Positive(TP) | False Negative(FN) | |
负样本 | False Positive(FP) | True Negative(TN) |
表一,内容来源:中国慕课大学《机器学习概论》
对于支持向量机学习系统,“若系统的TP增加,则该系统FP增加”的结论可基于支持向量机的判别公式理解。
支持向量机的判别公式为: 若∑αiyiK(Xi,X)+b≥0,则y=+1(判别为正样本); 若∑αiyiK(Xi,X)+b<0,则y=-1(判别为负样本)。
若将上述支持向量机的判别公式的阈值从“0”更改至“-1”为: 若∑αiyiK(Xi,X)+b≥-1,则y=+1(判别为正样本); 若∑αiyiK(Xi,X)+b<-1,则y=-1(判别为负样本)。
则不仅正样本被判别为正样本的数量增加,负样本被判别为正样本的数量也增加,即此机器向量机系统的TP和FP均增加。
因此,虽然支持向量机可通过改变判别式阈值增加TP,但此种方法也将导致FP增加,即简单改变判别式阈值不能有效提高系统的性能。可有效提高系统性能的方式是设计更优的算法。
基于此,人们可通过系统TP与FP之间的关系,即绘制TP与FP曲线(ROC曲线)判别系统性性能的优劣。
二、ROC曲线的绘制
图一中的四条曲线均为ROC曲线,ROC曲线的横坐标为FP,纵坐标为TP。
ROC曲线的绘制步骤如下:
(1)将每个测试样本的值带入至∑αiyiK(Xi,X)+b中计算;
(2)将第(1)步所计算出的值从小到大排序;
(3)将第(2)步完成排序的值作为判别式的阈值,并计算每个阈值下的TP和FP的值;
(4)将同一阈值下TP和FP的值作为一个点的纵坐标和横坐标,将所有点绘制于坐标系中,所有点连接绘制的曲线即为ROC曲线。
图一,图片来源:中国慕课大学《机器学习概论》
三、通过ROC曲线判别系统性能的方式
如图一所示,坐标系中包含四种算法的ROC曲线。根据图一ROC曲线,此四种算法中,蓝色ROC曲线所对应的算法最优,紫色ROC曲线所对应的算法最差,即越贴近左上角的ROC曲线性能越好。
该结论可通过以下方式理解:对于相同的FP,ROC曲线越贴近左上角,所对应的算法的TP越大,即算法性能越好。
根据ROC曲线可衍生出系统识别的性能度量包括:AUC(AREA UNDER CURVE)和EER(EQUAL ERROR RATE)
(1)AUC AUC是指ROC曲线下方的面积,该指标越大,系统性能越好。
图片来源:中国慕课大学《机器学习概论》
(2)EER
EER的中文翻译为等错误率,等错误率为坐标系中点(0,1)和点(1,0)的连线与ROC曲线交点的横坐标,EER越小,系统性能越好。
图片来源:中国慕课大学《机器学习概论》
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !