偏斜类的偏差度量——查准率Precision和召回率recall的看法
本文是吴恩达《机器学习》视频条记第68篇,对应第6周第10个视频。
“Machine Learning System Design:——Error metrics for skewed classes”
前方两个末节讲了怎样快速用简便算法将流程跑通,给出了基本的偏差分析办法。这一节讲偏斜类成绩。
偏斜类
所谓的偏斜类(Skewed Class)的成绩,关于二元分类来说,但是就是一种分类的数据量远宏大于别的一种分类。
以对否恶性肿瘤(癌症)的分类为例,我们渴望能依据病人的一些特性推断病人对否患有癌症(y=1表现有癌症,y=0表现没有癌症)。
我们用逻辑回归算法来处理成绩,发觉在测试集有99%的准确率,这个后果看上去很完善。但是,你要晓得患有癌症的毕竟是少数,约莫在我们的测试会合仅有0.5%的人真的患有癌症。
如此的话,你就晓得我们的算法有多离谱了。由于,假如我们不管三七二十一全部给猜测为y=0(没有癌症),那也仅有0.5%的错误。
像外表这种某一种分类占比特别大的情况,被称为偏斜类。很分明,关于偏斜类的偏差度量必要优化。
偏斜类的偏差度量
前方癌症推断谁人例子中,假定我们接纳了一些办法将算法从99.2%的准确率提升到99.5%的准确率,那我们对算法的这些改良对否好效呢?这是比力难推断的。
当我们碰到偏斜类时,常常使用查准率(Precision)和召回率(recall)的看法。这两个看法实用于二分类成绩。
关于一个二分类成绩,猜测后果和实践后果有四种组合。
- 实践为1,猜测为1;True positive, TP
- 实践为0,猜测为1;False positive, FP
- 实践为1,猜测为0;False negative, FN
- 实践为0,猜测为0;True negative, TN
T开头表现猜测准确(原本为真、猜测为真TP;原本为假、猜测为假TN),F开头表现猜测错误(原本为假,猜测为真FP,本例为真,猜测为假FN)。
查准率Precision的意思是,TP/(TP+FP)。就是你一切猜测为真那些样本中,猜测准确的样本的占比。癌症谁人例子就是,算法以为的一切癌症患者中真正的癌症患者占比是几多。查准率越高越好。
召回率Recall的意思是,TP/(TP+FN)。这个意思是,你猜测为真并且准确的数目在实践为真的数目中的占比。癌症的谁人例子就是,实践患有癌症的患者被算法告捷筛查出来的比例。召回率固然是越高越好。
回到前方的例子再来看看,假如我们不管三七二十一,都以为患者没有癌症,准确率99.5%。那如此做的召回率就是0,固然这个算法就毫偶然义了。
如此,假如一个算法同时有较好的查准率和召回率,那这个算法就照旧不错的。注意:使用查准率和召回率的时分,我们让谁人显现比力少的情况为1(y=1显现较少)。