偏斜类的误差度量——查准率Precision和召回率recall的概念

偏斜类的偏差度量——查准率Precision和召回率recall的看法

本文是吴恩达《机器学习》视频条记第68篇,对应第6周第10个视频。

“Machine Learning System Design:——Error metrics for skewed classes”

前方两个末节讲了怎样快速用简便算法将流程跑通,给出了基本的偏差分析办法。这一节讲偏斜类成绩。

偏斜类

所谓的偏斜类(Skewed Class)的成绩,关于二元分类来说,但是就是一种分类的数据量远宏大于别的一种分类。

以对否恶性肿瘤(癌症)的分类为例,我们渴望能依据病人的一些特性推断病人对否患有癌症(y=1表现有癌症,y=0表现没有癌症)。

我们用逻辑回归算法来处理成绩,发觉在测试集有99%的准确率,这个后果看上去很完善。但是,你要晓得患有癌症的毕竟是少数,约莫在我们的测试会合仅有0.5%的人真的患有癌症。

如此的话,你就晓得我们的算法有多离谱了。由于,假如我们不管三七二十一全部给猜测为y=0(没有癌症),那也仅有0.5%的错误。

像外表这种某一种分类占比特别大的情况,被称为偏斜类。很分明,关于偏斜类的偏差度量必要优化。

偏斜类的偏差度量

前方癌症推断谁人例子中,假定我们接纳了一些办法将算法从99.2%的准确率提升到99.5%的准确率,那我们对算法的这些改良对否好效呢?这是比力难推断的。

当我们碰到偏斜类时,常常使用查准率(Precision)和召回率(recall)的看法。这两个看法实用于二分类成绩。

关于一个二分类成绩,猜测后果和实践后果有四种组合。

  1. 实践为1,猜测为1;True positive, TP
  2. 实践为0,猜测为1;False positive, FP
  3. 实践为1,猜测为0;False negative, FN
  4. 实践为0,猜测为0;True negative, TN

T开头表现猜测准确(原本为真、猜测为真TP;原本为假、猜测为假TN),F开头表现猜测错误(原本为假,猜测为真FP,本例为真,猜测为假FN)。

查准率Precision的意思是,TP/(TP+FP)。就是你一切猜测为真那些样本中,猜测准确的样本的占比。癌症谁人例子就是,算法以为的一切癌症患者中真正的癌症患者占比是几多。查准率越高越好。

召回率Recall的意思是,TP/(TP+FN)。这个意思是,你猜测为真并且准确的数目在实践为真的数目中的占比。癌症的谁人例子就是,实践患有癌症的患者被算法告捷筛查出来的比例。召回率固然是越高越好。

回到前方的例子再来看看,假如我们不管三七二十一,都以为患者没有癌症,准确率99.5%。那如此做的召回率就是0,固然这个算法就毫偶然义了。

如此,假如一个算法同时有较好的查准率和召回率,那这个算法就照旧不错的。注意:使用查准率和召回率的时分,我们让谁人显现比力少的情况为1(y=1显现较少)。

内容底部广告位(手机)
标签:

管理员
草根站长管理员

专注网站优化+网络营销,只做有思想的高价值网站,只提供有担当的营销服务!

上一篇:啥是OTA?为什么电动车OTA之后续航大幅缩减?
下一篇:返回列表