在计算机视觉和目标检测中,常用的评估方法是mAP。它是什么,如何计算?
引文摘自上述Zisserman论文-4.2结果评估(第11页):
首先,“重叠标准”定义为大于0.5的交叉重叠。(例如,如果预测的盒子相对于地面真盒子满足此标准,则视为检测)。然后使用这种“贪婪”方法在GT盒和预测盒之间进行匹配:
将一种方法输出的检测结果分配给满足重叠标准的地面真实对象,并按(递减)置信度输出进行排序。图像中对同一对象的多次检测被认为是错误检测,例如,将单个对象的5次检测计为1次正确检测和4次错误检测
因此,每个预测的框都是True或False。每个地面真理框都是“正正”的。没有真否定词。
然后,通过平均精度召回范围为[0,0.1,...,1]的精度召回曲线上的精度值(例如11个精度值的平均值)来计算平均精度。更精确地说,我们考虑稍微校正的PR曲线,其中对于每个曲线点(p,r),如果存在不同的曲线点(p',r'),使得p'> p并且r'> = r ,我们用这些点的最大p'替换p。
对我来说,仍不清楚的是那些从未被检测到的GT盒(即使置信度为0)如何处理。这意味着存在某些召回值,精确度-召回曲线将永远无法达到,这使得上述平均精确度计算不确定。
编辑:
简短的答案:在无法召回的区域中,精度降至0。
一种解释的方法是假设当置信度的阈值接近0时,整个图像将无数个预测的边界框点亮。然后,精度立即变为0(因为只有有限数量的GT盒),并且召回率在此平坦曲线上不断增长,直到达到100%。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句