Cascade-R-CNN

  • 主要解决了在目标检测中检测框不是特别准容易出现噪声干扰的问题
  • Cascade R-CNN就是使用不同的IOU阈值训练了多个级联的检测器

检测框不准最自然的想法就是提高 IoU 阈值然而实际中不能这么简单

mismatch 问题·

  • 在training阶段由于我们知道 ground truth所以可以很自然的把iou大于threshold0.5的Proposals作为正样本这些正样本参与之后的bbox回归学习
  • 在inference阶段由于我们不知道ground truth所以只能把所有的proposal都当做正样本让后面的bbox回归器回归坐标

我们可以明显的看到training阶段和inference阶段bbox回归器的输入分布是不一样的training阶段的输入proposals质量更高

提高了 IoU 阈值一方面满足条件的 proposal 数量下降很多容易过拟合另一方面 会产生更严重的 mismatch

实验·

img

©图中横轴表示RPN的输出proposal的IoU纵轴表示proposal经过box reg的新的IoU可以得出以下结论

  • 只有proposal自身的阈值和训练器训练用的阈值较为接近的时候训练器的性能才最好

单一阈值不能对所有的 proposal 都有很好的效果

所以考虑多阈值的 multi-stage 的结构

img