Cascade-R-CNN

检测框不准，最自然的想法就是提高 IoU 阈值，然而实际中不能这么简单：

mismatch 问题·

在training阶段，由于我们知道 ground truth，所以可以很自然的把iou大于threshold（0.5）的Proposals作为正样本，这些正样本参与之后的bbox回归学习。
在inference阶段，由于我们不知道ground truth，所以只能把所有的proposal都当做正样本，让后面的bbox回归器回归坐标。

我们可以明显的看到training阶段和inference阶段，bbox回归器的输入分布是不一样的，training阶段的输入proposals质量更高

提高了 IoU 阈值，一方面满足条件的 proposal 数量下降很多，容易过拟合，另一方面会产生更严重的 mismatch

单一阈值不能对所有的 proposal 都有很好的效果

所以考虑多阈值的 multi-stage 的结构