2022-06-24

Single Shot MultiBox Detector (SSD)

单个网络
将 bounding box 的输出离散为默认框 anchor，有预知的宽高比和尺寸
对每个默认框打分，并且做 bounding box regression
结合不同分辨率的预测来处理多尺寸的问题

此前已经用过的技巧·

金字塔结构，大分辨率的用来检测小物体，小分辨率用来检测大物体
采用 anchor box
- 将 feature map 分成许多格子，每个格子设定固定大小和比例的先验检测框 anchor

网络结构·

Atrous Algorithm（Dilated Convolution膨胀卷积、空洞卷积）·

损失函数·

和Faster RCNN的基本一样，由分类和回归两部分组成，回归部分的loss是希望预测的box和prior box的差距尽可能跟ground truth和prior box的差距接近，这样预测的box就能尽量和ground truth一样。总损失是置信度损失和位置损失的加权和总误差

数据扩增·

为了使模型对各种输入目标大小和形状更鲁棒，每张训练图像都是通过以下选项之一进行随机采样的：1.直接使用整个原始输入图像。 2.采样一个patch（就是feature map 上裁下来一部分，使得与目标之间的最小Jaccard overlap重叠为0.1，0.3，0.5，0.7或0.9。 3.水平翻转：以0.5的概率进行水平翻转 4.光度失真： Some improvements on deep convolutional neural network based image classification中提出的