（转）基于深度学习的物体检测-白红宇

本文转自：http://www.cosmosshadow.com/ml/%E5%BA%94%E7%94%A8/2015/12/07/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B.html

物体检测

Index

RCNN

早期，使用窗口扫描进行物体识别，计算量大。

RCNN去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。

原始图片通过Selective Search提取候选框，约有2k个

侯选框缩放成固定大小

经过CNN

经两个全连接后，分类

Fast RCNN

RCNN中有CNN重复计算，Fast RCNN则去掉重复计算，并微调选框位置。

整图经过CNN，得到特征图

提取域候选框

把候选框投影到特征图上，Pooling采样成固定大小

经两个全连接后，分类与微调选框位置

Faster RCNN

提取候选框运行在CPU上，耗时2s，效率低下。

Faster RCNN使用CNN来预测候选框。

整图经过CNN，得到特征图

经过核为

提取出物体框后，采用Fast RCNN同样的方式，进行分类

选框与分类共用一个CNN网络

anchor box的设置应比较好的覆盖到不同大小区域，如下图:

一张

R-FCN

RCNN系列(RCNN、Fast RCNN、Faster RCNN)中，网络由两个子CNN构成。在图片分类中，只需一个CNN，效率非常高。所以物体检测是不是也可以只用一个CNN？

图片分类需要兼容形变，而物体检测需要利用形变，如何平衡？

R-FCN利用在CNN的最后进行位置相关的特征pooling来解决以上两个问题。

经普通CNN后，做有

普通CNN后，还有一个RPN(Region Proposal Network)，生成候选框。

假设一个候选框大小为

训练与SSD相似，正负点取一个常数，如128。除去正点，剩下的所有使用概率最高的负点。

YOLO

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。

YOLO则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。

把原始图片缩放成

运行单个CNN

计算物体中心是否落入单元格、物体的位置、物体的类别

模型如下:

把缩放成统一大小的图片分割成

每个单元格输出B个矩形框(冗余设计)，包含框的位置信息(x, y, w, h)与物体概率

每个单元格再输出C个类别的条件概率

最终输出层应有

x, y 是每个单元格的相对位置

w, h 是整图的相对大小

分类的概率

P (C l a s s) = P (C l a s s ∣ O b j e c t) \cdot P (O b j e c t)

在原论文中，S = 7，B = 2，C = 20，所以输出的单元数为

代价函数:

J = λ c o o r d \sum i = 0 S 2 \sum j = 0 B 1