编辑: 黑豆奇酷 | 2019-07-06 |
1 Faster R-CNN 结构 Faster R-CNN 算法由区域建议网络 RPN 候选框提取模块和 Fast R-CNN 检测模块组成.其中,RPN 是全卷积神经网络,可用于提取候选框;
Fast R-CNN 用于检测 RPN 提取的候选框中的目标. 1.1 区域建议网络(RPN) RPN[14] 的基本思想是在特征图上找到所有可能的目标候选区域,它通过在原始的网络结构上添加卷 积层和全连接层来同时在每个位置上回归目标边界框和预测目标分数.RPN 采用的是滑动窗口机制,这个 滑动网络每次与特征图上的 3*3 窗口全连接,每个滑动窗口都会产生一个短的特征向量输入到全连接层 中进行位置和类别的判断,在每个滑动窗口位置同时预测多个候选区域,其中每个位置的预测候选区域 的数量为 k. 因此,回归层具有 4k 个输出,编码 k 个框的
4 个坐标,分类层输出 2k 个评分,预测每个 区域所属目标的概率和所属背景的概率.k 个候选框被参数化,称为 k 个锚点.为使算法更好地适用于 不同形状和尺寸的目标,网络将特征图上的每个位置设置多个锚点,以预测输入图像的不同尺度和不同 长宽比的候选区域. Vol.12 No.3 June
2019 中国科技论文在线精品论文
385 1.2 RPN 损失函数 损失函数的定义为 { } { } * * * cls reg cls reg
1 1 , , , i i i i i i i i i L L L N N = + ∑ ∑ P t P P P t t , (1) 上述公式分为两部分, 第一部分是分类损失, 第二部分为边框回归损失. 其中, Ncls 为mini-batch 的大小;
Nreg 为锚位置的数目;
i P 为以锚预测为目标的概率, * i P 为类别标签(目标和非目标) .与任意真实目标 区域框包围盒的交并比(intersection over union,IOU)大于 0.7, ( ) *
1 i P = 为正标签;
与任意真实目标区 域框包围盒的 IOU 小于 0.3,( ) *
0 i P = 为负标签.其中, { } , , , i x y w h t t t t = t 为一个向量,表示预测参数化候 选框的坐标. * i t 与it维度相同,表示锚相对实际的偏移量. i t 和*it的定义如式(2)所示: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) a a a a a a * * * * a a a a * * * * a a , , / / log / log / / / log / log / , , x y w h x y w h t x x w t y y h t w w t h h t x x w t y y h t w w t h h = ? = ? = = = ? ? = ? = = ? ? ? ? ? ? ? ? , , , , (2) 其中,(x, y)为包围盒的中心点坐标;
(xa, ya)为候选框的坐标;
( * * , x y )为真实区域的包围盒坐标,w 和h为包围盒的宽和高.算法的目的在于找到一种关系将原始框 P 映射到与真实框 G 更接近的回归框........