文档介绍：该【基于改进区域推荐网络的多尺度目标检测算法】是由【司棋夸克】上传分享，文档一共【6】页，该文档可以免费在线阅读，需要了解更多关于【基于改进区域推荐网络的多尺度目标检测算法】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。2021年5月安庆师范大学学报(自然科学版)
第27卷第2期JournalofAnqingNormalUniversity(NaturalScienceEdition)
基于改进区域推荐网络的多尺度目标检测算法
张莉,孙克雷
(安徽理工大学计算机科学与工程学院,安徽淮南232001)
摘要:输入图像尺度不一导致在复杂背景上基于深度学****的目标检测算法存在检测速度慢和检测精度低的问题。
为了解决这些问题,基于更快区域卷积网络,提出一种包含区域网络、特征提取和区域分类3个模块的目标检测算法。
首先通过感兴趣区域提取网络RPNS和RPNB,得到带有对象得分的矩形目标推荐;再利用多尺度和多高宽比的锚点框计
算并提取每个推荐的局部特征;最后用剔除重叠度(Degreeofoverlap,DOL)设置阈值进行分类和回归。实验结果表明,
该算法在多尺度目标的图像上有更好的鲁棒性,平均准确度均值(meanAveragePrecision,mAP)%,多尺度目标检
测性能有所提升。
关键词:区域推荐算法;特征提取;目标检测;锚点DOI:.cn34-1328/
中图分类号::A文章编号:1007-4260(2021)02-0026-06
ResearchonMulti-scaleTargetDetectionAlgorithmBasedonFasterR-CNN
ZHANGLi,SUNKelei
(SchoolofComputerScienceandEngineering,AnhuiUniversityofScienceandTechnology,Huainan232001,China)
Abstract:Duetothedifferentscalesoftheinputimages,thetargetdetectionalgorithmbasedondeeplearninghasa
,thispa-
perproposesatargetdetectionalgorithm,basedonthefasterregionalconvolutionalnetwork,whichincludesthreemodules:
regionalnetwork,,thealgorithmusestheregionalextractionnetworks
-
turesofeachrecommendationbymulti-scaleandmulti-,thedegreeofoverlapisusedtosets
-
agesofmultiplescalesandlocations,%,andthemulti-scaletargetdetectionperfor-
mancebecomesbetter.
Keywords:regionrecommendationalgorithm;featureextraction;objectdetection;anchorpoints
在对物体和场景的识别中,多尺度目标检测是指准确定位出图像中用户感兴趣的目标(该目标具有
尺度不一的特性),并能准确判断出每个目标的类别、边界框的位置和大小[1]。由于目标检测任务中的目
标存在较大的尺度变化,所以算法能精确框选出大小不一的目标框的问题亟待解决。区域卷积网络[2]
(Region-ConvolutionalNeuralNetworks,R-CNN)、金字塔池化网络[3(]SpatialPyramidPoolingNetwoks,
SPPNet)、你只看一次网络[4(]YouLookOnlyOnce,YOLO)、单次检测器[5(]SingleShotMultiBoxDetector,
SSD)和基于区域的快速CNN[8(]FasterRegion-ConvolutionalNeuralNetworks,FasterR-CNN)等算法相继
被提出。2015年,RGirshickj提出FastR-CNN,利用感兴趣区域(RegionsofInterest,RoI)提高目标检测质
收稿日期:2020-05-12
作者简介:张莉(1995—),女,江苏泰州人,安徽理工大学计算机科学与工程学院硕士研究生,研究方向为图像识别和目标检测。
E-mail:*************@
万方数据
第2期张莉,孙克雷:基于改进区域推荐网络的多尺度目标检测算法·27·
量,减少目标检测的运行时间[2]。2014年,KHe等提出更新金字塔网络层(SpatialPyramidPooling,SSP),
SSP层之前的卷积层和检测器无法共享卷积特征,从而限制了检测精度的提升[3]。2016年,JRedmon提
出的YOLO运行速度可达每秒155帧图像,目标检测平均准确度均值mAP较高[4],但是YOLO的单元格
仅预测两个边界框,且属于同一类别,故对于小目标的检测YOLO的检测精度下降。2016年,WLiu提
出单次检测器SSD算法,它以牺牲检测精度为代价来提高检测速度[5],但在识别被放大的小物体时检测
精度明显下降。综上所述,当下流行的目标检测算法在小尺度物体的目标检测场景有较好的检测效果;
对于多尺度目标检测,受候选区域推荐和区域分类方法的影响,在检测极大或极小的目标物体时检测效
果差强人意。
针对多尺度输入的图像既要检测精度高又要检测速度快,本文提出在FasterR-CNN的基础上对多
尺度目标检测算法进行改进。针对目标检测速度慢的问题,提出基于改进的区域生成网络(RegionPro-
posalNetwork,RPN),用候选区域网络RPNS和RPNB得到带有对象得分的矩形目标推荐;针对存在小目
标检测精度低的不足,设置多尺度和多高宽比的锚点框计算并提取每个推荐的局部特征,用DOL设置
阈值进行分类和回归。
1R-CNN算法
目标检测算法的主要思想是从图像中检测并定位多个特定目标。R-CNN采用端到端的方式训练
CNN,其检测过程包含区域推荐、特征提取和区域分类[6]。R-CNN的成功在于两点:利用了卷积神经网
络良好的特征提取性能;利用了有监督预训练、领域相关微调和目标类别分类3个有效训练步骤[7]。但
计算量大、标注数据稀少,这导致了R-CNN检测速度很慢。基于R-CNN的目标检测过程如图1所示,首
先输入一幅图像,然后自底向上提取推荐区域,并变化为固定大小的推荐区域,再用卷积神经网络计算
每个推荐区域的特征,最后用支持向量机对推荐区域进行分类。
WrapedregionDog?no
Cat?yes
Bird?No
lnputlmageExtraregionComputeCNNClassify
proposalfeaturesregions
图1R-CNN的目标检测过程
2FastR-CNN算法
针对训练过程中R-CNN标注数据稀少,研究人员提出在输入图像之后加入感兴趣区域RoI。RoI在
FastR-CNN结构中指卷积特征图中的一个矩形窗口,包含参数:左上角坐标(r,c)、高度和宽度(h,w),把
这些参数放在一起定义一个四元数组(r,c,h,w)。RoI池化是利用最大池化把所有的RoI都转变成具有
固定大小空间H×W的特征图,其中H、W是指层超参数,独立于任何特定的RoI。RoI最大池化的具体
实现过程:先将h×w大小的RoI窗口划分成H×W个大小约(h/H)×(w/W)的子窗口,再把每个窗口的
数字最大池化到相应的输出单元。预训练FastR-CNN会使用一个训练过的深层卷积神经网络来初始
化。FastR-CNN的目标检测过程如图2所示。由于每个RoI均有softmax概率和边框回归偏移两个输出
向量,解决了R-CNN在训练过程中存在的标注数据稀少的问题,缩减了时空费用,并且提升了算法的检
测精度。但是,FastR-CNN因依赖耗时的RPN,多尺度目标检测效果不佳。
3改进的FasterR-CNN算法
为了克服区域推荐算法的局限,需要对FastR-CNN算法进一步改进[8-10]。众所周知,FastR-CNN算
法的缺陷在于对目标位置的假设不准确[11-14],故首当其冲要解决的就是区域推荐算法RPN,用微调RPN
的策略来解决算法产生的时空代价,从而解缓FastR-CNN在目标检测过程中因使用耗时的区域推荐算
啊卿乱万方数据
·28·安庆师范大学学报(自然科学版)2021年
法而产生检测速度慢和目标检测精度不高的问题。通过区域推荐算法,FasterR-CNN在面向多尺度、多
目标的图像进行目标检测时检测精度相对高。实验中使用基于RoI的检测器模块,加入候选框重叠度
DOL,该公式的核心是分别计算出大目标与小目标候选框的重叠面积和单独一个小目标的候选框面积,
若前者超过后者的θ倍,就把相应的小目标候选框删除,从而达到减少目标检测时间和提升算法对不同
尺度目标的检测效果。
输出:边框
softmax回归器
RoI池化层
卷积池化全连接层全连接层
RoI投影
全连接层
感兴趣区对每个
输入图像卷积特征图特征向量感兴趣区域
图2FastR-CNN的目标检测过程

SB分类器
传统的FasterR-CNN算法在目标检测时,首先将要进行
目标检测的图片输入到网络中,通过卷积层的卷积操作,产生
不同尺度的特征图(Featuremap),特征图一部分直接送到分推荐
类器进行分类,另一部分经过区域推荐网络RPN,生成多个推
荐对象,分类器对推荐对象按照一定的分类标准进行分类。
在此过程中,需对所有可能的候选框进行判别,这与依赖区域区域推荐网络
RPN
推荐网络来提供目标的精确位置有关,且为了提高准确率,需
特征图
位置精修,最终的候选框相对稀疏,导致基于FasterR-CNN的
目标检测算法在速度上不能满足实时性的要求。FasterR-
CNN的目标检测过程如图3所示。
针对多尺度问题,设计两个具有不同锚点的区域生成网卷积层
络RPNS和RPNB。相比传统的网络用SelectiveSearch来提取
候选框,用RPN和RPN来提取候选框一方面节约了时间成
SB图3FasterR-CNN的目标检测过程
本,另一方面可作为卷积网络的一部分融入到网络结构中。
区域推荐网络的运作机制:输入由卷积层得到的共享特征图,通过滑动窗口(SlidingWindow)得到不同
通道的特征图,实验中将滑动窗口设置为3×3。RPNS通过3×3的滑动窗口得到一个通道为256的特征
图,RPNB通过3×3的滑动窗口得到一个通道为512的特征图。区域推荐网络后,做两次全连接(Full
Connection)操作,一个全连接操作得到2个分数,另一个全连接得到4个坐标。2个分数对应目标图像的
物体分数和背景分数,4个坐标是相对原图坐标的偏移量。最后,结合不同规格的锚点,得到用户需要的
候选框。
本文的网络结构参考了MSOFasterR-CNN[1]网络结构,针对小尺度目标,在Convolutional5后,得到
小尺寸特征图(SmallFeatureMap,SmallFM),采用3×3的滑动窗口选取对象,RPNS在此负责预测被放
大的小物体,经过2次全连接操作得到维数为256的低维特征向量。与文献[1]不同的是,经过滑动窗口
后,得到2k个分数和4k个坐标。SmallFM通过RoIPooling和3次全连接操作转化为维度一致的特征
向量进行回归(Regression,REG)、分类(Classification,CLS),锚点尺寸分别设置为22×22、32×32、45×45
和64×64。针对大尺度目标,方法相同,不同的是锚点尺寸分别设置为128×128、256×256和512×512。
万方数据
第2期张莉,孙克雷:基于改进区域推荐网络的多尺度目标检测算法·29·
RPNB负责预测被缩小的大物体,这样真实的物体尺度分布在较小的区间内,避免了极大或者极小的物
体。改进的MSOFasterR-CNN的网络结构如图4所示。
图4改进的MSOFasterR-CNN的网络结构
对于一个锚点的情况,分类损失函数Lcls和回归损失函数Lreg的定义分别为:
∗∗∗
Lcls(pi,pi)=pilogpi+(1-pi)log(1-pi),(1)
L=smooth(t-t∗)=smooth(x-x∗)+smooth(y-y∗)+
regL1iiL1iiL1ii
∗∗
smoothL(wi-wi)+smoothL(hi-hi),
11(2)
其中i是一个锚点索引,被用来定位锚点的位置,pi锚点i被预测为目标的概率值,向量ti=(ti,x,ti,y,ti,w,ti,h)
∗∗∗∗∗∗
[14]
表示预测边框坐标,向量ti=(ti,x,ty,x,tw,x,th,x)表示正锚点真实边框坐标。ti和ti的各分量还满足
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(wwa),th=log(hha),(3)
∗∗∗∗∗∗∗∗
tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(wwa),th=log(hha),(4)
∗
其中,参数x、y、w和h分别代表边框的横坐标、纵坐标、宽和高。变量x、x和xa分别代表预测边框、真实
边框和锚点边框的相应坐标值(变量y、w、h的情况类似)。对于多个锚点的情况,分类层cls和回归层输
出分别由{pi}和{ti}组成,将归一化分类损失函数LNCLS、归一化回归损失函数LNREG和总体加权损失函数
L分别定义为:∑
1∗
L({p},{t})=L(p,p),(5)
NCLSiiNclsii
clsi∑
1∗∗
L({p},{t})=pL(t,t),(6)
NREGiiNiregii
∑regi∑
⋅1∗1∗∗
L({p},{t})=L+λL=L(p,p)+λpL(t,t),(7)
iiNCLSNREGNclsiiNiregii
clsiregi
其中,Ncls和Nreg分别用来归一化分类损失和回归损失,Ncls=256,Nreg=2400。参数λ用来在LNCLS和
LNREG之间加权平衡。默认λ=10,可使LNCLS和LNREG之间的平衡保持在比较合理的水平。
本文采用Softmax分类器加候选框重叠度进行筛选,删除超过候选框重叠度给定阈值的小目标候选
框,候选框重叠度
万方数据
斗◆专‰I铋I嗡山凇R簧埔籵一一口。。一善一∞口。一善一卜口。。一善一骸R簧埔籵畊寸口。一善一凇R簧埔籵畊.【口綺三.。山一一赹『,丁
·30·安庆师范大学学报(自然科学版)2021年
⋂
=a(b(l)b(s))
D,(8)
OLa(b(s))
其中a(·)为目标候选框面积,b(·)为目标候选框位置,l和s分别为大、小目标候选框。分子表示的是大
⋂
目标与小目标候选框的重叠面积,分母表示的是小目标候选框面积。若a(b(l)b(s))超过
a(b(s))的θ倍,就把符合公式要求的小目标候选框删除。
4实验

实验采用Intel(R)Core(TM)i5-******@、8GB内存和NVIDIAGeForceGTX1050with
Max-QDesign的硬件环境,框架是TensorFlow,开发语言是python。实验图片采用开源数据集Pascal
VOC2012,训练集和测试集的选取比例设置为8∶2,图片类别按相应比例随机分配。实验采用主干网络
VGG-16,训练方法首先用ImageNet预训练去初始化RPN,对RPN端到端的区域推荐任务微调,利用上
一步预训练的RPN生成的候选框建议滑动窗口(Slidingwindow)、感兴趣区域RoI池化、FullConnec-
tion、CLS和REG,再利用ImprovedFasterR-CNN检测网络初始化RPN训练,微调RPN的独有层,这里的
RPN包括RPNS和RPNB,最后保持共享卷积层不变,微调ImprovedFasterR-CNN的独有层。

实验对比参照了R-CNN、SPPNet、YOLO和SSD等经典且应用广泛的目标检测算法,实验评价指标
采用检测速度、平均精度(AveragePrecision,AP)和平均准确度均值(meanAveragePrecision,mAP)3个
指标。各算法在VOC2012上检测速度比较如表1所示。
由表1可以看出,ImprovedFasterR-CNN检测速度高于R-CNN、SPPNet和FasterR-CNN等,检测速
∙-
。区域卷积网络R-CNN的检
表1各算法的检测速度、mAP比较
测速度较低的原因是在推荐候选框的时候
∙-
运行在CPU上,而不是GPU。Improved算法检测速度(/帧s1)mAP(/%)
FasterR-CNN低于YOLO的原因是候选框ImprovedFasterR-
的选择是根据图像的不同尺度分别训练了R-

RPNS和RPNB,故检测速度慢于YOLO。
∙-FastR-
,优势是在训练
过程中简化候选框的生成过程,以牺牲检测FasterR-
精度来提高检测速度。
置以及类别的性能度量标准。
VOC2012上mAP值比较如表1所示。100
从表1可以看出ImprovedFasterR-CNN
的平均精度均值优于其他算法,与R-CNN相80
%,与SPPNet相比提高了
%,与FastR-%,与60
FasterR-%,与YOLO
%,与SSD相比提高了40
ImprovedFasterR-CNN
%。YOLO的平均准确度均值比较低的R-CNN
20FastR-CNN
原因在于它的网络结构在大尺度图像上的目FasterR-CNN
标检测性能表现较好,对于小尺度图像上的
0
目标检测表现效果不佳。
BoatSofaBirdDogCat
PlantChairPlantBottle
不同算法在VOC2012上平均精度APTelevition
的比较如图5所示。图5不同算法在VOC2012上平均精度AP的比较
万方数据
第2期张莉,孙克雷:基于改进区域推荐网络的多尺度目标检测算法·31·
由图5可以看出,ImprovedFasterR-CNN的单一目标类别的AP值优于R-CNN和FasterR-CNN,原
因是该算法针对大小尺度不同的目标设置了不同的共享卷积的感兴趣区域RPNS和RPNB,并且在特征
提取模块,为了更好地提取不同尺度目标的特征图,设置不同规格的锚点,使用归一化损失函数和归一
化分类函数进行区域分类。R-CNN和FastR-CNN算法的Bottle类和Plant类的平均精度AP低于40%是
因为对较小尺度的目标检测精度较低,FasterR-CNN的目标检测效果较R-CNN和FastR-CNN略好,但
对于检测Plant、Bottle和Chair等小类别目标时,其平均精度AP也在50%以下。ImprovedFasterR-CNN
在相同训练下,该算法不仅关注了尺度较大目标的检测,也关注到了小尺度目标的检测,在多尺度目标
的检测上有较好的表现力。
5总结
针对当前目标检测算法存在检测速度慢和面向多尺度目标时检测精度低的不足,提出了一种基于
改进区域推荐网络的多尺度目标检测算法,并在PascalVOC2012数据集上进行了相关实验,实验在特征
提取模块设置了不同规格的锚点,对于大目标的特征提取采用较少的锚点,对小尺度目标的特征提取采
用较多的锚点来确定预测框的坐标、高度和宽度值,这样可以在图像目标检测过程中,有选择的对输入
图像进行大小尺度的目标选择相应的感兴趣区域选取网络,提高算法精度的同时还能提升算法速度。
简言之,针对FasterR-CNN依赖耗时的推荐算法,本文提出在卷积层之后分别针对大尺度目标候选区域
选择的RPNB和针对小目标候选区域选择的RPNS,利用DOL将需要剔除的小目标候选框删除。在Pas-
calVOC2012数据集上的实验表明,ImprovedFasterR-CNN在检测速度和检测精度上表现了较好的性
能,在目标被遮挡或特征残缺的情况下,目标检测性和目标检测速度仍有很大的进步空间,收敛性和算
法的泛化能力还需加强。
参考文献:
[1]李晓光,付陈平,李晓莉,-CNN算法[J].计算机辅助设计与图形学学报,2019,31(7):1095-
1101.
[2]GIRSHICKR,DONAHUEJ,DARRELLT,[J].IEEE:
ComputerSociety,2013.
[3]HEK,ZHANGX,RENS,[J].IEEE:Transactionson
PatternAnalysis&MachineIntelligence,2014,37(9):1904-16.
[4]REDMONJ,DIVVALASK,GIRSHICKR,:unified,real-timeobjectdetection[C].ComputerVisionandPattern
Recognition,2016:779-788.
[5]LIUW,ANGUELOVD,ERHAND,:singleshotmultiboxdetector[C].EuropeanConferenceonComputerVision,2016:21-37.
[6]周苏,支雪磊,刘懂,[J].同济大学学报(自然科学版),2019,47(11):1626-1632.
[7]黄心汉,苏豪,彭刚,[J].华中科技大学学报(自然科学版),2017,45(10):7-11.
[8]RENS,HEK,GIRSHICKR,-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C].AdvancesinNeu-
ralInformationProcessingSystems,2015:91-99.
[9][D].南京:南京理工大学,2018.
[10]李东民,李静梁,大川,[J].自动化学报,2019,47(11):2058-2070.
[11]胡学刚,[J].计算机工程与设计,2019(9):180-185,245.
[12][D].南京:南京航空航天大学,2017.
[13]吴天舒,张志佳,刘云鹏,[J].红外与激光工程,2018,47(07):47-53.
[14]RUSSAKOVSKYO,DENGJ,SUH,[J].InternationalJournalofComputerVision,
2015,115(3):211-252.
万方数据