黃志堅 張成 王慰慈
摘要:
為解決船舶圖像與視頻檢測算法識別率低、實時性差的問題,提出基于回歸深度卷積網(wǎng)絡(luò)的船舶圖像與視頻檢測方法。結(jié)合YOLOv2特征提取層和YOLOv3的特征金字塔網(wǎng)絡(luò)(feature?pyramid?network,?FPN)?層思想設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu),驗證不同激活函數(shù)效果,采用聚類算法設(shè)計錨框大小。實驗表明,相比于YOLO系列網(wǎng)絡(luò),本文的方法在船舶圖像與視頻檢測中效果更好,在測試集上平均精度均值為0.920?9,召回率為0.981?8,平均交并比為0.799?1,在視頻檢測中每秒鐘檢測的幀數(shù)為78~80。為港口船舶智能管理和無人船視覺處理提供一種準確度高和實時性好的船舶檢測方法。
關(guān)鍵詞:
船舶檢測;?回歸深度卷積網(wǎng)絡(luò);?YOLO;?港口管理;?無人船
中圖分類號:U675.79文獻標志碼:A
收稿日期:?2018-11-07
修回日期:?2019-03-01
基金項目:?國家自然科學(xué)基金(61403250)
作者簡介:
黃志堅(1979—),男,江西九江人,高級工程師,博士,研究方向為控制算法,(E-mail)zjhuang@shmtu.edu.cn
Ship?image?and?video?detection?based?on?regression
deep?convolutional?network
HUANG?Zhijian1,?ZHANG?Cheng1,?WANG?Weici2
(1.Merchant?Marine?College,?Shanghai?Maritime?University,?Shanghai?201306,?China;
2.The?711st?Research?Institute,?China?Shipbuilding?Heavy?Industry?Group,?Shanghai?201108,?China)
Abstract:
In?order?to?solve?the?problems?of?low?recognition?rate?and?poor?real-time?performance?of?ship?image?and?video?detection?algorithm,?a?ship?image?and?video?detection?method?based?on?the?regression?deep?convolutional?network?is?proposed.?Combining?the?YOLOv2?feature?extraction?layer?and?the?YOLOv3?feature?pyramid?network?(FPN)?layer,?a?new?network?structure?is?designed,?the?effects?of?different?activation?functions?are?verified,?and?the?anchor?size?is?designed?by?the?clustering?algorithm.?Experiments?show?that,?compared?with?the?YOLO?series?network,?the?proposed?method?is?better?in?ship?image?and?video?detection.?The?mean?average?precision?on?the?test?set?is?0.920?9,?the?recall?rate?is?0.981?8,?the?mean?intersection?over?union?is?0.799?1,?and?the?number?of?frames?detected?per?second?is?78?to?80?in?the?video?detection.?It?provides?a?ship?detection?method?with?high?accuracy?and?good?real-time?performance?for?port?ship?intelligent?management?and?unmanned?ship?visual?processing.
Key?words:
ship?detection;?regression?deep?convolutional?network;?YOLO;?port?management;?unmanned?ship
0?引?言
隨著我國經(jīng)濟飛速發(fā)展,以及對外貿(mào)易日益增長,航運事業(yè)的發(fā)展也開始向智能化邁進。借助于計算機視覺的船舶圖像與視頻檢測已開始在港口監(jiān)管服務(wù)以及無人船中應(yīng)用。準確快速的檢測方法,不僅對港口管理具有重要的意義,也能夠保障無人船的安全行駛。
傳統(tǒng)的船舶圖像與視頻檢測分類方法多是基于船舶結(jié)構(gòu)形狀進行人工特征設(shè)計的方法:2014年蔣少峰等[1]提出基于結(jié)構(gòu)特征的商用船舶分類算法;2016年YKSEL等[2]從三維船舶模型的輪廓圖像中提取了船舶特征。這些研究雖然取得了較好的效果,但是在環(huán)境背景復(fù)雜、船體差異小的情況下不能得到較好的效果,且對船舶的多分類情況識別率不理想。
相對于傳統(tǒng)的船舶圖像與視頻檢測分類方法,深度卷積神經(jīng)網(wǎng)絡(luò)以其優(yōu)越的性能在船舶檢測分類應(yīng)用中的地位越來越重要:2016年RAINEY等[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對衛(wèi)星船舶的分類;2017年戚超等[4]用8層卷積神經(jīng)網(wǎng)絡(luò)與支持向量機結(jié)合實現(xiàn)了對船舶的精細分類;2018年王新立等[5]通過改進卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了船舶的目標檢測。這些利用深度卷積神經(jīng)網(wǎng)絡(luò)的船舶檢測分類方法都取得了不錯的效果。
隨著工程應(yīng)用中對船舶檢測分類的準確率和實時性的要求不斷提高,本文提出基于回歸深度卷積網(wǎng)絡(luò)的船舶圖像與視頻檢測方法,結(jié)合YOLO[6-8]系列網(wǎng)絡(luò),通過端到端的訓(xùn)練,最終在7類船舶圖片上實現(xiàn)了定位精度高、平均準確率高、檢測速度快的效果。
1?深度卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)最早是由加拿大多倫多大學(xué)的LeCun教授提出的,主要用于圖像的識別。經(jīng)過十多年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度不斷增加,圖像識別的準確率也不斷提高。常用的卷積神經(jīng)網(wǎng)絡(luò)包括Lenet-5[9]、AlexNet[10]、VGG[11]、GoogLenet[12]、ResNet[13]和DenseNet[14]等。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)見圖1,主要由輸入層、卷積層、池化層、全連接層和輸出層組成。
1.1?輸入層
輸入層的功能是接收輸入圖像,并存儲為矩陣
形式。假定卷積神經(jīng)網(wǎng)絡(luò)有L層,由x(l)代表第l層的特征,l=1,2,…,L。其中x(l)又由多個特征圖組
成,可表示為x(l)=x(l)1,
x(l)2,…,x(l)j,j表示第l層的特征圖數(shù)量,彩色圖像對應(yīng)的特征表示為
x(1)=x(1)1,x(1)2,
x(1)3,其中x(1)1、x(1)2和
x(1)3分別表示R、G和B通道的數(shù)據(jù)。
1.2?卷積層
卷積層的作用是通過卷積操作提取特征。經(jīng)過合適的設(shè)計,隨著卷積層的增加,網(wǎng)絡(luò)的特征表達能力增強。
第l層卷積層的特征圖x(l)j通過以下方式計算:
式中:k(l)i,j和b(l)j分別表示卷積核和卷積層的偏移量;
G(l)i,j表示該卷積層與前一層特征圖之間的連接矩陣,
G(l)i,j取1時x(l-1)i與x(l)j相關(guān)聯(lián),取0時無關(guān)聯(lián);符號代表卷積操作;函數(shù)f(·)表示激活函數(shù)。
1.3?池化層
池化層一般設(shè)在卷積層后面,池化操作保持了一定的空間不變性,第l層的池化層的特征圖x(l)j計算式為
x(l)j=px(l-1)j(2)
式中:p(·)表示池化操作。
1.4?全連接層
全連接層設(shè)置在特征提取層后面,將提取的深層特征映射為特征向量,全連接層之間的特征向量x(l)?計算式為
x(l)=fw(l)x(l-1)+b(l)(3)
式中:w(l)表示權(quán)重;b(l)表示偏移量;f(·)表示激活函數(shù)。
1.5?損失函數(shù)
卷積神經(jīng)網(wǎng)絡(luò)通過前向傳播獲得預(yù)測值,通過損失函數(shù)計算預(yù)測值的誤差,在圖像分類中常用的損失函數(shù)交叉熵損失計算式為
C=-1nxyln?+(1-y)ln(1-)
(4)
式中:x表示樣本;y表示預(yù)測的輸出;表示實際輸出;n表示樣本總數(shù)量。
2?本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)
常用的深度卷積神經(jīng)網(wǎng)絡(luò)可以分為兩類:(1)基于區(qū)域提名的RCNN(region-based?convolutional?neural?network)[15]、Fast-RCNN[16]和Faster-RCNN[17]等;(2)基于回歸的ssd[18]、YOLO[6]、YOLOv2[7]和YOLOv3[8]等?;诨貧w的深度卷積神經(jīng)網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)作為回歸器,將待檢測圖像看成一個候選區(qū)輸入卷積神經(jīng)網(wǎng)絡(luò),回歸目標在待檢測圖像中的位置信息,通過端到端的訓(xùn)練,快速獲得最終的邊界框和分類結(jié)果。
本次研究結(jié)合目前流行的回歸深度卷積網(wǎng)絡(luò)YOLO系列,針對YOLOv2檢測效果不理想以及YOLOv3網(wǎng)絡(luò)龐大、訓(xùn)練識別速度慢的缺點,利用YOLOv2的特征提取層和YOLOv3的特征金字塔(feature?pyramid?network,F(xiàn)PN)層思想設(shè)計新的網(wǎng)絡(luò),驗證不同激活函數(shù)的效果,采用聚類算法設(shè)計錨值,在船舶圖像與視頻檢測上取得了較高的準確率和良好的實時性。研究得到的的網(wǎng)絡(luò)結(jié)構(gòu)見圖2。該網(wǎng)絡(luò)主要由3部分組成:特征提取層、FPN層和預(yù)測層,具體介紹如下。
由表2可知:本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)在3個評價指標上均超過了其他兩個網(wǎng)絡(luò)。
3.3?激活函數(shù)的有效性驗證
為測試激活函數(shù)的影響,結(jié)合本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),選取Relu、Elu和Leaky-Relu激活函數(shù)作為對比,在測試集上得到表3所示的結(jié)果。由于Leaky-Relu激活函數(shù)檢測效果更好,且比Elu激活函數(shù)的運算量更小,故選取Leaky-Relu作為激活函數(shù)。
3.4?網(wǎng)絡(luò)效果展示
為達到更好的網(wǎng)絡(luò)效果,在訓(xùn)練網(wǎng)絡(luò)時,首先加載使用Imagenet[19]數(shù)據(jù)集預(yù)訓(xùn)練得到的特征提取層權(quán)重參數(shù),然后繼續(xù)訓(xùn)練本文設(shè)計的網(wǎng)絡(luò)和YOLOv3、YOLOv2。通過在測試集上進行測試以及對視頻進行測試,最終得到的結(jié)果見表4。
可以看出,本文設(shè)計的網(wǎng)絡(luò)在使用預(yù)訓(xùn)練權(quán)重時平均精度均值稍低于YOLOv3,但是其他指標均優(yōu)于YOLOv3,尤其在視頻檢測速度上比YOLOv3的優(yōu)勢更明顯。本文設(shè)計的網(wǎng)絡(luò)除視頻檢測速度略低外,其他各項指標均優(yōu)于YOLOv2。本文設(shè)計的網(wǎng)絡(luò)檢測效果代表性結(jié)果見圖5。
用本文設(shè)計的網(wǎng)絡(luò)對一張有多艘漁船的圖片進行檢測,并與用YOLOv3和YOLOv2檢測得到的結(jié)果做對比。由圖6可知,本文設(shè)計的網(wǎng)絡(luò)取得了更好的效果。
4?結(jié)束語
基于計算機視覺中目標檢測技術(shù)的理論基礎(chǔ),結(jié)合回歸深度卷積網(wǎng)絡(luò)YOLO系列,利用YOLOv2和YOLOv3各自的優(yōu)勢,設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu),驗證不同激活函數(shù)對檢測效果的影響,聚類產(chǎn)生錨值大小,將得到優(yōu)化的回歸深度卷積網(wǎng)絡(luò)用于對船舶圖像與視頻的檢測,為港口智能化管理和無人船的安全行駛提供了可靠性強、實時性好的視覺信息處理方法。盡管受限于數(shù)據(jù)集,只做了7種類別的檢測,但本文的方法具有一定的指導(dǎo)意義。
參考文獻:
[1]蔣少峰,?王超,?吳樊,?等.?基于結(jié)構(gòu)特征分析的COSMO-SkyMed圖像商用船舶分類算法[J].?遙感技術(shù)與應(yīng)用,?2014,?29(4):?607-615.?DOI:?10.11873/j.issn.1004-0323.2014.4.0607.
[2]YKSEL?G?K,?YALITUNA?B,?TARTAR??F,?et?al.?Ship?recognition?and?classification?using?silhouettes?extracted?from?optical?images[C]//Signal?Processing?and?Communication?Application?Conference.?IEEE,?2016:?1617-1620.?DOI:?10.1109/SIU.2016.7496065.
[3]RAINEY?K,?REEDER?J?D,?CORELLI?A?G.?Convolution?neural?networks?for?ship?type?recognition[C]//Automatic?Target?Recognition?XXVI.?International?Society?for?Optics?and?Photonics,?2016,?9844:?984409.
[4]戚超,?王曉峰.?基于卷積神經(jīng)網(wǎng)絡(luò)的運輸船舶分類識別方法[J].?微型機與應(yīng)用,?2017,?36(17):?52-55.?DOI:?10.19358/j.issn.1674-7720.2017.17.015.
[5]王新立,?江福才,?寧方鑫,?等.?基于改進卷積神經(jīng)網(wǎng)絡(luò)的船舶目標檢測[J].?中國航海,?2018,?41(2):?41-45.?DOI:?CNKI:SUN:ZGHH.0.2018-02-009.
[6]REDMON?J,?DIVVALA?S,?GIRSHICK?R,?et?al.?You?only?look?once:?unified,?real-time?object?detection[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2016:?779-788.?DOI:?10.1109/CVPR.2016.91.
[7]REDMON?J,?FARHADI?A.?YOLO9000:?better,?faster,?stronger[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2017:?7263-7271.?DOI:?10.1109/CVPR.2017.690.
[8]REDMON?J,?FARHADI?A.?YOLOv3:?an?incremental?improvement[J].?arXiv:?1804.02767,?2018.
[9]LECUN?Y,?BOTTOU?L,?BENGIO?Y,?et?al.?Gradient-based?learning?applied?to?document?recognition[J].?Proceedings?of?the?IEEE,?1998,?86(11):?2278-2324.?DOI:?10.1109/5.726791.
[10]KRIZHEVSKY?A,?SUTSKEVER?I,?HINTON?G?E.?ImageNet?classification?with?deep?convolutional?neural?networks[J].?Communications?of?the?ACM,?2017,?60(6):?84-90.?DOI:?10.1145/3065386.
[11]SIMONYAN?K,?ZISSERMAN?A.?Very?deep?convolutional?networks?for?large-scale?image?recognition[J].?arXiv:?1409.1556,?2014.
[12]SZEGEDY?C,?LIU?Wei,?JIA?Yangqing,?et?al.?Going?deeper?with?convolutions[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2015:?1-9.?DOI:?10.1109/CVPR.2015.7298594.
[13]HE?Kaiming,?ZHANG?Xiangyu,?REN?Shaoqing,?et?al.?Deep?residual?learning?for?image?recognition[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2016:?770-778.?DOI:?10.1109/CVPR.2016.90.
[14]HUANG?Gao,?LIU?Zhuang,?VAN?DER?MAATEN?L,?et?al.?Densely?connected?convolutional?networks[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2017:?4700-4708.?DOI:?10.1109/CVPR.2017.243.
[15]GIRSHICK?R,?DONAHUE?J,?DARRELL?T,?et?al.?Rich?feature?hierarchies?for?accurate?object?detection?and?semantic?segmentation[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2014:?580-587.?DOI:?10.1109/CVPR.2014.81.
[16]GIRSHICK?R.?Fast?R-CNN[C]//Proceedings?of?the?IEEE?International?Conference?on?Computer?Vision.?IEEE,?2015:?1440-1448.?DOI:?10.1109/ICCV.2015.169.
[17]REN?Shaoqing,?HE?Kaiming,?GIRSHICK?R,?et?al.?Faster?R-CNN:?towards?real-time?object?detection?with?region?proposal?networks[C]//Advances?in?Neural?Information?Processing?Systems.?IEEE,?2015:?91-99.?DOI:?10.1109/TPAMI.2016.2577031.
[18]LIU?Wei,?ANGUELOV?D,?ERHAN?D,?et?al.?SSD:?single?shot?multibox?detector[C]//European?Conference?on?Computer?Vision.?Springer,?Cham,?2016:?21-37.?DOI:?10.1007/978-3-319-46448-0_2.
[19]RUSSAKOVSKY?O,?DENG?Jia,?SU?Hao,?et?al.?Imagenet?large?scale?visual?recognition?challenge[J].?International?Journal?of?Computer?Vision,?2015,?115(3):?211-252.?DOI:?10.1007/s11263-015-0816-y.
(編輯?賈裙平)