凌梓欽 徐昶悅 仇威 李志斌 張馨月
摘 ?要:隨著內(nèi)河水運(yùn)的不斷發(fā)展,內(nèi)河航運(yùn)船舶數(shù)量不斷增多,但是內(nèi)河船舶AIS設(shè)備安裝質(zhì)量參差不齊,這給監(jiān)管部門掌握區(qū)域內(nèi)航行船舶數(shù)量帶來困難。同時(shí),隨著計(jì)算機(jī)計(jì)算能力的提高與人工智能技術(shù)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)有了越來越多的應(yīng)用。本文提出了使用YOLO實(shí)時(shí)目標(biāo)檢測技術(shù),實(shí)現(xiàn)了對內(nèi)河中運(yùn)行的船舶進(jìn)行實(shí)時(shí)監(jiān)控并記錄。結(jié)果表明,該模型在測試集當(dāng)中的識(shí)別準(zhǔn)確率達(dá)到97.50%,在實(shí)際應(yīng)用當(dāng)中擁有識(shí)別速度快、實(shí)時(shí)性較好、準(zhǔn)確度較高的優(yōu)點(diǎn),擁有較好的應(yīng)用前景。
關(guān)鍵詞:目標(biāo)檢測;內(nèi)河船舶;卷積神經(jīng)網(wǎng)絡(luò);YOLO算法
0 引 言
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別技術(shù)的識(shí)別精度和速度在不斷提高。傳統(tǒng)的Fast-RCNN算法通過將圖片網(wǎng)格化,在滑動(dòng)窗口對圖像當(dāng)中的物體進(jìn)行識(shí)別[1],這一算法雖然確保了精度,但是檢測速度較慢,無法滿足實(shí)時(shí)檢測的需求。2016年,對圖像進(jìn)行一次性總體識(shí)別的You Only Look Once(下文稱YOLO)實(shí)時(shí)目標(biāo)檢測技術(shù)橫空出世,其標(biāo)準(zhǔn)版本在NVIDIA Titan X GPU當(dāng)中可以達(dá)到45 FPS的檢測速度與小于25 ms的檢測延遲,為實(shí)時(shí)目標(biāo)檢測提供了實(shí)現(xiàn)基礎(chǔ)。本文基于YOLOv1算法結(jié)合對內(nèi)河船舶流量監(jiān)控的實(shí)際運(yùn)用,實(shí)現(xiàn)了對內(nèi)河船舶的檢測與識(shí)別。
1 研究背景及意義
1.1 研究背景
目前,船舶流量采集的手段主要有船舶交通管理系統(tǒng)(VTS)、船舶自動(dòng)識(shí)別系統(tǒng)(AIS)、人工統(tǒng)計(jì)等。通過AIS系統(tǒng)采集流量是最廣泛的船舶流量采集手段。
楊浦海事局于2017年3月起開展了一次國內(nèi)航行船舶船載AIS專項(xiàng)檢查,現(xiàn)場檢查結(jié)果正常海船占比達(dá)87.76%, 內(nèi)河船僅為79.21%;檢查存在問題海船占比僅為12.24%, 內(nèi)河船為20.79%[2]。目前,在內(nèi)河航道運(yùn)行的船舶中存在著一部分私自建造并投入運(yùn)營的非標(biāo)準(zhǔn)船舶,而這些船舶是否按照有關(guān)規(guī)定配備AIS系統(tǒng)則無法判斷。
在AIS設(shè)備使用當(dāng)中,主要存在未保持AIS設(shè)備正常開機(jī)、AIS設(shè)備天線的未連接和安裝問題、B級AIS設(shè)備質(zhì)量較差等問題[2]。面對上述問題,傳統(tǒng)的船舶流量采集手段難以滿足需求,亟待技術(shù)革新,因此有必要開發(fā)高效的內(nèi)河船舶檢測算法。
1.2 本文的研究目標(biāo)及布局
本文的研究目標(biāo)是為實(shí)現(xiàn)對內(nèi)河中運(yùn)行的船舶進(jìn)行實(shí)時(shí)監(jiān)控并記錄。本文以YOLO實(shí)時(shí)目標(biāo)檢測技術(shù)為基礎(chǔ),通過網(wǎng)絡(luò)爬蟲從網(wǎng)上爬取照片,經(jīng)過人工標(biāo)記得到數(shù)據(jù)集,以此來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并擴(kuò)充了規(guī)模,得出了訓(xùn)練時(shí)損失函數(shù)變化率與置信度變化曲線,對船舶的監(jiān)測識(shí)別進(jìn)行優(yōu)化。本文先闡述了研究背景。進(jìn)而,通過網(wǎng)絡(luò)爬蟲給出了數(shù)據(jù)集,再通過一個(gè)仿真算例,對數(shù)據(jù)集進(jìn)行擴(kuò)充,得出訓(xùn)練后的識(shí)別結(jié)果。最后,本文提煉出最主要的創(chuàng)新點(diǎn),對全文進(jìn)行了總結(jié),并指出了下一步的研究方向。
2 YOLOv1實(shí)時(shí)目標(biāo)檢測技術(shù)基本原理
YOLOv1實(shí)施目標(biāo)檢測技術(shù)所創(chuàng)造的目標(biāo)識(shí)別系統(tǒng)將物體檢測的單獨(dú)組件集成到一個(gè)神經(jīng)網(wǎng)絡(luò)當(dāng)中,使用整個(gè)圖像的特征來預(yù)測每一個(gè)邊界框,同時(shí)預(yù)測所有類的所有邊界框,以保證能夠?qū)崿F(xiàn)端到端的訓(xùn)練和實(shí)時(shí)檢測速度。
2.1 YOLO的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)模型結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN) 是一種前饋神經(jīng)網(wǎng)絡(luò),使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程[3]。與傳統(tǒng)方法相比,卷積神經(jīng)網(wǎng)絡(luò)可以有效解決外界條件影響,更適合內(nèi)河船舶的目標(biāo)檢測。
卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和全連接層組成。卷積層與前一層的局部接受域相連,做卷積運(yùn)算并提取該局部區(qū)域的特征。池化層是對上一層的數(shù)據(jù)進(jìn)行抽樣或聚合,選擇該區(qū)域的最大值(或平均值)取代該區(qū)域,使數(shù)據(jù)的敏感度大大降低,同時(shí)也在保留數(shù)據(jù)信息的基礎(chǔ)上降低了數(shù)據(jù)的計(jì)算復(fù)雜度。全連接層在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到分類器的作用,將學(xué)到的分布式特征表示映射到樣本標(biāo)記空間。
YOLO的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)借鑒了GoogLeNet,擁有24個(gè)卷積層、2個(gè)全鏈接層[4],其中,卷積層負(fù)責(zé)提取圖像特征,而全連接層負(fù)責(zé)預(yù)測目標(biāo)位置以及物體類別,如圖1所示。
2.2 YOLO的檢測原理與損失函數(shù)結(jié)構(gòu)
在訓(xùn)練階段,系統(tǒng)在接到輸入圖像之后,首先將輸入圖像網(wǎng)格化為 N×N個(gè)網(wǎng)格。每一個(gè)網(wǎng)格產(chǎn)生B個(gè)邊界框(bounding boxes),以及邊界框的置信度 Ci(Confidence Score)。
置信度由如下公式定義[5]:
其中:
表征是否存在物體,存在 ? ? ? ? ? ? =1 ,不存在
=0
表征邊界框與實(shí)際框的交并比
并同時(shí)預(yù)測已知網(wǎng)格內(nèi)存在物體的情況下該物體為某個(gè)特定物體的條件概率 。從訓(xùn)練集標(biāo)簽中同時(shí)獲取對象位置 (xi,yi),邊界框?qū)捀撸╳i,hi),對象種類 代入損失函數(shù)[5]:
式中:
——代表網(wǎng)格i 當(dāng)中存在對象
——代表網(wǎng)格i的第j個(gè)邊界框當(dāng)中存在對象
——代表網(wǎng)格 的第j個(gè)邊界框中不存在對象
置信度損失是希望預(yù)測的類別更加準(zhǔn)確,位置損失希望預(yù)測的邊界框和先驗(yàn)框的差距盡可能跟真實(shí)框和先驗(yàn)框的差距接近,這樣預(yù)測的邊界框就能盡量和真實(shí)框一樣。在訓(xùn)練過程中,損失函數(shù)會(huì)計(jì)算真實(shí)值和預(yù)測值之間的誤差,從而指導(dǎo)學(xué)習(xí)的走向,訓(xùn)練出性能較好的預(yù)測模型。
經(jīng)過訓(xùn)練,使得損失函數(shù)最小化,從而獲得較為理想的參數(shù)值。最后測試時(shí),經(jīng)過非極大值抑制(Non-Maximum Suppression)[6],即可獲得較為理想的結(jié)果。
3 訓(xùn)練與測試
3.1 平臺(tái)與數(shù)據(jù)集
我們使用PASCAL VOC2007與作者自己收集的數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)。其中,正樣本數(shù)量為1984個(gè),負(fù)樣本數(shù)量為2000個(gè)。正負(fù)樣本樣例如圖2所示。
考慮到現(xiàn)實(shí)使用環(huán)境與我們的數(shù)據(jù)集規(guī)模,我們考慮同時(shí)我們還將數(shù)據(jù)集通過鏡像,調(diào)整亮度等處理擴(kuò)充數(shù)據(jù)集規(guī)模,如圖3所示。
測試平臺(tái)使用Ubuntu16,操作系統(tǒng),CPU型號(hào)為Intel Core I5 8400,GPU型號(hào)為Nvidia GeForce GTX1070 ,迭代次數(shù)設(shè)定為10 000次,學(xué)習(xí)率設(shè)定為0.0001,訓(xùn)練集取數(shù)據(jù)集的70%,測試集取數(shù)據(jù)集的30%。訓(xùn)練時(shí)損失函數(shù)變化率與置信度變化曲線圖4、圖5所示。
3.2 效果測試
訓(xùn)練過程當(dāng)中,我們參照YOLOv1論文,基于Tensorflow訓(xùn)練YOLO神經(jīng)網(wǎng)絡(luò)模型。在完成訓(xùn)練后,我們抽取數(shù)據(jù)集當(dāng)中30%的圖片做測試集。經(jīng)過測試,神經(jīng)網(wǎng)絡(luò)在測試集圖片表現(xiàn),見表1。
由圖6所示,雖然神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練之后對船舶的識(shí)別率并非十分優(yōu)秀,但是識(shí)別速度與處理時(shí)間可到達(dá)實(shí)用的程度,基本上可滿足在航道中實(shí)現(xiàn)對船舶的實(shí)時(shí)識(shí)別與統(tǒng)計(jì)的需求。
4 結(jié)論與展望
4.1 結(jié)論
隨著內(nèi)河水運(yùn)事業(yè)的迅猛發(fā)展,內(nèi)河通航環(huán)境日益復(fù)雜,船舶航行風(fēng)險(xiǎn)加大,傳統(tǒng)的巡航模式已無法滿足保障水運(yùn)監(jiān)管安全的需要。在現(xiàn)如今計(jì)算機(jī)計(jì)算能力有了空前發(fā)展的社會(huì)大環(huán)境下,基于YOLOv1的實(shí)時(shí)目標(biāo)檢測技術(shù)所帶來的高準(zhǔn)確率、高幀率以及低延時(shí)的實(shí)時(shí)目標(biāo)檢測可以在內(nèi)河當(dāng)中實(shí)時(shí)監(jiān)控河道中船舶運(yùn)行情況,較好地滿足了對內(nèi)河當(dāng)中船舶運(yùn)行情況的自動(dòng)識(shí)別與記錄,為監(jiān)管部門實(shí)時(shí)了解內(nèi)河船舶運(yùn)行的情況帶來了便利。
4.2 展望
由于模型自身和數(shù)據(jù)收集的局限性,只從時(shí)間序列本身的特性考慮,而沒有考慮其他不確定因素的影響。雖然模型中是以隨機(jī)項(xiàng)來反映這些不確定因素,但在預(yù)測期望值中其他不確定因素的影響是無法反映出來的,因而神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練之后對船舶的識(shí)別率并非十分優(yōu)秀,未來研究可以考慮結(jié)合多種網(wǎng)絡(luò)模型。
參考文獻(xiàn)
[1] Alex Krizhevsky,IlyaSutskever,Geoffrey E. Hinton.[J/OL]. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.2012-May.26.2019.
[2] 邱學(xué)剛,徐建設(shè),蔣兆明.國內(nèi)航行船舶船載AIS設(shè)備使用現(xiàn)狀[J].中國船檢,2018,5:42-46.
[3] MEI L, GUO J, LU P, et al. Inland ship detection based on dynamic group sparsity[C].Ninth International Conference on Advanced Computational Intelligence, 2017:1-6.
[4] Christian Szegedy , Wei Liu , YangqingJia , Pierre Sermanet , Scott Reed , DragomirAnguelov , DumitruErhan , Vincent Vanhoucke, Andrew Rabinovich.[J/OL]. https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf.2015-May,26,2019.
[5] Joseph Redmon, SantoshDivvala, Ross Girshick, Ali Farhadi.[EB/OL].https://arxiv.org/abs/1506.02640. Mon, 9 May 2016-Fri, 30 May 2019.
[6] A. Neubeck,L. Van Gool.[J/OL]. https://ieeexplore.ieee.org/document/1699659.2006-May,26,2019.