国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視覺的水面背景下目標(biāo)檢測(cè)與跟蹤算法

2022-02-03 05:28:46詹云峰黃志斌付波王小龍
科學(xué)技術(shù)與工程 2022年33期
關(guān)鍵詞:漂浮物鄰域粒度

詹云峰, 黃志斌, 付波, 王小龍

(湖北工業(yè)大學(xué)電氣與電子工程學(xué)院, 武漢 430068)

持續(xù)改善環(huán)境質(zhì)量依然是中國(guó)的重要工作,其中完善跨區(qū)域、流域、海域的環(huán)境監(jiān)管機(jī)制建設(shè)尤為重要。目前,在水域環(huán)境治理中,主要的方法利用遙感技術(shù)掌握流域覆被變化信息[1]、檢測(cè)水質(zhì)[2]等。

隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,越來越多的機(jī)器視覺算法被提出,文獻(xiàn)[3]使用MobileNetv3網(wǎng)絡(luò)獲得輸出特征后引入深度可分離卷積方法的特征金字塔堆疊,完成多尺度特征提取,并進(jìn)行分類和邊界框回歸,達(dá)到道路坍塌、坑洼檢測(cè)的目的。文獻(xiàn)[4]利用多卷積神經(jīng)網(wǎng)絡(luò)融合DXNet模型,抽取經(jīng)典模型卷積部分進(jìn)行融合,作為特征提取器,共享全連接層用作分類器,實(shí)現(xiàn)富士蘋果品質(zhì)分級(jí)。而搭載機(jī)器視覺清漂船的使用也已經(jīng)進(jìn)入成熟階段,在水面漂浮物的識(shí)別與跟蹤過程中發(fā)揮著越來越重要的作用。因此,清漂船視覺系統(tǒng)的自動(dòng)化程度越來越高,具有廣闊的應(yīng)用前景。為了解決水面背景下特定目標(biāo)精準(zhǔn)識(shí)別與定位的問題,文獻(xiàn)[5]采用MobileNet的神經(jīng)網(wǎng)絡(luò)快速提取全圖特征,并設(shè)計(jì)單步多框目標(biāo)檢測(cè)(single shot multibox detector,SSD)結(jié)構(gòu)的檢測(cè)網(wǎng)絡(luò)融合各層特征圖以完成快速多尺度檢測(cè)大型船、小型船和摩托艇。文獻(xiàn)[6]采用快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural networks,F(xiàn)aster R-CNN)算法對(duì)水面漂浮物進(jìn)行初次識(shí)別和定位,對(duì)識(shí)別結(jié)果采用類別激活網(wǎng)絡(luò)去除邊界框,運(yùn)用像素點(diǎn)來標(biāo)注目標(biāo)位置。文獻(xiàn)[7]利用梯度下降法微調(diào)AlexNet網(wǎng)絡(luò)模型并融合光照矯正技術(shù)識(shí)別水面常見的塑料袋與塑料瓶。文獻(xiàn)[8]利用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)提取抽象的高層特征,并用SoftMax分類器對(duì)其進(jìn)行訓(xùn)練,實(shí)現(xiàn)水面漂浮物分類識(shí)別。文獻(xiàn)[9]中基于不同深度視覺幾何組(visual geometry group,VGG)網(wǎng)絡(luò)設(shè)計(jì)4個(gè)不同深度的湖面塑料制品漂浮物識(shí)別分類模型。文獻(xiàn)[10]基于Mask R-CNN 模型設(shè)計(jì)一套漂浮物標(biāo)簽分類規(guī)則,建立起河湖領(lǐng)域真實(shí)數(shù)據(jù)樣本集,然后構(gòu)建以抓圖服務(wù)、人工智能(artificial intelligence,AI)分析和預(yù)警平臺(tái)為核心模塊的水面漂浮物識(shí)別方案。近幾年,目標(biāo)跟蹤算法已取得很大的進(jìn)步與進(jìn)展,將其應(yīng)用于搭載視覺的清漂船上,對(duì)目標(biāo)識(shí)別后,再對(duì)其進(jìn)行跟蹤。文獻(xiàn)[11]利用深度學(xué)習(xí)提取單幀深度語義特征,再利用相關(guān)濾波跟蹤計(jì)算幀間方向梯度特征相關(guān)性,通過特征對(duì)比將時(shí)空信息進(jìn)行融合,實(shí)現(xiàn)水面目標(biāo)檢測(cè)與跟蹤。文獻(xiàn)[12]提出了搜索區(qū)域自適應(yīng)算法,通過對(duì)海面場(chǎng)景的分割完成了海天線位置的提取,對(duì)海天線運(yùn)動(dòng)模型自適應(yīng)地確定每幀圖像中目標(biāo)搜索的區(qū)域。文獻(xiàn)[13]提出基于YOLOv3算法的目標(biāo)識(shí)別模型,通過降采樣重組、多級(jí)融合、優(yōu)化聚類候選框、重新定義損失函數(shù)等方式優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)物體跟蹤。

綜上所述,在檢測(cè)水面漂浮物的過程中,時(shí)常伴隨著目標(biāo)尺寸較小、被遮擋等問題的產(chǎn)生。因此,現(xiàn)針對(duì)這些問題展開研究,提出一種基于視覺的水面背景下目標(biāo)檢測(cè)和跟蹤方法,先通過對(duì)YOLO網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行多粒度特征融合的改進(jìn),解決因被檢測(cè)目標(biāo)過小的問題,再引入K領(lǐng)域搜索感興趣區(qū)域,與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM)相結(jié)合,提升在跟蹤目標(biāo)被遮擋的情況下的跟蹤性能。

1 基于多粒度特征融合的YOLO目標(biāo)檢測(cè)算法

基于視覺的水面背景下目標(biāo)檢測(cè)和跟蹤的方法,設(shè)計(jì)流程如圖1所示。首先讀入視頻并利用目標(biāo)檢測(cè)技術(shù)將水面目標(biāo)檢測(cè)出來,再通過跟蹤模塊將檢測(cè)出來的目標(biāo)進(jìn)行按幀跟蹤并反饋位置。

圖1 基于視覺的水面背景下目標(biāo)檢測(cè)和跟蹤流程圖Fig.1 Flow chart of target detection and tracking in water background based on vision

對(duì)于目標(biāo)檢測(cè)而言,深度學(xué)習(xí)網(wǎng)絡(luò)的方法是通過多次卷積計(jì)算提取圖像特征,并在此過程中充分利用像素信息來提高探測(cè)器的性能,可應(yīng)用于水面背景下的目標(biāo)識(shí)別。而YOLO作為One-Stage檢測(cè)算法之一,將目標(biāo)檢測(cè)問題轉(zhuǎn)化為一個(gè)回歸問題求解,利用卷積神經(jīng)網(wǎng)絡(luò)可以預(yù)測(cè)邊界框(bounding box)的位置信息以及所屬類別概率。其結(jié)構(gòu)非常簡(jiǎn)單,檢測(cè)速度非???,可以實(shí)現(xiàn)視頻的實(shí)時(shí)檢測(cè),從而更好地實(shí)現(xiàn)對(duì)漂浮物的跟蹤。

1.1 YOLO網(wǎng)絡(luò)結(jié)構(gòu)

YOLO算法[14]將通過24個(gè)卷積層與2個(gè)全連接層對(duì)20個(gè)不同類別的物體進(jìn)行檢測(cè)。將大小為448×448的圖片輸入網(wǎng)絡(luò)中,將其分割為7×7個(gè)網(wǎng)格(grid cell),最終輸出的是7×7×(2×5+20)維度的張量(tensor),其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

Conv.Layer為卷積層;Conv.Layers為多個(gè)卷積層;Maxpool Layer為最大池化層;Conn.Layer為連接層;s為步長(zhǎng)圖2 YOLO網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure diagram of YOLO network

其中2×5維度的張量為每個(gè)網(wǎng)格要預(yù)測(cè)2個(gè)邊界框,而每個(gè)邊界框包含5個(gè)值:位置信息(x,y,w,h) 與置信度(confidence score)。

置信度表達(dá)式為

(1)

(2)

式(2)中:Classi為第i個(gè)類別。

使用均方和誤差作為損失函數(shù),如式(3)所示,分別由坐標(biāo)誤差、IoU誤差、分類誤差組成。

(3)

式(3)等號(hào)右側(cè)共有5項(xiàng),其中,前兩項(xiàng)為坐標(biāo)誤差,即負(fù)責(zé)檢測(cè)box的才有位置損失,其余無須回傳誤差無須計(jì)算;第三、四項(xiàng)為IoU誤差,負(fù)責(zé)檢測(cè)的box的label是實(shí)時(shí)計(jì)算IoU,無目標(biāo)的為0;最后一項(xiàng)為分類誤差,即包含目標(biāo)的cell才有類別損失,同理,其余無須計(jì)算。默認(rèn)每個(gè)網(wǎng)格只出現(xiàn)一個(gè)類別,因此每個(gè)網(wǎng)格單元只能預(yù)測(cè)一個(gè)類,這種空間約束限制了模型可預(yù)測(cè)附近對(duì)象的數(shù)量。以及只采用了最后一層的卷積特征作為輸出,利用淺層信息較少,而小物體特征在高層神經(jīng)網(wǎng)絡(luò)中容易丟失,導(dǎo)致難以檢測(cè)小物體。

1.2 基于多粒度特征融合的YOLO目標(biāo)檢測(cè)

針對(duì)1.1節(jié)所分析的難以檢測(cè)小物體的問題,計(jì)劃修改YOLO模型的網(wǎng)絡(luò)結(jié)構(gòu),將在網(wǎng)絡(luò)結(jié)構(gòu)對(duì)Conv_4、Conv_5進(jìn)行改進(jìn),并將208×208×32、52×52×256與13×13×1 024的特征圖進(jìn)行融合[15],首先將208×208×32與52×52×256維度的特征圖進(jìn)行尺度上的處理,將每一個(gè)特征圖的2×2的局部區(qū)域轉(zhuǎn)化為通道上的維度,則相對(duì)應(yīng)的轉(zhuǎn)化為13×13×8 192與13×13×4 096,最終融合后獲得13×13×13 312尺度的特征圖。雖然完成尺度一樣,但是帶來了巨大的計(jì)算壓力,因此底層細(xì)粒度特征不能直接進(jìn)行處理,而先將尺度為208×208×32、52×52×256的特征圖通過1×1的卷積核進(jìn)行降維,分別生成尺度為13×13×1 024、13×13×1 024的特征圖,然后再進(jìn)行特征融合,特征圖融合生成的新特征圖尺度為13×13×3 072,如圖3所示。

圖3 多粒度特征融合流程圖Fig.3 Flow chart of multi-granularity feature fusion

最終使得所生成的目標(biāo)特征圖中綜合考慮了高層特征和淺層特征,再對(duì)其進(jìn)行卷積,生成不同類別對(duì)象的邊界框位置、置信度和概率; 最后通過非極大值抑制確定最終的檢測(cè)目標(biāo)和分類結(jié)果,如圖4所示。

Conv_1~Conv_6表示卷積層模塊;Maxpooling表示最大池化層圖4 基于YOLO的多粒度特征融合的目標(biāo)檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Network structure diagram of target detection algorithm based on Multi-granularity feature fusion of YOLO

相對(duì)于原始的YOLO目標(biāo)檢測(cè)算法,做出如下改進(jìn)。

(1) 針對(duì)卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖像尺度不敏感問題,采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),去除YOLO中的全連接層,并使用全局平均池化的方式產(chǎn)生固定長(zhǎng)度的特征向量,對(duì)模型進(jìn)行訓(xùn)練。

(2) 針對(duì)檢測(cè)小物體不準(zhǔn)確的問題,加入了特征融合,利用1×1的卷積核對(duì)特征圖進(jìn)行降維,統(tǒng)一轉(zhuǎn)換成13×13×1 024維度的特征圖后進(jìn)行疊加,使得底層特征與深層特征進(jìn)行融合,生成13×13×3 072維度的特征對(duì)目標(biāo)進(jìn)行檢測(cè),通過SoftMax分類器進(jìn)行判別。其網(wǎng)絡(luò)層結(jié)構(gòu)與參數(shù)如表1所示。

表1 基于YOLO的多粒度特征融合的目標(biāo)檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)表Table 1 Network structure parameter table of target detection algorithm based on multi-granularity feature fusion of YOLO

1.3 實(shí)驗(yàn)與結(jié)果分析

在PASCAL VOC數(shù)據(jù)集上對(duì)所提出的多粒度特征融合的YOLO目標(biāo)檢測(cè)算法與Fast R-CNN目標(biāo)檢測(cè)算法、Faster R-CNN目標(biāo)檢測(cè)算法和YOLO目標(biāo)檢測(cè)算法進(jìn)行平均檢測(cè)精度(mean average precision,mAP)與目標(biāo)檢測(cè)速度,即每秒幀率(frame per second,F(xiàn)PS)對(duì)比,結(jié)果如表2所示。

由表2可知,相較于Two-Stage目標(biāo)檢測(cè)的Fast R-CNN算法、Faster R-CNN算法而言,One-Stage目標(biāo)檢測(cè)的YOLO算法在檢測(cè)速度上有質(zhì)的提升,這是由于該算法將目標(biāo)檢測(cè)問題轉(zhuǎn)化為回歸問題,直接在輸出層回歸邊界框的位置與類別的概率,更適用于跟蹤算法中。而本文算法對(duì)比于YOLO算法,以降低3 幀/s的檢測(cè)速度換取了16.1%的檢測(cè)精度的提升,很大程度依賴于多粒度特征向量的融合,實(shí)現(xiàn)尺寸較小的目標(biāo)檢測(cè)。

表2 目標(biāo)檢測(cè)算法對(duì)比表Table 2 Comparison table of target detection algorithms

2 基于LSTM與K鄰域結(jié)合的目標(biāo)跟蹤算法

受到太陽光照射到水面發(fā)生反射現(xiàn)象,呈現(xiàn)水面噪聲污染嚴(yán)重,且伴隨著背景復(fù)雜以及漂浮物被遮擋的問題,使清漂船在目標(biāo)跟蹤上增大難度。因此提出將K鄰域搜索與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[16]相結(jié)合,實(shí)現(xiàn)對(duì)水面上目標(biāo)的跟蹤。

2.1 基于K鄰域搜索感興趣區(qū)域

在目標(biāo)跟蹤過程中,目標(biāo)位置不會(huì)發(fā)生突變,在相鄰幀序列視頻圖像中位置通常也相近[17]。因此在目標(biāo)檢測(cè)成功后,引入K鄰域搜索方法將目標(biāo)的邊界框坐標(biāo)傳給下一幀作為感興趣區(qū)域基準(zhǔn),以提高跟蹤算法的成功率,如圖5所示。

圖5 K鄰域搜索方法示意圖Fig.5 Schematic diagram of K neighborhood search method

其中綠色區(qū)域表示目標(biāo),橙色框表示在上一幀中目標(biāo)的邊界框,藍(lán)色框表示在當(dāng)前幀使用K鄰域搜索方法所得的感興趣區(qū)域。藍(lán)色框大小的確定是以橙色框的中心為基準(zhǔn),以橙色框的寬wobject與高h(yuǎn)object的K倍作為藍(lán)色框的寬wsearch與高h(yuǎn)search,表達(dá)式為

(4)

基于多粒度特征融合的目標(biāo)檢測(cè)算法在不同K值的檢查結(jié)果如圖6所示,其中白色框?yàn)槟繕?biāo)區(qū)域。統(tǒng)計(jì)在K分別取為2、3和5時(shí)目標(biāo)矩形周邊區(qū)域的物體檢測(cè)出的數(shù)量,統(tǒng)計(jì)結(jié)果如表3所示。

表3 K鄰域搜索的多粒度特征融合的YOLO檢測(cè)結(jié)果統(tǒng)計(jì)表Table 3 YOLO detection results of multi-granularity feature fusion in K neighborhood search

由此可見,K=3時(shí)物體周邊檢測(cè)的成功率效果較好; 且K鄰域搜索感興趣區(qū)域的引入在一定程度上提高多粒度融合的YOLO算法的檢測(cè)成功率,提高目標(biāo)跟蹤效果。

同時(shí),在實(shí)際目標(biāo)跟蹤場(chǎng)景下,K鄰域搜索方法還能以K為閾值,僅檢測(cè)K鄰域搜索感興趣框內(nèi)的目標(biāo),強(qiáng)制篩選在K鄰域搜索框以外的候選目標(biāo)。即如圖6中,K=3時(shí),只檢測(cè)紅框內(nèi)即K<3的物體,將對(duì)紅框外的物體強(qiáng)制剔除,使得在復(fù)雜的背景下能夠增強(qiáng)抗干擾能力,并且減少算法在跟蹤過程中提取特征所使用的時(shí)間。

圖6 K鄰域搜索的多粒度特征融合的YOLO檢測(cè)結(jié)果Fig.6 YOLO detection results based on multi-granularity feature fusion for K neighborhood search

2.2 基于LSTM的目標(biāo)位置預(yù)測(cè)

目標(biāo)跟蹤是對(duì)視頻當(dāng)前幀圖像目標(biāo)位置的處理以準(zhǔn)確預(yù)測(cè)下一幀圖像中目標(biāo)位置[18]。長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM)[19]是一種改進(jìn)的時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。LSTM通過設(shè)計(jì)專門的記憶單元來保存前一時(shí)段的歷史信息,從而實(shí)現(xiàn)對(duì)信息的長(zhǎng)期記憶。如圖7所示,LSTM算法通過引入“輸入門、輸出門、遺忘門”機(jī)制保留視頻序列中長(zhǎng)期依賴的特征。通過上一個(gè)神經(jīng)元的輸出和該時(shí)間點(diǎn)的輸入綜合輸入經(jīng)過有選擇的遺忘部分信息再作為下一時(shí)刻單元的部分輸入和該單元的輸出[20]。

A表示一個(gè)LSTM模塊圖7 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 Structure diagram of LSTM network

其每一個(gè)神經(jīng)元的輸入門、遺忘門、輸出門的表達(dá)式為

(5)

當(dāng)前t時(shí)刻LSTM輸出為

ht=ottanh[ftct-1+ittanh(wo[ht-1,xt]+bo)]

(6)

式中:ht為t時(shí)刻的輸出;it為t時(shí)刻的輸入;σ為sigmoid函數(shù);wi、bi、wf、bf、wo、bo分別為輸入門、遺忘門、輸出門需要學(xué)習(xí)的權(quán)重及偏置參數(shù)。

將所提取的13×13×3 072維特征向量作為L(zhǎng)STM的輸入,經(jīng)過LSTM神經(jīng)網(wǎng)絡(luò)處理后獲取相應(yīng)幀的目標(biāo)跟蹤框,其結(jié)構(gòu)圖如圖8所示。

圖8 LSTM目標(biāo)位置預(yù)測(cè)模塊結(jié)構(gòu)圖Fig.8 Structure diagram of LSTM target position prediction module

其輸入包含兩部分特征信息,分別是13×13×3 072維度的目標(biāo)特征圖和上一幀中第一個(gè)LSTM網(wǎng)絡(luò)記憶的輸出特征圖。

其中第一個(gè)LSTM網(wǎng)絡(luò)的輸出有兩方面作用。

(1)作為下一個(gè)LSTM神經(jīng)網(wǎng)絡(luò)的輸入,對(duì)當(dāng)前幀的邊界框坐標(biāo)值回歸。

(2)通過LSTM的“門”機(jī)制捕獲視頻幀間目標(biāo)的特征,將這些特征作為下一幀中第一個(gè)LSTM網(wǎng)絡(luò)的輸入。

由此可見,第一個(gè)LSTM在跟蹤模塊中充當(dāng)著更新的角色,利用LSTM神經(jīng)網(wǎng)絡(luò)的特性在不需要反向傳播更新網(wǎng)絡(luò)的前提下實(shí)現(xiàn)跟蹤,進(jìn)一步緩解硬件平臺(tái)的計(jì)算壓力,提升模型跟蹤性能。

第二個(gè)LSTM網(wǎng)絡(luò)輸出是預(yù)測(cè)邊界框的坐標(biāo)值,包括邊界框左上角和右下角點(diǎn)的坐標(biāo)值,其坐標(biāo)值會(huì)作為下一幀感興趣區(qū)域確定模塊的輸入。

在訓(xùn)練過程中,優(yōu)化的目標(biāo)函數(shù)表達(dá)式為

(7)

式(7)中:Bgt、Bpr分別為Ground Truth和預(yù)測(cè)框的坐標(biāo)信息。

訓(xùn)練過程中,若預(yù)測(cè)的邊界框和Ground Truth的交并覆蓋率大于設(shè)定閾值,則認(rèn)為跟蹤成功,并將預(yù)測(cè)的結(jié)果輸出,同時(shí)將預(yù)測(cè)邊界框坐標(biāo)作為感興趣區(qū)域確定模塊的輸入,為下一幀目標(biāo)跟蹤做準(zhǔn)備; 否則,跟蹤失敗,需要對(duì)當(dāng)前幀進(jìn)行檢測(cè),將檢測(cè)結(jié)果進(jìn)行輸出并重復(fù)以上跟蹤過程。

因此,提出的目標(biāo)跟蹤算法模型由3部分組成,分別是感興趣區(qū)域確定模塊、目標(biāo)檢測(cè)模塊和位置預(yù)測(cè)模塊,如圖9所示,具體步驟如下。

圖9 基于視覺的水面背景下目標(biāo)檢測(cè)和跟蹤算法模型Fig.9 Target detection and tracking algorithm model based on vision in water surface background

步驟1利用多粒度特征融合的YOLO目標(biāo)檢測(cè)算法與LSTM位置預(yù)測(cè)模塊對(duì)第一幀圖像進(jìn)行檢測(cè)并輸出第一幀跟蹤框坐標(biāo)。

步驟2根據(jù)上一幀的跟蹤框坐標(biāo),經(jīng)過K鄰域搜索感興趣區(qū)域確定模塊確定目標(biāo)的感興趣區(qū)域。

步驟3使用目標(biāo)檢測(cè)模塊提取出感興趣區(qū)域的目標(biāo)特征,并將多粒度的目標(biāo)特征融合為13×13×3 072的特征圖。

步驟4將提取融合后13×13×3 072維度的特征圖作為L(zhǎng)STM神經(jīng)網(wǎng)絡(luò)的輸入,LSTM神經(jīng)網(wǎng)絡(luò)直接對(duì)目標(biāo)跟蹤框的坐標(biāo)進(jìn)行回歸,輸出目標(biāo)跟蹤框。

步驟5重復(fù)步驟2~步驟4的過程直至跟蹤結(jié)束。

3 實(shí)驗(yàn)驗(yàn)證

3.1 實(shí)驗(yàn)平臺(tái)與樣本數(shù)據(jù)庫建立

實(shí)驗(yàn)數(shù)據(jù)集利用CCD相機(jī)采集了塑料袋圖像280張、塑料瓶圖像300張、紙張圖像250張以及各水面漂浮物圖像250張,將數(shù)據(jù)集進(jìn)行擴(kuò)充,經(jīng)過鏡像、旋轉(zhuǎn)(±30°和±60°) 、隨機(jī)裁剪、調(diào)整明暗度和添加噪聲的操作將分辨率為1 580張1 920×1 080圖像的數(shù)據(jù)集擴(kuò)充為8 000張,以及30個(gè)水面塑料袋、塑料瓶和紙張的視頻序列。部分采集到的數(shù)據(jù)如圖10所示,圖10(a)為具有部分小目標(biāo)挑戰(zhàn)屬性的數(shù)據(jù),圖10(b)為具有部分快速移動(dòng)和復(fù)雜背景挑戰(zhàn)屬性的數(shù)據(jù),圖10(c)為具有部分小目標(biāo)、遮擋和復(fù)雜背景挑戰(zhàn)屬性共存的數(shù)據(jù)。

圖10 部分采集的數(shù)據(jù)樣本Fig.10 A partial sample of collected data

3.2 目標(biāo)數(shù)據(jù)集的訓(xùn)練

使用標(biāo)注工具LabelImg來標(biāo)注圖像樣本,標(biāo)記的圖像保存為XML文件。訓(xùn)練時(shí),將采用多粒度特征融合的YOLO算法對(duì)PASCAL VOC數(shù)據(jù)集進(jìn)行訓(xùn)練得到預(yù)訓(xùn)練模型,再融入水面漂浮物的數(shù)據(jù)集樣本進(jìn)行模型遷移訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練時(shí)采用Adam梯度下降算法代替原始的SGD梯度下降算法進(jìn)行優(yōu)化。該梯度下降算法學(xué)習(xí)率的更新方式如表達(dá)式為

(8)

式(8)中:α0為初始學(xué)習(xí)率,α0=0.000 1;epoches為迭代次數(shù);rdecay為衰減率。

訓(xùn)練過程優(yōu)化的損失函數(shù)如式(3) 所示,損失函數(shù)考慮了目標(biāo)檢測(cè)位置的誤差和置信度誤差以優(yōu)化目標(biāo)檢測(cè)類別預(yù)測(cè)和Bbox坐標(biāo)的預(yù)測(cè)值。模型訓(xùn)練過程中的參數(shù)配置如表4所示。

表4 模型訓(xùn)練的參數(shù)配置表Table 4 Parameter configuration of model training

基于LSTM的目標(biāo)跟蹤算法模型在基于YOLO改進(jìn)的多粒度特征融合的目標(biāo)檢測(cè)算法的基礎(chǔ)上進(jìn)行訓(xùn)練的。同理,先利用VOT2016數(shù)據(jù)集預(yù)訓(xùn)練好的模型再進(jìn)一步訓(xùn)練,即將采集的水面漂浮物視頻數(shù)據(jù)經(jīng)過序列化標(biāo)注后加入VOT2016數(shù)據(jù)集進(jìn)行訓(xùn)練。LSTM網(wǎng)絡(luò)直接對(duì)預(yù)測(cè)目標(biāo)跟蹤框的坐標(biāo)進(jìn)行回歸,模型訓(xùn)練的優(yōu)化目標(biāo)函數(shù)為

(9)

式(9)中:Sp∩g為目標(biāo)跟蹤算法預(yù)測(cè)的目標(biāo)跟蹤框與Ground Truth相交部分的面積;Sp∪g為目標(biāo)跟蹤算法預(yù)測(cè)的目標(biāo)跟蹤框與Ground Truth并集部分的面積;IoU為交并覆蓋率。模型優(yōu)化方法選用Adam梯度下降算法。

使用的編程平臺(tái)為python3.6和tensorflow1.12,系統(tǒng)為Ubuntu16.04LTS。硬件平臺(tái)的GPU為RTX2080Ti,CPU為Intel i9-9900k,內(nèi)存為64 GB。

3.3 目標(biāo)測(cè)試集的結(jié)果驗(yàn)證

為了驗(yàn)證本文算法在解決實(shí)際水面漂浮物跟蹤過程中所遇到的漂浮物快速移動(dòng)、被遮擋以及體積較小等問題。從采集的視頻數(shù)據(jù)中選取具有相應(yīng)問題的視頻序列如表5所示,用于所提目標(biāo)跟蹤算法檢測(cè)及結(jié)果分析,剩下的24個(gè)視頻序列數(shù)據(jù)集用于模型訓(xùn)練。

表5 測(cè)試數(shù)據(jù)及其問題所在Table 5 Test data and problems

3.3.1 快速移動(dòng)與背景復(fù)雜的應(yīng)用場(chǎng)景

如圖11所示,在不同幀圖像中,KCF、ROLO、TLD及Struck算法均出現(xiàn)跟蹤失敗或跟蹤框發(fā)生較大的偏移的現(xiàn)象; 但是本文算法都成功跟蹤目標(biāo)且在跟蹤精度上明顯優(yōu)于其他算法,得益于LSTM的時(shí)序關(guān)聯(lián)性有效學(xué)習(xí)到視頻幀之間目標(biāo)的語義與運(yùn)動(dòng)特征,并且K鄰域搜索感興趣區(qū)域快速確定目標(biāo)區(qū)域,提高特征提取的速度,進(jìn)而提升本文算法在復(fù)雜背景環(huán)境下對(duì)目標(biāo)快速移動(dòng)的跟蹤速度。

圖11 視頻序列202105314跟蹤效果圖Fig.11 Video sequence 202105314 tracking renderings

3.3.2 小目標(biāo)跟蹤與尺度變化的應(yīng)用場(chǎng)景

如圖12所示,在不同幀圖像中,伴隨著水面倒影與強(qiáng)光照射的干擾,ROLO算法錯(cuò)誤地跟蹤了與漂浮物具有相似特征的陽光照射下的水面,且隨著視頻幀數(shù)的增加,在漂浮物越來越小和尺度發(fā)生明顯變化的情況下,KCF、TLD及Struck算法均跟蹤失敗。而本文算法效果穩(wěn)定,依然能夠成功跟蹤目標(biāo)。這都依賴于多粒度特征融合算法,能夠有效地提取小目標(biāo)的特征,同時(shí)K鄰域搜索興趣區(qū)域在上一幀成功跟蹤的基礎(chǔ)上快速確定下一幀的目標(biāo)區(qū)域,提升特征提取的有效性,減少目標(biāo)跟蹤的失敗率,提高本文算法對(duì)目標(biāo)較小和尺度變化的應(yīng)用場(chǎng)景下的跟蹤效果。

圖12 視頻序列202105316跟蹤效果圖Fig.12 Video sequence 202105316 tracking renderings

3.3.3 小目標(biāo)、遮擋與復(fù)雜背景的應(yīng)用場(chǎng)景

如圖13所示,在漂浮物出現(xiàn)輕微遮擋的情況下,本文算法對(duì)目標(biāo)物跟蹤準(zhǔn)確,但其他算法均跟蹤失敗。在漂浮物出現(xiàn)嚴(yán)重遮擋的情況下,本文算法雖然出現(xiàn)跟蹤框少許偏移,但仍然成功跟蹤了目標(biāo),但其他算法仍跟蹤失敗。由此可見,在存在遮擋的情況下,小目標(biāo)特征無法得到很好提取時(shí),本文算法的LSTM網(wǎng)絡(luò)利用自身“記憶”成功能將之前幀跟蹤目標(biāo)的特征作為當(dāng)前幀的輸入,依然能實(shí)現(xiàn)在復(fù)雜背景下對(duì)被遮擋的小目標(biāo)進(jìn)行跟蹤。

圖13 視頻序列202105318跟蹤效果圖Fig.13 Video sequence 202105318 tracking renderings

3.4 算法的有效性驗(yàn)證

設(shè)置跟蹤框與Ground Truth的交并覆蓋率的閾值為0.6,跟蹤框和Ground Truth的中心誤差的閾值設(shè)置為20個(gè)像素。在表6、表7和表8數(shù)據(jù)上對(duì)所提出的目標(biāo)跟蹤算法和Struck、TLD、KCF以及ROLO目標(biāo)跟蹤算法分別進(jìn)行跟蹤成功率、跟蹤準(zhǔn)確率、算法速度的對(duì)比與分析。

表6 目標(biāo)跟蹤算法跟蹤成功率對(duì)比Table 6 Comparison of tracking success rates of target tracking algorithms

表7 目標(biāo)跟蹤算法跟蹤準(zhǔn)確率對(duì)比Table 7 Comparison of tracking accuracy of target tracking algorithms

表8 目標(biāo)跟蹤算法速度對(duì)比Table 8 Speed comparison of target tracking algorithms

由此可見,所提出的目標(biāo)跟蹤算法在這6個(gè)存在目標(biāo)體積較小、被遮擋、背景復(fù)雜等問題的視屏序列中,具有更好跟蹤表現(xiàn),其平均跟蹤成功率為57.1%,平均跟蹤準(zhǔn)確率為71.1%,特別是在被遮擋的小物體視頻上,相較于其他算法而言具有較好的跟蹤能力,且平均跟蹤速度達(dá)到45.4 幀/s,雖然不及KCF,但能滿足日常視頻中目標(biāo)檢測(cè)與跟蹤的速度,且在準(zhǔn)確率與成功率上,具有較好的檢測(cè)效果。

4 結(jié)論

由此可見,本文算法在采用多粒度特征融合的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提取小目標(biāo)物的特征,再通過K鄰域搜索感興趣區(qū)域可以快速確定下一幀特征提取的區(qū)域,減小目標(biāo)外的復(fù)雜背景干擾,提高算法在復(fù)雜背景下小目標(biāo)的跟蹤成功率; 當(dāng)目標(biāo)處于被遮擋的情況下,無法較好提取特征時(shí),利用LSTM網(wǎng)絡(luò)自身“記憶”功能將之前幀跟蹤目標(biāo)的語義與運(yùn)動(dòng)特征作為當(dāng)前幀的輸入,依然能夠?qū)崿F(xiàn)遮擋情況下的目標(biāo)跟蹤。

猜你喜歡
漂浮物鄰域粒度
神秘的海上漂浮物
智慧少年(2022年7期)2022-06-24 11:53:25
粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
基于矩陣的多粒度粗糙集粒度約簡(jiǎn)方法
三峽水庫水面漂浮物對(duì)近壩段水體重金屬的影響初探
稀疏圖平方圖的染色數(shù)上界
一種新型帶電導(dǎo)線漂浮物清除器研制
基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
基于粒度矩陣的程度多粒度粗糙集粒度約簡(jiǎn)
關(guān)于-型鄰域空間
基于時(shí)序擴(kuò)展的鄰域保持嵌入算法及其在故障檢測(cè)中的應(yīng)用
平阴县| 新田县| 邢台县| 军事| 田阳县| 正蓝旗| 蕉岭县| 玉屏| 旌德县| 陆川县| 华坪县| 青冈县| 宜昌市| 吉隆县| 星座| 张家口市| 宿迁市| 海林市| 宁德市| 微山县| 井冈山市| 苏尼特右旗| 洞口县| 阳谷县| 南昌市| 成安县| 安西县| 孝感市| 宁武县| 元阳县| 阿拉善右旗| 佛学| 磐安县| 平乐县| 维西| 常州市| 鲁甸县| 隆尧县| 乌兰浩特市| 民权县| 鄢陵县|