劉佳真,陳勤霞,艾斯卡爾·艾木都拉
(新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
點(diǎn)狀目標(biāo)在跟蹤技術(shù)在軍事領(lǐng)域和民事領(lǐng)域都占據(jù)重要的位置,隨著科技的進(jìn)步與發(fā)展,能夠在復(fù)雜背景下準(zhǔn)確跟蹤打擊目標(biāo),是各國軍事研究的重心之一[1]。點(diǎn)狀目標(biāo)跟蹤技術(shù)難點(diǎn)主要在于兩點(diǎn):一,目標(biāo)本身太小,占據(jù)像素少,沒有紋理信息,且沒有具體的形狀。二是目標(biāo)在背景雜亂的環(huán)境下快速移動(dòng)[2]。國際光學(xué)工程學(xué)會(International Society of Optical Engineering,SPIE)提出小目標(biāo)是指目標(biāo)所占像素大小不超過80像素的目標(biāo)[3-4]。點(diǎn)狀目標(biāo)作為小目標(biāo)的一種,主要問題就是信噪比低,虛警率高和實(shí)時(shí)性差[5-7]。
點(diǎn)狀目標(biāo)的跟蹤技術(shù)主要側(cè)重于預(yù)警系統(tǒng)[8],在技術(shù)方面,很多對于點(diǎn)狀目標(biāo)跟蹤的方法還沒有太多的涉及深度學(xué)習(xí)內(nèi)容,國內(nèi)主要的研究方法是基于粒子濾波,卡爾曼濾波,多尺度等方法的融合技術(shù)[9-11]。
現(xiàn)在的基于深度學(xué)習(xí)的跟蹤器大多都是在目標(biāo)的周圍選取大量的訓(xùn)練樣本,再利用CNN的特征進(jìn)行判別[12]。這類方法需要大量的訓(xùn)練樣本,而點(diǎn)狀目標(biāo)的樣本有限。其次,此類方法大都是主要利用最后一層的卷積特征,因?yàn)樽詈笠粚泳矸e特征含有大量的語義信息,對于目標(biāo)的外觀變化有很大的幫助,放在點(diǎn)狀目標(biāo)的跟蹤技術(shù)上來說,點(diǎn)狀目標(biāo)本身占據(jù)像素少,幾乎沒有形狀,所以外觀變化這一影響因素對于點(diǎn)狀目標(biāo)的跟蹤結(jié)果影響不大。在本文的算法中,主要利用CNN的前面幾層的特征,用于目標(biāo)的定位,語義信息作為確定目標(biāo)的一個(gè)參考。當(dāng)目標(biāo)因淹沒在雜波中丟失時(shí),利用重檢測機(jī)制更好地定位目標(biāo)。該算法相當(dāng)于將CNN的空間信息與語義信息結(jié)合使用,重檢測機(jī)制解決目標(biāo)丟失的問題,增加了目標(biāo)定位的準(zhǔn)確性。
基于以上分析,本文的算法主要從以下幾個(gè)方面入手:(1)利用CNN的多層特征將點(diǎn)狀目標(biāo)的空間信息和語義信息相結(jié)合;(2)在每一層CNN上利用相關(guān)濾波器得到每一層的最大響應(yīng)值,然后對多層的結(jié)果進(jìn)行權(quán)重融合,得到最大響應(yīng)值;(3)當(dāng)目標(biāo)因淹沒在雜波中丟失時(shí),利用重檢測機(jī)制重新找回目標(biāo)。
相關(guān)濾波是目前一種經(jīng)典且呈現(xiàn)效果較好的目標(biāo)跟蹤濾波器,一般的相關(guān)濾波[13]都是學(xué)習(xí)鑒別分類器,相關(guān)濾波就是通過搜索最大相關(guān)響應(yīng)值預(yù)估目標(biāo)位置的。相關(guān)濾波的跟蹤算法最早應(yīng)用于2010年提出的MOSSE方法,它是利用信號之間的相關(guān)性,提取目標(biāo)特征來訓(xùn)練相關(guān)濾波器,對下一幀的輸入圖像進(jìn)行濾波,當(dāng)兩個(gè)信號越相似,即后一幀中圖像的某個(gè)位置的目標(biāo)與前一幀用于訓(xùn)練的特征越相似,在該位置濾波器所計(jì)算得到的相關(guān)值越高。KCF(即核相關(guān)濾波器)是在2014年提出來的[14],這種方法利用HOG特征[15](即方向梯度直方圖)對圖像進(jìn)行相關(guān)濾波處理,HOG特征其實(shí)就是利用圖像各個(gè)方向的梯度邊緣信息得到最大響應(yīng)值的位置。
深度學(xué)習(xí)作為目標(biāo)跟蹤的主流算法是許多學(xué)者學(xué)習(xí)和應(yīng)用的主要方法,該算法中所用的卷積神經(jīng)網(wǎng)絡(luò)屬于機(jī)器學(xué)習(xí)的一種,機(jī)器學(xué)習(xí)是通過學(xué)習(xí)數(shù)據(jù)之間的關(guān)系從而得到?jīng)Q策[16]。卷積神經(jīng)網(wǎng)絡(luò)被認(rèn)為是學(xué)習(xí)圖像內(nèi)容的最佳技術(shù)之一,并且在圖像識別、分割、檢測和檢索相關(guān)任務(wù)方面顯示了很好的效果,現(xiàn)在很多主流的目標(biāo)跟蹤算法都是建立在深度卷積上的[17]。
點(diǎn)狀目標(biāo)跟蹤算法中用的是VGG模型[18],VGG是由Oxford的Visual Geometry Group的組提出的網(wǎng)絡(luò)模型,主要說明了隨著網(wǎng)絡(luò)的深度增加,網(wǎng)絡(luò)的性能也受到了影響。該算法所使用的VGG-19模型,比VGG-16的網(wǎng)絡(luò)深度多3層,采用的是一堆3×3卷積核,提高了卷積神經(jīng)網(wǎng)絡(luò)的性能。
本文提出的算法主要分為3部分(如圖1所示),首先利用CNN的多層特征提取信息,其次進(jìn)行相關(guān)濾波得到最大響應(yīng)值,最后當(dāng)目標(biāo)因淹沒在雜波中丟失時(shí),利用重檢測機(jī)制重新找回目標(biāo)。
圖1 算法流程圖
卷積神經(jīng)網(wǎng)絡(luò)中全連接層所包含的空間信息很少,對于點(diǎn)狀目標(biāo)跟蹤沒有太大的影響,所以忽略全連接層。池化層使得卷積層越深所包含的空間信息越少,為了解決池化的影響,在點(diǎn)狀目標(biāo)跟蹤算法應(yīng)用雙線性插值將圖像縮小到一個(gè)固定的大小中。圖2是通過卷積可視化的結(jié)果。
通過圖2可以看出,卷積層1含有點(diǎn)狀目標(biāo)豐富的運(yùn)動(dòng)信息,卷積層2目標(biāo)的運(yùn)動(dòng)信息減少,到卷積層3時(shí)只能看到大概的目標(biāo),本文的點(diǎn)狀目標(biāo)跟蹤算法就是基于隨著卷積層的深度的增加,含有的空間信息逐漸減少的原理上進(jìn)行的。在目標(biāo)定位中,空間信息跟蹤定位目標(biāo),語義信息用于參考,在位置估計(jì)過程中用權(quán)重融合估計(jì)方法,充分利用每一層的卷積內(nèi)容,即將深層提取得到的響應(yīng)圖作為前一層的參考項(xiàng),逐漸精化得到最大響應(yīng)值以獲得較為正確的定位信息,如下:
(1)
圖2 卷積可視化
相關(guān)濾波是目前一種經(jīng)典且呈現(xiàn)效果較好的目標(biāo)跟蹤濾波器,通過搜索最大相關(guān)響應(yīng)值預(yù)估目標(biāo)位置的,其利用信號之間的相關(guān)性,提取目標(biāo)特征來訓(xùn)練相關(guān)濾波器,對下一幀的輸入圖像進(jìn)行濾波,當(dāng)兩個(gè)信號越相似,即后一幀中圖像的某個(gè)位置的目標(biāo)與前一幀用于訓(xùn)練的特征越相似,在該位置濾波器所計(jì)算得到的相關(guān)值越高,跟蹤框架如圖3所示。在本文的點(diǎn)狀目標(biāo)跟蹤算法中,每一個(gè)卷積層上均使用一個(gè)相關(guān)濾波器,通過卷積特征提取得到每一層的最大響應(yīng)值,之后再通過權(quán)重融合得到最大響應(yīng)值,從而得到預(yù)估目標(biāo)位置,定位目標(biāo)。
圖3 跟蹤框架
在本文的點(diǎn)狀目標(biāo)跟蹤算法中,為了減小跟蹤誤差,通過最小化在相關(guān)濾波器中輸出的跟蹤結(jié)果的誤差,利用平均移動(dòng)值來更新相關(guān)濾波器的分子與分母。
(2)
(3)
(4)
其中,t是幀索引;η是學(xué)習(xí)率。
(5)
當(dāng)比值K小于閾值Tr時(shí),啟動(dòng)重檢測模塊,當(dāng)比值K大于等于閾值Tr時(shí),比較兩幀最大響應(yīng)值的差值ΔR,當(dāng)差值ΔR小于閾值Td時(shí),進(jìn)行模型更新,當(dāng)差值ΔR大于或等于閾值Td時(shí),判斷當(dāng)前幀是否為最后一幀,是則結(jié)束跟蹤過程,否則繼續(xù)讀取下一幀,具體內(nèi)容如圖4所示,其中:
(6)
其中,ΔR是兩幀最大響應(yīng)值的差值。
圖4 重檢測機(jī)制(以數(shù)據(jù)集1第21幀為例)
綜上給出融合相關(guān)濾波和CNN的點(diǎn)狀目標(biāo)跟蹤算法的主要流程:
Step1:輸入初始位置(x0,y0)。
Step2:以(xt-1,yt-1)為中心得到t幀的搜索窗口,并使用公式(1)提取具有空間插值的卷積特征。
Step5:當(dāng)比值K大于等于閾值Tr時(shí),比較兩幀最大響應(yīng)值的差值ΔR,當(dāng)差值ΔR小于閾值Td時(shí),進(jìn)行模型更新,當(dāng)差值ΔR大于或等于閾值Td時(shí),判斷當(dāng)前幀是否為最后一幀,是則結(jié)束跟蹤過程,否則繼續(xù)讀取下一幀。
為了驗(yàn)證該改進(jìn)算法的性能,測試實(shí)驗(yàn)以Matlab 2018a為開發(fā)平臺,并使用MatConvNet工具箱,在Windows10系統(tǒng)上運(yùn)行的,處理器是Intel(R)Core(TM)i7-7700 CPU @ 3.60GHz。為了更好地驗(yàn)證本文的算法在點(diǎn)狀目標(biāo)跟蹤中的實(shí)用性,選取了6組數(shù)據(jù)集包括田野背景,天空背景,海天背景等雜波不同,背景不同的圖像序列,而且在實(shí)驗(yàn)驗(yàn)證中,該算法與2種目前效果較好的目標(biāo)跟蹤算法進(jìn)行對比實(shí)驗(yàn),即目標(biāo)跟蹤效果較好的Boosting[20],跟蹤較精確的MIL[21]。圖像序列信息如表1所示。
表1 數(shù)據(jù)圖像序列信息
在對比實(shí)驗(yàn)中所用到的評價(jià)指標(biāo)主要是中心位置誤差(Center location error,CLE)和覆蓋率(Overlap)兩方面進(jìn)行評估的,在實(shí)際實(shí)驗(yàn)中,各個(gè)方法均是在相比之下較好的參數(shù)設(shè)置下進(jìn)行的,具體評價(jià)如下:
(1)在實(shí)驗(yàn)中,中心位置誤差(CLE)是指算法每一幀所跟蹤到的點(diǎn)狀目標(biāo)位置的中心位置坐標(biāo)與點(diǎn)狀目標(biāo)真實(shí)中心位置坐標(biāo)之間的距離,用來體現(xiàn)算法跟蹤點(diǎn)狀目標(biāo)的精確程度[22]:
(7)
其中,(x1,y1)代表點(diǎn)狀目標(biāo)的真實(shí)位置中心坐標(biāo);(x2,y2)代表的是算法跟蹤到的點(diǎn)狀目標(biāo)位置的中心坐標(biāo)。
(2)在實(shí)驗(yàn)中,覆蓋率(Overlap)是指算法每一幀所跟蹤到的點(diǎn)狀目標(biāo)位置及大小與實(shí)際位置及大小之間的交集與兩者的并集之間的比值[23],具體如下:
(8)
其中,A表示的是由點(diǎn)狀目標(biāo)的真實(shí)位置標(biāo)注的跟蹤框面積;B表示的是算法所跟蹤到的跟蹤框的面積。
本文算法與2種算法在4種不同背景下的跟蹤結(jié)果,在以上兩種指標(biāo)下的對比實(shí)驗(yàn)如圖5所示。
圖5中,呈現(xiàn)的是四種不同背景下,該算法與2種算法的跟蹤結(jié)果對比圖,圖5(a)圖為跟蹤原圖,圖5(b)圖為三種算法跟蹤中心位置誤差,圖5(c)圖為三種算法跟蹤覆蓋率。從中心位置誤差對比結(jié)果可以看出,MIL在第二序列實(shí)驗(yàn)中,第80幀開始丟幀,無法跟蹤。雖然Boosting在第三,四序列中均出現(xiàn)丟幀現(xiàn)象,在相同的跟蹤框下,本文算法的覆蓋率明顯高于Boosting算法和MIL算法。
圖5 三種方法對比圖
總的來看,本文算法不僅沒有丟幀,從中心位置差和覆蓋率可以證明,本文算法的準(zhǔn)確度都優(yōu)于另外2種算法的跟蹤結(jié)果。
為了更為直觀地看出實(shí)驗(yàn)的對比結(jié)果,給出了Boosting、MIL和本文算法的跟蹤直觀圖6,圖6(a)為原圖,圖6(b)、圖6(c)為隨機(jī)選取的跟蹤結(jié)果圖。圖6結(jié)果是在三種不同背景下平均截取的5幀跟蹤結(jié)果直觀圖,從圖中可以更為直觀地看出此算法的優(yōu)越性。
圖6 三種不同背景下,本算法,Boosting和MIL三種方法定位圖
在最后的實(shí)驗(yàn)對比結(jié)果中,給出了在兩種不同背景下使用不同卷積層的對比實(shí)驗(yàn)結(jié)果,如圖7所示,其中Conv123使用1、2、3卷積層,Conv234使用2、3、4卷積層,Conv345使用3、4、5卷積層,從結(jié)果中可以看出,使用1、2、3卷積層的效果最佳,所以本文的點(diǎn)狀目標(biāo)跟蹤算法具有更好的定位信息和準(zhǔn)確性。
圖7 不同卷積層選擇對比圖
本文的點(diǎn)狀目標(biāo)跟蹤算法是將深度學(xué)習(xí)與相關(guān)濾波進(jìn)行一個(gè)很好的結(jié)合,也是將深度學(xué)習(xí)應(yīng)用于點(diǎn)狀目標(biāo)跟蹤的實(shí)踐證明,重檢測技術(shù)解決了部分因雜波掩蓋的目標(biāo)跟蹤問題。通過對不同背景下的實(shí)驗(yàn)驗(yàn)證可以看出,此算法均取得較好的跟蹤結(jié)果,準(zhǔn)確性較高,適用于點(diǎn)狀目標(biāo)的跟蹤。在接下來的工作中,我們將主要提高算法的速度,達(dá)到實(shí)時(shí)性的要求。