何 敏,回丙偉,易夢(mèng)妮,胡衛(wèi)東
〈圖像處理與仿真〉
基于目標(biāo)增強(qiáng)和視覺(jué)跟蹤的紅外運(yùn)動(dòng)點(diǎn)目標(biāo)半自動(dòng)標(biāo)注算法
何 敏,回丙偉,易夢(mèng)妮,胡衛(wèi)東
(國(guó)防科技大學(xué) 電子科學(xué)學(xué)院ATR重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙 410073)
本文針對(duì)紅外視頻數(shù)據(jù)標(biāo)注效率低、標(biāo)注質(zhì)量差等問(wèn)題,提出了一種基于目標(biāo)增強(qiáng)和視覺(jué)跟蹤的紅外序列圖像中運(yùn)動(dòng)點(diǎn)目標(biāo)半自動(dòng)標(biāo)注方法。首先對(duì)一段連續(xù)時(shí)間內(nèi)的紅外序列圖像進(jìn)行配準(zhǔn)和背景對(duì)消以增強(qiáng)目標(biāo)特征;然后使用視覺(jué)跟蹤算法對(duì)增強(qiáng)后的特征進(jìn)行高效自動(dòng)定位;最后通過(guò)相位譜重構(gòu)得到單幀圖像的目標(biāo)顯著圖,進(jìn)而確定目標(biāo)的準(zhǔn)確坐標(biāo);在自動(dòng)標(biāo)注過(guò)程中,利用相鄰幀標(biāo)注結(jié)果的差異性選擇關(guān)鍵幀,可以讓標(biāo)注人員快速定位可能發(fā)生錯(cuò)誤的圖像幀并對(duì)其進(jìn)行手動(dòng)標(biāo)注。實(shí)驗(yàn)結(jié)果表明該算法可以顯著降低標(biāo)注人員的參與度,有效解決數(shù)據(jù)標(biāo)注作業(yè)中周期長(zhǎng)、質(zhì)量難以保證的問(wèn)題。
半自動(dòng)標(biāo)注;紅外點(diǎn)目標(biāo);視覺(jué)跟蹤;序列圖像
2009年受益于大規(guī)模標(biāo)注數(shù)據(jù)集的出現(xiàn),人工智能技術(shù)取得了跨越式發(fā)展。隨后數(shù)據(jù)標(biāo)注作為一項(xiàng)基礎(chǔ)性工作也逐漸得到重視。數(shù)據(jù)標(biāo)注是指在數(shù)據(jù)加工階段利用標(biāo)注工具將數(shù)據(jù)中被機(jī)器用以學(xué)習(xí)和認(rèn)知特征的部分加上標(biāo)簽的過(guò)程。大數(shù)據(jù)時(shí)代下,數(shù)據(jù)標(biāo)注是一項(xiàng)龐大的工程,而視頻標(biāo)注一直是大數(shù)據(jù)標(biāo)注領(lǐng)域的難點(diǎn)。此類(lèi)數(shù)據(jù)具有體量大、處理困難的特點(diǎn)。隨著技術(shù)的發(fā)展,基于人機(jī)協(xié)同的視頻半自動(dòng)標(biāo)注算法研究逐漸增多。而現(xiàn)階段的視頻半自動(dòng)標(biāo)注算法多數(shù)是針對(duì)可見(jiàn)光圖像中的擴(kuò)展目標(biāo)進(jìn)行研究的,對(duì)紅外點(diǎn)目標(biāo)的半自動(dòng)標(biāo)注研究甚少。而紅外運(yùn)動(dòng)點(diǎn)目標(biāo)檢測(cè)識(shí)別作為紅外成像探測(cè)系統(tǒng)的關(guān)鍵技術(shù)之一,一直是研究的重難點(diǎn)問(wèn)題,特別是現(xiàn)代智能目標(biāo)識(shí)別技術(shù)的發(fā)展,對(duì)紅外目標(biāo)數(shù)據(jù)集的標(biāo)注效率及標(biāo)注質(zhì)量提出了更高的要求。
視頻與單張圖像相比,多了時(shí)間上下文信息且相鄰幀之間存在大量冗余信息,因此采用交互式跟蹤的方法對(duì)其進(jìn)行快速標(biāo)注已成為視頻標(biāo)注的主流手段。早期的視頻標(biāo)注算法[1-2]大多通過(guò)對(duì)兩幀人工標(biāo)注的視頻幀之間進(jìn)行坐標(biāo)插值來(lái)加速工作,之后出現(xiàn)了基于幾何建模[3]的方法對(duì)視頻進(jìn)行半自動(dòng)標(biāo)注。此類(lèi)方法假設(shè)目標(biāo)在兩個(gè)手工標(biāo)注的圖像幀之間為勻速運(yùn)動(dòng),對(duì)剩余幀目標(biāo)位置進(jìn)行預(yù)測(cè),無(wú)需使用目標(biāo)的視覺(jué)信息,對(duì)于模糊圖像或者包含遮擋目標(biāo)的圖像更具有魯棒性,但是標(biāo)注質(zhì)量受人工標(biāo)注頻率影響較大,如果需要獲得較高的標(biāo)注質(zhì)量,標(biāo)注人員需要密集介入標(biāo)注過(guò)程。當(dāng)標(biāo)注人員的參與程度較低時(shí)標(biāo)注結(jié)果將不可避免地產(chǎn)生誤差,這種誤差對(duì)于擴(kuò)展目標(biāo)而言有時(shí)是可接受的,但是對(duì)于成像面積只有一兩個(gè)像素大小的紅外運(yùn)動(dòng)點(diǎn)目標(biāo)而言影響非常大。
另一類(lèi)使用視覺(jué)信息的標(biāo)注算法[4-8],利用標(biāo)注人員給出的初始信息對(duì)目標(biāo)進(jìn)行交互式視覺(jué)目標(biāo)跟蹤進(jìn)行標(biāo)注。視覺(jué)目標(biāo)跟蹤是指在當(dāng)前幀中給出目標(biāo)的位置信息,然后通過(guò)目標(biāo)的顏色、形狀等外觀信息,在后續(xù)幀中對(duì)目標(biāo)進(jìn)行持續(xù)跟蹤的過(guò)程。其中,影響較大的算法為Carl Vondrick[4]等人提出的通過(guò)在每次標(biāo)注人員提供一個(gè)標(biāo)注信息后求解一個(gè)動(dòng)態(tài)規(guī)劃問(wèn)題并對(duì)剩余幀進(jìn)行標(biāo)注。Bakliwal[9]等人利用多個(gè)算法對(duì)同一目標(biāo)進(jìn)行視覺(jué)跟蹤并融合其跟蹤結(jié)果得到更為精確的標(biāo)注信息。此類(lèi)方法需要目標(biāo)的外觀信息,當(dāng)目標(biāo)不發(fā)生遮擋或形變時(shí)可以依靠少量的手工標(biāo)注信息得到較好的標(biāo)注質(zhì)量。但是,紅外弱小目標(biāo)本身并不具備紋理、形狀、顏色等特征,直接使用此類(lèi)跟蹤算法無(wú)法獲得理想的標(biāo)注效果。
同時(shí),有研究人員[4]發(fā)現(xiàn)如果由標(biāo)注人員自己選擇一段視頻中需要標(biāo)注的幀,不僅要耗費(fèi)標(biāo)注人員大量的精力,而且還會(huì)降低標(biāo)注速度。這些需要人標(biāo)注的幀稱(chēng)為關(guān)鍵幀,一些工作探尋了如何選取關(guān)鍵幀的問(wèn)題。如Curve-VOT[10]利用多邊形擬合的方式擬合跟蹤軌跡,將最靠近頂點(diǎn)的幀作為關(guān)鍵幀。文獻(xiàn)[5,11]采用最大模型改變期望策略選擇關(guān)鍵幀。這些方法都試圖找出標(biāo)注最有可能發(fā)生錯(cuò)誤的幀并交予標(biāo)注人員進(jìn)行標(biāo)注。
通過(guò)上述分析,本文結(jié)合紅外視頻點(diǎn)目標(biāo)數(shù)據(jù)開(kāi)展高效的半自動(dòng)標(biāo)注方法研究。主要工作如下:
①針對(duì)純手工標(biāo)注效率低下的問(wèn)題,本文利用人機(jī)協(xié)同的方法對(duì)紅外運(yùn)動(dòng)點(diǎn)目標(biāo)進(jìn)行高效的半自動(dòng)標(biāo)注。
②針對(duì)紅外點(diǎn)目標(biāo)自動(dòng)定位難的問(wèn)題,本文綜合運(yùn)用視覺(jué)跟蹤算法和相位譜重構(gòu)技術(shù)實(shí)現(xiàn)了由粗到精的點(diǎn)目標(biāo)坐標(biāo)自動(dòng)定位。
③針對(duì)點(diǎn)目標(biāo)標(biāo)注提出了一種關(guān)鍵幀選擇策略,自動(dòng)返回關(guān)鍵幀給標(biāo)注人員進(jìn)行校驗(yàn),不需要標(biāo)注人員全程參與整個(gè)跟蹤過(guò)程。
本文設(shè)計(jì)了基于目標(biāo)增強(qiáng)和視覺(jué)跟蹤的半自動(dòng)標(biāo)注算法,當(dāng)紅外序列圖像輸入時(shí),首先利用圖像配準(zhǔn)算法對(duì)紅外序列圖像進(jìn)行對(duì)齊及背景對(duì)消來(lái)增強(qiáng)紅外點(diǎn)目標(biāo)的特征,標(biāo)注人員對(duì)增強(qiáng)之后的首幀目標(biāo)特征進(jìn)行標(biāo)注,標(biāo)注形式為矩形框,然后利用目標(biāo)跟蹤算法對(duì)增強(qiáng)之后的目標(biāo)進(jìn)行粗定位,接著利用跟蹤框和相位譜重構(gòu)對(duì)目標(biāo)得到目標(biāo)準(zhǔn)確的位置,同時(shí)選取發(fā)生錯(cuò)誤概率較大的關(guān)鍵幀交予標(biāo)注人員進(jìn)行標(biāo)注,從而實(shí)現(xiàn)人機(jī)協(xié)同下的紅外運(yùn)動(dòng)點(diǎn)目標(biāo)高效半自動(dòng)標(biāo)注。具體流程圖如圖1所示。
圖1 半自動(dòng)標(biāo)注流程
紅外點(diǎn)目標(biāo)特征少,且紅外探測(cè)系統(tǒng)一般用于較為復(fù)雜的環(huán)境中,圖像背景會(huì)出現(xiàn)與目標(biāo)相似的干擾噪聲,直接使用視覺(jué)跟蹤算法無(wú)法對(duì)點(diǎn)目標(biāo)進(jìn)行持續(xù)且準(zhǔn)確的跟蹤,因此利用多幀圖像累積點(diǎn)目標(biāo)的運(yùn)動(dòng)信息,然后使用差分消除圖像序列的背景信息,突出目標(biāo)的運(yùn)動(dòng)區(qū)域,減少背景的干擾。
通過(guò)點(diǎn)目標(biāo)的運(yùn)動(dòng)信息對(duì)其進(jìn)行增強(qiáng),具體操作分為兩步:①對(duì)序列圖像進(jìn)行配準(zhǔn),如圖2所示,將2+1張圖像利用配準(zhǔn)算法對(duì)圖像序列進(jìn)行對(duì)齊,其中以第+1張圖像為基準(zhǔn)圖像;②在對(duì)應(yīng)位置取2+1張圖像的最大值、平均值并對(duì)其進(jìn)行差分,具體公式如下:
式中:A(,)表示配準(zhǔn)后的第張圖像(,)位置上的像素值;max(,)表示配準(zhǔn)后的2+1張圖像在(,)位置上取最大值;avg(,)表示配準(zhǔn)后的2+1張圖像在(,)位置上取平均值,圖像為所求的目標(biāo)增強(qiáng)圖。
圖3為增強(qiáng)之后的效果對(duì)比圖,由圖可知增強(qiáng)之后的圖像,不僅消除了部分背景噪聲,目標(biāo)區(qū)域的能量強(qiáng)度也被增強(qiáng),具有較強(qiáng)的辨識(shí)度,因此在增強(qiáng)圖上對(duì)紅外點(diǎn)目標(biāo)的位置進(jìn)行初步定位。
圖2 序列圖像配準(zhǔn)
圖3 增強(qiáng)效果對(duì)比:(a) 原圖;(b) 增強(qiáng)圖
序列圖像相比于單張圖像多了時(shí)間上下文信息,且相鄰的圖像幀之間存在很強(qiáng)的相關(guān)性,因此可以使用視覺(jué)跟蹤算法實(shí)現(xiàn)對(duì)目標(biāo)的快速定位。為了兼顧算法的效率和準(zhǔn)確率,本文選用的跟蹤算法為核相關(guān)濾波算法(kernel correlation filter,KCF)[12]。
1.3.1 KCF目標(biāo)跟蹤
KCF則是將跟蹤轉(zhuǎn)化為脊回歸的問(wèn)題,然后通過(guò)基樣本循環(huán)移位得到訓(xùn)練樣本,接著利用循環(huán)矩陣可被傅里葉矩陣對(duì)角化的特點(diǎn),將計(jì)算過(guò)程轉(zhuǎn)化到頻域進(jìn)行求解,最后使用核技巧將低維線(xiàn)性不可分的特征映射到高維空間求出回歸器的權(quán)值參數(shù),并使用回歸器得到下一幀圖像的輸出響應(yīng)圖(),響應(yīng)最大處為預(yù)測(cè)的目標(biāo)位置。其中脊回歸器的權(quán)值通過(guò)式(4)得到:
然后利用訓(xùn)練得到的濾波器尋找相關(guān)響應(yīng)值最大的圖像位置:
在跟蹤過(guò)程中只需對(duì)參數(shù)進(jìn)行更新,更新公式如下:
式中:n為式(4)得到的權(quán)值;n-1是上一幀的權(quán)值,然后根據(jù)預(yù)設(shè)的步長(zhǎng)1進(jìn)行更新。
1.3.2 基于跟蹤置信度的模板更新
原始的KCF每幀都會(huì)進(jìn)行更新,但是增強(qiáng)之后的紅外目標(biāo)特征只包含輻射信息,當(dāng)目標(biāo)輻射微弱且運(yùn)動(dòng)不明顯時(shí),很容易受到目標(biāo)背景的強(qiáng)噪聲影響,導(dǎo)致跟蹤器跟錯(cuò)、跟丟目標(biāo)。為了減輕背景強(qiáng)噪聲對(duì)整個(gè)過(guò)程的影響,本文使用文獻(xiàn)[13]提出的跟蹤置信度pce對(duì)跟蹤模板有選擇的進(jìn)行更新。pce計(jì)算公式如下:
式中:max、min、F,h分別表示輸出響應(yīng)圖()的最大響應(yīng),最小響應(yīng)和(,)位置上的響應(yīng)。在對(duì)紅外弱小目標(biāo)增強(qiáng)數(shù)據(jù)集進(jìn)行跟蹤時(shí),檢測(cè)區(qū)域很容易出現(xiàn)相似物干擾,因此輸出響應(yīng)圖將會(huì)呈現(xiàn)多個(gè)峰值,且峰值最高的位置很可能為背景噪聲,如果此時(shí)跟蹤器進(jìn)行更新則很容易跟錯(cuò)目標(biāo),因此使用pce判斷輸出響應(yīng)圖的震蕩程度,pce越大代表輸出響應(yīng)圖的震蕩越小,跟蹤置信度越高,此步驟能有效提高KCF跟蹤在增強(qiáng)數(shù)據(jù)集上的成功。模板更新條件如下:
為了得到目標(biāo)準(zhǔn)確的點(diǎn)標(biāo)注,需利用1.3節(jié)得到的跟蹤框和原圖(,),得到目標(biāo)的準(zhǔn)確位置(x,y)。步驟如圖4所示。
圖4 紅外點(diǎn)目標(biāo)的精確定位
因?yàn)楦櫩騼?nèi)可能會(huì)出現(xiàn)連續(xù)的高亮的背景噪聲,因此本文利用紅外弱小目標(biāo)所在位置存在區(qū)域突變這一特性對(duì)其進(jìn)行精準(zhǔn)定位。使用相位譜重構(gòu)的方法對(duì)原圖進(jìn)行處理,對(duì)圖像進(jìn)行傅里葉變換可以得到如下兩個(gè)部分:
式中:(,)表示圖像的幅度譜;(,)表示圖像的相位譜;FFT表示圖像的傅里葉變換。之后對(duì)圖像相位譜進(jìn)行重構(gòu),如下式:
*(,)=IFFT[(,)] (12)
式中:*(,)為所求的注意力圖,IFFT為圖像的傅里葉反變換。直接對(duì)相位譜進(jìn)行重構(gòu)相當(dāng)于在對(duì)圖像重構(gòu)時(shí)將初相不同的平面波幅度置1,而自然圖像的能量集中于低頻,此步驟相當(dāng)于濾除低頻噪聲,突出高頻目標(biāo),從而消除連續(xù)的高亮背景噪聲,得到目標(biāo)準(zhǔn)確位置(p,p)。
視頻圖像標(biāo)注中需要由人標(biāo)注或檢驗(yàn)的圖像幀稱(chēng)為關(guān)鍵幀,它為一段圖像序列中具有代表性或包含較大信息量的圖像幀。本文將具有較大錯(cuò)誤概率的幀作為關(guān)鍵幀自動(dòng)返回給標(biāo)注人員進(jìn)行校驗(yàn),利用最小的代價(jià)提高數(shù)據(jù)集的標(biāo)注質(zhì)量。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),最有可能發(fā)生標(biāo)注錯(cuò)誤的情況有兩種,一是由于某些原因,目標(biāo)在序列圖像的運(yùn)動(dòng)突然發(fā)生不連續(xù)的情況,二是目標(biāo)長(zhǎng)時(shí)間靜止,融合后依然很微弱,且背景噪聲較大,因此容易錯(cuò)誤跟蹤到雜波。圖5具體表明了上述兩種錯(cuò)誤,如圖5(a)所示,由于目標(biāo)軌跡發(fā)生斷裂,跟蹤框只能跟蹤軌跡的一部分,如圖5(b)在第幀時(shí)目標(biāo)能被正確檢測(cè),但是到+1幀目標(biāo)實(shí)際上已經(jīng)在另一半軌跡處,所以圖5(c)并未正確檢測(cè)到目標(biāo),雖然之后跟蹤算法會(huì)隨著軌跡前半部分的逐漸減弱、消失而正確尋回目標(biāo),但是這種情況易出現(xiàn)連續(xù)多幀被錯(cuò)誤標(biāo)注。如圖5(d)所示,在第幀時(shí)目標(biāo)區(qū)域輻射信息較強(qiáng)尚能正確跟蹤到目標(biāo),但是在+1幀時(shí)目標(biāo)輻射信息減弱、背景噪聲增強(qiáng)時(shí)則會(huì)發(fā)生跟蹤錯(cuò)誤的情況(如圖5(e)(f)所示)。
1.5.1 利用像素值變化定位關(guān)鍵幀
目標(biāo)在運(yùn)動(dòng)過(guò)程中像素值是逐漸變大或者變小的,一般情況下不會(huì)產(chǎn)生突變。當(dāng)目標(biāo)軌跡斷裂而發(fā)生錯(cuò)誤檢測(cè)時(shí),算法預(yù)測(cè)的錯(cuò)誤目標(biāo)位置處的像素值與前一幀正確的目標(biāo)像素值可能會(huì)有較大差距。因此將這一特性作為判斷關(guān)鍵幀的依據(jù),判斷條件如下:
圖5 典型錯(cuò)誤分析:(a)(b)(c)目標(biāo)運(yùn)動(dòng)不連續(xù);(d)(e)(f)強(qiáng)背景噪聲干擾
Fig.5 Typical error analysis: (a)(b)(c)Discontinuous motion of target;(d)(e)(f) Strong background noise
P表示第幀預(yù)測(cè)目標(biāo)的像素值,1和2為預(yù)設(shè)常數(shù)。由于目標(biāo)的探測(cè)亮度與作用到探測(cè)器單元的有效面積相關(guān),它的亮度本身就會(huì)發(fā)生一定的起伏變化,因此在設(shè)計(jì)這個(gè)參數(shù)時(shí)要排除這種正常的現(xiàn)象。本課題的標(biāo)注人員是對(duì)增強(qiáng)之后的目標(biāo)進(jìn)行初始化,每個(gè)初始化跟蹤框中其實(shí)包含了2+1幀圖片目標(biāo)的位置信息,映射到原圖后可以得到2+1個(gè)目標(biāo)像素點(diǎn)的信息。其中的最小像素值為min,最大像素值為max,利用min/max估算目標(biāo)正常減小的范圍,本文利用9個(gè)data進(jìn)行實(shí)驗(yàn),一共需要初始化9次得到9個(gè)估算值,用值最小的估算值來(lái)衡量目標(biāo)正常減小的范圍,而相鄰幀的目標(biāo)亮度變化一般不會(huì)超過(guò)自身的一半,因此1的取值范圍為[0.5,]。本課題選取的值為這個(gè)取值范圍的中點(diǎn),同理2的取值范圍為[min/max, 1.5],本文選取的值也為這個(gè)范圍的中點(diǎn)。1和2作為預(yù)設(shè)值也可以由標(biāo)注人員選取更加合適的值。
1.5.2 利用前后兩幀標(biāo)注距離定位關(guān)鍵幀
針對(duì)目標(biāo)長(zhǎng)時(shí)間靜止而被強(qiáng)噪聲干擾的情況,通過(guò)前后兩幀標(biāo)注結(jié)果的距離判斷可能發(fā)生錯(cuò)誤的關(guān)鍵幀,因?yàn)檎G闆r下目標(biāo)在序列圖像中的運(yùn)動(dòng)應(yīng)該是連續(xù)且規(guī)律的,如某幀圖像前后兩幀標(biāo)注距離與之前相差較大則將此幀圖像作為關(guān)鍵幀。判斷條件如下:
式中:d表示第張圖像預(yù)測(cè)目標(biāo)與前一幀圖像預(yù)測(cè)目標(biāo)的標(biāo)注距離,為常數(shù)。如果當(dāng)前幀目標(biāo)的d遠(yuǎn)超其歷史平均值,則將其判斷為關(guān)鍵幀。
對(duì)半自動(dòng)標(biāo)注算法而言,目前缺乏系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)。因此本課題采用經(jīng)過(guò)反復(fù)校驗(yàn)的手工標(biāo)注信息作為實(shí)驗(yàn)的真值信息,標(biāo)注位置為點(diǎn)目標(biāo)上像素值最大的位置,標(biāo)注形式為點(diǎn)標(biāo)注。本文選擇了公開(kāi)數(shù)據(jù)集[14]的8個(gè)目標(biāo)符合大小數(shù)據(jù)段進(jìn)行測(cè)試,數(shù)據(jù)集為多種復(fù)雜環(huán)境下采集的無(wú)人機(jī)序列圖像,數(shù)據(jù)集基本信息如表1所示。
2.2.1 不同場(chǎng)景下的目標(biāo)增強(qiáng)算法
本文選取了多個(gè)典型實(shí)測(cè)場(chǎng)景測(cè)試紅外目標(biāo)增強(qiáng)算法的適應(yīng)性。在這幾種場(chǎng)景中,紅外點(diǎn)目標(biāo)分別受到探測(cè)距離遠(yuǎn)、遮擋、高亮噪聲等影響,目標(biāo)所在位置的信息很容易被噪聲淹沒(méi)。
圖6為不同場(chǎng)景下的增強(qiáng)算法的效果,如圖6(a)場(chǎng)景所示,此場(chǎng)景目標(biāo)的探測(cè)距離較近,亮度信息較強(qiáng),且此時(shí)的攝像頭沒(méi)有快速運(yùn)動(dòng),可以觀察到3維灰度圖中的目標(biāo)區(qū)域(黑點(diǎn)所在位置)的能量明顯增強(qiáng),且沒(méi)有很多的雜波,另一個(gè)能量較強(qiáng)的區(qū)域是因?yàn)橄鄼C(jī)本身不正常的感光單元形成的,但是它在后續(xù)跟蹤構(gòu)成中并不會(huì)落在檢測(cè)區(qū)域,并不會(huì)影響后續(xù)跟蹤過(guò)程。場(chǎng)景(d)是因?yàn)槟繕?biāo)受到遮擋導(dǎo)致其輻射亮度減弱以及樹(shù)葉的晃動(dòng),因此目標(biāo)增強(qiáng)圖的背景仍會(huì)存留一部分噪聲、場(chǎng)景(g)存有一部分噪聲的原因是攝像機(jī)的快速移動(dòng),場(chǎng)景(j)存在的噪聲主要為高亮背景的邊緣信息。在面對(duì)各種復(fù)雜的紅外弱小目標(biāo)探測(cè)背景和環(huán)境時(shí),此目標(biāo)增強(qiáng)算法雖不能徹底消除背景噪聲。但是與原圖相比,增強(qiáng)目標(biāo)沒(méi)有被噪聲淹沒(méi),能夠提供更多的信息用來(lái)區(qū)分它和噪聲,保證在進(jìn)行目標(biāo)跟蹤時(shí),目標(biāo)所在區(qū)域能夠及時(shí)有效地響應(yīng)跟蹤器。因此,無(wú)論背景有較強(qiáng)的邊緣噪聲、存在運(yùn)動(dòng)的干擾背景還是目標(biāo)由于遮擋導(dǎo)致自身成像灰度降低,抑或是相機(jī)的運(yùn)動(dòng)導(dǎo)致的噪聲,此方法都能夠明顯增強(qiáng)目標(biāo)區(qū)域的辨識(shí)度,消除檢測(cè)區(qū)域中的強(qiáng)噪聲的干擾。
表1 數(shù)據(jù)集的基本信息
圖6 不同場(chǎng)景下的目標(biāo)增強(qiáng)算法:(a)(d)(g)(j)原圖;(b)(e)(h)(k)原圖的三維灰度圖;(c)(f)(i)(l)增強(qiáng)圖的三維灰度圖
2.2.2 半自動(dòng)標(biāo)注算法對(duì)比實(shí)驗(yàn)
目標(biāo)的初始位置都是手動(dòng)標(biāo)注,使其完全包圍需要跟蹤的目標(biāo),對(duì)于3×3個(gè)像素矩陣以下的紅外點(diǎn)目標(biāo)來(lái)說(shuō),直接進(jìn)行KCF目標(biāo)跟蹤失敗率很高,使用本文的增強(qiáng)方法在差分圖上進(jìn)行跟蹤能有效提升跟蹤的成功率。圖7為本文算法與原始KCF對(duì)紅外點(diǎn)目標(biāo)跟蹤部分結(jié)果對(duì)比圖,如圖7所示,藍(lán)色框?yàn)槌跏伎?,白色框?yàn)楦櫩?,綠色圓圈是以跟蹤得到的點(diǎn)標(biāo)注為中心進(jìn)行繪制,上面兩行為data5,下面兩行為data11。對(duì)于遠(yuǎn)距離探測(cè)的data5來(lái)說(shuō),因?yàn)槟繕?biāo)提供的信息太少,跟蹤框從第二幀就開(kāi)始發(fā)生偏移,到第21幀就徹底跟蹤失敗。對(duì)于data11來(lái)說(shuō),由于最開(kāi)始目標(biāo)的位置較近,目標(biāo)的輻射信息較強(qiáng),直接使用KCF跟蹤目標(biāo)成功跟蹤了79幀,但是目標(biāo)一旦運(yùn)動(dòng)到具有較高輻射信息的背景區(qū)域時(shí)就會(huì)跟蹤失敗。但是在使用本文提出的增強(qiáng)方法的數(shù)據(jù)上進(jìn)行跟蹤,將得到的跟蹤框映射到原圖,可以發(fā)現(xiàn)目標(biāo)無(wú)論是被遠(yuǎn)距離探測(cè)(成像面積小且輻射強(qiáng)度弱),還是經(jīng)過(guò)較為復(fù)雜的背景區(qū)域?qū)е履繕?biāo)和背景的灰度對(duì)比度下降,都能準(zhǔn)確地跟蹤到目標(biāo)。因此,本文提出的紅外運(yùn)動(dòng)點(diǎn)目標(biāo)增強(qiáng)方法能夠有效地提高KCF對(duì)紅外運(yùn)動(dòng)點(diǎn)目標(biāo)跟蹤的成功率。
本文通過(guò)KCF跟蹤和相位譜重構(gòu)得到紅外點(diǎn)目標(biāo)的標(biāo)注位置,表2為在人工標(biāo)注首幀的情況下算法的正確率(Accuracy),此正確率是與人工標(biāo)注的真值信息相比,與人工標(biāo)注結(jié)果相同則為正確,否則為標(biāo)注失敗,其中每個(gè)數(shù)據(jù)段的總幀數(shù)(number of frames, NF)及人工標(biāo)注的幀數(shù)(number of manual annotations, NMA)都在表中給出。使用本文提出的自動(dòng)標(biāo)注算法,能夠得到較高的標(biāo)注準(zhǔn)確率。如表2所示,除data13以及data15以外在人手工只標(biāo)注一幀的情況下都能達(dá)到97%以上的標(biāo)注精度。Data13錯(cuò)誤較多的原因是目標(biāo)在飛入樹(shù)林以后目標(biāo)的輻射信息減弱,且目標(biāo)距離鏡頭較遠(yuǎn),融合之后形成的運(yùn)動(dòng)軌跡非常短,因此易被噪聲干擾,雖然此類(lèi)噪聲具有一定的隨機(jī)性,當(dāng)其減弱后便能重新尋回目標(biāo)。Data15是因?yàn)槟繕?biāo)的機(jī)動(dòng)性強(qiáng),因此目標(biāo)經(jīng)常出現(xiàn)不連續(xù)運(yùn)動(dòng),導(dǎo)致跟蹤算法只能跟蹤目標(biāo)軌跡的一部分,所以正確率較低。
圖7 跟蹤結(jié)果對(duì)比
在花費(fèi)最少的時(shí)間與人工代價(jià)的前提下,進(jìn)一步提高標(biāo)注數(shù)據(jù)集的準(zhǔn)確率。按1.4節(jié)所示方法,選擇關(guān)鍵幀。各個(gè)數(shù)據(jù)集的錯(cuò)誤幀數(shù)(number of errors, NE)、算法選擇的關(guān)鍵幀數(shù)(number of keyframes, NK)以及關(guān)鍵幀中準(zhǔn)確查找錯(cuò)誤幀的數(shù)量(number of correct keyframes, NCK)都如表3所示,表3中的標(biāo)注正確率表示為在加入關(guān)鍵幀選擇策略之后半自動(dòng)標(biāo)注算法能達(dá)到的正確率。其中data15數(shù)據(jù)集錯(cuò)誤56幀圖像,其中有51幀圖像為可以被糾正的數(shù)據(jù),雖然關(guān)鍵幀策略并沒(méi)有將錯(cuò)誤幀全部選擇出來(lái),因?yàn)榇岁P(guān)鍵幀只是以前后幀的聯(lián)系作為判斷條件,比如對(duì)data15提取關(guān)鍵幀時(shí),提取的關(guān)鍵幀幀號(hào)為340及343,但是出現(xiàn)錯(cuò)誤的幀為341及342,所以此方法能判斷某位置出現(xiàn)異常,但是不一定能準(zhǔn)確返回幀號(hào),此種情況多次發(fā)生,因此在用此標(biāo)注方法可以關(guān)注返回關(guān)鍵幀的相鄰幀,能得到比表3更加優(yōu)異的結(jié)果。盡管如此,本文設(shè)計(jì)的關(guān)鍵幀選擇策略仍然能以較低的時(shí)間與人工代價(jià)進(jìn)一步提升數(shù)據(jù)集的標(biāo)注質(zhì)量,提升標(biāo)注效率。
本文通過(guò)與手動(dòng)標(biāo)注的時(shí)長(zhǎng)相比評(píng)價(jià)算法的效率,半自動(dòng)標(biāo)注算法處理一幀平均時(shí)間為1.2s,但是手動(dòng)標(biāo)注一幀圖像約為7s,此算法在實(shí)際標(biāo)注作業(yè)中能夠大大減少標(biāo)注時(shí)長(zhǎng),縮短標(biāo)注周期。
2.2.3 定位精度與誤差分析
本文提出的算法對(duì)紅外點(diǎn)目標(biāo)進(jìn)行標(biāo)注,本數(shù)據(jù)集為各種背景下的無(wú)人機(jī)小目標(biāo),無(wú)人機(jī)的機(jī)頭位置一般為高亮區(qū)域,機(jī)翼的亮度與背景區(qū)域相近。本文提出的標(biāo)注算法可以高效標(biāo)注目標(biāo)的高亮位置,得到像素級(jí)的點(diǎn)標(biāo)注。圖8表示各種場(chǎng)景下目標(biāo)的形態(tài)以及標(biāo)注坐標(biāo)的位置,如圖8所示,綠色點(diǎn)為本算法得到的標(biāo)注位置,它為目標(biāo)區(qū)域中最亮的點(diǎn)。但是,由經(jīng)驗(yàn)豐富的標(biāo)注人員可以判斷,紅色點(diǎn)所在位置其實(shí)也屬于飛機(jī)的機(jī)頭位置,但是由于它在成像過(guò)程中亮度低于本文的標(biāo)注位置,無(wú)法被標(biāo)注出來(lái)。因此,本文的標(biāo)注算法可以得到像素級(jí)的點(diǎn)標(biāo)注,標(biāo)注對(duì)象為目標(biāo)上最亮的點(diǎn),與經(jīng)驗(yàn)豐富的標(biāo)注人員相比,本文算法無(wú)法得到更加精細(xì)的紅外點(diǎn)目標(biāo)分割圖。
表2 給出首幀標(biāo)注信息的標(biāo)注結(jié)果
表3 半自動(dòng)標(biāo)注結(jié)果
圖8 標(biāo)注精度與誤差對(duì)比
針對(duì)紅外弱小目標(biāo)數(shù)據(jù)集標(biāo)注周期長(zhǎng)、標(biāo)注質(zhì)量難把控等問(wèn)題,提出了一種基于目標(biāo)增強(qiáng)和視覺(jué)跟蹤的紅外運(yùn)動(dòng)點(diǎn)目標(biāo)標(biāo)注算法,該算法首先利用目標(biāo)的運(yùn)動(dòng)信息對(duì)弱小的紅外點(diǎn)目標(biāo)增強(qiáng),然后利用改進(jìn)的KCF算法和相位譜重構(gòu)實(shí)現(xiàn)對(duì)紅外點(diǎn)目標(biāo)的精確定位,同時(shí)在跟蹤過(guò)程中算法將可能發(fā)生標(biāo)注錯(cuò)誤的圖像幀返回給人進(jìn)行校驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的算法能夠在保證數(shù)據(jù)集質(zhì)量的同時(shí)降低人的參與度、提高標(biāo)注效率、縮短標(biāo)注周期。
[1] Yuen J, Russell B, Liu C, et al. Labelme video: building a video database with human annotations[C]// 12(ICCV),, 2009: 1451-1458.
[2] Lee J H, Lee K S, Jo G S. Representation method of the moving object trajectories by interpolation with dynamic sampling[C]//2013(ICISA),, 2013: 1-4.
[3] Gil-Jiménez P, Gómez-Moreno H, López-Sastre R, et al. Geometric bounding box interpolation: an alternative for efficient video annotation[J]., 2016, 2016(1): 1-13.
[4] Vondrick C, Patterson D, Ramanan D. Efficiently scaling up crowdsourced video annotation[J]., 2013, 101(1): 184-204.
[5] Vondrick C, Ramanan D. Video annotation and tracking with active learning[J]., 2011, 24: 28-36.
[6] Buchanan A, Fitzgibbon A. Interactive feature tracking using K-D trees and dynamic programming[C]//(CVPR),, 2006: 626-633.
[7] Agarwala A, Hertzmann A, Salesin D H, et al. Key frame-based tracking for rotoscoping and animation[J]., 2004, 23(3): 584-591.
[8] Biresaw T A, Nawaz T, Ferryman J, et al. Vitbat: video tracking and behavior annotation tool[C]//13th(AVSS),, 2016: 295-301.
[9] Bakliwal P, Hegde G M, Jawahar C V. Collaborative Contributions for Better Annotations[C]//(VISAPP), Scite Press, 2017: 353-360.
[10] CHEN B, LING H, ZENG X, et al. Scribblebox: interactive annotation framework for video object segmentation[C]//(ECCV), Berlin Springer, 2020: 293-310.
[11] Lowe D G. Distinctive image features from scale-invariant keypoints[J]., 2004, 60(2): 91-110.
[12] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]., 2014, 37(3): 583-596.
[13] WANG M, LIU Y, HUANG Z. Large margin object tracking with circulant feature maps[C]//(CVPR), New York: IEEE, 2017: 4021-4029.
[14] 回丙偉, 宋志勇, 范紅旗, 等. 地/空背景下紅外圖像弱小飛機(jī)目標(biāo)檢測(cè)跟蹤數(shù)據(jù)集[J]. 中國(guó)科學(xué)數(shù)據(jù), 2020, 5(3): 286-297.
HUI Bingwei, SONG Zhiyong, FAN Hongqi, et al. A dataset for infrared detection and tracking of dim-small aircraft targets under ground/air background[J]., 2020, 5(3): 286-297.
Infrared Moving-point Target Semi-Automatic Labeling Algorithm Based on Target Enhancement and Visual Tracking
HE Min,HUI Bingwei,YI Mengni,HU Weidong
(,,,410073,)
Infrared video data annotation has the problems of low efficiency and poor quality. In this paper, a semi-automatic labeling method for moving point targets in infrared sequence images is proposed based on target enhancement and visual tracking to solve it. First, infrared sequence images in a continuous period of time were registered and fused to enhance the target features. Second, a visual tracking algorithm was utilized to locate the fused features efficiently and automatically. Lastly, a saliency map was obtained through phase spectrum reconstruction, and the exact coordinates of a target were obtained. During automatic annotation, the difference between the annotation results of adjacent frames was used to select key frames, which enabled the annotators to locate the image frames that had errors and manually annotated them quickly. The results of the experiments showed that the algorithm significantly reduced the participation of annotators and effectively solved the problems of long period and poor quality assurance in data annotation.
semi-automatic annotations, infrared point target, visual tracking, image sequences
TP391
A
1001-8891(2022)10-1073-09
2021-10-11;
2021-12-08.
何敏(1997-),女,湖南邵陽(yáng)人,碩士,主要研究方向?yàn)榧t外目標(biāo)檢測(cè)。E-mail:douyc2021@163.com。
回丙偉(1985-),男,河北衡水人,博士,講師,主要研究方向?yàn)槟繕?biāo)識(shí)別數(shù)據(jù)樣本工程。E-mail:huibingwei07@nudt.edu.cn
ATR重點(diǎn)實(shí)驗(yàn)室基金“面向目標(biāo)檢測(cè)跟蹤識(shí)別應(yīng)用的多源數(shù)據(jù)集構(gòu)建”項(xiàng)目。