国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力卷積長短時記憶網(wǎng)絡(luò)的弱小目標軌跡檢測

2020-12-23 09:12:24楊其利周炳紅李明濤
光學(xué)精密工程 2020年11期
關(guān)鍵詞:短時記憶紅外注意力

楊其利,周炳紅,鄭 偉,李明濤

(1.中國科學(xué)院 國家空間科學(xué)中心,北京 100190;2.中國科學(xué)院大學(xué) 工程科學(xué)學(xué)院,北京 100049)

1 引 言

紅外弱小目標的軌跡檢測是紅外導(dǎo)引的一項關(guān)鍵技術(shù)。基于紅外序列圖像的弱小目標運動軌跡提取技術(shù)是對成像傳感器采集的圖像序列進行特征提取,并根據(jù)這些特征對圖像序列中的小目標進行關(guān)聯(lián)、匹配,得到運動目標的運動軌跡。近地天體大多距離地球遙遠,尺寸小且亮度低,難以被有效探測到,其信息采集主要依靠望遠鏡(可見光和紅外)和雷達等天文觀測設(shè)備,目前紅外探測技術(shù)已被引入到近地天體預(yù)警和監(jiān)測任務(wù)中。紅外場景的目標檢測和提取可以全天時工作,在小天體探測、導(dǎo)彈制導(dǎo)及戰(zhàn)場偵察等航空航天領(lǐng)域具有重要的地位。

傳統(tǒng)有效的方法是在多幀圖像序列中首先估計目標的運動軌跡,沿軌跡進行目標能量積累,然后對積累后的圖像進行檢測判決。由于目標能量在連續(xù)幀圖像之間是相關(guān)的,而噪聲在連續(xù)幀之間是不相關(guān)的,因而沿目標軌跡的能量積累將遠遠大于非目標軌跡上的能量積累,在積累后的圖像上進行判決將有較高的信噪比,得到較好的檢測性能。這種先估計軌跡后檢測目標的方法亦被稱作檢測前跟蹤(Track Before Detect, TBD)[1]技術(shù)。

Blostein等[2]的多階假設(shè)檢驗方法可以同時檢測多個線性運動目標,它將多個目標的軌跡組織成一棵樹的形式,然后利用假設(shè)檢驗方法對樹的每一層進行修剪,能夠有效地檢測單個目標的軌跡。這種算法的效率和直接軌跡匹配的算法相比,有數(shù)量級的顯著提高,但是需要在目標范圍內(nèi)將目標限制為均勻的直線運動,因此該方法的應(yīng)用受到限制。Liou等[3]提出了一種高階相關(guān)方法,該方法可以在目標數(shù)量、初始條件等未知的情況下,從有噪聲的三維圖像中檢測出直線或曲線軌跡,適用于不同雜波密度下的多目標檢測,但是它將灰度圖像轉(zhuǎn)化為二值圖像,轉(zhuǎn)化時若閾值選擇得較高則漏檢率高,導(dǎo)致航跡檢測失??;相反,運算量較大。Barniv等[4]提出的動態(tài)規(guī)劃方法,利用了分段優(yōu)化的思想,將目標軌跡搜索問題分解為分級優(yōu)化的問題,這種方法不僅可以檢測勻速運動的目標,而且也可以用于檢測機動運動的目標。然而,隨著目標信噪比的降低,基于動態(tài)規(guī)劃方法的性能下降非常明顯,且該方法空間復(fù)雜度較高算法實時性較差。Reed等[5]提出了三維匹配濾波方法,將弱小目標檢測問題轉(zhuǎn)化為三維空間上速度匹配的問題,并且通過理論推導(dǎo)獲得了頻域上最優(yōu)三維匹配濾波方程,但是三維匹配濾波器需要事先知道目標的灰度分布函數(shù)以及目標運動速度,在實際應(yīng)用中,這些參數(shù)很難事先得到。

深度學(xué)習方法在視覺目標跟蹤領(lǐng)域的巨大成功,為移植或搭建適用于紅外目標跟蹤的深度學(xué)習模型提供了可能。對于時空序列問題,近年來火熱的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的AlexNet[6],VGG[7],GoogleNet[8]等算法都無法解決。主要原因是以上3種算法代表的卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點是對結(jié)構(gòu)表征能力很強,缺點是局限于靜態(tài)圖,無法建模動態(tài)圖的時空序列問題。遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]很重要的一個用途是處理和預(yù)測序列數(shù)據(jù),可能在紅外場景下有所作為。對于缺乏形狀和紋理特征的紅外目標,可以嘗試利用紅外目標時間維度上的信息。長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[10]是遞歸神經(jīng)網(wǎng)絡(luò)的一種變體,它解決了網(wǎng)絡(luò)訓(xùn)練過程中梯度爆炸和消失的問題。Shi等[11]在結(jié)合了LSTM的序列處理能力和CNN的空間特征表達能力后,提出了能夠解決時空序列預(yù)測問題的卷積LSTM模型(Convolutional Long Short-Term Memory, ConvLSTM),這種結(jié)構(gòu)被用于處理降水臨近預(yù)報的序列圖像,特別適合于時空數(shù)據(jù)。張等[12]提出將ConvLSTM與3D卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,用于手勢識別任務(wù),考慮到手勢主要包含手的局部信息和手臂的全局運動信息,他使用3D卷積神經(jīng)網(wǎng)絡(luò)用于學(xué)習局部的短期時空特征,使用ConvLSTM學(xué)習長期時空特征,這種短期和長期時空特征相結(jié)合的學(xué)習方法在任務(wù)中取得了最佳的精度。人類的視覺注意力機制能夠幫助人眼在復(fù)雜的環(huán)境中快速定位至最感興趣的目標。謝等[13]提出一種基于注意力的網(wǎng)絡(luò)結(jié)構(gòu),用于檢測圖像的顯著區(qū)域,突出了圖像前景區(qū)域像素并抑制背景區(qū)域信息,實現(xiàn)了減少背景干擾的目的。

序列圖像目標軌跡提取,本質(zhì)上就是同時提取序列圖像中目標的時間維運動信息和空間維特征信息的過程。因此,受上述研究者的啟發(fā),本文針對連續(xù)15幀紅外圖像序列,提出一種將ConvLSTM,3D卷積核以及注意力機制結(jié)合在一起的網(wǎng)絡(luò)架構(gòu),充分利用紅外序列的時間維信息和空間維信息,實現(xiàn)紅外圖像序列弱小目標運動軌跡的檢測,其中3D卷積核用于提取短期時空信息,ConvLSTM用于提取序列的長期時空信息,注意力機制用于篩選與弱小目標運動軌跡相關(guān)的關(guān)鍵信息,同時忽略絕大部分不重要的背景信息。

2 注意力機制卷積長短時記憶網(wǎng)絡(luò)

2.1 長短時記憶神經(jīng)網(wǎng)絡(luò)

長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進形式,解決了原始遞歸網(wǎng)絡(luò)對于長時期依賴問題,即通過之前提到但是時間上較為久遠的內(nèi)容進行后續(xù)的推理和判斷。LSTM的基本思路是引入門控單元,來處理記憶單元的記憶、遺忘、輸入、輸出程度的問題,如圖1(a)所示,其基本單元被稱為記憶塊,由1個中心節(jié)點和3個門控單元組成。中心節(jié)點通常被稱為記憶細胞,用以存儲當前網(wǎng)絡(luò)狀態(tài),3個門控單元分別被稱為輸入門、輸出門和遺忘門,用以控制記憶塊內(nèi)信息流動。在前向傳播過程中,輸入門用以控制輸入到記憶細胞的信息流,輸出門用以控制記憶細胞到網(wǎng)絡(luò)其他結(jié)構(gòu)單元的信息流。在反向傳播過程中,輸入門用以控制迭代誤差流出記憶細胞,輸出門用以控制迭代誤差流入記憶細胞。而遺忘門則用以控制記憶細胞內(nèi)部的循環(huán)狀態(tài),決定信息的取舍或遺忘。通過這種門控機制,LSTM網(wǎng)絡(luò)得以控制單元內(nèi)信息流動,使其具備保存長時間信息的能力,即‘記憶’能力,在訓(xùn)練過程中能夠防止內(nèi)部梯度受外部干擾,避免了梯度彌散和梯度爆炸問題。設(shè)單個LSTM記憶塊的輸入向量為Xt,前向傳播公式可表述如下。

圖1 (a)長短時記憶網(wǎng)絡(luò),(b)卷積長短時記憶網(wǎng)絡(luò)

長期記憶單元Ct更新過程:

it=σ(WxiXt+WhiHt-1+bi),

(1)

ft=σ(WxfXt+WhfHt-1+bf),

(2)

(3)

(4)

短期記憶單元Ht更新過程:

ot=σ(WxoXt+WhoHt-1+bo),

(5)

Ht=ot°tanhCt,

(6)

其中ot表示輸出門,控制著短期記憶如何受長期記憶影響。

單個LSTM記憶快的輸出Ct,Ht循環(huán)作為記憶快的輸入輸出,即第t-1時刻記憶快輸出Ct-1,Ht-1為t時刻LSTM記憶快的輸入值,此為層內(nèi)循環(huán)。層內(nèi)各時刻LSTM記憶快共用相同權(quán)重參數(shù)W~和偏置系數(shù)b~,因此,單層LSTM網(wǎng)絡(luò)可以看作單個LSTM記憶快輸入輸出值的循環(huán)計算。此外,短期記憶Ht還作為下一個LSTM記憶快的輸入?yún)⑴c到該層循環(huán)計算中,此為層間計算。

2.2 卷積長短時記憶網(wǎng)絡(luò)

Shi等[11]針對雷達回波序列圖像,提出了卷積長短時記憶網(wǎng)絡(luò)(Convolutional Long Short Term Memory Networks, ConvLSTM),解決了臨近降水預(yù)測問題。此后,ConvLSTM已被應(yīng)用于動作識別[14]、手勢識別[12]和其他領(lǐng)域[15],這些數(shù)據(jù)都有很強的時空相關(guān)特性。

如圖1(b)所示,ConvLSTM單元與LSTM單元具有同樣的3個門控制單元和1個中心節(jié)點,分別是:輸入門、遺忘門、輸出門和記憶細胞。最大的不同是在當前時刻的輸入與短期記憶結(jié)合后進行了單層卷積計算,這個不同點是提取空間結(jié)構(gòu)信息的關(guān)鍵。ConvLSTM可以描述為:

it=σ(Wxi*Xt+Whi*Ht-1+bi),

(7)

ft=σ(Wxf*Xt+Whf*Ht-1+bf),

(8)

ot=σ(Wxo*Xt+Who*Ht-1+bo),

(9)

(10)

(11)

Ht=ot°tanhCt,

(12)

ParamConvLSTM=K×K×(Cin+Cout)×Cout×4.

(13)

在繼承全連接LSTM算法強大的時間相關(guān)性處理能力的基礎(chǔ)上,通過增加一層卷積結(jié)構(gòu)解決了原算法的空間數(shù)據(jù)冗余的問題,實現(xiàn)了空間結(jié)構(gòu)的表征能力。

2.3 3D卷積神經(jīng)網(wǎng)絡(luò)

3D卷積神經(jīng)網(wǎng)絡(luò)在2D卷積神經(jīng)網(wǎng)絡(luò)[19]的基礎(chǔ)上改變而來,主要運用在視頻分類[16]、動作識別[17]、醫(yī)療診斷[18]等領(lǐng)域。3D卷積是通過堆疊多個連續(xù)幀組成一個立方體,然后在立方體中運用3D卷積核。通過這種結(jié)構(gòu),卷積層中的特征圖都會與上一層中的多個相鄰幀相連,從而捕獲運動信息。如圖2所示,一個特征圖某個位置的值是通過卷積上一層的連續(xù)三組特征圖的同一位置的局部感受野得到的。通過對連續(xù)的三組特征圖進行卷積處理,得到一組3D的特征圖。

圖2 相同的3D卷積核應(yīng)用于輸入視頻中的重疊立方體以提取運動特征[17]

在構(gòu)造3D卷積層時,首先建立一組小的3D卷積特征提取器,掃描輸入來獲取更高層次的特征表示。使用不同的卷積核與輸入特征做卷積操作來生成新的特征體。3D卷積操作的函數(shù)表示為:

(14)

2.4 采用注意力機制的卷積長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)

2.4.1 基于注意力機制的ConvLSTM

為了研究不同的門控單元與注意力機制組合后的特性,本文使用了兩種卷積長短時記憶單元的變體,由于結(jié)構(gòu)中引入了注意力機制[20],考慮到結(jié)構(gòu)的計算量會有所增加,且并不是所有門控單元都需要卷積操作,因此,兩種變體的結(jié)構(gòu)中將部分門控單元改為全連接操作。

第一種變體,如圖3(a)所示,在ConvLSTM的基礎(chǔ)上,將ConvLSTM的遺忘門、輸出門的卷積操作改為全連接操作,由于輸入Xt和上一時刻的短期記憶Ht-1為二維張量特征映射,需要通過全局最大池化的方式將其變?yōu)橐痪S向量,并且在輸入門it中增加了注意力機制。并將這種結(jié)構(gòu)稱為基于輸入門注意力機制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Input Gate, AIConvLSTM)。Sigmoid激活函數(shù)使門值處在0~1范圍內(nèi)。輸入門和其他門控單元可以重新定義為:

(15)

(16)

Zt=Wi*tanh(Wxi*Xt+Whi*Ht-1+bi),

(17)

(18)

(19)

(20)

(21)

(22)

(23)

Ht=ot°tanhCt,

(24)

圖3 (a)輸入門注意機制的卷積長短時記憶單元,(b)輸出門注意機制的卷積長短時記憶單元

第二種變體,如圖3(b)所示,也是在ConvLSTM的基礎(chǔ)上,將輸入門、遺忘門的卷積操作改為全連接操作,但是注意力機制位于輸出門的位置。將這種結(jié)構(gòu)稱為基于輸出門注意力機制的卷積長短時記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Output Gate, AOConvLSTM)。輸出門和其他門控單元可以重新定義為:

(25)

(26)

(27)

(28)

Zt=Wo*tanh(Wxo*Xt+Who*Ht-1+bo),

(29)

(30)

(31)

(32)

(33)

Ht=ot°tanhCt,

(34)

2.4.2 模型設(shè)計

本文的網(wǎng)絡(luò)結(jié)構(gòu)引入了3D卷積核和帶有注意力機制的卷積長短時記憶單元。3D卷積核用于提取輸入圖像序列的時間和空間特征,而帶有注意力機制的卷積長短時記憶單元用于進一步學(xué)習時空特征的關(guān)聯(lián)信息,并且過濾掉與任務(wù)無關(guān)的信息。如圖4所示,模型包含10個可調(diào)參數(shù)層,輸入層接收連續(xù)15幀尺寸為48×48的圖像序列。為了研究不同變體的卷積長短時記憶單元的特性,本文將該模型作為主體架構(gòu)。

第一階段,特征提取層,利用不同的3D卷積核對原始輸入的15幀連續(xù)圖像序列分別進行卷積操作,初步提取多幀圖像關(guān)于弱小目標運動軌跡的特征。3D卷積核的時間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1,后接ReLU激活函數(shù)和批標準化層。

第二階段,雙支路3D卷積融合模塊,該模塊包含兩個3D卷積支路,共3個3D卷積層,每個卷積層后跟ReLU激活函數(shù)和批標準化層,兩個支路通過“串聯(lián)”操作進行信息融合。其中一個支路包含一個3D卷積層和批標準化層,另一個支路包含兩個串聯(lián)的3D卷積層和批標準化層。這一階段的主要目的是通過兩個分支網(wǎng)絡(luò)對第一個3D卷積層得到的特征信息進行提取和抽象,并通過“串聯(lián)”操作融合不同抽象程度的時空特征。該階段所有3D卷積核都采用時間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1的參數(shù)設(shè)置。

圖4 基于注意力機制的卷積長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)

第三階段,3D卷積層,這一層采用時間維為3,空間維為3×3,卷積核數(shù)為32,跨距和零填充都為1×1×1的3D卷積核,后接ReLU激活函數(shù)。該層通過減小卷積核數(shù)量,進一步抽象圖像序列的信息,有效減少特征圖的數(shù)量,并為下一卷積長短時記憶模塊的輸入做準備,降低計算時間。以上多層3D卷積層都學(xué)習到了局部的短期時空特征。

第四階段,注意力卷積長短時記憶(Convolutional Long Short-term Memory with Attention Mechanism, AConvLSTM)模塊,該模塊由兩層改進的卷積長短時記憶單元堆疊而成,用于學(xué)習圖像序列的長期時空特征圖,能夠很好地模擬特征信息的時空關(guān)系。卷積核大小設(shè)置為3×3,跨距和零填充都為1×1,核數(shù)為32。由于在卷積核中都使用了“零”填充,因此AConvLSTM在不同階段的時空特征都具有相同的空間大小,即AConvLSTM的輸出特征圖空間尺寸依然為48×48。

第五階段,3D卷積模塊,該模塊由3個3D卷積層組成。所有3D卷積核的時間維設(shè)置為3,空間維為3×3,跨距和零填充都為1×1×1,前兩層卷積核數(shù)為16,后接ReLU激活函數(shù)。由于弱小目標軌跡檢測任務(wù)是一個二分類問題,最后一層3D卷積層輸出網(wǎng)絡(luò)的預(yù)測,因此,卷積核數(shù)為1,后接Sigmoid激活函數(shù)。

2.4.3 模型實現(xiàn)

本實驗使用Google開源的Keras框架來實現(xiàn),使用的訓(xùn)練數(shù)據(jù)集為仿真的視頻數(shù)據(jù),包括3 000個數(shù)據(jù)維度為48×48×15的紅外圖像序列,測試樣本來自5個紅外圖像序列。實驗的硬件環(huán)境是:CPU為Intel(R) Xeon(R) Silver 4114 CPU @ 2.20 GHz,內(nèi)存為32 GB,系統(tǒng)類型為64位Windows10 操作系統(tǒng),網(wǎng)絡(luò)采用帶動量參數(shù)的隨機梯度下降法進行訓(xùn)練:

(35)

其中:mom為動量參數(shù),Δwi是參數(shù)w第i輪的更新量,lri+1是當前的學(xué)習率,L是損失函數(shù),wc是權(quán)重衰減系數(shù)。動量參數(shù)可以加快收斂速度,這里動量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 5,總共迭代120代,初始學(xué)習率為0.001,每隔20代下降0.000 2,每一次學(xué)習的樣本數(shù)量(batch size)設(shè)置為2。使用的損失函數(shù)為交叉熵損失函數(shù),它是語義分割問題中常用的損失函數(shù),其數(shù)學(xué)表達式為:

(36)

3 實驗設(shè)置

在本節(jié)中,本文提出的模型將在5個紅外圖像序列上進行測試和評估。首先簡要描述模型訓(xùn)練用到的訓(xùn)練數(shù)據(jù)集以及5個紅外圖像序列測試集。然后介紹了用于衡量模型性能的評價指標。

3.1 數(shù)據(jù)集描述

本文所使用的訓(xùn)練數(shù)據(jù)集是在一段不含目標的紅外視頻中,人工加入高斯信號構(gòu)造的仿真數(shù)據(jù)集。首先對每幅圖像隨機生成坐標點,提取48×48區(qū)域作為背景樣本。然后將二維高斯強度模型作為目標樣本添加到背景樣本中。二維高斯模型如下:

(37)

其中:(x0,y0)是圖像目標的中心,s(i,j)是目標在圖像位置(i,j)的像素值。生成目標的強度sE是介于0到1之間的隨機數(shù),σx和σy是高斯分布標準差。利用不同的參數(shù)可以產(chǎn)生不同信噪比的弱小目標,相鄰的兩幀圖像中的目標中心間隔1個像元,每次生成連續(xù)的15幀圖像序列。本文生成的目標信噪比介于1~5 dB,訓(xùn)練樣本如圖5所示。測試集是5個紅外圖像序列,用于驗證所提算法的有效性,前3個序列來自真實序列,后兩個序列為仿真序列,其詳細描述如表1所示。

圖5 紅外圖像序列仿真數(shù)據(jù)集

表1 五個真實圖像序列的細節(jié)描述

3.2 度量指標

實驗使用了4種度量方法:均方根誤差,平均絕對誤差,峰值信噪比和結(jié)構(gòu)相似度。

均方根誤差(Root Mean Square Error, RMSE)是預(yù)測值與真值偏差的評分和觀測次數(shù)比值的平方根,對一組測量中的特大或特小的誤差反映特別敏感。因此,均方根誤差能夠很好地反映出測量精密度。其數(shù)學(xué)表達式如下:

(38)

其中:Xij,Yij分別表示網(wǎng)絡(luò)輸出觀測圖像X和真值圖像Y中位于(i,j)位置像素的值,R,C分別表示圖像的高度和寬度。

平均絕對誤差(Mean Absolute Error, MAE)是觀測值與真值絕對誤差的平均。平均絕對誤差由于離差被絕對值化,不會出現(xiàn)正負相抵消的情況。因而,平均絕對誤差能夠更好地反映預(yù)測值誤差的實際情況:

(39)

其中:變量Xij,Yij,R,C含義同RMSE一樣。RMSE相當于L2范數(shù),MAE相當于L1范數(shù)。次數(shù)越高,計算結(jié)果就越與較大的離差值有關(guān),而忽略較小的離差值。這就是RMSE針對預(yù)測值更加敏感的原因。

峰值信噪比(Peak Signal to Noise Ratio, PSNR)是經(jīng)常用于圖像壓縮、超分辨率圖像重建等領(lǐng)域中信號重建質(zhì)量的評價方法,它通過均方根誤差進行定義,單位為分貝(dB):

(40)

式中變量Xij,Yij,R,C含義同RMSE一樣。PSNR是最普遍和使用最為廣泛的一種圖像客觀評價指標,它是基于對應(yīng)圖像像素點的誤差,即基于誤差敏感的圖像質(zhì)量評價指標,數(shù)值越大表示失真越小。

結(jié)構(gòu)相似度(Structural Similarity Index, SSIM)也是一種全參考的圖像質(zhì)量評價指標,它分別從亮度、對比度、結(jié)構(gòu)三方面度量圖像的相似性:

(41)

(42)

(43)

(44)

(45)

其中:μX,μY分別表示觀測圖像X和真值圖像Y像素的均值,R,C分別表示圖像的高度和寬度。σX,σY分別表示觀測圖像X和真值圖像Y的標準差,σXY表示圖像X和Y的協(xié)方差,為了避免分母為0,C1,C2通常設(shè)置為常數(shù),這里C1=(K1L)2,C2=(K2L)2,K1=0.01,K2=0.03,L=255。

3.3 基準模型

為了分析注意力機制卷積長短時記憶單元的特性,本文構(gòu)造了兩種不同的注意力卷積長短時記憶網(wǎng)絡(luò)模型,第一個模型是將圖4架構(gòu)中的注意力卷積長短時記憶模塊中的兩層AConvLSTM都替換為AIConvLSTM,稱這個模型為3D-AIConvLSTM,第二個模型是將圖4架構(gòu)中的兩層AConvLSTM都替換為AOConvLSTM,稱這個模型為3D-AOConvLSTM。另外構(gòu)造了兩種基準模型與它們進行了對比試驗。第一個基準模型是將圖4主體架構(gòu)中的兩層AConvLSTM替換為兩層時間維為3,空間維為3×3,核數(shù)為32,跨距和零填充都為1×1×1的3D卷積層,稱這個基準模型為3DCNN。第二個基準模型是將主體架構(gòu)中的兩層AConvLSTM都替換為ConvLSTM,稱這個模型為3D-ConvLSTM。

圖6 四種模型在8個紅外短序列的弱小目標軌跡提取結(jié)果

4 實驗結(jié)果分析與模型對比

圖6展示了不同軌跡檢測方法對8個連續(xù)15幀紅外圖像短序列的軌跡提取結(jié)果,其中,紅色矩形框標注了紅外圖像真實目標的位置,粉色矩形框標注了不同方法對目標運動軌跡提取的結(jié)果(彩圖見期刊電子版)。第1列展示了8個短序列的首幀圖像,其中圖6中1-A與1-B為來自序列1的紅外圖像,2-C與2-D為來自序列2的紅外圖像,3-E與3-F為來自序列3的紅外圖像,4-G與5-H分別來自序列4、序列5的紅外圖像。第2列展示了對應(yīng)紅外短序列小目標的真實運動軌跡,第3列至第6列分別展示了3DCNN方法、3D-ConvLSTM方法、3D-AIConvLSTM方法和3D-AOConvLSTM方法對8個短序列的檢測結(jié)果。

由圖6可知,3DCNN方法的軌跡提取長度要短于真實的運動軌跡,背景中殘留了大量的噪聲和雜波。3D-ConvLSTM方法提取的軌跡非常接近真實的目標運動軌跡,但背景中殘留的噪聲和雜波要比3DCNN更多,特別是1-A,1-B,4-G,5-H的檢測結(jié)果,兩種方法都殘留了大量的雜波和噪聲。3D-AIConvLSTM的結(jié)果顯示,其雜波殘留非常少,效果要優(yōu)于3DCNN和3D-ConvLSTM方法的結(jié)果,且提取的目標運動軌跡也接近真實軌跡,但對于2-D和3-E的短序列處理結(jié)果,其軌跡出現(xiàn)了斷點,即目標運動軌跡不連續(xù)。3D-AOConvLSTM方法的處理結(jié)果,展示了其提取的目標軌跡不僅非常接近真實軌跡,其連續(xù)的運動軌跡,效果要優(yōu)于3D-AIConvLSTM方法,背景中的噪聲和雜波也殘留非常少,效果優(yōu)于3DCNN方法和3D-ConvLSTM方法。因此,基于輸出門注意力機制的卷積長短時記憶網(wǎng)絡(luò)模型(3D-AOConvLSTM)能夠很好地提取復(fù)雜背景下弱小目標的運動軌跡。

為了客觀地描述本方法的優(yōu)勢,本文還在5個紅外圖像序列,計算了均方根誤差(RMSE),平均絕對誤差(MAE),峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)等4個度量指標,用于衡量上述4種軌跡提取方法的性能,表2~表5展示了不同方法對于5個紅外圖像序列在4個度量指標上的均值。

表2 四種軌跡提取方法在不同序列上的均方根誤差

表3 四種軌跡提取方法在不同序列上的平均絕對誤差

表4 四種軌跡提取方法在不同序列上的峰值信噪比

表5 四種軌跡提取方法在不同序列上的結(jié)構(gòu)相似度

由表2~表5所示,基于輸出門注意力機制的卷積長短時記憶網(wǎng)絡(luò)(3D-AOConvLSTM)除了在序列1紅外圖像上的結(jié)構(gòu)相似度指標上,與取得該指標最優(yōu)值的3DAI-ConvLSTM方法僅相差0.000 2,在序列5紅外圖像上的均方根誤差和峰值信噪比取得次優(yōu)結(jié)果之外,在5個序列上的其他度量指標均達到了最優(yōu)的結(jié)果。

表6展示了4種軌跡方法的參數(shù)容量,2種基于注意力機制的卷積長短時記憶網(wǎng)絡(luò),即3D-AIConvLSTM和3D-AOConvLSTM的參數(shù)數(shù)量最少,均只有432 560個參數(shù),少于3DCNN和3D-ConvLSTM的參數(shù)量。

為了展示整個序列的弱小目標運動軌跡,本文通過在時間維上疊加同一序列所有軌跡提取結(jié)果,繪制了軌跡平面,并且把出現(xiàn)3次以上非0像素點的位置設(shè)置為0,其展示結(jié)果如圖7所示(彩圖見期刊電子版)。第1列展示了5個序列的真實運動軌跡,第2列至第4列分別表示3DCNN,3D-ConvLSTM,3D-AIConvLSTM以及3D-AOConvLSTM方法對5個序列提取的完整軌跡,黃色圓圈標注了處理結(jié)果的雜波部分,藍色圓圈標注了軌跡的間斷部分。由圖7可知,序列1只包含一個運動目標,且運動軌跡為一條直線,序列2包含4個目標,運動軌跡比較隨意,序列3包含大量的運動目標,且軌跡交織在一起,部分目標的運動軌跡不連續(xù),呈虛線狀態(tài)。序列4和序列5均各包含一個目標,并保持直線運動。3DCNN方法提取的軌跡呈虛線狀,軌跡間隔過大,背景中殘留了較多雜波噪聲。3D-ConvLSTM方法提取的軌跡與真實的軌跡相似,但是序列2和3的結(jié)果中仍然出現(xiàn)了軌跡間斷的部分,背景中殘留的雜波比3DCNN方法還要嚴重,特別是在序列4和序列5中,3DCNN和3D-ConvLSTM方法殘留了大面積的雜波背景,這主要是由序列中的強雜波和背景快速運動造成的。3D-AIConvLSTM方法得到的結(jié)果顯示背景噪聲很少,但序列3中部分目標的運動軌跡沒有檢測出來,造成了漏檢現(xiàn)象。3D-AOConvLSTM方法得到的軌跡與真實的軌跡最為相似,背景噪聲也很少,其軌跡檢測結(jié)果明顯優(yōu)于3DCNN,3D-ConvLSTM和3D-AIConvLSTM方法。

本文通過控制變量的方式,在同一個主體架構(gòu)上,逐步替換網(wǎng)絡(luò)中的注意力卷積長短時記憶模塊,由以上對比方法的實驗結(jié)果可以看出,所有網(wǎng)絡(luò)層均為3D卷積核的3DCNN檢測到的軌跡表現(xiàn)為軌跡短、不連續(xù),未能檢測到目標的全部軌跡信息,而在此基礎(chǔ)上替換了兩層3D卷積核的3D-ConvLSTM則檢測到真實軌跡的完整信息,表現(xiàn)為連續(xù)的完整軌跡,這就從實驗結(jié)果上體現(xiàn)出3D卷積核只能提取序列的短期時空信息,正好印證了3D卷積核的結(jié)構(gòu)特性,即只能卷積相鄰的幾組特征體,而3D-ConvLSTM由于使用了ConvLSTM單元,其結(jié)構(gòu)上的循環(huán)特性保證了序列不斷的信息抽取,其軌跡檢測結(jié)果的完整性和連續(xù)性也驗證了它的結(jié)構(gòu)特性。在3D-ConvLSTM的基礎(chǔ)上,本文又提出了3D-AIConvLSTM和3D-AOConvLSTM,它們在ConvLSTM單元中均使用了注意力機制,最大的不同就是在LSTM中添加的卷積操作位置不同,由3D-AIConvLSTM和3D-AOConvLSTM的對比實驗可以看出,不同的卷積位置取得的軌跡檢測結(jié)果大不相同,在輸入門中加入卷積操作和注意力機制,由于輸入門控制著新記憶信息寫入長期記憶的程度,輸入數(shù)據(jù)被丟棄之后會直接進入長期記憶,并會進一步與輸出門信息融合,形成短期記憶,使短期記憶保留的信息越來越少,在減少背景雜波的同時,也相應(yīng)的丟失了目標信息,而在輸出門中加入卷積操作和注意力機制,長期記憶接收來自輸入門的信息,并融入了來自輸出門的信息,這也是3D-AOConvLSTM的軌跡要優(yōu)于3D-AIConvLSTM的原因。

表6 四種軌跡提取方法的模型參數(shù)數(shù)量

圖7 不同檢測方法在5個序列上的軌跡提取結(jié)果

針對連續(xù)15幀的復(fù)雜紅外圖像序列,3D-AOConvLSTM方法利用3D卷積核提取短期的時空信息,利用AOConvLSTM單元提取時空信息的長期信息,利用注意力機制丟棄大量的冗余時空信息,實現(xiàn)了對弱小目標運動軌跡的有效提取。基于輸出門注意力機制的卷積長短時記憶網(wǎng)絡(luò)表現(xiàn)效果最好的原因,在于它將注意力機制放置在輸出門的位置,輸出門控制著短期記憶如何受長期記憶影響,它能夠從長期記憶中提取與任務(wù)相關(guān)的重要信息,并舍棄冗余信息,而基于輸入門注意力機制的卷積長短時記憶網(wǎng)絡(luò)層將注意力機制放置在輸入門的位置,控制著新記憶信息寫入長期記憶的程度,若長期記憶中的重要信息被錯誤的丟棄,那么后續(xù)時刻與任務(wù)相關(guān)的信息將永久消失,這就是將注意力機制放置在輸出門的優(yōu)勢。

5 結(jié) 論

本文通過結(jié)合3D卷積核、長短時記憶單元以及注意力機制,設(shè)計了深度學(xué)習網(wǎng)絡(luò)架構(gòu),建立了紅外圖像序列中多幀圖像與軌跡檢測之間的相關(guān)性,從大量時空信息中有選擇的篩選和任務(wù)相關(guān)的重要信息,同時忽略絕大部分冗余的信息,能夠應(yīng)用在近地小天體的探測和預(yù)警任務(wù)中。本文方法無需任何先驗知識,就能夠精確檢測到小運動目標的運動軌跡,解決了基于TBD軌跡搜索算法存在的需要事先獲取目標灰度分布函數(shù)或運動速度等先驗知識的問題。與3DCNN,3D-ConvLSTM,3D-AIConvLSTM方法對比,基于輸出門注意力機制的卷積長短時記憶網(wǎng)絡(luò)實現(xiàn)了對紅外序列圖像中低于6 pixel弱小目標的運動軌跡有效檢測,檢測效果最好,背景噪聲殘留最少,在均方根誤差和平均絕對誤差上相對于3DCNN、3D-ConvLSTM和3D-AIConvLSTM方法平均降低了32.8%和46.3%,在峰值信噪比和結(jié)構(gòu)相似度上平均提高了18.3%和4.3%。

猜你喜歡
短時記憶紅外注意力
基于長短時記憶神經(jīng)網(wǎng)絡(luò)的動力電池剩余容量預(yù)測方法
網(wǎng)紅外賣
讓注意力“飛”回來
閃亮的中國紅外『芯』
金橋(2021年4期)2021-05-21 08:19:20
TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
電子制作(2019年7期)2019-04-25 13:17:14
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
短時記憶、長時記憶對英語聽力的影響
基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
A Beautiful Way Of Looking At Things
短時記憶理論的影響
昌邑市| 汽车| 周口市| 崇义县| 临安市| 威信县| 达尔| 大兴区| 江孜县| 常州市| 兴化市| 望江县| 寻乌县| 临澧县| 石首市| 佛山市| 云安县| 仁化县| 嵊州市| 游戏| 玉门市| 武功县| 来凤县| 诏安县| 财经| 乳山市| 芮城县| 红原县| 镶黄旗| 剑阁县| 禄劝| 嘉祥县| 柞水县| 巴彦淖尔市| 晋宁县| 华池县| 奎屯市| 唐海县| 库尔勒市| 都匀市| 萨迦县|