国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合強(qiáng)化學(xué)習(xí)自適應(yīng)候選框挑選的SAR目標(biāo)檢測(cè)方法

2022-11-01 10:12:56王梓霖郭昱辰杜宇昂嚴(yán)俊坤
雷達(dá)學(xué)報(bào) 2022年5期
關(guān)鍵詞:候選框尺寸深度

杜 蘭 王梓霖 郭昱辰 杜宇昂 嚴(yán)俊坤

①(西安電子科技大學(xué)雷達(dá)信號(hào)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室 西安 710071)

②(西安電子科技大學(xué)前沿交叉研究院 西安 710071)

1 引言

合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)可對(duì)地面區(qū)域進(jìn)行大面積的主動(dòng)微波成像,能夠?qū)崿F(xiàn)全天時(shí)、全天候?qū)Φ赜^測(cè),在軍事領(lǐng)域和民用領(lǐng)域得到廣泛應(yīng)用。近年來,隨著SAR系統(tǒng)和成像算法逐漸成熟,越來越多高質(zhì)量的SAR圖像出現(xiàn),如何對(duì)SAR圖像進(jìn)行準(zhǔn)確高效的目標(biāo)檢測(cè)是現(xiàn)在研究熱點(diǎn)之一。

目前傳統(tǒng)的SAR目標(biāo)檢測(cè)方法大都圍繞經(jīng)典的恒虛警率(Constant False Alarm Rate,CFAR)算法展開研究,這是一種基于灰度特征的傳統(tǒng)SAR目標(biāo)檢測(cè)方法。其中雙參數(shù)CFAR方法[1,2]是一種經(jīng)典的局部自適應(yīng)目標(biāo)檢測(cè)方法。該方法通過預(yù)設(shè)滑動(dòng)窗口遍歷SAR圖像實(shí)現(xiàn)目標(biāo)檢測(cè),對(duì)窗口內(nèi)像素灰度與自適應(yīng)閾值進(jìn)行對(duì)比以區(qū)分目標(biāo)和雜波。自適應(yīng)閾值由預(yù)先設(shè)置的恒定虛警率和窗口中的雜波分布確定。文獻(xiàn)[3]提出了一種基于雙邊微調(diào)統(tǒng)計(jì)的CFAR檢測(cè)方法,該方法提出了一種基于雙邊閾值的策略,自動(dòng)裁剪窗口內(nèi)的樣本來剔除異常值,提高了在海洋場(chǎng)景下的檢測(cè)性能。此類方法需要SAR圖像中目標(biāo)與雜波具有較高對(duì)比度來擬合雜波的統(tǒng)計(jì)分布,因此只適用于簡(jiǎn)單場(chǎng)景,當(dāng)場(chǎng)景較為復(fù)雜時(shí),會(huì)造成檢測(cè)性能的降低。

近年來,在光學(xué)領(lǐng)域,由于網(wǎng)絡(luò)深度的增加以及計(jì)算能力的不斷提高[4],基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法[5-9]開始占據(jù)主流,取得了不錯(cuò)的效果。鑒于深度學(xué)習(xí)在光學(xué)圖像目標(biāo)檢測(cè)領(lǐng)域的成功,研究者也將深度學(xué)習(xí)運(yùn)用在SAR目標(biāo)檢測(cè)當(dāng)中[10]?;谏疃葘W(xué)習(xí)的SAR檢測(cè)方法相較于淺層模型方法特征提取能力強(qiáng)、對(duì)于復(fù)雜SAR圖像場(chǎng)景的檢測(cè)效果好。文獻(xiàn)[11]將低層紋理、邊緣特征與高層深度特征進(jìn)行融合,提高了SAR艦船目標(biāo)的檢測(cè)性能。目前一些基于深度學(xué)習(xí)的SAR目標(biāo)檢測(cè)方法是由基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN,R-CNN)結(jié)合候選區(qū)域來設(shè)計(jì)的兩階段檢測(cè)方法。文獻(xiàn)[12]使用多分辨率卷積特征,基于Faster R-CNN方法,對(duì)原有的卷積神經(jīng)網(wǎng)絡(luò)VGG-16的結(jié)構(gòu)進(jìn)行改進(jìn),提升了對(duì)小型目標(biāo)的檢測(cè)效果。文獻(xiàn)[13]在Faster R-CNN算法基礎(chǔ)上,使用SAR分類數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練并擴(kuò)充訓(xùn)練數(shù)據(jù),解決了SAR目標(biāo)檢測(cè)訓(xùn)練樣本不足的問題。此類方法在對(duì)區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)產(chǎn)生的大量候選框進(jìn)行挑選時(shí),往往采用非極大值抑制(Non-Maximum Suppression,NMS)方法。在大場(chǎng)景SAR圖像檢測(cè)中,由于目標(biāo)特征易受雜波影響,可鑒別性更差,并且單個(gè)目標(biāo)占據(jù)圖像比例更小,導(dǎo)致基于Faster R-CNN的目標(biāo)檢測(cè)方法在整張?zhí)卣鲌D上產(chǎn)生的候選框會(huì)包含大量雜波,而NMS方法無(wú)法在篩選候選框時(shí)有效去除雜波,導(dǎo)致目標(biāo)檢測(cè)產(chǎn)生大量虛警。

近幾年,在人工智能領(lǐng)域中,強(qiáng)化學(xué)習(xí)[14,15]得到了廣泛關(guān)注。強(qiáng)化學(xué)習(xí)根據(jù)當(dāng)前自身狀態(tài)(State)并結(jié)合策略(Policy)做出相應(yīng)的動(dòng)作(Action),通過與外界的交互獲得不同的獎(jiǎng)勵(lì)(Reward)來不斷更新自身的狀態(tài)并調(diào)整策略,最終形成解決某一問題的最優(yōu)策略。將具有解譯能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)結(jié)合而形成的深度強(qiáng)化學(xué)習(xí),可以更好地與其他基于深度學(xué)習(xí)算法相結(jié)合,應(yīng)用在目標(biāo)檢測(cè)[16-18]中以提高檢測(cè)性能。在光學(xué)領(lǐng)域,文獻(xiàn)[16]根據(jù)當(dāng)前收集到的圖像信息,使用強(qiáng)化學(xué)習(xí)從5個(gè)預(yù)定義的固定形狀和尺寸的候選區(qū)域中選擇最有可能包含目標(biāo)的區(qū)域,并通過迭代不斷縮小候選區(qū)域,最終框定目標(biāo)。但由于預(yù)設(shè)的候選區(qū)域并不能完全覆蓋所有目標(biāo),此方法精度較低。

受強(qiáng)化學(xué)習(xí)啟發(fā),本文基于Faster R-CNN檢測(cè)模型[7],設(shè)計(jì)了新的強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn)自適應(yīng)候選框挑選,有效減少冗余候選框數(shù)量。提出方法在RPN與感興趣區(qū)域(Regions-of-Interest,RoI)池化層之間加入深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),對(duì)于RPN產(chǎn)生的大量初始候選框,深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)綜合相關(guān)信息進(jìn)行迭代搜索,在特征圖上不斷找到可能含有目標(biāo)的搜索區(qū)域,并挑選搜索區(qū)域內(nèi)的候選框輸入后續(xù)的檢測(cè)器進(jìn)行分類、回歸,實(shí)現(xiàn)對(duì)搜索區(qū)域內(nèi)的目標(biāo)檢測(cè)。由于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)設(shè)計(jì)的,因此可以在迭代過程中捕捉到圖像的上下文信息并確定可能含有目標(biāo)的搜索區(qū)域的位置坐標(biāo)。并且,本方法在強(qiáng)化學(xué)習(xí)中對(duì)產(chǎn)生的搜索區(qū)域尺寸添加距離約束,使得搜索區(qū)域尺寸可以根據(jù)之前迭代過程中的搜索區(qū)域以及目標(biāo)檢測(cè)結(jié)果進(jìn)行自適應(yīng)調(diào)整。針對(duì)大場(chǎng)景SAR圖像中目標(biāo)數(shù)量較多,分布情況較為復(fù)雜且易受雜波影響的特點(diǎn),提出方法通過使用強(qiáng)化學(xué)習(xí)自適應(yīng)確定搜索區(qū)域?qū)崿F(xiàn)了對(duì)初始候選框的自適應(yīng)挑選,提升了對(duì)背景雜波的鑒別能力并減少傳統(tǒng)強(qiáng)化學(xué)習(xí)應(yīng)用于檢測(cè)問題的計(jì)算量。所提方法自適應(yīng)確定搜索區(qū)域的能力包括兩方面的自適應(yīng),一是通過綜合利用圖像的特征信息和上下文信息自適應(yīng)確定搜索區(qū)域的位置坐標(biāo);二是通過搜索區(qū)域尺寸約束自適應(yīng)調(diào)整下一次搜索區(qū)域的范圍尺寸?;趯?shí)測(cè)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效減少SAR目標(biāo)檢測(cè)的虛警數(shù)量,提升傳統(tǒng)深度學(xué)習(xí)目標(biāo)檢測(cè)方法的檢測(cè)性能。

2 背景介紹

2.1 Faster R-CNN

Faster R-CNN[7]是目前比較常用的目標(biāo)檢測(cè)框架,用RPN來獲取區(qū)域候選。如圖1所示,F(xiàn)aster R-CNN的結(jié)構(gòu)可以分為4個(gè)主要部分:特征提取網(wǎng)絡(luò)、RPN、RoI池化層以及檢測(cè)器。其中,特征提取網(wǎng)絡(luò)由卷積層、激活函數(shù)和池化層組成,用于提取輸入圖像的特征映射作為輸出。后續(xù)的RPN和檢測(cè)器將使用輸出的特征映射完成候選框的生成以及分類、回歸,實(shí)現(xiàn)卷積共享。RPN在特征圖中每個(gè)點(diǎn)上設(shè)置k個(gè)錨框,對(duì)每個(gè)錨框進(jìn)行二分類和初步位置修正并使用NMS算法進(jìn)行候選框篩選作為初始的候選框;RoI池化層則負(fù)責(zé)收集原始的特征圖和候選框,將其整合后提取出候選框?qū)?yīng)位置的特征映射;最后輸入檢測(cè)器中進(jìn)行目標(biāo)分類和邊界框的位置修訂。

圖1 Faster R-CNN結(jié)構(gòu)Fig.1 Faster R-CNN structure

2.2 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的過程通常可以用圖2中的馬爾可夫決策過程[14](Markov Decision Process,MDP)來描述:智能體(agent)在環(huán)境當(dāng)中,擁有其對(duì)當(dāng)前環(huán)境感知的狀態(tài)量S;通過策略π:S →A從動(dòng)作集A中選擇動(dòng)作a∈A,根據(jù)動(dòng)作的不同,環(huán)境出現(xiàn)基于一定概率的改變并更新狀態(tài)量S;在狀態(tài)發(fā)生變化的同時(shí),環(huán)境會(huì)根據(jù)狀態(tài)變化通過獎(jiǎng)勵(lì)函數(shù)給予智能體相應(yīng)的獎(jiǎng)勵(lì)r。這樣智能體在與環(huán)境交換信息的過程中,依據(jù)得到的獎(jiǎng)勵(lì)來不斷調(diào)整策略,最終得到最優(yōu)策略。

圖2 強(qiáng)化學(xué)習(xí)原理Fig.2 Principles of reinforcement learning

智能體能夠與環(huán)境進(jìn)行交互,每個(gè)狀態(tài)是智能體對(duì)當(dāng)前環(huán)境的感知,并且智能體只能通過動(dòng)作來影響環(huán)境,而策略能夠指導(dǎo)智能體在當(dāng)前狀態(tài)下做出何種動(dòng)作,可以將其表示為一個(gè)由狀態(tài)到動(dòng)作的映射。獎(jiǎng)勵(lì)是在當(dāng)前環(huán)境狀態(tài)下,對(duì)智能體所進(jìn)行動(dòng)作的即時(shí)評(píng)價(jià),這個(gè)評(píng)價(jià)也是策略優(yōu)化的主要依據(jù),可以表示為獎(jiǎng)勵(lì)函數(shù)的形式。當(dāng)智能體做出一個(gè)帶來較低獎(jiǎng)勵(lì)的動(dòng)作時(shí),當(dāng)下次遇到相同的環(huán)境狀態(tài)時(shí),調(diào)整過的策略就可能會(huì)選擇其他的動(dòng)作來爭(zhēng)取獲得更高的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的目標(biāo)可以確定為:學(xué)習(xí)一個(gè)最優(yōu)策略,來最大化期望累計(jì)獎(jiǎng)勵(lì)。因此,設(shè)置合適的狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)函數(shù),是強(qiáng)化學(xué)習(xí)獲得最優(yōu)策略的關(guān)鍵。

3 結(jié)合強(qiáng)化學(xué)習(xí)的SAR目標(biāo)檢測(cè)方法

3.1 總體框架

本方法基于傳統(tǒng)Faster R-CNN方法,整體框架如圖3所示。除深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)之外,其余各部分與Faster R-CNN模型相似。特征提取網(wǎng)絡(luò)采用VGG-16,尺寸為hori×wori×3的輸入SAR圖像在經(jīng)過特征提取后生成h×w×512的特征圖,h和w與輸入圖像的尺寸有關(guān)。在獲取特征圖后,RPN會(huì)在特征圖的每個(gè)像素點(diǎn)上生成k(本文設(shè)置k=9)個(gè)錨框,并通過softmax二分類器和回歸器獲得更精確的初始候選框,初始候選框?qū)?gòu)成深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)輸入的一部分。對(duì)于RPN生成的大量初始候選框,我們使用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行區(qū)域搜索實(shí)現(xiàn)對(duì)初始候選框的挑選,將可能含有目標(biāo)的候選框送入RoI池化層進(jìn)行整合。RoI池化層會(huì)將挑選出來的候選框?qū)?yīng)位置的特征映射劃分為7×7的網(wǎng)格,并對(duì)每一個(gè)網(wǎng)格進(jìn)行最大值池化處理,以輸出固定尺寸的特征向量。這些特征向量將被送入檢測(cè)器,通過全連接層和softmax計(jì)算候選框的具體類別,輸出類別概率預(yù)測(cè)向量,同時(shí)利用邊界框回歸,獲取更準(zhǔn)確的檢測(cè)目標(biāo)框。其中深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)采用循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),此網(wǎng)絡(luò)可以在特征圖上找到一個(gè)可能含有目標(biāo)的區(qū)域,并將該區(qū)域內(nèi)的候選框送入后續(xù)的檢測(cè)器進(jìn)行分類回歸,然后根據(jù)檢測(cè)結(jié)果再找到另一個(gè)可能含有目標(biāo)的區(qū)域,繼續(xù)將該區(qū)域內(nèi)的候選框送入檢測(cè)器,如此迭代,完成候選框的自適應(yīng)挑選。

圖3 結(jié)合強(qiáng)化學(xué)習(xí)的SAR目標(biāo)檢測(cè)方法整體框架Fig.3 Framework of SAR target detection method using reinforcement learning

深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)部分參考基于卷積門控循環(huán)單元[19](Convolutional Gated Recurrent Unit,Conv-GRU)進(jìn)行設(shè)計(jì)。Conv-GRU作為一種計(jì)算需求相對(duì)較低的循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)輸入輸出具有記憶能力,能夠捕捉迭代過程中的依賴關(guān)系,是能夠?qū)崿F(xiàn)深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)之一。Conv-GRU智能體的方程式如下:

其中,*表示卷積乘法,☉表示Hadamard乘積,權(quán)重和偏差分別表示為W和b,所有輸入和輸出的空間尺寸是h×w。Ot為重置門,決定如何將新的輸入信息與之前的記憶信息相結(jié)合。Zt為更新門,用于控制記憶信息的保留程度。為候選隱藏狀態(tài),包含了當(dāng)前時(shí)刻的輸入信息和上一時(shí)刻保留的信息。Ht為最終的隱藏狀態(tài),通過更新門決定如何組合過去的隱藏狀態(tài)和當(dāng)前的候選隱藏狀態(tài)。在第t次迭代時(shí)到達(dá)Conv-GRU的輸入是強(qiáng)化學(xué)習(xí)的狀態(tài)量St和 上一次迭代輸出的隱藏狀態(tài)Ht-1,其中狀態(tài)量由圖像特征和RPN輸出組成,Conv-GRU可根據(jù)圖像信息來進(jìn)行候選區(qū)域搜索。輸出是對(duì)應(yīng)兩個(gè)動(dòng)作的動(dòng)作量At,分別決定是否進(jìn)行候選區(qū)域搜索以及搜索區(qū)域的位置和尺寸。深度強(qiáng)化學(xué)習(xí)可基于Conv-GRU調(diào)整策略,完成狀態(tài)到動(dòng)作的映射。

網(wǎng)絡(luò)可訓(xùn)練的參數(shù)部分包括特征提取網(wǎng)絡(luò)部分、RPN部分、檢測(cè)器部分以及深度強(qiáng)化學(xué)習(xí)部分。

3.2 結(jié)合強(qiáng)化學(xué)習(xí)的候選框挑選方法

下面詳細(xì)介紹如何利用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行區(qū)域搜索來實(shí)現(xiàn)候選框的自適應(yīng)挑選。在訓(xùn)練階段,第t次迭代時(shí),智能體根據(jù)當(dāng)前狀態(tài)和策略決定是否終止搜索。如果搜索沒有停止,就執(zhí)行固定動(dòng)作自動(dòng)獲得新的搜索區(qū)域的位置zt和尺寸參數(shù)pt;RoI觀測(cè)量Rt在以zt為中心的搜索區(qū)域中被更新,搜索區(qū)域內(nèi)所有由RPN生成的初始候選框均被發(fā)送到ROI池化層,然后在檢測(cè)器中進(jìn)行分類和邊界框回歸預(yù)測(cè)。根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)注與預(yù)測(cè)結(jié)果計(jì)算獎(jiǎng)勵(lì)r及檢測(cè)結(jié)果更新強(qiáng)化學(xué)習(xí)基本狀態(tài)量St。基于新狀態(tài),在第t+1次迭代時(shí)采取新操作,并重復(fù)該過程直到發(fā)出停止搜索動(dòng)作,然后收集整個(gè)搜索軌跡中的預(yù)測(cè)結(jié)果并計(jì)算總的累積獎(jiǎng)勵(lì)。訓(xùn)練的目標(biāo)即為累積獎(jiǎng)勵(lì)的最大化,并據(jù)此不斷優(yōu)化策略,最終得到最優(yōu)策略πθ(at|st),具體優(yōu)化方法在3.2.3節(jié)中描述。而在測(cè)試過程中,搜索策略將被固定,在第t次迭代時(shí),智能體根據(jù)當(dāng)前狀態(tài)st和已經(jīng)訓(xùn)練好的策略πθ(at|st)決定是否搜索以及搜索區(qū)域的位置及尺寸,然后選擇候選框送入后續(xù)檢測(cè)部分并更新相應(yīng)的狀態(tài)量?;谛聽顟B(tài),在第t+1次迭代時(shí)采取新操作,并重復(fù)該過程直到發(fā)出停止搜索動(dòng)作,最后收集整個(gè)搜索軌跡中的預(yù)測(cè)結(jié)果。算法1展示了強(qiáng)化學(xué)習(xí)自適應(yīng)候選框挑選測(cè)試過程的偽代碼。下面分別介紹狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)函數(shù)的具體設(shè)置。

算法 1 自適應(yīng)候選框挑選方法Alg.1 Adaptive region proposal selection

3.2.1 狀態(tài)

狀態(tài)量st是一個(gè)數(shù)組,包含3部分:st=(Rt,St,Ht),其中Rt ∈{0,1}h×w×k是RoI 觀測(cè)量,St ∈Rh×w×(d+2k+N+1)是 基本狀態(tài)量,而Ht ∈Rh×w×300是Conv-GRU的隱藏狀態(tài),d為VGG-16的輸出特征維度,N是要檢測(cè)對(duì)象類別的數(shù)量。

RoI觀測(cè)量Rt是一個(gè)大小為h×w×k的二元量,其中當(dāng)相應(yīng)候選框在搜索區(qū)域內(nèi)時(shí),對(duì)應(yīng)的坐標(biāo) (i,j,l)值為1,然后轉(zhuǎn)入到網(wǎng)絡(luò)的RoI池化和檢測(cè)器部分進(jìn)行分類。Rt初始為全零量。在固定動(dòng)作之后,固定位置zt相鄰區(qū)域的一部分Rt將被更新,模型將在此區(qū)域內(nèi)使用RPN輸出的全部初始候選框進(jìn)行目標(biāo)檢測(cè)。這個(gè)相鄰區(qū)域設(shè)置為一個(gè)以zt為中心的矩形區(qū)域,區(qū)域的邊長(zhǎng)可以進(jìn)行自適應(yīng)的調(diào)整。將此矩形區(qū)域內(nèi)對(duì)應(yīng)的所有Rt項(xiàng)設(shè)置為1,表示此區(qū)域內(nèi)的候選框已經(jīng)被探測(cè)過了。

基礎(chǔ)狀態(tài)量St包括。將V01設(shè)置為與輸入RPN相同的基本特征映射,將設(shè)置為RPN的二分類量。RPN的回歸量被用于,設(shè)置為[0,1]歸一化偏移量[Δx1,Δy1,Δx2,Δy2]。和分別對(duì)應(yīng)著特征圖每個(gè)像素位置上預(yù)設(shè)的k個(gè)anchor的二分類和回歸結(jié)果。當(dāng)某一位置在之前的迭代過程中被訪問后,使用Rt更新這些量,將,和中的對(duì)應(yīng)位置設(shè)置為-1,表示這些位置已被訪問過,這樣有利于強(qiáng)化學(xué)習(xí)在下一次迭代過程中對(duì)輸入狀態(tài)量的分析,也有利于強(qiáng)化學(xué)習(xí)策略的訓(xùn)練,防止在重復(fù)的位置上多次進(jìn)行搜索。表示候選框檢測(cè)結(jié)果的歷史記錄,將設(shè)置為0。強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)執(zhí)行固定動(dòng)作獲得搜索區(qū)域后,將區(qū)域內(nèi)的所有候選框送入檢測(cè)器進(jìn)行分類預(yù)測(cè),然后使用NMS對(duì)已分類的候選框進(jìn)行篩選。對(duì)篩選后的候選框進(jìn)行邊界框回歸預(yù)測(cè),并將輸出結(jié)果即最終檢測(cè)框的中心坐標(biāo)和類別概率向量記錄在的相應(yīng)空間位置,作為下一次迭代過程的輸入狀態(tài)之一。這樣做可以為強(qiáng)化學(xué)習(xí)提供之前迭代過程中的檢測(cè)結(jié)果歷史信息,有利于強(qiáng)化學(xué)習(xí)的決策。

3.2.2 動(dòng)作

同時(shí),為了確定搜索區(qū)域尺寸,我們?cè)O(shè)計(jì)了一種新的基于距離的約束。該約束能夠通過迭代過程中搜索區(qū)域位置的變化,自動(dòng)調(diào)整搜索區(qū)域的尺寸,在準(zhǔn)確搜索到含有目標(biāo)區(qū)域的同時(shí)減少傳統(tǒng)強(qiáng)化學(xué)習(xí)的計(jì)算量。具體來說:模型利用本次迭代中選擇的中心坐標(biāo)z(t)與 上一次迭代選擇的中心坐標(biāo)z(t-1)對(duì)搜索區(qū)域尺寸進(jìn)行調(diào)整,形成參數(shù)pt來確定搜索區(qū)域尺寸。參數(shù)pt的取值區(qū)間為(0,1],計(jì)算方法如下:

其中,Δ=|z(t)-z(t-1)|為兩次搜索區(qū)域中心之間的距離,h0和w0為 初始搜索區(qū)域尺寸(設(shè)h<w),與輸入圖像寬高比相同,ht-1和wt-1為t-1次迭代時(shí)的搜索區(qū)域尺寸。第t次迭代時(shí)的搜索區(qū)域尺寸計(jì)算方式如下:

此設(shè)置可實(shí)現(xiàn)在兩次迭代過程中,當(dāng)搜索區(qū)域之間距離較遠(yuǎn)時(shí),搜索尺寸擴(kuò)大;當(dāng)搜索區(qū)域之間距離較近時(shí),搜索尺寸縮小,減少搜索區(qū)域的重疊,提高搜索效率。

3.2.3 獎(jiǎng)勵(lì)

深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的搜索策略在搜索候選框時(shí),應(yīng)在保證較高交并比(Intersection over Union,IoU)的同時(shí),盡量減少候選框的數(shù)量。這樣可以在減少虛警(false positive)數(shù)量的同時(shí),節(jié)約處理時(shí)間。獎(jiǎng)勵(lì)函數(shù)以此為標(biāo)準(zhǔn)進(jìn)行設(shè)定。

將獎(jiǎng)勵(lì)函數(shù)分為固定動(dòng)作獎(jiǎng)勵(lì)和停止動(dòng)作獎(jiǎng)勵(lì)部分。其中,對(duì)于固定動(dòng)作,其獎(jiǎng)勵(lì)函數(shù)由兩部分組成:第1部分為每次執(zhí)行固定動(dòng)作都將獲得的較小的負(fù)獎(jiǎng)勵(lì)-β(經(jīng)過實(shí)驗(yàn)β設(shè)置為0.075);第2部分為智能體執(zhí)行固定動(dòng)作時(shí)獲得的正獎(jiǎng)勵(lì),這個(gè)正獎(jiǎng)勵(lì)與在當(dāng)前圖像的任何真實(shí)標(biāo)注數(shù)據(jù)(ground truth)gi的IoU相關(guān),即如果固定動(dòng)作在當(dāng)前圖像與任何gi的IoU增加了,智能體都會(huì)獲得正向獎(jiǎng)勵(lì)。對(duì)于每個(gè)標(biāo)注數(shù)據(jù)gi,設(shè)置I oUi為在過去0,1,···,t-1次迭代過程中產(chǎn)生的最大的IoU值,并且在t=0時(shí),I oUi=0 。當(dāng)t≥1 時(shí),設(shè)置為在第t次迭代過程中,對(duì)于每個(gè)標(biāo)注數(shù)據(jù)gi所產(chǎn)生的最大IoU值。并檢查是否滿足。其中,依據(jù)數(shù)據(jù)集PASCAL VOC的正閾值設(shè)置τ=0.5。如果滿足上述情況,將對(duì)相應(yīng)的標(biāo)注數(shù)據(jù)gi給出正向獎(jiǎng)勵(lì)并在之后更新。此處,指的是對(duì)于第i個(gè)標(biāo)注數(shù)據(jù)gi,在所有可能區(qū)域內(nèi)獲得的最大IoU值(即最終預(yù)測(cè)的關(guān)于標(biāo)注數(shù)據(jù)gi的真實(shí)IoU值)。綜上所述,在第t次迭代時(shí)給出的固定動(dòng)作獎(jiǎng)勵(lì)為

其中,當(dāng)pt <1時(shí),表示強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)認(rèn)為在上次迭代中搜索區(qū)域的附近目標(biāo)分布較密集,因此使用對(duì)多目標(biāo)獎(jiǎng)勵(lì)較高的函數(shù)形式;而當(dāng)pt=1,搜索區(qū)域距離較遠(yuǎn)時(shí),則使用對(duì)單目標(biāo)獎(jiǎng)勵(lì)較高的函數(shù)形式。

對(duì)于停止動(dòng)作,在搜索終止后,智能體會(huì)受到一個(gè)能夠反映搜索軌跡質(zhì)量的最終獎(jiǎng)勵(lì):

其中,I oUi經(jīng) 過更新,已經(jīng)成為關(guān)于標(biāo)注數(shù)據(jù)gi在整個(gè)搜索迭代過程中所產(chǎn)生的最大IoU值。如果gi沒有被最大限度覆蓋,則會(huì)給予智能體一個(gè)隨著IoUi減小而不斷增大的負(fù)的獎(jiǎng)勵(lì)值。并且,如果gi已經(jīng)被最大限度的覆蓋了,即I oUi=的時(shí)候,本次停止動(dòng)作的獎(jiǎng)勵(lì)值將變?yōu)?。

在訓(xùn)練過程中通過累積獎(jiǎng)勵(lì)最大化來優(yōu)化策略,結(jié)合REINFORCE[20]方法進(jìn)行梯度更新,使用50條搜索軌跡來逼近真實(shí)梯度,并使用Adam[21]優(yōu)化器來更新策略參數(shù)。

3.3 訓(xùn)練

整個(gè)模型需要訓(xùn)練的參數(shù)可分為兩部分:一部分是原始Faster R-CNN部分的參數(shù),包括特征提取網(wǎng)絡(luò)、RPN和檢測(cè)器部分參數(shù);另一部分是強(qiáng)化學(xué)習(xí)搜索策略部分的參數(shù)。兩部分參數(shù)采用交替訓(xùn)練的方式進(jìn)行優(yōu)化:當(dāng)強(qiáng)化學(xué)習(xí)部分參數(shù)進(jìn)行更新后(此時(shí)原始Faster R-CNN部分參數(shù)保持不變),模型將固定強(qiáng)化學(xué)習(xí)部分參數(shù)并使用該強(qiáng)化學(xué)習(xí)策略進(jìn)行自適應(yīng)候選框挑選,挑選出的候選框?qū)⒈凰腿牒罄m(xù)檢測(cè)器進(jìn)行目標(biāo)分類和回歸,并以此來更新Faster R-CNN部分的參數(shù)。模型通過兩部分參數(shù)交替更新,反復(fù)迭代至收斂。

4 實(shí)驗(yàn)與分析

首先對(duì)實(shí)驗(yàn)所用數(shù)據(jù)集及評(píng)價(jià)準(zhǔn)則進(jìn)行介紹,然后與傳統(tǒng)Faster R-CNN及其相關(guān)改進(jìn)方法進(jìn)行對(duì)比分析,對(duì)提出的創(chuàng)新點(diǎn)進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明所提方法的有效性。實(shí)驗(yàn)平臺(tái)為Ubuntu系統(tǒng),代碼基于Tensorflow編寫。訓(xùn)練方面,本方法采用經(jīng)過預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)對(duì)Faster R-CNN的共享卷積層部分進(jìn)行參數(shù)初始化;其他網(wǎng)絡(luò)層則使用零均值、標(biāo)準(zhǔn)差為0.01的高斯分布進(jìn)行參數(shù)隨機(jī)初始化。

4.1 實(shí)驗(yàn)設(shè)置

4.1.1 實(shí)驗(yàn)數(shù)據(jù)集介紹

本文使用MiniSAR數(shù)據(jù)集[22]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集是美國(guó)桑迪亞實(shí)驗(yàn)室在2006年公開的SAR圖像數(shù)據(jù)集,包含復(fù)雜場(chǎng)景的SAR實(shí)測(cè)圖像數(shù)據(jù)。在本文實(shí)驗(yàn)中,共使用9幅SAR圖像(7幅用于訓(xùn)練,2幅用于測(cè)試),設(shè)置車輛為感興趣目標(biāo)。在此數(shù)據(jù)集中,由于圖像的尺寸過大,無(wú)法直接輸入網(wǎng)絡(luò)。因此,首先將數(shù)據(jù)集中的原始圖像裁剪成許多大小為300像素×300像素的子圖像,并使用這些子圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練。與訓(xùn)練類似,在測(cè)試過程中通過滑動(dòng)窗口,將原始的測(cè)試圖像也裁剪為大小為300像素×300像素的子圖像,滑動(dòng)窗口的步長(zhǎng)設(shè)置為200像素。對(duì)測(cè)試子圖像進(jìn)行檢測(cè)后,再將檢測(cè)結(jié)果恢復(fù)到原始大圖中。在恢復(fù)過程中,我們對(duì)子圖像中的檢測(cè)結(jié)果進(jìn)行NMS刪除重復(fù)數(shù)據(jù),以獲得最終結(jié)果。

4.1.2 評(píng)價(jià)準(zhǔn)則

實(shí)驗(yàn)選擇F1-score和接收機(jī)性能(Receiver Operating Characteristic,ROC)曲線作為檢測(cè)性能的評(píng)價(jià)準(zhǔn)則。F1-score的計(jì)算公式如下:

其中,TP (True Positives)是檢測(cè)結(jié)果中正確的目標(biāo)個(gè)數(shù),F(xiàn)P (False Positives)為虛警,是檢測(cè)結(jié)果中錯(cuò)誤的目標(biāo)個(gè)數(shù),F(xiàn)N (False Negatives)是漏警,是未檢測(cè)到的目標(biāo)個(gè)數(shù),P(Precision)是準(zhǔn)確率,R(Recall)是召回率。

ROC曲線的繪制參考文獻(xiàn)[23],曲線描述了真陽(yáng)率(True Positive Rate,TPR)和假陽(yáng)率(False Positive Rate,FPR)之間的關(guān)系。TPR和FPR的計(jì)算公式如下:

ROC曲線和坐標(biāo)軸下的面積(Area Under Curve,AUC)用于輔助ROC評(píng)估。通常,AUC越大,性能越好。

4.2 檢測(cè)結(jié)果分析

表1對(duì)比了不同方法的實(shí)驗(yàn)結(jié)果,其中Gaussian-CFAR表示文獻(xiàn)[13]中的方法;Faster R-CNN方法基于文獻(xiàn)[7];SSD方法使用文獻(xiàn)[24];Faster R-CNN+CBAM在Faster R-CNN中加入通道注意力和空間注意力模塊[25]聚焦重要特征來輔助檢測(cè);本文方法-尺寸固定表示只使用強(qiáng)化學(xué)習(xí)確定搜索區(qū)域位置,而搜索區(qū)域的尺寸不能自適應(yīng)變化,生成固定尺寸(h0×w0)的搜索區(qū)域來完成候選框挑選,本文中取h0=hori×0.25,w0=wori×0.25。

表1 不同方法實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of different methods

從表1可以看出,Gaussian-CFAR的F1-score非常低,因?yàn)榇朔椒▋H使用SAR圖像本身的對(duì)比度等信息進(jìn)行檢測(cè),需要擬合雜波分布,只適用于簡(jiǎn)單場(chǎng)景,當(dāng)場(chǎng)景較為復(fù)雜時(shí),會(huì)產(chǎn)生大量虛警,造成檢測(cè)性能的降低。而傳統(tǒng)Faster R-CNN方法雖然檢測(cè)效果好于Gaussian-CFAR,但在深度學(xué)習(xí)相關(guān)方法中F1-score最低,主要原因?yàn)樘摼芏?,很多背景雜波被誤判為目標(biāo),導(dǎo)致檢測(cè)的準(zhǔn)確率降低;SSD方法則通過使用多尺度特征進(jìn)行預(yù)測(cè),相較于傳統(tǒng)Faster R-CNN方法虛警明顯減少,獲得了不錯(cuò)的性能;Faster R-CNN+CBAM方法在添加了注意力模塊之后,能夠讓網(wǎng)絡(luò)更加關(guān)注目標(biāo)區(qū)域,相較于傳統(tǒng)Faster R-CNN方法準(zhǔn)確率有所提升,虛警明顯減少;本文方法相較于其他方法,在準(zhǔn)確率和召回率上都有一定提升,尤其在減少虛警方面,相較于其他方法提升明顯;當(dāng)搜索區(qū)域尺寸固定時(shí),本文方法則實(shí)現(xiàn)了與Faster R-CNN+CBAM相似的檢測(cè)結(jié)果,相較于傳統(tǒng)Faster R-CNN方法的F1-score有一定提升,但由于無(wú)法自適應(yīng)確定搜索區(qū)域尺寸,準(zhǔn)確率相比本文原始方法有所下降。本文方法的F1-score相較于傳統(tǒng)Faster R-CNN方法提升了0.0329,準(zhǔn)確率提升了0.0530。因此,本文方法通過強(qiáng)化學(xué)習(xí)進(jìn)行區(qū)域搜索來實(shí)現(xiàn)對(duì)候選框的自適應(yīng)挑選,可以有效減少虛警,提升檢測(cè)性能。

圖4展示了各種方法的ROC曲線和相應(yīng)的AUC值,由于CFAR檢測(cè)效果相比于深度學(xué)習(xí)方法差距較大,研究?jī)r(jià)值不高,因此只對(duì)深度學(xué)習(xí)相關(guān)方法進(jìn)行了ROC曲線刻畫。我們以檢測(cè)結(jié)果中的每一個(gè)邊界框?yàn)閷?duì)象,設(shè)置IoU閾值來判斷邊界框是否檢測(cè)到正確目標(biāo),并根據(jù)其分類得分由高到低進(jìn)行排序,通過依次將每個(gè)邊界框劃分為正例,來計(jì)算不同的TPR和FPR值,最終得到完整的ROC曲線。從中可以發(fā)現(xiàn)本文所提方法可以在保持較低FPR的同時(shí)獲得較高的TPR,因此也獲得了最高的AUC值,檢測(cè)性能最好。

圖4 ROC曲線對(duì)比分析Fig.4 ROC curves comparative analysis

圖5分別展示了上述4種方法在MiniSAR數(shù)據(jù)集上兩張圖像的測(cè)試結(jié)果:圖中綠色框表示檢測(cè)正確的目標(biāo),紅色框表示檢測(cè)錯(cuò)誤的目標(biāo)(虛警),藍(lán)色框表示未檢測(cè)到的目標(biāo)(漏警)。由圖5可知,在復(fù)雜背景雜波的大場(chǎng)景SAR圖像中,傳統(tǒng)Faster R-CNN方法檢測(cè)結(jié)果虛警較多;本文方法的檢測(cè)結(jié)果中虛警最少,檢測(cè)效果最好,并且在目標(biāo)數(shù)量較多,排布較密集且有一定規(guī)律時(shí),能實(shí)現(xiàn)目標(biāo)的精確檢測(cè)。

圖5 SAR圖像目標(biāo)檢測(cè)結(jié)果Fig.5 Detection results of SAR images

所提方法檢測(cè)效果較好的原因主要有兩方面:第一,采用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)確定搜索區(qū)域?qū)蜻x框進(jìn)行自適應(yīng)挑選,能夠?qū)PN生成的大量初始候選框進(jìn)行鑒別,剔除其中的大量虛警框;第二,實(shí)驗(yàn)所使用數(shù)據(jù)集中的部分車輛目標(biāo)分布和排列存在一定規(guī)律,本文方法能夠在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中學(xué)習(xí)這些規(guī)律,并在迭代搜索過程中保存這些上下文信息,獲得更好的檢測(cè)效果。我們計(jì)算了每張訓(xùn)練圖像在訓(xùn)練過程中pt=1所占比例來進(jìn)行實(shí)驗(yàn)驗(yàn)證。在使用強(qiáng)化學(xué)習(xí)確定搜索區(qū)域時(shí),pt=1表示本次迭代確定的搜索區(qū)域與上一次迭代確定的搜索區(qū)域之間距離較遠(yuǎn),pt <1則表示本次迭代確定的搜索區(qū)域在上一次迭代確定的搜索區(qū)域附近。因此,如果pt=1所占比例較小,則說明搜索區(qū)域分布較為集中,圖像中的目標(biāo)數(shù)量較多且分布密集;如果pt=1所占比例較大,則說明搜索區(qū)域較為分散,圖像中的目標(biāo)數(shù)量較少且分布稀疏。以圖6中兩張訓(xùn)練圖像樣本為例進(jìn)行分析,圖中白色框?yàn)楣潭▌?dòng)作所產(chǎn)生的搜索區(qū)域,左上角數(shù)字為區(qū)域的生成順序。圖6(a)中目標(biāo)較少,因此強(qiáng)化學(xué)習(xí)只執(zhí)行了3次搜索動(dòng)作,搜索區(qū)域較為分散,pt值全部為1;而圖6(b)中由于目標(biāo)數(shù)量較多、分布密集且排列整齊,因此強(qiáng)化學(xué)習(xí)共執(zhí)行了7次搜索動(dòng)作,且在目標(biāo)密集分布的區(qū)域多次生成搜索區(qū)域,pt=1所占比例為0.33,相比于圖6(a)pt=1所占比例明顯減小。這說明,強(qiáng)化學(xué)習(xí)能夠?qū)W習(xí)到目標(biāo)分布的規(guī)律性并應(yīng)用于檢測(cè):在檢測(cè)目標(biāo)較少、分布稀疏的圖像時(shí),強(qiáng)化學(xué)習(xí)生成的搜索區(qū)域也較為分散,可以在較少搜索次數(shù)內(nèi)準(zhǔn)確找到目標(biāo)所在區(qū)域;而在檢測(cè)目標(biāo)密集分布的圖像時(shí),強(qiáng)化學(xué)習(xí)則會(huì)在目標(biāo)密集分布的區(qū)域多次生成搜索區(qū)域來檢測(cè)出該區(qū)域內(nèi)的全部目標(biāo)。

圖6 訓(xùn)練圖像樣本示例(白色框?yàn)楣潭▌?dòng)作所產(chǎn)生的搜索區(qū)域)Fig.6 Training image example (The white box indicates the search area generated by fixed action)

4.3 搜索區(qū)域?qū)z測(cè)的影響

為了研究搜索區(qū)域?qū)z測(cè)的影響,我們對(duì)強(qiáng)化學(xué)習(xí)的搜索過程進(jìn)行了分析,并與不使用搜索區(qū)域的Faster R-CNN方法進(jìn)行了對(duì)比。

圖7展示了測(cè)試圖像的強(qiáng)化學(xué)習(xí)可視化搜索過程。圖7(a)為原始圖像,圖7(b)-圖7(e)展示了本文方法的迭代搜索過程。其中,白色邊框?yàn)楣潭▌?dòng)作所產(chǎn)生的搜索區(qū)域,左上角數(shù)字為區(qū)域的生成順序,其中心位置坐標(biāo)和尺寸確定方法與3.2節(jié)所述相同;綠色邊框則表示已檢測(cè)到目標(biāo)的邊界框。注意白色邊框表示所挑選初始候選框中心點(diǎn)的區(qū)域集合,而綠色邊框?yàn)榻?jīng)過回歸的最終目標(biāo)邊界框,因此白色邊框并不一定完全包裹目標(biāo)和綠色邊框。

圖7(b)表示在強(qiáng)化學(xué)習(xí)第1次迭代過程中,策略執(zhí)行固定動(dòng)作確定的搜索區(qū)域,之后中心點(diǎn)在搜索區(qū)域內(nèi)的候選框?qū)⒈惶暨x并送入后續(xù)的檢測(cè)器部分。圖7(c)展示了在搜索區(qū)域內(nèi)檢測(cè)到的兩個(gè)目標(biāo)。圖7(d)表示在強(qiáng)化學(xué)習(xí)第2次迭代過程中,策略執(zhí)行固定動(dòng)作確定的搜索區(qū)域,由于距離約束的作用,該次搜索區(qū)域尺寸進(jìn)行自適應(yīng)調(diào)整,較上次迭代有所減小,減少了區(qū)域內(nèi)初始候選框數(shù)量,在能夠檢測(cè)到目標(biāo)的同時(shí),降低了強(qiáng)化學(xué)習(xí)部分的計(jì)算量。圖7(e)展示了在搜索區(qū)域內(nèi)檢測(cè)到的所有目標(biāo)。兩次迭代后,強(qiáng)化學(xué)習(xí)策略判斷SAR圖像內(nèi)全部目標(biāo)已經(jīng)檢測(cè)完成,停止迭代,完成檢測(cè)流程。

由圖7可視化搜索過程可知,強(qiáng)化學(xué)習(xí)通過訓(xùn)練得到的策略,能夠讓搜索區(qū)域更靠近待檢測(cè)目標(biāo)。在迭代搜索過程中,除了利用圖像的特征信息進(jìn)行決策外,深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)還能夠記錄之前迭代步驟中產(chǎn)生的上下文信息,通過上下文信息進(jìn)行不同搜索區(qū)域之間的信息交換,幫助決策,能夠有效減少雜波對(duì)檢測(cè)器的干擾,提高檢測(cè)的準(zhǔn)確性。

圖7 可視化搜索過程(白色框?yàn)楣潭▌?dòng)作所產(chǎn)生的搜索區(qū)域)Fig.7 Visualization of search (The white box indicates the search area generated by fixed action)

為了進(jìn)一步分析搜索區(qū)域?qū)z測(cè)的影響,我們分別對(duì)不使用搜索區(qū)域的Faster R-CNN方法和可以自適應(yīng)確定搜索區(qū)域的本文方法的RoI分布進(jìn)行了對(duì)比。圖8展示了兩種方法產(chǎn)生的RoI分布對(duì)比。圖8(a)為待檢測(cè)的原始圖像,圖8(b)為傳統(tǒng)Faster R-CNN產(chǎn)生的RoI分布,圖中高亮區(qū)域?yàn)镽oI的中心位置。圖8(c)為傳統(tǒng)Faster R-CNN的檢測(cè)結(jié)果,綠色框表示檢測(cè)正確的目標(biāo),紅色框表示虛警。圖8(d)為本文方法產(chǎn)生的RoI分布,圖中白框?yàn)閺?qiáng)化學(xué)習(xí)產(chǎn)生的搜索區(qū)域,所生成RoI的中心位置均在白框之內(nèi)。圖8(e)為本文方法的檢測(cè)結(jié)果。結(jié)合圖8(b)和圖8(d)可以發(fā)現(xiàn),相較于傳統(tǒng)的Faster R-CNN方法,經(jīng)過本文方法的處理,RoI會(huì)更集中地產(chǎn)生在目標(biāo)附近,因圖片邊緣和復(fù)雜背景雜波而產(chǎn)生的RoI大量減少。

圖8 RoI分布對(duì)比(白色框?yàn)楣潭▌?dòng)作所產(chǎn)生的搜索區(qū)域)Fig.8 Visualization of RoI (The white box indicates the search area generated by fixed action)

結(jié)合表1的檢測(cè)結(jié)果及RoI分布可以分析,F(xiàn)aster R-CNN方法由于采用NMS法對(duì)RPN在整張?zhí)卣鲌D上產(chǎn)生的大量初始候選框進(jìn)行處理,會(huì)導(dǎo)致SAR圖像的邊緣和難鑒別的背景雜波位置生成大量RoI,從而造成檢測(cè)結(jié)果中出現(xiàn)較多虛警。而所提方法則依靠強(qiáng)化學(xué)習(xí)策略及深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)積累的上下文信息來確定含有目標(biāo)的搜索區(qū)域,并且只在搜索區(qū)域內(nèi)生成RoI,能夠讓RoI盡可能集中在目標(biāo)周圍,有效減少圖片邊緣及復(fù)雜背景雜波導(dǎo)致的虛警,獲得較好的檢測(cè)效果。

4.4 運(yùn)行時(shí)間分析

運(yùn)算速度也是衡量目標(biāo)檢測(cè)算法性能的重要指標(biāo)之一,本節(jié)對(duì)Gaussian-CFAR,Faster R-CNN,Faster R-CNN+CBAM,SSD以及所提方法的運(yùn)行時(shí)間進(jìn)行比較分析,并分別對(duì)所提方法采用固定的搜索區(qū)域尺寸、自適應(yīng)搜索區(qū)域尺寸進(jìn)行實(shí)驗(yàn),我們?nèi)∷袦y(cè)試圖像的平均測(cè)試時(shí)間作為單張圖片的測(cè)試時(shí)間,結(jié)果如圖9所示。

由圖9可知,Gaussian-CFAR無(wú)論在運(yùn)算速度還是準(zhǔn)確率方面與其他方法均具有較大差距。SSD和Faster R-CNN方法的檢測(cè)速度較快,但F1-score與其他基于深度學(xué)習(xí)方法相比較低;添加CBAM注意力模塊后,在檢測(cè)速度略有降低的同時(shí),提升了檢測(cè)精度;對(duì)于本文方法,當(dāng)采用人工設(shè)置的固定的搜索區(qū)域尺寸(h0×w0)時(shí),本文方法的檢測(cè)速度會(huì)降低,這是由于在兩次強(qiáng)化學(xué)習(xí)迭代過程中,當(dāng)搜索區(qū)域尺寸設(shè)置較大時(shí),如果兩次搜索區(qū)域較近,會(huì)造成搜索區(qū)域的重疊,增加計(jì)算量;而當(dāng)搜索區(qū)域尺寸設(shè)置較小時(shí),又會(huì)造成檢測(cè)區(qū)域過小,需要強(qiáng)化學(xué)習(xí)迭代更多輪次來找到所有目標(biāo)。并且,不合理的尺寸設(shè)定也會(huì)對(duì)檢測(cè)精度造成影響。因此,本文方法在強(qiáng)化學(xué)習(xí)迭代過程中通過自適應(yīng)調(diào)整搜索區(qū)域的尺寸,獲得了最高的F1-score,能夠在保證較高檢測(cè)精度的同時(shí),提高檢測(cè)速度。

圖9 運(yùn)行時(shí)間與F1-score關(guān)系Fig.9 Runtime versus F1-score

5 結(jié)語(yǔ)

本文針對(duì)SAR目標(biāo)檢測(cè)任務(wù),結(jié)合強(qiáng)化學(xué)習(xí)方法對(duì)Faster R-CNN模型進(jìn)行改進(jìn),提出新的候選框挑選方法來解決傳統(tǒng)Faster R-CNN模型在檢測(cè)過程中易受SAR圖像復(fù)雜背景雜波影響而產(chǎn)生大量虛警的問題。本文所提方法利用強(qiáng)化學(xué)習(xí)序列決策的特點(diǎn),對(duì)大場(chǎng)景SAR圖像中可能含有目標(biāo)的區(qū)域進(jìn)行迭代搜索,通過強(qiáng)化學(xué)習(xí)策略確定搜索區(qū)域的位置坐標(biāo)和尺寸,最終實(shí)現(xiàn)對(duì)大量初始候選框的自適應(yīng)挑選。實(shí)驗(yàn)結(jié)果表明,所提方法能夠找到含有待檢測(cè)目標(biāo)的區(qū)域,提升對(duì)復(fù)雜背景雜波的鑒別能力,有效減少虛警。除此之外,通過在強(qiáng)化學(xué)習(xí)內(nèi)部添加距離約束,對(duì)搜索區(qū)域尺寸進(jìn)行自適應(yīng)調(diào)整,能夠在進(jìn)一步提高檢測(cè)性能的同時(shí),提高運(yùn)算速度。與其他主流目標(biāo)檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本文方法能夠在增加較少運(yùn)算量的同時(shí),大幅提升SAR目標(biāo)檢測(cè)精度。

猜你喜歡
候選框尺寸深度
尺寸
智族GQ(2022年12期)2022-12-20 07:01:18
重定位非極大值抑制算法
面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
CIIE Shows Positive Energy of Chinese Economy
基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
一種針對(duì)特定目標(biāo)的提議算法
邳州市| 肥城市| 新晃| 临湘市| 永德县| 贡觉县| 来宾市| 逊克县| 延津县| 榕江县| 滦平县| 开平市| 莎车县| 土默特右旗| 广南县| 龙川县| 新津县| 金堂县| 繁昌县| 宁津县| 资溪县| 安乡县| 南川市| 临江市| 阿尔山市| 仪征市| 简阳市| 龙游县| 宁陕县| 衡阳县| 巴彦淖尔市| 达孜县| 沈阳市| 定南县| 奉节县| 杂多县| 连山| 波密县| 竹溪县| 吴川市| 大石桥市|