張朕通,單玉剛,袁 杰
1.新疆大學(xué) 電氣工程學(xué)院,烏魯木齊830047
2.湖北文理學(xué)院 教育學(xué)院,湖北 襄陽441053
遙感影像檢測(cè)一直是遙感圖像領(lǐng)域的熱點(diǎn)研究方向。遙感圖像中的目標(biāo)檢測(cè)對(duì)于城市監(jiān)控、農(nóng)作物檢測(cè)、環(huán)境探測(cè)都有重要意義。遙感影像有其獨(dú)特的特點(diǎn),使得遙感目標(biāo)檢測(cè)比普通的目標(biāo)檢測(cè)更具有挑戰(zhàn)性,研究人員針對(duì)遙感目標(biāo)的特殊性提出了許多相應(yīng)的解決方案。為了解決遙感圖像中信息量大,數(shù)據(jù)非線性的問題,文獻(xiàn)[1]使用光譜、紋理、形狀等特征從不同角度分析圖像,并對(duì)多個(gè)特征進(jìn)行線性組合,提高了檢測(cè)精度。文獻(xiàn)[2]提出一種流形學(xué)習(xí)計(jì)算遙感特征信息低維投影矩陣,通過優(yōu)化最小誤差重建輸入特征。文獻(xiàn)[3]提出了按塊低秩分解的方法,將特征降維處理。為了解決遙感影像不同于自然圖像的水平視角的問題,文獻(xiàn)[4]提出了建立旋轉(zhuǎn)不變性特征的方法。為了解決檢測(cè)區(qū)域內(nèi)地物突變的情況,文獻(xiàn)[5]提出了結(jié)合MNF變換和Canny 算子方法。針對(duì)遙感影像中同類目標(biāo)尺度變化大的問題,文獻(xiàn)[6]基于相鄰區(qū)域生長(zhǎng)的最小異質(zhì)性準(zhǔn)側(cè),提出了一種面向?qū)ο蟮亩喑叨葯z測(cè)算法。文獻(xiàn)[7]利用多尺度多方向梯度算子提取遙感圖像特征,提高了提取特征的魯棒性。
近年來,隨著人工智能在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,出現(xiàn)了大量使用深度學(xué)習(xí)檢測(cè)目標(biāo)的相關(guān)研究成果。深度學(xué)習(xí)的檢測(cè)方法一般分為單階段和雙階段兩種類型,例如文獻(xiàn)[8]提出一種雙階段算法,借鑒滑動(dòng)窗口思想,通過算法產(chǎn)生一系列目標(biāo)候選框后再進(jìn)行分類和回歸。而文獻(xiàn)[9]僅僅使用卷積神經(jīng)網(wǎng)進(jìn)行預(yù)測(cè),直接對(duì)目標(biāo)位置和所屬類別進(jìn)行回歸。兩種方法各有利弊,雙階段方法在準(zhǔn)確率上有一定優(yōu)勢(shì),單階段方法則速度比較快。也有研究將傳統(tǒng)的目標(biāo)識(shí)別方法和深度學(xué)習(xí)方法相結(jié)合,文獻(xiàn)[10]在深度學(xué)習(xí)的基礎(chǔ)上使用馬爾科夫隨機(jī)場(chǎng)銳化領(lǐng)域像素改善檢測(cè)位置信息丟失的情況,精細(xì)化檢測(cè)結(jié)果。文獻(xiàn)[11]提出了基于柯西分布的子圖像隨機(jī)剪切方法,將采集到的子圖模型送入金字塔池化模塊進(jìn)行訓(xùn)練。文獻(xiàn)[12]在目標(biāo)檢測(cè)前對(duì)數(shù)據(jù)中各類目標(biāo)按大小聚類,劃分出多組先驗(yàn)框來。深度學(xué)習(xí)雖然相較傳統(tǒng)方法提取特征效果好,但是依然有許多不足,訓(xùn)練推理時(shí)間長(zhǎng),需要數(shù)據(jù)樣本多,制約了其在實(shí)際工程項(xiàng)目中的應(yīng)用。針對(duì)此問題,本文提出了一種聯(lián)合多尺度和注意力機(jī)制的遙感影像檢測(cè)算法,并采用了最新優(yōu)化算法尋優(yōu),實(shí)驗(yàn)結(jié)果表明本文網(wǎng)絡(luò)在提高速度的同時(shí)保證了檢測(cè)精度。
本文的主干網(wǎng)絡(luò)共由8 個(gè)卷積層和6 個(gè)池化層組成,使用最大池化層下采樣,使用3×3 卷積提取目標(biāo)相關(guān)特征,使用1×1 卷積融合通道間特征。在圖像領(lǐng)域,目標(biāo)特征在特征圖中數(shù)值較大,最大池化的作用就是將領(lǐng)域內(nèi)數(shù)值較大的顯著特征保留下來,使得下采樣時(shí)不會(huì)影響識(shí)別結(jié)果,去除冗余信息,避免模型過擬合。YOLOv3 中采用卷積下采樣,假設(shè)輸入維度為(H,W,M),步長(zhǎng)為2不考慮偏置,卷積核大小為(K,K,N),則卷積的參數(shù)量為K×K×M×N,最大池化直接輸出鄰域最大值無需儲(chǔ)存參數(shù),卷積的計(jì)算量為K×K×H×W×M×N/4,最大池化計(jì)算量為H×W×M×3/4 遠(yuǎn)小于前者,并且最大池化不含超參數(shù)不用執(zhí)行反向傳播。綜上最大池化能夠有效保留目標(biāo)特征同時(shí)降低計(jì)算量,加快模型推理速度。本文借鑒了Yolo[12]提出了輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)(Yolo-3d),加入本文提出的三維注意力機(jī)制,適用要求實(shí)時(shí)性的遙感目標(biāo)檢測(cè)例如無人機(jī)導(dǎo)航及軍事制導(dǎo),具有一定的可行性。因?yàn)檫b感影像中目標(biāo)尺度差異較大并且經(jīng)常存在小目標(biāo),而高層卷積特征中每個(gè)像素感受野大包含信息較多,小目標(biāo)容易和背景信息融合被忽略。而低層特征圖尺度大,感受野較小,能夠有效捕捉到小目標(biāo)的特征信息,但是低層特征中多為目標(biāo)局部特征,目標(biāo)整體語義信息缺少,所以將中層特征及高層特征上采樣與低層特征融合,將目標(biāo)局部信息和整體信息相結(jié)合,可以有效提高遙感影像中小目標(biāo)物體的檢測(cè)準(zhǔn)確率。本文設(shè)計(jì)了多條檢測(cè)支路,在多種尺度的特征圖上檢測(cè)目標(biāo),以增加網(wǎng)絡(luò)對(duì)不同大小目標(biāo)的檢測(cè)性能。本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 本文網(wǎng)絡(luò)(Yolo-3d)
本文使用k-means 對(duì)數(shù)據(jù)集中標(biāo)注的檢測(cè)框聚類來加速訓(xùn)練和提高準(zhǔn)確性。綜合考慮到遙感檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性,本文共設(shè)置9個(gè)聚類點(diǎn),得到9組不同大小比例的先驗(yàn)框。圖中使用第17 層特征圖(13×13)檢測(cè)較大目標(biāo),每個(gè)特征點(diǎn)代表原圖32×32個(gè)像素的特征信息,比較適合檢測(cè)較大的目標(biāo),先驗(yàn)框?yàn)椋?34×132)(264×387)(442×407);使用第15 層特征上采樣和第10層特征融合得到特征圖(26×26),每個(gè)特征點(diǎn)代表原圖16×16 個(gè)像素的特征信息,用來檢測(cè)中等大小目標(biāo),先驗(yàn)框?yàn)椋?8,62)(88,82)(111,108);使用第15層和第10層融合后的特征上采樣與第8 層特征再次融合的特征圖(52×52),每個(gè)特征點(diǎn)代表8×8個(gè)像素的特征信息,用來檢測(cè)小目標(biāo),先驗(yàn)框?yàn)椋?5,22)(39,35)(54,48)。綜上所述,本文設(shè)計(jì)了3 個(gè)不同尺度的檢測(cè)支路,并通過聚類得到9種先驗(yàn)框,將經(jīng)過拼接和卷積的不同層特征圖融合,與先驗(yàn)框匹配檢測(cè)相應(yīng)尺度的目標(biāo),改進(jìn)網(wǎng)絡(luò)能夠有效應(yīng)對(duì)數(shù)據(jù)集中各種尺度遙感目標(biāo)分布不均的情況,提高檢測(cè)準(zhǔn)確率。每個(gè)先驗(yàn)框預(yù)測(cè)一個(gè)十維向量,包含邊框坐標(biāo),置信度和類別概率。損失函數(shù)分為坐標(biāo)誤差,置信度誤差和分類誤差。本文為了減少訓(xùn)練時(shí)間,節(jié)約計(jì)算成本,使用了遷移學(xué)習(xí)技術(shù),將預(yù)訓(xùn)練過的部分參數(shù)作為模型構(gòu)建的起始點(diǎn)。
深度學(xué)習(xí)目標(biāo)檢測(cè)中的注意力[13]機(jī)制本質(zhì)上是給不同的像素賦予不同的權(quán)重,使其能夠更加關(guān)注有效信息。卷積神經(jīng)網(wǎng)絡(luò)除了學(xué)習(xí)到目標(biāo)的特征外,還包含了大量無效背景信息,這就會(huì)導(dǎo)致在神經(jīng)元中含有大量背景信息,影響檢測(cè)性能。另外YOLOv3 中使用Darknet53為主干網(wǎng)含有53個(gè)卷積層和11個(gè)殘差單元,為了保證梯度信息的反向傳播,殘差單元對(duì)于深層的網(wǎng)絡(luò)是必不可少的,大量的卷積層和殘差單元造成了參數(shù)量和計(jì)算量增加。而本文網(wǎng)絡(luò)為了保證實(shí)時(shí)性網(wǎng)絡(luò)層數(shù)較少不會(huì)出現(xiàn)梯度消失的現(xiàn)象,所以沒有采用殘差單元。但是較淺的網(wǎng)絡(luò)也有弊端,卷積層數(shù)少會(huì)導(dǎo)致邊緣特征信息不易捕捉,學(xué)習(xí)的特征表現(xiàn)不夠好,導(dǎo)致池化時(shí)有效特征不夠明顯影響識(shí)別精度。針對(duì)這個(gè)問題,提出三維注意力機(jī)制將目標(biāo)的位置、邊緣等相對(duì)重要特征提取出來并賦予較高的權(quán)重,對(duì)于特征相對(duì)不明顯的背景,降低其權(quán)重,達(dá)到抑制目的,從而在池化時(shí)保留住目標(biāo)區(qū)域的特征,提高檢測(cè)性能。
本文設(shè)計(jì)的注意力機(jī)制結(jié)構(gòu)如圖2所示,能夠從通道、行和列三個(gè)維度上給每個(gè)像素分配合適的權(quán)重。根據(jù)模型的首層特征圖,獲得通道、行和列注意力權(quán)重圖,然后分別將其和原特征圖點(diǎn)乘,得到帶有權(quán)重的特征圖,計(jì)算公式如公式(1)所示:
其中,F(xiàn)為原特征圖,F(xiàn)′為輸出特征圖,?為矩陣間元素點(diǎn)乘,*為卷積操作,Mc(F)為通道注意力圖,Mr(F)為行注意力圖,Ml(F)為列注意力圖,G為卷積核。
每個(gè)注意力模塊計(jì)算的是除自身外其余兩個(gè)維度的特征壓縮值,使用最大池化和平均池化兩種池化操作得到兩個(gè)不同的矩陣。其中通道維度的兩個(gè)矩陣首先使用1×1 卷積降維,再進(jìn)行特征融合升維,最終得到和通道長(zhǎng)度一致的一維向量。行和列的矩陣則先使用特征拼接,再使用3×1或1×3卷積聚合特征,同樣得到和自身長(zhǎng)度一致的一維向量。通過兩種池化操作顯著和連續(xù)的特征被提取出來,后續(xù)的卷積操作將相關(guān)特征關(guān)聯(lián)起來,最終得到3組權(quán)重值,使用sigmod激活函數(shù)將權(quán)重歸一化到0~1 之間。通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練更新注意力機(jī)制參數(shù),最后將三個(gè)維度矩陣相加得到三維權(quán)重圖,采用矩陣加和操作也可以有效降低計(jì)算量。加入注意力機(jī)制后,本文設(shè)計(jì)網(wǎng)絡(luò)的參數(shù)量依然遠(yuǎn)少于YOLOv3網(wǎng)絡(luò),在速度上對(duì)比YOLOv3上有明顯優(yōu)勢(shì),并且在精度上幾乎沒有下降。其中通道注意力計(jì)算方式如公式(2)所示,行和列注意力計(jì)算方式如公式(3)所示。
其中F是輸入特征圖,Mc(F)是通道注意力圖,Mi(F)為行或列注意力圖,MLP是多層神經(jīng)網(wǎng)絡(luò),σ是激活函數(shù),AvgPool是均值池化,MaxPool是最大池化。
圖2 三維注意力機(jī)制結(jié)構(gòu)圖
SGD 優(yōu)化器因?yàn)樵诟鱾€(gè)維度上梯度的縮放是一致的,導(dǎo)致在訓(xùn)練數(shù)據(jù)分布不均勻的情況下尋優(yōu)效果不是很理想。而收斂速度較快的自適應(yīng)優(yōu)化算法,雖然在訓(xùn)練早期收斂較快,但是最后的表現(xiàn)卻不如SGD優(yōu)化器。為了改善自適應(yīng)優(yōu)化算法在訓(xùn)練后期學(xué)習(xí)率出現(xiàn)極端的情況,本文加入了Lookhead[14]優(yōu)化算法。Lookhead維護(hù)了速率不同的兩套權(quán)重,內(nèi)部循環(huán)使用了標(biāo)準(zhǔn)優(yōu)化器。Lookhead計(jì)算方法如下:
在內(nèi)部?jī)?yōu)化器的快速權(quán)重經(jīng)過k次更新后,Lookahead在權(quán)重空間中通過線性插值更新慢速權(quán)重,方向?yàn)閮?nèi)部?jī)?yōu)化器最后一次權(quán)重方向,可以有效避免模型學(xué)習(xí)率出現(xiàn)震蕩或收斂速度慢的現(xiàn)象。
本文使用的遙感數(shù)據(jù)集是武漢大學(xué)團(tuán)隊(duì)提供的RSOD-Dataset[15],包含了不同時(shí)間、角度和高度拍攝的飛機(jī)、操場(chǎng)、立交橋、油桶四類物體,共976張圖片,5 383個(gè)實(shí)例目標(biāo),具有一定的代表性。實(shí)驗(yàn)環(huán)境配置為Intel?Core?i7-4720HQ處理器、8 GB內(nèi)存條,Nvidia GeForce GTX 950M 顯卡,操作系統(tǒng)為Win10,使用深度學(xué)習(xí)框架Pytorch[16]。
從數(shù)據(jù)集中隨機(jī)選取592 張圖片作為訓(xùn)練集進(jìn)行訓(xùn)練,72張圖片進(jìn)行驗(yàn)證,72張圖片進(jìn)行測(cè)試。訓(xùn)練時(shí)一個(gè)批次包含16 張圖片,Lookhead 的內(nèi)部?jī)?yōu)化器動(dòng)量設(shè)置為0.9。為了防止過擬合,權(quán)重衰減設(shè)置為0.000 5。采用動(dòng)態(tài)學(xué)習(xí)率,初始學(xué)習(xí)率設(shè)置為0.005,隨著迭代次數(shù)增加學(xué)習(xí)率逐漸降低。
本文使用了查準(zhǔn)率(P),查全率(R),MAP@0.5,F(xiàn)1作為實(shí)驗(yàn)指標(biāo)。F1 和MAP@0.5 兼顧了查準(zhǔn)率和查全率兩個(gè)指標(biāo)。MAP@0.5 是每類AP 的均值,而AP 是對(duì)P-R 曲線下方積分計(jì)算出的面積。F1 是查準(zhǔn)率和查全率的調(diào)和平均值,F(xiàn)1計(jì)算方式如公式(4):
訓(xùn)練前將所有圖片縮放到416×416,共訓(xùn)練了400輪,迭代次數(shù)14 800次。改進(jìn)模型訓(xùn)練的loss曲線如圖3所示,可以看出loss值在200輪后值趨于穩(wěn)定,最終降低到3 左右。MAP@0.5 曲線由圖4 可知,MAP@0.5 同樣在200 輪左右逐漸穩(wěn)定,最終收斂到0.93 附近,最高可到0.945。
圖3 模型loss曲線
圖4 模型MAP@0.5曲線
本文使用了4 種指標(biāo)Yolo-tiny[17]、Yolo、Yolo-3d 進(jìn)行了詳細(xì)的對(duì)比。如表1所示,本文模型參數(shù)量比Yolotiny 略多,比Yolov3 參數(shù)少了一倍,但是最終的各項(xiàng)指標(biāo)查準(zhǔn)率達(dá)到了75.2%,查全率達(dá)到了96.1%,MAP@0.5 達(dá)到了94.5%,F(xiàn)1 達(dá)到了84.1%,相較于Yolo-tiny 均有較大提升,性能基本可以和Yolov3持平,在兼顧實(shí)時(shí)性的情況下保證了檢測(cè)精度。從表2 可以看出Yolotiny 模型檢測(cè)飛機(jī)和立交橋單類AP 表現(xiàn)較差,是因?yàn)轱w機(jī)目標(biāo)較小,并且和立交橋一樣自身特征信息不明顯,而Yolo-3d能夠有效改善這些問題,對(duì)這兩類目標(biāo)的AP 能夠提高3%左右。對(duì)于油罐和操場(chǎng)這些在原模型AP 較高的目標(biāo),因?yàn)樗鼈儽旧砭哂歇?dú)特的特征信息有利于遙感目標(biāo)的檢測(cè),本文模型對(duì)于這類目標(biāo)也能平均提高2%的AP。
表1 不同網(wǎng)絡(luò)模型指標(biāo)對(duì)比
表2 單個(gè)目標(biāo)在測(cè)試集AP對(duì)比
為了驗(yàn)證本文設(shè)計(jì)模型在遙感影像目標(biāo)檢測(cè)方面的有效性,將Yolo-3d 與Yolo-tiny 檢測(cè)結(jié)果進(jìn)行對(duì)比。部分檢測(cè)圖片對(duì)比如圖5,(e)為Yolo-tiny 飛機(jī)檢測(cè)結(jié)果,對(duì)比原圖可以看出Yolo-tiny 只檢測(cè)到了部分目標(biāo),(i)中Yolo-3d可以檢測(cè)到基本所有的飛機(jī)目標(biāo),證明了本文模型對(duì)小目標(biāo)檢測(cè)的有效性。如圖(f)、(j),因?yàn)橛凸薜奶卣饕子跈z測(cè),Yolo-tiny和本文模型都可以檢測(cè)到目標(biāo),但是對(duì)于具體的目標(biāo)位置沒有改進(jìn)模型預(yù)測(cè)的準(zhǔn)確,檢測(cè)框部分有偏差,同時(shí)置信度不如本文模型。如圖(g)、(h),Yolo-tiny沒有預(yù)測(cè)出應(yīng)有的立交橋,預(yù)測(cè)操場(chǎng)出現(xiàn)了數(shù)量不符的現(xiàn)象,這是因?yàn)閅olo-tiny層數(shù)較淺不能很好地提取出目標(biāo)的必要特征信息,所以出現(xiàn)了位置丟失和回歸不準(zhǔn)確的現(xiàn)象,而(k)、(l)可以很準(zhǔn)確地預(yù)測(cè)出目標(biāo)的位置和類別。綜上所述,本文提出的Yolo-3d 能很好地識(shí)別這些遙感目標(biāo)。Yolo-3d 推理時(shí)間比Yolo-tiny略長(zhǎng),主要是因?yàn)閷訑?shù)增多導(dǎo)致模型構(gòu)建時(shí)間變長(zhǎng),但是依然可以滿足實(shí)時(shí)性的要求,在實(shí)際工程應(yīng)用中具備可行性。
圖5 多目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果
本文提出了一種聯(lián)合多尺度和注意力機(jī)制的遙感影像檢測(cè)算法。采用聚類的先驗(yàn)框匹配多條檢測(cè)支路,利用低層特征改善小目標(biāo)檢測(cè)準(zhǔn)確率,能夠適應(yīng)多種尺度的物體。提出了三維注意力機(jī)制能夠從三個(gè)維度上得到特征的自適應(yīng)權(quán)重,有效地提取遙感影像中目標(biāo)的語義信息。使用遷移學(xué)習(xí)技術(shù)和新的優(yōu)化算法節(jié)省了訓(xùn)練成本,提高了模型的性能。通過實(shí)驗(yàn),比較了不同模型間檢測(cè)效果的差別,分析了不同模型的利弊。本文提出的算法能夠?qū)Ρ疚臄?shù)據(jù)集中的4 種遙感目標(biāo)實(shí)現(xiàn)準(zhǔn)確識(shí)別和檢測(cè),同時(shí)兼顧實(shí)時(shí)性,滿足實(shí)際工程應(yīng)用中的需求。對(duì)于遙感影像目標(biāo)檢測(cè)的問題,隨著算法的進(jìn)步,有越來越多的可能應(yīng)用于各種實(shí)時(shí)的遙感檢測(cè)問題,如自然異常檢測(cè)、城市目標(biāo)檢測(cè)、軍事目標(biāo)檢測(cè)等,為人們的生活帶來便利。