趙亞麗,藺素珍,張海松,李大威,雷海衛(wèi)
(中北大學(xué) 大數(shù)據(jù)學(xué)院,山西 太原 030051)
目前,利用多臺無人機(jī)協(xié)作或單臺無人機(jī)多次拍攝已經(jīng)成為地質(zhì)勘測[1]和安全巡檢等大視場成像的新興手段,其中圖像配準(zhǔn)是必不可少的關(guān)鍵技術(shù)之一.圖像配準(zhǔn)方法包括基于灰度的配準(zhǔn)方法和基于特征的配準(zhǔn)方法兩大類[2].其中,基于灰度的方法通過灰度值計(jì)算完成圖像配準(zhǔn),該方法簡單直觀,但計(jì)算量較大且對圖像灰度值敏感,圖像的光照變化、尺度變化和旋轉(zhuǎn)變化等都會造成較大的匹配誤差;基于特征的配準(zhǔn)方法通過提取并匹配圖像間共有的特征來解算變換參數(shù)得到配準(zhǔn)結(jié)果,該類方法魯棒性好且效率較高.不同無人機(jī)圖像間的光照、傾角等往往大相徑庭,因而使用基于特征的配準(zhǔn)方法更合適.
基于特征的圖像配準(zhǔn)方法可細(xì)分為傳統(tǒng)方法和基于學(xué)習(xí)的方法.典型的傳統(tǒng)方法是D.G.Lower等[3]提出的SIFT(Scale Invariant Feature Transform)算法.該算法通過提取尺度、縮放和旋轉(zhuǎn)不變性特征進(jìn)行配準(zhǔn),性能穩(wěn)定但算法復(fù)雜度高,對錯誤匹配數(shù)據(jù)較敏感.雖然之后產(chǎn)生了一系列針對該算法的優(yōu)化算法[4-5],但總體都有一定的場景約束且計(jì)算效率不高.
近年來,深度學(xué)習(xí)方法在圖像領(lǐng)域顯示出卓越的性能[6-8],許多研究人員使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)等深度學(xué)習(xí)方法來解決圖像配準(zhǔn)問題[9-11].為解決深度學(xué)習(xí)中的標(biāo)簽圖像缺乏問題,有學(xué)者探索了無監(jiān)督學(xué)習(xí)配準(zhǔn)方法.VoxelMorph[12]方法在腦部數(shù)據(jù)集上取得了不錯的效果;VTN(Volume Tweening Network)[13]采用了集成仿射變換模塊和網(wǎng)絡(luò)塊級聯(lián)方式,在存在較大變形的醫(yī)學(xué)圖像配準(zhǔn)方面取得了成功;文獻(xiàn)[14]利用光度損失的無監(jiān)督學(xué)習(xí)來進(jìn)行單應(yīng)性估計(jì);文獻(xiàn)[15]在特征提取之后增加掩膜結(jié)構(gòu)來學(xué)習(xí)圖像的深度信息,從而進(jìn)行更精確的單應(yīng)性估計(jì),等等.綜合看來,基于深度學(xué)習(xí)方法配準(zhǔn)圖像漸成主流.不過,由于無人機(jī)航拍的圖像通常分辨率較大且存在大面積的弱紋理區(qū)域,容易導(dǎo)致特征誤匹配,從而使配準(zhǔn)精度下降,因此,目前將深度學(xué)習(xí)模型用于無人機(jī)圖像配準(zhǔn)的研究還較少.
本文提出一種基于無監(jiān)督學(xué)習(xí)的無人機(jī)圖像配準(zhǔn)方法,該方法在訓(xùn)練過程中僅需要待配準(zhǔn)的圖像對,不需要任何的真實(shí)變換參數(shù).與其他方法研究相比,本文的主要工作有三點(diǎn):1)提出一種R-VGG的特征提取網(wǎng)絡(luò)結(jié)構(gòu),在VGG結(jié)構(gòu)中加入Resnet的思想,充分利用深度學(xué)習(xí)的高性能有效地把圖像的低層輪廓特征和高級語義特征結(jié)合起來,提取到更加魯棒的特征.2)提出在初步特征匹配之后加入以殘差單元為單位的多分支注意力模塊,濾除誤匹配,增加匹配的精確度.3)復(fù)合使用均方誤差損失和感知損失,確保配準(zhǔn)的精度和配準(zhǔn)結(jié)果圖像的質(zhì)量.
本文提出的完全無監(jiān)督無人機(jī)圖像配準(zhǔn)方法流程如圖1 所示.首先,將經(jīng)過預(yù)處理的參考圖像和運(yùn)動圖像分別輸入到兩個網(wǎng)絡(luò)結(jié)構(gòu)相同且共享參數(shù)的特征提取模塊(R-VGG)中進(jìn)行深度特征提??;其次,將提取到的特征完成初步匹配,再采用具有兩個平行分支的注意力模塊(MBA)濾除特征誤匹配;然后將經(jīng)過加權(quán)約束的匹配相關(guān)圖傳輸?shù)絾螒?yīng)性矩陣估計(jì)模塊中,進(jìn)行神經(jīng)網(wǎng)絡(luò)回歸運(yùn)算得到空間變換參數(shù);最后,通過空間轉(zhuǎn)換網(wǎng)絡(luò)(Spatial Transform Network,STN)[16]得到配準(zhǔn)結(jié)果圖像.網(wǎng)絡(luò)模型的損失函數(shù)使用配準(zhǔn)結(jié)果圖像和參考圖像的相似性來構(gòu)建.
圖1 本文方法的整體框架圖Fig.1 The overall framework of the proposed method
1.2.1 特征提取模塊設(shè)計(jì)
特征提取模塊設(shè)計(jì)作為本文配準(zhǔn)模型設(shè)計(jì)的第一步,主要是利用深度學(xué)習(xí)的高性能來提取待配準(zhǔn)圖像對的高級特征信息,從而進(jìn)行穩(wěn)健高效的特征對齊.鑒于VGG-16網(wǎng)絡(luò)在ImageNet上表現(xiàn)出的卓越性能,這里使用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)的前面部分來提取特征.但VGG結(jié)構(gòu)沒有分支結(jié)構(gòu),在淺層網(wǎng)絡(luò)部分提取的是圖像的低層輪廓特征,而在深層網(wǎng)絡(luò)部分篩選出高級的細(xì)節(jié)信息,只是簡單地堆疊網(wǎng)絡(luò)不能把低、高層特征結(jié)合起來,因此,使用簡單的VGG網(wǎng)絡(luò)結(jié)構(gòu)不能有效地提取到利于圖像配準(zhǔn)的特征.而ResNet結(jié)構(gòu)能把上一層的輸出作用于下一層,可以將低層的輪廓特征和高層的語義特征融合,但ResNet系列的網(wǎng)絡(luò)深度較深,結(jié)構(gòu)復(fù)雜,而無人機(jī)圖像的配準(zhǔn)任務(wù)需要較為簡單的模型來保證運(yùn)算效率.因此,本文把ResNet思想和VGG網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合起來,既能篩選出配準(zhǔn)需要的低、高級融合特征,又能保證網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.
圖2 特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Feature extraction network structure diagram
輸入分辨率為H×W的圖像,首先經(jīng)過兩次卷積核大小為3,通道數(shù)為64的卷積得到conv1;對conv1進(jìn)行池化操作使圖像分辨率成為原圖像的1/2,以降低維度;對池化結(jié)果pool1使用1×1卷積增加通道數(shù)到128得到r1;對r1進(jìn)行兩次卷積核大小為3,步長為1,通道數(shù)為128的卷積得到conv2;將r1與conv2在通道維度上相加,這樣便將上一層的輸出作用到下一層,達(dá)到特征融合的效果.之后的網(wǎng)絡(luò)結(jié)構(gòu)依此類推,卷積的通道數(shù)分別為256,512,分辨率分別為原圖像的1/4,1/8,每個卷積層之后跟隨修正線性單元(Relu),在每一次池化后都進(jìn)行1×1卷積,將結(jié)果作用于下一層,網(wǎng)絡(luò)截止至pool4,最后對特征圖進(jìn)行L2標(biāo)準(zhǔn)化.
1.2.2 基于多分支注意力的特征匹配模塊設(shè)計(jì)
特征匹配層用來計(jì)算運(yùn)動圖像特征圖fM和參考圖像特征圖fF的局部描述符之間的所有相似性對.利用相關(guān)層可以實(shí)現(xiàn)初步的特征匹配[7],但由于無人機(jī)圖像中存在大面積的弱紋理區(qū)域(如水域,天空等),在特征匹配階段容易造成錯誤的特征匹配,因此,本文加入多分支注意力模塊來過濾錯誤的特征匹配,以增強(qiáng)對模型異常值的魯棒性.
初始匹配部分相關(guān)層以兩張?zhí)卣鲌DfM和fF為輸入,并輸出三維的相關(guān)圖CFM∈RH×W×(H×W),將位置(i,j,k)上的每個元素定義為對應(yīng)位置一對描述符的標(biāo)量積,其數(shù)學(xué)描述為
CFM(i,j,k)=fM(i,j)TfF(ik,jk),
(1)
式中:i∈{1,…,W},j∈{1,…,H},k∈{1,…,W×H};(i,j)和(ik,jk)指在H×W的密集特征圖中的單個特征位置;k=H(jk-1)+ik是(ik,jk)的輔助索引變量,即每個長度為W×H的相關(guān)向量;CFM(i,j,k)表示fM中坐標(biāo)為(i,j)的局部描述符與fF中各局部描述符之間的相似度.
多分支注意力模塊濾除誤匹配的設(shè)計(jì)思路為:以相關(guān)圖CFM為輸入,并輸出與CFM相同分辨率的權(quán)重矩陣W,其中正確匹配的對應(yīng)位置權(quán)重值較大,錯誤匹配的對應(yīng)位置權(quán)重較小.經(jīng)此,原相關(guān)圖CFM通過權(quán)重矩陣W加權(quán),正確匹配處的值則被增大,而錯誤匹配處的值將減小.在此基礎(chǔ)上,本文設(shè)計(jì)了一種由兩個平行分支組成的注意力網(wǎng)絡(luò),分別生成兩個權(quán)重圖W1和W2,如圖3 所示.圖3 中,每個分支都由編碼和解碼兩部分組成,使用殘差單元作為基本單位,殘差單元的基本結(jié)構(gòu)如圖4 所示.
圖3 多分支注意力模塊結(jié)構(gòu)圖Fig.3 Multi-branch attention module structure diagram
圖4 殘差單元結(jié)構(gòu)信息圖Fig.4 Residual unit structure information graph
編碼部分通過卷積提取高級語義對相關(guān)圖進(jìn)行編碼,解碼部分則通過卷積和上采樣恢復(fù)像素.兩個分支的主要區(qū)別在解碼部分.分支①簡單地使用上采樣操作來生成權(quán)重圖W1;更精細(xì)的分支②在編碼和解碼部分之間加入了跳連接,將低級信息與高級語義信息結(jié)合,生成精確的注意力權(quán)重圖W2;將W1和W2元素相加起來,生成更精確的權(quán)重圖W;使用雙曲正切函數(shù)(tanh)激活W使權(quán)重值在[-1,1]區(qū)間,其中(-1,0)和(0,1)分別表示相關(guān)圖的抑制和增強(qiáng);最后,使用權(quán)重圖W對輸入的相關(guān)圖CFM進(jìn)行加權(quán),生成改進(jìn)的相關(guān)圖Catt.
1.2.3 單應(yīng)性矩陣估計(jì)模塊設(shè)計(jì)
單應(yīng)性矩陣估計(jì)模塊利用相關(guān)圖中的信息來估計(jì)兩幅圖像之間的轉(zhuǎn)換參數(shù).本模塊網(wǎng)絡(luò)由兩個卷積層構(gòu)成,在每個卷積層后進(jìn)行批量標(biāo)準(zhǔn)化(Batch Normalization,BN)和修正線性單元(Relu),然后使用一個全連接層(Fully Connected Layer)得到維度為8的特征向量,即自由度為8的單應(yīng)性矩陣,最后采用空間變換網(wǎng)絡(luò)(STN)完成對運(yùn)動圖像的Warp操作.此模塊的詳細(xì)參數(shù)信息如表1 所示.
表1 單應(yīng)性矩陣估計(jì)模塊網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of homography matrix estimation module
(2)
式中:N為圖像的總像素?cái)?shù).
(3)
綜上,訓(xùn)練模型的損失函數(shù)定義為
(4)
式中:λ為感知損失的權(quán)重.
使用TensorFlow框架設(shè)計(jì)整體網(wǎng)絡(luò),采用無人機(jī)圖像公開數(shù)據(jù)集UAV-123[17]組成2k對待配準(zhǔn)圖像對,包含建筑物、道路、汽車、帆船等不同類別.將所有待配準(zhǔn)圖像對分成三部分,即訓(xùn)練集、驗(yàn)證集和測試集,劃分比例為0.75∶0.05∶0.2.借助NVIDIA TITAN X GPU服務(wù)器訓(xùn)練網(wǎng)絡(luò),訓(xùn)練中選擇的初始學(xué)習(xí)率為0.000 1,每10輪衰減10%,批處理量大小設(shè)置為4,一共訓(xùn)練50輪.經(jīng)過幾次實(shí)驗(yàn),最終把損失函數(shù)中感知損失的權(quán)重λ置為10,使用Adam優(yōu)化器進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練直至收斂.
在圖像配準(zhǔn)領(lǐng)域中,因配準(zhǔn)算法使用場景不同,其對應(yīng)的質(zhì)量評價(jià)指標(biāo)也未統(tǒng)一.本文選用目前最常見且具有評價(jià)參考意義的評價(jià)指標(biāo)來客觀評估本文方法和對比方法的性能[2].
2.2.1 結(jié)構(gòu)相似性SSIM
結(jié)構(gòu)相似性SSIM(Structural Similarity)基于圖像亮度、對比度和結(jié)構(gòu)三個指標(biāo)衡量圖像的相似性.SSIM值在0到1之間,越接近于1,代表配準(zhǔn)效果越好.其對應(yīng)的計(jì)算公式為
(5)
式中:μx,μy分別為配準(zhǔn)結(jié)果圖像和參考圖像中所有像素灰度的均值;σx,σy表示灰度值的標(biāo)準(zhǔn)差;σxy表示圖像協(xié)方差;c1,c2為常量,避免分母為0所帶來的公式錯誤.
2.2.2 互信息量MI
兩幅圖像的互信息量MI(Mutual Information)可以通過二者各自的熵和其聯(lián)合熵來反映他們之間的相互關(guān)聯(lián)程度.兩幅圖像的互信息越大,相似度越高,配準(zhǔn)效果越好.其計(jì)算公式定義為
MI(x,y)=H(x)+H(y)-H(x,y),
(6)
式中:x,y分別表示配準(zhǔn)結(jié)果圖像和參考圖像;H(·)表示熵的計(jì)算函數(shù);H(x,y)為圖像對x,y的聯(lián)合熵計(jì)算函數(shù).
2.2.3 平均絕對誤差MAE
平均絕對誤差MAE(Mean Absolute Error)表示像素位置的絕對誤差平均值,是一種一般形式的誤差平均值.其在做模型評估時(shí),對離群點(diǎn)有較好的魯棒性.MAE的值越小,說明兩幅圖像越相似,即配準(zhǔn)效果越好.其計(jì)算公式為
(7)
式中:xi,yi分別表示配準(zhǔn)結(jié)果圖像和參考圖像在i位置上的像素值;N代表總像素?cái)?shù).
2.3.1 主觀視覺評價(jià)分析
以待配準(zhǔn)圖像對為輸入,以參考圖像作為基準(zhǔn),通過優(yōu)化運(yùn)動圖像與參考圖像之間的相似性來訓(xùn)練網(wǎng)絡(luò).訓(xùn)練完成后,在整個測試集(包括400對待配準(zhǔn)無人機(jī)圖像)測試該模型,并與經(jīng)典的傳統(tǒng)算法SIFT[3]、ORB[18]和基于深度學(xué)習(xí)的算法UDHE[14]和CAU-DHE[15]方法的配準(zhǔn)結(jié)果進(jìn)行比較.從測試圖像中選擇不同類別的3組待配準(zhǔn)圖像對進(jìn)行比較,并通過圖像拼接來展示配準(zhǔn)效果,如圖5 所示.
圖5 測試集上各方法的配準(zhǔn)拼接結(jié)果Fig.5 The registration and stitching results of each method on the test set
在圖5 中,第1行和第2行分別為運(yùn)動圖像和參考基準(zhǔn)圖像,剩下的5行從上到下分別展示了SIFT,ORB,UHDE,CAU-DHE和本文方法的配準(zhǔn)結(jié)果圖像和參考圖像的拼接結(jié)果.從圖中可以看出,傳統(tǒng)的SIFT算法在UAV數(shù)據(jù)集上達(dá)到了較好的配準(zhǔn)效果,但計(jì)算量大,耗時(shí)長;ORB算法是在FAST關(guān)鍵點(diǎn)檢測和BRIEF特征上進(jìn)行的,雖然比SIFT算法具有更快的匹配速度,但在圖像配準(zhǔn)中對于大的單應(yīng)性變換性能較差,無法滿足本文無人機(jī)圖像的配準(zhǔn)拼接要求;UHDE算法是一種基于無監(jiān)督的深度單應(yīng)性估計(jì)模型,其在第3組待配準(zhǔn)圖像對上性能較差,魯棒性不強(qiáng),而且經(jīng)過大的扭曲之后圖像變得模糊,出現(xiàn)了一定的失真現(xiàn)象;CAU-DHE也是一種無監(jiān)督的深度單應(yīng)性估計(jì)算法,在特征提取之后添加了掩膜結(jié)構(gòu)來濾除離群值,從結(jié)果圖來看,變換后的圖像仍然存在重影;明顯可以看出,本文方法具有最好的配準(zhǔn)拼接效果,變換后的圖像和參考圖像邊緣連接較好,圖像清晰沒有重影.
2.3.2 客觀指標(biāo)評價(jià)分析
通過主觀視覺感知分析得出,本文所提方法具有較高的配準(zhǔn)性能,但仍然需要詳細(xì)的指標(biāo)數(shù)據(jù)對配準(zhǔn)結(jié)果進(jìn)行客觀評價(jià).本文在測試集上計(jì)算配準(zhǔn)結(jié)果圖像和參考圖像的結(jié)構(gòu)相似性(SSIM)、互信息量(MI)、平均絕對誤差(MAE)并進(jìn)行記錄,將對應(yīng)的指標(biāo)數(shù)據(jù)對測試集圖像進(jìn)行平均,得到最終的評價(jià)指標(biāo)均值,結(jié)果如表2 所示.為了測試各算法的實(shí)時(shí)性,表中還給出了在測試集上各算法的平均配準(zhǔn)速度.
表2 測試集上不同方法評價(jià)指標(biāo)統(tǒng)計(jì)表Tab.2 Statistics of evaluation indicators of different methods on the test set
從表2 可以看出,本文方法在SSIM,MI和MAE指標(biāo)中均取得最佳效果,SIFT算法次之,而ORB算法的指標(biāo)最低,與主觀觀察的結(jié)果一致.另外,表中所有方法的各項(xiàng)指標(biāo)均處于較低數(shù)值,主要是由于待配準(zhǔn)圖像對之間的差異較大,參考圖像和運(yùn)動圖像的可重疊范圍較小,配準(zhǔn)結(jié)果圖像存在大面積黑邊.本文方法的整體評價(jià)指標(biāo)偏高,且計(jì)算時(shí)間較短,證明了本文方法在無人機(jī)圖像配準(zhǔn)任務(wù)上的有效性.
為了驗(yàn)證本文無監(jiān)督配準(zhǔn)模型的合理性和有效性,進(jìn)行了消融對比實(shí)驗(yàn),所有實(shí)驗(yàn)訓(xùn)練設(shè)置均相同.針對本文設(shè)計(jì)的深度特征提取模塊(R-VGG)、多分支注意力模塊(MBA)和復(fù)合損失數(shù)進(jìn)行消融對比實(shí)驗(yàn),結(jié)果如表3 所示,實(shí)驗(yàn)設(shè)計(jì)了5種不同的模型:①在初步特征匹配后直接進(jìn)行單應(yīng)性估計(jì),沒有添加多分支注意力(MBA);②僅使用感知損失作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù);③損失函數(shù)只使用均方誤差損失;④采用預(yù)訓(xùn)練的VGG16替代本文設(shè)計(jì)的R-VGG模塊來提取深度特征;⑤本文方法的完全體.表中三個客觀指標(biāo)分別為測試集上配準(zhǔn)結(jié)果圖像和參考圖像的結(jié)構(gòu)相似性(SSIM)、互信息量(MI)和平均絕對誤差(MAE)的平均值.
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 The results of ablation experiments
對表3 所示結(jié)果進(jìn)行分析:方法④與方法⑤的對比證明了本文所提的R-VGG特征提取網(wǎng)絡(luò)的有效性,在特征提取階段采用本文提出的R-VGG網(wǎng)絡(luò)結(jié)構(gòu)能夠融合圖像的低、高層特征信息,提取到更有利于后續(xù)特征匹配及空間變換參數(shù)回歸的特征.方法②,方法③與方法⑤的對比表明,使用均方誤差損失和感知損失加權(quán)的復(fù)合損失函數(shù)來訓(xùn)練模型,性能會更好,這是由于缺少感知損失的約束時(shí),無法考慮到圖像深層的相似性,當(dāng)進(jìn)行大的單應(yīng)性變換后,圖像容易變得模糊;在只使用感知損失時(shí),忽略了圖像本身的相似性,圖像不能精確對齊.方法①和方法⑤的差異在于方法⑤加入了多分支注意力模塊來濾除誤匹配,在無人機(jī)圖像配準(zhǔn)過程中,由于弱紋理帶來的特征誤匹配不可避免,直接進(jìn)行單應(yīng)性估計(jì)會受到錯誤匹配的影響,從而使配準(zhǔn)精度下降.在單應(yīng)性估計(jì)之前加入多分支的注意力模塊來濾除錯誤的特征匹配,則配準(zhǔn)精度得到顯著提升.
對比表3 中各項(xiàng)指標(biāo)也驗(yàn)證了設(shè)置多分支注意力模塊的必要性和有效性.總的來說,本文所設(shè)計(jì)的各模塊能有效提高無人機(jī)圖像的配準(zhǔn)精度和配準(zhǔn)結(jié)果圖像的質(zhì)量.
本文提出了一種基于無監(jiān)督學(xué)習(xí)的無人機(jī)圖像配準(zhǔn)模型.首先,充分利用深度學(xué)習(xí)的高性能,設(shè)計(jì)了R-VGG特征提取模塊,篩選出具有魯棒特性的低、高層融合特征;其次,在特征匹配模塊加入了多分支注意力(MBA)約束,濾除錯誤匹配,從而提高了配準(zhǔn)精度;此外,使用內(nèi)容損失和感知損失加權(quán)的復(fù)合損失函數(shù),提高了網(wǎng)絡(luò)性能.通過視覺感知分析和客觀指標(biāo)分析,驗(yàn)證了本文方法在無人機(jī)航拍圖像配準(zhǔn)領(lǐng)域的有效性和穩(wěn)定性.在今后的工作中,將研究分析無人機(jī)圖像的深度信息并對本文方法進(jìn)行改進(jìn)以充分利用圖像信息來提高配準(zhǔn)精度.