袁 珊,瞿安朝,錢偉行,呂 昊,蘇曉林
(南京師范大學 電氣與自動化工程學院·南京·210023)
感知與導航定位是地面無人平臺(Unmanned Ground Vehicle,UGA)在變化環(huán)境中實現(xiàn)運動控制和協(xié)同作業(yè)等任務的有效基礎功能之一。在山區(qū)峽谷等無線信號的盲區(qū),衛(wèi)星定位和基站定位無法正常使用,而視覺同步定位與地圖構建(Simultaneous Localization and Mapping,SLAM)可以在無線信號失效狀態(tài)下實時估計傳感器的位姿并建立環(huán)境的三維地圖。視覺傳感器以較高的分辨率和相對較快的速度感知豐富的外部環(huán)境信息,但也存在著對運動變化敏感等問題。在基于特征提取的視覺SLAM框架下,特征檢測器難以從運動模糊圖像中提取足夠的特征點,降低了幀間特征匹配的準確性,進而影響最終的定位精度和建圖效果。
為了消除或減少運動模糊對視覺SLAM定位造成的不利影響,現(xiàn)主要有兩類方法:圖像防模糊和圖像去模糊。S.Osswald等通過機器學習的方法優(yōu)化機器人的導航動作以避免圖像模糊,該類方法不直接處理視覺里程計(Visual Odometry,VO)中的模糊圖像,在復雜運動環(huán)境下應用受到限制。近年來,圖像去模糊化取得了一定的研究進展,研究者引入基于數(shù)據(jù)關聯(lián)的方法來加速圖像去模糊,以降低圖像模糊對VO的影響。A.Pretto等通過估計運動引起的模糊圖像的核參數(shù),并將這些參數(shù)結合至基于尺度不變特征變換(Scale Invariant Feature Transform,SITF)的特征檢測框架中,以提高特征點提取的準確性。該方法在一定程度上降低了運動模糊圖像對VO的影響,但僅限于直線運動模糊檢測,曲線行進時應用受到較大限制。應對模糊圖像問題的另一種思路是篩除部分圖像幀,郭科等利用相鄰圖像匹配點之間的位置關系計算圖像模糊程度數(shù)值,并在SLAM過程中篩除模糊較大的圖像幀以應對運動模糊,然而直接進行圖像幀篩除可能會丟失很多有效信息。
針對以上研究現(xiàn)狀,本文提出了一種無參考圖像質量評價算法,在圖像客觀度量算法的基礎上,引入加速版多尺度二維特征檢測和描述(Accelerated KAZE,AKAZE)特征點質量評價算法作為圖像模糊度評判標準,同時設計了一種多幀輸入的基于生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)的圖像去模糊模型,將評判為模糊的圖像輸入網(wǎng)絡,以端對端方式恢復清晰圖像并重新送入視覺SLAM系統(tǒng)。在TUM數(shù)據(jù)集上進行運動去模糊視覺SLAM系統(tǒng)性能測試,驗證了本文方法在動態(tài)環(huán)境下能取得良好的定位精度和魯棒性。
地面無人平臺往往處于復雜多變的動態(tài)隨機場景中,很難保證圖像序列的質量。因此,在進行SLAM的過程中,有必要對輸入圖像進行模糊程度評估以及對模糊圖像進行去模糊化,以保證定位結果的準確性。本文針對視覺SLAM過程設計的圖像質量評價算法,主要是基于AKAZE特征點和圖像灰度方差函數(shù)估計圖像模糊程度,從模糊產(chǎn)生原理出發(fā),合理利用圖像特征點與模糊誤差的對應關系,使模糊參數(shù)的計算不會影響SLAM的正常運行,又能對圖像的模糊程度有精確的表達。
基于點特征的影像匹配算法主要是提取圖像的不變特征,加速版魯棒性特征點(Speeded Up Robust Features,SURF)、快速特征點提取和描述算法(Oriented FAST and Rotated BRIEF,ORB)等常用點特征提取方法,都是基于線性的高斯金字塔進行多尺度分解,以消除噪聲和提取顯著特征點,但高斯分解犧牲了局部精度,易造成邊緣信息弱化和細節(jié)模糊,不利于SLAM系統(tǒng)的特征提取。而本文選用的基于非線性尺度空間的AKAZE特征點檢測方法可以保證圖像邊緣在尺度變化中擁有更小的信息損失量,極大地保持了圖像細節(jié)信息,在低分辨率模糊圖像中具有更強的適應性與穩(wěn)定性。
為了進行AKAZE特征點檢測,首先構建非線性尺度空間,與SIFT類似,非線性尺度空間分為組金字塔影像,每組有層,各層采用的分辨率與原始輸入圖像相同。尺度參數(shù)與影像組數(shù)、子層級數(shù)的關系滿足式(1)。
(1)
式中,為尺度初始值;為尺度空間影像總數(shù)目。
對原始圖像重復降采樣,獲取組金字塔影像,再對每組影像按照不同參數(shù)濾波生成層尺度影像,按式(2)計算進化時間。
(2)
為了定位特征點,求解不同尺度歸一化后的Hessian局部極大值點,如式(3)。
(3)
式中,、、分別表示輸入圖像進行高斯濾波后的二階微分值。利用尺度空間函數(shù)在特征點處使用二階泰勒展開式得到的內插值,精確定位AKAZE特征點位置。
使用二進制描述符的漢明距離對特征點進行粗匹配,并選取邊緣采樣一致化方法對粗匹配得到的特征點進行精匹配,剔除錯誤匹配點。在輸入數(shù)據(jù)點集中選擇5對特征點進行計算,得到模型和單應性矩陣。模型質量函數(shù)(,,)的期望用于評估模型質量,根據(jù)模型的質量函數(shù)判斷當前模型是否為最優(yōu)模型,計算正確匹配點對,質量函數(shù)如式(4)所示。
(4)
式中,為閾值;為最大閾值;為模型常數(shù);為特征點數(shù)量;為特征點的投影誤差;為函數(shù)殘差。
圖像特征通常使用穩(wěn)定的局部極值點表示,可以有效檢測圖像的邊緣和紋理信息。根據(jù)圖像極值點及其變化情況設計計算模型,模擬視覺系統(tǒng)的圖像感知過程,從而判斷圖像質量 。
首先,對圖像進行分塊處理,并進行特征點提取,如圖1所示,依次將圖像從左至右,從上至下劃分為×的小圖塊。且為降低后續(xù)SLAM特征匹配階段的計算復雜程度,本文算法僅保留子圖像塊中對比度較大的前50%的特征點,圖中條紋圖塊為弱紋理區(qū)域,不參與模糊分數(shù)的計算。
圖1 分塊提取特征點Fig.1 Extracting feature points by blocks
根據(jù)AKAZE特征點的位置,區(qū)分出感興趣的塊,并將這些感興趣圖像塊用集合表示,式(5)為集合中元素-1,-1(下標為圖像塊的位置坐標)。
={,,…,-1,-1}
(5)
統(tǒng)計每個圖像塊中AKAZE特征點數(shù)量,如式(6)所示,用集合表示,下標表示感興趣塊的數(shù)量,與集合中的圖像塊元素一一對應。
={,,…,}
(6)
通過圖像塊AKAZE特征點的檢測數(shù)量進行權重分配,結合基于空間域特征的圖像評價函數(shù),最終產(chǎn)生模糊分數(shù),權重的計算如式(7)所示。
(7)
其中,∈{1,2,3,…,};∈{1,2,3,…,};為一個實驗決定的常數(shù)。
圖像的清晰度與相機聚焦程度成正比,當完全聚焦時,圖像最清晰且具有大量高頻分量,因此可將灰度變化作為聚焦程度的評判依據(jù)。圖像塊的灰度方差函數(shù)和Vollath函數(shù)分別如式(8)和式(9)所示。
(8)
(9)
其中,(,)表示對應像素點(,)的灰度值;為圖像的平均灰度值;和分別為圖像的高度值和寬度值。
最終研究的圖像模糊分數(shù)的計算如式(10)所示,為尺度因子。
(10)
采用標準圖像庫測試本節(jié)提出的圖像質量評價算法。圖像質量評價算法常用數(shù)據(jù)庫包括LIVE、TID2008、TID2013、CSIQ和CID2013,圖庫同時還給出人類主觀評價分數(shù)MOS值,該參考值越大表示圖像越清晰。圖2(a)~圖2(e)所示為LIVE圖像庫中隨機挑選的模糊失真對應的5張圖像,且這5張圖像的MOS值單調遞減,即表示模糊程度在增加。
(a) 模糊圖像1
(b) 模糊圖像2
(c) 模糊圖像3
(d) 模糊圖像4
(e) 模糊圖像5圖2 模糊程度遞增的圖像Fig.2 Images with increasing blur
在實驗中,圖像劃分為7×7的小圖塊,尺度因子設置為10,權重函數(shù)中的設置為10。表1所示為不同算法產(chǎn)生的模糊分數(shù)對比,以主觀評價MOS值變化趨勢作為評判標準,可以看出主觀評價MOS值遵循單調遞減的順序,代表圖像的模糊程度逐漸增加,良好的算法應該與MOS值的趨勢一致,產(chǎn)生一個單調遞減的分數(shù)。對比算法分別為局部相位相干(Local Phase Coherence,LPC)以及NR-SAD,均為圖像模糊程度越大分數(shù)越低。由表1可以看出,本文模糊度評價算法與MOS值變化趨勢一致,而當圖像間的模糊程度相近時,LPC和NR-SAD算法并不能總是做出準確的評價,如LPC算法中圖2(c)和圖2(d)的分數(shù)變化以及NR-SAD算法中圖2(b)和圖2(c)的分數(shù)變化不符合模糊評判分數(shù)單調遞減的趨勢。
表1 不同算法產(chǎn)生的模糊分數(shù)對比Tab.1 Comparison of fuzzy scores generated by different algorithms
進一步地,為了驗證本文研究的圖像模糊度評價算法在真實模糊圖像庫上的整體性能,采用皮爾遜線性相關系數(shù)(Pearson Linear Correlation Coefficient, PLCC)描述預測值與主觀評分之間的相關性與衡量算法的準確性,如表2所示。PLCC取值范圍為[-1,1],絕對值越接近于1,說明圖像質量評價算法的準確度越高。
表2 模型PLCC線性相關性Tab.2 Model PLCC correlation
由表2可以看出,四種數(shù)據(jù)集對應的PLCC值均在0.8~1.0之間,說明模糊評價分數(shù)與主觀評價分數(shù)之間呈強相關,故LPC算法、NR-SAD算法和本文算法均可以較好地預測圖像的模糊程度。本文研究的模糊評價算法在LIVE、CSIQ和TID2013庫中的表現(xiàn)均優(yōu)于LPC和NR-SAD算法,而在TID2008數(shù)據(jù)庫性能測試中分數(shù)略低于NR-SAD算法,綜合看來,本文模糊圖像評價算法實現(xiàn)了較高的準確率和較強的魯棒性。
將判定為模糊的圖像幀輸入至端對端的去模糊化網(wǎng)絡,輸出的清晰圖像再與前后幀進行特征點匹配并進行位姿估計,參與視覺SLAM的后端優(yōu)化過程。本文研究了一種以3個相鄰幀作為輸入的去模糊化GAN模型,建立了一種雙向的時間轉移特征,模糊幀的潛在特征向后轉移至上一幀,向前轉移至下一幀。2個相鄰幀由分組卷積后的集成編碼器同時編碼,之后由混合解碼器聯(lián)合解碼,以生成相對于中心模糊幀更清晰的圖像幀。
本文研究的基于GAN的生成器網(wǎng)絡結構如圖3所示,假設圖像模糊評價算法評測的模糊幀為,通過結合前一幀和后一幀,實現(xiàn)相對于恢復潛在清晰圖像的目標。設計了一個完全卷積的生成網(wǎng)絡,所有卷積層均利用數(shù)據(jù)規(guī)范化對卷積結果進行歸一化處理,以加快網(wǎng)絡的訓練速度,除網(wǎng)絡的最后一個卷積塊使用tanh作為激活函數(shù)外,其余所有卷積塊均使用Relu作為激活函數(shù)。按照由粗到細的過程可將生成器分成兩個去模糊階段,兩個階段均采用類似于VDHNet的編解碼結構,基于相鄰幀間的時間和空間信息,建立雙向時間轉移特征,轉移特征通過合并子網(wǎng)絡與相鄰幀的直接特征,由一組編碼器編碼,然后由混合解碼器解碼。
圖3 生成器網(wǎng)絡結構Fig.3 Generator network architecture
生成器學習的內容為清晰圖像和模糊圖像之間的殘差,相較于讓生成器網(wǎng)絡學習模糊圖像到清晰圖像的映射,只讓網(wǎng)絡學習兩者間的殘差可以大大降低網(wǎng)絡的學習量,使其在訓練過程中收斂得更快。
采用Patch GAN作為本文判別器網(wǎng)絡結構,普通鑒別器計算將輸入映射到真實樣本的概率值,而Patch GAN將輸入圖像映射到×的矩陣,的值表示真實樣本的概率,的平均值是鑒別器的最終輸出結果,可以從特征矩陣中跟蹤原始圖像中的某個位置。鑒別器使原始圖像的每個部分都影響最終的輸出。在這項工作中,Patch-GAN由3組卷積單元組成,前2組卷積單元包括2個用于特征提取的卷積層,其內核大小為3×3,步長為1。在每個卷積層之后,有BN、ReLU和池化層,在最后一次卷積中對最大池化層進行刪除。在3個卷積單元之后,存在一個卷積核尺寸為1×1的卷積層。Patch GAN輸出一個大小為80×80的矩陣,矩陣中元素的平均值是最終判斷結果。
傳統(tǒng)GAN是基于JS散度和KL散度的方式進行優(yōu)化,在訓練階段會出現(xiàn)梯度消失和模式崩潰的問題,針對該問題,本文的判別器在Patch-GAN架構的基礎上采用WGAN-GP,以Wasserstein距離表示網(wǎng)絡的對抗損失,使訓練更加穩(wěn)定。模型訓練過程中的損失函數(shù)由對抗損失和內容損失加權組成,內容損失包括基于像素空間的內容損失函數(shù)和基于特征空間的內容損失函數(shù),表達式如式(11)所示。
=++
(11)
式中,和為像素損失和特征損失相對于對抗損失函數(shù)的權重系數(shù),本文設置=100和=10。
(12)
式中,表示模糊圖像;為一個批次的圖片訓練數(shù)量;表示判別器,其下標為判別器參數(shù);表示生成器,其下標為判別器參數(shù)。
像素空間損失函數(shù)主要用于保證復原圖像與真實圖像具有更加相似的圖像特征,相應的計算表達式為
(13)
式中,為樣本清晰圖像,和為像素坐標值。為了進一步對圖像紋理信息進行細節(jié)上的復原,將復原生成的圖像與真實圖像送入訓練好的VGG19,通過計算生成圖像特征圖與原始圖像特征圖之間的歐氏距離來計算特征空間損失函數(shù),即
,(()),)
(14)
式中,,表示VGG19網(wǎng)絡中第次最大池化層之前,第個卷積層激活后輸出的特征圖;,和,分別表示特征圖的寬度和高度。
本文的實驗訓練環(huán)境基于64位Ubuntu18.04操作系統(tǒng),深度學習計算機中央處理器(Central Processing Unit,CPU)型號為Intel Xeon E5-2678 v3,顯卡為NVIDIA GeForce RTX 2080 Ti,網(wǎng)絡模型的構建與訓練是基于TensorFlow深度學習框架實現(xiàn)的。
網(wǎng)絡的訓練數(shù)據(jù)集為GOPOR數(shù)據(jù)集,包含來自多個街道的模糊圖像及其對應的清晰圖像,在其基礎上自制訓練和測試樣本,預處理后訓練集共1865張,測試集共150張。如圖4所示,每個樣本包含三幀連續(xù)模糊幀和相對于中間幀的清晰幀。生成網(wǎng)絡選用Adam優(yōu)化器,初始學習率為10,最大epoch設置為300,在前200個epoch結束后,學習率線性衰減直至為0。
圖4 預處理訓練樣本數(shù)據(jù)Fig.4 Preprocessing training sample data
為了更加客觀地評價去模糊網(wǎng)絡,采用當前圖像去模糊領域認可度最高的峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結構相似性(Structural Similarity, SSIM)指標作為評判標準,對150張測試數(shù)據(jù)集進行實驗,結果如表3所示,這兩項指標的數(shù)值越高表示網(wǎng)絡模型的去模糊效果越好。從表3的結果可以看出,本文TDGAN去模糊算法在性能上較MS-CNN、DeblurGAN和CLD-SR有了一定程度的提升,模型在實時性方面也表現(xiàn)良好,綜合看來,本文研究的去模糊GAN模型在評價指標和網(wǎng)絡性能上均優(yōu)于其他三種方法。
表3 算法指標與單幀平均運行時間對比Tab.3 Comparison of algorithm index and running time
本文研究的運動去模糊視覺SLAM算法在經(jīng)典ORB-SLAM2算法的基礎上進行改進,去模糊算法整體實驗流程如圖5所示。將相機采集的圖像序列送入VO,結合AKAZE特征點的提取過程逐幀進行模糊程度判斷,篩選出模糊程度過高的圖像,其他圖像繼續(xù)進行特征匹配與位姿估計。另一方面,將模糊圖像送入GAN進行去模糊化,輸出的清晰圖像與系統(tǒng)保存的關鍵幀進行匹配,或將當前圖像的關鍵點與場景中的點建立對應關系以估計相機位姿信息,并將該信息送入視覺SLAM的后端優(yōu)化部分進行聯(lián)合優(yōu)化?;谠~袋模型的回環(huán)檢測提供當前數(shù)據(jù)與所有歷史數(shù)據(jù)的關聯(lián),當跟蹤算法丟失,可以利用回環(huán)檢測進行重定位,同時確定路標點的位置,完成視覺SLAM的建圖功能。
圖5 運動去模糊視覺SLAM系統(tǒng)Fig.5 Motion deblurring vision SLAM system
采用TUM數(shù)據(jù)對本文視覺SLAM算法進行評估,TUM數(shù)據(jù)集涵蓋十幾個室內數(shù)據(jù)場景,通過Kinect采集圖像RGB-D數(shù)據(jù)。選取幾個發(fā)生運動模糊、動態(tài)物體等典型狀況的圖像序列進行測試,數(shù)據(jù)集中均提供由運動捕捉系統(tǒng)獲取的真實軌跡數(shù)據(jù)。將圖像序列輸入至視覺SLAM系統(tǒng),在進行特征提取與匹配的過程中,基于AKAZE特征點迅速對圖像的模糊程度進行判斷,將模糊程度較大的圖像送入去模糊化GAN,輸出清晰的圖像再參與后續(xù)的SLAM過程。如圖6所示,本文網(wǎng)絡模型可以恢復圖像豐富的紋理信息,獲得更高的特征點提取質量。
(a) 模糊圖像
(b) 去模糊圖像圖6 去模糊前后AKAZE特征提取Fig.6 AKAZE feature extraction before and after deblurring
圖7所示為TUM數(shù)據(jù)集下部分序列ORB-SLAM2算法和本文算法的實驗結果,數(shù)據(jù)集給出標準軌跡groundtruth,圖中用黑色虛線繪出,ORB-SLAM2運動軌跡由藍色曲線繪出,本文運動去模糊算法軌跡由綠色曲線繪出。圖7(a)展示了在序列freiburg1_desk2中,兩種算法均能復現(xiàn)真實軌跡的走勢,其中ORB-SLAM2算法在跟蹤過程中軌跡偏移較大,而本文運動去模糊視覺SLAM算法定位精度較高。由于序列freiburg2_360_hemisphre運動程度較為劇烈,含有大量模糊圖像,如圖7(b)所示,ORB-SLAM2算法在跟蹤較短的距離后便失效且無法恢復,本文算法在該高動態(tài)環(huán)境下保持了一定的定位精度和魯棒性。
(a) freiburg1_desk2序列
(b) freiburg2_360_hemisphere序列圖7 TUM數(shù)據(jù)集測試結果Fig.7 Experimental result on TUM dataset
采用均方根誤差(Root Mean Squared Error, RMSE)和標準偏差(Standard Deviation ,STD)評判算法位姿估計的準確度,其中RMSE描述觀測值與真實值之間的偏差,易受偶發(fā)錯誤影響,因此可以更好地反映系統(tǒng)的魯棒性;STD用于評估軌跡相較于真實軌跡的離散程度,可以更好地反映系統(tǒng)的穩(wěn)定性。將本文研究的運動去模糊視覺SLAM系統(tǒng)與具有代表性的視覺SLAM算法進行對比,包括開源算法ORB-SLAM2以及基于深度學習的算法GCN-SLAM和SurfCNN,每種算法對同一段序列進行10次實驗后提出異常數(shù)據(jù)取平均值,在TUM數(shù)據(jù)集中的最終結果如表4所示,“-”表示跟蹤失敗,對于所有測試序列,本文算法的位姿估計精度均高于ORB-SLAM2、GCN-SLAM和SurfCNN。在相對穩(wěn)定的序列fr1_desk 、fr1_desk2和fr3_office中,本文算法相較于ORB-SLAM2提升幅度較小,分析原因是ORB-SLAM2使用的隨機抽樣一致性(Random Sample Consensus, RANSAC)算法能將部分小幅度移動的動態(tài)特征點作為噪聲剔除,一定程度上降低了低動態(tài)場景中運動物體對算法精度的影響。而對于包含大量快速運動和快速旋轉的動態(tài)序列fr1_room、fr1_floor 和fr2_hem,由于相機快速旋轉和移動而導致出現(xiàn)大面積運動模糊,本文算法可精準定位模糊圖像并進行解模糊操作,如fr2_hem序列中,相較于改進前的ORB-SLAM2算法,本文算法能夠將精度提高59.4%,而在fr1_room和fr1_floor序列中精度提升幅度也在20%以上,一定程度上提升了SLAM算法的定位精度與魯棒性。總體而言,對于6個不同的軌跡序列,本文算法的絕對軌跡誤差均小于其他三種對比算法,其中相較于ORB-SLAM2誤差平均下降35.3%,相較于GCN-SLAM誤差平均下降51.3%,相較于SurfCNN誤差平均下降41.5%。
表4 不同算法軌跡誤差對比Tab.4 Comparison of the trajectory error among different algorithms
如何在高動態(tài)和強干擾的復雜室外環(huán)境下實現(xiàn)快速精準定位仍是地面無人平臺急需解決的問題。針對無人平臺快速運動造成的運動模糊會影響視覺SLAM位姿估計精度的問題,提出了一種基于AKAZE特征點的運動去模糊SLAM系統(tǒng)。在多類數(shù)據(jù)集上進行實驗,分別驗證了本文研究的圖像模糊度評價算法和去模糊GAN模型的有效性,并在此基礎上,進一步驗證了最終提出的運動去模糊SLAM方案。結果表明,本文方法在運動模糊程度較高的動態(tài)場景下,絕對軌跡誤差和相對路徑誤差比ORB-SLAM2 算法精度至少提高了50%,在模糊程度較低的動態(tài)序列中,精度平均提高了20%以上,說明本文方法可以有效提高運動模糊狀態(tài)下VO的位姿估計精度,具有良好的魯棒性。
在未來的工作中,將進一步研究與深度學習相結合的動態(tài)視覺SLAM方法的實時性問題,對圖像進行模糊度判斷并完成去模糊化的分步式處理步驟,類似于多傳感器信息融合中的松耦合,需要精準的模糊度判定和去除方法才能確保后續(xù)SLAM系統(tǒng)的可靠性。這種存在優(yōu)先級的優(yōu)化方式使得精度會受到其中一種優(yōu)化結果的制約,而且額外的處理步驟會降低系統(tǒng)的運算效率。因此,將里程計任務與去模糊任務以一種緊耦合的方式呈現(xiàn),是未來SLAM應對運動模糊環(huán)境的一種新嘗試。