摘要:無人機(jī)已廣泛應(yīng)用于物資運(yùn)輸、應(yīng)急救援、泵站巡檢、水利工程項目巡檢等軍事和民用領(lǐng)域,其中無人機(jī)定位技術(shù)是其實(shí)現(xiàn)自主飛行及實(shí)際應(yīng)用的關(guān)鍵。在泵站及地下管網(wǎng)等復(fù)雜環(huán)境中,衛(wèi)星信號微弱或中斷,給無人機(jī)姿態(tài)的獲取帶來嚴(yán)峻挑戰(zhàn)。針對此問題,文章結(jié)合實(shí)際工程案例,提出了一種基于多尺度特征融合的無人機(jī)姿態(tài)估計方法,該方法能夠直接從輸入的RGB(紅、綠、藍(lán))圖像中回歸出無人機(jī)的6自由度姿態(tài)信息。該方法利用CNN(卷積神經(jīng)網(wǎng)絡(luò))提取圖像中的多尺度空間特征;通過兩個并行的AttnLSTM(注意力機(jī)制長短期記憶網(wǎng)絡(luò))從兩個不同方向處理數(shù)據(jù),實(shí)現(xiàn)結(jié)構(gòu)化降維并提升模型的泛化能力;同時,引入Multi-Head Attention(多頭注意力)機(jī)制,進(jìn)一步提煉關(guān)鍵信息,實(shí)現(xiàn)多尺度特征的有效融合。實(shí)驗結(jié)果表明,該模型在公開數(shù)據(jù)集上表現(xiàn)出色,能夠準(zhǔn)確估計無人機(jī)的姿態(tài)信息。
關(guān)鍵詞:無人機(jī)姿態(tài);多尺度特征融合;AttnLSTM;Multi-Head Attention
中圖分類號:TP391" " "文獻(xiàn)標(biāo)識碼:A" " "文章編號:1674-0688(2024)11-0094-06
0 引言
近年來,無人機(jī)姿態(tài)估計在機(jī)器視覺和機(jī)器人技術(shù)領(lǐng)域備受關(guān)注。隨著機(jī)器視覺技術(shù)的不斷進(jìn)步,基于單視覺的無人機(jī)姿態(tài)估計方法也隨之更新與迭代。這些進(jìn)展主要包括基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的姿態(tài)估計方法的發(fā)展、長序列數(shù)據(jù)中長期依賴關(guān)系的有效處理、注意力機(jī)制的應(yīng)用等。當(dāng)前,主流的無人機(jī)姿態(tài)估計方法主要依賴于CNN實(shí)現(xiàn)。CNN憑借其高效的圖像特征提取能力及強(qiáng)大的端到端學(xué)習(xí)能力,能夠直接從圖像中回歸出無人機(jī)的姿態(tài)信息,包括位置和方向,從而提升了姿態(tài)估計的快捷性和準(zhǔn)確性。PoseNet、DANN(域?qū)股窠?jīng)網(wǎng)絡(luò))[1]及基于ResNet的方法等,都是這一領(lǐng)域的代表性成果。Kendall等[2]提出的PoseNet(一種基于深度學(xué)習(xí)的實(shí)時人體姿勢檢測技術(shù))是最早的應(yīng)用方案之一,它利用GoogleNet進(jìn)行特征提取,并通過全連接層輸出所需的6自由度姿態(tài)信息。然而,PoseNet在面對光照突變或圖像紋理減少等復(fù)雜場景時,其模型準(zhǔn)確度可能會受到影響。為了更有效地從長序列數(shù)據(jù)中學(xué)習(xí)長期依賴關(guān)系并提取輸入序列中的重要特征,長短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等遞歸神經(jīng)網(wǎng)絡(luò)(RNN)被引入到無人機(jī)姿態(tài)估計任務(wù)中。Peng等[3]提出了一種結(jié)合CNN和LSTM的方法,該方法利用LSTM對輸入的長序列數(shù)據(jù)進(jìn)行結(jié)構(gòu)化降維,并選擇最具相關(guān)性的特征來完成姿態(tài)估計任務(wù),從而提高了姿態(tài)估計的平滑性和準(zhǔn)確性。Shao等[4]提出了將CNN與BiLSTM相結(jié)合的方法,BiLSTM具備處理長期序列數(shù)據(jù)的能力,能夠全面提取重要特征,提高模型精度。在深度學(xué)習(xí)中,注意力機(jī)制模擬了人類對信息的選擇性關(guān)注行為,使模型能夠動態(tài)地調(diào)整注意力權(quán)重,從而在處理輸入數(shù)據(jù)時突出關(guān)鍵信息部分。在無人機(jī)姿態(tài)估計任務(wù)中,自注意力機(jī)制能夠自動聚焦于圖像中的關(guān)鍵區(qū)域,并增強(qiáng)對這些重要特征的提取能力。
盡管上述方法在各自的應(yīng)用領(lǐng)域取得了成功,但是仍存在一些局限性,如依賴大規(guī)模數(shù)據(jù)集的、對復(fù)雜環(huán)境的適應(yīng)性不足,以及缺乏處理長序列數(shù)據(jù)的能力等。針對這些問題,本文結(jié)合實(shí)際工程案例,提出了一種單視覺無人機(jī)姿態(tài)估計模型。該模型集成了預(yù)訓(xùn)練的GoogleNet網(wǎng)絡(luò)、AttnLSTM和Multi-Head Attention機(jī)制,有效克服了現(xiàn)有方法的局限性。
1 案例概述
環(huán)北部灣廣東水資源配置工程是一項國家級重大水利建設(shè)項目,它從西江取水,輸送至云浮、茂名、湛江等地,全長約499.9 km。該項目主要由1條主干線、3條分干線和5座泵站等組成,并管理著沿線眾多設(shè)備。目前,供水管隧檢測主要采用管隧檢測機(jī)器人,這些機(jī)器人通過臍帶纜與主控設(shè)備相連,行進(jìn)過程中無需自主判斷方位。然而,在長距離供水管隧病害檢測中,如果缺乏定位系統(tǒng),則無法確定機(jī)器人的具體位置。
現(xiàn)有的水下定位技術(shù)主要包括聲學(xué)、慣性、 視覺導(dǎo)航和地球物理導(dǎo)航等。聲學(xué)定位分為多普勒速度計程儀(DVL)與水聲定位系統(tǒng)兩類[5]。DVL于聲吶多普勒效應(yīng)進(jìn)行測速,具有算法簡單、精度高且誤差不隨時間累積的優(yōu)點(diǎn),但可能會出現(xiàn)對地失鎖現(xiàn)象。水聲定位系統(tǒng)則分為長基線、短基線和超短基線3種[6],可為無人水下機(jī)器人提供位置信息,但需要在水下安裝應(yīng)答器,并且在隧洞內(nèi)易受多次反射干擾,導(dǎo)致定位誤差增大。慣性導(dǎo)航是基于牛頓慣性原理的自主導(dǎo)航方法[7],分為捷聯(lián)式與平臺式。其中,捷聯(lián)式因體積小、結(jié)構(gòu)簡單而被廣泛應(yīng)用于大多數(shù)慣性導(dǎo)航系統(tǒng)中。視覺導(dǎo)航則通過攝像設(shè)備判斷位置,直觀且適用于小范圍內(nèi)高精度定位,如檢測機(jī)器人的自主回收過程。地球物理導(dǎo)航主要包括地形匹配、地磁匹配和重力匹配 3類。對于長距離供水管隧檢測而言,由于管隧底部特征差異不大,重力場變化也不如海洋中明顯,因此在隧洞內(nèi)定位較為困難。
上述水下管網(wǎng)定位技術(shù)均可獨(dú)立使用,但各有優(yōu)點(diǎn)和缺點(diǎn)。由2種及以上導(dǎo)航技術(shù)結(jié)合形成的綜合導(dǎo)航系統(tǒng)能夠集成不同導(dǎo)航技術(shù)的優(yōu)點(diǎn)[8],增強(qiáng)導(dǎo)航系統(tǒng)的穩(wěn)定性與精確性,已成為目前管隧檢測機(jī)器人廣泛使用的導(dǎo)航模式,也是未來地下管網(wǎng)技術(shù)的發(fā)展方向。盡管組合定位模式形式多樣,但是在長距離、封閉空間的供水管隧內(nèi),定位系統(tǒng)仍面臨多次反射波干擾及密集鐵磁性結(jié)構(gòu)設(shè)施的綜合影響。目前,結(jié)合無人機(jī)的視覺定位技術(shù)在供水管定位中已展現(xiàn)出良好效果。
2 無人機(jī)姿態(tài)估計方法
針對案例的實(shí)際情況,本文設(shè)計了一種由視覺圖像直接回歸無人機(jī)姿態(tài)的模型,該模型由CNN、AttnLSTM及Multi-Head Attention模塊構(gòu)成(圖1)。模型表達(dá)式如下:
其中:[I]為輸入圖像, [f?]為神經(jīng)網(wǎng)絡(luò),P為無人機(jī)姿態(tài),P是相對任意全局參考系而定義的。每個姿態(tài)由6自由度構(gòu)成,包括位置p(x,y,z)和方向q,本文選用四元數(shù)q(w,x,y,z)表示方向。
模型的輸入由圖像及對應(yīng)的無人機(jī)真實(shí)姿態(tài)組成。模型訓(xùn)練過程采用Adam優(yōu)化器,并在歐幾里德?lián)p失函數(shù)的指導(dǎo)下進(jìn)行。目標(biāo)損失函數(shù)為
2.1 CNN架構(gòu)
CNN是一種專為處理具有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)(如時間序列數(shù)據(jù)和圖像數(shù)據(jù))而設(shè)計的深度學(xué)習(xí)模型,其組成部分主要包括卷積層、激活函數(shù)、池化層及全連接層。在CNN中,卷積層利用濾波器提取輸入數(shù)據(jù)的特征,激活函數(shù)引入非線性因素,池化層則負(fù)責(zé)減少數(shù)據(jù)維度并防止過擬合現(xiàn)象。GoogleNet是Google團(tuán)隊于2014年提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[9],其核心在于引入了Inception模塊,該模塊通過并行使用不同大小的卷積核(如1×1、3×3、5×5)以及池化操作,能夠提取多尺度特征,從而有效捕捉局部和全局信息。鑒于GoogleNet的這一特點(diǎn),本文在數(shù)據(jù)輸入后采用GoogleNet提取圖像的多尺度空間特征。
鑒于數(shù)據(jù)集規(guī)模有限以及回歸任務(wù)的輸出具有連續(xù)性的和無限性,無法從頭開始訓(xùn)練GoogleNet,因此本文選擇使用預(yù)訓(xùn)練的分類網(wǎng)絡(luò)GoogleNet。通過遷移學(xué)習(xí),模型能夠快速收斂,從而減少訓(xùn)練時間。由于GoogleNet原本設(shè)計用于分類任務(wù),無法直接輸出多尺度特征向量,因此需要對其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行相應(yīng)的修改。類似PoseNet的做法,本文在最后執(zhí)行的平均池化層后添加全連接層,以輸出2 048維的特征向量。Inception模塊結(jié)構(gòu)見圖2。
2.2 AttnLSTM網(wǎng)絡(luò)
LSTM是一種專為解決傳統(tǒng)RNN在處理長序列數(shù)據(jù)時遭遇的梯度消失或梯度爆炸問題而設(shè)計的網(wǎng)絡(luò)架構(gòu)。LSTM的核心在于引入了記憶單元(memory cell)以及3個門控機(jī)制:輸入門、遺忘門和輸出門。這些門控機(jī)制協(xié)同工作,控制信息的流動,使模型能夠?qū)W習(xí)到長期依賴關(guān)系,從而更有效地處理和預(yù)測時間序列中的元素[10]。其中,輸入門控制新信息進(jìn)入記憶單元的程度,遺忘門決定舊信息的保留或遺忘程度,而輸出門則調(diào)節(jié)信息輸出到隱藏狀態(tài)的程度。
AttnLSTM是結(jié)合了自注意力機(jī)制(Attention)與LSTM的網(wǎng)絡(luò)模型。自注意力機(jī)制能夠提升模型對輸入序列中重要特征的關(guān)注度,進(jìn)而增強(qiáng)LSTM處理長距離依賴的能力。鑒于AttnLSTM在結(jié)構(gòu)化降維方面具有更優(yōu)的表現(xiàn),本文在全連接層輸出后直接采用了AttnLSTM。然而,實(shí)驗結(jié)果顯示,直接將2 048維特征向量作為AttnLSTM的輸入進(jìn)行姿態(tài)回歸,其姿態(tài)回歸精度相較于PoseNet并未顯著提升。原因在于,盡管AttnLSTM具備處理遠(yuǎn)距離特征的記憶單元,但是全連接層輸出的2 048維特征向量對于AttnLSTM而言仍過于冗長。因此,將該向量重塑為32×64的矩陣[11],并分別從向下和向左兩個方向展平為兩個序列,然后分別應(yīng)用AttnLSTM進(jìn)行處理。
2.3 Multi-Head Attention(多頭注意力機(jī)制)
Multi-Head Attention機(jī)制是注意力機(jī)制的一種變體,它利用多個并行的自注意力頭(heads)捕捉輸入序列中不同子空間內(nèi)的特征;其核心思想在于,將單一的注意力頭分解為多個獨(dú)立的注意力頭,每個頭都能獨(dú)立地在不同的子空間中計算注意力權(quán)重,從而能夠從多個角度關(guān)注不同的信息。
在分別應(yīng)用AttnLSTM后,將各AttnLSTM的輸出直接進(jìn)行拼接,并在拼接后的結(jié)果上直接應(yīng)用Multi-Head Attention。這種方法能夠進(jìn)一步提煉關(guān)鍵信息,并實(shí)現(xiàn)多尺度特征的融合。模型的最終輸出通過兩個全連接層分別回歸得到無人機(jī)的位置信息和方向信息。
3 數(shù)據(jù)集的選擇
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,其核心在于利用已標(biāo)記真實(shí)值的數(shù)據(jù)來訓(xùn)練模型,使模型能夠?qū)W習(xí)到輸入與輸出之間的映射關(guān)系。因此,獲取這些已標(biāo)記的數(shù)據(jù)集對于監(jiān)督學(xué)習(xí)尤為重要。在圖像定位任務(wù)中,目前存在多個可供研究的公開數(shù)據(jù)集,如室內(nèi)7 Scenes數(shù)據(jù)集(包括Chess、Fire、Heads、Office、Pumpkin、Red Kitchen和Stairs等場景)[12]、室外Cambridge Landmark數(shù)據(jù)集[2]以及TUMLSI數(shù)據(jù)集[11]等。
3.1 數(shù)據(jù)集介紹
本文主要采用了Cambridge Landmark數(shù)據(jù)集,該數(shù)據(jù)集包含4個不同的場景,提供了大規(guī)模室外城市環(huán)境中用于訓(xùn)練和測試的帶姿態(tài)標(biāo)記的數(shù)據(jù)。這些數(shù)據(jù)是在不同光線條件和天氣狀況下采集的。Cambridge Landmark數(shù)據(jù)集如圖3所示。
3.2 數(shù)據(jù)預(yù)處理
Cambridge Landmark數(shù)據(jù)集包含在不同光線和天氣條件下拍攝的圖像,因此存在亮度不均、較暗及模糊等問題。為確保輸入圖像的一致性和提升訓(xùn)練效果,對原始圖像進(jìn)行了以下預(yù)處理步驟:首先,進(jìn)行中心剪裁,確保所有圖像具有相同大小的同時保持圖像的寬高比不變,這是通過計算新的高度和寬度來實(shí)現(xiàn)的。其次,針對圖像模糊問題,采用圖像銳化技術(shù)以增強(qiáng)圖像邊緣,減輕模糊圖像對圖像質(zhì)量的影響。最后,實(shí)施均值圖像減法,即計算所有圖像在每個像素位置上的平均值以生成一個均值圖像,并從所有圖像中減去該均值圖像,以此減少圖像之間的光照差異,進(jìn)而提升模型的泛化能力。
4 實(shí)驗結(jié)果
實(shí)驗結(jié)果表明,本文提出的方法在多個場景中均能有效實(shí)現(xiàn)無人機(jī)的姿態(tài)估計。為進(jìn)一步驗證該方法的有效性和優(yōu)越性,將其與其他基于CNN的無人機(jī)姿態(tài)估計方法進(jìn)行了對比分析。
4.1 實(shí)驗設(shè)置
首先,將Places[9]的預(yù)訓(xùn)練權(quán)重賦予模型的GoogleNet部分,其余部分的權(quán)重則隨機(jī)生成。其次,所有實(shí)驗均在NVIDIA GPU環(huán)境下完成,采用PyTorch框架中的Adam優(yōu)化器對模型進(jìn)行優(yōu)化。最后,針對所有特征序列,設(shè)置了以下參數(shù):批次大小為75,最大迭代次數(shù)為30 000~50 000,Googlenet輔助損失權(quán)重為0.3,位置信息損失權(quán)重為1,方向信息損失函數(shù)權(quán)重為50,Dropout概率為0.4。Adam優(yōu)化器的參數(shù)設(shè)置如下:學(xué)習(xí)率lr=0.000 1,betas=(0.9,0.999),eps=1[e?8]。
4.2 結(jié)果比較
幾種模型方法在Cambridge Landmark數(shù)據(jù)集上單圖像定位的結(jié)果見表1。該數(shù)據(jù)集包含King's College、Old Hospital、Shop Facade和St Mary's Church 4個場景。實(shí)驗結(jié)果表明,本文提出的AttnLSTM方法平均減少了7.69%的位置誤差和30.07%的方向誤差。
在Cambridge Landmark數(shù)據(jù)集的King’s College場景下,模型分別經(jīng)過30 000次和45 000次迭代后,預(yù)測值與真實(shí)值在三維空間中的散點(diǎn)分布(圖4)。從圖4中可以看出,當(dāng)?shù)螖?shù)為30 000時,模型的準(zhǔn)確度較高且穩(wěn)定,而迭代次數(shù)增加后出現(xiàn)過擬合趨勢。
5 結(jié)論
為應(yīng)對衛(wèi)星信號弱或中斷的情況,確保無人機(jī)姿態(tài)信息的準(zhǔn)確返回,本文提出了一種多尺度特征融合的無人機(jī)姿態(tài)估計方法。該方法創(chuàng)新性地結(jié)合了自注意力機(jī)制與LSTM,并引入了Multi-Head Attention機(jī)制,實(shí)現(xiàn)了從單張RGB圖像直接回歸6自由度無人機(jī)姿態(tài)信息。為降低光線、天氣及雜亂場景等因素對準(zhǔn)確度的影響,進(jìn)行了數(shù)據(jù)預(yù)處理。同時,為提升模型收斂速度,采用了預(yù)訓(xùn)練的GoogleNet模型。此外,本文提出了AttnLSTM單元,優(yōu)化了模型的結(jié)構(gòu)化降維效果,并通過引入Multi-Head Attention機(jī)制進(jìn)一步提煉關(guān)鍵信息,實(shí)現(xiàn)了多尺度特征融合。本文將所提出的方法與其他無人機(jī)姿態(tài)估計方法進(jìn)行了對比實(shí)驗。結(jié)果表明,該方法能夠準(zhǔn)確回歸無人機(jī)姿態(tài),并且在相同數(shù)據(jù)集上的準(zhǔn)確度高于其他基于CNN的無人機(jī)姿態(tài)估計方法。在未來的研究中,可繼續(xù)探索更深層次的網(wǎng)絡(luò)架構(gòu)及更先進(jìn)的注意力機(jī)制,以提升模型的魯棒性和泛化能力。同時,可考慮引入多模態(tài)數(shù)據(jù)融合技術(shù),如IMU、地磁和激光測距等數(shù)據(jù),以進(jìn)一步提高模型準(zhǔn)確度。
6 參考文獻(xiàn)
[1]Ganin Y,Ustinova E,Ajakan H,et al.Domain-adver-sarial training of neural networks[J].Journal of Machine Learning Research,2016,17:2096-2030.
[2]KENDALL A,GRIMES M,CIPOLLA R.PoseNet:a convolutional network for real-time 6-dof camera relocalization[C/OL].2015 IEEE International Conference on Computer Vision(ICCV),2015:2938-2946.DOI:10.1109/ICCV.2015.336.
[3]PENG B,CHEN Y,ZHENG T,et al.Safety positioning for UAV swarms in harsh environments[J].The Magazine of Computer Communications,2022,36(4):46-53.
[4] SHAO Y H,HAN B,LUO Y.A method based on CNN-BiLSTM for UAV navigation error compensation in GNSS denied environment[C/OL].2023 9th International Conference on Computer and Communications(ICCC),2023:689-694.DOI:10.1109/ICCC59590.2023.10507546.
[5]陳鵬,陳洋,王威.無人機(jī)聲學(xué)定位技術(shù)綜述[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2022,50(12):109-123.
[6]郭忠文,羅漢江,洪鋒,等.水下無線傳感器網(wǎng)絡(luò)的研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2010,47(3):377-389.
[7]吳艷峰,鮑敬源,韓云峰,等.基于聲學(xué)的水下慣性導(dǎo)航系統(tǒng)校準(zhǔn)技術(shù)研究[J].傳感器與微系統(tǒng),2024,43(5):35-38.
[8]李想,王燕,齊濱,等.聯(lián)合多傳感器的水下多目標(biāo)無源聲學(xué)定位[J].聲學(xué)學(xué)報,2024,49(1):16-27.
[9]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[J/OL].IEEE Computer Society,2014.DOI:10.1109/CVPR.2015.7298594.
[10]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)應(yīng)用,2018,38(S2):1-6,26.
[11]WALCH F,HAZIRBAS C,LEAL-TAIXE L,et al.Image-based localization using LSTMs for structured feature correlation[C/OL].2017 IEEE International Conference on Computer Vision(ICCV),2017:627-637.DOI:10.1109/ICCV.2017.75.
[12]SHOTTON J,GLOCKER B,ZACH C,et al.Scene coordinate regression forests for camera relocalization in RGB-D images[C/OL].2013 IEEE Conference on Computer Vision and Pattern Recognition,2013:2930-2937.DOI:10.1109/CVPR.2013.377.
[13]KENDALL A,CIPOLLA R.Modelling uncertainty in deep learning for camera relocalization[C/OL].IEEE International Conference on Robotics amp; Automation,2016:4762-4769.DOI:10.1109/ICRA.2016.7487679.