国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進RESSD網(wǎng)絡的地面目標無人機定位技術

2020-05-14 03:24宋建輝楊佰強劉硯菊王思宇
沈陽理工大學學報 2020年6期
關鍵詞:航拍卷積損失

宋建輝,楊佰強,劉硯菊,王思宇

(沈陽理工大學 自動化與電氣工程學院,沈陽 110159)

目標識別技術可以被廣泛應用于各生活領域及小型自尋導引頭等軍民領域,并且隨著機器視覺理論的逐步發(fā)展,在智能交通系統(tǒng)、無人機檢測跟蹤等研究領域都有著重要的應用[1]。目標識別作為無人機視覺定位技術視覺分析階段的核心技術之一,主要包括目標分類識別與運動目標檢測這兩個問題[2],待定位目標的識別精度和速度直接影響到目標定位的效果,無人機在進行圖像采集時,目標與背景邊緣對比度小,傳統(tǒng)邊緣檢測算法應用于這類圖像準確率低[3]。傳統(tǒng)的特征算子檢測算法在無人機距離目標較遠的情況下,加上地面目標的尺度旋轉性,特征點顯著度降低,分塊匹配策略需提取的特征點過多導致匹配時間過長進而降低實時性[4]?;谏疃葘W習的目標識別和視覺定位技術使用卷積神經(jīng)網(wǎng)絡代替?zhèn)鹘y(tǒng)邊緣檢測和特征檢測算法來作為圖像處理模塊,深度學習的目標檢測算法模型可歸結為兩類,基于Two-stage的卷積神經(jīng)網(wǎng)絡雖然精度很高,但大量候選框的聚類繼而分類回歸需要更多的聚類時間和計算量,難以實現(xiàn)定位實時性。與其相比,以YOLO[5]、SSD(Single Shot Multi Box Detector)[6]為代表的基于One-stage(單階段檢測)的卷積神經(jīng)網(wǎng)絡能在圖像上不同位置均勻采樣后直接進行一步分類回歸,縮短了檢測時間以實現(xiàn)后續(xù)定位實時性,通過配合多種數(shù)據(jù)庫設備,能達到無人機對地面運動目標的檢測識別與定位要求。綜上,研究基于深度學習的地面目標識別與定位技術不僅具有較高的理論意義,而且有廣泛的實用參考價值。

本文研究基于深度學習的目標識別和無人機視覺定位技術。使用改進SSD目標識別網(wǎng)絡作為無人機視覺定位技術中的圖像處理模塊,在保證使用SSD網(wǎng)絡滿足定位實時性的基礎上,設計調(diào)制系數(shù)使網(wǎng)絡變相側重于挖掘困難樣本的信息,為解決SSD網(wǎng)絡與基于Two-stage(雙階段檢測)的網(wǎng)絡相比精度不理想的問題,修改SSD子網(wǎng)絡結構,引入包含殘差單元的預測模塊和反卷積網(wǎng)絡來提高網(wǎng)絡復雜度和檢測尺度,合并引入的網(wǎng)絡模塊來提高檢測速度,最后通過得到的目標中心像素坐標進行坐標變換,解算出目標位置信息,驗證技術的可行性。

1 RESSD網(wǎng)絡改進

1.1 SSD網(wǎng)絡原理

2016年Liu Wei 提出一種基于One-Stage的網(wǎng)絡模型——SSD。SSD算法的主網(wǎng)絡結構是VGG16,將最后兩個全連接層改成卷積層,并隨后增加了4個級聯(lián)卷積層來獲得多尺度特征圖用于目標檢測[7],同時SSD借鑒了RPN網(wǎng)絡中Anchor的機制思想,在多特征圖上獲得大量的默認框(Default box),利用非極大值抑制冗余候選框,最后將剩余的先驗框進行回歸與分類。主要結構如圖1所示。

圖1 SSD網(wǎng)絡主結構

1.2 殘差網(wǎng)絡模塊和反卷積模塊引入

針對網(wǎng)絡層數(shù)加深帶來的訓練錯誤增加和過擬合導致的梯度消失問題,構建結合ResNet152卷積子網(wǎng)絡作為深度殘差網(wǎng)絡(Deep Residual Network)的SSD模型(RESSD),圖2所示的結構為引入的包含殘差單元的預測模塊,殘差通道卷積處理后的原特征提取層與網(wǎng)絡主卷積通道特征相加[8],計算效率比VGG高,大幅度解決梯度消失問題,保證了在增加網(wǎng)絡深度獲得多尺度特征的同時訓練誤差的控制。

圖2 殘差單元預測模塊

為了更匹配無人機航拍采集圖像的地面目標檢測,借鑒FPN網(wǎng)絡的結構引入反卷積模塊[9],拓展網(wǎng)絡上下文信息,融合網(wǎng)絡高低層特征,將提取到的深層特征傳遞出來與網(wǎng)絡淺層特征信息融合,其特征提取充分性有極大提高,使檢測精度可以達到和復雜卷積網(wǎng)絡一樣的效果[10]。使用反卷積層代替簡單的雙線性插值法應用于采樣階段,每個卷積層尤其是低層特征層緊隨一個歸一化層[11]。RESSD網(wǎng)絡對小目標以及具有顯著區(qū)分度的背景目標的圖片特征提取更充分。

1.3 RESSD網(wǎng)絡系數(shù)優(yōu)化

本文針對網(wǎng)絡對難例樣本的學習不充分和網(wǎng)絡層數(shù)加深引起的速度下降這兩個問題,在ResNet152作為卷積子網(wǎng)絡結構的基礎上,提出了改進RESSD網(wǎng)絡。

1.3.1 設計調(diào)制因子

本文利用RESSD網(wǎng)絡迭代損失函數(shù)與其反向傳播進行更新權重的特點,在不增加Easy example[12](簡單樣本)損失值的基礎上減小權重,變相增加難例樣本對loss的累加貢獻,引導網(wǎng)絡側重難例樣本的學習,提高網(wǎng)絡識別小目標困難樣本的精度。

RESSD網(wǎng)絡參考并借鑒了傳統(tǒng)交叉熵損失函數(shù)[13](Cross Entropy),使用Focal Loss[14]函數(shù),構成FL-RESSD模型,引入調(diào)制因子(1-pi)α*β,公式為

FL(pi)=-(1-pi)α*βlog(pi)

(1)

式中:α、β≥0,為自定義聚焦參數(shù);pi為預測樣本概率,(1-pi)∈(0,1)。當網(wǎng)絡學習Easy example時,(1-pi)很小,引入調(diào)制系數(shù)(1-pi)α*β后,數(shù)值呈幾何倍數(shù)趨近于零,對loss的累加貢獻下降。隨著α、β的增加,調(diào)制系數(shù)增加,預測正確的Easy example的損失值削減變快,不會對總體損失值有主導作用。

1.3.2 設計權重因子

針對模型泛化性降低的網(wǎng)絡訓練問題,本文使用單類別車輛樣本集合進行訓練,占比為1,自定義加權因子,后續(xù)根據(jù)課題進展增加新類樣本集合。

在FL-RESSD模型損失函數(shù)基礎上,引入權重因子得到新的損失函數(shù),公式為

FL(pi)=-δi(1-pi)α*βlog(pi)

(2)

式中:δi=δ*i,i為通過交叉驗證得到的倍數(shù)因子;FL(pi)為新?lián)p失函數(shù)下的樣本損失值。

進行車輛單類目標識別時,取δi=1、α=1、β=2時,經(jīng)過仿真對比得到傳統(tǒng)交叉熵損失函數(shù)與新?lián)p失函數(shù)對比效果如表1所示,CE(pi)為傳統(tǒng)交叉熵損失函數(shù)下的樣本損失值,F(xiàn)L(pi)/CE(pi)表示樣本對loss貢獻度的相對占比。

表1 CE/FL損失函數(shù)結果對比表

從表1中可以看出,pi越高對應的是Easy example損失值和貢獻度相對占比越小,當pi較小時意味著樣本往往容易誤判,這也就是難例樣本,表中數(shù)據(jù)表明難例樣本損失值下降幅度控制在20%以內(nèi),貢獻度相對占比大,變相提高了難例樣本對loss的累加貢獻,引導網(wǎng)絡模型側重難例樣本的學習,更集中于難例樣本分類。

1.4 融合卷積與歸一化層

RESSD作為卷積子網(wǎng)絡結構確實能保證網(wǎng)絡提取深淺層特征的信息融合,特征提取的充分性也提升了網(wǎng)絡對小目標的檢測效果,但網(wǎng)絡模型層數(shù)加深的同時也帶來網(wǎng)絡推理速度的降低,針對速度下降的問題,將RESSD網(wǎng)絡的ResNet卷積子網(wǎng)絡和大量BN層(歸一化層)融合,減少網(wǎng)絡推理時間,卷積融合BN層公式為

(3)

式中:ωx+b為卷積計算結果;通過網(wǎng)絡學習得到縮放因子γ和偏置β;σ2為方差;μ為均值。將融合后卷積層的加權ω_new和偏差b_new計算公式寫為式(4)和式(5),整理得到式(6)。

(4)

(5)

xout=ω_new+b_new

(6)

對SSD300、SSD513、未進行網(wǎng)絡融合的RESSD網(wǎng)絡和本文網(wǎng)絡融合的RESSD進行實驗對比,使用網(wǎng)絡檢測達到的幀率作為網(wǎng)絡檢測速度的評價參數(shù)。實驗結果如表2所示。在設計ResNet152卷積子網(wǎng)絡替代VGG16的網(wǎng)絡結構后,模型響應速度下降到10.3fps,不能實現(xiàn)實時視覺定位。

表2 調(diào)試各網(wǎng)絡速度對比

將歸一化層與卷積層融合后,網(wǎng)絡的復雜度大幅降低,網(wǎng)絡識別的速度可達到33.2fps。調(diào)試中發(fā)現(xiàn)改進RESSD網(wǎng)絡內(nèi)存使用率下降30%,一定程度上降低了硬件設備的局限性。

2 視覺定位技術

圖3所示為圖像像素坐標系、圖像物理坐標系、攝像機坐標系和世界坐標系的關系。

圖3 像素、圖像物理、攝像機和世界坐標系的關系圖

整理四個坐標系的關系,可得式(7)為

(7)

式中:u、v即為目標檢測網(wǎng)絡提供的目標中心點像素坐標;u0、v0為圖像中心點像素坐標;Zc為深度信息;dx、dy為像素單位長度;R、T為旋轉平移矩陣。由式(7)解算出的Xw、Yw、Zw即為待定位目標位于世界坐標系的坐標。

使用改進RESSD目標檢測網(wǎng)絡代替?zhèn)鹘y(tǒng)的圖像處理模塊實現(xiàn)無人機地面目標視覺定位技術,具體流程如下圖4所示。

圖4 改進RESSD網(wǎng)絡的無人機視覺定位技術流程

3 實驗驗證分析

將無人機實地航拍圖片的識別精度和定位實時性作為基于RESSD網(wǎng)絡的地面目標無人機視覺定位技術的性能衡量標準,并總結分析相應的指標。

3.1 實驗訓練配置

數(shù)據(jù)集主要來源為UCAS-AOD,另外新增了現(xiàn)實場景距地80~120m的飛行高度范圍多觀測角度、多高度實地航拍的地面車輛圖像,與篩選后的航拍數(shù)據(jù)集共同組成本文使用的數(shù)據(jù)集UCAS-AOD-ADD。采用加入噪聲、調(diào)整亮度、旋轉等方法擴大樣本[15],UCAS-AOD-ADD數(shù)據(jù)集由車輛目標構成,其中訓練集與測試集的數(shù)量比例為8∶1。

操作系統(tǒng)為64位Ubuntu16.04系統(tǒng),安裝Tensorflow1.14和python 3.5(64-bit),以Tensorflow框架作為運行環(huán)境,訓練RESSD網(wǎng)絡模型,GPU為NVIDIA GeForce RTX 2060,顯存6GB+GDDR6。訓練ResNet152為卷積子網(wǎng)絡的RESSD網(wǎng)絡模型,將網(wǎng)絡訓練初始學習率設為0.001,在30000步降為0.0001、50000步降為0.00001,再以與前兩階段同樣的學習率和迭代次數(shù)固定參數(shù)針對反卷積網(wǎng)絡進行訓練,以此提高網(wǎng)絡參數(shù)利用率。

為了更符合UCAS-AOD-ADD數(shù)據(jù)集的要求,本文通過在訓練時設計調(diào)制系數(shù)和固定權重因子,將設計的FL-RESSD模型損失函數(shù)應用到所有候選區(qū)域里訓練驗證,RESSD模型損失變化與準確度曲線如圖5所示。圖5a為RESSD網(wǎng)絡模型損失曲線,圖5b為RESSD網(wǎng)絡模型訓練準確率曲線圖。

從圖5中可以觀察到,訓練剛開始損失值比較大,原因是數(shù)據(jù)集采集制作中航拍高度與角度的多樣性導致樣本尺寸位置存在差異性,尤其是一些包含大量小目標的困難樣本成為損失值的貢獻源,采用在不同迭代梯度設置對應學習率的策略,在迭代次數(shù)達到6萬次后,損失值和訓練準確率曲線的超調(diào)量波動已經(jīng)收斂,最終準確率趨近于0.94,網(wǎng)絡損失下降至約0.35,得到的網(wǎng)絡模型訓練學習的權重結果相對理想。

圖5 RESSD模型損失變化與準確率曲線

3.2 網(wǎng)絡性能對比

為了驗證本文提出的改進RESSD網(wǎng)絡的有效性,以mAP(mean Average Precision)作為評價指標,使用UCAS-AOD-ADD數(shù)據(jù)集訓練四個網(wǎng)絡,結合Resnet152卷積子網(wǎng)絡結構、擴充上下文信息改進RESSD網(wǎng)絡由“M+”表示,引入新調(diào)制系數(shù)改進RESSD網(wǎng)絡由“FL+”表示,結合上述2種改進由“FM+”表示,檢測結果如表3所示。

表3 每種改進方式對mAP的影響

與SSD300網(wǎng)絡比較,結合Resnet152卷積子網(wǎng)絡結構、擴充上下文信息改進RESSD網(wǎng)絡,mAP提高了3.2%;引入新調(diào)制系數(shù)改進RESSD網(wǎng)絡,mAP提高了4.6%;結合上述2種改進,并將改進的RESSD網(wǎng)絡通過采用邊界框置信度得分取最大值操作微調(diào)邊界框預測規(guī)則,有效減小了車輛目標的重檢和相似背景采樣對網(wǎng)絡的干擾,最終在對車輛類目標的檢測上能夠達到88.4%的識別率,增強了RESSD網(wǎng)絡的魯棒性。

圖6所示為部分多角度、多高度航拍圖片的檢測結果,圖片尺寸為321×321,按照圖像像素坐標系的定義得到的檢測框四個頂點與目標車輛實際邊框平均像素誤差不超過2pt,改進的RESSD網(wǎng)絡跟傳統(tǒng)的SSD300網(wǎng)絡作比較,mAP總體提高了8.9%。

圖6 部分檢測結果示例

3.3 視覺定位性能分析

為了驗證分析本文提出的使用改進RESSD目標識別網(wǎng)絡作為圖像處理模塊支持無人機對地目標進行視覺定位技術的可行性與性能,在原有UCAS-AOD-ADD數(shù)據(jù)集的基礎上增加構建的驗證集,無人機在對地80~120m內(nèi)懸停,設置攝像機三個拍攝角度各為90°、60°、45°,采集若干張影像,將構建的驗證集圖像進行尺寸調(diào)整后導入網(wǎng)絡,將網(wǎng)絡識別出的目標邊框與真實邊框進行對比得到檢測框準確率,將識別定位解算結果與提前記錄的目標車輛實際位置信息進行對比得到定位誤差,如表4所示。

表4 無人機視覺定位檢測率及誤差

檢測框準確率q計算公式為

(8)

(xtrue.min,ytrue.min),(xtrue.max,ytrue.max)分別為真實框左下角和右上角兩個頂點坐標。(xmin,ymin),(xmax,ymax)分別為檢測框左下角和右上角頂點坐標。

分析表4中結果可以發(fā)現(xiàn):攝像機在不同姿態(tài)下的檢測框準確率和定位誤差有所不同,以這兩個指標作為評判標準來衡量定位效果,以90°高低角拍攝的圖像在進行視覺定位時的性能最佳。目標車輛在圖像中的位置會伴隨高低角的變化產(chǎn)生投影誤差,非90°垂直拍攝時投影誤差與高低角呈反比例關系,投影誤差越大,正確的目標車輛檢測框誤差也會隨之增大,直接影響到目標車輛定位精度,可以通過在適當高度范圍內(nèi)升高無人機拍攝高度、調(diào)整高低角接近90°等方法來抵消部分投影誤差對無人機視覺定位準確率的干擾。使用90°高低角條件下采集的數(shù)據(jù)進行定位,正確的目標車輛檢測框準確度達到了96.2%,定位誤差降低至0.20m,針對無人機視覺定位技術的標準可以達到要求。

4 結論

本文以改進的RESSD目標識別網(wǎng)絡作為無人機視覺定位技術中的圖像處理模塊,依靠擴充上下文信息和引入包含殘差單元的預測模塊,設計調(diào)制系數(shù),加強網(wǎng)絡對航拍的小目標車輛和難例樣本的檢測效果,改進的RESSD網(wǎng)絡識別精度得到提高,構建UCAS-AOD-ADD數(shù)據(jù)集并進行網(wǎng)絡訓練學習,根據(jù)檢測出的目標邊界點像素坐標通過坐標變換最終解算出待定位航拍車輛類目標的位置信息。無人機視覺定位系統(tǒng)規(guī)定1000m高空定位誤差在80m以下,本技術在無人機飛行懸停高度為80~120m范圍、拍攝高低角為45~90°范圍的條件下,將定位誤差控制在0.3m以內(nèi)的同時能達到90%以上的正確車輛類目標區(qū)域檢測率,小于視覺定位系統(tǒng)要求的誤差,檢測速度達到33幀/s,高于國內(nèi)使用PAL制式幀率要求的25幀/s,能滿足實時性要求,對無人機航拍車輛類目標識別的mAP達到88.4%。綜上基于改進RESSD網(wǎng)絡的地面目標無人機視覺定位技術,在實現(xiàn)了無人機視覺定位技術實時性的同時也滿足了定位精度要求。

猜你喜歡
航拍卷積損失
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
航拍巴彥呼碩
兩敗俱傷
從濾波器理解卷積
航拍,蒼穹下的醉美視角
難忘的航拍
基于傅里葉域卷積表示的目標跟蹤算法
陜西畫報航拍
菜燒好了應該盡量馬上吃