王旒軍,蔣海濤, 劉崇亮,裴新凱,邱宏波
(1.北京自動(dòng)化控制設(shè)備研究所,北京 100074; 2.海裝駐北京地區(qū)第三軍事代表室, 北京 100074)
在軍事領(lǐng)域,無(wú)人機(jī)(Unmanned Aerial Vehicles, UAVs)可以替代有人作戰(zhàn)飛機(jī)執(zhí)行戰(zhàn)場(chǎng)管理、空中和海上監(jiān)視、戰(zhàn)場(chǎng)巡邏與制圖、戰(zhàn)時(shí)安全通信、目標(biāo)跟蹤和作戰(zhàn)打擊等多種任務(wù)。隨著各項(xiàng)技術(shù)的成熟,各型軍用無(wú)人機(jī),如美國(guó)RQ-4全球鷹和中國(guó)彩虹無(wú)人機(jī)等越來(lái)越多地參與到實(shí)際作戰(zhàn)中,變得越來(lái)越流行。
固定翼無(wú)人機(jī)在實(shí)際使用中面臨的一大挑戰(zhàn)是如何確保無(wú)人機(jī)在執(zhí)行完任務(wù)后能安全著陸。目前常用的無(wú)人機(jī)著陸導(dǎo)航系統(tǒng)為衛(wèi)星/慣性等多源信息融合的組合導(dǎo)航系統(tǒng)。但是,面對(duì)越來(lái)越復(fù)雜的電磁作戰(zhàn)環(huán)境,嚴(yán)重依賴外界定位信息的著陸系統(tǒng)的安全性難以保證。相對(duì)于依賴外界定位信息的著陸方案,使用視覺(jué)信息輔助的全自主著陸系統(tǒng)在自主性、安全性和價(jià)格方面展現(xiàn)出優(yōu)勢(shì)[1]。
機(jī)場(chǎng)跑道檢測(cè)(Airport Runway Detection)是視覺(jué)著陸導(dǎo)航系統(tǒng)的重要一環(huán)。Vezinet等[1]基于跑道的參考圖像執(zhí)行圖像配準(zhǔn),以檢測(cè)點(diǎn)特征進(jìn)行著陸引導(dǎo)。Gibert等[2]使用機(jī)場(chǎng)跑道邊界和中線作為特征進(jìn)行跑道檢測(cè)。Khaled等[3]結(jié)合區(qū)域競(jìng)爭(zhēng)分割和最小化能量函數(shù)的方法,構(gòu)建了實(shí)時(shí)跑道檢測(cè)和跟蹤系統(tǒng)。在之前的團(tuán)隊(duì)工作中,劉暢等[4]提出了一種視覺(jué)/慣性組合導(dǎo)航算法,采用Kalman 濾波分別完成位置和姿態(tài)匹配,實(shí)現(xiàn)了視覺(jué)測(cè)量與慣導(dǎo)信息的融合。劉崇亮等[5]提出了一種著陸視覺(jué)導(dǎo)航P3P問(wèn)題唯一解的求解方法,實(shí)現(xiàn)了無(wú)人機(jī)與跑道之間的六自由度位姿解算。文獻(xiàn)[6]利用可見(jiàn)光相機(jī)、紅外相機(jī)和雷達(dá)高度計(jì)等傳感器,通過(guò)提取跑道直線和輪廓特征,實(shí)現(xiàn)了跑道檢測(cè)和位姿計(jì)算。
人工智能(Artificial Intelligence, AI)技術(shù)的崛起給機(jī)場(chǎng)跑道檢測(cè)算法研究帶來(lái)了新的契機(jī)。本文研究基于圖像語(yǔ)義分割的機(jī)場(chǎng)跑道檢測(cè)算法,在特征提取部分,利用注意力模型(Attention Model)設(shè)計(jì)構(gòu)建了自注意力模塊,融合了特征圖空間維度和通道維度的全局相似性信息,以捕獲特征圖中大范圍全局特征,可以提高跑道檢測(cè)網(wǎng)絡(luò)的全局特征提取能力。主干網(wǎng)絡(luò)選用輕量高效的ShuffleNet V2[7],并使用空洞卷積對(duì)網(wǎng)絡(luò)進(jìn)行改造,從而獲取更高分辨率的稠密特征圖。最后,設(shè)計(jì)了簡(jiǎn)潔高效的解碼器模塊,使用跳躍連接將網(wǎng)絡(luò)淺層特征圖引入頂層,使淺層豐富的細(xì)節(jié)、空間位置信息與頂層粗略、抽象的語(yǔ)義分割信息相融合,以獲得精細(xì)的跑道檢測(cè)輸出結(jié)果。
注意力模型可以對(duì)特征圖中全局特征之間的關(guān)系進(jìn)行建模,在圖像、視頻和音頻處理等工作中廣泛使用[8-13]。兩個(gè)向量點(diǎn)積的幾何意義是計(jì)算其相似程度,點(diǎn)積結(jié)果越大,表明兩個(gè)向量越相似。自注意力機(jī)制(Self-attention Mechanism)利用這個(gè)原理進(jìn)行特征圖中關(guān)系權(quán)值的學(xué)習(xí),不需要外部輔助,通過(guò)特征圖之間的特征變換獲取特征圖空間、通道或者時(shí)序的全局關(guān)系。
本節(jié)利用自注意力機(jī)制,設(shè)計(jì)構(gòu)建了自注意力模塊(Self-attention Module)。首先介紹了位置注意力模塊(Position Attention Module)和通道注意力模塊(Channel Attention Module)的網(wǎng)絡(luò)結(jié)構(gòu),然后闡述了融合這兩種注意力模塊的自注意力模塊網(wǎng)絡(luò)設(shè)計(jì)。
圖像語(yǔ)義分割任務(wù)對(duì)網(wǎng)絡(luò)的特征抽象能力要求比較高。理論上,網(wǎng)絡(luò)中深層的卷積核具有很大的感受野,更容易提取抽象出高級(jí)語(yǔ)義特征,但是深層網(wǎng)絡(luò)的實(shí)際感受野要遠(yuǎn)小于理論值[14],導(dǎo)致全局特征缺失。位置注意力模塊通過(guò)特征圖之間的特征變換,計(jì)算每個(gè)像素與其他像素的全局相似性關(guān)系,可以增加網(wǎng)絡(luò)的感受野,通過(guò)建模特征圖中局部特征的全局上下文信息,從而增強(qiáng)網(wǎng)絡(luò)的全局特征表達(dá)能力。
位置注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先對(duì)尺寸為[H,W,C]的輸入特征圖使用1×1卷積壓縮特征圖的通道維度,對(duì)于用于特征變換的第一路分支,通道壓縮比為8,得到尺寸為[H,W,C/8]的特征圖f;第二路分支的通道壓縮比為2,保留了較多的原始信息,得到尺寸為[H,W,C/2]的特征圖g。然后再分兩路對(duì)f特征圖進(jìn)行特征變換:一路進(jìn)行維度變換和轉(zhuǎn)置操作,合并高度和寬度維度,將通道變換為第一維度,得到[C/8,H*W]的特征圖f1;另一路對(duì)f特征圖只進(jìn)行維度變換操作,合并高度和寬度維度,得到[C/8,H*W]的特征圖f2。接著對(duì)f1和f2特征進(jìn)行矩陣乘法,消去通道維度C/8,再使用Softmax函數(shù)歸一化,獲得尺寸為[H*W,H*W]的注意力圖。注意力圖描述了特征圖中每個(gè)像素的全局相關(guān)性信息,特征圖中兩個(gè)位置的特征相似度越高,注意力圖中相應(yīng)的值越大。同時(shí),對(duì)第二路分支的特征圖g進(jìn)行維度變換,得到[H*W,C/2]的特征圖g1。最后,使用注意力圖與g1特征圖進(jìn)行矩陣乘法,將獲取的全局相關(guān)性權(quán)值信息重新分布到原始特征圖中,并使用維度變換操作恢復(fù)特征圖的高度和寬度,輸出通道壓縮后[H,W,C/2]的特征圖。
一般情況下,深度卷積神經(jīng)網(wǎng)絡(luò)中頂層不同的通道會(huì)關(guān)注不同的分割類別。位置注意力模塊可以提取特征圖中不同像素的全局相似性關(guān)系,而通道注意力模塊利用相似的特征變換操作,在計(jì)算特征圖矩陣乘法時(shí),將相乘順序調(diào)換了一下,保留通道維度,使網(wǎng)絡(luò)具有全局通道相關(guān)性表達(dá)能力[15]。
通道注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。首先使用1×1卷積壓縮特征表達(dá)得到特征圖h,h∈RH×W×(C/2)。然后分成三路對(duì)特征圖進(jìn)行特征變換,使用維度變換或轉(zhuǎn)置操作,分別得到尺寸為[C/2,H*W]的特征圖h1,尺寸為[H*W,C/2]的特征圖h2和h3。接著,對(duì)特征圖h1和h2進(jìn)行矩陣乘法,不同于位置注意力模塊,這里消去H*W維度,保留通道維度。為了防止訓(xùn)練期間的損失值不收斂[12],這里將特征圖中每個(gè)位置去除最大值,設(shè)得到的特征圖為G,其中一個(gè)像素點(diǎn)Gi,j為
Gi,j=max(G)-Gi,j
(1)
其中,max(G)表示特征圖中像素的最大值;i、j分別表示像素點(diǎn)坐標(biāo),i,j∈[1,C/2]。
隨后對(duì)特征圖G使用Softmax函數(shù)歸一化,獲得尺寸為[C/2,C/2]的注意力圖,注意力圖描述了特征圖中所有通道之間的相關(guān)性信息。特征圖中兩個(gè)通道的特征相似度越高,注意力圖中相應(yīng)的權(quán)值越大。
最后,將注意力圖與特征圖h3進(jìn)行矩陣乘法,消去H*W維度,并恢復(fù)特征圖高度和寬度維度。使用注意力圖更新通道關(guān)系權(quán)值,有選擇性地強(qiáng)調(diào)所有通道中相關(guān)聯(lián)的通道,并將全局通道相關(guān)性信息分布到原始特征圖中,獲得尺寸為[H*W,C/2]的輸出特征圖。
自注意力模塊整合了位置注意力模塊和通道注意力模塊,可以融合特征圖空間維度和通道維度的全局相似性信息,從而獲得更好的語(yǔ)義分割效果。
自注意力模塊如圖3所示,首先使用位置注意力模塊和通道注意力模塊對(duì)輸入特征圖進(jìn)行操作,分別提取特征圖全局像素相似性和通道相關(guān)性信息。然后,使用3×3卷積進(jìn)一步提取兩個(gè)模塊輸出的特征圖特征,獲得兩路尺寸為[H,W,C/2]的特征圖。接著融合位置注意力和通道注意力輸出特征圖。不同于文獻(xiàn)[12] 使用兩個(gè)可訓(xùn)練參數(shù)分別對(duì)兩路特征圖進(jìn)行加權(quán)后再和原始特征圖逐像素求和的方法,本文設(shè)計(jì)的自注意力模塊將兩個(gè)注意力模塊輸出的特征圖直接與原始特征圖在通道維度進(jìn)行拼接,再使用1×1卷積對(duì)拼接的特征圖進(jìn)行特征整合,在達(dá)到相同特征融合目的的情況下可以使特征的融合更加自由。最后,添加失活概率為0.1的隨機(jī)失活層,隨機(jī)失活一些特征,以避免網(wǎng)絡(luò)對(duì)某些特定特征的過(guò)度依賴,從而增強(qiáng)模塊的魯棒性。自注意力模塊中每層卷積操作后,使用批量歸一化和ReLU激活函數(shù)來(lái)減少梯度消失等現(xiàn)象,以加快收斂速度。
圖3 自注意力模塊Fig.3 Self-attention module
自注意力模塊原理簡(jiǎn)單、結(jié)構(gòu)清晰,融合了位置注意力模塊的空間相似性特征提取能力和通道注意力模塊的全局通道關(guān)系提取能力,在不需要外界信息輔助的情況下,通過(guò)特征圖之間的特征變換就可以捕獲特征圖中大范圍全局相似性信息,在沒(méi)有增加很多參數(shù)的情況下增加了網(wǎng)絡(luò)感受野,提高了網(wǎng)絡(luò)全局特征提取能力。
在語(yǔ)義分割領(lǐng)域,多數(shù)學(xué)者的研究工作致力于提升圖像分割的精度,相對(duì)忽略了網(wǎng)絡(luò)推理的實(shí)時(shí)性。本文著眼于構(gòu)建實(shí)用跑道檢測(cè)網(wǎng)絡(luò),結(jié)合學(xué)術(shù)界最新的研究成果和理念,在網(wǎng)絡(luò)設(shè)計(jì)時(shí)兼顧精度和實(shí)時(shí)性。以下小節(jié)分別闡述了主干網(wǎng)絡(luò)構(gòu)建、解碼器設(shè)計(jì)和整個(gè)跑道檢測(cè)網(wǎng)絡(luò)的結(jié)構(gòu)。
分類網(wǎng)絡(luò)作為語(yǔ)義分割網(wǎng)絡(luò)的主干,承擔(dān)了特征提取器的重要角色,在很大程度上決定了整個(gè)語(yǔ)義分割網(wǎng)絡(luò)的性能。
ShuffleNet V2輕量級(jí)分類網(wǎng)絡(luò)遵循高效設(shè)計(jì)理念:網(wǎng)絡(luò)模塊的輸入和輸出特征圖通道數(shù)應(yīng)當(dāng)一致,以減小內(nèi)存訪問(wèn)耗時(shí)(Memory Access Cost,MAC);避免使用過(guò)多的分組卷積(Group Convolution);減少網(wǎng)絡(luò)分支結(jié)構(gòu),以提高并行計(jì)算效率;逐像素操作如ReLU和1×1卷積等,雖然具有較小的計(jì)算量(FLoat point OPerations,F(xiàn)LOPs),但是內(nèi)存訪問(wèn)消耗較高。
深度可分離卷積(Depthwise Separable Convolution)首先使用3×3卷積核在輸入特征圖上逐通道分別進(jìn)行卷積運(yùn)算,然后使用1×1卷積進(jìn)行通道關(guān)系映射。通常,逐通道計(jì)算的3×3卷積被稱為“Depthwise Convolution”,1×1卷積被稱為“Pointwise Convolution”。深度可分離卷積的使用可以大幅減少網(wǎng)絡(luò)的計(jì)算量。
設(shè)深度可分離卷積模塊輸入特征圖尺寸(高×寬×通道)為h×w×ci,輸出特征圖尺寸為h×w×co。則常規(guī)卷積卷積核尺寸為k×k×ci×co,co為卷積核個(gè)數(shù),深度可分離卷積中逐通道卷積核尺寸為k×k×ci,1×1卷積核尺寸為1×1×ci×co。深度可分離卷積與常規(guī)卷積的計(jì)算量之比為
(2)
由于通常卷積核尺寸遠(yuǎn)小于輸出通道數(shù),所以深度可分離卷積與常規(guī)卷積的計(jì)算量之比約為1/k2,當(dāng)Depthwise Convolution卷積核設(shè)置為3×3時(shí),深度可分離卷積比常規(guī)卷積可使計(jì)算量?jī)H為原來(lái)的1/8~1/9。
網(wǎng)絡(luò)模塊的輸入和輸出特征圖通道數(shù)相同可以減少內(nèi)存訪問(wèn)。簡(jiǎn)便起見(jiàn),設(shè)卷積核的大小k=1,則卷積計(jì)算量FLOPs=F=hwcico,內(nèi)存訪問(wèn)次數(shù)MAC=hw(ci+co)+cico,由均值不等式可得
MAC=hw(ci+co)+cico
(3)
由式(3)可知,當(dāng)FLOPs確定時(shí),ci=co時(shí)模型MAC最小。
ShuffleNet V2舍棄了ShuffleNet V1[16]中1×1分組卷積,引入了通道分離(Channel Split)操作,將輸入c通道數(shù)的特征圖分為c-c′和c′(實(shí)現(xiàn)時(shí)c′=c/2)兩部分,一路分支使用恒等連接,另一路分支使用輸入和輸出通道數(shù)相等的1×1 Conv+3×3 DWConv+1×1 Conv三個(gè)卷積層(DWConv: Depthwise Convolution),最后將兩路結(jié)果在通道維度進(jìn)行拼接(Concatenate)。為了使兩路分支(組)的特征相互交流,對(duì)拼接后的特征進(jìn)行通道洗牌(Channel Shuffle)操作。接著進(jìn)入到下一個(gè)網(wǎng)絡(luò)模塊,這樣拼接、通道洗牌和下一個(gè)模塊的通道分離操作就合并成了一個(gè)逐像素運(yùn)算的模塊,從而減少了內(nèi)存訪問(wèn)。
實(shí)驗(yàn)表明,ShuffleNet V2與ShuffleNet V1、MobileNet[17-18]和modified Xception[19]等網(wǎng)絡(luò)相比,在推理速度大為提升的同時(shí)具有最佳分類精度[7]。因此,本文選用ShuffleNet V2 “1×”版本構(gòu)建主干網(wǎng)絡(luò)。
首先,將ShuffleNet V2網(wǎng)絡(luò)Stage4網(wǎng)絡(luò)塊后的池化層和全連接層等去除,構(gòu)建為全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)。這樣,網(wǎng)絡(luò)的Output Stride(網(wǎng)絡(luò)輸入圖像與輸出特征圖的尺寸比值)為32。而圖像分割任務(wù)希望網(wǎng)絡(luò)輸出特征圖相對(duì)稠密,以獲得精細(xì)的語(yǔ)義分割結(jié)果,并且為了提取抽象的語(yǔ)義信息,在輸出較大分辨率特征圖的情況下,頂層網(wǎng)絡(luò)的感受野不能太小??斩淳矸e(Atrous Convolution or Dilated Convolutions)可以解決這個(gè)問(wèn)題。
如圖4所示,空洞卷積引入膨脹比率(Dilation Rate)r,在原有卷積核的中間插入空洞構(gòu)造成為空洞卷積。常規(guī)卷積(圖4(a))可以認(rèn)為是空洞卷積在rate=1時(shí)的特例。設(shè)常規(guī)卷積核尺寸為k×k,則空洞卷積的卷積核大小等效于
(4)
由式(4)可知,空洞卷積在不增加卷積核參數(shù)量和卷積計(jì)算量的情況下,可以增加卷積核的感受野,進(jìn)而提升網(wǎng)絡(luò)的特征提取能力。
(a) rate=1×1
(b) rate=2×2
(c) rate=3×2
設(shè)卷積層的輸入圖像或者特征圖的尺寸為h×w,每次滑動(dòng)的步長(zhǎng)(Stride)為s,在邊緣填充(Padding)零像素的圈數(shù)為p,輸出特征圖的尺寸為m×n,則使用常規(guī)卷積核時(shí)輸出特征圖的尺寸為
(5)
使用空洞卷積核時(shí)輸出特征圖的尺寸為
(6)
由式(6)可知,通過(guò)設(shè)置相應(yīng)的膨脹比率和步長(zhǎng),空洞卷積使主干網(wǎng)絡(luò)輸出的特征圖尺寸可控,可以根據(jù)分割任務(wù)調(diào)整特征圖尺寸,對(duì)語(yǔ)義分割任務(wù)非常有利。
將Stage4網(wǎng)絡(luò)塊中第一層步長(zhǎng)設(shè)為1,并將隨后的三個(gè)網(wǎng)絡(luò)層改造為膨脹比率為2的空洞卷積,使得卷積層感受野繼續(xù)增大的同時(shí),特征圖尺寸不再減小。最終選用Stage4網(wǎng)絡(luò)塊輸出464通道Output Stride為16的特征圖作為主干網(wǎng)絡(luò)的輸出。
本文構(gòu)建的主干網(wǎng)絡(luò)如圖5所示。主干網(wǎng)絡(luò)中使用了通道分離、通道洗牌、深度可分離卷積和空洞卷積等技術(shù),在有效降低參數(shù)量、計(jì)算量和內(nèi)存訪問(wèn)量的同時(shí),具備很強(qiáng)的特征提取能力。
圖5 主干網(wǎng)絡(luò)Fig.5 Backbone network
主干網(wǎng)絡(luò)和自注意力模塊編碼了圖像中豐富的語(yǔ)義信息,但是輸出特征圖分辨率低,丟失了部分空間位置信息。解碼器使用上采樣逐步增大特征圖的尺寸,并使用跳躍連接融合淺層豐富的細(xì)節(jié)和空間位置信息,可以恢復(fù)清晰的物體邊緣,從而獲得更加稠密、精細(xì)的語(yǔ)義分割結(jié)果。
本文設(shè)計(jì)的簡(jiǎn)單高效的解碼器模塊如圖6所示。圖6中,DSConv表示深度可分離卷積(Depthwise Separable Convolution),OS表示Output Stride。對(duì)輸入OS=16的特征圖首先進(jìn)行雙線性
插值2倍上采樣,獲得OS=8的特征圖,然后引入主干網(wǎng)絡(luò)中相同空間分辨率的Stage2網(wǎng)絡(luò)輸出特征圖,并使用1×1卷積降維1/3得到38通道淺層特征。隨后將兩路特征圖拼接后,使用兩層3×3的深度可分離卷積進(jìn)一步整合細(xì)化深層和淺層特征,最后輸出256通道OS=8的整合了深層網(wǎng)絡(luò)豐富語(yǔ)義信息和淺層網(wǎng)絡(luò)豐富細(xì)節(jié)及空間位置信息的精細(xì)化分割特征圖。
圖6 解碼器模塊Fig.6 Decoder module
整個(gè)跑道檢測(cè)網(wǎng)絡(luò)(命名為RunwayNet)可分為編碼器和解碼器兩部分,網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。編碼器部分包括主干網(wǎng)絡(luò)和自注意力模塊:主干網(wǎng)絡(luò)對(duì)輸入的三通道圖像逐步提取抽象語(yǔ)義特征,最終輸出464通道OS=16的特征圖;自注意力模塊進(jìn)一步對(duì)主干網(wǎng)絡(luò)輸出特征圖進(jìn)行特征變換,捕獲特征圖空間維度和通道維度的全局相似性信息,提高了編碼器的全局特征提取能力。編碼器輸出的256通道特征圖隨機(jī)進(jìn)入解碼器,經(jīng)過(guò)跳躍連接和雙線性插值上采樣融合淺層特征,輸出OS=8更加稠密、精細(xì)的的特征圖。最后,使用1×1卷積將特征圖映射為兩通道(分類類別數(shù))的分割圖,將分割圖上采樣8倍并在通道維度取最大值(ArgMax)操作,從而獲得最終的分割結(jié)果。
圖7 RunwayNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.7 RunwayNet network architecture
實(shí)驗(yàn)部分使用某型國(guó)產(chǎn)固定翼無(wú)人機(jī)進(jìn)行跑道圖像數(shù)據(jù)采集,收集了數(shù)個(gè)跑道不同季節(jié)、不同時(shí)刻、不同天氣下的機(jī)場(chǎng)跑道圖像序列,使跑道數(shù)據(jù)具有多樣性。采集的跑道圖像序列經(jīng)過(guò)降采樣和人工篩選得到1753張跑道圖像。此外,為了豐富實(shí)際采集的跑道數(shù)據(jù),在互聯(lián)網(wǎng)上搜集并篩選得到948張著陸跑道圖像。最后共收集了2701張圖像。
隨后使用labelme標(biāo)注工具對(duì)跑道圖像進(jìn)行精細(xì)標(biāo)注工作。設(shè)置“跑道”和“背景”兩個(gè)類別語(yǔ)義標(biāo)簽:跑道區(qū)域定義為左右跑道邊線、起始斑馬線和終止斑馬線之間的區(qū)域,其他圖像區(qū)域劃分為背景。接著將數(shù)據(jù)劃分為2124張訓(xùn)練集和557張測(cè)試集,命名為Runway數(shù)據(jù)集。Runway數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)如表1所示,表中以序列為單位統(tǒng)計(jì)了圖片數(shù)、劃分為訓(xùn)練集或測(cè)試集的數(shù)據(jù)集、季節(jié)、時(shí)刻、天氣和數(shù)據(jù)來(lái)源等詳細(xì)信息。Runway數(shù)據(jù)集關(guān)注真實(shí)機(jī)場(chǎng)場(chǎng)景下跑道的分割能力,貼近機(jī)場(chǎng)跑道檢測(cè)的實(shí)際應(yīng)用需求,任務(wù)難度相對(duì)較高。
表1 Runway數(shù)據(jù)集統(tǒng)計(jì)
訓(xùn)練平臺(tái)為搭載兩塊Nvidia GTX 1080Ti GPU的服務(wù)器,CPU型號(hào)為I7-8700K,擁有32GB機(jī)身內(nèi)存,運(yùn)行Ubuntu 16.04操作系統(tǒng)。軟件代碼基于TensorFlow[20]開(kāi)源框架實(shí)現(xiàn)。
網(wǎng)絡(luò)訓(xùn)練時(shí)首先使用在ImageNet數(shù)據(jù)集[21]上預(yù)訓(xùn)練的ShuffleNet V2來(lái)初始化主干網(wǎng)絡(luò)權(quán)重,然后將整個(gè)網(wǎng)絡(luò)在MS COCO數(shù)據(jù)集[22]上進(jìn)行端到端預(yù)訓(xùn)練,最后在Runway數(shù)據(jù)集上進(jìn)行最終的訓(xùn)練。
數(shù)據(jù)增強(qiáng)方面,首先使用縮放因子為[0.5,2.0],步長(zhǎng)為0.25的隨機(jī)縮放操作。然后對(duì)訓(xùn)練輸入圖像進(jìn)行1242×375尺寸的隨機(jī)裁剪。最后對(duì)訓(xùn)練圖像使用概率為0.5的隨機(jī)左右翻轉(zhuǎn)操作。
網(wǎng)絡(luò)使用Softmax函數(shù)計(jì)算每個(gè)像素的分類概率,并使用交叉熵函數(shù)計(jì)算總損失值。權(quán)值正則化系數(shù)設(shè)為4×10-5,批量歸一化的Batch Sizes設(shè)置為16,在反向傳播和網(wǎng)絡(luò)參數(shù)更新時(shí)使用Adam優(yōu)化器[23],學(xué)習(xí)速率使用ploy策略,初始學(xué)習(xí)率設(shè)置為1×10-3, power設(shè)置為0.9,最大迭代次數(shù)設(shè)置為60K。
本節(jié)首先進(jìn)行RunwayNet各個(gè)模塊的消融實(shí)驗(yàn)(Ablation Experiments),然后對(duì)自注意力模塊中間結(jié)果進(jìn)行可視化,最后給出RunwayNet在英偉達(dá)Jetson AGX Xavier嵌入式平臺(tái)上的跑道檢測(cè)效果圖。
首先在Runway數(shù)據(jù)集上進(jìn)行RunwayNet各個(gè)模塊的消融實(shí)驗(yàn),以驗(yàn)證各個(gè)模塊及其組合的性能、參數(shù)量和計(jì)算量。跑道分割精度用平均交并比[24](Mean Intersection over Union,MIoU)來(lái)評(píng)價(jià),參數(shù)量的單位為MB(兆字節(jié)),網(wǎng)絡(luò)計(jì)算量用GFLOPs表示,GFLOPs=1×109FLOPs,GFLOPs在網(wǎng)絡(luò)輸入為1242×375×3分辨率下測(cè)得。
實(shí)驗(yàn)結(jié)果如表2所示,表中SAM和Decoder分別表示自注意力模塊和解碼器模塊,Our-Basic方法表示只使用主干網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割,推理速度f(wàn)ps在英偉達(dá)Jetson Xavier平臺(tái)上測(cè)得,MIoU得分由Runway測(cè)試集計(jì)算得出。
表2 RunwayNet各模塊消融實(shí)驗(yàn)
由表2中數(shù)據(jù)可知:Our-Basic網(wǎng)絡(luò)配置在參數(shù)量?jī)H1.09MB、計(jì)算量?jī)H4.41GFLOPs的情況下,MIoU得分可達(dá)到85.28%,在Xavier上推理速度達(dá)到24.5fps,可見(jiàn)本文構(gòu)建的主干網(wǎng)絡(luò)在極少參數(shù)量和計(jì)算量的條件下具有很強(qiáng)的特征提取能力;Our-SAM網(wǎng)絡(luò)配置在主干網(wǎng)絡(luò)的基礎(chǔ)上添加了自注意力模塊,MIoU評(píng)分提升了2.25%達(dá)到87.53%,參數(shù)量略微增加0.49MB,計(jì)算量增加1.92GFLOPs,推理速度也略微下降到23.1fps,可見(jiàn)自注意力模塊在沒(méi)有增加很多參數(shù)量和計(jì)算量的情況下,分割精度提升明顯;Our-Decoder網(wǎng)絡(luò)配置在主干網(wǎng)絡(luò)的基礎(chǔ)上添加了解碼器模塊,MIoU評(píng)分相比Our-Basic網(wǎng)絡(luò)提升了1.04%,參數(shù)量略微增加0.15MB,計(jì)算量增加2.21GFLOPs,推理速度稍微下降,可見(jiàn)解碼器模塊融合了淺層細(xì)節(jié)和空間位置信息后能夠獲得更好的跑道檢測(cè)結(jié)果。RunwayNet網(wǎng)絡(luò)整合了自注意力模塊和解碼器模塊的優(yōu)點(diǎn),參數(shù)量為1.72MB,計(jì)算量為8.54GFLOPs,在Xavier上推理速度為21.8fps,最終MIoU評(píng)分達(dá)到88.53%,相比于Our-Basic網(wǎng)絡(luò)評(píng)分提高了3.25%,驗(yàn)證了本文設(shè)計(jì)的自注意力模塊、解碼器模塊和RunwayNet跑道檢測(cè)網(wǎng)絡(luò)的優(yōu)異性能。
為了更好地理解注意力模型的原理并驗(yàn)證本文構(gòu)建的自注意力模塊的有效性,將網(wǎng)絡(luò)中間結(jié)果:圖像標(biāo)簽、網(wǎng)絡(luò)預(yù)測(cè)結(jié)果、位置注意力圖和通道注意力圖進(jìn)行可視化。
由1.1節(jié)的分析可知,對(duì)于H×W×C的輸入特征圖,每一個(gè)像素位置都對(duì)應(yīng)一幅H×W分辨率的位置注意力圖,該注意力圖描述了當(dāng)前像素與特征圖中所有像素的相似性信息。由1.2節(jié)可知,通道注意力圖的尺寸為[C/2,C/2],為了使通道注意力特征可視化,對(duì)融合了原始特征圖和通道相關(guān)性信息的通道注意力模塊輸出特征圖進(jìn)行可視化,其尺寸為H×W×C/2。需要說(shuō)明的是,由于原圖和標(biāo)簽尺寸為1242×375,網(wǎng)絡(luò)預(yù)測(cè)結(jié)果OS=8,所以網(wǎng)絡(luò)預(yù)測(cè)原始分辨率為47×156;而自注意力模塊輸入和輸出特征圖OS=16,所以注意力圖實(shí)際分辨率為24×78,為了可視化方便,將各圖像縮放至統(tǒng)一尺寸。此外,實(shí)際訓(xùn)練時(shí)標(biāo)簽圖像和預(yù)測(cè)輸出的像素值為其對(duì)應(yīng)的類別,所以其像素取值為(0,1)??梢暬瘯r(shí)將標(biāo)簽圖像和預(yù)測(cè)結(jié)果進(jìn)行了[255/2]因子的加權(quán),方便區(qū)分不同的類別標(biāo)簽。
自注意力模塊可視化結(jié)果如圖8所示。圖8中,每一列對(duì)應(yīng)一張圖的可視化結(jié)果,第一行為輸入原圖,第二行為真值標(biāo)簽,第三行為網(wǎng)絡(luò)預(yù)測(cè)結(jié)果。PAM表示位置注意力圖,其標(biāo)號(hào)對(duì)應(yīng)圖中像素位置(x,y); CAM表示通道注意力圖,其標(biāo)號(hào)對(duì)應(yīng)通道號(hào)。由第四行第一列可見(jiàn),紅色坐標(biāo)點(diǎn)(14,7)對(duì)應(yīng)的位置注意力圖提取了整個(gè)圖中“背景”類別的信息,分類準(zhǔn)確,邊界清晰。第四行第二列綠色坐標(biāo)(38,15)像素點(diǎn)對(duì)應(yīng)跑道區(qū)域,其位置注意力圖對(duì)整個(gè)標(biāo)簽真值定義“跑道”區(qū)域響應(yīng)明顯,對(duì)非標(biāo)簽定義但是人類認(rèn)知上的跑道區(qū)域有所響應(yīng)且有較強(qiáng)的抑制作用,對(duì)“背景”類別沒(méi)有任何響應(yīng)。由最后一行可見(jiàn),通道注意力圖同樣提取了不同類別清晰的分割區(qū)域,如第一列第五列中通道109提取了“跑道”類別,第一列第五列中通道50對(duì)“背景”類別響應(yīng)強(qiáng)烈。
圖8 自注意力模塊中間層可視化結(jié)果Fig.8 Visualization of self-attention module intermediate layer
由以上可視化結(jié)果分析可知,自注意力模塊如預(yù)期的一樣提取了特征圖中各像素位置之間的全局相似性關(guān)系和通道之間的全局相關(guān)性信息。
為了使評(píng)測(cè)得分結(jié)果更加直觀,可視化理解本文設(shè)計(jì)的RunwayNet的有效性,給出了RunwayNet在Runway測(cè)試集上的分割結(jié)果,并做出分析。
分割結(jié)果如圖9所示,跑道區(qū)域用紫色標(biāo)記,前四行圖像為機(jī)載實(shí)驗(yàn)采集所得,后兩行圖像由互聯(lián)網(wǎng)搜集所得。由圖中第一列結(jié)果可見(jiàn),RunwayNet網(wǎng)絡(luò)在距離跑道很遠(yuǎn)(大于3km)時(shí)就對(duì)跑道區(qū)域正確感知,人眼隱約看見(jiàn)跑道的時(shí)候,網(wǎng)絡(luò)就能大致識(shí)別出跑道區(qū)域。由最后一列結(jié)果圖可見(jiàn),從無(wú)人機(jī)即將著陸到完全降落到跑道上滑行, 網(wǎng)絡(luò)都準(zhǔn)確地分割出了跑道區(qū)域。結(jié)合圖中第一列、第二列和第三行結(jié)果可見(jiàn),網(wǎng)絡(luò)對(duì)由遠(yuǎn)及近著陸過(guò)程中各個(gè)階段的跑道圖像都能精準(zhǔn)的分割識(shí)別,并且對(duì)不同時(shí)刻、不同季節(jié)、不同背景、不同鋪設(shè)條件的跑道都能準(zhǔn)確進(jìn)行分割檢測(cè)。綜合以上實(shí)驗(yàn)結(jié)果和分析可知,相比于其他方法[1,6],RunwayNet網(wǎng)絡(luò)具有媲美于人眼的檢測(cè)精度和作用距離,通過(guò)大量數(shù)據(jù)的訓(xùn)練具備對(duì)陌生機(jī)場(chǎng)跑道的檢測(cè)識(shí)別能力,并且對(duì)無(wú)人機(jī)著陸全過(guò)程成像尺度變化劇烈的跑道區(qū)域進(jìn)行了精準(zhǔn)的分割識(shí)別,具有很強(qiáng)的多尺度全局特征提取能力。
圖9 Runway測(cè)試集分割結(jié)果Fig.9 Segmentation results of Runway test set
本文針對(duì)無(wú)人機(jī)自主著陸應(yīng)用場(chǎng)景,研究了基于圖像語(yǔ)義分割的機(jī)場(chǎng)跑道檢測(cè)算法,構(gòu)建了輕量高效的RunwayNet跑道檢測(cè)網(wǎng)絡(luò)。在編碼器部分,設(shè)計(jì)構(gòu)建了自注意力模塊,選用ShuffleNet V2構(gòu)建了主干網(wǎng)絡(luò)。在解碼部分設(shè)計(jì)了簡(jiǎn)潔高效的解碼器以獲得更加精細(xì)的跑道分割結(jié)果。實(shí)驗(yàn)部分使用無(wú)人機(jī)進(jìn)行跑道圖像數(shù)據(jù)采集,收集了豐富多樣的機(jī)場(chǎng)跑道圖像,形成Runway跑道數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果顯示,本文設(shè)計(jì)的自注意力模塊和RunwayNet跑道檢測(cè)網(wǎng)絡(luò)具有優(yōu)異性的能。最終RunwayNet網(wǎng)絡(luò)在Runway測(cè)試集上取得了88.53%的MIoU評(píng)分,1242×375圖像分辨率下在英偉達(dá)Jetson Xavier平臺(tái)上能達(dá)到21.8 fps的處理速度,且無(wú)人機(jī)著陸全過(guò)程都可以對(duì)跑道區(qū)域進(jìn)行精準(zhǔn)的分割識(shí)別,具有很強(qiáng)的實(shí)用價(jià)值。