馬文杰,張軒雄
(上海理工大學 光電信息與計算機工程學院,上海 200093)
視覺是人類重要的感官之一,缺失視覺感官對盲人的生活受到較多限制。據(jù)統(tǒng)計,中國視障人數(shù)目前已超過1 731萬人,隨著盲人數(shù)量的增加以及交通的快速發(fā)展,其出行問題越來越受到社會的關(guān)注。目前盲人主要的出行方式是借助導盲拐杖、盲道和導盲犬。由于部分盲道不規(guī)范、盲道占用以及交通環(huán)境復雜等原因,導盲杖和盲道在某些情況下并不能較好地發(fā)揮作用,而且導盲犬的數(shù)量也較少,無法滿足大部分盲人的需要。所以確保盲道位置以及盲道是否有障礙物對盲人出行安全較重要。
隨著科學技術(shù)迅速發(fā)展,越來越多的新技術(shù)應(yīng)用于導盲領(lǐng)域。在盲道分割方面,文獻[1]提出一種基于顏色信息的提示盲道檢測算法。文獻[2]提出了利用Gabor特性來實現(xiàn)盲道的劃分。傳統(tǒng)的圖像處理方法因其色彩多樣、紋理多變導致準確率低且速度慢。因此,基于深度學習的盲道分割技術(shù)應(yīng)運而生。文獻[3]對SegNet網(wǎng)絡(luò)進行了改進,并給出了盲道分割的模型。文獻[4]設(shè)計了一個輕量級語義分割網(wǎng)絡(luò)用于盲道和人行橫道快速檢測。
關(guān)于盲道障礙物檢測,包括超聲波、紅外線以及GPS(Global Position System)等方法。文獻[5]使用飛行時間和觸覺反饋設(shè)備為視障用戶提供安全的本地導航。文獻[6]設(shè)計了一種基于視覺標記和超聲障礙物檢測的盲人用戶可穿戴式室內(nèi)導航音頻輔助設(shè)備。文獻[7]設(shè)計了一種基于GPS和超聲波的導盲拐杖。隨著機器視覺和深度學習的出現(xiàn),盲道障礙物檢測也有了新方法。相較于傳感器的方法,圖像可以獲得更多有效信息。目標檢測的網(wǎng)絡(luò)較多,有R-CNN(Regional-Convolutional Neureal Networks)[8]系列(R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN)、YOLO(You Look Only Once)[9]系列以及SSD(Single Shot MultiBox Detector)[10]等模型。文獻[11]等通過YOLOv4算法對盲道障礙物進行檢測。文獻[12]提出了一種基于YOLO的機械導盲犬視覺識別算法,可以檢測道路中存在的障礙物。
目前的研究局限于盲道分割或盲道障礙物檢測其中的一種,但對于盲人來說兩者缺一不可。單獨實現(xiàn)這兩個任務(wù)需要較長時間以及更多的資源,并且這兩個任務(wù)具有較多相關(guān)信息,所以多任務(wù)網(wǎng)絡(luò)更適合這種場景,原因主要有:1)可以一次處理多個任務(wù)而非逐個處理,可以加快圖像處理進程;2)多個任務(wù)間可進行信息共享,從而提高了工作效率[13]。本文提出一種可以同時完成盲道分割和盲道障礙物檢測的多任務(wù)網(wǎng)絡(luò)模型。該模型由公共特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、盲道分割網(wǎng)絡(luò)和盲道障礙物檢測網(wǎng)絡(luò)組成,同時改進損失函數(shù),引入修正損失函數(shù)(Rectify_Loss),可以讓盲道分割更加平整、精確。為了提高障礙物檢測召回率,將檢測網(wǎng)絡(luò)的NMS替換為Soft-NMS。
SegFormer[14]是一個將Transformer與輕量級多層感知器(Multilayer Perceptron,MLP)解碼器統(tǒng)一起來的語義分割框架,網(wǎng)絡(luò)框架如圖1所示。
圖1 SegFormer網(wǎng)絡(luò)結(jié)構(gòu)Figure 1. The SegFormer network structure
SegFormer由Encoder和Decoder2個主要模塊組成。1個分層的干網(wǎng)絡(luò)骨(Transformer Encoder)用于生成高分辨率的粗特征和低分辨率的細特征,1個輕量級的分割網(wǎng)絡(luò)(All-MLP Decoder)融合多級特征,產(chǎn)生最終的語義分割掩碼。
SegFormer的優(yōu)勢在于:1)SegFormer設(shè)計了1個新穎的分級結(jié)構(gòu)Transformer Encoder,輸出多尺度特征。它不需要位置編碼,從而避免了位置編碼的插值(當測試分辨率與訓練分辨率不同時會導致性能下降);2)SegFormer避免了復雜的解碼器。SegFormer中的All-MLP Decoder從不同層聚合信息,從而結(jié)合局部關(guān)注和全局關(guān)注來呈現(xiàn)強大的表示。
RetinaNet[15]算法是一種基于錨點(Anchor)的單階段目標檢測模型,即直接對圖像進行計算生成檢測結(jié)果。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)Figure 2.RetinaNet network structure
RetinaNet檢測網(wǎng)絡(luò)由1個主干網(wǎng)絡(luò)(Backbone)和2個子網(wǎng)絡(luò)(Subnet)組成。其中,Backbone由ResNet[16]和特征金字塔(FPN)[17]共同組成,有ResNet-50-FPN和ResNet-101-FPN這2種形式,區(qū)別在于網(wǎng)絡(luò)的深度不同。通過命名形式可以發(fā)現(xiàn),Backbone由ResNet和FPN這2個網(wǎng)絡(luò)共同構(gòu)成,FPN通過利用自上而下的路徑和橫向連接的方式擴展了ResNet。因此,RetinaNet可以有效地對輸入圖像構(gòu)建豐富的多尺度特征金字塔,金字塔中的每一層都可以用來探測不同尺度的物體。
本文提出一種簡單高效的多任務(wù)網(wǎng)絡(luò),可以同時完成盲道分割和盲道附近障礙物的檢測任務(wù)。在減少推理時間的同時提高了每項任務(wù)的性能,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 本文網(wǎng)絡(luò)結(jié)構(gòu)Figure 3. The proposed network structure
網(wǎng)絡(luò)組成:1)SegFormer網(wǎng)絡(luò)的Transformer Encoder作為整個網(wǎng)絡(luò)的Backbone部分,負責整個網(wǎng)絡(luò)共享的特征提取;2)本文網(wǎng)絡(luò)的Neck主要由空間金字塔(SPP)[18]和特征金字塔(FPN)[17]組成,用于網(wǎng)絡(luò)的特征融合;3)分割頭由SegFormer網(wǎng)絡(luò)的All-MLP Decoder構(gòu)成;4)檢測頭由RetinaNet網(wǎng)絡(luò)的FCN(Fully Convolutional Networks) Detection Head組成。兩個任務(wù)共用一個特征提取器,減少了參數(shù)量和計算量。然后改進分割網(wǎng)絡(luò)和檢測網(wǎng)絡(luò)的損失函數(shù),將檢測網(wǎng)絡(luò)的NMS替換為Soft-NMS,進一步優(yōu)化分割和檢測效果。
Backbone網(wǎng)絡(luò)用于提取輸入圖像的特征。由于Transformer Block引入自注意力機制,其相比于CNN,可以更好地抓住全局特征,所以本文使用SegFormer網(wǎng)絡(luò)的Transformer Encoder作為本文網(wǎng)絡(luò)的主干。Transformer Encoder是一個分層的Transformer編碼器,可以生成高分辨率的粗特征和低分辨率的細特征(可用于解碼階段的融合)。對于給定圖像,首先將其劃分為多個較小的Patch,然后輸入到分級Transformer編碼器,以獲得原始圖像分辨率的(1/4,1/8,1/16,1/32)的多級特征[14]。
Transformer Block采用多個疊加的Efficient Self-Attention和Mix-FFN(Feed Forword Networks)加深網(wǎng)絡(luò)深度,以提取豐富的細節(jié)和語義特征。每一個尺度都在Efficient Self-Attention中進行了自注意力計算。Transformer Block的構(gòu)成如圖4所示。
Overlapped Patch Embeddings:在VIT(Vision Transformer)中將1個輸入N×N×C的Image,合并為1×1×C的向量。利用這種特性將特征圖的分辨率縮小2倍。由于這個過程不能保持Patch周圍的局部連續(xù)性,所以使用Overlapping的圖像來融合,可保證Patch周圍的局部連續(xù)性[14]。為此設(shè)置3個參數(shù)K、S、P。K是Patch Size,S是Stride,P是Padding。在實驗中分別將K、S、P設(shè)為(7,4,3)和(3,2,1)來執(zhí)行Overlapping的圖像的融合過程并得到和Non-overlapping圖像融合一樣大小的Feature。
Efficient Self-Attention:將K和V的特征維度進行縮減。先將K進行Reshape,然后再用Linear做一個特征映射。計算式如下
(1)
(2)
可以把時間由O(N2)縮短到O(N2/R)。
Mix-FFN:采用3×3卷積來學習Leak Location Information,并且采用Depth-Wise卷積來減少參數(shù)和計算量,計算式如下
Xout=MLP(GELU(Conv3×3(MLP(Xin))+Xin
(3)
其中,Xin是自注意力模塊的特征。
Mix-FFN的結(jié)構(gòu)如圖5所示。
圖5 Mix-FFN結(jié)構(gòu)Figure 5. Mix-FFN structure
本文模型的編碼器采用MiT-B3,主要的參數(shù)如表1所示。
表1 MiT-B3主要參數(shù)Table 1. MiT-B3 indicates the main parameters
其中,K是Patch Size,S是Stride,P是Padding,C是每個特征維度,R是每個自注意力機制的縮放因子,N是自注意力機制的Head數(shù)量,E是前饋層的膨脹率(MLP中間層維數(shù)的縮放系數(shù),后面代碼的mlp_ratios參數(shù),中間層的維數(shù)大小為mlp_ratios×embed_dims),L是每個Transformer Block中Encoder(Efficient Self-Attn和Mix-FFN)數(shù)量。
高分辨率(低層)特征相對與低分辨率(高層)特征有更多的細節(jié)信息以及較少的語義信息。為有效利用兩者的信息,本文設(shè)計了Neck特征融合網(wǎng)絡(luò),用于融合Backbone產(chǎn)生的不同層次的特征。本文的Neck主要由空間金字塔池(SPP)模塊和特征金字塔網(wǎng)絡(luò)(FPN)模塊組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 Neck網(wǎng)絡(luò)結(jié)構(gòu) Figure 6. Neck network structure
本文將SPP模塊引入到網(wǎng)絡(luò)特征進行池化合并,然后將全局和局部多尺度特征結(jié)合起來提高模型的精度[18]。在Backbone輸出的最后一個特征層進行4次不同尺度的最大池化處理,最大池化核大小分別為9×9、5×5、3×3、1×1(1×1即無處理)。SPP能夠增加感受野,豐富圖像的表達能力,對網(wǎng)絡(luò)精度有一定的提升。
本文的FPN網(wǎng)絡(luò)主要是將特征提取網(wǎng)絡(luò)的最后3層特征通過自頂向下的方法,對上層特征圖進行2倍上采樣后生成與下層大小相同的層,再將橫向連接的特征圖經(jīng)過1×1的卷積后與上采樣的結(jié)果相加,融合不同語義層次的特征,使得生成的特征包含多尺度、多語義層次的信息,采用串聯(lián)的方法來融合特征[19]。
2.3.1 盲道分割網(wǎng)絡(luò)
分割部分使用All-MLP Decoder。本文網(wǎng)絡(luò)的解碼器是將Backbone第1層的輸出和Neck特征融合后的3個輸出(高和寬分別為原圖1/4,1/8,1/16,1/32大小的特征圖)作為輸入,然后經(jīng)過MLP操作,再進行融合[14],主要包含以下4步:
步驟1將輸出的4個特征圖統(tǒng)一維數(shù);
(4)
(5)
(6)
步驟4使用MLP層進行分類。
M=Linear(C,Ncls)(F)
(7)
圖7 MPL結(jié)構(gòu) Figure 7. MPL structure
2.3.2 交叉熵損失
分割網(wǎng)絡(luò)采用基于深度學習的圖像語義分割領(lǐng)域常用的交叉熵(Cross Entropy,CE)函數(shù)作為損失函數(shù),測量預測值和真實標簽之間的相似度,計算式如下
(8)
2.4.1 盲道障礙物檢測網(wǎng)絡(luò)
障礙物檢測部分使用全卷積預測頭。預測頭分為2個分支,分別預測每個Anchor所屬的類別以及目標邊界框回歸參數(shù)。在最后的KA中,K是檢測目標的類別個數(shù);A是錨點數(shù)目。
Subnet對由Backbone得到的特征圖(Feature Map)進行操作,由兩部分組成:一部分負責對目標進行分類,另一部分負責對邊界框進行回歸。其中,分類子網(wǎng)連接FPN中每層的全卷積網(wǎng)絡(luò)(FCN),參數(shù)在金字塔層間的分類子網(wǎng)中共享,使用4個3×3的卷積層。每個卷積層后接一個ReLU(Rectified Linear Unit)層,之后是通道數(shù)為KA的3×3卷積層,最后使用Sigmoid函數(shù)進行激活。邊界框回歸子網(wǎng)結(jié)構(gòu)與分類子網(wǎng)基本一致,差別在于最后的3×3卷積層的通道數(shù)為4A[15]。Subnet結(jié)構(gòu)如圖8所示。
圖8 Subnet結(jié)構(gòu)Figure 8. Subnet structure
2.4.2 盲道障礙物檢測損失函數(shù)
本文盲道障礙物檢測使用Focal Loss作為分類損失函數(shù)。Focal Loss通過降低簡單樣本和負樣本的權(quán)重可解決正負樣本不均衡問題。本文盲道障礙物檢測損失函數(shù)如下所示:
1)分類損失CLS_Loss計算式
(9)
其中,N表示檢測出來的物體個數(shù);通過αt可以抑制正負樣本的數(shù)量失衡;通過γ可以控制簡單/難區(qū)分樣本數(shù)量失衡。在實驗中γ=2,αt=0.25,此時表現(xiàn)最好。
2)回歸損失REG_Loss計算式
(10)
其中,I為指示函數(shù);tx、ty是真實目標中心在水平和垂直方向的平移量;px、py是預測的目標中心在水平和垂直方向的平移量;th、tw是真實檢測框的高度和寬度;ph、pw是預測檢測框的高度和寬度;SmoothL1損失函數(shù)計算式如下
(11)
3)總的檢測損失函數(shù)DET_Loss計算式
DET_Loss=CLS_Loss+REG_Loss
(12)
2.4.3 引入Soft-NMS
本文實驗的數(shù)據(jù)集中存在多個同類別距離過近的情況,使用傳統(tǒng)的非極大值抑制(NMS),這些目標置信度低于最大置信度而被抑制可能出現(xiàn)漏檢的情況,對盲人造成安全隱患。為了解決該問題,本文引入Soft-NMS[20]來提高檢測算法的精確度。對于一個與得分最大框的交并比(Intersection over Union,IoU)大于閾值的框,Soft-NMS算法不是將其刪除,而是用較低的分數(shù)取代原來較高的分數(shù),取得更好的效果。計算式如下(本文采用高斯加權(quán))
(13)
其中,Si表示保留的預測框結(jié)果;A表示得分最大的預測框;Bi表示與得分最大預測框相近的預測框;IoU表示交并比;σ表示標準差;e表示歐拉數(shù)。
經(jīng)過分割后的盲道區(qū)域存在較多凹凸不平的瑕疵區(qū)域,導致分割出來的效果并不平整,需要進一步加工??紤]到盲道區(qū)域為規(guī)整直線組成的區(qū)域,可以根據(jù)實際框的斜率作為參考,利用SmoothL1損失函數(shù)結(jié)合Dcie損失函數(shù)和原來的交叉熵損失函數(shù)形成新的分割損失函數(shù),可以對規(guī)整的盲道邊緣做出更精確地分割。
1)修正損失函數(shù)Recitify_Loss計算式如下
(14)
其中,I為指示函數(shù);j為分割框的邊緣采樣邊;kj表示采樣邊的斜率。對于一個采樣邊,均勻采樣4個點,并在原分割框邊緣中找到和它們對應(yīng)的最近4個點d1、d2、d3、d4,k1、k2、k3、k4分別為d1、d2、d3、d4所在邊緣所對應(yīng)的斜率。
2)交叉熵損失,計算式如下
(15)
3)Dice損失函數(shù),計算式如下
(16)
4)總的分割損失函數(shù)Seg_Loss,計算式如下
Seg_Loss=Rectify_Loss+CE_Loss+Dice_Loss
(17)
應(yīng)用改進的損失函數(shù)前后分割效果對比如圖9所示。
圖9 應(yīng)用損失函數(shù)前后對比(a)原圖 (b)原Loss (c)改進后的LossFigure 9. Comparison before and after application of loss function(a)Original image (b)Original Loss (c)Improved Loss
3.1.1 數(shù)據(jù)來源
由于并沒有可以直接使用的公開數(shù)據(jù)集,本文通過相機拍攝和網(wǎng)絡(luò)爬取兩種方式一共獲取到1 943張盲道(包含盲道障礙物)圖片建立數(shù)據(jù)集,數(shù)據(jù)標注通過Labelme軟件進行標注,部分數(shù)據(jù)集如圖10所示。
(a)
由于本文網(wǎng)絡(luò)需要更多的數(shù)據(jù)集,但數(shù)據(jù)獲取有限,不能較好地滿足網(wǎng)絡(luò)訓練要求,并且數(shù)據(jù)獲取較為隨機,圖片中障礙物分布不均衡,所以本文針對數(shù)據(jù)集偏少、障礙物分布不均問題對數(shù)據(jù)集進行數(shù)據(jù)增強。
3.1.2 數(shù)據(jù)增強
針對盲道數(shù)據(jù)集偏少問題,本文通過翻轉(zhuǎn)、旋轉(zhuǎn)、移位、裁剪、融合、變形、縮放等幾何變換方法對原有盲道數(shù)據(jù)集進行數(shù)據(jù)擴充,部分效果如圖11所示。
圖11 盲道數(shù)據(jù)集部分擴充Figure 11. Partial expansion of the blind roads dataset
針對障礙物分布不均問題,本文通過對障礙物進行復制粘貼、旋轉(zhuǎn)、縮放以及MIXUP等數(shù)據(jù)增強方法融合到其他圖片中生成新的數(shù)據(jù)集的方法來解決,部分效果如圖12所示。
圖12 障礙物數(shù)據(jù)集部分擴充Figure 12. Partial expansion of obstacle dataset
最終通過數(shù)據(jù)增強一共得到3 198張512×512分辨率的數(shù)據(jù)集。
本文實驗采用Pytorch深度學習框架搭建網(wǎng)絡(luò)模型,CPU(Central Processing Unit)采用Intel(R) Core(TM) i7-10700k,GPU(Graphic Processing Unit)采用Nvidia GTX 3090,操作系統(tǒng)為Ubuntu16.04,開發(fā)軟件為Pycharm。訓練流程:初始學習率為 1×10-5,之后學習率逐漸預熱到1×10-3。在前5個epoch中不使用Rectify-Loss。使用Step方式在第24個epoch和32個epoch學習率分別設(shè)置為1×10-4和1×10-5??偣?6個epoch。
3.3.1 分割指標
本文分割效果評價標準選擇交并比(MIoU)和類平局像素準確度(MPA),計算式如下:
(18)
(19)
其中,k+1表示類別總數(shù);pii表示i類的像素預計屬于i類的個數(shù),即真正;pij、pji分別表示假正和假負像素的個數(shù)。
3.3.2 目標檢測指標
本文目標檢測評價標準選擇平均精度(Average Precision,AP),并利用mAP,即所有目標類的AP平均值來衡量目標檢測部分的性能,計算式如下
(20)
(21)
(22)
(23)
其中,n表示檢測目標類別數(shù);R為召回率(Recall),表示樣本中正樣本被預測正確;P為精確度(Precision),表示預測為正的樣本中數(shù)量真正的正樣本數(shù)量;TP則為被預測正確的正樣本數(shù)量;FN為把正樣本錯誤預測為負的數(shù)量;FP表示把負樣本錯誤預測為正的數(shù)量;TP+FN為全部正樣本數(shù)量;TP+FP為全部被分為正樣本的數(shù)量。
3.4.1 盲道分割結(jié)果對比
為了驗證本文模型的有效性,盲道分割部分分別與FCN、Unet、DeepLab V3+和SegFormer在本文自建數(shù)據(jù)集中進行對比實驗,同其他網(wǎng)絡(luò)對比結(jié)果如表2所示。
表2 不同算法盲道分割結(jié)果對比Table 2. Comparison of blind roads segmentation results of different algorithms
由表2可知,改進后的算法盲道分割MIoU可以達到93.25%,MPA可以達到95.29%。相比于直接使用SegFormer,本文的MIoU、MPA分別提高了1.60%、1.66%,相較于其他算法也有一定提升。
3.4.2 盲道障礙物檢測結(jié)果對比
盲道障礙物檢測部分分別與Faster R-CNN、SSD、YOLOV3、RetinaNet(Backbone=ResNet-50)、RetinaNet(Backbone=Transformer)進行對比實驗,同其他網(wǎng)絡(luò)對比結(jié)果如表3所示。
表3 不同算法障礙物檢測結(jié)果對比Table 3. Comparison of obstacle detection results of different algorithms
由表3可知,本文的盲道障礙物檢測算法mAP@0.5可以達到91.58%,mAP@0.75可以達到74.82%,mAP可以達到75.85%。相比于直接使用RetinaNet(Backbone=ResNet50)網(wǎng)絡(luò),本文網(wǎng)絡(luò)的mAP@0.5、mAP@0.75、mAP分別提升了4.75%、9.27%和8.87%,相較于其他算法也有一定提升。
由上述對比結(jié)果可知,在盲道分割和盲道障礙物的檢測方面,相較于對比算法,本文提出的多任務(wù)網(wǎng)絡(luò)模型在精確度上有一定提升。除此之外,在本文的實驗環(huán)境中,相較于分別使用SegFormer算法分割盲道、RetinaNet算法檢測盲道障礙物,本文的多任務(wù)模型預測速度可以提高73.72%,FPS達到18.52。實驗結(jié)果如圖13所示。
(a)
為了解決獨立的分割網(wǎng)路和檢測網(wǎng)絡(luò)不能同時滿足盲人在出行時對盲道分割和盲道障礙物檢測需求的問題,本文提出了以Transformer Encoder為網(wǎng)絡(luò)主干、SPP和FPN作為特征融合網(wǎng)絡(luò)、All-MLP Decoder作為盲道分割網(wǎng)絡(luò)、FCN Detection Head作為盲道障礙物檢測網(wǎng)絡(luò)的多任務(wù)識別算法。相較于兩個獨立的分割和檢測網(wǎng)絡(luò),由于共享同一個特征提取器,減少了推理時間,顯著節(jié)省計算成本,并且加入特征融合網(wǎng)絡(luò)融合多尺度的特征,該算法擁有良好的預測效果。同時改進損失函數(shù),引入修正損失函數(shù)(Rectify_Loss),可以使盲道分割更加平整、精確。為了提高障礙物檢測召回率,將檢測網(wǎng)絡(luò)的NMS替換為Soft-NMS。經(jīng)過實驗驗證,相較于其他對比方法,本文方法在速度和精度方面都有較大的提升,為盲人出行安全提供了新的解決方案。
通過實驗分析,本文提出的方法在盲道附近區(qū)域顏色和紋理區(qū)分不明顯的情況下,分割效果會出現(xiàn)一些不足。未來的研究重點在于提高上述特殊情況下的盲道分割精確度,同時本文算法在速度上還需要進一步提升。