劉 慧 張禮帥 沈 躍 張 健 吳 邊
(江蘇大學(xué)電氣信息工程學(xué)院, 鎮(zhèn)江 212013)
隨著精準(zhǔn)農(nóng)業(yè)理論的提出以及智能化機(jī)器人的發(fā)展,智能農(nóng)業(yè)車輛的自動(dòng)導(dǎo)航越來越受到國(guó)內(nèi)外的關(guān)注[1]。為了保證智能化車輛在無人工干預(yù)時(shí)在田間操作的安全性,必須有實(shí)時(shí)的障礙物檢測(cè),當(dāng)需要人機(jī)共同協(xié)作完成一些任務(wù)時(shí),對(duì)田間行人的檢測(cè)更是首要考慮的問題。在室外田間環(huán)境下,自動(dòng)導(dǎo)航時(shí)存在很大的不確定性,常用的障礙物檢測(cè)方法有激光雷達(dá)傳感器檢測(cè)[2]、超聲波傳感器檢測(cè)[3]、紅外傳感器檢測(cè)[4]和計(jì)算機(jī)視覺檢測(cè)[5]等。
田間環(huán)境下的障礙物檢測(cè),由于其復(fù)雜的自然環(huán)境、障礙物形態(tài)的多變性、光照等外部條件的大范圍變化等,實(shí)施起來具有一定難度。田間環(huán)境下,超聲波傳感器存在檢測(cè)障礙物空間位置準(zhǔn)確性較差、易受干擾等缺點(diǎn),激光雷達(dá)傳感器可以較直觀地檢測(cè)障礙物,但雷達(dá)系統(tǒng)的造價(jià)昂貴[6]。計(jì)算機(jī)視覺檢測(cè)相比于其他障礙物檢測(cè)方法具有成本低、能夠有效利用環(huán)境中的顏色與紋理信息等優(yōu)點(diǎn)。
近年來由于深度學(xué)習(xí)相關(guān)理論的快速發(fā)展及計(jì)算能力的提升,深度卷積網(wǎng)絡(luò)在計(jì)算機(jī)視覺方面取得了很大的成功。在目標(biāo)檢測(cè)方面,基于深度學(xué)習(xí)的方法準(zhǔn)確率大大超過了傳統(tǒng)的基于HOG、SIFT等人工設(shè)計(jì)特征的檢測(cè)方法[7]?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)主要包括兩類,一類是基于區(qū)域生成的卷積網(wǎng)絡(luò)結(jié)構(gòu),代表性的網(wǎng)絡(luò)為R-CNN[8]、fast R-CNN[9]、faster R-CNN[10];另一類是把目標(biāo)位置的檢測(cè)視作回歸問題,直接利用CNN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)整個(gè)圖像進(jìn)行處理,同時(shí)預(yù)測(cè)出目標(biāo)的類別和位置,代表性的網(wǎng)絡(luò)有YOLO[11-13]、SSD[14-15]等。行人檢測(cè)是目標(biāo)檢測(cè)的子問題,基于卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)模型由于不需要手動(dòng)設(shè)計(jì)特征,可通過深層卷積網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)學(xué)習(xí)圖像的高階特征,從而可生成更加可靠的檢測(cè)結(jié)果[16]。針對(duì)深度學(xué)習(xí)模型參數(shù)眾多導(dǎo)致其難以部署在嵌入式設(shè)備的問題,很多學(xué)者提出了各種相應(yīng)的模型壓縮方法[17-19]。
本文在LIU等[14]提出的SSD目標(biāo)檢測(cè)模型基礎(chǔ)上對(duì)其進(jìn)行改進(jìn),使用MobileNetV2[19]網(wǎng)絡(luò)架構(gòu)作為SSD的基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取,并對(duì)輔助層的卷積結(jié)構(gòu)使用反向殘差結(jié)構(gòu)并結(jié)合空洞卷積進(jìn)行位置預(yù)測(cè),在利用多尺度信息的同時(shí)可以減少計(jì)算量和參數(shù)量,使其能夠部署在移動(dòng)端設(shè)備中,通過遷移學(xué)習(xí)對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行調(diào)優(yōu),從而減少模型訓(xùn)練時(shí)間并使得模型更容易收斂。本文采用計(jì)算機(jī)視覺方法結(jié)合深度學(xué)習(xí)進(jìn)行農(nóng)業(yè)車輛自動(dòng)作業(yè)過程中的行人障礙物檢測(cè),從而為進(jìn)一步實(shí)現(xiàn)田間行人避讓提供理論基礎(chǔ)。
SSD目標(biāo)檢測(cè)模型由于不需要耗時(shí)的區(qū)域生成及特征重采樣步驟,直接對(duì)整個(gè)圖像進(jìn)行卷積操作并預(yù)測(cè)出圖像中所包含物體的類別及對(duì)應(yīng)的坐標(biāo),從而極大提高了檢測(cè)速度,同時(shí)通過使用小尺寸的卷積核、多尺度預(yù)測(cè)等使得目標(biāo)檢測(cè)的精度得到很大提升。
SSD網(wǎng)絡(luò)結(jié)構(gòu)分為基礎(chǔ)網(wǎng)絡(luò)(Base network)和輔助網(wǎng)絡(luò)(Auxiliary network)兩部分:基礎(chǔ)網(wǎng)絡(luò)為在圖像分類領(lǐng)域具有很高分類精度且去除其分類層的網(wǎng)絡(luò);輔助網(wǎng)絡(luò)為在基礎(chǔ)網(wǎng)絡(luò)基礎(chǔ)上增加的用于目標(biāo)檢測(cè)的卷積網(wǎng)絡(luò)結(jié)構(gòu),這些層的尺寸逐漸減小從而可以進(jìn)行多尺度預(yù)測(cè)。每個(gè)添加的輔助網(wǎng)絡(luò)層都會(huì)通過一系列卷積核產(chǎn)生一個(gè)固定的預(yù)測(cè)集,對(duì)于一個(gè)m×n×p(p為通道數(shù),m、n為尺寸)的特征層,每個(gè)輔助層會(huì)使用3×3×p的卷積核對(duì)其進(jìn)行預(yù)測(cè)并產(chǎn)生某一類別的得分值,或者是物體相對(duì)于默認(rèn)邊界框的位置偏移量,且在m×n個(gè)位置都分別預(yù)測(cè)出相應(yīng)的值。
SSD模型在特征圖的每個(gè)位置預(yù)測(cè)k個(gè)邊界框,并且同時(shí)預(yù)測(cè)某一物體類別出現(xiàn)在此位置的得分和物體位置相對(duì)于邊界框的偏移量,從而在每個(gè)特征圖的位置分別預(yù)測(cè)c×k(c為類別數(shù))個(gè)得分和4×k個(gè)位置偏移量,對(duì)于一個(gè)尺寸為m×n的特征圖,總體會(huì)預(yù)測(cè)出(c+4)kmn個(gè)輸出量。最后對(duì)輸出結(jié)果進(jìn)行非極大值抑制來得到最終的關(guān)于圖像中物體類別及位置信息的預(yù)測(cè)值。
SSD目標(biāo)檢測(cè)模型使用VGG網(wǎng)絡(luò)[20]作為基礎(chǔ)網(wǎng)絡(luò),但VGG網(wǎng)絡(luò)模型參數(shù)眾多,在特征提取過程中占用了大部分運(yùn)行時(shí)間,且在前向傳播過程中由于存在非線性變換導(dǎo)致變換過程中信息的損失。
SANDLER等[19]在流形學(xué)習(xí)理論的基礎(chǔ)上提出非線性激活函數(shù)ReLU在高維度下會(huì)較好地保留信息,而在低維度下會(huì)造成較大的信息丟失,故在輸入層應(yīng)該增加特征維度之后再對(duì)其進(jìn)行非線性變換,而在輸出層應(yīng)該對(duì)特征進(jìn)行降維后使用線性激活函數(shù)以減少信息的丟失,據(jù)此提出反向殘差結(jié)構(gòu)(Inverted residual block)。
反向殘差結(jié)構(gòu)中的下采樣操作在增大卷積核感受野的同時(shí)會(huì)造成特征信息的丟失,所以考慮舍棄卷積結(jié)構(gòu)中的下采樣操作并引入空洞卷積[21-22]來解決此問題??斩淳矸e是在原始卷積操作的基礎(chǔ)上增加一個(gè)擴(kuò)張參數(shù),將卷積核擴(kuò)張到相應(yīng)的尺度中,同時(shí)在原卷積核中未被占用到的區(qū)域填充0,應(yīng)用空洞卷積可以在不用下采樣操作的情況下增加卷積核的感受野。但空洞卷積的使用會(huì)令卷積核對(duì)數(shù)據(jù)操作不連續(xù)以及對(duì)于小物體不能較好識(shí)別,本文考慮使用層級(jí)特征融合[23](Hierarchical feature fusion) 來解決引入空洞卷積所帶來的問題。
層級(jí)特征融合是對(duì)空洞卷積層的每一個(gè)卷積單元的輸出依次進(jìn)行求和,并且把每個(gè)求和后的結(jié)果都通過連接(Concatenate)操作得到最后的輸出結(jié)果,如圖1所示。相比于其他通過使用較小的擴(kuò)張參數(shù)使得學(xué)習(xí)參數(shù)變多的方法,此方法具有操作簡(jiǎn)單且不增加卷積結(jié)構(gòu)復(fù)雜性的優(yōu)點(diǎn)??斩淳矸e層結(jié)構(gòu)表示為(輸入通道,感受野,輸出通道),其中空洞卷積核的有效感受野為nk×nk,nk=2k-1(n-1)+1;k=1,2,…,K。
圖1 層級(jí)特征融合Fig.1 Hierarchical feature fusion
反向殘差結(jié)構(gòu)使用ReLU6為激活函數(shù),其輸出為
Y=min(max(X,0),6)
(1)
式中Y——ReLU6激活函數(shù)的輸出
X——輸入特征值
ReLU6相比于ReLU[24]在低精度運(yùn)算場(chǎng)景中具有更好的魯棒性,另外,使用3×3的卷積核,并且在訓(xùn)練網(wǎng)絡(luò)過程中使用dropout[25]和batch normalization[26]以減少訓(xùn)練過程中的過擬合。改進(jìn)前后的反向殘差結(jié)構(gòu)如圖2所示。其中Dwise表示基于深度可分離的卷積結(jié)構(gòu)[27],Dilated表示卷積方式是空洞卷積,Linear為線性激活函數(shù),HFF表示層級(jí)特征融合。
圖2 改進(jìn)前后反向殘差結(jié)構(gòu)Fig.2 Inverted residual block before and after improvement
結(jié)合改進(jìn)后的反向殘差結(jié)構(gòu)對(duì)SSD目標(biāo)檢測(cè)模型的基礎(chǔ)層和輔助層進(jìn)行改進(jìn):①原始SSD使用VGG網(wǎng)絡(luò)作為基礎(chǔ)層進(jìn)行特征提取,但VGG網(wǎng)絡(luò)模型不適合在移動(dòng)設(shè)備上部署運(yùn)行,把其替換為SANDLER等[19]在反向殘差結(jié)構(gòu)基礎(chǔ)上提出的MobileNetV2網(wǎng)絡(luò),其具有參數(shù)少、占用空間小且運(yùn)行速度較快的優(yōu)點(diǎn),以此作為SSD的特征提取網(wǎng)絡(luò)可以加快運(yùn)行速度并且減少模型的尺寸及運(yùn)算量。②SSD輔助層使用傳統(tǒng)的卷積網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致其參數(shù)量和運(yùn)算量較大,本文使用改進(jìn)后的反向殘差結(jié)構(gòu)作為輔助層的基本結(jié)構(gòu),改進(jìn)后的輔助網(wǎng)絡(luò)層可以減少學(xué)習(xí)過程中非線性變換造成的信息損失且卷積核具有多尺度的感受野。改進(jìn)后的SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。基礎(chǔ)網(wǎng)絡(luò)為去除預(yù)測(cè)層后的MobileNetV2網(wǎng)絡(luò),輔助網(wǎng)絡(luò)層使用改進(jìn)后的反向殘差結(jié)構(gòu)進(jìn)行位置及相應(yīng)類別概率的預(yù)測(cè),其中19×19×1 280為輸出的特征尺寸,其余類似。
訓(xùn)練過程中所使用的目標(biāo)函數(shù)為
圖3 改進(jìn)后的SSD網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improved SSD framework
(2)
其中
(3)
(4)
(5)
式中N——匹配的默認(rèn)邊界框的個(gè)數(shù), 當(dāng)N為0時(shí),設(shè)置L為0
x——預(yù)測(cè)框與真實(shí)框是否匹配
c——標(biāo)注類別
α——位置預(yù)測(cè)誤差與分類預(yù)測(cè)誤差的加權(quán)系數(shù)
SL1——平滑L1誤差函數(shù)
l——預(yù)測(cè)的邊界框坐標(biāo)
g——標(biāo)注的邊界框坐標(biāo)
Lloc——位置預(yù)測(cè)誤差,為平滑L1誤差函數(shù)
Lconf——對(duì)應(yīng)的softmax多分類誤差函數(shù)
xij,k——第i個(gè)預(yù)測(cè)框與第j個(gè)真實(shí)框關(guān)于類別k是否匹配
Pos——樣本中的正例
Box——預(yù)測(cè)框中心坐標(biāo)及其寬和高的集合
Neg——樣本中的負(fù)例
xij,p——預(yù)測(cè)框i與真實(shí)框j關(guān)于類別p是否匹配
ci,p——第i個(gè)預(yù)測(cè)框中目標(biāo)屬于類別p的得分值
采用32GB內(nèi)存、NVIDIA GTX1080TI型GPU、AMD銳龍5-2600X CPU作為硬件平臺(tái),操作系統(tǒng)為L(zhǎng)inux Ubuntu 16.04,并行計(jì)算框架版本為CUDA 8.0,深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)為CUDNN v7.0。采用Python編程語(yǔ)言在Tensorflow[28]深度學(xué)習(xí)框架上實(shí)現(xiàn)本文的SSD目標(biāo)檢測(cè)模型并完成對(duì)模型的訓(xùn)練及驗(yàn)證。
針對(duì)已開放的行人檢測(cè)數(shù)據(jù)集都是在城市道路等結(jié)構(gòu)化環(huán)境中,PEZZEMENTI等[29]制作了農(nóng)業(yè)環(huán)境下行人檢測(cè)數(shù)據(jù)集以促進(jìn)深度學(xué)習(xí)技術(shù)在農(nóng)業(yè)環(huán)境下的應(yīng)用,包括蘋果園和橙園環(huán)境下的已標(biāo)注圖像。本文使用蘋果園環(huán)境下的數(shù)據(jù),分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集包含行人圖像有15 526幅,不包含行人的圖像有4 570幅;驗(yàn)證集中包含行人圖像有8 124幅,不包含行人圖像有1 981幅;測(cè)試集中包含行人圖像有7 691幅,不包含行人圖像有1 949幅。其中包含行人的圖像分為靜止?fàn)顟B(tài)和移動(dòng)狀態(tài);按照行人目標(biāo)所占像素區(qū)域面積分為小目標(biāo)、中等目標(biāo)、大目標(biāo);按照行人所處的姿勢(shì)分為正常姿勢(shì)、非正常姿勢(shì),其中正常姿勢(shì)是正常站立姿勢(shì),非正常姿勢(shì)包括躺、坐、蹲和跌落姿勢(shì)。
由于樣本中各種情形下的圖像樣本并不一致,為了避免樣本分布不均導(dǎo)致訓(xùn)練出的模型泛化性能不佳問題,對(duì)樣本中數(shù)量較少的分類進(jìn)行水平翻轉(zhuǎn)和平移等操作進(jìn)行數(shù)據(jù)增廣,使得各種情形下的樣本數(shù)量基本一致。同時(shí)由于蘋果園自然光照下,特別是在光照很強(qiáng)時(shí),由于行人被植株遮擋或受植株陰影的影響,使得處于此環(huán)境下的行人相對(duì)于自然光照射下表面會(huì)有較大變化,從而會(huì)影響行人檢測(cè)的精度。本文采用自適應(yīng)直方圖均衡化來對(duì)圖像進(jìn)行增強(qiáng)從而提高圖像的質(zhì)量,減少光照變化對(duì)圖像的影響。
為了節(jié)省訓(xùn)練時(shí)間及加快收斂速度,本文使用遷移學(xué)習(xí)來訓(xùn)練深度學(xué)習(xí)模型。首先加載已經(jīng)訓(xùn)練好的MobileNetV2分類網(wǎng)絡(luò)的參數(shù),除去最后的分類層,其余參數(shù)值賦給SSD模型中對(duì)應(yīng)的參數(shù),其余各層參數(shù)是以0為均值、0.01為標(biāo)準(zhǔn)差的高斯分布進(jìn)行隨機(jī)初始化。
本文使用批量隨機(jī)梯度下降算法,設(shè)置batch-size為128,沖量為0.9,權(quán)值衰減系數(shù)為2×10-3,最大迭代次數(shù)為8×105次,初始學(xué)習(xí)率為0.004,衰減率為0.95,每10 000次迭代后衰減一次,每間隔10 000次迭代后保存一次模型,最終選取精度最高的模型。訓(xùn)練過程中使用困難樣本挖掘(Hard negative mining)策略[30],即訓(xùn)練過程中先用初始的正負(fù)樣本訓(xùn)練檢測(cè)模型,然后使用訓(xùn)練出的模型對(duì)樣本進(jìn)行檢測(cè)分類,把其中檢測(cè)錯(cuò)誤的樣本繼續(xù)放入負(fù)樣本集合進(jìn)行訓(xùn)練,從而加強(qiáng)模型判別假陽(yáng)性的能力。
通過在測(cè)試集中分析模型改進(jìn)前后的檢測(cè)精度、檢測(cè)速度和參數(shù)量以對(duì)比模型的性能。把測(cè)試集圖像輸入訓(xùn)練好的網(wǎng)絡(luò),對(duì)田間行人位置進(jìn)行檢測(cè)并記錄檢測(cè)結(jié)果,當(dāng)模型預(yù)測(cè)的目標(biāo)邊界與測(cè)試集對(duì)應(yīng)的標(biāo)注數(shù)據(jù)中的邊界框的交并集比(IOU)大于等于設(shè)定的閾值時(shí),認(rèn)為檢測(cè)結(jié)果正確,否則視為檢測(cè)錯(cuò)誤。檢測(cè)精度的評(píng)價(jià)指標(biāo)選取準(zhǔn)確率(Precision,P)、召回率(Recall,R)和調(diào)和均值F1,各個(gè)評(píng)價(jià)指標(biāo)的定義為
(6)
(7)
(8)
式中TP——正確檢測(cè)到行人的數(shù)量
FP——誤把非行人目標(biāo)檢測(cè)為行人目標(biāo)的數(shù)量
FN——誤把行人檢測(cè)為背景的數(shù)量
F1——對(duì)準(zhǔn)確率和召回率的調(diào)和均值,越接近于1,表明模型表現(xiàn)越好
在測(cè)試集中分別對(duì)改進(jìn)前后的SSD目標(biāo)檢測(cè)模型進(jìn)行測(cè)試,并統(tǒng)計(jì)其檢測(cè)結(jié)果和檢測(cè)速度,結(jié)果見表1。改進(jìn)后的網(wǎng)絡(luò)模型準(zhǔn)確率和召回率分別提高了0.82個(gè)百分點(diǎn)和1.62個(gè)百分點(diǎn)。通過對(duì)卷積網(wǎng)絡(luò)的改進(jìn)使得網(wǎng)絡(luò)模型參數(shù)量相比于原始模型減少至原來的1/7,且其檢測(cè)速度提高了187.5%,使得目標(biāo)檢測(cè)模型更適合在移動(dòng)機(jī)器人中部署,實(shí)時(shí)性更好。
前述結(jié)果分析中默認(rèn)選擇IOU閾值為0.5,當(dāng)檢測(cè)結(jié)果與標(biāo)注結(jié)果的IOU閾值大于等于0.5時(shí),認(rèn)為檢測(cè)結(jié)果正確,否則視為未檢測(cè)出行人目標(biāo)。當(dāng)IOU閾值在0.6及以下時(shí),行人檢測(cè)模型的表現(xiàn)
表1 改進(jìn)前后SSD模型果園行人檢測(cè)結(jié)果比較Tab.1 Comparison of detection results between improved SSD and original SSD
對(duì)IOU閾值的變化并不十分敏感,當(dāng)IOU閾值在0.6以上時(shí),行人檢測(cè)模型會(huì)受到很大影響,其漏檢率將快速上升[31]。不同于城市環(huán)境下對(duì)檢測(cè)到的行人采取的避障策略有很多種選擇,在果園田間環(huán)境下,由于受到地形的限制,農(nóng)機(jī)所采取的避障策略可能只有減速或者停止,而不能采取規(guī)劃路徑從而避開行人的決策,故而其對(duì)田間行人檢測(cè)的位置精度要求不高。通過比較IOU閾值在0.3~0.7之間時(shí)準(zhǔn)確率和召回率,選擇出較為合適的IOU閾值。不同IOU閾值下,改進(jìn)前后模型檢測(cè)結(jié)果如表2所示。根據(jù)結(jié)果得出改進(jìn)前后的SSD目標(biāo)檢測(cè)模型在果園環(huán)境下行人檢測(cè)的IOU閾值均在0.4最合適,改進(jìn)后模型的準(zhǔn)確率和召回率比閾值在0.5時(shí)分別提高了0.33個(gè)百分點(diǎn)和1.93個(gè)百分點(diǎn),改進(jìn)前模型的準(zhǔn)確率和召回率比閾值0.5時(shí)分別提高了0.56個(gè)百分點(diǎn)和0.41個(gè)百分點(diǎn),故而在IOU閾值為0.4下進(jìn)行改進(jìn)前后模型檢測(cè)性能的對(duì)比試驗(yàn)。
表2 不同IOU閾值下改進(jìn)前后模型的檢測(cè)結(jié)果Tab.2 Detection statistic results on various IOU thresholds %
NREC開放田間行人識(shí)別數(shù)據(jù)集中記錄了拍攝圖像時(shí)田間的行人是處于靜止?fàn)顟B(tài)還是連續(xù)運(yùn)動(dòng)狀態(tài),故而可以根據(jù)標(biāo)注把行人按照運(yùn)動(dòng)狀態(tài)分為靜止、運(yùn)動(dòng)狀態(tài),測(cè)試模型在這兩種情形下識(shí)別性能的變化。當(dāng)行人處于靜止?fàn)顟B(tài)時(shí),改進(jìn)后的SSD檢測(cè)結(jié)果的F1為93.88%,運(yùn)動(dòng)狀態(tài)時(shí)為90.09%,在運(yùn)動(dòng)狀態(tài)下的行人檢測(cè)性能比靜止?fàn)顟B(tài)降低了3.79個(gè)百分點(diǎn)。根據(jù)試驗(yàn)結(jié)果可知MobileNetV2網(wǎng)絡(luò)架構(gòu)相比于原始SSD模型中的VGG網(wǎng)絡(luò)在運(yùn)動(dòng)目標(biāo)的特征提取上稍弱,故而改進(jìn)后的模型在運(yùn)動(dòng)目標(biāo)的檢測(cè)中性能稍弱,但MobileNetV2網(wǎng)絡(luò)的計(jì)算量要遠(yuǎn)低于VGG網(wǎng)絡(luò),因此,可大大提高模型的運(yùn)算速度。檢測(cè)結(jié)果見圖4a。
圖4 改進(jìn)SSD模型對(duì)不同情形下的行人識(shí)別結(jié)果Fig.4 Detection results of improved SSD model on pedestrian in various conditions
數(shù)據(jù)集中包含果園行人處于多種姿態(tài)下的圖像,把其分為兩類:一類是正常姿態(tài),即行人處于正常站立狀態(tài);另一類為非正常姿態(tài),包括行人處于躺、坐、蹲和跌落的狀態(tài)。在正常姿態(tài)下改進(jìn)后SSD模型識(shí)別結(jié)果的F1為92.66%,非正常姿態(tài)下F1為89.88%。行人不同姿態(tài)對(duì)模型檢測(cè)結(jié)果有較大影響,檢測(cè)結(jié)果見圖4b。
按照田間行人目標(biāo)占區(qū)域像素面積的比例分為大目標(biāo)、中目標(biāo)、小目標(biāo),其中像素面積在3 501像素以上的為大目標(biāo),面積在1 301~3 500像素之間的為中目標(biāo),面積在1 300像素以下的為小目標(biāo)。改進(jìn)后SSD模型在目標(biāo)為大、中、小情況下的F1分別為95.07%、92.64%、84.09%。由于行人所占區(qū)域像素面積一定程度上反映了行人與攝像機(jī)的距離,故而可以分析出當(dāng)行人處于近、中距離時(shí)檢測(cè)性能較高,而在小目標(biāo)情況下即行人距離較遠(yuǎn)時(shí)檢測(cè)性能較改進(jìn)前稍弱,這是由于層級(jí)特征融合并不能完全消除空洞卷積帶來的影響,從而影響了小目標(biāo)的檢測(cè)性能。由此可見,空洞卷積的引入提高了模型檢測(cè)近、中距離目標(biāo)的性能,檢測(cè)遠(yuǎn)處目標(biāo)的性能稍微下降,符合障礙物檢測(cè)任務(wù)中不同障礙物檢測(cè)的優(yōu)先順序,即近、中距離處的障礙物是優(yōu)先需要處理的目標(biāo)。檢測(cè)結(jié)果見圖4c。
表3為不同情形下改進(jìn)前SSD模型與改進(jìn)后SSD模型的準(zhǔn)確率、召回率和F1的統(tǒng)計(jì)結(jié)果,其中IOU閾值取為0.4。改進(jìn)后的SSD模型在除行人處于運(yùn)動(dòng)狀態(tài)下檢測(cè)準(zhǔn)確率和召回率有下降外,其余情形均有所提高。
表3 不同行人狀態(tài)下的檢測(cè)結(jié)果Tab.3 Detection statistic result on pedestrian in various status %
(1)基于卡耐基梅隆大學(xué)國(guó)家機(jī)器人工程中心開放的用于農(nóng)業(yè)環(huán)境下行人檢測(cè)的數(shù)據(jù)集,采用改進(jìn)的SSD目標(biāo)檢測(cè)模型,進(jìn)行田間環(huán)境下的行人障礙物檢測(cè),模型占用空間較小且輕量化,適合于在移動(dòng)設(shè)備上部署,試驗(yàn)結(jié)果表明,模型具有較高的準(zhǔn)確性,準(zhǔn)確率和召回率分別達(dá)到了97.13%和89.72%,每幅圖像的平均檢測(cè)速度為62.50幀/s。在對(duì)IOU閾值進(jìn)行合理調(diào)整后最終平均準(zhǔn)確率和召回率分別達(dá)到了97.46%和91.65%。
(2)通過遷移學(xué)習(xí)技術(shù),把MobileNetV2在Imagenet分類表現(xiàn)較好的參數(shù)移植到SSD的特征提取網(wǎng)絡(luò)模型中,從而簡(jiǎn)化了目標(biāo)檢測(cè)模型的訓(xùn)練過程并縮短了訓(xùn)練時(shí)間。
(3)通過改進(jìn)原始SSD的特征提取網(wǎng)絡(luò),使用更加輕量化的MobileNetV2網(wǎng)絡(luò)模型進(jìn)行特征提取,輔助層使用改進(jìn)后的反向殘差結(jié)構(gòu)進(jìn)行卷積運(yùn)算,從而可以利用多特征信息并且減少運(yùn)算量,當(dāng)IOU閾值為0.4時(shí),較原始SSD網(wǎng)絡(luò)模型的準(zhǔn)確率和召回率分別提高了0.59個(gè)百分點(diǎn)和3.14個(gè)百分點(diǎn),參數(shù)量減少至原來的1/7,檢測(cè)速度提高了187.5%。
(4)根據(jù)果園環(huán)境下和城市環(huán)境下對(duì)避開行人所采取的決策不同,提出在果園環(huán)境下合適的IOU閾值為0.4左右,在此閾值下,模型的準(zhǔn)確率和召回率比閾值在0.5時(shí)分別提高了0.33個(gè)百分點(diǎn)和1.93個(gè)百分點(diǎn)。