徐其森, 謝永華
(東北林業(yè)大學機電工程學院,黑龍江 哈爾濱 150040)
生態(tài)文明建設(shè)關(guān)系人類未來,但由于近年來全球溫度變高,氣候劇烈變化對我國東北地區(qū)生態(tài)環(huán)境影響巨大。其中東北虎作為維持東北野生動物生態(tài)多樣性中重要的一環(huán),對東北虎生活習性以及生存狀態(tài)的研究至關(guān)重要。故本文重點研究基于無人機載的東北虎多目標跟蹤算法,為野生動物調(diào)查奠定基礎(chǔ)。
在東北虎視頻數(shù)據(jù)收集方面,傳統(tǒng)的手持相機數(shù)據(jù)收集辦法[1],時通常會受到東北虎生活習性以及活動范圍的巨大限制,如東北虎活動范圍的不固定,東北虎活動環(huán)境的限制,以及拍攝野生動物過程中人類行為對其他野生動物的驚擾,或者大型攻擊性動物對人身安全的威脅,這些都致使數(shù)據(jù)收集困難等問題。已有的研究是根據(jù)其他野生動物的生活習性,如根據(jù)大興安嶺南段的馬鹿和狍子等野生動物活動規(guī)律,來判斷東北虎的活動范圍[2]。然后在野生動物活動的范圍內(nèi)部署陷阱相機,這樣可以避免對野生動物的驚擾。但部署陷阱相機費時費力,且容易遭受動物對相機的破壞,致使設(shè)備損失嚴重,而且未能完全解決環(huán)境對數(shù)據(jù)收集的限制[3]。近年來隨著無人飛行器技術(shù)的發(fā)展[4-5],地形限制問題上有了新的解決方案,例如在中國野生亞洲象調(diào)查研究及監(jiān)測中的應(yīng)用使用了無人機技術(shù),從空中拍攝,可以解決地形因素對數(shù)據(jù)收集的限制[6]。但收集數(shù)據(jù)時依然存在飛行器噪音對動物驚擾以及攝像機抖動問題,導(dǎo)致收集到的視頻質(zhì)量不佳。
隨著生態(tài)文明建設(shè)的發(fā)展,如何對東北虎進行有效地保護,并依托合理的科學依據(jù),對東北虎多目標跟蹤,已成為一個重要的研究課題。東北虎的多目標跟蹤分為目標檢測和多目標跟蹤兩部分。傳統(tǒng)的目標檢測算法如背景減法、幀間差分法和光流法無法滿足實時性要求[7]。近年來隨著深度學習的興起,卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于各種數(shù)據(jù)圖像的分類、特征提取、目標識別。例如醫(yī)療影像檢測,高空衛(wèi)星遙感圖像檢測,野生動物的鳥類識別,準確率已達到70%以上[8-9]。神經(jīng)網(wǎng)絡(luò)的目標檢測算法得到快速發(fā)展,此類算法可劃分為單階段(One-stage)和兩階段(Two-stage)檢測算法兩類。One-stage算法主要有YOLO系列算法、SSD、RetinaNet等[9-12]。Two-stage 算法主要有 R-CNN、Fast R-CNN[13-14]、Faster R-CNN[15]等,與Two-stage算法相比One-stage算法速度更快、準確度更好。在多目標跟蹤的目標跟蹤階段,基于匈牙利算法與卡爾曼濾波的優(yōu)化算法,如SORT、DeepSORT算法,能夠達到快速跟蹤的目的,其中DeepSORT 算法在基于SORT 的基礎(chǔ)上,加入重識別模塊提取深度表觀特征提高了多目標的跟蹤成功率[16-17]。已有研究使用Yolov3在奶牛個體與行為識別[18]、煙火等檢測[19]中mAP達到了90%以上,常被用于多目標跟蹤的檢測器、檢測視頻中的目標[20]。在使用YOLO系列作為檢測器配合DeepSORT在交通領(lǐng)域利用監(jiān)控視頻對行人、汽車進行多目標檢測與跟蹤,但其跟蹤成功率依賴目標檢測器的準確率和特征區(qū)分的效果,其跟蹤速度等指標與目標檢測速度密切相關(guān)[21-22]。在日常一些小型低算力設(shè)備使用中,由于目標檢測網(wǎng)絡(luò)參數(shù)量大,訓練速度慢,多目標跟蹤時速度慢,不適于在低算力設(shè)備上使用。
綜上所述,為能夠收集數(shù)據(jù)時提高數(shù)據(jù)收集效率。為了能夠在低算力設(shè)備上在保持或提高準確率的情況下,提高多目標跟蹤速度。本文重點研究輕量目標檢測網(wǎng)絡(luò),提升輕量型網(wǎng)絡(luò)在目標檢測的魯棒性,同時提高多個東北虎的目標跟蹤準確率。
定義內(nèi)在收集東北虎的圖像數(shù)據(jù)時,由于野生東北虎數(shù)量稀少,避免對野生動物的驚擾,選擇在東北虎林園收集東北虎的數(shù)據(jù)。為提高收集效率,減少地形對試驗的限制,樹林等障礙物對動物的遮蔽,以及降低人類行為對生態(tài)環(huán)境的影響,采用大疆無人機搭載攝像頭(型號:M3000RTK),收集野生動物視頻數(shù)據(jù)。東北虎圖像如圖1所示。
圖1 東北虎林園拍攝的東北虎
無人機搭載機械防抖云臺和可見光攝像頭,具有轉(zhuǎn)速高,可變速,拍攝的視頻較為穩(wěn)定的優(yōu)點,十分適合需要快速捕捉目標的場合。本研究所有的實驗數(shù)據(jù)在低空45°飛行,噪音130 db,飛行速度7 m/s,為豐富數(shù)據(jù),分近距離5~10 m拍攝和遠距離25~30 m拍攝。
本研究旨在利用深度學習方法對無人機拍攝的東北虎進行多目標跟蹤,技術(shù)路線如圖2所示。
東北虎多目標跟蹤系統(tǒng)共五個步驟。第一步,對東北虎數(shù)據(jù)的收集,篩選,標注。 第二步,對目標檢測模型的訓練。第三步,對重識別網(wǎng)絡(luò)的訓練。第四步,使用制作好的東北虎數(shù)據(jù)集對多目標跟蹤的實現(xiàn)。第五步,通過對東北虎的目標檢測,重識別,多目標跟蹤的三種結(jié)果的探討,多方面評估東北虎多目標跟蹤模型的效果。
圖2 多目標跟蹤技術(shù)路線
1.3.1 Yolov4-Tiny目標檢測模型
Yolov4-Tiny系列是2020年提出Yolov4系列的單階段目標檢測模型的輕量型,主要結(jié)構(gòu)融合了加權(quán)殘差連接,跨階段部分連接,跨小批量標準化,自對抗訓練,Mish激活,數(shù)據(jù)增強,正則化等,外加一個特征金字塔來處理不同的對象大小,但在參數(shù)量以及準確率上,該模型依然存在優(yōu)化的空間[21]。
1.3.2 MobileV3模型
該模型是2019年提出輕量型分類模型。它每一個塊(Block)結(jié)合了逆殘差結(jié)構(gòu),深度可分離卷積層,注意力模型,新型的激活函數(shù),具有參數(shù)少,運算量低的特點[22]。選擇該模型對Yolov4-Tiny進行優(yōu)化可以降低參數(shù)量,并提高目標檢測的準確率。
①逆殘差結(jié)構(gòu)如圖3所示。
②深度可分離卷積層,能夠更高效的提取東北虎的特征。
③利用h_swish代替swish函數(shù)。在結(jié)構(gòu)中使用了h_swish激活函數(shù),代替swish函數(shù),減少運算量,提高性能。公式如:
(1)
④加入了輕量型注意力模型SE,注意力機制的加入有利于東北虎個體之間的識別。
圖3 逆殘差結(jié)構(gòu)
1.3.3 PW卷積層
PW卷積層(Pointwise Convolution)的運算與普通卷積運算比較相似,它的卷積核的尺寸為 1×1×N,N為上一層的特征通道數(shù)。所以這一步的卷積運算會將上一步的特征圖在深度方向上進行加權(quán)組合,生成新的特征圖,有多少卷積核就有多少特征圖輸出。選擇PW卷積層對Yolov4-Tiny模型進行優(yōu)化是其比普通卷積層具有更好的特征提取功能,且增加的參數(shù)量在可控范圍內(nèi),不會大幅度增加浮點運算數(shù)。
1.3.4 改進后的網(wǎng)絡(luò)結(jié)構(gòu)
本文為追求檢測網(wǎng)絡(luò)模型的輕量化,結(jié)合MobileV3具有準確率高和參數(shù)量少的特點,PW卷積層特征提取效果好的特點,分別使用MobileV3Small與PW卷積層的結(jié)合結(jié)構(gòu)代替Yolov4-Tiny骨干網(wǎng)絡(luò),用于東北虎的多目標跟蹤的檢測環(huán)節(jié),如圖4所示。
圖4 Yolov4-Tiny與MobileV3,PW結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)
1.4.1 目標重識別模型
SE-ResNet50模型是在殘差塊中間加入注意力機制,加強了有鑒別力特征的提取以及特征的多樣性。在殘差塊的特征提取優(yōu)勢上,融合池化層和步長卷積以避免因減少層數(shù)帶來的空間參數(shù)的損失,然后將提取的特征圖進行加強。
1.4.2 多目標跟蹤算法流程
DeepSORT多目標跟蹤算法是融合了卡爾曼濾波算法和匈牙利算法,并在此基礎(chǔ)上加入了目標重識別模型,用于對東北虎深度表觀特征的提取。
將改進的Yolov-Tiny目標檢測模型訓練好,用于東北虎視頻中檢測東北虎,將東北虎檢測結(jié)果作為 DeepSORT跟蹤器的實時輸入,將訓練好的SE-Resnet50作為DeepSORT的深度特征提取環(huán)節(jié)。東北虎多目標跟蹤算法流程圖如圖5所示。
1.5.1 目標檢測指標
為評價目標檢測效果,引入廣義交并比(GIoU)來量化預(yù)測框A和真實框B的貼合程度,廣義交并比計算公式為:
(2)
式中:A∩B為預(yù)測框與真實框重疊區(qū)域面積。A∪B為預(yù)測框與真實框覆蓋區(qū)域面積。C為不管A與B是否相交,C是包含A與B的最小框(包含A與B的最小凸閉合框),在圖像預(yù)測時產(chǎn)生4 種情況,真正例(TP),假正例(FP),假反例(FN),真反例(TN)。根據(jù)這四種情況計算準確率和召回率來評價分類效果。準確率與召回率是對立的關(guān)系,為了兼顧兩者,引入準確率-召回率(PR)曲線與坐標軸圍成的面積為平均檢測精度(mAP)。此外,引入模型的參數(shù)量以及浮點運算數(shù)(FLOPS)來評價模型的復(fù)雜程度以及運算量。
圖5 多目標跟蹤流程
1.5.2 多目標跟蹤指標
(1)IDs為指目標的身份(ID)編號總共發(fā)生了多少次變化,值越小越好。
(2)多目標跟蹤準確率(MOTA)計算公式為:
(3)
式中:FP為假正例出現(xiàn)次數(shù)。FN為假反例出現(xiàn)次數(shù)。IDs為身份變化數(shù)量,指目標的ID編號總共發(fā)生了多少次變化。GT為標注的目標個數(shù)。MOTA為多目標跟蹤準確率。
(3)多目標跟蹤精確度(MOTP),用于鑒別檢測器的精度,MOTP的值越大表示檢測器的效果越好,計算公式為:
(4)
式中:ct為當前幀匹配成功的數(shù)目,di,t為檢測框和真實框的交并比,i為當前檢測目標t為幀序號。MOTP為多目標跟蹤精確度。
(4)FPS為模型每秒處理的圖像幀數(shù),值越大處理效果越好。
本文中實驗中的硬件環(huán)境為Intel(R)Core(TM)i7-9700K 3.00GHz的CPU與NVIDIA GeForce GT 730Ti 8GB的GPU,軟件環(huán)境為python3.6、pytorch 1.6.0。
2.2.1 目標檢測結(jié)果與分析
對四種目標檢測網(wǎng)絡(luò)在東北虎數(shù)據(jù)集上進行訓練,目標檢測結(jié)果進行分析,目標檢測結(jié)果見表1。
表1 目標檢測結(jié)果
從表1可以看出四個目標檢測網(wǎng)絡(luò)模型在東北虎等目標檢測中Yolov4-Tiny與MobileV3Small,PW結(jié)合mAP,參數(shù)量只有Yolov4-Tiny的53.98%,浮點運算數(shù)只有Yolov4-Tiny的32.55%。但mAP比Yolov4tiny增加2.63%。
可看出MobileV3以及PW卷積層結(jié)合替換Yolov4-Tiny的骨干網(wǎng)絡(luò)在東北虎等目標檢測中表現(xiàn)是極為優(yōu)異的,比之原結(jié)構(gòu)能更好的識別東北虎等目標的特征,提升魯棒性,大幅度降低模型參數(shù)量,提高訓練速度。
2.2.2 重識別與多目標跟蹤結(jié)果與分析
SE-Resnet50重識別模型的 Rank-1、Rank-5、Rank-10達到了90.8%,96.3%,99.4%。原網(wǎng)絡(luò)重識別模型Rank-1、Rank-5、Rank-10為89.1%,95.8%,99.2%。
并將改進Yolov4-Tiny的目標檢測模型與DeepSORT多目標算法的結(jié)合模型進行了對比,多目標跟蹤各指標見表2、表3。
表2 原重識別模型的多目標跟蹤結(jié)果
從表2中可以看出目標檢測模型的不變時,重識別模型為SE-Resnet50比原重識別模型各項指標更優(yōu)異。
當目標檢測模型為Yolov4-Tiny與MobileV3 Small,PW結(jié)合時,重識別模型為SE-Resnet50比原重識別模型的MOTA提高4.3%,MOTP提高1.2%,身份切換次數(shù)為原來的53.84%,幀率高了0.73 s/f。
表3 SE-Resnet 50為重識別模型的多目標跟蹤結(jié)果
當目標檢測模型為Yolov4-Tiny時,重識別模型為SE-Resnet50比原重識別模型的MOTA提高6%,MOTP提高3.4%,身份切換次數(shù)為原來的69.56%,幀率高了1.22 s/f。
當重識別模型不變時,目標檢測為Yolov4-Tiny與MobileV3,PW的結(jié)合比Yolov4-Tiny的目標跟蹤結(jié)果更優(yōu)異。
當多目標跟蹤算法的重識別模型為原模型時,Yolov4-Tiny與MobileV3Small,PW結(jié)合的模型比Yolov4-Tiny模型的MOTA提高9.3%,MOTP提高5.5%,身份切換次數(shù)降了43.34%,幀率高了2.28 s/f。
當多目標跟蹤算法的重識別模型為原模型時,Yolov4-Tiny與MobileV3Small,PW結(jié)合的模型比Yolov4-Tiny模型的MOTA提高7.6%,MOTP提高3.3%,身份切換次數(shù)降了56.25%,幀率高了4.23 s/f。
多目標跟蹤結(jié)果中各效果圖,(Yolov4-Tiny與MobileV3Small,PW結(jié)合縮寫為YM3SP)如圖6。
圖6 多目標跟蹤效果圖
由圖7可見,目標檢測網(wǎng)絡(luò)為Yolov4-Tiny的結(jié)合配合未改進DeepSORT算法目標跟蹤效果最差,為Yolov4-Tiny和MobileV3Small,PW結(jié)合配合未改進的DeepSORT與Yolov4-Tiny配合改進的DeepSORT時效果圖相近,為Yolov4-Tiny和MobileV3Small,PW結(jié)合,配合改進的DeepSORT的結(jié)合模型效果最好,且能夠跟蹤到小目標的東北虎。
從表2、表3以及圖7可看出MobileV3與PW結(jié)合替換Yolov4-Tiny的骨干網(wǎng)絡(luò)配合結(jié)合SE-Resnet50的DeepSORT的跟蹤器在東北虎多目標中能夠更好的提取不同東北虎的特征,能夠跟蹤到較小目標,可以提高多目標跟蹤準確率的指標,減少目標ID切換次數(shù),提升跟蹤速度。
本文基于數(shù)據(jù)收集困難的問題,提出了在數(shù)據(jù)收集階段使用大疆無人機搭載攝像機拍攝東北虎,有效避免了地形等因素對數(shù)據(jù)收集的影響?;谀繕藱z測算法模型復(fù)雜,參數(shù)量大不適于低算力設(shè)備部署的問題,選擇Yolov4-Tiny作為基準算法,通過MobileV3系列以及與PW卷積層結(jié)合模型替換Yolov4-Tiny模型的骨干網(wǎng)絡(luò)作為檢測器,簡化了模型復(fù)雜度,減少了參數(shù),通過SE-Resnet50目標重識別算法提取東北虎具有鑒別性的特征,增強了較小目標跟蹤效果,有效提高了檢測準確率以及跟蹤準確率的情況下降低了參數(shù)量,實現(xiàn)東北虎的多目標跟蹤同時減少了標號變化現(xiàn)象,提高了多目標跟蹤速度。