趙龍
摘要:嵌入式平臺的計算性能和存儲空間都與高性能服務(wù)器無法媲美。本文提出了一個結(jié)合改進的YOLOv3與決策樹的新方法來實現(xiàn)人類非法狩獵行為識別。由于只需要2幀圖像就可以判定出是否發(fā)生人類非法行為。我們提出了用圖像中對象類別相關(guān)度、對象中心點距離變化和中心點連線的幾何角度變化構(gòu)造決策樹來實現(xiàn)行為識別模型。我們這種方法尤其在計算力有限的無人機等嵌入式設(shè)備上具備識別速度和精度上的綜合優(yōu)勢。我們的方法在DOIHB數(shù)據(jù)集上測試達到了目前最高水平的非法狩獵行為識別的準(zhǔn)確率,平均用時僅為目前其他方法的1/10到1/3。
關(guān)鍵詞:無人機;YOLOv3;決策樹;行為識別
0引文
由于人們對自然資源的肆意攫取,使得很多動物頻臨滅絕。如何高效地保護野生動物是一個十分值得研究的課題。無人機平臺顯著提高了林業(yè)執(zhí)法的效率。深度學(xué)習(xí)技術(shù)的不斷發(fā)展使得我們在嵌入式平臺上進行目標(biāo)識別與行為分析成為了可能。隨著深度學(xué)習(xí)的日益普及,基于深度學(xué)習(xí)的行為分析方法不斷涌現(xiàn)。實驗結(jié)果顯示,目前基于深度網(wǎng)絡(luò)自主學(xué)習(xí)的特征表達的性能已經(jīng)超越了基于人為設(shè)計的特征方法。目前面向行為識別的深度學(xué)習(xí)方法大體可分為兩類:基于二維(2D)卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征和基于三維(3D)CNN特征的方法[1]。雖然3D卷積神經(jīng)網(wǎng)絡(luò)在人類行為識別方面具有得天獨厚的優(yōu)勢,但是無人機等嵌入式平臺的內(nèi)存及計算力等方面畢竟與服務(wù)器的性能無法相比。在無人機上部署3D卷積神經(jīng)網(wǎng)絡(luò)進行人類行為識別的實時性無法保障。這使得我們有必要提出符合無人機等嵌入式平臺性能現(xiàn)狀的人類行為識別模型[2]。我們所提出的識別方法主要解決了3D卷積神經(jīng)網(wǎng)絡(luò)因參數(shù)數(shù)量過多而不適合在無人機等嵌入式設(shè)備上訓(xùn)練的缺點。
一些研究是通過可穿戴設(shè)備進行人類行為的識別[3]。這種識別技術(shù)具有識別準(zhǔn)確率高和抗干擾能力強的特點。缺點是設(shè)備昂貴、侵入性的,并且應(yīng)用場景有限,尤其是在人類非法行為識別方面是很難應(yīng)用的。因為我們不可能要求不法份子穿上設(shè)備等待我們?nèi)プR別。一些研究是通過在特定場景下部署各類傳感器去識別人類行為[4]。一般來說,基于傳感器的HAR分為四個基本步驟:數(shù)據(jù)收集、數(shù)據(jù)分割、特征提取和分類。傳感器的種類豐富程度及精度直接影響著行為識別范圍和準(zhǔn)確率。但是在森林等空曠的野外部署可以長時間工作無線傳感器網(wǎng)絡(luò)是一項十分困難的事情,各節(jié)點所需要的能量往往很難解決。利用無人機的超強機動性和機載攝像頭高清視頻提取能力,可以更好的實現(xiàn)人類非法狩獵行為數(shù)據(jù)收集。利用卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)實現(xiàn)行為特征提取與識別,利用決策樹對人類行為進行分類并識別出非法狩獵行為是一個十分簡單有效的方法。
1方法
我們提出的方法是基于高度相關(guān)目標(biāo)中心點距離變化和中心點連線與水平方向角度變化為人類非法狩獵行為判定的核心標(biāo)準(zhǔn)。本方法只需要2幀圖像就可以判定出人類非法行為的等級,在我們建立的大規(guī)模數(shù)據(jù)集DOIHB中測試發(fā)現(xiàn)就有最好的識別精度與速度綜合指標(biāo)。
如圖1所示,我們提出的基于2D卷積神經(jīng)網(wǎng)絡(luò)的人類非法狩獵行為識別框架由2D卷積神經(jīng)網(wǎng)絡(luò)和決策樹模塊構(gòu)成,最后輸出行為識別結(jié)果輸出。在特征學(xué)習(xí)階段,利用二維卷積神經(jīng)網(wǎng)絡(luò)從第一幀圖像中提取空間特征,同時將識別結(jié)果傳輸給決策樹模塊。如果識別出與人類非法狩獵行為高度相關(guān)的目標(biāo)對(如人和獵槍),且該目標(biāo)對空間特征滿足申請讀入第二幀圖像的閾值則讀入第二幀圖像。再次調(diào)用決策樹模塊進行行為識別并將識別結(jié)果輸出。識別結(jié)果如圖2所示。
2結(jié)論
我們的方法充分考慮到了嵌入式平臺的計算性能和存儲空間有限的特點,充分利用目標(biāo)檢測任務(wù)的結(jié)果作為行為識別任務(wù)的輸入,極大提高了行為識別的速度。我們的方法為嵌入式平臺的行為識別研究開辟了新的研究途徑。
參考文獻
[1] Y. Zhou, X. Sun, Z.-J. Zha, and W. Zeng, "MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 449-458.
[2] M. Bilkhu and H. Ayyubi, "Human Activity Recognition for Edge Devices," arXiv preprint arXiv:1903.07563, 2019.
[3] P. Bharti, D. De, S. Chellappan, and S. K. Das, "HuMAn: Complex Activity Recognition with Multi-modal Multi-positional Body Sensing," IEEE Transactions on Mobile Computing, vol. 18, pp. 857-870, 2019.
[4] Y. Chen and Y. Xue, "A deep learning approach to human activity recognition based on single accelerometer," in 2015 IEEE International Conference on Systems, Man, and Cybernetics, 2015, pp. 1488-1492.
項目基金:黑龍江東方學(xué)院重點科學(xué)研究項目(HDFKY190101)黑龍江東方學(xué)院科學(xué)研究項目(HDFKY200109)