国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于光流注意力網(wǎng)絡(luò)的梅花鹿攻擊行為自動(dòng)識(shí)別方法

2022-11-03 10:42侯鵬飛熊家軍許學(xué)林
關(guān)鍵詞:光流雙流攻擊行為

高 云 侯鵬飛 熊家軍 許學(xué)林 陳 斌 李 康

(1.華中農(nóng)業(yè)大學(xué)工學(xué)院, 武漢 430070; 2.生豬健康養(yǎng)殖協(xié)同創(chuàng)新中心, 武漢 430070;3.華中農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院, 武漢 430070)

0 引言

人工集約化養(yǎng)殖梅花鹿作為我國(guó)一種半馴化的特種經(jīng)濟(jì)動(dòng)物,其鹿茸有著極高的藥用價(jià)值[1]。雄性梅花鹿在發(fā)情期間,攻擊行為發(fā)生次數(shù)劇增,極易造成鹿茸損傷,打斗激烈時(shí),還會(huì)造成鹿只傷殘,甚至死亡,給鹿業(yè)養(yǎng)殖戶造成巨大的經(jīng)濟(jì)損失[2]。目前實(shí)際生產(chǎn)中,主要依靠人工觀察鹿只的攻擊行為并進(jìn)行人為干涉。人工觀察攻擊行為費(fèi)時(shí)費(fèi)力,難以實(shí)現(xiàn)長(zhǎng)時(shí)間監(jiān)控,且容易漏判,不適合大規(guī)模采用。

近年來(lái),機(jī)器視覺(jué)技術(shù)在動(dòng)物動(dòng)作監(jiān)測(cè)和識(shí)別領(lǐng)域得到長(zhǎng)足的發(fā)展。在傳統(tǒng)攻擊行為識(shí)別算法研究中,支持向量機(jī)(SVM)和聚類算法等模式識(shí)別方法被用于區(qū)分畜禽攻擊行為。改進(jìn)SVM算法區(qū)分生豬攻擊行為正確率[3]達(dá)到95.70%[4]、97.50%[4]、97.60%[5]。SVM算法也被用于區(qū)分鹿的采食行為,正確率為90.00%[6]。基于分層聚類改進(jìn)生豬攻擊行為識(shí)別算法正確率達(dá)85.43%[7],高度攻擊行為識(shí)別正確率達(dá)95.80%[8]、97.04%[9],中度正確率能夠達(dá)92.30%[8]、95.82%[9]。聚類算法中的K-means算法可實(shí)現(xiàn)種雞打斗、采食、飲水、交配、振翅等行為的識(shí)別,正確率達(dá)84.03%[10]。此外,也有學(xué)者選用線性分類器,即采用線性混合模型實(shí)現(xiàn)生豬攻擊行為識(shí)別,正確率為73.90%和89.00%[11]。隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的高速發(fā)展,其在動(dòng)物行為識(shí)別研究中的應(yīng)用也成為近年來(lái)的熱點(diǎn)[12-16]。

注意力機(jī)制于20世紀(jì)90年代初次被引入傳統(tǒng)機(jī)器視覺(jué)。2014年后,注意力機(jī)制與深度學(xué)習(xí)相結(jié)合在工業(yè)和農(nóng)業(yè)上都得到了較好應(yīng)用[17]。注意力機(jī)制中自注意力和軟注意力應(yīng)用廣泛。自注意力也稱為內(nèi)部注意力,目的是計(jì)算序列的表達(dá)形式。軟注意力更關(guān)注區(qū)域或通道,包含空間域、通道域和混合域(融合空間和通道)等類別。在相關(guān)研究中[18-23],注意力機(jī)制被加入到深度網(wǎng)絡(luò),分別應(yīng)用于圖像中的目標(biāo)識(shí)別、圖像分割和視頻中的表情識(shí)別,與未加入注意力機(jī)制的網(wǎng)絡(luò)對(duì)比,注意力機(jī)制能夠提取重點(diǎn)特征,明顯提升網(wǎng)絡(luò)識(shí)別的正確率。如果將注意力機(jī)制加入到動(dòng)作和行為識(shí)別網(wǎng)絡(luò),將會(huì)有效提升重點(diǎn)特征的提取,使識(shí)別效果更好。

梅花鹿的攻擊行為特征相比其它動(dòng)物有其特殊性,如常采用鹿角或鹿蹄等部位進(jìn)行攻擊。在行為識(shí)別算法的研究中需要專門針對(duì)其特點(diǎn)研究可行的識(shí)別網(wǎng)絡(luò)。本文結(jié)合光流法和注意力機(jī)制,在長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(Long-term recurrent convolutional networks, LRCN)[24]的基礎(chǔ)上進(jìn)行改進(jìn),研究梅花鹿行為的分類算法,行為包括攻擊、采食、躺臥和站立等,其中攻擊行為包括角斗、腳踢等特有攻擊性行為動(dòng)作。本文基于該算法設(shè)計(jì)鹿只行為自動(dòng)識(shí)別系統(tǒng),以實(shí)現(xiàn)各項(xiàng)行為在線自動(dòng)監(jiān)測(cè)和記錄。

1 數(shù)據(jù)采集與數(shù)據(jù)集構(gòu)建

1.1 數(shù)據(jù)采集

試驗(yàn)數(shù)據(jù)采集于2020年11月20日至2021年3月10日,采集地點(diǎn)為湖北省某鹿業(yè)有限公司。試驗(yàn)圈舍尺寸為30 m×12 m(長(zhǎng)×寬),其中休息區(qū)96 m2、活動(dòng)區(qū)264 m2,外墻高2.2 m。圈舍中設(shè)料槽,圈內(nèi)飼養(yǎng) 5~6歲齡、體況相近的42頭雄性梅花鹿。試驗(yàn)對(duì)接種了KISS1-GnRH雙表達(dá)DNA去勢(shì)疫苗的雄性梅花鹿的攻擊行為進(jìn)行了測(cè)試,42頭雄性梅花鹿隨機(jī)均分為2組,一組進(jìn)行疫苗肌肉注射(試驗(yàn)組),另一組不做處理(對(duì)照組),關(guān)于該疫苗試驗(yàn)內(nèi)容另撰文描述[25]。

視頻采集選用??低暰W(wǎng)絡(luò)紅外攝像頭(3T56WD-I3型),鏡頭采用8 mm焦距,F(xiàn)1.6定焦光圈鏡頭。攝像頭通過(guò)網(wǎng)線連接到服務(wù)器,安裝MySQL數(shù)據(jù)庫(kù)服務(wù)器(MySQL 8.0.24,MySQL AB公司,瑞典),同時(shí)連接移動(dòng)硬盤(WDBU6Y0050BBK-WESN 4TB,西部數(shù)據(jù),美國(guó)),服務(wù)器可通過(guò)瀏覽器對(duì)攝像頭和數(shù)據(jù)進(jìn)行訪問(wèn)。采集圖像尺寸為2 560像素×1 920像素,幀率為4 f/s,以avi格式存儲(chǔ)于移動(dòng)硬盤。

由于梅花鹿圈舍分為休息區(qū)和活動(dòng)區(qū)兩部分,為了獲取梅花鹿白天主要的活動(dòng),試驗(yàn)期間攝像頭選擇安裝在鹿只主要活動(dòng)區(qū)域,即活動(dòng)區(qū)一角,可以俯視拍攝到院內(nèi)鹿只所有活動(dòng)。攝像頭安裝位置距圈舍圍墻水平距離6 m,距地面高度約8 m,以俯視15°拍攝,水平視場(chǎng)角為37.5°,垂直視場(chǎng)角為27.8°,對(duì)角線視場(chǎng)角為47.5°。為了方便進(jìn)行每日對(duì)比,試驗(yàn)拍攝時(shí)間為07:00—18:00,以采集鹿只白天院內(nèi)所有活動(dòng)。

1.2 雄鹿攻擊行為定義

雄鹿在發(fā)情期間,攻擊行為發(fā)生次數(shù)劇增。鹿只在進(jìn)食時(shí),會(huì)頻繁用角頂撞其他鹿只的身體;在站立時(shí),會(huì)發(fā)生角斗,即鹿只用鹿角撞擊另一只鹿的角。攻擊期間,鹿只間會(huì)前腳互踢,或一只鹿用前腳踢另一只鹿的身體。攻擊末期,還會(huì)發(fā)生追逐行為。根據(jù)攻擊發(fā)生的部位和發(fā)生的階段將鹿只的攻擊性行為細(xì)分為撞擊、腳踢、追逐。同時(shí),本文為區(qū)分鹿只的攻擊行為和非攻擊行為,將非攻擊行為細(xì)分為采食、躺臥、站立,各行為的細(xì)分說(shuō)明如表1所示。

表1 鹿行為定義Tab.1 Definition of deer’s behavior

1.3 數(shù)據(jù)集制作

梅花鹿RGB行為數(shù)據(jù)集采用行為優(yōu)先級(jí)(Attacking precedence,AP)的方法制作,優(yōu)先標(biāo)注攻擊行為,其次標(biāo)注采食、站立和躺臥等行為。由于梅花鹿是群居動(dòng)物,一般表現(xiàn)出群體性行為,而攻擊行為發(fā)生在不少于兩只鹿只之間的小群體性特異行為,持續(xù)時(shí)間較短,并且通常發(fā)生于采食、站立和躺臥行為中,采用AP法標(biāo)注有助于訓(xùn)練模型提高對(duì)攻擊行為的識(shí)別正確度。本研究中采用該方法分別對(duì)試驗(yàn)組和對(duì)照組截取圖像的行為進(jìn)行標(biāo)注,網(wǎng)絡(luò)模型優(yōu)先對(duì)視頻段中的攻擊行為進(jìn)行學(xué)習(xí)。標(biāo)注鹿群其他日常行為時(shí),多數(shù)鹿只同時(shí)發(fā)生的行為標(biāo)注為該群體性行為。由于視頻鄰幀間,鹿只運(yùn)動(dòng)幅度較小,所以以1 f/s截取視頻幀。標(biāo)注結(jié)果如圖1所示。上一行為視頻中直接截取的圖像幀,下一行為圖像幀放大后的行為圖像。本次試驗(yàn)共標(biāo)注視頻10 942段,共310 574幀,標(biāo)注時(shí)長(zhǎng)5 175.95 min。

圖1 鹿的行為幀F(xiàn)ig.1 Frames of deer’s behavior

針對(duì)鹿只運(yùn)動(dòng)時(shí)身體的變化,采用LK光流算法(Lucas kanade optical flow algorithm)進(jìn)行識(shí)別,這是一種計(jì)算相鄰圖像幀鹿只運(yùn)動(dòng)所產(chǎn)生像素點(diǎn)變化的計(jì)算方法。用此方法制作光流數(shù)據(jù)集,并按照3∶1∶1隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,如表2所示。

表2 光流數(shù)據(jù)集劃分Tab.2 Division of optical flow dataset

2 行為攻擊識(shí)別算法

2.1 算法設(shè)計(jì)

梅花鹿攻擊行為相比其它動(dòng)物有其特殊性,如常采用鹿角或鹿蹄等部位進(jìn)行攻擊。為了區(qū)分鹿只攻擊行為與非攻擊行為,解決鹿只之間的遮擋問(wèn)題,提升視頻識(shí)別效率和正確率,在算法中加入光流算法和注意力機(jī)制。設(shè)計(jì)光流注意力網(wǎng)絡(luò)(Optical flow attention attacking recognition network, OAAR),改進(jìn)攻擊行為監(jiān)測(cè)網(wǎng)絡(luò)來(lái)對(duì)攻擊行為和其它行為進(jìn)行識(shí)別,該網(wǎng)絡(luò)包括前置網(wǎng)絡(luò)、基礎(chǔ)網(wǎng)絡(luò)和時(shí)序網(wǎng)絡(luò)。前置網(wǎng)絡(luò)由LK光流算法組成,提取RGB數(shù)據(jù)光流信息;基礎(chǔ)網(wǎng)絡(luò)采用自注意力模塊將ResNet-152網(wǎng)絡(luò)改造為ARNet152(Attention ResNet-152),用于將RGB、光流數(shù)據(jù)集提取特征后輸入時(shí)序網(wǎng)絡(luò);時(shí)序網(wǎng)絡(luò)采用添加注意力模塊的長(zhǎng)短記憶序列(Attention long short term network,ALST),并通過(guò)分類器輸出行為得分和分類結(jié)果。

2.1.1前置網(wǎng)絡(luò)

觀察鹿只日常情況可知,相比于背景鹿只的運(yùn)動(dòng),發(fā)生攻擊行為的鹿只前后幀圖像變化較激烈。為了從背景中提取鹿只,并區(qū)分攻擊行為與非攻擊行為,在前置網(wǎng)絡(luò)中設(shè)計(jì)LK光流算法,計(jì)算鹿只相鄰圖像幀(圖2中相鄰的3幀圖像)之間光流數(shù)據(jù)V。提取光流信息前,先排除圖像不清晰、場(chǎng)景光線暗,或有拖尾的行為幀,共排除435個(gè)。將剩余文件接入前置網(wǎng)絡(luò)接口后,根據(jù)鹿只行為發(fā)生時(shí)身體上重點(diǎn)發(fā)生變化的位置,計(jì)算兩幀之間光流V關(guān)于X、Y兩個(gè)方向的信息。

IxVx+IyVy+It=0

(1)

式中Ix、Iy、It——圖像中像素點(diǎn)灰度關(guān)于X、Y、T方向偏導(dǎo)數(shù)

Vx、Vy——X、Y方向光流向量

圖2 光流提取過(guò)程示意圖Fig.2 Extracted optical flow

結(jié)合相鄰m×m范圍內(nèi)的像素點(diǎn),采用最小二乘法計(jì)算出最終光流信息,并保存光流幀,如圖2中Flow_X幀和Flow_Y幀。將X、Y方向光流信息結(jié)合生成輸出矢量V并在前一幀圖像上顯示,即圖2中LK Flow幀。將LK Flow幀放大后,黃色點(diǎn)(圖2右圖中小圓點(diǎn))表示像素起始位置,引出線表示像素點(diǎn)的光流方向??梢灾庇^看到,RGB幀經(jīng)前置網(wǎng)絡(luò)處理后,輸出的光流幀能夠捕獲到運(yùn)動(dòng)的鹿只。由此可知,LK光流法能夠關(guān)注行為的位置變化,忽略計(jì)算背景光流信息,有效節(jié)約制作光流數(shù)據(jù)集的時(shí)間成本。

2.1.2基礎(chǔ)網(wǎng)絡(luò)和時(shí)序網(wǎng)絡(luò)

為了快速提取攻擊行為特征信息,如攻擊行為發(fā)生時(shí)鹿角、鹿蹄等位置變化,減少背景等非行為特征計(jì)算,節(jié)省網(wǎng)絡(luò)計(jì)算成本,從而提升視頻識(shí)別的效率和正確率,在基礎(chǔ)網(wǎng)絡(luò)和時(shí)序網(wǎng)絡(luò)中引入了注意力機(jī)制。基礎(chǔ)網(wǎng)絡(luò)和時(shí)序網(wǎng)絡(luò)在長(zhǎng)期遞歸卷積網(wǎng)絡(luò)(Long-term recurrent convolutional networks, LRCN)[24]的基礎(chǔ)上針對(duì)鹿的攻擊行為進(jìn)行改進(jìn)和搭建(圖3a中基礎(chǔ)網(wǎng)絡(luò)和ALST)。長(zhǎng)期遞歸卷積網(wǎng)絡(luò)是一種將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)序網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò),能夠提取序列視頻或圖像特征,并預(yù)測(cè)目標(biāo)動(dòng)作信息。基礎(chǔ)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算RGB、光流數(shù)據(jù)集中的行為特征值;時(shí)序網(wǎng)絡(luò)基于長(zhǎng)短記憶序列建模時(shí)序信息,并輸出得分;最終通過(guò)分類器按特征權(quán)重的差異分類,輸出攻擊、采食、躺臥和站立4種行為得分。

由于網(wǎng)絡(luò)訓(xùn)練長(zhǎng)視頻時(shí),隨著時(shí)間維變化會(huì)遺忘最初的行為信息,所以本文通過(guò)ALST提取行為時(shí)序信息。輸入數(shù)據(jù)集視頻幀尺寸為320像素×240像素,每段視頻選取首尾2幀以及中間隨機(jī)的3幀進(jìn)行訓(xùn)練。對(duì)數(shù)據(jù)集中每一段RGB幀、光流幀進(jìn)行transformer處理后,尺寸裁剪為3×224×224和2×224×224(深度×幀長(zhǎng)×幀寬),并通過(guò)pytorch框架的dataloader接口分別傳入基礎(chǔ)網(wǎng)絡(luò)中,調(diào)用forward函數(shù)進(jìn)行訓(xùn)練。

圖3 OAAR結(jié)構(gòu)示意圖Fig.3 Structure diagram of OAAR

基礎(chǔ)網(wǎng)絡(luò)由空間網(wǎng)絡(luò)(Spatial ARNet152)和時(shí)間網(wǎng)絡(luò)(Temporal ARNet152)構(gòu)成。RGB幀和光流幀分別經(jīng)過(guò)由ARNet152搭建的空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)提取特征權(quán)重,并將權(quán)重傳入ALST網(wǎng)絡(luò)。ARNet152在ResNet152網(wǎng)絡(luò)基礎(chǔ)上插入自注意力卷積模塊[26](Attention key),即自注意力卷積模塊替換ResNet152中的3×3卷積鍵,自注意力模塊可建模動(dòng)、靜態(tài)上下文信息,提取鹿只攻擊行為特征,提高鹿只行為識(shí)別的精度,如圖3b所示。ARNet152網(wǎng)絡(luò)中,數(shù)據(jù)先經(jīng)過(guò)3個(gè)卷積核為3×3的卷積鍵卷積計(jì)算,第1個(gè)2Dconv步長(zhǎng)為2,其余卷積層步長(zhǎng)為1,填充像素(padding)均為(1,1)。卷積鍵(Convolution key)包含1層2Dconv卷積層、1層GN(Group normalization)層、1層ReLU層,卷積層左邊綠色框?yàn)橥ǖ罃?shù),右邊橙色框?yàn)樘卣鲌D輸入、輸出尺寸。數(shù)據(jù)依次經(jīng)過(guò)包含3、8、36、3個(gè)Bottleneck的殘差塊(Blocks)提取特征權(quán)重。經(jīng)過(guò)4個(gè)循環(huán)提取特征后,通過(guò)自適應(yīng)池化層(AvgPool)輸出3×1×1特征圖,并輸入ALST網(wǎng)絡(luò)中。第1至第4循環(huán)的第1個(gè)Bottleneck的自注意力卷積模塊和下采樣步長(zhǎng)均為2,填充像素均為(1,1),以減少輸入?yún)?shù)量,防止參數(shù)太多數(shù)據(jù)爆炸。Bottleneck由主路徑(main path)和捷徑(shortcut)組成。主路徑包括2個(gè)1×1 conv卷積鍵和1個(gè)自注意力卷積模塊。自注意力卷積模塊輸入的特征值X重新定義為Key Map、Query和Value Map 3個(gè)值。先將Key值進(jìn)行3×3卷積,輸出靜態(tài)上下文建模矩陣K1。融合計(jì)算K1和Query值后,進(jìn)行2次1×1卷積計(jì)算,輸出動(dòng)態(tài)上下文Attention矩陣。經(jīng)Attention矩陣與Value值卷積計(jì)算后,由Softmax輸出自注意力特征值Y。每個(gè)循環(huán)中第1個(gè)Bottleneck的捷徑由1個(gè)1×1 conv卷積鍵構(gòu)成(圖3b虛線框),實(shí)現(xiàn)對(duì)數(shù)據(jù)降維,輸出維度即卷積鍵通道數(shù),其余捷徑(圖3b實(shí)線框)不經(jīng)過(guò)降維,直接將主路徑輸入數(shù)據(jù)與輸出結(jié)果相加,blocks下的數(shù)字表示循環(huán)次數(shù)。

ALST網(wǎng)絡(luò)由2層512個(gè)LSTM單元組成的時(shí)序結(jié)構(gòu)和1層注意力機(jī)制層組成,注意力機(jī)制層計(jì)算公式為

(2)

式中at——源端對(duì)齊位置(aligned position)向量

ht——decoder隱狀態(tài)

hs——源端隱狀態(tài)

align()——對(duì)齊函數(shù)

每個(gè)LSTM單元由輸入門、遺忘門和輸出門構(gòu)成,實(shí)現(xiàn)對(duì)數(shù)據(jù)特征時(shí)序信息的提取計(jì)算,注意力機(jī)制層的作用是為了減少遺忘門遺忘量。時(shí)序信息建模完成后輸入分類器。分類器(Classifier)由1層全連接層和1層softmax層構(gòu)成,將雙流信息融合計(jì)算后,對(duì)不同類別的特征權(quán)重分類,最終輸出4類行為得分。

OAAR網(wǎng)絡(luò)的主要改進(jìn)包括:①加入前置網(wǎng)絡(luò)。前置網(wǎng)絡(luò)由LK光流算法提取前后幀中的動(dòng)作形成光流數(shù)據(jù)幀,增強(qiáng)后續(xù)網(wǎng)絡(luò)輸入的運(yùn)動(dòng)信息,減少背景的影響。②用自注意力模塊替換ResNet152網(wǎng)絡(luò)中殘差結(jié)構(gòu)的3×3卷積鍵,同時(shí)用GN層替換BN層,加上ReLU層和dropout層組成新的殘差結(jié)構(gòu)。自注意力模塊可建模動(dòng)、靜態(tài)上下文信息,提取鹿只攻擊行為特征,提高鹿只行為識(shí)別的精度。③LSTM層中間插入注意力機(jī)制層,減少LSTM單元中遺忘門的遺忘量,改進(jìn)時(shí)序網(wǎng)絡(luò),加強(qiáng)對(duì)時(shí)序信息的提取。除了對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)外,本文在網(wǎng)絡(luò)訓(xùn)練方式中也進(jìn)行了改進(jìn),每段訓(xùn)練樣本視頻選取首尾2幀以及中間隨機(jī)3幀進(jìn)行訓(xùn)練,突出行為視頻中關(guān)鍵動(dòng)作特征的提取,同時(shí)節(jié)省網(wǎng)絡(luò)訓(xùn)練成本。

2.2 網(wǎng)絡(luò)參數(shù)設(shè)置

2.2.1損失函數(shù)設(shè)置

OAAR結(jié)合雙流信息得分通過(guò)標(biāo)準(zhǔn)分類交叉熵?fù)p失(Cross-entropy loss)得到損失函數(shù)。采用交叉熵?fù)p失函數(shù)的優(yōu)勢(shì)在于,輸出值和真實(shí)值的差值僅與最后一層權(quán)重梯度成正比,能夠加快網(wǎng)絡(luò)收斂速度。同時(shí),網(wǎng)絡(luò)反向傳播的連乘計(jì)算,會(huì)加快更新整個(gè)權(quán)重矩陣。另外,多分類交叉熵?fù)p失函數(shù)求導(dǎo)更易求解,其損失率僅與正確類別的概率相關(guān),降低了網(wǎng)絡(luò)的計(jì)算量。損失函數(shù)公式為

(3)

式中yi——類別i的真實(shí)值

C——總類別數(shù)L——損失函數(shù)

2.2.2網(wǎng)絡(luò)參數(shù)初始化

網(wǎng)絡(luò)訓(xùn)練平臺(tái)使用64位ubantu18.04系統(tǒng),搭建GPU版pytorch框架,采用單GPU(GeForce GTX 1080 12GB,NVIDIA,美國(guó))進(jìn)行訓(xùn)練。網(wǎng)絡(luò)采用隨機(jī)梯度下降法 (SGD) 作為優(yōu)化器,動(dòng)量設(shè)為0.9,能夠有效抑制振蕩,加快收斂速度。批量大小(Batch size)設(shè)為8,批量大小過(guò)小會(huì)導(dǎo)致訓(xùn)練速度太慢,過(guò)大會(huì)導(dǎo)致顯卡占用內(nèi)存溢出。迭代周期(Epoch)設(shè)為100,初始學(xué)習(xí)率設(shè)為1×10-3,Dropout設(shè)為0.8,增加迭代次數(shù),降低學(xué)習(xí)率,能夠使網(wǎng)絡(luò)輸出模型識(shí)別效果更精確,提升訓(xùn)練速度。但網(wǎng)絡(luò)訓(xùn)練到一定程度時(shí),模型趨于飽和且學(xué)習(xí)停滯,所以在第30和第60個(gè)迭代周期,學(xué)習(xí)率為原來(lái)的1/10。

3 結(jié)果與分析

3.1 模型訓(xùn)練過(guò)程分析

為解決網(wǎng)絡(luò)深度增大時(shí)魯棒性差的問(wèn)題,在正式訓(xùn)練前,先預(yù)訓(xùn)練OAAR網(wǎng)絡(luò)。將空間網(wǎng)絡(luò)加載ImageNet預(yù)訓(xùn)練權(quán)重初始化網(wǎng)絡(luò),輸出空間網(wǎng)絡(luò)權(quán)重后,時(shí)間網(wǎng)絡(luò)加載該權(quán)重完成初始化訓(xùn)練。采用pytorch自帶tensorboardX記錄模型訓(xùn)練過(guò)程,模型正確率和損失值如圖4所示。由于設(shè)置訓(xùn)練迭代次數(shù)到達(dá)第30和第60個(gè)迭代周期時(shí),學(xué)習(xí)率下降至原來(lái)的1/10,所以在第30個(gè)迭代周期時(shí),正確率出現(xiàn)大幅增加,損失值大幅減??;在到達(dá)第60個(gè)迭代周期前訓(xùn)練集正確率和損失值逐漸趨于穩(wěn)態(tài);第60個(gè)迭代周期后,訓(xùn)練集正確率繼續(xù)小幅提高,損失值小幅下降。驗(yàn)證集驗(yàn)證過(guò)程中的正確率、損失值和訓(xùn)練集對(duì)應(yīng)的值貼合較好,較為近似。在模型中適當(dāng)調(diào)低學(xué)習(xí)率有助于網(wǎng)絡(luò)加快學(xué)習(xí)速度和對(duì)特征點(diǎn)細(xì)節(jié)的繼續(xù)學(xué)習(xí)。最終得出OAAR網(wǎng)絡(luò)模型在訓(xùn)練集上正確率為99.16%,損失值為0.026 4,在驗(yàn)證集上正確率為97.91%,損失值為0.061 2。

圖4 OAAR網(wǎng)絡(luò)識(shí)別正確率和損失值Fig.4 Recognition accuracy and loss value of OAAR

3.2 行為識(shí)別評(píng)價(jià)指標(biāo)與結(jié)果

采用正確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1值(F1 score)[15]作為評(píng)價(jià)模型性能的指標(biāo)。

正確率常被用于評(píng)價(jià)鹿只所有行為識(shí)別正確的比重,但當(dāng)樣本不平衡時(shí),僅依靠正確率不能正確評(píng)價(jià)模型。因此采用召回率、精確率和F1值對(duì)模型進(jìn)行綜合評(píng)價(jià)。PR曲線中的平衡點(diǎn)(BEP)對(duì)應(yīng)F1值的計(jì)算結(jié)果,表示模型的綜合性能。

測(cè)試集中每類行為包含500段視頻,合計(jì)2 000段視頻,其中共1 949段視頻被正確識(shí)別,51段視頻未能被正確識(shí)別,OAAR網(wǎng)絡(luò)混淆矩陣如圖5所示。模型對(duì)攻擊、采食、躺臥、站立行為識(shí)別精確率分別為96.00%、96.60%、100%、97.20%。

圖5 OAAR分類結(jié)果混淆矩陣Fig.5 Confusion matrix of OAAR

由圖5可知,攻擊行為的精確率較其它3種行為略低。原因可能是:①鹿只嚴(yán)重重疊或遮擋時(shí),識(shí)別較為困難。部分視頻幀中出現(xiàn)鹿只之間嚴(yán)重重疊、遮擋問(wèn)題,如鹿只的頭部、腳部被其他鹿只或樹等物體全程遮擋時(shí),模型未能檢測(cè)到鹿只攻擊動(dòng)作。②攻擊行為發(fā)生時(shí)間極短時(shí)難以識(shí)別。當(dāng)鹿只攻擊行為持續(xù)時(shí)間太短,部分視頻只持續(xù)1~2幀攻擊動(dòng)作,這部分行為較難被模型識(shí)別。③發(fā)生行為時(shí)前后幀圖像變化幅度較小時(shí)較難識(shí)別。攻擊動(dòng)作發(fā)生的前后兩幀變化幅度很小時(shí),前置網(wǎng)絡(luò)難以獲取其動(dòng)作,模型的注意力在鹿只的其他行為,導(dǎo)致攻擊行為的置信度低于其他行為,所以分類結(jié)果輸出為非攻擊行為。

從特征可視化角度驗(yàn)證OAAR網(wǎng)絡(luò)識(shí)別效果,如圖6所示。圖中第1行為測(cè)試集中隨機(jī)選取的一段連續(xù)的攻擊行為幀,第2行為通過(guò)網(wǎng)絡(luò)最后一層卷積操作輸出的特征可視化結(jié)果,第3行在第2行基礎(chǔ)上通過(guò)特征注意力機(jī)制生成熱力圖,顏色越偏近暖色表示攻擊動(dòng)作越激烈。從熱力圖中可以觀察到,高亮部分集中在發(fā)生不同程度攻擊行為的3個(gè)區(qū)域。因此,驗(yàn)證了自注意力模塊能夠有效識(shí)別鹿只攻擊行為。

圖6 特征可視化Fig.6 Feature visualization

將網(wǎng)絡(luò)最后1層特征映射在二維空間,如圖7所示。圖中每個(gè)點(diǎn)代表測(cè)試集的1段視頻,每個(gè)行為類別采用一種顏色表示,類別A(攻擊)、F(采食)、L(躺臥)和S(站立)特征映射點(diǎn)分別采用紅色、綠色、藍(lán)色、紫色表示,圖7中不同行為分別聚集于4個(gè)角,攻擊行為與躺臥、站立、采食有很少量混雜,且每種行為自身的聚集度較高。特征嵌入圖說(shuō)明了OAAR網(wǎng)絡(luò)對(duì)攻擊、采食、躺臥和站立行為類別的區(qū)分度較高。

圖7 特征嵌入Fig.7 Feature embedding

圖8 ROC曲線Fig.8 ROC curve

4種行為的受試者特性(ROC)曲線如圖8所示。ROC曲線均位于隨機(jī)猜測(cè)線左上方,曲線距左上角越近,顯示分類結(jié)果越準(zhǔn)確。采用宏平均和微平均綜合評(píng)價(jià)網(wǎng)絡(luò)分類性能。宏平均先計(jì)算每類行為ROC值,再計(jì)算算術(shù)平均值;微平均先計(jì)算所有類真正率和假正率的平均值,再作ROC插值。從圖8可知,采食、躺臥和站立行為接近理想指標(biāo),即對(duì)某類識(shí)別效果極好,攻擊行為趨于理想指標(biāo),各分類的曲線下方面積(AUC)均趨于1。綜上所述,OAAR能夠?qū)Ω黝愋袨檫M(jìn)行較好的識(shí)別和分類。

3.3 不同網(wǎng)絡(luò)對(duì)比分析

為了驗(yàn)證OAAR網(wǎng)絡(luò)對(duì)梅花鹿行為識(shí)別的有效性,選取長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short term memory network,LSTM)[27]、雙流I3D網(wǎng)絡(luò)(Two-stream inflated 3d convNets)[28]和雙流ITSN網(wǎng)絡(luò)(Improvement temporal segment network)[29]與OAAR網(wǎng)絡(luò)進(jìn)行對(duì)比驗(yàn)證。LSTM采用decoder和encoder兩個(gè)環(huán)節(jié)配合完成行為識(shí)別。雙流I3D網(wǎng)絡(luò)采用膨脹3D卷積計(jì)算RGB、光流數(shù)據(jù)特征,利用空間感受野融合時(shí)間感受野,實(shí)現(xiàn)特征信息識(shí)別和分類。雙流ITSN基于長(zhǎng)范圍時(shí)間建模,在原本TSN網(wǎng)絡(luò)的基礎(chǔ)上替換2D卷積為3D卷積。用視頻數(shù)據(jù)集分別訓(xùn)練各網(wǎng)絡(luò),并將各網(wǎng)絡(luò)在測(cè)試集上的識(shí)別結(jié)果與本文中的OAAR網(wǎng)絡(luò)的分類結(jié)果進(jìn)行對(duì)比分析。結(jié)果如表3所示,各網(wǎng)絡(luò)模型正確率分別為82.65%(LSTM)、84.33%(雙流I3D)、96.80%(雙流ITSN)和97.45%(OAAR)。

表3 當(dāng)前常用網(wǎng)絡(luò)模型比較Tab.3 Comparisons with state-of-the-art results

由表3可知,OAAR識(shí)別單個(gè)視頻的平均時(shí)間明顯短于LSTM、雙流I3D和雙流ITSN。由于雙流I3D網(wǎng)絡(luò)基于3D卷積的InceptionV1網(wǎng)絡(luò)提取特征[28],網(wǎng)絡(luò)的參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)劇增,同時(shí)識(shí)別單個(gè)視頻的時(shí)間也會(huì)增加。雙流ITSN網(wǎng)絡(luò)中,采用視頻分段的形式訓(xùn)練模型網(wǎng)絡(luò)[29],并使用Resnet3d-50作為提取特征的基礎(chǔ)網(wǎng)絡(luò),基礎(chǔ)網(wǎng)絡(luò)中的殘差結(jié)構(gòu)能夠有效降低實(shí)際訓(xùn)練的參數(shù)量和浮點(diǎn)運(yùn)算次數(shù),同時(shí)提升網(wǎng)絡(luò)的識(shí)別正確率。LSTM的基礎(chǔ)網(wǎng)絡(luò)采用傳統(tǒng)2D卷積的CNN網(wǎng)絡(luò)[27],提取單幀圖像特征后,傳入LSTM單元中關(guān)聯(lián)前后行為特征信息,參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)在4種網(wǎng)絡(luò)中最小,但由于基礎(chǔ)網(wǎng)絡(luò)沒(méi)有提取到有效的攻擊行為特征,該網(wǎng)絡(luò)的識(shí)別正確率較其他網(wǎng)絡(luò)略低。在OAAR網(wǎng)絡(luò)中,基礎(chǔ)網(wǎng)絡(luò)基于注意力機(jī)制模塊和殘差結(jié)構(gòu)搭建的ARNet152,側(cè)重提取鹿角、鹿蹄等攻擊行為特征,同時(shí)時(shí)序網(wǎng)絡(luò)中的注意力機(jī)制能夠有效減少遺忘門的遺忘量,從而提高了視頻行為識(shí)別的效率和正確率,驗(yàn)證了注意力機(jī)制的有效性。

表4分別列出了4種網(wǎng)絡(luò)對(duì)測(cè)試集識(shí)別的結(jié)果,OAAR精確率為97.45%,召回率為97.46%,遠(yuǎn)高于LSTM精確率(82.65%)、召回率(83.65%)和雙流I3D精確率(86.57%)、召回率(86.58%),略高于雙流ITSN精確率(96.81%)、召回率(96.74%)。相比于LSTM網(wǎng)絡(luò)、雙流I3D網(wǎng)絡(luò)和雙流ITSN網(wǎng)絡(luò),OAAR網(wǎng)絡(luò)主要從4方面優(yōu)化了其性能:①前置網(wǎng)絡(luò)提取了行為隨時(shí)間變化的動(dòng)作特征。前置網(wǎng)絡(luò)提取鹿只身體的位置變化,抑制背景噪聲的影響。通過(guò)訓(xùn)練雙流網(wǎng)絡(luò)后,取空間和時(shí)間網(wǎng)絡(luò)輸出得分的均值,有效提升網(wǎng)絡(luò)行為識(shí)別的準(zhǔn)確度。②自注意力模塊使發(fā)生攻擊行為的鹿只更加突顯。由于在基礎(chǔ)網(wǎng)絡(luò)中使用自注意力卷積模塊加工動(dòng)、靜態(tài)上下文信息,提取鹿只攻擊行為特征,較大提升了鹿只攻擊行為識(shí)別正確率。③殘差結(jié)構(gòu)能夠獲取更多行為特征信息。殘差結(jié)構(gòu)保留了更多的低層特征信息,在網(wǎng)絡(luò)加深的過(guò)程中,有效避免了過(guò)擬合、梯度爆炸和消失等問(wèn)題,加快網(wǎng)絡(luò)訓(xùn)練進(jìn)程。④每段視頻選取首尾2幀以及中間隨機(jī)的3幀進(jìn)行稀疏訓(xùn)練。為避免行為視頻過(guò)長(zhǎng)時(shí)導(dǎo)致重要行為特征削弱的現(xiàn)象,每段視頻選取首尾2幀以及中間隨機(jī)的3幀進(jìn)行訓(xùn)練,以便在訓(xùn)練過(guò)程中突出視頻中的關(guān)鍵動(dòng)作特征,節(jié)省訓(xùn)練成本。

表4 各模型性能統(tǒng)計(jì)Tab.4 Performance statistics of models %

用精確率-召回率曲線直觀比較4種網(wǎng)絡(luò)識(shí)別效果,如圖9所示。點(diǎn)A、B、C、D為4種網(wǎng)絡(luò)的精確率-召回率曲線的平衡點(diǎn),對(duì)應(yīng)各網(wǎng)絡(luò)的F1值。圖9中, OAAR網(wǎng)絡(luò)的平衡點(diǎn)D高于點(diǎn)A、B、C,說(shuō)明OAAR網(wǎng)絡(luò)識(shí)別效果優(yōu)于LSTM網(wǎng)絡(luò)、雙流I3D網(wǎng)絡(luò)和雙流ITSN網(wǎng)絡(luò)。

圖9 精確率-召回率曲線Fig.9 Precision-recall curves

圖10 鹿只行為自動(dòng)識(shí)別系統(tǒng)Fig.10 Sika deer behaviors’ automatically recognition system

4 模型部署及應(yīng)用

基于OAAR網(wǎng)絡(luò)搭建的鹿只行為自動(dòng)識(shí)別系統(tǒng)如圖10所示。該系統(tǒng)采用攝像頭獲取視頻上傳至服務(wù)器,后端框架調(diào)用服務(wù)器中部署的OAAR網(wǎng)絡(luò)模型,計(jì)算視頻鹿群中是否發(fā)生包括攻擊、采食、站立、躺臥行為,并進(jìn)行置信度打分,并將鹿群中發(fā)生的行為打上時(shí)間戳存儲(chǔ)在服務(wù)器中的MySQL數(shù)據(jù)庫(kù)中,相關(guān)信息可通過(guò)網(wǎng)頁(yè)發(fā)布,并供用戶遠(yuǎn)程訪問(wèn)。

5 結(jié)論

(1)新增了前置網(wǎng)絡(luò)提取光流數(shù)據(jù)。前置網(wǎng)絡(luò)采用LK光流算法計(jì)算光流數(shù)據(jù)幀,提取前后幀中鹿只身體位置的變化,抑制背景噪聲的影響。其輸出的光流數(shù)據(jù)幀與RGB數(shù)據(jù)幀共同作為基礎(chǔ)網(wǎng)絡(luò)的輸入數(shù)據(jù),進(jìn)一步加強(qiáng)了行為特征,削弱了背景噪聲,試驗(yàn)證明了本文方法能夠有效解決行為被遮擋的問(wèn)題。

(2)將注意力機(jī)制分別加入基礎(chǔ)網(wǎng)絡(luò)和時(shí)序網(wǎng)絡(luò)?;A(chǔ)網(wǎng)絡(luò)中將自注意力卷積模塊替換為ResNet152中的3×3卷積層,分別加工動(dòng)、靜態(tài)上下文信息。時(shí)序網(wǎng)絡(luò)在2層LSTM層中加入注意力機(jī)制層,減少LSTM單元中遺忘門的遺忘量,提升網(wǎng)絡(luò)處理時(shí)序信息的能力。

(3)OAAR網(wǎng)絡(luò)在測(cè)試集上的識(shí)別正確率高達(dá)97.45%,高于LSTM正確率(82.65%)、雙流I3D正確率(84.33%)和雙流ITSN正確率(96.80%)。OAAR精確率和召回率也分別優(yōu)于其它3個(gè)網(wǎng)絡(luò)。受試者特性曲線和特征嵌入圖均顯示了OAAR網(wǎng)絡(luò)具有較好的區(qū)分性、泛化和抗干擾能力。

(4)集成OAAR網(wǎng)絡(luò)的鹿只行為自動(dòng)識(shí)別采集系統(tǒng)實(shí)現(xiàn)了梅花鹿行為的自動(dòng)識(shí)別功能,為提高梅花鹿養(yǎng)殖生產(chǎn)管理水平和生產(chǎn)效率提供了可行的途徑。

猜你喜歡
光流雙流攻擊行為
國(guó)內(nèi)首條雙流制市域(郊)鐵路開通運(yùn)營(yíng)
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
四川省成都市雙流區(qū)東升迎春小學(xué)
住院精神病人暴力攻擊行為原因分析及護(hù)理干預(yù)
基于人工蜂群算法的無(wú)線網(wǎng)絡(luò)攻擊行為的辨識(shí)研究
雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對(duì)策
四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
高職生共情、寬恕、攻擊行為的關(guān)系研究
一種改進(jìn)的基于全局最小能量泛函光流算法
融合光流速度場(chǎng)與背景差分的自適應(yīng)背景更新方法
九龙城区| 望江县| 榆树市| 溆浦县| 新邵县| 鸡东县| 多伦县| 高雄市| 宁都县| 古田县| 久治县| 南安市| 洪洞县| 昭平县| 容城县| 南平市| 大田县| 丹巴县| 乌兰县| 周至县| 千阳县| 长白| 永靖县| 赫章县| 尼玛县| 德昌县| 景德镇市| 建湖县| 徐水县| 班戈县| 许昌市| 汤原县| 台北市| 通许县| 浮梁县| 嘉峪关市| 德庆县| 岗巴县| 边坝县| 福贡县| 陇西县|