王丁弘,楊信廷,潘 良,朱文韜,焦冬祥,周 超
(1 上海海洋大學(xué)信息學(xué)院,上海 201306;2 北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京 100097;3 農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國(guó)家工程研究中心,北京 100097;4 中洋漁業(yè)(江門(mén))有限公司,廣東 江門(mén) 529200)
在集約化水產(chǎn)養(yǎng)殖中,魚(yú)類(lèi)的投喂水平直接決定了生產(chǎn)效率和養(yǎng)殖成本。過(guò)量投喂不僅會(huì)造成飼料浪費(fèi)[1],而且殘余的飼料分解還會(huì)產(chǎn)生氨氮等有毒物質(zhì),導(dǎo)致水體富營(yíng)養(yǎng)化,增加魚(yú)類(lèi)患病風(fēng)險(xiǎn)[2]。飼料投喂不足則會(huì)增加魚(yú)類(lèi)間的侵略性[3],易搶食而導(dǎo)致傷殘[4-5]。實(shí)時(shí)量化魚(yú)類(lèi)攝食行為,并以此為據(jù)調(diào)整投喂,有助于解決上述問(wèn)題[6-9]。對(duì)魚(yú)類(lèi)的攝食動(dòng)作進(jìn)行檢測(cè)可以獲取魚(yú)類(lèi)的攝食頻率和攝食時(shí)間等信息,為優(yōu)化投飼提供理論依據(jù)和數(shù)據(jù)支撐[10]。
已有相關(guān)研究將聲學(xué)、光學(xué)以及其他傳感器來(lái)量化和分析魚(yú)類(lèi)攝食行為。例如,聲學(xué)傳感器被用于檢測(cè)魚(yú)群攝食強(qiáng)度[11],但聲學(xué)傳感器易受噪聲干擾,限制了其在實(shí)際生產(chǎn)中的應(yīng)用[12]。機(jī)器視覺(jué)技術(shù)因其自動(dòng)、無(wú)創(chuàng)、經(jīng)濟(jì)和高效的優(yōu)勢(shì)[13-14],被廣泛用于評(píng)估魚(yú)類(lèi)食欲[15]。Liu 等[5]使用了幀間差法、背景減除和二值化等一系列圖像處理算法,以自動(dòng)識(shí)別和量化鮭魚(yú)攝食行為。周超等[16]利用近紅外視覺(jué)評(píng)估魚(yú)類(lèi)攝食強(qiáng)度。但上述研究均需要提取復(fù)雜的手工特征,模型受特征選取影響較大。深度學(xué)習(xí)能從海量數(shù)據(jù)中自動(dòng)提取高維特征,已被廣泛應(yīng)用于魚(yú)類(lèi)攝食強(qiáng)度評(píng)估、魚(yú)類(lèi)識(shí)別[17-19]、魚(yú)類(lèi)計(jì)數(shù)[20-21]、目標(biāo)檢測(cè)[22-25]等方面。近年來(lái),利用深度學(xué)習(xí)識(shí)別魚(yú)類(lèi)攝食行為已成為主流。Zhou等[6]提出一種基于LeNet5模型構(gòu)建的7層CNN模型來(lái)評(píng)估魚(yú)類(lèi)食欲,分級(jí)準(zhǔn)確率達(dá)到90%。陳明等[26]運(yùn)用特征加權(quán)融合的方法實(shí)現(xiàn)了魚(yú)類(lèi)攝食強(qiáng)度評(píng)估,準(zhǔn)確率達(dá)98.89%。徐立鴻等[27]將注意力機(jī)制引入卷積神經(jīng)網(wǎng)絡(luò),提出基于改進(jìn)長(zhǎng)期卷積循環(huán)網(wǎng)絡(luò)(LRCN)的魚(yú)群攝食強(qiáng)度分類(lèi)模型,分類(lèi)準(zhǔn)確度達(dá)97%。許學(xué)斌等[28]在網(wǎng)絡(luò)初始端添加不同尺度的卷積核,并引入混合注意力機(jī)制,聚焦重要特征區(qū)域來(lái)降低復(fù)雜背景干擾,識(shí)別精度達(dá)到98.65%。
雖然以上模型在攝食強(qiáng)度檢測(cè)方面取得了較好的效果,但其檢測(cè)對(duì)象均為攝食強(qiáng)度片段,缺乏對(duì)于整個(gè)攝食過(guò)程的把控和判斷,難以精準(zhǔn)定位魚(yú)群攝食動(dòng)作的時(shí)間邊界。時(shí)序動(dòng)作檢測(cè)模型可通過(guò)定位未裁剪視頻中動(dòng)作的時(shí)間邊界,預(yù)測(cè)動(dòng)作的開(kāi)始和結(jié)束時(shí)間。Lin等[29]提出邊界敏感網(wǎng)絡(luò)(Boundary Sensitive Network,BSN)來(lái)預(yù)測(cè)動(dòng)作的開(kāi)始和結(jié)束時(shí)間,首先去定位時(shí)序動(dòng)作片段的開(kāi)始和結(jié)束邊界點(diǎn),然后將兩邊界點(diǎn)直接結(jié)合成時(shí)序動(dòng)作提名,最后通過(guò)設(shè)計(jì)的模塊來(lái)評(píng)估每個(gè)提名的置信度。但BSN只使用了局部特征來(lái)預(yù)測(cè)動(dòng)作邊界,沒(méi)有考慮序列特征豐富的上下文信息,也沒(méi)有考慮每個(gè)提名之間的關(guān)系,檢測(cè)精度不高。為解決該問(wèn)題,Su等[30]在模型中增加了互補(bǔ)邊界生成器和提名關(guān)系建模來(lái)豐富上下文信息并提升提名的預(yù)測(cè)置信度。除了上述問(wèn)題,BSN還存在提名特征構(gòu)建和置信度評(píng)估無(wú)法并行對(duì)提名進(jìn)行處理、不是一個(gè)統(tǒng)一的網(wǎng)絡(luò)模型等問(wèn)題。Lin等[31]提出邊界匹配網(wǎng)絡(luò)(Boundary Matching Network,BMN),BMN引入了邊界匹配機(jī)制來(lái)評(píng)估密集分布的提名的置信度,并且組成了一個(gè)統(tǒng)一的網(wǎng)絡(luò)框架,可進(jìn)行端到端的聯(lián)合訓(xùn)練。
BSN++[30]和BMN[31]同時(shí)作為高效的時(shí)序動(dòng)作檢測(cè)模型,都可同時(shí)產(chǎn)生動(dòng)作開(kāi)始和結(jié)束時(shí)間匹配對(duì)提名和其對(duì)應(yīng)的置信度分?jǐn)?shù),但對(duì)于魚(yú)群時(shí)序攝食動(dòng)作檢測(cè)來(lái)說(shuō),BMN相比于BSN++的檢測(cè)精度高,所以選用BMN模型進(jìn)行進(jìn)一步改進(jìn)。由于在魚(yú)群攝食視頻中魚(yú)群密度高、攝食動(dòng)作迅速,BMN在處理該視頻時(shí)精度仍不夠高,導(dǎo)致對(duì)于魚(yú)群攝食和非攝食狀態(tài)探測(cè)模糊。
本研究針對(duì)未經(jīng)裁剪且包含魚(yú)群完整攝食過(guò)程的視頻進(jìn)行時(shí)序動(dòng)作檢測(cè)。通過(guò)將注意力機(jī)制和殘差連接引入BMN中,提出了BMN-Fish魚(yú)群狀態(tài)檢測(cè)網(wǎng)絡(luò),增強(qiáng)了算法對(duì)攝食過(guò)程局部和全局特征的感知能力,有助于解決現(xiàn)有方法在探測(cè)攝食狀態(tài)切換時(shí)誤差較高的問(wèn)題??捎行Фㄎ霍~(yú)群攝食動(dòng)作的時(shí)間邊界,實(shí)現(xiàn)魚(yú)群攝食和非攝食狀態(tài)的精準(zhǔn)時(shí)序探測(cè),進(jìn)而指導(dǎo)精準(zhǔn)投喂。
試驗(yàn)地點(diǎn)位于北京市農(nóng)林科學(xué)院信息技術(shù)研究中心的循環(huán)水養(yǎng)殖實(shí)驗(yàn)室,如圖1所示。該系統(tǒng)由6個(gè)高1.2 m,直徑均為1 m的魚(yú)池組成,水深1 m,并配套有水處理系統(tǒng)。試驗(yàn)對(duì)象為金鱒魚(yú),為消除環(huán)境變化對(duì)魚(yú)的應(yīng)激,試驗(yàn)對(duì)象首先進(jìn)行為期1個(gè)月的適應(yīng)性養(yǎng)殖,以消除環(huán)境變化對(duì)魚(yú)類(lèi)攝食的影響。
圖1 循環(huán)水養(yǎng)殖系統(tǒng)Fig.1 Recirculating aquaculture system
試驗(yàn)光源為固定亮度的Led燈。金鱒魚(yú)均重為550±10 g,養(yǎng)殖水體溶氧9~11 mg/L,溫度15±1 ℃,投喂量95±10 g。投喂裝置為養(yǎng)殖池上方的投飼機(jī),可調(diào)節(jié)飼料拋灑范圍。視頻數(shù)據(jù)采集使用Gopro水下運(yùn)動(dòng)相機(jī),在水面中心以下15 cm處進(jìn)行拍攝,圖像分辨率為1 920×1 080,幀率為60 fps。
為實(shí)現(xiàn)魚(yú)群攝食動(dòng)作時(shí)序檢測(cè),需要準(zhǔn)確獲得魚(yú)群攝食的開(kāi)始和結(jié)束時(shí)間。采集的視頻數(shù)據(jù)均包含魚(yú)群完整的攝食過(guò)程,視頻時(shí)間均為20~200 s不等,共計(jì)100段視頻。由于魚(yú)類(lèi)動(dòng)作類(lèi)別較單一,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練易過(guò)擬合,本研究中引入ActivityNet-1.3數(shù)據(jù)集[32]。ActivityNet-1.3作為一個(gè)大型數(shù)據(jù)集,一般用于時(shí)序動(dòng)作提名的生成和檢測(cè),包含19 994段視頻,附有200個(gè)動(dòng)作類(lèi)別的注釋文件。將采集的魚(yú)群視頻數(shù)據(jù)與公共數(shù)據(jù)集ActivityNet-1.3合并,組成具有201個(gè)動(dòng)作類(lèi)別的大型數(shù)據(jù)集,并隨機(jī)將其中75%作為訓(xùn)練集,12.5%作為驗(yàn)證集,12.5%作為測(cè)試集。
魚(yú)群密度高、攝食動(dòng)作迅速,BMN在處理魚(yú)群攝食視頻時(shí)精度不高,導(dǎo)致對(duì)于魚(yú)群攝食狀態(tài)探測(cè)模糊,為解決上述問(wèn)題,本研究在BMN的基礎(chǔ)上進(jìn)行改進(jìn),提出魚(yú)群狀態(tài)檢測(cè)網(wǎng)絡(luò)BMN-Fish,如圖2所示。BMN-Fish首先采用時(shí)序分段網(wǎng)絡(luò)(Temporal Segment Networks,TSN)[33]對(duì)視頻進(jìn)行特征編碼,得到對(duì)應(yīng)編碼的視覺(jué)特征向量;其次,通過(guò)高效深度模塊輸出時(shí)序評(píng)估模塊和提名評(píng)估模塊所共享的時(shí)序特征向量;最后,分別通過(guò)時(shí)序評(píng)估模塊和提名評(píng)估模塊生成匹配對(duì)提名和二維置信度圖,通過(guò)匹配對(duì)提名和二維置信度圖中的置信度一一對(duì)應(yīng),獲取檢測(cè)結(jié)果。
圖2 BMN-Fish算法結(jié)構(gòu)圖Fig.2 BMN-Fish algorithm structure diagram
本研究在原始BMN算法基礎(chǔ)上:(1)為解決魚(yú)攝食動(dòng)作狀態(tài)捕捉性較差的問(wèn)題,加入高效通道注意力模塊(efficient channel attention module net,ECANet)[34]來(lái)提高魚(yú)攝食狀態(tài)的局部性動(dòng)作捕捉,從而進(jìn)一步擴(kuò)大時(shí)序維度特征的感受野;(2)為解決捕捉到的局部攝食動(dòng)作特征之間的時(shí)序性關(guān)系模糊的問(wèn)題,引入殘差連接[35],將基礎(chǔ)模塊改為基礎(chǔ)殘差模塊(base residual module,BRM),加強(qiáng)了局部攝食動(dòng)作特征之間時(shí)序性關(guān)系,使算法能更多關(guān)注到特征圖中感興趣的區(qū)域。兩種改進(jìn)加強(qiáng)了算法對(duì)于特征的重用能力,有效提升模型性能。
1.3.1 視頻特征提取
由于TSN網(wǎng)絡(luò)[33]在動(dòng)作識(shí)別任務(wù)中具有較好性能,并被廣泛用于時(shí)序動(dòng)作檢測(cè)和提名生成任務(wù)中[36],因此本研究視覺(jué)編碼器采用基于kenetics400[37]預(yù)訓(xùn)練模型的TSN網(wǎng)絡(luò)。TSN網(wǎng)絡(luò)包含兩個(gè)分支:(1)在單一的RGB幀上捕捉外觀特征的空間網(wǎng)絡(luò);(2)在堆疊光流場(chǎng)上捕捉動(dòng)作特征的時(shí)序網(wǎng)絡(luò)。
首先,為獲得RGB幀和光流圖,使用視頻截幀提取光流工具denseflow將視頻逐幀截為分辨率為340×256的圖像,并提取對(duì)應(yīng)的光流圖;其次,將單幀圖像和其對(duì)應(yīng)疊加光流組合成一個(gè)片段放入TSN網(wǎng)絡(luò)中提取特征,并將提取的外觀特征和動(dòng)作特征有效串聯(lián),形成一幀完整的視頻級(jí)別特征;最后,為充分利用視頻中每一幀的變化,每隔f幀提取特征并按時(shí)間順序組合,形成lv×400的向量,因每個(gè)視頻的總幀數(shù)不同,則向量得到了不同的時(shí)間長(zhǎng)度lv=l/f。其中l(wèi)表示未經(jīng)裁剪視頻的長(zhǎng)度,f=16。
視頻特征提取流程如圖3所示。
圖3 特征提取示意圖Fig.3 Feature extraction diagram
1.3.2 高效深度模塊
為進(jìn)一步處理輸入的特征序列,提高模型對(duì)攝食過(guò)程局部和全局特征的感知能力,并為后續(xù)的時(shí)序評(píng)估模塊和提名評(píng)估模塊提供共享特征序列,本研究基于BMN,在模型中加入高效通道注意力模塊,并且引入殘差連接將原有基礎(chǔ)模塊進(jìn)行改進(jìn)。改進(jìn)方法如下:
(1)加入高效通道注意力模塊
高效通道注意力模塊(efficient channel attention module net,ECANet)[34]是一種局部的跨通道交互策略,該模塊通過(guò)一維卷積實(shí)現(xiàn)該策略。此外,ECANet使用一種自適應(yīng)選擇一維卷積的內(nèi)核大小的方法,以確定局部跨通道交互的覆蓋范圍。ECANet結(jié)構(gòu)如圖4所示。
圖4 ECANet結(jié)構(gòu)圖Fig.4 ECANet structure diagram
由于魚(yú)群密度高、攝食動(dòng)作迅速,模型對(duì)各個(gè)魚(yú)的攝食動(dòng)作狀態(tài)捕捉性較差,通過(guò)加入高效通道注意力模塊,提高了模型對(duì)魚(yú)攝食狀態(tài)的局部性動(dòng)作捕捉,加強(qiáng)了局部信息提取能力,進(jìn)一步擴(kuò)大了時(shí)序維度特征的感受野。
(2)引入殘差連接
引入殘差連接[35],將BMN的基礎(chǔ)模塊(Base Module)改進(jìn)為基礎(chǔ)殘差模塊(base residual module ,BRM)。BRM在兩個(gè)卷積核大小為3的一維卷積基礎(chǔ)上,引入殘差連接。模型結(jié)構(gòu)如圖5所示。
圖5 BRM結(jié)構(gòu)圖Fig.5 BRM structure diagram
通過(guò)加入高效通道注意力模塊,雖然加強(qiáng)了模型對(duì)魚(yú)攝食狀態(tài)局部性動(dòng)作捕捉,但是捕捉到的局部攝食動(dòng)作特征之間的時(shí)序性關(guān)系模糊,缺少前后幀局部特征關(guān)系的連接性處理。通過(guò)殘差連接將一維卷積a和一維卷積b的結(jié)果相加,使得輸入信息繞道傳到輸出,保護(hù)信息的完整性,加強(qiáng)了局部攝食動(dòng)作特征之間時(shí)序性關(guān)系,使算法能更多關(guān)注到特征圖中感興趣的區(qū)域。
(1)
式中:ω為滑動(dòng)窗口,Fω為特征向量,其中ω={tω,s,tω,e,Ψω,Fω}。tω,s和tω,e分別為該滑動(dòng)窗口在視頻中的魚(yú)群攝食開(kāi)始和結(jié)束的時(shí)間,Ψω為滑動(dòng)窗口中包含的真實(shí)攝食動(dòng)作實(shí)例標(biāo)注,Fω為得到的特征向量。
1.3.3 時(shí)序評(píng)估模塊與提名評(píng)估模塊
本研究沿用時(shí)序評(píng)估模塊(temporal evaluation module,TEM)和提名評(píng)估模塊(proposal evaluation module,PEM)的結(jié)構(gòu)[31]。通過(guò)TEM生成2個(gè)輸出,分別為魚(yú)群攝食開(kāi)始和結(jié)束時(shí)間概率,該概率序列將用于后續(xù)提名的生成。TEM結(jié)構(gòu)中開(kāi)始時(shí)間概率的分支和結(jié)束時(shí)間概率的分支,都包含一個(gè)卷積核大小為3的一維卷積和一個(gè)卷積核大小為1的一維卷積,最終利用Sigmoid函數(shù)生成對(duì)應(yīng)范圍為 [0,1]的概率。
PEM生成邊界匹配置信度圖如圖6所示。
圖6 邊界匹配置信度圖Fig.6 BM confidence map
定義一個(gè)時(shí)序提名為一個(gè)開(kāi)始時(shí)間和一個(gè)結(jié)束時(shí)間所構(gòu)成的時(shí)間匹配對(duì),并按時(shí)序提名開(kāi)始時(shí)間的位置和時(shí)間長(zhǎng)度,將所有可能存在的時(shí)序提名形成二維的邊界匹配圖。在該圖上每一行時(shí)序提名具有相同的時(shí)序長(zhǎng)度,每一列時(shí)序提名具有相同的開(kāi)始時(shí)間,因此該圖可表示出所有潛在存在的提名。而每個(gè)點(diǎn)的數(shù)值即為提名所對(duì)應(yīng)的置信度,因此通過(guò)邊界匹配置信度圖為所有提名產(chǎn)生置信度。
通過(guò)邊界匹配置信度圖與上述TEM生成的魚(yú)群攝食動(dòng)作概率序列相結(jié)合,最終生成所有提名以及對(duì)應(yīng)的置信度,如圖7所示。
圖7 邊界匹配置信度圖和攝食開(kāi)始結(jié)束概率圖結(jié)合示意圖Fig.7 Diagram of combination of BM confidence map and probability graph of feeding beginning and ending
1.3.4 提名后處理
提名后處理目的是排除多余的提名。對(duì)于從魚(yú)群開(kāi)始到結(jié)束攝食區(qū)間內(nèi)的真實(shí)值,模型可能會(huì)預(yù)測(cè)出多個(gè)具有不同時(shí)間重疊的提名。為用更少的提名獲得更高的召回率,本研究使用Soft-NMS[38]對(duì)多余的提名進(jìn)行冗余抑制。Soft-NMS作為一種高效的非極大值抑制算法,使用分?jǐn)?shù)衰減函數(shù)來(lái)實(shí)現(xiàn)多余提名的篩除,首先,將所有的提名按其置信度分?jǐn)?shù)由高到低排序。其次,計(jì)算最大置信度分?jǐn)?shù)的提名φm與其他提名φr的重疊度iou,其中重疊度高的提名,置信度分?jǐn)?shù)被遞減。然后,在其他提名之間遞歸進(jìn)行上一步操作。最后,所有提名將得到被重新更新的置信度。
2.1.1 試驗(yàn)平臺(tái)與模型訓(xùn)練參數(shù)
本試驗(yàn)的硬件配置為:CPU 12th Gen Intel Core i9-12900KF,內(nèi)存32GB,GPU 為Nvidia GeForce RTX 3090 Ti 24GB。軟件系統(tǒng)環(huán)境為Windows10 64位操作系統(tǒng),CUDA 10.2版本,CUDNN 8.3.0版本,Python 3.7版本,Pytorch 1.10.0版本。
在訓(xùn)練模型時(shí),優(yōu)化器采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam),訓(xùn)練階段的試驗(yàn)參數(shù)設(shè)置如表1所示。
表1 不同模型試驗(yàn)結(jié)果比較Tab.1 Comparison of different models
2.1.2 評(píng)價(jià)標(biāo)準(zhǔn)
本研究的目標(biāo)是生成高質(zhì)量的魚(yú)群攝食開(kāi)始和結(jié)束時(shí)間的提名匹配對(duì),而其與真實(shí)的魚(yú)群攝食開(kāi)始和結(jié)束時(shí)間的匹配對(duì)時(shí)間高度重合。目前主流框架[29-31,39-40]均使用AR@AN和AUC指標(biāo)評(píng)估各提名是否具有高召回率和高時(shí)間重疊性,因此本文使用AR@AN和AUC作為評(píng)價(jià)指標(biāo)。
AR@AN是用于評(píng)估算法在預(yù)測(cè)攝食動(dòng)作邊界的性能指標(biāo)。AR@AN計(jì)算在AN個(gè)提名片段中正確預(yù)測(cè)攝食動(dòng)作邊界的比例。其中,AN表示一個(gè)預(yù)測(cè)視頻可以生成的總提名個(gè)數(shù),AR表示平均召回率,即正確預(yù)測(cè)攝食動(dòng)作邊界的提名數(shù)量除以實(shí)際攝食動(dòng)作邊界的數(shù)量。本研究AN取值從0到100不等。
AUC(Area Under Curve)是平均召回率(AR)與平均提名數(shù)(AN)曲線(xiàn)下的面積,用于評(píng)估算法在預(yù)測(cè)攝食動(dòng)作邊界時(shí)的全面性能指標(biāo)。與AR@AN不同,AUC綜合考慮了所有提名的預(yù)測(cè)結(jié)果,而不僅僅是AN個(gè)提名。通過(guò)使用AUC指標(biāo),算法可以全面地評(píng)估其在預(yù)測(cè)視頻攝食動(dòng)作邊界方面的性能。
在使用相同數(shù)據(jù)集和保持參數(shù)一致的情況下,BMN-Fish和BMN的訓(xùn)練過(guò)程損失曲線(xiàn)如圖8所示,在12次迭代之前,模型損失迅速減小,然后隨著迭代次數(shù)的增加,BMN-Fish仍舊迅速減小,然而B(niǎo)MN損失緩慢向下且振蕩減小,最后兩者在15次迭代之后趨于穩(wěn)定。最終BMN的損失值穩(wěn)定在1.05左右,BMN-Fish的損失值穩(wěn)定在0.95左右,收斂值明顯優(yōu)于BMN。
圖8 兩種模型訓(xùn)練損失值Fig.8 Training loss of two models
2.3.1 消融試驗(yàn)方案設(shè)計(jì)
為驗(yàn)證本研究對(duì)BMN[31]改進(jìn)的性能,設(shè)計(jì)消融試驗(yàn),內(nèi)容如下:(1)為驗(yàn)證高效通道注意力模塊[34]在攝食動(dòng)作狀態(tài)捕捉性上的性能。首先將BMN模型加入高效通道注意力模塊;然后訓(xùn)練模型;最后將原始BMN和增加了高效通道注意力模塊的BMN進(jìn)行對(duì)比試驗(yàn)。(2)為驗(yàn)證基礎(chǔ)殘差模塊[35]在解決局部攝食動(dòng)作特征之間時(shí)序性關(guān)系模糊問(wèn)題的有效性。首先將BMN原有的基礎(chǔ)模塊替換為改進(jìn)的基礎(chǔ)殘差模塊;然后訓(xùn)練模型;最后將原始BMN和改進(jìn)基礎(chǔ)模塊后的BMN模型進(jìn)行對(duì)比試驗(yàn)。(3)為驗(yàn)證高效通道注意力模塊和基礎(chǔ)殘差模塊在捕捉局部攝食動(dòng)作狀態(tài)和增強(qiáng)前后幀局部特征關(guān)系的性能。將BMN模型同時(shí)加入高效通道注意力模塊和基礎(chǔ)殘差模塊,進(jìn)行模型訓(xùn)練,然后與原始BMN模型進(jìn)行對(duì)比試驗(yàn)。上述對(duì)比模型均使用同一數(shù)據(jù)集和相同參數(shù),進(jìn)行相同輪次模型訓(xùn)練與模型測(cè)試。
2.3.2 消融試驗(yàn)結(jié)果與分析
如表2展示了試驗(yàn)結(jié)果。加入高效通道注意力機(jī)制模塊,模型的AUC達(dá)到92.24%,提升1.09%,并且AR@AN都有0.5%以上的提升。其用于深度卷積神經(jīng)網(wǎng)絡(luò)的通道注意力模塊,通過(guò)快速的一維卷積以及生成自適應(yīng)卷積核大小[34],提高了模型對(duì)于各個(gè)魚(yú)攝食狀態(tài)的局部性動(dòng)作捕捉,加強(qiáng)了局部信息提取能力,進(jìn)一步擴(kuò)大了時(shí)序維度特征的感受野。
表2 不同模塊對(duì)網(wǎng)絡(luò)的貢獻(xiàn)Tab.2 Contribution of different modules to the network
將BMN原有的基礎(chǔ)模塊替換為改進(jìn)之后的基礎(chǔ)殘差模塊,AUC提升了2.05%。在AN=5和AN=10的情況下分別有2.78%和2.5%的提升。通過(guò)加入殘差連接[35],增加了前后幀局部特征關(guān)系的連接性處理,加強(qiáng)了局部攝食動(dòng)作特征之間時(shí)序性關(guān)系,使算法能更多關(guān)注到特征圖中感興趣的區(qū)域。
同時(shí)將BMN模型加入高效通道注意力模塊和基礎(chǔ)殘差模塊,AUC提升了2.17%,AR@AN提升了1.95%。試驗(yàn)結(jié)果表明,兩個(gè)模塊同時(shí)作用能進(jìn)一步增強(qiáng)魚(yú)攝食狀態(tài)局部性動(dòng)作捕捉能力和前后幀局部特征關(guān)系,提高模型對(duì)攝食過(guò)程局部和全局特征的感知能力。
時(shí)序動(dòng)作檢測(cè)算法可通過(guò)定位未裁剪視頻中動(dòng)作的時(shí)間邊界,預(yù)測(cè)動(dòng)作的開(kāi)始和結(jié)束時(shí)間。BSN[29]、BSN++[30]、BMN[31]是目前精度較高的時(shí)序動(dòng)作檢測(cè)算法,并且都是為了解決水下魚(yú)群密度高、攝食動(dòng)作迅速導(dǎo)致時(shí)序檢測(cè)效果不佳的問(wèn)題,因此本文選取BSN[29]、BSN++[30]、BMN[31]與BMN-Fish進(jìn)行對(duì)比試驗(yàn)。
在采用相同參數(shù)和驗(yàn)證集的情況下,BMN和BMN-Fish對(duì)每個(gè)魚(yú)群攝食視頻的平均檢測(cè)時(shí)間分別為28 ms和32 ms,二者檢測(cè)時(shí)間相差4 ms,相對(duì)于本研究檢測(cè)視頻的長(zhǎng)度基本可以忽略不計(jì),因此在檢測(cè)速度大致相同的情況下,本研究更關(guān)注精度方面的結(jié)果。在精度方面,各時(shí)序動(dòng)作檢測(cè)模型與BMN-Fish比較結(jié)果如表3所示。根據(jù)試驗(yàn)結(jié)果分析可得,本研究所提出的模型取得良好成績(jī)。
表3 各模型AUC和AR@AN對(duì)比表Tab.3 Comparison table of AUC and AR@AN by models
BSN[29]、BSN++[30]、BMN[31]雖然都是為了解決魚(yú)群攝食和非攝食狀態(tài)探測(cè)模糊問(wèn)題,但模型都缺乏對(duì)于魚(yú)群攝食過(guò)程局部和全局特征的感知能力。BMN-Fish的局部跨通道交互策略在提高了模型局部性動(dòng)作捕捉能力的同時(shí)引入殘差結(jié)構(gòu),使得捕捉到的局部攝食動(dòng)作特征之間的時(shí)序性關(guān)系更為緊密。綜上所述,BMN-Fish與參與對(duì)比的模型相比更適合魚(yú)群攝食動(dòng)作時(shí)序檢測(cè)任務(wù)。
由于不同的冗余提名抑制方法會(huì)在很大程度上影響模型的性能,為驗(yàn)證Soft-NMS方法對(duì)預(yù)測(cè)的多個(gè)具有不同時(shí)間重疊的提名的冗余抑制能力,本研究將同主流的冗余提名抑制方法NMS進(jìn)行對(duì)比試驗(yàn)[38]。如圖9和圖10所示。
圖9 各模型在使用NMS和Soft-NMS后AUC對(duì)比圖Fig.9 Comparison of AUC of each model after using NMS and Soft-NMS
圖10 各模型在使用NMS和Soft-NMS后AR@AN對(duì)比圖Fig.10 Comparison of AR@AN of each model after using NMS and Soft-NMS
檢驗(yàn)對(duì)結(jié)果后處理的兩種冗余提名抑制方法(NMS和Soft-NMS)的效果,仍然使用上述時(shí)序動(dòng)作檢測(cè)模型與BMN-Fish進(jìn)行比較。試驗(yàn)結(jié)果表明,所有模型使用Soft-NMS方法比使用NMS方法,指標(biāo)AUC至少提升4%。特別是在提名數(shù)為1的情況下,BSN++、BMN和BMN-Fish的AR@1提升27%以上,有利于執(zhí)行攝食動(dòng)作提名生成任務(wù)。并且當(dāng)提名數(shù)從5到100之間,BMN-Fish在使用Soft-NMS方法時(shí),指標(biāo)AR@AN比BMN高1.3%以上,指標(biāo)AUC比BMN高2.17%。試驗(yàn)結(jié)果表明,在魚(yú)群攝食動(dòng)作時(shí)序檢測(cè)方面,使用Soft-NMS方法比使用NMS方法對(duì)于模型的性能有較大的提升。
上述結(jié)果表明,本研究算法具有較好的性能,是因?yàn)楸舅惴梢陨删哂幸韵绿攸c(diǎn)的提名匹配對(duì):(1)產(chǎn)生靈活長(zhǎng)度的提名匹配對(duì),更貼近大多魚(yú)群攝食動(dòng)作真實(shí)值;(2)通過(guò)采用時(shí)序卷積網(wǎng)絡(luò)學(xué)習(xí)開(kāi)始時(shí)間和結(jié)束時(shí)間的概率定位精確的時(shí)間邊界,使得生成的提名匹配對(duì)和真實(shí)值具有高重疊度;(3)邊界匹配機(jī)制可為所有提名匹配對(duì)生成置信度分?jǐn)?shù),可以合理檢索所有提名匹配對(duì),從而使用相對(duì)較少的提名實(shí)現(xiàn)高召回和高重疊度。圖11為各時(shí)序動(dòng)作檢測(cè)模型與BMN-Fish在2段魚(yú)群攝食視頻的預(yù)測(cè)結(jié)果實(shí)例。
圖11 模型預(yù)測(cè)結(jié)果可視化Fig.11 Visualization of model prediction results
兩段視頻長(zhǎng)度分別為20.93 s和178.07 s,第1段視頻魚(yú)群攝食真實(shí)時(shí)間段為0.02~20.1 s,本模型預(yù)測(cè)時(shí)間段為0.01~19.7 s;第2段視頻魚(yú)群攝食真實(shí)時(shí)間段為103.2~148.2 s,本模型預(yù)測(cè)時(shí)間段為104.1~149.1 s。該模型通過(guò)加入高效通道注意力模塊[34]和基礎(chǔ)殘差模塊[35],解決了魚(yú)群攝食和非攝食狀態(tài)切換點(diǎn)探測(cè)模糊的問(wèn)題。相比其他模型,該模型可精確預(yù)測(cè)出魚(yú)群攝食過(guò)程的開(kāi)始和結(jié)束時(shí)間,可以有效檢測(cè)魚(yú)群的時(shí)序攝食動(dòng)作,從而為智能化水產(chǎn)養(yǎng)殖提供算法支持。
然而本研究也存在一定的局限性,如圖11第2個(gè)預(yù)測(cè)可視化結(jié)果,該測(cè)試視頻魚(yú)群弱攝食持續(xù)時(shí)間長(zhǎng)、存在餌料殘留現(xiàn)象,導(dǎo)致在攝食末期預(yù)測(cè)會(huì)有一定偏差。未來(lái)可與魚(yú)類(lèi)殘飼檢測(cè)[41]相結(jié)合,輔助改進(jìn)算法進(jìn)行魚(yú)類(lèi)攝食動(dòng)作檢測(cè),降低殘餌的影響,從而提高預(yù)測(cè)精度。
為高效實(shí)現(xiàn)魚(yú)群攝食動(dòng)作檢測(cè),本研究提出了魚(yú)群狀態(tài)檢測(cè)網(wǎng)絡(luò)BMN-Fish。通過(guò)在原始BMN基礎(chǔ)上加入高效通道注意力模塊和基礎(chǔ)殘差模塊,增強(qiáng)了算法對(duì)攝食過(guò)程局部和全局特征的感知能力。試驗(yàn)結(jié)果表明,BMN-Fish的AUC達(dá)到93.32%,比BMN提高2.17%,同時(shí)在提名數(shù)(AN)為100的平均召回率(AR),即AR@100有1.95%的提升。因此,在魚(yú)群攝食狀態(tài)檢測(cè)方面,BMN-Fish優(yōu)于BMN,且能夠更加精準(zhǔn)檢測(cè)魚(yú)群攝食動(dòng)作,可為開(kāi)發(fā)精準(zhǔn)投喂系統(tǒng)提供算法支撐。由于實(shí)驗(yàn)室魚(yú)種單一,在后續(xù)會(huì)擴(kuò)充魚(yú)類(lèi)數(shù)據(jù)集,將該算法推廣運(yùn)用至其他魚(yú)類(lèi)。