趙夢(mèng),于紅*,李海清,胥婧雯,程思奇,谷立帥,張鵬,韋思學(xué),鄭國(guó)偉
(1.大連海洋大學(xué) 信息工程學(xué)院,遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116023;2.設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室(大連海洋大學(xué)),遼寧 大連 116023)
工廠化養(yǎng)殖是現(xiàn)代漁業(yè)發(fā)展的趨勢(shì),精準(zhǔn)養(yǎng)殖是工廠化養(yǎng)殖的方向,魚群目標(biāo)檢測(cè)是精準(zhǔn)養(yǎng)殖的基礎(chǔ)[1-2]。準(zhǔn)確檢測(cè)養(yǎng)殖池中的魚群,可為魚類行為分析、魚類生長(zhǎng)狀況測(cè)量和魚病診斷提供支撐[3-4]。機(jī)器視覺(jué)為水下魚群目標(biāo)檢測(cè)提供新的解決方法[5],傳統(tǒng)機(jī)器視覺(jué)方法是通過(guò)圖像中魚類的輪廓特征評(píng)估一個(gè)閾值對(duì)魚群進(jìn)行檢測(cè)[6],這種方法精度較高,但需要由有經(jīng)驗(yàn)的專家總結(jié)有效的魚類特征,檢測(cè)效果依賴于專家的經(jīng)驗(yàn)[7]。當(dāng)養(yǎng)殖池塘中魚類的種類較少且專家假設(shè)的有效特征高度一致時(shí),這種方法效果較好。隨著魚群種類和數(shù)量的增多,魚群的持續(xù)運(yùn)動(dòng)也會(huì)導(dǎo)致魚的重疊和形狀變化,傳統(tǒng)機(jī)器視覺(jué)方法不能有效識(shí)別形狀變化的魚,從而導(dǎo)致檢測(cè)效果降低。
與傳統(tǒng)機(jī)器視覺(jué)方法相比,深度學(xué)習(xí)能夠自動(dòng)提取圖像中的特征,可根據(jù)養(yǎng)殖場(chǎng)景的需求,通過(guò)不斷學(xué)習(xí)預(yù)測(cè)值與真實(shí)值間的差異,得到有效解決方案,具有較強(qiáng)適應(yīng)性[8-9]。Girshick等[10-11]提出的RCNN(region-based CNN)和Fast RCNN是較早基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,并在目標(biāo)檢測(cè)領(lǐng)域中取得了重大突破,但該類算法無(wú)法滿足實(shí)時(shí)性檢測(cè)的要求;Ren等[12]在Fast RCNN基礎(chǔ)上結(jié)合區(qū)域候選網(wǎng)絡(luò)RPN(region proposal network)共享卷積層特征提出了Faster RCNN,解決了實(shí)時(shí)性這一問(wèn)題,并提升了檢測(cè)精度。為使檢測(cè)速度更快,Redmon等[13-15]提出了YOLOv1~YOLOv3目標(biāo)檢測(cè)算法,該算法在識(shí)別的基礎(chǔ)上進(jìn)一步進(jìn)行定位,采取直接預(yù)測(cè)目標(biāo)邊界框和類別概率的方式對(duì)物體進(jìn)行預(yù)測(cè)。在水產(chǎn)養(yǎng)殖領(lǐng)域,研究人員也采用基于YOLO的算法對(duì)魚群進(jìn)行檢測(cè),如Xu等[16]和Liu等[17]分別訓(xùn)練了一個(gè)YOLO架構(gòu),實(shí)現(xiàn)了在水下視頻中準(zhǔn)確識(shí)別魚群的目的。為進(jìn)一步提升檢測(cè)精度,Bochkovskiy等[18]將YOLOv3算法從數(shù)據(jù)處理、主干網(wǎng)絡(luò)和損失函數(shù)等各個(gè)方面進(jìn)行優(yōu)化,在此基礎(chǔ)上提出了 YOLOv4算法;俞國(guó)燕等[19]基于YOLOv4算法提出一種魚類檢測(cè)的改進(jìn)算法,該算法采用Resblockbody1模塊,提高了目標(biāo)框的定位精度。為進(jìn)一步提升檢測(cè)效果,王書獻(xiàn)等[20]將YOLOv5用于金槍魚延繩釣電子監(jiān)控系統(tǒng)浮球及金槍魚目標(biāo)檢測(cè),取得了良好的效果,但該方法在真實(shí)場(chǎng)景下目標(biāo)檢測(cè)魯棒性較低。Konovalov等[21]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類模型,用于在海洋領(lǐng)域存在多目標(biāo)的環(huán)境中檢測(cè)魚群,該模型在清晰無(wú)噪聲的合成海洋多目標(biāo)圖像上可以準(zhǔn)確檢測(cè)到魚群,但未考慮到渾濁水質(zhì)下模糊圖像的魚群檢測(cè)情況。針對(duì)復(fù)雜環(huán)境下的目標(biāo)檢測(cè)問(wèn)題,F(xiàn)an等[22]提出了在水下成像模糊、尺度變化和紋理失真的情況下,海膽和扇貝等小目標(biāo)的檢測(cè)方法,該方法引用感受野增強(qiáng)模塊RFAM(receptive field augmentation module)來(lái)豐富特征信息,對(duì)小目標(biāo)檢測(cè)效果較好,但該模型對(duì)魚類特征信息不敏感,不能有效檢測(cè)本研究數(shù)據(jù)中的魚群。Li等[23]提出的視覺(jué)注意力機(jī)制SKNet(selective kernel networks)解決了特征信息不敏感問(wèn)題,提升了特征提取能力,但在真實(shí)養(yǎng)殖環(huán)境下,還存在水下成像模糊、失真等影響魚群檢測(cè)準(zhǔn)確率的問(wèn)題。為解決上述問(wèn)題,需要探究結(jié)合視覺(jué)注意力機(jī)制的目標(biāo)檢測(cè)方法,確保在提升圖像清晰度的基礎(chǔ)上,進(jìn)一步加強(qiáng)網(wǎng)絡(luò)對(duì)魚群特征的提取能力,著重學(xué)習(xí)魚群特征,提高養(yǎng)殖場(chǎng)景下魚群檢測(cè)的準(zhǔn)確率。
本研究中,針對(duì)真實(shí)生產(chǎn)環(huán)境下養(yǎng)殖魚群圖像模糊、失真等特點(diǎn),提出融合SKNet與YOLOv5的養(yǎng)殖魚群檢測(cè)方法,將SKNet視覺(jué)注意力機(jī)制融合到Y(jié)OLOv5的Backbone端構(gòu)成關(guān)注模糊魚類信息的特征提取網(wǎng)絡(luò),以獲取圖像中模糊魚類的特征并加強(qiáng)網(wǎng)絡(luò)對(duì)模糊魚體的識(shí)別能力,提高養(yǎng)殖場(chǎng)景下魚群檢測(cè)的準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)可從復(fù)雜的背景中區(qū)分前景對(duì)象,但在真實(shí)養(yǎng)殖環(huán)境中,水下拍攝的魚群圖像模糊不清晰,嚴(yán)重影響網(wǎng)絡(luò)提取特征的能力,導(dǎo)致魚群檢測(cè)和識(shí)別準(zhǔn)確率較低。為提升檢測(cè)效果,采用UNet[24]對(duì)水產(chǎn)養(yǎng)殖魚群圖像進(jìn)行預(yù)處理,但在預(yù)處理過(guò)程中會(huì)丟失魚群特征等有用的信息。為盡可能多地利用魚群特征信息,同時(shí)保證檢測(cè)結(jié)果不受背景噪聲的影響,將SKNet融合到Y(jié)OLOv5的Backbone端構(gòu)成關(guān)注像素級(jí)信息的特征提取網(wǎng)絡(luò),加強(qiáng)魚類特征信息的提取能力,圖1為改進(jìn)YOLOv5的養(yǎng)殖魚群檢測(cè)方法流程圖。
圖1 改進(jìn)YOLOv5的養(yǎng)殖魚群檢測(cè)方法流程圖
在真實(shí)養(yǎng)殖場(chǎng)景中,養(yǎng)殖池底部能見(jiàn)度較低,水中微小的無(wú)機(jī)物和有機(jī)物顆粒含量較高。在這種渾濁水中拍攝時(shí),由于微小顆粒對(duì)光線的散射作用,使得魚群圖像模糊不清。圖像模糊會(huì)導(dǎo)致某些魚體輪廓不清晰,特征丟失或者不明顯,阻礙后期目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)魚類特征的提取,從而對(duì)水下魚群目標(biāo)識(shí)別的準(zhǔn)確性產(chǎn)生影響,無(wú)法達(dá)到預(yù)期目標(biāo)。為了準(zhǔn)確檢測(cè)水產(chǎn)養(yǎng)殖池塘中的魚群,檢測(cè)前需要對(duì)模糊圖像進(jìn)行預(yù)處理,即水下圖像清晰化。UNet是一個(gè)在超清圖像生成任務(wù)中泛化能力較強(qiáng)的全卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)主架構(gòu)由編碼器和解碼器組成。其通過(guò)跳躍連接將編碼器層不同尺度的特征直接輸入到相應(yīng)解碼器層,能夠提取深層次的特征,且不需要鑒別器指導(dǎo)清晰圖像的生成,減少了參數(shù)的處理,有較快的運(yùn)行速度,適用于圖像預(yù)處理任務(wù)。因此,本研究中選取UNet作為清晰化網(wǎng)絡(luò),用作水下魚群圖像的預(yù)處理,網(wǎng)絡(luò)架構(gòu)如圖2所示。
圖2 基于UNet的圖像預(yù)處理
將給定不同曝光度的模糊水下魚群圖像,使用響應(yīng)函數(shù)CRF(contrast response function)[25]的估計(jì)逆值對(duì)圖像進(jìn)行線性化,再應(yīng)用伽馬校正產(chǎn)生的數(shù)據(jù)作為輸入傳遞給不同的編碼器。在伽馬校正過(guò)程中,用X={X1,X2,X3}表示輸入不同曝光度模糊魚群圖像的集合,將其映射到Y(jié)={Y1,Y2,Y3}的清晰魚群圖像的集合[26],伽馬編碼的映射公式為
(1)
編碼器提取不同曝光度模糊魚群圖像的魚類特征信息,再將不同編碼器提取的特征信息進(jìn)行合并,將合并的特征信息輸入至解碼器端,同時(shí)每一個(gè)編碼器提取的特征信息采用跳躍連接的方式也輸入至解碼器端。該操作通過(guò)編碼器和跳躍連接將不同像素的語(yǔ)義信息映射到解碼器,使得解碼器融合了相同尺度和不同尺度的特征信息,網(wǎng)絡(luò)不斷學(xué)習(xí)該映射對(duì)應(yīng)的特征信息,得出所有像素點(diǎn)的特征圖,最后將所得特征圖送入色調(diào)映射器的映射網(wǎng)絡(luò)得到清晰魚群圖像[27],該網(wǎng)絡(luò)被定義為
(2)
由于清晰魚群圖像通常在色調(diào)映射后顯示,因此,在色調(diào)映射后的清晰魚群圖像上計(jì)算各像素點(diǎn)的損失函數(shù)[27],得到清晰魚群圖像的像素壓縮公式為
(3)
其中:λ為控制壓縮程度的參數(shù),本研究中設(shè)為5 000。
最后,圖像預(yù)處理階段控制圖像清晰化程度的損失函數(shù)(LUNet)定義為
(4)
YOLOv5有4個(gè)不同的模型,包括YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,其中,YOLOv5s網(wǎng)絡(luò)是YOLOv5系列中深度和特征圖寬度最小的網(wǎng)絡(luò),YOLOv5m、YOLOv5l和YOLOv5x均為在此基礎(chǔ)上不斷加深、加寬的網(wǎng)絡(luò)。以上4種模型主體結(jié)構(gòu)相同,當(dāng)使用養(yǎng)殖魚群數(shù)據(jù)集訓(xùn)練模型時(shí),發(fā)現(xiàn)YOLOv5x的結(jié)果優(yōu)于YOLOv5s、YOLOv5m和YOLOv5l。因此,本研究中選擇YOLOv5x以追求最佳檢測(cè)性能。雖然YOLOv5x在目標(biāo)檢測(cè)領(lǐng)域獲得最佳檢測(cè)性能,但本研究中訓(xùn)練模型的數(shù)據(jù)經(jīng)過(guò)圖像預(yù)處理后存在部分特征丟失或不明顯問(wèn)題。為解決此問(wèn)題,在YOLOv5的Backbone端融入視覺(jué)注意力機(jī)制SKNet。YOLOv5模型具有較好的適配性,在特征提取階段為其融合SKNet構(gòu)成復(fù)雜強(qiáng)大的特征提取網(wǎng)絡(luò),能大幅提升YOLOv5 的檢測(cè)能力。
1.2.1 基于YOLOv5的魚群檢測(cè)方法 養(yǎng)殖池中拍攝的魚群圖像經(jīng)過(guò)圖像預(yù)處理后,首先通過(guò)YOLOv5輸入端的Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放以豐富數(shù)據(jù)集,提高魯棒性和提升推理速度。然后通過(guò)Backbone特征提取網(wǎng)絡(luò)提取圖像中魚類的特征,原始608×608×3的魚群圖像輸入Focus結(jié)構(gòu),采用切片操作,使其變成304×304×12的特征圖,再經(jīng)過(guò)一次32個(gè)卷積核的卷積操作,最終變成304×304×32的特征圖。該特征圖利用CSP模塊先將基礎(chǔ)層的特征映射劃分為兩部分,再通過(guò)跨階段層次結(jié)構(gòu)將它們合并,在減少計(jì)算量的同時(shí)可以保證準(zhǔn)確率。為了更好地提取融合特征,將Backbone端得到的特征圖輸入至Neck端,采用SPP模塊增加主干特征的接收范圍,顯著分離了最重要的上下文特征。最后通過(guò)Prediction模塊將圖像分為76×76、38×38和19×19個(gè)網(wǎng)格,預(yù)測(cè)不同大小的目標(biāo)。目標(biāo)中心所在的網(wǎng)格負(fù)責(zé)完成圖像中魚類目標(biāo)的檢測(cè)。為了完成魚類目標(biāo)的檢測(cè),每個(gè)網(wǎng)格默認(rèn)輸出預(yù)測(cè)的3個(gè)邊界框及邊界框?qū)?yīng)位置(x,y,w,h)的信息和分類結(jié)果,以及邊界框Conf(Object)精度的置信度信息。
預(yù)測(cè)框和真實(shí)框交并比計(jì)算公式為
(5)
Conf(Object)=Pr(Object)×IOU。
(6)
其中:Pr(Object)用于表示是否有魚類目標(biāo),1表示是,0表示否;IOU表示預(yù)測(cè)框與真實(shí)框的交并比;box(Pred)表示預(yù)測(cè)框;box(Truth)表示真實(shí)框。每個(gè)預(yù)測(cè)邊界框包含x、y、w、h、Conf(Object)5個(gè)參數(shù),(x,y)表示預(yù)測(cè)框中心距離真實(shí)框中心的偏移量,(w,h)表示預(yù)測(cè)框的寬度和高度。
圖3 SKNet網(wǎng)絡(luò)結(jié)構(gòu)
本研究中為了加強(qiáng)魚類的特征信息,抑制養(yǎng)殖池環(huán)境中的其他信息,將SKNet網(wǎng)絡(luò)融入在YOLOv5的Backbone端,改進(jìn)結(jié)構(gòu)如圖4所示。
圖4 融合SKNet的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5的Backbone端設(shè)置3層輸出,分別對(duì)應(yīng)著大中小3種不同尺度的特征,該特征為后面的不同尺度檢測(cè)提供信息。為加強(qiáng)魚類特征信息的關(guān)注和提取能力,在Backbone端不同尺度特征的輸出層引入SKNet網(wǎng)絡(luò),通過(guò)對(duì)不同尺度通道特征信息的加權(quán)處理,網(wǎng)絡(luò)更加注意魚類的特征信息,不同尺度特征信息經(jīng)SKNet加權(quán)之后,輸入Neck端進(jìn)行特征融合,最后以3種不同尺度的預(yù)測(cè)方式對(duì)圖像中的魚群進(jìn)行檢測(cè)。
本試驗(yàn)運(yùn)行系統(tǒng):Windows10 操作系統(tǒng),主頻為3.4 GHz的intel Core i7-6800K CPU處理器,GTX2080Ti GPU處理器,PyCharm試驗(yàn)平臺(tái);Pytorch機(jī)器學(xué)習(xí)框架,整個(gè)模型通過(guò)80個(gè)epoch進(jìn)行訓(xùn)練,batch為32,初始學(xué)習(xí)率為0.000 1。
試驗(yàn)用數(shù)據(jù)采集自大連天正實(shí)業(yè)有限公司大黑石養(yǎng)殖場(chǎng)紅鰭東方鲀養(yǎng)殖車間,使用一個(gè)200萬(wàn)像素的攝像頭,攝像頭拍攝的視頻通過(guò)ezviz傳輸?shù)揭苿?dòng)終端,再通過(guò)視頻抽幀的方式獲得分辨率為1 920×1 080的圖像。在所抽取圖像中選擇1 200張作為本次試驗(yàn)的數(shù)據(jù)集,所有數(shù)據(jù)通過(guò)Labelimg進(jìn)行標(biāo)注,生成記錄類別信息和位置信息的xml文件,并按照訓(xùn)練集和測(cè)試集7∶3的比例進(jìn)行劃分,其中840張圖像作為訓(xùn)練集,360張圖像作為測(cè)試集。
為了驗(yàn)證SK-YOLOv5對(duì)水下模糊魚群圖像的檢測(cè)和識(shí)別魚類的能力,所有試驗(yàn)結(jié)果用精確率和召回率進(jìn)行評(píng)估,精確率(precision,P),也稱查準(zhǔn)率,即預(yù)測(cè)結(jié)果中成功預(yù)測(cè)魚類目標(biāo)的概率。召回率(recall,R),也稱查全率,即魚類目標(biāo)總體中被成功預(yù)測(cè)的概率。根據(jù)Ground truth對(duì)水下模糊圖像魚群檢測(cè)結(jié)果進(jìn)行評(píng)估,計(jì)算公式為
(7)
(8)
其中: TP(true positive)是預(yù)測(cè)結(jié)果中正確預(yù)測(cè)魚類目標(biāo)的個(gè)數(shù);FP(false positive)是預(yù)測(cè)結(jié)果中錯(cuò)誤預(yù)測(cè)魚類目標(biāo)個(gè)數(shù);FN(false negative)是未被預(yù)測(cè)出的魚類目標(biāo)個(gè)數(shù)。
消融試驗(yàn)即內(nèi)部對(duì)比試驗(yàn),該試驗(yàn)分2組進(jìn)行,分別是圖像預(yù)處理模塊性能對(duì)比和SKNet模塊性能對(duì)比。通過(guò)測(cè)試圖像預(yù)處理模塊和SKNet模塊的性能,以驗(yàn)證本研究中網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的重要性。
2.4.1 圖像預(yù)處理模塊性能對(duì)比 為了驗(yàn)證圖像預(yù)處理模塊UNet的有效性,在YOLOv5基礎(chǔ)上添加了圖像預(yù)處理模塊。模型訓(xùn)練過(guò)程中,所有參數(shù)保持不變,將圖像預(yù)處理模塊輸出的清晰化圖像直接作為YOLOv5的輸入。試驗(yàn)結(jié)果如表1所示,加入圖像預(yù)處理模塊后,魚群檢測(cè)的精確率和召回率分別提升了0.82%和0.93%,有效解決了水下模糊圖像魚群檢測(cè)準(zhǔn)確率低的問(wèn)題。
表1 UNet圖像預(yù)處理模塊對(duì)模型性能的影響
2.4.2 SKNet模塊性能對(duì)比 在“2.4.1節(jié)”的基礎(chǔ)上,將SKNet融合到Y(jié)OLOv5的Backbone端構(gòu)成關(guān)注像素級(jí)信息的特征提取網(wǎng)絡(luò)。融合SKNet后的網(wǎng)絡(luò)可以加強(qiáng)魚類特征信息的提取能力,抑制無(wú)效特征信息,提高特征信息的利用率。試驗(yàn)結(jié)果如表2所示,在YOLOv5和圖像預(yù)處理模塊基礎(chǔ)上,融入SKNet的網(wǎng)絡(luò)模型,精確率和召回率分別提升了1.32%和1.36%,有效提升了水下魚群目標(biāo)檢測(cè)效果。
表2 SKNet模塊對(duì)模型性能的影響
試驗(yàn)分2組進(jìn)行,分別是SK-YOLOv5與YOLOv5的對(duì)比,以及與目前檢測(cè)準(zhǔn)確率較高的基于深度學(xué)習(xí)的水下目標(biāo)檢測(cè)模型的對(duì)比。通過(guò)模型對(duì)比試驗(yàn),以驗(yàn)證本研究中所提網(wǎng)絡(luò)架構(gòu)的性能。
2.5.1 與YOLOv5的性能對(duì)比試驗(yàn) 將SK-YOLOv5與YOLOv5進(jìn)行了對(duì)比。首先用所選數(shù)據(jù)對(duì)YOLOv5進(jìn)行端到端的訓(xùn)練,不進(jìn)行任何網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,直接輸出魚群檢測(cè)結(jié)果。然后將圖像預(yù)處理模塊添加在YOLOv5模型的前端,最后將SKNet融合到Y(jié)OLOv5的Backbone端構(gòu)成關(guān)注像素級(jí)信息的特征提取網(wǎng)絡(luò)。試驗(yàn)結(jié)果如表3所示,與YOLOv5模型相比,魚群檢測(cè)的精確率和召回率分別提升了2.14%和2.29%。這表明,添加圖像預(yù)處理模塊UNet和SKNet模塊的YOLOv5對(duì)水下模糊圖像魚群檢測(cè)的性能有較大提升。
表3 YOLOv5與SK-YOLOv5的性能對(duì)比
2.5.2 與不同模型的性能對(duì)比試驗(yàn) 通過(guò)對(duì)水下圖像進(jìn)行魚群檢測(cè),量化了SK-YOLOv5的性能,并與目前檢測(cè)準(zhǔn)確率較高的水下目標(biāo)檢測(cè)模型進(jìn)行了對(duì)比,對(duì)比模型分別為Konovalov等[21]提出的用于海洋領(lǐng)域魚群檢測(cè)模型XFishHmMp(underwater fish detection with weak multi-domain supervision)和Fan等[22]提出的用于海膽和扇貝等小目標(biāo)檢測(cè)模型FERNet(dual refinement underwater object detection network)。為了公平比較,將所有模型用水下模糊魚群圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中對(duì)每個(gè)模型進(jìn)行微調(diào),并將同一批圖像統(tǒng)一用于測(cè)試。試驗(yàn)結(jié)果如表4所示,針對(duì)養(yǎng)殖池內(nèi)成像模糊失真的魚群圖像數(shù)據(jù),SK-YOLOv5模型的精確率和召回率分別為98.86%和96.64%,較XFishHmMp和FERNet達(dá)到較好檢測(cè)效果。
表4 不同模型與SK-YOLOv5的性能對(duì)比
針對(duì)在真實(shí)養(yǎng)殖環(huán)境下,因水下成像模糊、失真導(dǎo)致的魚群檢測(cè)準(zhǔn)確率較低的問(wèn)題,本研究中通過(guò)對(duì)模糊圖像進(jìn)行預(yù)處理,即水下圖像的清晰化加以解決。UNet是一個(gè)在超清圖像生成任務(wù)中泛化能力較強(qiáng)的全卷積網(wǎng)絡(luò),能夠提取深層次的特征,且不需要鑒別器指導(dǎo)清晰圖像的生成,減少了參數(shù)的處理,有較快的運(yùn)行速度,適用于圖像預(yù)處理任務(wù)。因此,選取UNet作為清晰化網(wǎng)絡(luò),用作水下魚群圖像預(yù)處理。
通過(guò)圖像預(yù)處理,得到了清晰的圖像,并為后續(xù)的魚群檢測(cè)提供了高質(zhì)量數(shù)據(jù)。但是,由于本研究是針對(duì)視頻影像的魚群檢測(cè),需要選擇一種計(jì)算速度較快和目標(biāo)檢測(cè)準(zhǔn)確率較高的網(wǎng)絡(luò)框架作為基礎(chǔ)的水下魚群檢測(cè)模型。YOLOv5是目前檢測(cè)準(zhǔn)確率較高的目標(biāo)檢測(cè)模型,且單一圖片的推理時(shí)間能夠達(dá)到7 ms,即140 FPS,是目標(biāo)檢測(cè)領(lǐng)域處理速度較快的網(wǎng)絡(luò),因此,選定綜合性能較好的 YOLOv5作為基礎(chǔ)網(wǎng)絡(luò)模型框架。為盡可能多地利用魚群特征信息,同時(shí)保證檢測(cè)結(jié)果不受背景噪聲影響,在YOLOv5的Backbone端融入SKNet構(gòu)成關(guān)注像素級(jí)信息的特征提取網(wǎng)絡(luò),通過(guò)給每個(gè)特征元素都找到其對(duì)應(yīng)的注意力權(quán)重,加強(qiáng)魚類特征信息的重構(gòu)和提取能力,抑制無(wú)效特征信息,從而提高特征信息的利用率,提升魚群檢測(cè)的準(zhǔn)確率。
本研究中通過(guò)消融試驗(yàn)和模型對(duì)比試驗(yàn),驗(yàn)證SK-YOLOv5模型的效果。在基礎(chǔ)網(wǎng)絡(luò)模型YOLOv5上加入圖像預(yù)處理模塊UNet,可以得到清晰的魚群圖像,檢測(cè)精確率和召回率分別提升了0.82%和0.93%;加入SKNet模塊后,魚群檢測(cè)效果得到了再一次提升,與只加入圖像預(yù)處理模塊相比,SKNet模塊將魚群檢測(cè)的精確率和召回率分別提升了 1.32%和1.36%。為進(jìn)一步分析SK-YOLOv5模型的效果,采用不同模型對(duì)真實(shí)養(yǎng)殖環(huán)境下的魚群進(jìn)行檢測(cè),并將檢測(cè)結(jié)果進(jìn)行對(duì)比。首先將SK-YOLOv5與目前檢測(cè)準(zhǔn)確率較高的目標(biāo)檢測(cè)模型YOLOv5進(jìn)行對(duì)比,SK-YOLOv5的精確率和召回率較YOLOv5分別提升了2.14%和2.29%。然后將SK-YOLOv5與目前檢測(cè)效果較好的基于深度學(xué)習(xí)的水下目標(biāo)檢測(cè)模型XFishHmMp[21]和FERNet[22]進(jìn)行對(duì)比,檢測(cè)精確率分別提升了5.39%和3.59%,召回率分別提升了5.66%和3.77%。XFishHmMp能夠有效檢測(cè)清晰圖像中的魚群,但無(wú)法準(zhǔn)確檢測(cè)本研究模糊圖像中的魚群;FERNet對(duì)海膽、扇貝等水下小目標(biāo)識(shí)別效果較好,但是也不能有效檢測(cè)本研究中魚群等大目標(biāo)。針對(duì)養(yǎng)殖池內(nèi)成像模糊失真的魚群圖像數(shù)據(jù),SK-YOLOv5的精確率和召回率分別達(dá)到98.86%和96.64%,達(dá)到了較好檢測(cè)效果,實(shí)現(xiàn)了工廠化養(yǎng)殖魚群的準(zhǔn)確識(shí)別,為魚類行為分析和魚類生長(zhǎng)狀況監(jiān)測(cè)提供了基礎(chǔ)方法,為精準(zhǔn)養(yǎng)殖提供了重要的技術(shù)支撐,也將為在失真和模糊等復(fù)雜背景下基于深度學(xué)習(xí)的水下目標(biāo)檢測(cè)提供了有效的解決方案。
1)本研究中,在當(dāng)前魚群檢測(cè)方法的基礎(chǔ)上,提出了基于YOLOv5的養(yǎng)殖魚群檢測(cè)模型,引入U(xiǎn)Net作為圖像預(yù)處理模塊,輸出得到清晰的魚群圖像,加強(qiáng)了網(wǎng)絡(luò)對(duì)模糊魚體的識(shí)別能力。
2)在YOLOv5網(wǎng)絡(luò)模型基礎(chǔ)上,融合SKNet視覺(jué)注意力機(jī)制,加強(qiáng)了魚類特征信息的提取能力,抑制了無(wú)效特征,提高了特征信息的利用率。
3)以真實(shí)養(yǎng)殖環(huán)境下的魚群圖像為樣本,用訓(xùn)練后的融合SKNet與YOLOv5的養(yǎng)殖魚群檢測(cè)算法,可以檢測(cè)模糊和失真的魚群,精確率和召回率分別達(dá)到了98.86%和96.64%,性能比YOLOv5和目前已有的其他魚群檢測(cè)模型更為優(yōu)異,該模型具有較好的識(shí)別準(zhǔn)確度,可對(duì)真實(shí)養(yǎng)殖環(huán)境下成像模糊、失真的魚群實(shí)現(xiàn)精準(zhǔn)識(shí)別。