摘 要:針對(duì)現(xiàn)有水下魚類分類準(zhǔn)確率低,抗干擾能力和泛化能力差等問題,本研究在ResNet-D模型的基礎(chǔ)上,設(shè)計(jì)了一種名為DAResNet的模型。首先,將主干網(wǎng)絡(luò)中的部分卷積替換為全維動(dòng)態(tài)卷積模塊,以提高網(wǎng)絡(luò)模型的特征提取能力及網(wǎng)絡(luò)準(zhǔn)確率;接著,通過引入高效多尺度注意力機(jī)制進(jìn)一步增強(qiáng)模型對(duì)關(guān)鍵特征的識(shí)別和響應(yīng)能力,以提升模型的抗干擾性;最后,在下采樣階段,引入高斯模糊和擠壓激勵(lì)注意力平滑特征并強(qiáng)化模型對(duì)關(guān)鍵信息的提取,以提升泛化能力。相比原始算法,DAResNet在水下魚類識(shí)別任務(wù)中準(zhǔn)確率提升了3.05%,性能提升明顯,證明了所提方法的有效性。
關(guān)鍵詞:全維動(dòng)態(tài)卷積;注意力機(jī)制;深度學(xué)習(xí);特征提??;高斯模糊;擠壓激勵(lì)注意力
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)04-0-05
0 引 言
近年來,隨著我國(guó)城市化進(jìn)程的持續(xù)推進(jìn),取得了許多令人矚目的成績(jī)。然而,也衍生出一系列不容忽視的問題。其中,水域污染問題和濫捕現(xiàn)象日益嚴(yán)重,已經(jīng)成為人們關(guān)注的焦點(diǎn)[1-2]。為更好地保護(hù)水下魚類,同時(shí)確保水域生態(tài)系統(tǒng)的安全,水下魚類鑒定識(shí)別尤為關(guān)鍵。
以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)算法取得了顯著進(jìn)展,顯示出解決水下魚類分類等復(fù)雜視覺分類問題的巨大潛力。例如,文獻(xiàn)[3]通過改進(jìn)Res2Net模型的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合注意力機(jī)制、數(shù)據(jù)增強(qiáng)方法和CELU激活函數(shù)實(shí)現(xiàn)了10種淡水魚的分類。文獻(xiàn)[4]通過在EfficientNetV2上引入混合空洞卷積和加裝坐標(biāo)注意力機(jī)制的方法,實(shí)現(xiàn)了對(duì)7種水下魚類的圖像分類。文獻(xiàn)[5]提出的ResNet-D模型,通過修改模型結(jié)構(gòu),改進(jìn)訓(xùn)練策略,在ImageNet數(shù)據(jù)集上展現(xiàn)出了卓越的性能。這一進(jìn)展證明了深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的強(qiáng)大能力,同時(shí)也為水下魚類識(shí)別等專項(xiàng)任務(wù)提供了新的思路[6]。然而,現(xiàn)有的網(wǎng)絡(luò)針對(duì)水下魚類的準(zhǔn)確識(shí)別還存在一些挑戰(zhàn)。水下環(huán)境的復(fù)雜性和多變性問題:光照、水質(zhì)等因素會(huì)對(duì)網(wǎng)絡(luò)造成干擾;圖像采集問題:在圖像采集過程中,魚類姿態(tài)、方向和角度可能發(fā)生變化,導(dǎo)致同一種魚在不同姿態(tài)下呈現(xiàn)出截然不同的外觀,從而影響模型的泛化能力[7]。
為解決這些涉及水下魚類分類任務(wù)的問題,本研究基于ResNet-D深度學(xué)習(xí)模型[8],提出了改進(jìn)的DAResNet模型,在訓(xùn)練時(shí)采用余弦退火學(xué)習(xí)率調(diào)度策略與標(biāo)簽平滑對(duì)模型中的超參數(shù)進(jìn)行優(yōu)化,用以提高水下魚類分類任務(wù)的準(zhǔn)確率和工作效率,并能夠適應(yīng)不同水域場(chǎng)景下的水下魚類識(shí)別場(chǎng)景。
1 模型架構(gòu)
1.1 DAResNet模型簡(jiǎn)介
為解決水下魚類分類問題,本文提出了DAResNet網(wǎng)絡(luò),該網(wǎng)絡(luò)在ResNet-34D網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了三處改進(jìn)。鑒于水下環(huán)境復(fù)雜多變,魚類圖像特征難以準(zhǔn)確提取,本文使用全維動(dòng)態(tài)卷積(Omni-Dimensional Dynamic Convolution, ODConv)替換原模型主干網(wǎng)絡(luò)中的部分卷積,以強(qiáng)化模型的特征提取能力[9];為更好地適應(yīng)魚類姿態(tài)的多樣性以及隨之變化的外觀特征,本研究引入了高效多尺度注意力(Efficient Multi-Scale Attention, EMA)[10],通過多尺度捕獲魚類特征,增強(qiáng)模型對(duì)魚類形態(tài)多變性的理解以及在復(fù)雜環(huán)境中的抗干擾能力;為減輕水下噪聲對(duì)于模型的干擾,在下采樣階段引入高斯模糊和擠壓激勵(lì)注意力(Squeeze-and-Excitation, SE)對(duì)信息進(jìn)行平滑處理[11],提升模型的泛化能力。DAResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 DAResNet模型改進(jìn)策略
1.2.1 全維動(dòng)態(tài)卷積
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Networks, CNN)訓(xùn)練完成后,會(huì)生成一套固定的卷積參數(shù)。在模型推理階段,對(duì)于不同的輸入數(shù)據(jù),模型均使用相同的參數(shù)進(jìn)行推理,忽略了不同輸入樣本之間的特征差異。
為解決上述問題,文獻(xiàn)[12]提出了全維動(dòng)態(tài)卷積,該卷積對(duì)卷積核的四個(gè)維度進(jìn)行注意力加權(quán),可以根據(jù)輸入數(shù)據(jù)的不同而動(dòng)態(tài)調(diào)整,使卷積核更好地適應(yīng)輸入數(shù)據(jù)的特征,形成更強(qiáng)的特征提取能力。為提升水下魚類分類任務(wù)的準(zhǔn)確率,本文在算法中引入全維動(dòng)態(tài)卷積ODConv。在利用ODConv提取特征時(shí),首先對(duì)輸入圖像應(yīng)用全局平均池化(Global Avgrage Pooling, GAP)進(jìn)行處理,隨后通過全連接(Fully Connected, FC)層和ReLU激活函數(shù)獲取初步的特征表示。引入一種多維注意力機(jī)制,對(duì)卷積核的四個(gè)維度(卷積核、空間維度、輸入通道維度、輸出通道維度)進(jìn)行相關(guān)計(jì)算。ODConv結(jié)構(gòu)如圖2所示。
上述四個(gè)通道的參數(shù)通過多頭注意力計(jì)算得到。借助這種方式,ODConv卷積可以根據(jù)輸入數(shù)據(jù)動(dòng)態(tài)調(diào)整卷積,從而提升模型的性能。ODConv卷積的計(jì)算如下所示:
(1)
(2)
式中:awi表示卷積核Wi的注意力;asi表示卷積核空間維度的注意力;aci表示輸入通道的注意力;afi表述輸出通道的注意力;Ai表示經(jīng)過多個(gè)注意力權(quán)重加權(quán)處理后的卷積核;表示不同維度的乘法計(jì)算。上述四種注意力相互補(bǔ)充,因此多維度并行處理的策略允許模型更細(xì)致地捕捉和調(diào)整卷積核的權(quán)重,以滿足不同的特征表示需求。使用ODConv可以增強(qiáng)模型的特征提取能力,提高模型的識(shí)別準(zhǔn)確率。
1.2.2 EMA注意力模塊
在水下魚類分類任務(wù)中,研究人員面臨的一大挑戰(zhàn)是魚類圖像的大小和比例不一致。由于水下環(huán)境的不可預(yù)測(cè)性和拍攝條件的多樣性,魚類可能以不同的尺度和角度出現(xiàn)在圖像中,因此難以全面捕捉魚類特征。為此,本文引入EMA注意力機(jī)制來解決這一問題。EMA注意力機(jī)制使用并行結(jié)構(gòu),通過并行子網(wǎng)絡(luò)的設(shè)計(jì),EMA機(jī)制實(shí)現(xiàn)了對(duì)多尺度特征的提取。左側(cè)的分支結(jié)構(gòu)借鑒坐標(biāo)注意力(Coordinate Attention, CA)機(jī)制[13],對(duì)輸入特征從高度和寬度兩個(gè)方向進(jìn)行平均池化,捕捉跨通道的特征信息;右側(cè)的分支結(jié)構(gòu)則通過3×3卷積強(qiáng)化對(duì)局部空間特征的捕獲能力。最終,通過矩陣乘法整合兩個(gè)分支的輸出,實(shí)現(xiàn)對(duì)多尺度特征的提取。這種并行子網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)使EMA能夠有效提取和融合全局和局部特征,從而增強(qiáng)模型對(duì)水下魚類圖像中的尺度和形態(tài)多樣性的識(shí)別能力。EMA注意力機(jī)制結(jié)構(gòu)如圖3所示。
1.2.3 池化方法
在處理水下魚類分類任務(wù)時(shí),為減少噪聲干擾,本研究在池化前使用高斯卷積核對(duì)圖像進(jìn)行預(yù)處理[14]。高斯卷積核通過其特有的權(quán)重分布實(shí)現(xiàn)圖像的平滑處理,降低圖像中的高頻噪聲,同時(shí)保留重要的低頻信息。
(3)
式中:σ為標(biāo)準(zhǔn)差,決定權(quán)重分布的寬度;x和y表示距離中心點(diǎn)的水平和垂直距離。
在上述改進(jìn)的基礎(chǔ)上,本文額外引入了SE注意力機(jī)制,SE注意力機(jī)制通過重塑通道間的權(quán)重值,強(qiáng)化對(duì)當(dāng)前任務(wù)有益的特征通道的影響力,同時(shí)降低對(duì)當(dāng)前任務(wù)貢獻(xiàn)較小的特征通道的影響力,以進(jìn)一步提升模型對(duì)重要特征的識(shí)別能力,從而提高模型的泛化能力。
2 實(shí)驗(yàn)方法與結(jié)果
2.1 數(shù)據(jù)預(yù)處理
本研究的數(shù)據(jù)集通過整理Kaggle網(wǎng)站公開的海洋魚類數(shù)據(jù)集得到,數(shù)據(jù)集包括22種魚類圖片,每類有500張圖片,共計(jì)11 000張圖片。本文數(shù)據(jù)集的特點(diǎn)如下:
(1)類別間差異相對(duì)較小,不同魚類圖像存在相似之處,因此容易出現(xiàn)誤識(shí)別;
(2)數(shù)據(jù)圖像分辨率差異較大,且圖像大小不一;
(3)樣本圖像中干擾項(xiàng)較多,如不同的背景和光線變化,將進(jìn)一步增加魚類識(shí)別的難度。
針對(duì)數(shù)據(jù)集中存在的問題,本文在將數(shù)據(jù)進(jìn)行訓(xùn)練前通過數(shù)據(jù)增強(qiáng)方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[15],以期提升模型的性能和泛化能力。本研究主要采用的數(shù)據(jù)增強(qiáng)策略如下:
(1)調(diào)整圖像輸入尺寸,將圖像尺寸統(tǒng)一縮放到224×224,以確保模型處理相同尺寸的輸入圖像;
(2)在訓(xùn)練模型時(shí),采用RandAugment數(shù)據(jù)增強(qiáng)策略[16],該策略隨機(jī)實(shí)施一系列預(yù)定義的圖像變換方法,如旋轉(zhuǎn)、裁剪和色彩變換等,增加數(shù)據(jù)的多樣性;
(3)對(duì)圖像進(jìn)行歸一化處理,加速模型收斂并提升其穩(wěn)定性。
圖4(a)為原始圖像,圖4(b)~圖4(e)為應(yīng)用RandAugment數(shù)據(jù)增強(qiáng)方法后的圖像。
2.2 實(shí)驗(yàn)配置
實(shí)驗(yàn)平臺(tái)配置:CPU為Xeon? Platinum 8352V CPU @ 2.10 GHz,搭載4090型號(hào)的24 GB顯卡,操作系統(tǒng)為Ubuntu20.04,內(nèi)存120 GB。實(shí)驗(yàn)代碼均采用Python語(yǔ)言編寫,使用深度學(xué)習(xí)框架為1.11版本的pytorch,CUDA為11.3。
合適的超參數(shù)能夠有效保證深度學(xué)習(xí)的準(zhǔn)確率,本實(shí)驗(yàn)配置的超參數(shù):batch-size設(shè)置為128,學(xué)習(xí)率設(shè)置為0.000 1。
損失函數(shù)為交叉熵?fù)p失函數(shù)CrossEntropyLoss[17],訓(xùn)練時(shí)[18]設(shè)置標(biāo)簽平滑系數(shù)為0.1。此外,為進(jìn)一步提高訓(xùn)練效果,本實(shí)驗(yàn)還采用了余弦退火學(xué)習(xí)率調(diào)度策略以確保模型在訓(xùn)練中達(dá)到更優(yōu)的結(jié)果。
2.3 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本實(shí)驗(yàn)使用的網(wǎng)絡(luò)模型在水下進(jìn)行魚類識(shí)別時(shí)的性能,本文選擇以混淆矩陣[19]為工具、以準(zhǔn)確率為指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。其中,混淆矩陣是用于多分類問題的評(píng)估工具,它以表格的形式展示模型預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的對(duì)應(yīng)關(guān)系,用于分類正確與錯(cuò)誤情況。在混淆矩陣中,行代表真實(shí)的標(biāo)簽,列代表預(yù)測(cè)類別,矩陣的單元格顯示模型分類到每個(gè)類別的次數(shù)。本次任務(wù)選擇準(zhǔn)確率(Accuracy)作為衡量混淆矩陣性能的指標(biāo),公式如下所示:
(4)
式中:TP(True Positive)表示正確預(yù)測(cè)為正類的樣本數(shù);TN(True Negative)表示正確預(yù)測(cè)為負(fù)類的樣本數(shù);FP(False Positive)表示錯(cuò)誤預(yù)測(cè)為正類的負(fù)類樣本數(shù);FN表示(False Negative)錯(cuò)誤預(yù)測(cè)為負(fù)類的樣本數(shù)。
消融實(shí)驗(yàn)結(jié)果對(duì)比見表1。
模型訓(xùn)練準(zhǔn)確率對(duì)比圖如圖5所示?;煜仃嚱Y(jié)果如圖6所示。
觀察表1和圖5、圖6可知,本文提出的DAResNet網(wǎng)絡(luò)模型在模型的收斂速度、穩(wěn)定性方面均優(yōu)于改進(jìn)前的ResNet-D模型以及原始的ResNet網(wǎng)絡(luò)。
本文提出的DAResNet模型的最高預(yù)測(cè)準(zhǔn)確率達(dá)93.95%,其他模型如加入全維動(dòng)態(tài)卷積的ResNet-D模型準(zhǔn)確率較高,為92.5%,采用高斯卷積+下采樣的ResNet-D模型準(zhǔn)確率為91.05%,加入SE注意力后,準(zhǔn)確率提升到92.2%。上述消融實(shí)驗(yàn)的結(jié)果證明了各項(xiàng)技術(shù)對(duì)增強(qiáng)模型性能的貢獻(xiàn),也佐證了本文改進(jìn)方法的科學(xué)性與合理性。綜上所述,DAResNet模型表現(xiàn)出了卓越的能力,充分驗(yàn)證了本文所提方法的有效性。
3 結(jié) 語(yǔ)
為解決水下環(huán)境復(fù)雜多變而影響水下魚類識(shí)別分類,導(dǎo)致水下魚類識(shí)別準(zhǔn)確率較低的問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一種名為DAResNet的深度學(xué)習(xí)模型,使用RandAugment數(shù)據(jù)增強(qiáng)策略優(yōu)化了訓(xùn)練過程。該模型的創(chuàng)新點(diǎn)主要在于以下三個(gè)方面:
(1)本研究使用全維動(dòng)態(tài)卷積替換普通卷積,使模型能夠更加靈活地提取特征之間的差異;
(2)利用EMA注意力機(jī)制,模型能夠更準(zhǔn)確地識(shí)別不同尺度和角度的魚類圖像的關(guān)鍵特征,強(qiáng)化抗干擾能力;
(3)在下采樣層,使用高斯卷積核的SE注意力機(jī)制提升下采樣性能,進(jìn)一步增強(qiáng)模型的泛化能力。
經(jīng)過實(shí)驗(yàn)驗(yàn)證,本文提出的改進(jìn)方法顯著提升了模型的準(zhǔn)確性和泛化能力,使其更適用于水下魚類的分類識(shí)別研究。
綜上所述,本文方法不僅在水下魚類分類識(shí)別任務(wù)中表現(xiàn)良好,更有望為海洋生態(tài)監(jiān)測(cè)、生物多樣性保護(hù)以及水產(chǎn)養(yǎng)殖等領(lǐng)域帶來積極的推動(dòng)作用。期待這一研究成果能夠在實(shí)際應(yīng)用中發(fā)揮更大的價(jià)值,為相關(guān)領(lǐng)域的進(jìn)步與發(fā)展貢獻(xiàn)積極的力量。
參考文獻(xiàn)
[1]白璐,孫園園,趙學(xué)濤,等.黃河流域水污染排放特征及污染集聚格局分析[J].環(huán)境科學(xué)研究,2020,33(12):2683-2694.
[2]王華.過度捕撈與生態(tài)環(huán)境:來自太湖的人類學(xué)個(gè)案[J].原生態(tài)民族文化學(xué)刊,2022,14(3):31-40.
[3]趙正偉,朱宏進(jìn),楊根滕,等.基于改進(jìn)Res2Net模型的淡水魚類圖像分類研究[J].軟件工程,2022,25(7):28-32.
[4]龔瑞昆,趙學(xué)智,趙福生.基于EfficientNetV2-HDCA模型水下魚類圖像分類算法研究[J].電子測(cè)量技術(shù),2022,45(22):128-134.
[5] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [J]. Computer vision and pattern recognition, 2018(9): 558-567.
[6]曹建榮,莊園,汪明,等.基于ECA的YOLOv5水下魚類目標(biāo)檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2023,32(6):204-211.
[7]呂俊霖,陳作志,李碧龍,等.基于多階段特征提取的魚類識(shí)別研究[J].南方水產(chǎn)科學(xué),2024,20(1):99-109.
[8]陳清源,金帆,馮德華,等.基于雙模型集成的太陽(yáng)黑子磁類型分類[J]. 天文研究與技術(shù),2022,19(6):636-644.
[9]嚴(yán)蓬輝,陳緒兵,彭伊麗,等.基于改進(jìn)YOLOv5s的激光軟釬焊焊點(diǎn)缺陷檢測(cè)算法[J/OL].激光與光電子學(xué)進(jìn)展,1-17 [2024-02-28]. http://kns.cnki.net/kcms/detail/31.1690.TN.20230821.1429.084.html.
[10]王澤宇,徐慧英,朱信忠,等.基于YOLOv8改進(jìn)的密集行人檢測(cè)算法:MER-YOLO[J/OL].計(jì)算機(jī)工程與科學(xué),1-17 [2024-02-28]. http://kns.cnki.net/kcms/detail/43.1258.tp.20231110.1458.002.html.
[11]徐沁,梁玉蓮,王冬越,等.基于SE-Res2Net與多尺度空譜融合注意力機(jī)制的高光譜圖像分類[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2021,33(11):1726-1734.
[12] LI C, ZHOU A, YAO A. Omni-dimensional dynamic convolution [J]. arXiv preprint arXiv: 2209.07947, 2022.
[13]牛鑫宇,毛鵬軍,段云濤,等.基于YOLOv5s室內(nèi)目標(biāo)檢測(cè)輕量化改進(jìn)算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(3):109-118.
[14]張美玉,劉躍輝,侯向輝,等.基于卷積網(wǎng)絡(luò)的灰度圖像自動(dòng)上色方法[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(7):229-236.
[15]苗永春,何建安,李迎松.基于YOLOv5的病媒圖像檢測(cè)實(shí)驗(yàn)教學(xué)設(shè)計(jì)[J].實(shí)驗(yàn)技術(shù)與管理,2023,40(10):199-205.
[16]王鑫鵬,王曉強(qiáng),林浩,等.深度學(xué)習(xí)典型目標(biāo)檢測(cè)算法的改進(jìn)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(6):42-57.
[17]郭曉新,李佳慧,張寶亮. 基于高分辨率網(wǎng)絡(luò)的視杯和視盤的聯(lián)合分割[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版),2023,53(8):2350-2357.
[18]劉勁,羅曉曙,徐照興.權(quán)重推斷與標(biāo)簽平滑的輕量級(jí)人臉表情識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(2):254-263.
[19]高澤鋆,曹菲,何川,等.基于半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的雷達(dá)有源干擾識(shí)別[J].探測(cè)與控制學(xué)報(bào),2022,44(6):93-101.