王鑫玉 王姝蒙 李文順
關(guān)鍵詞: YOLOv5 圖像識別 人工智能 注意力機(jī)制
中圖分類號: TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1672-3791(2024)01-0230-04
黑龍江省大小興安嶺、老爺嶺、完達(dá)山等林區(qū)分布著數(shù)量不等的馬鹿群,為保護(hù)馬鹿種群正常的生存繁衍[1],相關(guān)領(lǐng)域的工作人員付出了大量的心血,如運(yùn)用野外觀測法等方法評估馬鹿種群數(shù)量,從而確保馬鹿種群的多樣性等。對鹿種群數(shù)量進(jìn)行研究,有助于了解鹿的種群生態(tài)和生活史,也有利于動物的管理和保護(hù)。記錄瀕危物種或狩獵物種在一段時(shí)間內(nèi)種群數(shù)量的變化,有助于保護(hù)區(qū)或管理人員對該物種的保護(hù)措施做出相應(yīng)的調(diào)整。
目前,對于野生鹿的種群數(shù)量、種群結(jié)構(gòu)等的調(diào)查方法有樣線法、微衛(wèi)星標(biāo)記、紅外相機(jī)、直接觀察法、無線電相圈法等,但這些方法實(shí)施難度大、準(zhǔn)確度低[2]。
近年來,計(jì)算機(jī)視覺技術(shù)不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)用于分類識別也比較成熟,目前,有些學(xué)者將這些先進(jìn)的技術(shù)應(yīng)用到了植物細(xì)胞壁識別分類方面,并進(jìn)行全面研究,解決了利用顯微鏡人工辨認(rèn)對糞便顯微組織植物表皮角質(zhì)碎片進(jìn)行分析效率較低下的問題。但鹿食植物細(xì)胞分類是一個(gè)很繁瑣的問題,由于客觀因素太多,且植株經(jīng)動物咀嚼消化后,已經(jīng)不可能具備有完整的葉片形態(tài),導(dǎo)致鹿食植物的分類等問題遲遲未能得到有效解決。未解決這一問題可以通過植物殘?jiān)募?xì)胞壁形態(tài)來進(jìn)行鑒定和分類,例如:糞便顯微分析法是根據(jù)鹿排泄的糞便中植物表皮角質(zhì)形成細(xì)胞在被消化后仍然具有細(xì)胞壁結(jié)構(gòu)這一特征,來鑒定鹿食植物的種類和數(shù)量與成分組成。
根據(jù)這種情況,本文提出了一種“基于深度學(xué)習(xí)的鹿食植物細(xì)胞與種群數(shù)量關(guān)系的分析方法”,采用計(jì)算機(jī)視覺技術(shù)將馬鹿糞便中各類植物細(xì)胞壁的特征提取出來,并通過建立卷積神經(jīng)網(wǎng)絡(luò)模型,將所有輸入的數(shù)據(jù)進(jìn)行識別與分類。并通過植物殘?jiān)?xì)胞壁形態(tài)來研究鹿攝食習(xí)性,從而鑒定鹿食植物的種類、數(shù)量與成分組成。提高分析效率和鹿種群監(jiān)測的準(zhǔn)確率,為鹿種群監(jiān)測提供一種新的手段和方法。
1 實(shí)驗(yàn)樣本處理方法
1.1 鹿食植物葉片樣本處理方法
本文研究建立的數(shù)據(jù)集有十幾種樹木葉片,這些葉片具有十分復(fù)雜的相似性。為了最大限度地豐富葉片數(shù)據(jù)集[3],從而使利用數(shù)據(jù)集進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型能可以更加充分地學(xué)習(xí)葉片上各種不同的特征,因此本文建立葉片圖像數(shù)據(jù)集時(shí)不僅僅局限于拍攝單一背景的圖片,而是進(jìn)行了更有復(fù)雜背景下的圖片處理。
在收集原始材料的過程中,首先需要摘取葉片較為完整的、葉面紋路較為清晰的植物葉片,然后將這些采集到的葉片樣本放置在純白色的背景板上。為了能夠獲取不同角度下的葉片圖像,本文使用了索尼數(shù)碼相機(jī),在盡可能保證光照、溫度、濕度等外界環(huán)境因素不變的前提下,進(jìn)行了全方位的拍攝,而后在獲取葉片紋路細(xì)節(jié)圖像時(shí),本文采用科密掃描儀對葉片進(jìn)行了圖像掃描,并導(dǎo)出了掃描結(jié)果[4]。
復(fù)雜環(huán)境葉片數(shù)據(jù)的采集工作主要是通過索尼照相機(jī)在野外拍攝完成的。在此過程中,盡量尋找完整的樹木葉片,但并不設(shè)特定拍攝的背景。采集人員根據(jù)樹木葉片的長勢隨機(jī)拍攝,確保拍攝圖片是葉片最真實(shí)生長環(huán)境。但是這種采集方法由于野外環(huán)境的復(fù)雜,經(jīng)常導(dǎo)致獲取的樹木葉片圖像有光照不均、雜亂背景、顯示不全、細(xì)節(jié)不清晰等問題。這些干擾因素也給模型的訓(xùn)練增加了一定的難度。
本文研究建立的數(shù)據(jù)集有十幾種樹木的葉片樣本,部分樣本如圖1 所示。根據(jù)圖可知,不同種類樹木的葉片具有十分復(fù)雜的相似性,具有很多相似的特征,故而葉片在野外環(huán)境下顯得十分相似。這也對卷積神經(jīng)網(wǎng)絡(luò)的性能提出了更高的要求。
1.2 糞便樣本處理方法
在開始制作糞便顯微片前,需要對采集到的糞便進(jìn)行預(yù)處理,首先將采集的馬鹿糞便樣本取出3粒放置在事先準(zhǔn)備的干燥容器中,組成一份復(fù)合樣本,而后將容器放置在烘箱之中,將烘箱溫度調(diào)整至70 ℃,連續(xù)烘干48 h,保證樣本中水分全部蒸發(fā),而后將樣本從烘箱中取出,去除容器,使用80 目或100 目的篩子對其中的樣本進(jìn)行過濾,最終保留小于80 目和大于100 目的樣本。
每種樣本取0.5 g 放入相應(yīng)培養(yǎng)皿中,向培養(yǎng)皿中注入10% 的次氯酸鈉溶液,直至溶液浸沒培養(yǎng)皿2/3。使用玻璃杯將樣本攪拌均勻。密封培養(yǎng)皿8~10 h,打開培養(yǎng)皿,用鑷子將溶液上層透明較薄的薄膜放置于載玻片上,而后用濾紙吸取載玻片上多余次氯酸鈉溶液,用蒸餾水清洗載玻片2~3 遍。將載玻片放在顯微鏡下觀察,若圖像不清晰則繼續(xù)使用蒸餾水沖洗,若圖像清晰則使用甘油封片。鹿食植物細(xì)胞樣本圖像見圖2。
本文采用頻率轉(zhuǎn)換法對制作的馬鹿糞便樣本進(jìn)行分析,首先將糞便纖維片放置在100 倍的光學(xué)顯微鏡下做鏡檢,在每張纖維片的視野中,按照從上到下由左到右的順序選取15~20 個(gè)視野,并記錄每個(gè)視野中出現(xiàn)的植物表皮碎片,該方法可以計(jì)算出每種植物碎片出現(xiàn)的頻率,其數(shù)學(xué)表達(dá)式為
F = 100(1 - e -D) (1)
式(1)中,D 為一種植物表皮碎片的平均密度。
2 網(wǎng)絡(luò)模型
2.1 YOLO 模型
YOLO 模型由Joseph Redmon 等于2016 年首次提出,并分別于2017 年、2018 年、2020 年提出了YOLOv2~YOLOv4 這3 個(gè)改進(jìn)版本;2020 年,Glenn Jocher等提出YOLOv4 的改進(jìn)模型YOLOv5。
與YOLOv1~YOLOv4 相比,YOLOv5[5]增加了自適應(yīng)錨框計(jì)算、矩形推理等功能。同時(shí),可以通過寬度系數(shù)與深度系數(shù)這兩個(gè)參數(shù)來控制模型網(wǎng)絡(luò)的大小,得到Y(jié)OLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 這4 個(gè)模型,從s~x 模型的網(wǎng)絡(luò)深度與寬度逐漸增加,網(wǎng)絡(luò)結(jié)構(gòu)逐漸復(fù)雜,這樣的設(shè)計(jì)可以便捷地選擇模型大小來權(quán)衡目標(biāo)檢測速度與精度,并在模型推理時(shí)采用矩形推理進(jìn)一步提高目標(biāo)檢測速度。最重要的是,將YOLOv1~YOLOv4 中一直沿用的“物體由中心點(diǎn)坐標(biāo)所在的單元格負(fù)責(zé)預(yù)測”思想改進(jìn)為“物體由中心點(diǎn)坐標(biāo)所在的單元格與最近的兩個(gè)單元格負(fù)責(zé)預(yù)測”,這一改進(jìn)增加了正負(fù)樣本數(shù)量,加快了網(wǎng)絡(luò)訓(xùn)練的收斂速度。
本文采用YOLOv5 模型6.0 版本中的YOLOv5s 模型進(jìn)行實(shí)驗(yàn),其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3 所示。
2.2 注意力機(jī)制
注意力機(jī)制早期應(yīng)用于圖像領(lǐng)域,其原理是通過模擬人類的視覺中注意力的處理方式,篩選出圖像中重要的部分,從而更好地對圖像做出判斷。隨著圖像識別技術(shù)的不斷發(fā)展,注意力機(jī)制被廣泛應(yīng)用于自然語言處理、目標(biāo)檢測、語義分割等諸多圖像識別方向[6]。在目標(biāo)檢測中引入注意力機(jī)制理論上可以使模型聚焦于圖像中的關(guān)鍵信息,過濾無關(guān)信息,節(jié)省計(jì)算資源,同時(shí)提升模型對小目標(biāo)的檢測效果。
注意力機(jī)制(Squeeze-and-Excitation,SE)[7]主要包括Squeeze 和Excitation 兩部分操作,注重特征圖中通道信息的重要性差異,使模型自適應(yīng)地調(diào)整對各通道的注意力權(quán)重。
卷積注意力機(jī)制(Convolutional Block AttentionModule,CBAM)主要包括通道注意力(Channel Atten AttentionModule,CAM)和空間注意力(Spatial AttentionModule,SAM)兩個(gè)順序的子模塊,CBAM 在輸入特征圖的基礎(chǔ)上依次融合了沿通道和空間兩種維度上的注意力權(quán)重,并分別與輸入特征相乘得到新的特征,有利于提取特征圖上的重要信息。
坐標(biāo)注意力機(jī)制(Coordinate Attention,CA)[8]主要包括坐標(biāo)信息嵌入(Coordinate Information Embedding)和坐標(biāo)注意力生成(Coordinate Attention Generation)兩部分操作,在避免龐大計(jì)算開銷的同時(shí)增大感受野。
基于規(guī)范化的注意力機(jī)制(Normalization-basedAttention Module,NAM)[6],利用權(quán)重的貢獻(xiàn)因子來改善注意力機(jī)制的性能。NAM使用批歸一化的比例因子來表示權(quán)重的重要性,可有效避免使用上述SE、CBAM 模塊中的全連接層和卷積層。具體來講,NAM采用CBAM的模塊集成,重新設(shè)計(jì)了通道和空間注意力子模塊,然后將NAM模塊嵌入每個(gè)網(wǎng)絡(luò)塊的末端[9]。
2.3 損失函數(shù)
目標(biāo)檢測領(lǐng)域常用的目標(biāo)框回歸損失函數(shù)有IoULoss(Intersection over Union,交并比)、GIoU Loss(GeneralizedIoU)、DIoU Loss(Distance IoU)、CIoU Loss(CompleteIoU)等,IoU 表示目標(biāo)真實(shí)框與預(yù)測框的交集與兩者并集之比。IoU 的損失函數(shù)數(shù)學(xué)表達(dá)式如公式(2)所示。
3 基于YOLOv5 的鹿食植物細(xì)胞識別方法
本文將SE、CBAM、CA、NAM 這4 種注意力模塊分別引入圖3所示的CSP1-2和CSP1-3當(dāng)中,并且比較其性能的提升程度,最終選擇CBAM模塊。并且在考慮預(yù)測框回歸的速度和精度綜合的情況下,該實(shí)驗(yàn)在輸出層選擇用DIoU_Loss 作為邊界框回歸損失函數(shù),加快邊界框回歸的速率以及提高定位精度,加快對弱小目標(biāo)的檢測速率。
表1 中YOLOv5s 代表使用YOLOv5s 模型獲得的實(shí)驗(yàn)數(shù)據(jù),YOLOv5s_CBAM 代表本文提出的模型在實(shí)驗(yàn)中獲得的實(shí)驗(yàn)數(shù)據(jù),根據(jù)數(shù)據(jù)不難看出,在草木、灌木、喬木、針葉四大類別中,本文提出的模型對比原始模型精確度與召回率均有提升,對于所有類別而言,本文提出的YOLOv5s_CBAM模型精確率提升了18.1%,召回率提升了11.1%,mAP@.5 提升了3.4%,mAP@.5:.95 提升了5.1%,YOLOv5s_CBAM 模型在各個(gè)性能評估指標(biāo)的上升說明了在主干網(wǎng)絡(luò)之后CBAM注意力機(jī)制后,有效增強(qiáng)了特征信息。
4 結(jié)語
對鹿種群數(shù)量進(jìn)行研究,有助于了解鹿的種群生態(tài)和生活史,也有利于動物的管理和保護(hù)。記錄瀕危物種在一段時(shí)間內(nèi)覓食植物種類的變化,有助于保護(hù)區(qū)或管理人員對該物種的保護(hù)措施做出相應(yīng)的調(diào)整。
本文首先建立了基本的鹿食植物葉片圖像特征庫與鹿食植物表皮碎片圖像特征庫。而后提出了一種鹿食植物識別方法,該方法結(jié)合鹿食植物細(xì)胞分類特征,針對鹿食植物細(xì)胞數(shù)據(jù)樣本少,類間差別小與目標(biāo)尺寸小導(dǎo)致的檢測精度低、效果不佳等問題該方法在原有YOLOv5s 模型的基礎(chǔ)上,加入了注意力機(jī)制模塊與DIoU_Loss損失函數(shù)模塊,從而提高了模型的檢測效率。