摘 要 東北虎(Panthera tigris altaica)作為世界上最大的貓科(Felidae)動物,同時也是瀕危物種,其個體識別是回答進(jìn)化生物學(xué)中許多重大問題的關(guān)鍵步驟。盡管目前已提出虹膜和DNA分析等傳統(tǒng)方法用于東北虎個體識別,但這些方法在遠(yuǎn)程獲取和樣本收集方面面臨挑戰(zhàn),且在很大程度上依賴人工識別。隨著計算機(jī)視覺技術(shù)的發(fā)展,深度學(xué)習(xí)成為動物個體識別的強(qiáng)大工具。因此,提出使用基于深度學(xué)習(xí)的方法進(jìn)行東北虎個體識別。首先收集黑龍江東北虎林園20只東北虎個體的監(jiān)控視頻圖像,然后采用Mask R-CNN算法對每張圖像中的特征區(qū)域進(jìn)行自動檢測與分割,以構(gòu)建東北虎條紋數(shù)據(jù)集(Amur tiger stripe dataset,ATSD),最后在該數(shù)據(jù)集的基礎(chǔ)上分別應(yīng)用基于CNN和Transformer的多個分類網(wǎng)絡(luò)獨(dú)立地對東北虎個體進(jìn)行識別。結(jié)果表明:基于Transformer的分類網(wǎng)絡(luò)對東北虎條紋的識別準(zhǔn)確率達(dá)到91. 49%,取得了更好的識別性能。該方法在降低拍攝條件下,對復(fù)雜環(huán)境具有良好的適用性,具有擴(kuò)展生態(tài)學(xué)調(diào)查和非侵入性抽樣設(shè)計的潛力,為野生動物的保護(hù)和管理提供技術(shù)支持。
關(guān)鍵詞:東北虎;個體識別;條紋識別;深度學(xué)習(xí);Transformer
中圖分類號:Q958; TP391. 4; TP183
文獻(xiàn)標(biāo)志碼:A
文章編號:2310 - 1490(2024)- 04 - 0734 - 10
DOI:10.12375/ysdwxb.20240406
東北虎(Panthera tigris altaica)不僅是現(xiàn)存的5個虎亞種之一[1],也是我國一級重點保護(hù)野生動物[2],被世界自然保護(hù)聯(lián)盟(IUCN)瀕危物種紅色名錄評估為瀕危(EN)物種[3],目前主要分布在俄羅斯東南部,在中國東北部的中俄邊境和朝鮮邊境有少量種群[4]。大多數(shù)關(guān)于動物種群行為和生態(tài)學(xué)的研究都要求受試者具有個體可識別性,動物個體識別的研究不僅是回答進(jìn)化生物學(xué)中許多問題的關(guān)鍵步驟,也是衡量實施保護(hù)計劃成功的先決條件[5]。此外,東北虎個體識別可為人虎沖突的管理和東北虎的保護(hù)提供重要技術(shù)支持。起初,研究人員使用傳統(tǒng)方法,如DNA[6]、足跡[7]和氣味[8]等對東北虎進(jìn)行個體識別。然而,在東北虎種群密度低和非損傷性取樣條件有限的情況下,這類方法在采集糞便和毛發(fā)樣本上變得困難且檢測率普遍較低。此外,傳統(tǒng)方法需要投入大量人力與時間,且在很大程度上依賴操作者的經(jīng)驗,存在主觀性問題。
隨著計算機(jī)視覺與人工智能的不斷發(fā)展,深度學(xué)習(xí)(deep learning)技術(shù)在動物個體識別等領(lǐng)域取得了巨大進(jìn)展[9]。何東健等[10]在擠奶間的通道上方安裝攝像機(jī)采集奶牛的背部圖像,基于改進(jìn)的YOLO v3算法對擠奶廳中89頭奶牛進(jìn)行個體識別,其識別準(zhǔn)確率為95. 91%。Freytag et al.[11]使用CZoo和C-Tai 黑猩猩(Pan troglodytes)數(shù)據(jù)集,訓(xùn)練AlexNet卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),使用C-Tai 數(shù)據(jù)集的識別準(zhǔn)確率達(dá)到75. 66%,而在C-Zoo數(shù)據(jù)集上則達(dá)到91. 99%。Han?sen et al.[12]使用CNN進(jìn)行農(nóng)場豬面部識別,準(zhǔn)確率達(dá)到96. 7%。Hou et al.[13]開發(fā)了一種基于CNN 的新型人臉識別模型來識別大熊貓(Ailuropoda mela?noleuca)個體,該模型準(zhǔn)確率達(dá)到95. 0%。CNN在動物個體鑒定的工作中獲得了較好的識別效果,其準(zhǔn)確性遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的學(xué)習(xí)算法和人工水平。
基于深度學(xué)習(xí)的方法目前是東北虎個體識別任務(wù)中的重要方法,它無須復(fù)雜的圖像預(yù)處理即可自動從輸入的動物圖像中學(xué)習(xí)有利于鑒別的特征。東北虎作為眾多可通過個體生物學(xué)特征識別的物種之一,其條紋是身體表面的重要特征[14],它類似于人類指紋,具有唯一性[15]。此外,東北虎條紋的紋理還具有不變性,即東北虎從出生到死亡,其紋理的特性不受大小、體型的影響[16]。由于沒有傳統(tǒng)方法的上述缺點,條紋識別已成為近年來的熱門研究課題[17]。Shi et al.[18]構(gòu)建了一個9層CNN對東北虎體側(cè)條紋圖像進(jìn)行自動個體識別的方法,但該方法只對在可控條件下拍攝到的東北虎進(jìn)行個體識別,難以應(yīng)用到復(fù)雜的野外環(huán)境。
因此,分別采用基于CNN[19]和Transformer[20]的分類方法用于東北虎的個體識別。首先,收集監(jiān)控環(huán)境下的東北虎個體影像來構(gòu)建東北虎個體識別數(shù)據(jù)集,降低對拍攝條件的要求,促進(jìn)所開發(fā)的算法對復(fù)雜環(huán)境具有良好的適用性。隨后,分別采用主流的基于CNN 和Transformer 的分類方法對東北虎進(jìn)行個體自動識別,并驗證東北虎體側(cè)條紋的識別準(zhǔn)確性。此外,為了減少復(fù)雜背景對識別性能的影響,采用Mask R-CNN方法來檢測并分割東北虎的身體條紋圖像,用于分類網(wǎng)絡(luò)進(jìn)行東北虎個體識別。試驗結(jié)果表明:相比于CNN 網(wǎng)絡(luò),基于Transformer 的東北虎個體識別網(wǎng)絡(luò)獲得了更好的識別性能。這也是首次利用Transformer方法對東北虎個體識別研究進(jìn)行的成功嘗試。這將極大地擴(kuò)展生態(tài)學(xué)調(diào)查和非侵入性抽樣設(shè)計,加快對大規(guī)模和長期生態(tài)學(xué)研究的大數(shù)據(jù)分析。
1 數(shù)據(jù)采集與制作
1. 1 數(shù)據(jù)采集
實驗數(shù)據(jù)來自2022年黑龍江東北虎林園內(nèi)部署的監(jiān)控攝像頭的影像圖片。東北虎林園位于黑龍江省哈爾濱市松北區(qū)(45°49′ N,126°36′ E),面積約80 hm2,有近1 000只人工飼養(yǎng)繁育的純種東北虎。實驗影像圖片由監(jiān)控攝像頭側(cè)視(約90°)捕獲(圖1)。由于光線、天氣及東北虎出現(xiàn)在鏡頭內(nèi)的不確定性等因素,采用Cascade R-CNN[21]目標(biāo)檢測算法對視頻數(shù)據(jù)進(jìn)行無目標(biāo)及鏡頭污染視頻的篩選和去除,共保留并剪輯了20 只東北虎個體的434 個有效視頻,每個視頻時長約為2 s,視頻為MP4格式,視頻幀速率為25 f/s。從每個序列視頻中每隔1幀提取1張幀圖像,并從提取圖像中隨機(jī)抽取4張用于東北虎條紋數(shù)據(jù)集的構(gòu)建,共得到1 736張圖像樣本,按照4∶1的比例劃分為訓(xùn)練集和驗證集。該數(shù)據(jù)集可以作為研究人員進(jìn)行東北虎個體識別算法開發(fā)和評估的資源。
1. 2 東北虎體側(cè)條紋檢測與分割
在東北虎個體識別中,準(zhǔn)確提取體側(cè)條紋圖像至關(guān)重要。然而,由于東北虎不受人為控制和快速位置變動等客觀原因,傳統(tǒng)人工方法面臨諸多挑戰(zhàn),如圖片數(shù)量差異大、圖像質(zhì)量不佳等,且耗時耗力[22]。Mask R-CNN[23]算法作為一種基于深度學(xué)習(xí)的端到端模型,能夠通過其多分支結(jié)構(gòu)、對多尺度特征的有效處理和對復(fù)雜場景的適應(yīng)性,從大量數(shù)據(jù)中學(xué)習(xí)到復(fù)雜和抽象的特征,考慮其在目標(biāo)檢測和實力分割領(lǐng)域的卓越表現(xiàn),采用該算法實現(xiàn)東北虎的自動檢測與分割,以獲得東北虎體側(cè)條紋圖像,算法的主要流程如圖2所示。
具體而言,在Mask R-CNN中,特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)以ResNet-50 為主干從東北虎圖像中提取特征圖,并通過自下而上和自上而下的特征傳播將不同尺度的特征有機(jī)地結(jié)合在一起,生成特征金字塔。根據(jù)特征圖,區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)用于生成包含候選對象的區(qū)域建議框(region proposals)。RoI Align 的作用主要是為每個區(qū)域建議取得的特征能夠更好地對齊原圖上的感興趣區(qū)域(region of interest,RoI)。最終,對于每個區(qū)域建議,采用了一個三分支網(wǎng)絡(luò),其中,分類分支與邊界框回歸分支分別獲得東北虎的類別概率和東北虎個體的位置信息。掩膜分支是一個應(yīng)用于每個RoI的全卷積網(wǎng)絡(luò)(fully convolutionalnetwork,F(xiàn)CN),用于預(yù)測每個RoI上的像素級二進(jìn)制分割掩碼,它與用于分類和邊界框回歸的分支并行(圖2)。為了更好地獲得東北虎體側(cè)軀干條紋圖像,根據(jù)掩碼在原圖上的映射分割出東北虎的輪廓,同時找到其重心。最終,確定期望的軀干條紋邊界框的左上角與右下角坐標(biāo),從而獲得東北虎軀干條紋圖像,獲得的條紋圖像樣例如圖3所示。通過引入Mask R-CNN技術(shù),不僅能夠更高效地自動提取東北虎圖像,還為后續(xù)的個體識別任務(wù)提供了可靠的輸入數(shù)據(jù)。
2 東北虎自動個體識別
目前,盡管基于深度學(xué)習(xí)的方法在動物個體識別領(lǐng)域已經(jīng)取得了一些重要進(jìn)展,但是基于深度學(xué)習(xí)的東北虎自動個體識別研究還相對較少。因此,對東北虎軀干條紋數(shù)據(jù)集進(jìn)行訓(xùn)練,比較了不同CNN和Transformer網(wǎng)絡(luò)在東北虎個體識別任務(wù)上的性能,并分別選取最佳模型來評估東北虎條紋個體識別。
2. 1 基于卷積神經(jīng)網(wǎng)絡(luò)的東北虎個體識別
CNN是一個典型的基于最小化預(yù)處理數(shù)據(jù)要求而產(chǎn)生的區(qū)分性深度結(jié)構(gòu),當(dāng)具有相同參數(shù)的神經(jīng)元應(yīng)用于前一層的不同位置時,就可以獲取一種變換不變性特征[24]。傳統(tǒng)的圖像分類方法通常需要手動提取特征信息,這一過程既繁瑣又耗時。然而,CNN 方法的端到端建模和學(xué)習(xí)能力顛覆了傳統(tǒng)的“特征+分類器學(xué)習(xí)”模式,使得特征提取和分類器不再具有明確的邊界,二者在CNN中實現(xiàn)了一體化學(xué)習(xí),自動提取特征,顯著提高了效率。
CNN的結(jié)構(gòu)主要由輸入層、卷積層、池化層和全連接層等組成(圖4)。卷積層作為CNN的核心運(yùn)算單元,主要由卷積核構(gòu)成,每個卷積核代表一組可學(xué)習(xí)的權(quán)重,通過不同的權(quán)重值從原始輸入數(shù)據(jù)中提取特征信息。池化層的作用是對數(shù)據(jù)進(jìn)行降維處理,去除一些無關(guān)緊要的信息,降低參數(shù)個數(shù),提高計算效率。全連接層則負(fù)責(zé)對卷積層和池化層的輸出進(jìn)行高維特征提取,經(jīng)過非線性映射后輸出最終的東北虎識別結(jié)果。
采用5 種流行的CNN 進(jìn)行個體識別,包括AlexNet[25]、GoogLeNet[26]、MobileNets[27]、ResNet-18[28]和EfficientNet[29],旨在比較不同CNN 架構(gòu)的性能,并根據(jù)經(jīng)驗找到性能最佳的模型,以支持東北虎個體識別。為消除參數(shù)的影響,在所有CNN架構(gòu)中均使用交叉熵?fù)p失函數(shù)[30]測量東北虎預(yù)測身份分布和真實分布之間的差異。
2. 2 基于Transformer 的東北虎個體識別
Transformer是Google在2017年提出的一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),在自然語言處理(natural language processing,NLP)領(lǐng)域有著統(tǒng)治級表現(xiàn),主要依靠自注意力機(jī)制[31]來對內(nèi)部特征信息進(jìn)行提取,能夠更好地捕捉長距離的紋理關(guān)系。東北虎的條紋具有復(fù)雜的結(jié)構(gòu)和變化,CNN可能在處理長距離依賴性時存在局限,使得性能稍遜,而Transformer模型能夠在全局范圍內(nèi)理解這些紋理特征,提高個體識別的準(zhǔn)確性。此外,Transformer在人工智能領(lǐng)域顯示出了巨大的應(yīng)用潛力,但在東北虎個體識別領(lǐng)域,Transformer網(wǎng)絡(luò)尚未有很好的應(yīng)用。因此,預(yù)比較應(yīng)用于圖像分類任務(wù)中的Vision Trans?former(ViT)[32]和一種滑窗操作的層級架構(gòu)模型Swin Transformer[33]的性能,并選擇一個適用于東北虎條紋個體識別的最優(yōu)模型,將其首次應(yīng)用在東北虎個體識別任務(wù)上。
鑒于ViT在更細(xì)粒度圖像識別上表現(xiàn)不佳,以及存在計算復(fù)雜度較高等問題,經(jīng)過實驗驗證后決定采用Swin Transformer 作為主要識別網(wǎng)絡(luò)。通過引入對無重疊窗口區(qū)域進(jìn)行自注意力計算的策略,采用移動窗口的方式,成功實現(xiàn)了全局建模的能力,并顯著降低了計算量。所采用的Swin Transformer模型架構(gòu),包含Patch Partition、線性嵌入層(LinearEmbeding)、Swin Transformer Block 和塊合并層(Patch Merging)等組件(圖5)。該模型采用層次化設(shè)計,共包含4 個階段,其中第一階段(stage 1)由Linear Embeding和2個Swin Transformer Block組成,其余3 個階段由Patch Merging 和多個Swin Trans?former Block 結(jié)構(gòu)組成。具體而言,首先,圖像經(jīng)過Patch Partition 操作被劃分為非重疊等尺寸的圖像塊,即每4 × 4相鄰的像素為1個Patch,然后在通道方向展平。Linear Embeding 用于將圖像塊進(jìn)行嵌入,并對每個像素的通道數(shù)據(jù)進(jìn)行線性變換。隨后,在每一個Block中,通過自注意力機(jī)制提取圖像的關(guān)鍵特征。通過Patch Merging下采樣操作,特征圖的寬度和高度被縮減,同時通道數(shù)增加。通過多次的Block塊和Patch Merging操作,模型能夠逐步提取圖像的深層特征。最終,通過全連接層將這些特征映射到最終的特征空間。
每個Swin Transformer 塊的具體結(jié)構(gòu)如圖6 所示,它由層歸一化(layer normalization,LN)、窗口多頭自注意力(window multi-head self-attention,WMSA)、多層感知機(jī)(multi-layer perceptron,MLP)和滑動窗口多頭自注意力(shifted window multi-head selfattention,SW-MSA)組成。LN模塊用于對輸入特征進(jìn)行歸一化處理,確保不同通道的特征具有相似的分布;W-MSA 將輸入特征圖分割成等大小的局部塊,通過自注意力計算捕捉全局關(guān)系;MLP模塊是一個全連接前饋網(wǎng)絡(luò),通過多個全連接層和激活函數(shù),對特征進(jìn)行復(fù)雜的非線性變換,以允許模型更靈活地學(xué)習(xí)特征表示;SW-MSA會在局部塊之間使用一定的重疊方式進(jìn)行窗口移動,以捕捉局部信息。通過LN、W-MSA、MLP和SW-MSA的逐次作用,實現(xiàn)了對窗口內(nèi)特征的建模和整合。
Swin Transformer塊的計算公式為
z?l = W - MSA [ LN (zl - 1 ) ] + zl - 1, (1)
zl = MLP [ LN (z?l ) ] + z?l, (2)
z?l + 1 = SW - MSA [ LN (z1 ) ] + zl, (3)
zl + 1 = MLP [ LN (z?l + 1 ) ] + z?l + 1。(4)
式中:z?l 和zl 分別表示第l 個Block 的W-MSA、SWMSA和MLP 模塊的輸出特征。在每個Swin Trans?former Block中,首先對輸入特征zl - 1 進(jìn)行W-MSA計算,并與原始輸入zl - 1 相加得到z?l,以實現(xiàn)全局交互和信息融合;然后,通過MLP對上一步得到的特征z?l進(jìn)行非線性變換,并再次與z?l 相加得到zl;接下來,采用SW-MSA對zl 進(jìn)行局部交互和融合,并將其與zl 相加得到z?l + 1;最后,再次通過MLP對特征z?l + 1 進(jìn)行非線性變換,并與之相加,得到最終的輸出特征zl + 1。同時,每個計算過程均通過LN對特征進(jìn)行歸一化操作。上述計算過程結(jié)合了多頭自注意力機(jī)制和非線性變換,充分利用了全局和局部信息,使網(wǎng)絡(luò)提取到具有高級語義的特征表示。
3 結(jié)果與分析
3. 1 實驗設(shè)置
實驗平臺的硬件配置包括Inter中央處理器和NVIDIA GeForce RTX 3090顯卡,以確保實驗的高性能和可比性。實驗中所有代碼均采用Python編寫,并在PyTorch框架上運(yùn)行。為了保持各個網(wǎng)絡(luò)的可比性,保持了相同的參數(shù)設(shè)置,并分別加載在Ima?geNet上進(jìn)行預(yù)訓(xùn)練的權(quán)重,以初始化這些參數(shù)。實驗中,訓(xùn)練周期設(shè)置為200,batch size為16,并采用SGD[34]作為網(wǎng)絡(luò)的優(yōu)化器。為了更有效地訓(xùn)練模型,采用余弦退火策略[35]調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率被設(shè)定為0. 01,最小學(xué)習(xí)率為10-7,而權(quán)重衰減設(shè)為10-4。此外,為了減輕數(shù)據(jù)集劃分對性能的影響,對每個網(wǎng)絡(luò)分別進(jìn)行10次實驗。
3. 2 評價指標(biāo)
為了評估識別準(zhǔn)確性,采用Top-1和Top-5準(zhǔn)確率作為評價指標(biāo)。Top-1準(zhǔn)確率是被列為第一候選的正確東北虎數(shù)量的百分比[36];Top-5是衡量模型預(yù)測中前五高概率的準(zhǔn)確性。Top-1與Top-5的準(zhǔn)確率公式表示為
式中:M 為測試集所有樣本的數(shù)量,maxi為數(shù)值最大的前i 個置信度對應(yīng)的標(biāo)簽,R 為判斷函數(shù),若預(yù)測的標(biāo)簽pj內(nèi)含有真實標(biāo)簽c 為1,反之為0。
3. 3 結(jié)果
為了評估CNN 與Transformer 模型在東北虎個體識別上的性能,在條紋數(shù)據(jù)集上進(jìn)行了驗證。圖7A展示了訓(xùn)練集上的損失值隨迭代次數(shù)的變化,圖7B 則展示了驗證集上的識別精度。由圖7 可知,CNN和Transformer模型通過反向傳播算法持續(xù)計算全局最優(yōu)值、更新卷積核參數(shù),逐漸降低損失值并穩(wěn)定(圖7A);每種方法的識別準(zhǔn)確率隨著訓(xùn)練周期的增加而提高,當(dāng)達(dá)到一定的訓(xùn)練數(shù)時,識別精度趨于穩(wěn)定(圖7B)。在CNN網(wǎng)絡(luò)中,AlexNet、GoogLeNet、MobileNets、ResNet-18和EfficientNet相對表現(xiàn)較好,而MobileNets的準(zhǔn)確度較低。具體的識別準(zhǔn)確率如表1所示。在CNN方法中,EfficientNet展現(xiàn)了最佳的預(yù)測性能,達(dá)到了90. 43% 的Top-1 準(zhǔn)確率。因此,基于經(jīng)驗選擇EfficientNet作為基于CNN的東北虎個體識別方法。在基于Transformer 的方法中,Swin Transformer 性能不僅優(yōu)于Vision Transformer,而且其識別準(zhǔn)確率高于其他CNN模型。
為了分析對每只東北虎個體的識別效果,通過混淆矩陣進(jìn)行可視化,橫軸表示東北虎預(yù)測身份ID,縱軸表示實際身份ID,發(fā)現(xiàn)識別準(zhǔn)確率較高的Efficient?Net方法與Swin Transformer方法均在身份ID為17的東北虎識別上存在明顯偏差(圖8),容易產(chǎn)生誤識別,而對其他個體大多能夠?qū)崿F(xiàn)良好的識別效果。
4 討論
智能保護(hù)和準(zhǔn)確監(jiān)測大型貓科動物種群和個體是動物保護(hù)領(lǐng)域中至關(guān)重要的問題,開發(fā)一種準(zhǔn)確、可靠和自動的東北虎個體識別方法具有重要意義。在以往的個體識別過程中,如DNA、足跡等個體識別方法通常需要人工處理以提取特征區(qū)域再進(jìn)行識別,過程繁瑣耗時,且嚴(yán)重依賴于人的主觀性。隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,許多方法已被用于個體識別[37]。因此,本研究采用CNN對東北虎圖像實現(xiàn)了自動檢測與特征區(qū)域定位,有效提高了特征提取的效率和準(zhǔn)確性。此外,本研究還初步探索了使用Transformer方法對東北虎個體進(jìn)行識別,并驗證了該方法的有效性?;谏疃葘W(xué)習(xí)方法的東北虎個體識別研究不僅能夠極大地增強(qiáng)基于圖像或視頻的個體監(jiān)測和長期大數(shù)據(jù)分析[38],還可以為研究東北虎行為模式和社會機(jī)制提供新的思路,從而為其保護(hù)提供更全面的支持。
在基于圖像的動物個體識別領(lǐng)域,圖像預(yù)處理被認(rèn)為是至關(guān)重要的步驟,且深度學(xué)習(xí)方法對訓(xùn)練樣本的數(shù)量高度依賴。然而,對采集到的圖像數(shù)據(jù)進(jìn)行處理有時可能耗費(fèi)大量時間與人力。因此,本研究采用Mask R-CNN算法準(zhǔn)確地分割出東北虎個體的身體條紋圖像。盡管用于目前數(shù)據(jù)集中的各種網(wǎng)絡(luò)都實現(xiàn)了相對較高的精度,但對于不同圖像數(shù)量的個體而言,仍存在一定的性能差異。如對17號東北虎與其他虎個體的圖像數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)17號東北虎的圖像數(shù)量相對較少,且身體條紋圖像的一部分可能被植被遮擋或分辨率較低(圖3),這些因素都可能對東北虎個體識別準(zhǔn)確性產(chǎn)生影響。
為了進(jìn)一步推進(jìn)這項研究,研究組將從三方面做出努力:(1)數(shù)據(jù)集的擴(kuò)充。擴(kuò)大東北虎個體樣本規(guī)模和每個個體的圖像數(shù)量,以避免過度擬合;同時,提高圖像質(zhì)量,從而提升模型的準(zhǔn)確性和穩(wěn)定性。(2)模型識別性能的提升。對個體識別模型進(jìn)行改進(jìn)以提高模型的泛化能力和東北虎個體識別的準(zhǔn)確率。(3)野外場景的應(yīng)用?;谠摲椒ǖ挠行耘c實用性,未來考慮將該項研究應(yīng)用到自動紅外相機(jī)的野外場景中,以實現(xiàn)東北虎體況監(jiān)測和行為監(jiān)測等。
5 結(jié)論
本研究利用CNN和Transformer模型,致力于通過東北虎軀干條紋進(jìn)行個體識別。為了實現(xiàn)準(zhǔn)確的個體識別,采用Mask R-CNN算法對從黑龍江東北虎林園收集的每張圖像中的特征區(qū)域進(jìn)行自動檢測與定位,并對東北虎軀干條紋實現(xiàn)了準(zhǔn)確分割,成功構(gòu)建了東北虎條紋數(shù)據(jù)集。隨后分別在該數(shù)據(jù)集上應(yīng)用多種CNN和Transformer分類網(wǎng)絡(luò),實現(xiàn)對東北虎個體的自動識別。結(jié)果顯示,相較于時下主流的CNN識別方法,Transformer方法提高了對東北虎條紋的個體識別效果,識別準(zhǔn)確率達(dá)到91. 49%。值得注意的是,這是首次成功嘗試?yán)肨ransformer進(jìn)行東北虎個體識別。對于未來,應(yīng)收集更多的東北虎圖像,考慮一些更復(fù)雜的網(wǎng)絡(luò),并嘗試應(yīng)用于野生東北虎個體識別中。該方法能夠應(yīng)用于東北虎的長期監(jiān)測中,包括對該物種的行為進(jìn)行數(shù)據(jù)分析,并為其他野生動物的個體識別提供有益經(jīng)驗。
致謝:感謝黑龍江東北虎林園的領(lǐng)導(dǎo)、國家林業(yè)和草原局貓科動物研究中心和東北林業(yè)大學(xué)貓科動物智能監(jiān)測小組的大力支持與辛勤付出!
參考文獻(xiàn):
[1] ALIBHAI S K, GU J Y, JEWELL Z C, et al.‘ I know the tiger byhis paw’: a non-invasive footprint identification technique formonitoring individual Amur tigers (Panthera tigris altaica) insnow[J]. Ecological Informatics, 2023, 73: 101947.
[2] 國家林業(yè)和草原局, 農(nóng)業(yè)農(nóng)村部. 國家重點保護(hù)野生動物名錄(2021 年2 月1 日修訂)[J]. 野生動物學(xué)報, 2021, 42(2):605-640.
National Forestry and Grassland Administration, Ministry of Agri?culture and Rural Affairs. List of national key protected wild ani?mals( revised on February 1, 2021)[J]. Chinese Journal of Wild?life, 2021, 42(2): 605-640.
[3] GOODRICH J, T. WIBISONO H, MIQUELLE D, et al. Pan?thera tigris[J/OL]. The IUCN Red List of Threatened Species,2022: e. T15955A214862019[2024-01-17]. https://dx. doi. org/10. 2305/IUCN. UK. 2022-1. RLTS. T15955A214862019. en.
[4] QI J Z, HOLYOAK M, NING Y, et al. Ecological thresholds andlarge carnivores conservation: implications for the Amur tiger andleopard in China[J]. Global Ecology and Conservation, 2020,21: e00837.
[5] LOOS A, ERNST A. An automated chimpanzee identification sys?tem using face detection and recognition[J]. EURASIP Journal onImage and Video Processing, 2013, 2013(1): 49.
[6] CARAGIULO A, PICKLES R S A, SMITH J A, et al. Tiger(Panthera tigris) scent DNA: a valuable conservation tool for indi?vidual identification and population monitoring[J]. ConservationGenetics Resources, 2015, 7: 681-683.
[7] GU J Y, ALIBHAI S K, JEWELL Z C, et al. Sex determinationof Amur tigers (Panthera tigris altaica) from footprints in snow[J]. Wildlife Society Bulletin, 2014, 38(3): 495-502.
[8] KERLEY L L. Using dogs for tiger conservation and research[J].Integrative Zoology, 2010, 5(4): 390-396.
[9] SCHNEIDER S, TAYLOR G W, KREMER S C, et al. Bulk ar?thropod abundance, biomass and diversity estimation using deeplearning for computer vision[J]. Methods in Ecology and Evolu?tion, 2022, 13(2): 346-357.
[10] 何東健, 劉建敏, 熊虹婷, 等. 基于改進(jìn)YOLO v3模型的擠奶奶牛個體識別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2020, 51(4):250-260.
HE D J, LIU J M, XIONG H T, et al. Individual identificationof dairy cows based on improved YOLO v3[J]. Transactions ofthe Chinese Society for Agricultural Machinery, 2020, 51(4):250-260.
[11] FREYTAG A, RODNER E, SIMON M, et al. Chimpanzee facesin the wild: log-euclidean CNNs for predicting identities and attri?butes of primates[C]//ROSENHAHN B, ANORES B. Patternrecognition: 38th German Conference, GCPR 2016,Hannover,Germany, September 12-15, 2016, Proceedings. Cham: Springer,2016, 9796: 51-63.
[12] HANSEN M F, SMITH M L, SMITH L N, et al. Towards onfarmpig face recognition using convolutional neural networks[J]. Computers in Industry, 2018, 98: 145-152.
[13] HOU J, HE Y X, YANG H B, et al. Identification of animal in?dividuals using deep learning: a case study of giant panda[J].Biological Conservation, 2020, 242: 108414.
[14] HIBY L, LOVELL P, PATIL N, et al. A tiger cannot change itsstripes: using a three-dimensional model to match images of liv?ing tigers and tiger skins[J]. Biology Letters, 2009, 5(3):383-386.
[15] SHI C M, XU J, ROBERTS N J, et al. Individual automatic de?tection and identification of big cats with the combination of differ?ent body parts[J]. Integrative Zoology, 2023, 18(1): 157-168.
[16] 顧佳音, 劉輝, 姜廣順. 東北虎(Panthera tigris altaica)個體識別技術(shù)研究進(jìn)展[J]. 野生動物, 2013, 34(4): 229-237; 248.
GU J Y, LIU H, JIANG G S. A review of potential techniquesfor indentifying individual Amur tigers(Panthera tigris altaica)[J]. Chinese Journal of Wildlife, 2013, 34(4): 229-237; 248.
[17] KUMAR S, SINGH S K. Cattle recognition: a new frontier in vi?sual animal biometrics research[J]. Proceedings of the NationalAcademy of Sciences, India Section A: Physical Sciences,2020, 90(4): 689-708.
[18] SHI C M, LIU D, CUI Y L, et al. Amur tiger stripes: individualidentification based on deep convolutional neural network[J]. In?tegrative Zoology, 2020, 15(6): 461-470.
[19] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-basedlearning applied to document recognition[J]. Proceedings of theIEEE, 1998, 86(11): 2278-2324.
[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention isall you need[EB/OL]. arXiv: 1706. 03762[2024-01-10]. http://arxiv. org/abs/1706. 03762.
[21] CAI Z W, VASCONCELOS N. Cascade R-CNN: delving intohigh quality object detection[EB/OL]. arXiv: 1712. 00726[2024-01-10]. http://arxiv. org/abs/1712. 00726.
[22] 張雪瑩, 張浩林, 韓瑩瑩, 等. 基于深度學(xué)習(xí)的野生動物監(jiān)測與識別研究進(jìn)展[J]. 野生動物學(xué)報, 2022, 43(1):251-258.
ZHANG X Y, ZHANG H L, HAN Y Y, et al. Research prog?ress of the wildlife monitoring and identification based on deeplearning[J]. Chinese Journal of Wildlife, 2022, 43(1):251-258.
[23] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[EB/OL]. arXiv: 1703. 06870[2024-01-10]. http://arxiv. org/abs/1703. 06870.
[24] 徐波, 劉成林, 曾毅. 類腦智能研究現(xiàn)狀與發(fā)展思考[J]. 中國科學(xué)院院刊, 2016, 31(7): 793-802.
XU B, LIU C L, ZENG Y. Research status and developments ofbrain-inspired intelligence[J]. Bulletin of Chinese Academy ofSciences, 2016, 31(7): 793-802.
[25] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNetclassification with deep convolutional neural networks[J]. Com?munications of the ACM, 2017, 60(6): 84-90.
[26] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolu?tions[EB/OL]. arXiv: 1409. 4842[2024-01-10]. http://arxiv. org/abs/1409. 4842.
[27] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: effi?cient convolutional neural networks for mobile vision applications[EB/OL]. arXiv: 1704. 04861[2024-01-10]. http://arxiv. org/abs/1704. 04861.
[28] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learningfor image recognition[EB/OL]. arXiv: 1512. 03385[2024-01-10]. http://arxiv. org/abs/1512. 03385.
[29] TAN M X, LE Q V. EfficientNet: rethinking model scaling forconvolutional neural networks[EB/OL]. arXiv: 1905. 11946[2024-01-10]. http://arxiv. org/abs/1905. 11946.
[30] ZHANG Z L, SABUNCU M R. Generalized cross entropy lossfor training deep neural networks with noisy labels[EB/OL].arXiv: 1805. 07836[2024-01-10]. http://arxiv. org/abs/1805.07836.
[31] PARIKH A, T?CKSTR?M O, DAS D, et al. A decomposableattention model for natural language inference[EB/OL]. arXiv:1606. 01933[2024-01-10]. http://arxiv. org/abs/1606. 01933.
[32] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An im?age is worth 16×16 words: Transformers for image recognition atscale[EB/OL]. arXiv: 2010. 11929[2024-01-10]. http://arxiv.org/abs/2010. 11929.
[33] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: hierarchicalvision Transformer using shifted windows[EB/OL]. arXiv:2130. 14030[2024-01-10]. http://arxiv. org/abs/2130. 14030.
[34] BOTTOU L. Large-scale machine learning with stochastic gradi?ent descent[C]//LECHEVALLIER Y, SAPORTA G. Proceed?ings of COMPSTAT′2010. Paris: Physica-Verlag HD, 2010:177-186.
[35] LOSHCHILOV I, HUTTER F. SGDR: Stochastic gradient de?scent with warm restarts[EB/OL]. arXiv: 1608. 03983[2024-01-10]. http://arxiv. org/abs/1608. 03983.
[36] MA G K, WU L G, WANG Y. A general subspace ensemblelearning framework via totally-corrective boosting and tensorbasedand local patch-based extensions for gait recognition[J].Pattern Recognition, 2017, 66: 280-294.
[37] CIHAN P, SAYGILI A, OZMEN N E, et al. Identification andrecognition of animals from biometric markers using computer vi?sion approaches: a review[J]. Kafkas Universitesi VeterinerFakultesi Dergisi, 2023, 29(6): 581-593.
[38] GUO S T, XU P F, MIAO Q G, et al. Automatic identificationof individual Primates with deep learning techniques[J].iScience, 2020, 23(8): 101412.
基金項目:國家重點研發(fā)計劃子課題/子任務(wù)項目(2023YFF130500203);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項基金項目(2572021BF08,2572022DS04)