国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高分辨率網(wǎng)絡的大熊貓姿態(tài)估計方法

2022-07-25 09:54:48漆愚蘇菡侯蓉劉鵬陳鵬臧航行張志和
獸類學報 2022年4期
關鍵詞:高分辨率關鍵點大熊貓

漆愚 蘇菡 侯蓉 劉鵬 陳鵬* 臧航行 張志和

(1四川師范大學計算機科學學院,成都 610101)(2成都大熊貓繁育研究基地,四川省瀕危野生動物保護生物學重點實驗室,成都 610086)(3四川省大熊貓科學研究院,成都 610081)

人類活動對自然生態(tài)環(huán)境造成的嚴重破壞,直接導致大量物種的滅絕。遷地保護是生物多樣性保護的重要部分,是就地保護重要的補充。掌握遷地保護動物的行為信息能夠更好地評估圈養(yǎng)動物的身心健康以及動物福利(李凱年,2012;周曉等,2013;陳緒玲等,2016)。大熊貓(Ailuropoda melanoleuca)為野生動物保護的旗艦物種之一(Zhanget al.,2007),也是世界上遷地保護最成功的物種之一,其生存狀況受到國內(nèi)外研究者的高度關注。目前,圈養(yǎng)大熊貓面臨生活環(huán)境單一、活動空間狹小、長期面對大量的旅游者等問題。這在某種程度上可能導致大熊貓的行為多樣性降低,刻板行為增加,進而影響大熊貓的正常行為和生產(chǎn)性能表現(xiàn)(周杰瓏等,2012;楊勇等,2019)。在關于動物健康和福利的研究中,行為定量分析起著至關重要的作用,通過對動物持續(xù)監(jiān)測所獲得的行為數(shù)據(jù)進行行為測定和量度分析,能較為準確地反映動物行為隨著生理健康變化而發(fā)生的動態(tài)規(guī)律,是動物行為學研究走向科學化和嚴謹化的重要一步,更是行為學數(shù)學建模的重要基礎(Liuet al.,2006;Rushenet al.,2011;Koolhaas and Van Reenen,2016)。大熊貓的行為與其身體狀態(tài)和健康密切相關,不同的行為會傳遞不同的健康信息。行為是由不同姿態(tài)組合而成的,而姿態(tài)估計是行為分析的一個組成部分(Liet al.,2019),獲取姿態(tài)是了解行為的基礎(陳永康等,2019)。

目前在大熊貓健康監(jiān)測相關研究中,主要采用行為學觀察(Liuet al.,2006)和抽血化驗等生物學方法對大熊貓健康狀況進行監(jiān)測(李才武等,2012)。其中行為學觀察可借助于現(xiàn)代高速攝像機對大熊貓的行為進行實時記錄,但人工手動分析耗時耗力,且對于視頻的記錄觀察存在一定主觀性;抽血化驗方法雖然對大熊貓健康狀態(tài)評估的可靠性較高,但該方法不僅對工作人員有嚴格要求,而且容易引起大熊貓的應激反應,對大熊貓的身心健康帶來負面影響,不宜經(jīng)常性開展(陳艷等,2019)。因此,迫切需要新的技術對大熊貓的行為進行快速智能識別,為輔助評估其健康狀態(tài)提供技術支持。

近年來,隨著計算機技術的發(fā)展,越來越多的研究將先進的計算機視覺技術、圖像處理和模式識別技術應用于野生動物保護。He等(2019)基于小熊貓面部圖像提出了小熊貓個體識別框架以促進自動識別。Wang等(2019)提出了一種深度學習方法用于研究大熊貓面部在性別分類上的可區(qū)分性。Schofield等(2019)提出了一種用于對野生黑猩猩(Pan troglodytes)進行面部檢測、跟蹤和識別的全自動深度學習框架。Feng等(2021)提出使用時空網(wǎng)絡將骨架特征與輪廓特征結(jié)合,自動識別貓科動物的動作,從而對野生貓科動物的保護起到輔助作用。這些研究充分證明了計算機技術在動物保護領域的可行性。

姿態(tài)估計作為計算機視覺技術的熱門領域,目前已取得了不錯的進展,尤其是基于人體的姿態(tài)估計(Toshev and Szegedy,2014;Linet al.,2014;Fanget al.,2017)。姿態(tài)估計主要預測被檢測物體的身體關鍵點聯(lián)系,是姿態(tài)識別和行為分析的前提(張飛宇等,2021)。傳統(tǒng)的人體姿態(tài)估計方法側(cè)重于通過探索目標圖像中關節(jié)之間的幾何關系來實現(xiàn)關節(jié)的檢測(Tianet al.,2012;Pishchulinet al.,2013),但其受限于人工特征的選取以及樹模型的建立,不適用于實際應用。近年來,基于深度神經(jīng)網(wǎng)絡模型的方法取得了進展(Pishchulinet al.,2016;Newellet al.,2016;Caoet al.,2017;Yanget al.,2017;Sunet al.,2019)。目前,基于深度神經(jīng)網(wǎng)絡模型的姿態(tài)估計方法大多采用“編碼—解碼”的網(wǎng)絡形式構建高—低—高分辨率子網(wǎng)串行結(jié)構,通過每一個子網(wǎng)階段先對圖像進行降采樣以得到低分辨率圖像,隨后再通過上采樣提升圖像分辨率,在高—低—高分辨率子網(wǎng)的連接過程中進行特征融合。例如堆疊的沙漏網(wǎng)絡模型(Newellet al.,2016)、級聯(lián)金字塔網(wǎng)絡(Chenet al.,2018)等。然而這些串行網(wǎng)絡結(jié)構在最后高分辨率特征提取階段都需要通過在低分辨率的特征圖上進行上采樣得到高分辨率特征圖,而目前上采樣大多采用雙線性插值、最近鄰插值等方法,在這個過程中難免會損失很多細節(jié)信息。Sun等(2019)提出的HRNet與上述采用串行網(wǎng)絡結(jié)構方法(Newellet al.,2016;Hu and Ramanan,2016;Chenet al.,2018)有很大的不同,它更專注于用學習可靠的高分辨率表示,其網(wǎng)絡在整個過程中保持高分辨率,一定程度上解決了中、低分辨率人體關鍵點檢測準確率低的問題。

與人體姿態(tài)估計相比,動物姿態(tài)估計的研究相對較少。由于標記數(shù)據(jù)的缺乏,Cao等(2019)提出了一種跨域適應方法,將動物姿態(tài)知識從標記的動物類別轉(zhuǎn)換到未標記的動物類別,使用適度的動物姿態(tài)數(shù)據(jù)集將學習到的知識應用于多種動物物種。Mu等(2020)從CAD動物模型生成的合成圖像和真實圖像來應對缺乏標記數(shù)據(jù)的限制,利用空間和時間一致性來引導用未標記的真實圖像合成數(shù)據(jù)進行訓練模型。Li和Lee(2021)設計了一個多尺度域適應模塊,提出了一種從合成的動物數(shù)據(jù)中學習的方法。Li等(2019)基于計算機視覺的牛姿態(tài)自動估計技術并在構建的奶牛圖像數(shù)據(jù)集上建立了3種深度級聯(lián)卷積神經(jīng)網(wǎng)絡模型,用以執(zhí)行牛的姿態(tài)估計。Zhou等(2021)提出了一種基于圖形模型的結(jié)構化上下文增強網(wǎng)絡,對鼠類進行姿態(tài)估計,用于分析鼠類行為。AP-10K是第一個用于一般動物姿態(tài)估計的大規(guī)?;鶞?Yuet al.,2021)。上述關于動物姿態(tài)估計的研究,要么著重于采用域適應的方式解決數(shù)據(jù)匱乏的問題,要么著重于研究農(nóng)場中動物肢體可變形性較弱的動物姿態(tài)估計或者受限環(huán)境下的動物姿態(tài)估計。相比而言,針對大熊貓姿態(tài)估計的研究面臨著大熊貓自身肢體可變形性較強所導致的自遮擋問題以及非受限環(huán)境下的各種挑戰(zhàn),而上述研究并不能完全滿足大熊貓姿態(tài)估計的要求,因此需要進一步結(jié)合大熊貓的特點對其姿態(tài)估計進行針對性研究。

姿態(tài)估計作為動作識別和行為分析的前置任務,是實現(xiàn)動物體況信息的無接觸判別和異常信息預警的關鍵步驟(張飛宇等,2021)。準確的動物姿態(tài)估計是理解動物行為的關鍵。若能采用計算機技術將大熊貓日常生活視頻數(shù)據(jù)進行深度處理,轉(zhuǎn)換成大熊貓的姿態(tài)數(shù)據(jù),后期通過監(jiān)督學習的方法將大熊貓行為姿態(tài)進行快速分類,就可實現(xiàn)大熊貓行為的自動化識別。大熊貓和人體的肢體運動都具有較強的可變形性,使用姿態(tài)估計可以更高效地完成大熊貓姿態(tài)識別和行為分析,可以實現(xiàn)在無人監(jiān)控的情況下,及時發(fā)現(xiàn)大熊貓的身體狀態(tài)變化,了解其行為信息,例如移動速度、站臥時長、活動量等,從而更好地保護大熊貓并提高大熊貓的圈養(yǎng)福利。本文針對大熊貓姿態(tài)估計的研究建立了大熊貓2D姿態(tài)數(shù)據(jù)庫。同時借鑒人體姿態(tài)估計(Sunet al.,2019;Tang and Wu,2019;Yueet al.,2021),將大熊貓數(shù)據(jù)的特點和大熊貓姿態(tài)估計要求相結(jié)合,構建了深度神經(jīng)網(wǎng)絡模型,用于實現(xiàn)大熊貓的姿態(tài)估計算法,可為大熊貓保護提供基礎數(shù)據(jù),輔助評估大熊貓的健康狀態(tài),提升圈養(yǎng)大熊貓的福利水平。

1 研究方法

1.1 數(shù)據(jù)集處理

本文所采集的大熊貓姿態(tài)估計數(shù)據(jù)集,源于在成都大熊貓繁育研究基地拍攝的不同年齡段的大熊貓日常生活視頻。手動選擇包含完整肢體的大熊貓個體,同時具有各種光照、視點、姿態(tài)和輕微遮擋的短視頻作為原始視頻數(shù)據(jù)(圖1a~c),為可用數(shù)據(jù)樣例;舍棄遮擋了大熊貓肢體1/3以上的視頻數(shù)據(jù)(圖1d~f),為不可用數(shù)據(jù)樣例。本文共收集了70只大熊貓的生活視頻122段。將每段視頻數(shù)據(jù)剪輯成約8 s的短視頻,并以30 fps的幀率對每個短視頻進行分幀并每隔10幀抽取1幀作為實驗數(shù)據(jù),總共得到大熊貓圖像6 315幀。

圖1 大熊貓視頻分幀圖像.a~c:可用數(shù)據(jù)樣例;d~f:不可用數(shù)據(jù)樣例Fig.1 Diagram of video framed image of giant panda.a-c:available data samples;d-f:unavailable data samples

為了降低數(shù)據(jù)相關性,本文將同一個視頻下的分幀圖像統(tǒng)一放在訓練集或測試集中。具體地,對來自122段視頻共6 315幀大熊貓姿態(tài)估計數(shù)據(jù)集進行劃分,其中將來自102段視頻的5 152幀圖像用于訓練,將來自另20段視頻的1 163幀圖像用于測試,保證兩者沒有交叉。

本文對大熊貓的18個關鍵點進行定義:耳朵(2),鼻子(1),手臂(6),腿(6),軀干(3),并以左上角和右下角的坐標形式對大熊貓進行目標框標注 (圖2)。

圖2 大熊貓姿態(tài)關鍵點標記.1:右耳;2:左耳;3:鼻子;4:脖子;5:腰背部;6:臀部;7:右肩;8:右肘;9:右前爪;10:左肩;11:左肘;12:左前爪;13:右臀;14:右膝;15:右后爪;16:左臀;17:左膝;18:左后爪;19:大熊貓目標框Fig.2 Diagram of the joint points of the giant panda.1:right ear;2:left ear;3:nose;4:neck;5:back;6:hip;7:right shoulder;8:right elbow;9:right front paw;10:left shoulder;11:left elbow;12:left front paw;13:right hip;14:right knee;15:right hind paw;16:left hip;17:left knee;18:left hind paw;19:the giant panda target box

本研究為圖像中大熊貓姿態(tài)估計,首先根據(jù)數(shù)據(jù)標注,對大熊貓個體進行目標框裁剪,其目的是為了減少背景的影響,讓模型更專注于目標姿態(tài)的學習;其次,為實現(xiàn)大熊貓姿態(tài)的精準估計,本研究在大熊貓關鍵點位置上生成理想高斯映射,這些映射比關節(jié)位置上的單點訓練更有效,它們被用來訓練模型生成每個關節(jié)位置對應的高斯熱力圖。其對應的二維高斯函數(shù)公式為:

其中I表示對應關鍵點是否可見,可見為1,不可見為0。xlabel和ylabel分別為真值關鍵點的位置信息。x和y是圖像上每一個像素的位置。σ為標準差,用于控制函數(shù)的徑向范圍。σ值越大,遠處像素點對中心像素點的影響越大,熱圖上的光圈半徑就越大,反之光圈半徑越小,這個σ值也使圖像中關節(jié)之間有足夠的分離。本文采用σ=3生成對應的高斯熱力圖標簽。

1.2 模型建立

本文提出的大熊貓姿態(tài)估計框架主要分為兩個線性階段(圖3)。第一階段,以HRNet模型為主干并嵌入ASPP模塊(Chenet al.,2017),用以學習大熊貓身體關鍵點通用的共享表示;第二階段,根據(jù)大熊貓關鍵點之間的相關性,構造多分支結(jié)構,每一個分支學習針對每組相關關鍵點的高級特征表示。

圖3 大熊貓姿態(tài)估計總體架構圖.第一階段為共享特征表示,第二階段為多分支結(jié)構學習特定的高級特征表示Fig.3 The proposed giant panda pose estimation framework.The first stage is shared feature representation,the second stage is multi-branched structures for learning specific high-level feature representations

大熊貓姿態(tài)估計體系結(jié)構的處理流程如圖3所示。網(wǎng)絡首先使用卷積層(Conv)和批歸一化(BN)生成特征映射,其目的是學習一個基本特征作為待處理關鍵點信息的初始基本空間。具體來說,輸入圖像被輸入到兩個3×3 Conv層(每個Conv層后跟一個BN層和一個ReLU層)及一個ResNet-Bottleneck層,用于產(chǎn)生嵌入特征空間;緊接著,將生成的256張?zhí)卣鲌D送入HRNet網(wǎng)絡并且僅在高分辨率主干網(wǎng)絡上輸出得到加強后的特征表示,其輸出通道為32。然后將特征表示輸入到ASPP模塊,通過不同空洞率的多個并行空洞卷積層,使模型在擴大感受野的同時獲取多尺度的上下文信息;最后網(wǎng)絡使用一組分支結(jié)構來學習相關部件的特定表示,輸出得到本組各部分的預測熱圖。

1.2.1 大熊貓關鍵點的共享表示階段

采用HRNet作為大熊貓關鍵點共享特征提取階段的主干網(wǎng)絡,通過將高分辨率子網(wǎng)作為第一階段,并逐步并行加入低分辨率子網(wǎng)從而形成更多的階段,同時通過重復跨并行卷積執(zhí)行多尺度融合,使每個由高到低的分辨率表示反復地接收來自其他并行表示的信息,從而產(chǎn)生豐富的高分辨率表示,避免了現(xiàn)有大多數(shù)串聯(lián)結(jié)構方案在最后高分辨率特征提取中所造成的細節(jié)信息丟失。圖4展示了HRNet網(wǎng)絡模型的結(jié)構,從輸入到輸出共分為3個階段,由并行連接的子網(wǎng)構成,每一個子網(wǎng)由上而下,每一級的分辨率都是上一級的一半,同時通道數(shù)增加2倍。由于3個階段相互連接融合使得網(wǎng)絡在保持高分辨率的同時增強了多尺度的信息融合。

由于大熊貓不同身體部位的比例差異較大,需要特征圖能夠捕捉多尺度信息。同時,為解決網(wǎng)絡在特征提取階段為增大感受野而減小特征圖尺寸時存在信息丟失的問題,在HRNet模型末尾加入了ASPP模塊,使模型能夠在不降低分辨率的情況下,增大特征感受野,融合多尺度信息(圖5)。該模塊對傳入的特征表示進行類似空間金字塔形式的常規(guī)卷積,從而捕獲多尺度上的下文信息。具體為ASPP模塊將輸入特征并行輸入到多個不同空洞率的空洞卷積層;此外,針對圖像級特征,采用全局平均池化(Global average pooling,GAP)對輸入特征進行處理并通過1×1 Conv層將通道數(shù)設為32維,然后將特征進行雙線性上采樣到指定空間維度,最后將所有輸出特征進行融合,從而獲得多個尺度的上下文信息。

圖4 HRNet網(wǎng)絡結(jié)構Fig.4 HRNet network structure(Sun et al.,2019)

圖5 ASPP模塊示意圖Fig.5 Diagram of ASPP module(Chen et al.,2017)

1.2.2 大熊貓關鍵點的多分支結(jié)構表示階段

由于大熊貓并不是所有關節(jié)之間的關聯(lián)性一致,對于不相關或相關性較弱的關節(jié),共享特征會降低模型性能,并導致一種負遷移現(xiàn)象(Olivaset al.,2019)。本文將大熊貓姿態(tài)估計設為同質(zhì)多任務學習問題,每個部位的定位作為一個不同的任務,在相關任務之間共享表示,得到更緊湊且更具有泛化能力的模型(Caruana,1997;Ruder,2017;Tang and Wu,2019;Yueet al.,2021)。本文根據(jù)大熊貓的肢體關節(jié)以及顏色信息,將大熊貓關節(jié)點分為5組 (圖6)。

圖6 大熊貓關節(jié)點分組.通過虛線框?qū)⒋笮茇堦P節(jié)點分為5組,同一組的關節(jié)點顏色相同F(xiàn)ig.6 Diagram of the grouping of giant panda joints.The giant panda joint points are divided into 5 groups by the dotted frame,and the joint points of the same group have the same color

具體為將第一階段輸出得到的特征表示輸入到本文預先設定的5個分支中分別用于學習大熊貓相關關鍵點的特定表示。對于每個分支,我們首先應用一個1×1 Conv層進行維度變換,即從32到M(例如M=16)。再緊接N個Residual blocks層(例如N=1),最后再進行1×1 Conv層回歸本組各部分的熱圖。其中,M和N為兩個超參數(shù),分別控制特定層的寬度和深度(Heet al.,2016),在本文中M=32,N=1。

本文將均方誤差(Mean squared error,MSE)作為預測熱力圖與真實熱力圖之間的損失函數(shù)公式:

其中K表示大熊貓關鍵點總數(shù);Pk(x,y)表示第k個關鍵點的預測熱力圖;Gk(x,y)表示第k個關鍵點的真實熱力圖;Ik表示第k個關鍵點是否可見,0為不可見,1為可見。

1.2.3 模型參數(shù)

根據(jù)卷積神經(jīng)網(wǎng)絡模型的特點,為了保證輸入數(shù)據(jù)的共性,我們將原尺寸圖像在高度或?qū)挾壬蠑U展到固定縱橫比,高度∶寬度=1∶1,然后將圖像裁剪到固定尺寸,最終將大熊貓姿態(tài)估計模型輸入尺寸調(diào)整為256×256。同時,為了增強模型的魯棒性,我們在訓練集中使用了數(shù)據(jù)增強,包括隨機旋轉(zhuǎn)(-30°,+30°)、隨機縮放(-40%,+40%)和隨機水平翻轉(zhuǎn)。

本文所用的模型中,采用按需調(diào)整計算學習率,首先將初始學習率設為1e-4,分別在第15、30、55個epoch對學習率進行衰減,學習率變化因子為0.1。同時采用Adam優(yōu)化器算法執(zhí)行梯度優(yōu)化。網(wǎng)絡的輸入尺寸固定為256×256×3,即輸入圖像的長、寬、通道分別是256、256和3。將批次大小設為32,并訓練60個epoch。同時基于本數(shù)據(jù)集,本研究在其他模型(Newellet al.,2016;Xiaoet al.,2018;Sunet al.,2019)上進行實驗,其中Newell等(2016)將初始學習率設為3e-4,并分別在第40、55個epoch對學習率進行衰減,其余參數(shù)均與上述一致。所有實驗均使用Pytorch1.2.0在64位Ubuntu 16.04計算機上運行,CPU為Intel E5-2698 2.20 GHz,GPU為NVIDIA Tesla V100。

1.3 結(jié)果評價標準

在測試集進行測試時,本文采用正確關鍵點百分比(Percentage of correct key points,PCK)作為評估度量,計算檢測關鍵點與其對應真實值間的歸一化距離落在一定范圍內(nèi)的檢測百分比。具體采用PCK@0.05作為評價標準公式:

其中i表示關節(jié)點的編號,di表示第i個關鍵點的預測值和真實值(Ground truth)的歐式距離。d為1個個體的尺度因子。

2 結(jié)果

2.1 基于高分辨率網(wǎng)絡的大熊貓姿態(tài)估計模型

本文首先設計了大熊貓姿態(tài)估計的對比實驗,用于評價本研究方法對大熊貓姿態(tài)估計的檢測性能,結(jié)果見表1。

表1 大熊貓姿態(tài)估計不同模型結(jié)果比較Table 1 Comparison results of pose estimation of giant panda

從結(jié)果可以看出,所有實驗模型對大熊貓耳朵、鼻子的關鍵點檢測精度均達到了90%以上,而對于軀干和腿部的關鍵點檢測精度為68%~79%。與經(jīng)典網(wǎng)絡模型8-Stack-HG、Simple Baseline、HRNet32比較,本文所用模型在大熊貓耳朵、鼻子、軀干以及腿部的檢測結(jié)果均處于最優(yōu)(表1),證明了本文所用模型的有效性。對比模型預測的大熊貓姿態(tài)估計(見圖7)。

圖7 大熊貓姿態(tài)估計預測示例圖.前三列為對比模型預測的大熊貓姿態(tài)估計,第四列為本文所用模型的預測結(jié)果,最后一列為姿態(tài)估計真實值Fig.7 Example image of giant panda pose estimation prediction.The first three columns are the giant panda pose estimates predicted by the comparison model,the fourth column is the prediction result of the model proposed in this paper,and the last column is the true value of the pose estimation

從圖7第2行可以看出,相較于8-Stack-HG和Simple Baseline模型,面對目標前景與背景顏色信息相近,存在背景干擾時,本文所用模型能夠準確地預測出前景目標的關鍵點位置;圖7第4行,當大熊貓存在一定的自遮擋時,相較于HRNet32,本文所用模型也能夠精準地預測出大熊貓關鍵點位置。證明本文大熊貓姿態(tài)估計方法有效且所用模型在復雜環(huán)境下具有一定的魯棒性。

2.2 大熊貓姿態(tài)估計模型的消融實驗

本文第二組實驗為大熊貓姿態(tài)估計模型的消融實驗,用于驗證本文所用模型中各個模塊對大熊貓姿態(tài)估計結(jié)果的影響(表2)。

表2 大熊貓姿態(tài)估計消融實驗結(jié)果Table 2 Results of ablation experiment for giant panda pose estimation

本文以HRNet32為基準模型,通過添加多分支結(jié)構(Multi-Branches)使模型的檢測精度由80.31%提升至80.75%(表2),證明并不是所有大熊貓關節(jié)點都相互依賴、相互關聯(lián),通過對大熊貓的關鍵點進行分組,能夠有效地提高關鍵點檢測的精確度(圖3)。緊接著,通過嵌入ASPP模塊(圖5)使模型捕獲更多的多尺度信息,從而將模型的檢測精度由80.75%提升至81.51%(表2)。最終本文所用模型在PCK@0.05指標下達到了81.51%,檢測精度比基礎網(wǎng)絡模型HRNet32高了1.20%。

本文所用模型在測試集上的輸出結(jié)果,在拍攝角度良好、大熊貓遮擋較小的環(huán)境下,能夠精確地預測大熊貓的姿態(tài)關鍵點(圖8a)。但對于自遮擋嚴重、拍攝角度較差或周遭環(huán)境較暗的圖像,模型的預測性能相對較差,特別是針對大熊貓四肢和軀干的關鍵點預測(圖8b)。

圖8 本研究模型的大熊貓姿態(tài)估計.a:拍攝角度良好,遮擋較小時的模型預測結(jié)果;b:周遭環(huán)境較暗,自遮擋嚴重時的模型預測結(jié)果Fig.8 The giant panda pose estimation of this study model.a:The prediction result of the model with good shooting Angle and small occlusion;b:The prediction result of the model with dark surrounding environment and serious self-occlusion

3 討論

動物的姿態(tài)估計對動物的行為檢測、運動分析以及醫(yī)療救護都很重要,雖然目前有許多基于深度學習的動物研究,但關于動物的姿態(tài)估計很少被提及。本研究聚焦于大熊貓姿態(tài)估計,一旦檢測到給定視頻段中每一幀大熊貓的骨架關鍵點,就可以獲得大熊貓實例的骨架序列,對后續(xù)準確和快速理解大熊貓行為打下堅實基礎。此外,通過姿態(tài)估計還可以實現(xiàn)動物的活動監(jiān)測、跟蹤保護和身份識別(Liuet al.,2019)。

動物的姿態(tài)估計是進行動物姿態(tài)識別、行為分析的前提(張飛宇等,2021),本文利用深度學習的方法,構建了基于高分辨率網(wǎng)絡的大熊貓姿態(tài)估計模型。針對大熊貓不同部位的尺度差異性,本文以HRNet為基礎網(wǎng)絡引入ASPP模塊增強網(wǎng)絡捕獲多尺度信息的能力,其次將大熊貓姿態(tài)估計設為同質(zhì)多任務學習問題,引入多分支結(jié)構來學習特定于每個大熊貓部位組的表征,并在與成都大熊貓繁育研究基地共建的大熊貓姿態(tài)估計數(shù)據(jù)集上取得了較好的結(jié)果(即精確率在PCK@0.05指標下達到了81.51%)。由于大熊貓的視頻數(shù)據(jù)源于非受限條件下的視頻拍攝,因此存在一定的遮擋和光線影響,相較于大熊貓的四肢和軀干部位,大熊貓的頭部有較好的檢測結(jié)果(表1,本研究方法在大熊貓耳朵、鼻子的檢測精度均在98.00%以上,而軀干和四肢的檢測精度分別為75.84%和79.84%)。這是由于在大熊貓的日常活動中,其頭部很少存在遮擋,可見性相對較高,模型能夠很好地捕捉到關鍵點。然而對于大熊貓的四肢,更容易受到周遭環(huán)境的遮擋影響,而軀干部分除環(huán)境遮擋以外,還會受到自身遮擋的影響,致使模型無法很好地學習被遮擋關鍵點的關系。同時由于自遮擋的存在,當大熊貓四肢處于側(cè)面平行狀態(tài)時,模型容易誤標左右肢體位置,導致其預測結(jié)果相對較低。

因此本文仍存在以下局限性:(1)大熊貓姿態(tài)數(shù)據(jù)源于各種視頻數(shù)據(jù),得到的視頻幀的拍攝角度差異較大,大熊貓的尺度也不一樣,在數(shù)據(jù)標注和處理上具有挑戰(zhàn)性,也更為重要。(2)數(shù)據(jù)庫規(guī)模小。大熊貓的姿態(tài)變化多樣且受到自遮擋、光線變化等影響,姿態(tài)估計的有效性仍需在更大規(guī)模數(shù)據(jù)集上進一步評估。(3)目前本文關于大熊貓姿態(tài)估計的研究僅局限于單只大熊貓個體。后續(xù)我們將進一步開展對多只大熊貓個體的姿態(tài)估計研究,這對于研究者準確理解大熊貓繁殖行為和育幼行為都將有重要意義。

猜你喜歡
高分辨率關鍵點大熊貓
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
我們都愛大熊貓
高分辨率合成孔徑雷達圖像解譯系統(tǒng)
雷達學報(2020年3期)2020-07-13 02:27:16
大熊貓
大熊貓也消暑
水中大熊貓
高分辨率對地觀測系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
醫(yī)聯(lián)體要把握三個關鍵點
湘乡市| 喀什市| 莲花县| 荥经县| 嫩江县| 翁源县| 乐都县| 微山县| 康马县| 张家口市| 奉新县| 元阳县| 铜川市| 灵寿县| 平泉县| 黄浦区| 汕尾市| 韶山市| 瑞昌市| 建阳市| 喀喇沁旗| 吉林省| 辽中县| 临夏县| 南木林县| 万州区| 额济纳旗| 昌平区| 深圳市| 武邑县| 正阳县| 昂仁县| 伊金霍洛旗| 图片| 舒城县| 巴东县| 息烽县| 迭部县| 威远县| 重庆市| 台山市|