孫 崢,張素才,馬喜波
基于全局時(shí)空編碼網(wǎng)絡(luò)的猴類動(dòng)物行為識(shí)別
孫 崢1,2,張素才3,馬喜波1,2
(1. 中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué)人工智能學(xué)院,北京 100049;3. 北京昭衍新藥研究中心股份有限公司,北京 100176)
猴類動(dòng)物行為的準(zhǔn)確量化是臨床前藥物安全評(píng)價(jià)的一個(gè)基本目標(biāo)。視頻中猴類動(dòng)物行為分析的一個(gè)重要路徑是使用目標(biāo)的骨架序列信息,然而現(xiàn)有的大部分骨架行為識(shí)別方法通常在時(shí)間和空間維度分別提取骨架序列的特征,忽略了骨架拓?fù)浣Y(jié)構(gòu)在時(shí)空維度的整體性。針對(duì)該問(wèn)題,提出了一種基于全局時(shí)空編碼網(wǎng)絡(luò)(GSTEN)的骨架行為識(shí)別方法。該方法在時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)的基礎(chǔ)上,并行插入全局標(biāo)志生成器(GTG)和全局時(shí)空編碼器(GSTE)來(lái)提取時(shí)間和空間維度的全局特征。為了驗(yàn)證提出的GSTEN性能,在自建的猴類動(dòng)物行為識(shí)別數(shù)據(jù)集上開(kāi)展實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)在基本不增加模型參數(shù)量的情況下,準(zhǔn)確率指標(biāo)達(dá)到76.54%,相較于基準(zhǔn)模型ST-GCN提升6.79%。
行為識(shí)別;骨架序列;全局時(shí)空編碼網(wǎng)絡(luò);猴類動(dòng)物;藥物安全評(píng)價(jià)
在臨床前藥物安全評(píng)價(jià)中,猴類動(dòng)物在用藥前后的行為變化是必不可少的觀測(cè)指標(biāo)[1-3]。長(zhǎng)時(shí)間的人為觀察在成本和隨機(jī)性方面均存在不可忽視的缺陷。因此需要研發(fā)可行的人工智能方法對(duì)猴類動(dòng)物表現(xiàn)出來(lái)的與藥物安全評(píng)價(jià)相關(guān)的行為進(jìn)行實(shí)時(shí)、定量分析。目前針對(duì)人類的行為識(shí)別方法已經(jīng)得到了廣泛發(fā)展,然而在猴類動(dòng)物上相關(guān)方法的研發(fā)卻發(fā)展緩慢。因此,使用人工智能方法自動(dòng)識(shí)別猴類動(dòng)物的行為對(duì)臨床前藥物安全評(píng)價(jià)具有重要的現(xiàn)實(shí)意義和應(yīng)用前景。
近些年,一些學(xué)者使用人工智能方法進(jìn)行了動(dòng)物行為識(shí)別任務(wù)的研究[4-5],并在各自的動(dòng)物數(shù)據(jù)集上達(dá)到了較高的性能指標(biāo),但在臨床前藥物安全評(píng)價(jià)場(chǎng)景中,猴類動(dòng)物行為識(shí)別任務(wù)仍有一些特有問(wèn)題亟待解決。如,猴類動(dòng)物所處的場(chǎng)景單一、背景擾動(dòng)、光照變化以及目標(biāo)外觀差異較小,導(dǎo)致連續(xù)的視頻幀和光流圖中包含冗余信息。此外,猴類動(dòng)物的行為識(shí)別需要充分考慮動(dòng)作在時(shí)空維度的整體性。針對(duì)此,本文使用猴類動(dòng)物的骨架序列信息進(jìn)行行為識(shí)別,并提出基于全局時(shí)空編碼網(wǎng)絡(luò)(global spatiotemporal encode network,GSTEN)的骨架行為識(shí)別方法。該方法本質(zhì)是使用訓(xùn)練好的姿態(tài)估計(jì)模型對(duì)一段視頻中的每一幀進(jìn)行關(guān)鍵點(diǎn)的識(shí)別,再基于上述關(guān)鍵點(diǎn)形成的骨架序列信息進(jìn)行行為識(shí)別,其中骨架序列信息包括每一幀中目標(biāo)關(guān)鍵點(diǎn)的二維坐標(biāo)和置信概率。骨架行為識(shí)別方法關(guān)注目標(biāo)的肢體動(dòng)作變化,丟棄了視頻背景和目標(biāo)外觀中的冗余信息,降低了數(shù)據(jù)對(duì)模型參數(shù)量的要求。然而,現(xiàn)有的大部分骨架行為識(shí)別方法[6]通常在時(shí)間和空間維度分別提取骨架序列的特征,忽略了骨架拓?fù)浣Y(jié)構(gòu)在時(shí)空維度的整體性。本文在時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatial temporal graph convolutional network,ST-GCN)[6]和Transformer[7]等相關(guān)工作的基礎(chǔ)上提出基于GSTEN的猴類動(dòng)物骨架行為識(shí)別方法。該網(wǎng)絡(luò)主要包括ST-GCN和全局時(shí)空編碼器(global spatiotemporal encoder,GSTE)。其中,ST-GCN負(fù)責(zé)提取時(shí)空維度的局部特征來(lái)識(shí)別簡(jiǎn)單動(dòng)作;GSTE由少量的線性算子和自注意力計(jì)算模塊組成,對(duì)時(shí)空維度的全局特征進(jìn)行建模分析進(jìn)而識(shí)別一些困難動(dòng)作。同時(shí)可作為即插即用的輕量級(jí)模塊來(lái)配合骨架行為識(shí)別模型ST-GCN使用,提高模型在時(shí)空維度整體性建模分析的能力。實(shí)驗(yàn)結(jié)果證明,GSTEN在基本不增加模型參數(shù)量的情況下,可以顯著提高基準(zhǔn)模型ST-GCN的行為識(shí)別準(zhǔn)確率,并且優(yōu)于其他的基于視頻幀和基于骨架序列的行為識(shí)別方法。
人類行為識(shí)別任務(wù)通常是識(shí)別一段視頻中包含的行為類別。由于視頻中包含豐富的信息,不同方法利用不同角度的信息對(duì)視頻中的行為進(jìn)行建模分析,如外觀、光流以及骨架等。SIMONYAN和ZISSERMAN[8]提出經(jīng)典雙流網(wǎng)絡(luò),以模仿人類大腦皮層理解視頻信息的機(jī)制,在處理視頻幀圖像空間信息的基礎(chǔ)上,對(duì)視頻時(shí)序信息也做了建模理解。單獨(dú)的視頻幀可作為表述空間信息的載體,包括背景和目標(biāo)外觀等空間信息,被稱為空間卷積網(wǎng)絡(luò);另光流圖作為時(shí)序信息的載體輸入到另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)中,用來(lái)理解行為的動(dòng)態(tài)特征,稱為時(shí)間卷積網(wǎng)絡(luò)。針對(duì)行為識(shí)別任務(wù)中的長(zhǎng)范圍依賴問(wèn)題,WANG等[9]在經(jīng)典雙流網(wǎng)絡(luò)的基礎(chǔ)上提出了稀疏時(shí)間采樣和視頻級(jí)監(jiān)督策略,即從整個(gè)視頻段中稀疏采樣一系列片段來(lái)促使模型學(xué)習(xí)行為的全局特征。HARA等[10]在2D CNN ResNet[11]的基礎(chǔ)上拓展了一個(gè)時(shí)間維度得到3D卷積網(wǎng)絡(luò)。ResNet3D在提取時(shí)間維度特征的同時(shí)還使用了2D網(wǎng)絡(luò)中的一系列技巧,如使用殘差結(jié)構(gòu)來(lái)緩解梯度消失問(wèn)題。TRAN等[12]在ResNet3D的基礎(chǔ)上進(jìn)一步將3D卷積核分解為2個(gè)獨(dú)立且連續(xù)的操作:2D空間卷積和1D時(shí)間卷積。卷積分解不僅減少了模型運(yùn)算參數(shù),同時(shí)提高了模型的擬合能力。FEICHTENHOFER等[13]探索了視頻的高低幀率對(duì)行為識(shí)別的影響,設(shè)計(jì)了低幀率的慢支路來(lái)捕獲空間維度的語(yǔ)義信息以及高幀率的快支路捕獲時(shí)間維度的運(yùn)動(dòng)信息。
上述方法輸入的模型是視頻幀或視頻幀中的光流圖。由于受背景擾動(dòng)、光照變化以及目標(biāo)外觀差異的影響,完整輸入的視頻幀或光流圖中存在一些信息冗余。近些年一些學(xué)者開(kāi)始使用視頻中目標(biāo)的骨架序列信息來(lái)識(shí)別目標(biāo)的行為,其識(shí)別方法大致分為4類:基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、基于CNN、基于圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)以及基于Transformer的方法。ZHU等[14]將每個(gè)關(guān)鍵點(diǎn)形成的時(shí)間序列輸入到RNN中,同時(shí)使用稀疏連接的全連接層來(lái)融合不同RNN輸出的特征,最后使用函數(shù)對(duì)提取的特征進(jìn)行分類。LI等[15]使用雙流卷積神經(jīng)網(wǎng)絡(luò)提取骨架偽圖像在時(shí)間和空間上的局部特征,最后融合時(shí)空維度的特征來(lái)識(shí)別行為。文獻(xiàn)[6]提出了ST-GCN,首次將GCN用于骨架行為識(shí)別。ST-GCN模型對(duì)幀內(nèi)骨架拓?fù)浣Y(jié)構(gòu)進(jìn)行空間卷積,對(duì)幀間關(guān)鍵點(diǎn)序列進(jìn)行時(shí)間卷積來(lái)提取時(shí)空維度的局部特征。SHI等[16]在ST-GCN的基礎(chǔ)上提出了一種雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(two-stream adaptive graph convolutional networks,2s-AGCN),其中自適應(yīng)指圖的拓?fù)浣Y(jié)構(gòu)可以由梯度反傳算法進(jìn)行端到端的學(xué)習(xí)。這種數(shù)據(jù)驅(qū)動(dòng)的方法增加了圖構(gòu)造的靈活性,使模型可以適應(yīng)各種數(shù)據(jù)版本。PLIZZARI等[17]提出時(shí)空Transformer (spatial temporal transformer,ST-TR),該方法將骨架的拓?fù)浣Y(jié)構(gòu)和關(guān)鍵點(diǎn)形成的時(shí)間序列分別輸入Transformer模型以提取時(shí)空維度的全局特征。ZHANG等[18]提出STST模型,在空間維度和時(shí)間維度上分別使用特定的Transformer模型來(lái)捕捉整個(gè)骨架的動(dòng)態(tài)變化,同時(shí)提出自監(jiān)督學(xué)習(xí)模塊提高模型對(duì)于殘缺的骨架結(jié)構(gòu)和擾亂的視頻幀序列等情況的魯棒性。
動(dòng)物行為識(shí)別任務(wù)是識(shí)別一段視頻中目標(biāo)動(dòng)物的行為類別,其方法可分為單階段和兩階段方法。單階段方法直接使用3D (或2D)卷積核來(lái)提取視頻中目標(biāo)動(dòng)物行為的局部特征,再使用全連接層輸出對(duì)應(yīng)的行為類別,缺點(diǎn)是很多與行為無(wú)關(guān)的冗余信息也會(huì)輸入到模型當(dāng)中,增加了模型參數(shù)量和運(yùn)算量,且易導(dǎo)致模型的誤識(shí)別。文獻(xiàn)[4]構(gòu)建了家豬的行為識(shí)別數(shù)據(jù)集PBVD-5,其包含5類行為:喂食、躺臥、運(yùn)動(dòng)、抓及攀爬。同時(shí),基于SlowFast[13]的時(shí)空卷積網(wǎng)絡(luò)對(duì)家豬行為進(jìn)行建模分析。兩階段方法首先從視頻的每一幀提取目標(biāo)的關(guān)鍵點(diǎn)并得到骨架序列,再對(duì)目標(biāo)的骨架信息進(jìn)行分析得到行為類別,缺點(diǎn)是需耗費(fèi)大量的時(shí)間。文獻(xiàn)[5]提出恒河猴3D姿態(tài)估計(jì)數(shù)據(jù)集,需先對(duì)3D姿態(tài)信息進(jìn)行降維,再對(duì)降維后的特征進(jìn)行聚類分析得到恒河猴的6類行為:站立、行走、攀爬、顛倒攀爬、坐下和跳躍。
臨床前藥物安全評(píng)價(jià)場(chǎng)景下,猴類動(dòng)物行為識(shí)別任務(wù)有如下特點(diǎn):
(1) 猴類動(dòng)物行為識(shí)別數(shù)據(jù)集中的連續(xù)視頻幀包含冗余信息。在臨床前藥物安全評(píng)價(jià)中,猴類動(dòng)物通常在室內(nèi)的鐵籠中,導(dǎo)致行為識(shí)別數(shù)據(jù)集中的場(chǎng)景較單一,視頻背景擾動(dòng)和光照變化小。此外,相同品種不同猴類動(dòng)物個(gè)體的外觀非常相似,如恒河猴的毛發(fā)普遍呈棕黃色,食蟹猴的毛發(fā)一般為灰白色。如圖1所示,視頻數(shù)據(jù)中背景擾動(dòng)、光照變化以及目標(biāo)外觀差異較小,導(dǎo)致連續(xù)的視頻幀中包含冗余信息。特別地,一些運(yùn)動(dòng)量較小的行為(如蹲坐、扶立)對(duì)應(yīng)的連續(xù)視頻幀序列冗余信息較明顯。
(2) 猴類動(dòng)物行為識(shí)別需要考慮時(shí)空維度的全局信息。在臨床前藥物安全評(píng)價(jià)場(chǎng)景下,一些猴類動(dòng)作定義需要考慮全局的空間和時(shí)間信息。特別地,在時(shí)間維度上,攀爬行為初始動(dòng)作類似于蹲坐或扶立,訓(xùn)練時(shí)提取前幾幀的特征可能會(huì)導(dǎo)致模型誤識(shí)別,如圖1(c)中向下攀爬行為的前四幀和圖1(a)中蹲坐行為類似??臻g維度上,如蹲坐行為的腳踝和臀部對(duì)應(yīng)的關(guān)鍵點(diǎn)聯(lián)系緊密,然而在ST-GCN中無(wú)法建模骨架上非直接連接的關(guān)鍵點(diǎn)之間的聯(lián)系。此外,一些動(dòng)作需要考慮骨架上不同關(guān)鍵點(diǎn)在不同時(shí)刻的聯(lián)系,如四肢觸地行走(行走動(dòng)作可以視為四肢關(guān)鍵點(diǎn)的周期性運(yùn)動(dòng))和僅下肢觸地扶立的局部特征相似,但在空間行走時(shí)四肢距離更近,且行走動(dòng)作具有時(shí)序信息。現(xiàn)有的一些基于Transformer的骨架行為識(shí)別方法[17-18]針對(duì)時(shí)空維度分別提取全局特征,無(wú)法建模骨架不同關(guān)鍵點(diǎn)在不同時(shí)刻的聯(lián)系。
與視頻幀序列不同的是,骨架時(shí)序信息只關(guān)注目標(biāo)的肢體動(dòng)作,丟棄了背景以及外觀中的冗余信息,降低了行為識(shí)別任務(wù)對(duì)模型參數(shù)量的要求。因此,本文使用猴類動(dòng)物的骨架序列信息進(jìn)行行為識(shí)別,并針對(duì)行為的時(shí)空整體性問(wèn)題,進(jìn)一步提出GSTEN對(duì)猴類動(dòng)物的行為進(jìn)行整體性建模分析。
圖1 猴類動(dòng)物行為識(shí)別數(shù)據(jù)集中的不同行為樣本((a)蹲坐;(b)扶立;(c)向下攀爬;(d)懸掛)
經(jīng)逐幀的骨架信息提取,可得到每一個(gè)視頻樣本的骨架序列表示。假設(shè)視頻的幀數(shù)為,關(guān)鍵點(diǎn)個(gè)數(shù)為,則每一個(gè)視頻樣本的骨架序列信息可表示為一個(gè)維度為××的張量,其中=3表示每一個(gè)關(guān)鍵點(diǎn)的特征維數(shù)。考慮到猴類動(dòng)物的動(dòng)作普遍較快,需統(tǒng)一設(shè)置=150,不足幀的樣本視頻通過(guò)從頭回放的方式進(jìn)行填充,超過(guò)幀的樣本視頻直接截取前幀作為輸入。
本文利用GSTE來(lái)提取猴類動(dòng)物骨架序列信息的全局特征。與原始的Transformer[7]不同的是,GSTE首先舍棄了Transformer中的解碼器,只使用串聯(lián)的編碼器來(lái)提取全局時(shí)空特征。其次,在每個(gè)單獨(dú)的編碼器中使用一個(gè)線性變換來(lái)連接自注意力(self-Attention,SA)模塊和前饋神經(jīng)網(wǎng)絡(luò)(FeedForward network,F(xiàn)FN),該線性變換將SA特征變換為原始輸入特征的維數(shù),變換后的特征在后續(xù)的FFN中完成“編碼-解碼”過(guò)程。因此,本文提出的GSTE在單個(gè)編碼器內(nèi)部完成“編碼器編碼特征-解碼器解碼推理”的過(guò)程。此外,還設(shè)計(jì)了一個(gè)全局標(biāo)志生成器(global token generator,GTG)來(lái)處理骨架序列。與現(xiàn)有的一些基于Transformer的骨架行為識(shí)別方法(如ST-TR[17]和STST[18]模型)分別從空間和時(shí)間維度提取全局特征不同的是,GTG將骨架序列信息視為一個(gè)整體。GTG不僅考慮了同一時(shí)刻的不同關(guān)鍵點(diǎn)以及同一關(guān)鍵點(diǎn)在不同時(shí)刻之間的聯(lián)系,還對(duì)骨架空間拓?fù)浣Y(jié)構(gòu)處于不同時(shí)刻的不同關(guān)鍵點(diǎn)之間的聯(lián)系做了建模分析??傊珿STE在單個(gè)編碼器中完成了“編碼-解碼”過(guò)程,同時(shí)使用GTG進(jìn)一步增強(qiáng)編碼器對(duì)骨架序列整體性建模分析的能力。
圖2 全局時(shí)空編碼器
本文在人體骨架行為識(shí)別模型ST-GCN[6]的基礎(chǔ)上提出GSTEN。如圖3所示,GSTEN由4部分組成,主網(wǎng)絡(luò)為ST-GCN模型,其負(fù)責(zé)提取骨架序列信息時(shí)空維度的局部特征來(lái)識(shí)別簡(jiǎn)單動(dòng)作;在ST-GCN模型上并行插入全局標(biāo)志生成器和個(gè)串聯(lián)的輕量級(jí)模塊GSTE,GSTE針對(duì)骨架序列信息時(shí)空維度的全局特征進(jìn)行建模分析,進(jìn)而識(shí)別一些困難動(dòng)作;最后融合提取到的全局特征和局部特征,將其輸入到行為分類器中進(jìn)行分類。
圖3 全局時(shí)空編碼網(wǎng)絡(luò)
其中,為序列拼接。
猴類動(dòng)物骨架序列信息通過(guò)ST-GCN支路可以提取時(shí)空維度的局部特征,通過(guò)GSTE支路提取全局特征,最后對(duì)兩類特征加權(quán)融合進(jìn)行行為識(shí)別。這種并行連接GSTE的網(wǎng)絡(luò)結(jié)構(gòu)在幾乎不增加模型參數(shù)量的情況下,可以顯著提高行為識(shí)別準(zhǔn)確率。具體地,ST-GCN模型由10個(gè)串聯(lián)連接的時(shí)空卷積模塊(spatial temporal convolution module,STCM)組成。每一個(gè)STCM包括空間卷積和時(shí)間卷積。空間卷積可為
圖4 全局標(biāo)志生成器
其中,為某一個(gè)關(guān)鍵點(diǎn)的時(shí)序信息;為時(shí)間卷積參數(shù)矩陣;d為時(shí)間卷積變換后的特征維數(shù)。在本文的猴類動(dòng)物場(chǎng)景中,節(jié)點(diǎn)相關(guān)性矩陣為
本文建立的猴類動(dòng)物行為識(shí)別數(shù)據(jù)集見(jiàn)表1,包括臥倒、蹲坐、行走、向上跳躍、向下跳躍、向上攀爬、向下攀爬、懸掛、扶立以及攀附10類行為。將采集的猴類動(dòng)物行為識(shí)別數(shù)據(jù)集按照3∶1的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。評(píng)價(jià)指標(biāo)采用準(zhǔn)確率=N/×100%,其中為驗(yàn)證集的總樣本數(shù),N為驗(yàn)證集中模型預(yù)測(cè)正確的樣本數(shù)。
表1 猴類動(dòng)物行為識(shí)別數(shù)據(jù)集
實(shí)驗(yàn)在Geforce RTX2080Ti′8的單節(jié)點(diǎn)服務(wù)器上完成,使用Pytorch v1.8深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。Epoch數(shù)設(shè)置為100,batch-size為16。初始學(xué)習(xí)率為0.1,隨后在40個(gè)epoch和80個(gè)epoch處衰減為原來(lái)的0.1倍。在全局時(shí)空編碼網(wǎng)絡(luò)GSTEN中如果沒(méi)有特別說(shuō)明,則ST-GCN支路特征和GSTE支路特征的加權(quán)和系數(shù)為0.5,即merge=-GCN+×GSTE,其中-GCN和分別表示ST-GCN分支提取的局部時(shí)空特征和GSTE分支提取的全局時(shí)空特征。
本文在猴類動(dòng)物行為識(shí)別數(shù)據(jù)集上對(duì)比了基于視頻幀的行為識(shí)別方法、基于骨架序列的行為識(shí)別方法以及GSTEN (表2),一些基于視頻幀的方法如SlowFast[13]等在數(shù)據(jù)集上的性能指標(biāo)明顯低于骨架行為識(shí)別模型ST-GCN。I3D[21]方法的性能優(yōu)于ST-GCN,但模型的參數(shù)量和運(yùn)算量更多。特別地,TimeSformer[22]模型的準(zhǔn)確率達(dá)到最高的77.16%,但該模型的參數(shù)量和運(yùn)算量遠(yuǎn)多于其他基于視頻幀以及基于骨架序列的方法。本文提出的GSTEN在ST-GCN模型的基礎(chǔ)上并行添加GSTE。實(shí)驗(yàn)結(jié)果表明,GSTEN在基本不增加模型參數(shù)量和運(yùn)算量的同時(shí)可以顯著提高基準(zhǔn)模型ST-GCN的準(zhǔn)確率。此外,當(dāng)GSTEN搭配2個(gè)GSTE時(shí),不僅準(zhǔn)確率比ST-GCN高6.79%,且優(yōu)于大部分基于視頻幀和基于骨架序列的行為識(shí)別方法??傊?,本文構(gòu)建的GSTEN在猴類動(dòng)物行為識(shí)別任務(wù)上具有準(zhǔn)確率高、參數(shù)少以及運(yùn)算量小等優(yōu)勢(shì)。
表2 不同方法在猴類動(dòng)物行為識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了驗(yàn)證局部特征和全局特征在猴類動(dòng)物行為識(shí)別任務(wù)上的適用性,本文對(duì)GSTEN的各部分結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn)(表3),并分別對(duì)比了與只使用ST-GCN分支提取局部特征、只使用GSTE分支提取全局特征以及使用GSTEN模型融合局部特征和全局特征三者之間的性能差異。實(shí)驗(yàn)結(jié)果表明,Exp-2中使用1個(gè)GSTE提取全局特征時(shí),模型的準(zhǔn)確率低于Exp-1中使用ST-GCN提取局部特征的結(jié)果。Exp-3中使用2個(gè)GSTE時(shí),模型對(duì)猴類動(dòng)物行為的建模分析能力超過(guò)了ST-GCN。當(dāng)Exp-4和Exp-5中全局特征和局部特征融合時(shí),GSTEN模型超過(guò)單一局部特征或全局特征的結(jié)果,且性能隨著GSTE數(shù)量增加而提升,這表明全局特征和局部特征融合的結(jié)果比單一特征更適合猴類動(dòng)物的行為識(shí)別。
表3 GSTEN消融實(shí)驗(yàn)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
在表3的Exp-5基礎(chǔ)上進(jìn)一步探索ST-GCN支路和GSTE支路的加權(quán)和系數(shù)對(duì)構(gòu)建的GSTEN性能的影響。如圖5所示,當(dāng)<0.5時(shí),ST-GCN分支的特征占比較大,GSTEN模型的準(zhǔn)確率隨著增大而提高;當(dāng)=0.5時(shí),GSTEN模型準(zhǔn)確率達(dá)到最高的76.54%;當(dāng)0.5<<1.0時(shí),GSTEN模型準(zhǔn)確率接近飽和;當(dāng)>1.0時(shí),GSTE分支的特征占據(jù)主導(dǎo)地位,此時(shí)GSTEN模型準(zhǔn)確率稍有下降。以上結(jié)果說(shuō)明GSTEN中ST-GCN分支重要性較GSTE高。原因可能是GSTE分支參數(shù)較少,在建模骨架序列所有關(guān)鍵點(diǎn)之間的聯(lián)系時(shí)出現(xiàn)欠擬合的情況。
圖5 基于不同系數(shù)w的GSTEN準(zhǔn)確率
此外,為了驗(yàn)證本文提出的GSTE具有即插即用的特性,在不同的骨架行為識(shí)別模型上并行插入全局標(biāo)志生成器和2個(gè)GSTE (表4),由于ST-GCN模型缺乏時(shí)空維度整體性建模分析的能力,GSTE應(yīng)用在ST-GCN上可以顯著提升模型的行為識(shí)別準(zhǔn)確率。當(dāng)GSTE應(yīng)用在具有全局空間建模能力的AGCN上時(shí),準(zhǔn)確率相較于ST-GCN提升幅度略有下降,分別為2.47%和3.09%。特別地,當(dāng)MS-G3D-Bone添加GSTE之后模型的準(zhǔn)確率達(dá)到78.40%,超過(guò)本文提出的GSTEN和表2中準(zhǔn)確率最高的CTR-GCN[26]方法。以上結(jié)果表明,GSTE可以作為即插即用的輕量級(jí)模塊配合不同的骨架行為識(shí)別模型使用,并且構(gòu)建的新網(wǎng)絡(luò)在基本不增加模型參數(shù)量的情況下,顯著提高基準(zhǔn)模型在猴類動(dòng)物行為識(shí)別的準(zhǔn)確率。
表4 GSTE對(duì)不同基準(zhǔn)模型的影響
本文進(jìn)一步對(duì)比了不同數(shù)量的GSTE對(duì)模型的影響。表5中Exp-1,Exp-5和Exp-6中GSTE的數(shù)量過(guò)少或過(guò)多,均會(huì)對(duì)模型性能產(chǎn)生影響。Exp-2中使用2個(gè)GSTE提取全局特征時(shí),模型準(zhǔn)確率指標(biāo)達(dá)到最高的71.60%。
表5 GSTE消融實(shí)驗(yàn)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
本文從實(shí)際臨床前藥物安全評(píng)價(jià)場(chǎng)景出發(fā),使用深度學(xué)習(xí)方法對(duì)猴類動(dòng)物行為識(shí)別任務(wù)進(jìn)行了研究,對(duì)人工智能方法在藥物安全評(píng)價(jià)中的應(yīng)用進(jìn)行了積極地探索。首先分析了臨床前藥物安全評(píng)價(jià)場(chǎng)景下,現(xiàn)有人類行為識(shí)別領(lǐng)域基于視頻幀和基于骨架序列的方法應(yīng)用到猴類動(dòng)物的缺陷。并基于這些缺陷,提出了一種基于GSTEN的猴類動(dòng)物行為識(shí)別方法,即插即用的輕量級(jí)GSTE可以搭配骨架行為識(shí)別模型ST-GCN使用,在不增加模型參數(shù)量的同時(shí)提高模型在時(shí)空維度整體性建模分析的能力。最后在生成的猴類動(dòng)物行為識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),對(duì)比了基于視頻幀的行為識(shí)別方法、基于骨架序列的行為識(shí)別方法以及本文提出的GSTEN方法,結(jié)果充分驗(yàn)證了本文方法在臨床前藥物安全評(píng)價(jià)場(chǎng)景猴類動(dòng)物行為識(shí)別任務(wù)上具有準(zhǔn)確率高、參數(shù)少等優(yōu)勢(shì)。
對(duì)于骨架行為識(shí)別方法而言,其前提條件是獲取帶有骨架序列標(biāo)簽的訓(xùn)練數(shù)據(jù)。借助于訓(xùn)練好的姿態(tài)估計(jì)模型,可以大規(guī)模獲取行為視頻中每個(gè)猴類動(dòng)物個(gè)體的骨架信息。然而,使用姿態(tài)估計(jì)模型提取骨架信息再進(jìn)行行為識(shí)別的兩階段過(guò)程比較耗時(shí),且對(duì)于不同的臨床前藥物安全評(píng)價(jià)場(chǎng)景,需要訓(xùn)練魯棒性和泛化性更強(qiáng)的姿態(tài)估計(jì)模型。因此,未來(lái)工作的一個(gè)重點(diǎn)方向是探索更有效的骨架信息獲取方法,如使用一些穿戴式設(shè)備[28]直接獲取猴類動(dòng)物的骨架信息。
[1] PLAGENHOEF M R, CALLAHAN P M, BECK W D, et al. Aged rhesus monkeys: cognitive performance categorizations and preclinical drug testing[J]. Neuropharmacology, 2021, 187: 108489.
[2] BANKS M L, HUTSELL B A, BLOUGH B E, et al. Preclinical assessment of lisdexamfetamine as an agonist medication candidate for cocaine addiction: effects in rhesus monkeys trained to discriminate cocaine or to self-administer cocaine in a cocaine versus food choice procedure[J]. International Journal of Neuropsychopharmacology, 2015, 18(8): pyv009.
[3] EBELING M, KüNG E, SEE A, et al. Genome-based analysis of the nonhuman primate Macaca fascicularis as a model for drug safety assessment[J]. Genome Research, 2011, 21(10): 1746-1756.
[4] LI D, ZHANG K F, LI Z B, et al. A spatiotemporal convolutional network for multi-behavior recognition of pigs[J]. Sensors: Basel, Switzerland, 2020, 20(8): 2381.
[5] BALA P C, EISENREICH B R, YOO S B M, et al. Automated markerless pose estimation in freely moving macaques with OpenMonkeyStudio[J]. Nature Communications, 2020, 11: 4560.
[6] YAN S J, XIONG Y J, LIN D H. Spatial temporal graph convolutional networks for skeleton-based action recognition[EB/OL]. [2021-06-10]. https://arxiv.org/pdf/1801. 07455.pdf.
[7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[8] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// The 27th International Conference on Neural Information Processing Systems - Volume 1. New York: ACM Press, 2014: 568-576.
[9] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[M]//Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016: 20-36.
[10] HARA K, KATAOKA H, SATOH Y. Learning spatio-temporal features with 3D residual networks for action recognition[C]// 2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 3154-3160.
[11] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.
[12] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6450-6459.
[13] FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 6201-6210.
[14] ZHU W T, LAN C L, XING J L, et al. Co-occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks[C]//The 13th AAAI Conference on Artificial Intelligence. New York: ACM Press, 2016: 3697-3703.
[15] LI C, ZHONG Q Y, XIE D, et al. Skeleton-based action recognition with convolutional neural networks[C]//2017 IEEE International Conference on Multimedia & Expo Workshops. New York: IEEE Press, 2017: 597-600.
[16] SHI L, ZHANG Y F, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 12018-12027.
[17] PLIZZARI C, CANNICI M, MATTEUCCI M. Spatial temporal transformer network for skeleton-based action recognition[M]//Pattern Recognition. ICPR International Workshops and Challenges. Cham: Springer International Publishing, 2021: 694-701.
[18] ZHANG Y H, WU B, LI W, et al. STST: spatial-temporal specialized transformer for skeleton-based action recognition[C]//MM '21: The 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 3229-3237.
[19] XIAO B, WU H P, WEI Y C. Simple baselines for human pose estimation and tracking[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 472-487.
[20] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision - ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.
[21] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4724-4733.
[22] BERTASIUS G, WANG H, TORRESANI L. Is space-time attention all You need for video understanding? [EB/OL]. [2021-06-09]. https://arxiv.org/abs/2102.05095.
[23] FEICHTENHOFER C. X3D: expanding architectures for efficient video recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press: 200-210.
[24] FAN H Q, XIONG B, MANGALAM K, et al. Multiscale vision transformers[C]//2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 6804-6815.
[25] LIU Z Y, ZHANG H W, CHEN Z H, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 140-149.
[26] CHEN Y X, ZHANG Z Q, YUAN C F, et al. Channel-wise topology refinement graph convolution for skeleton-based action recognition[C]//2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 13339-13348.
[27] LIU Z Y, ZHANG H W, CHEN Z H, et al. Revisiting skeleton-based action recognition[C]//The IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2022: 2969-2978.
[28] 鄧穎, 吳華瑞, 孫想. 基于機(jī)器視覺(jué)和穿戴式設(shè)備感知的村鎮(zhèn)老年人跌倒監(jiān)測(cè)方法[J]. 西南大學(xué)學(xué)報(bào): 自然科學(xué)版, 2021, 43(11): 186-194.
DENG Y, WU H R, SUN X. Design of a real-time human falling monitoring method for elderly people in villages and towns based on multi-dimensional data analysis[J]. Journal of Southwest University: Natural Science Edition, 2021, 43(11): 186-194 (in Chinese).
Monkey action recognition based on global spatiotemporal encode network
SUN Zheng1,2, ZHANG Su-cai3, MA Xi-bo1,2
(1. CBSR&NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China;2. School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049, China;3. JOINN Laboratories (Beijing) Co., Ltd., Beijing 100176, China)
Accurate quantification of caged monkeys’ behaviors is a primary goal for the preclinical drug safety assessment. Skeleton information is important to the analysis on the behaviors of monkeys. However, most of the current skeleton-based action recognition methods usually extract the features of the skeleton sequence in the spatial and temporal dimensions, ignoring the integrity of the skeleton topology. To address this problem, we proposed a skeleton action recognition method based on the global spatiotemporal encode network (GSTEN). Based on the spatial temporal graph convolutional network (ST-GCN), the proposed method inserted global token generator (GTG) and several global spatiotemporal encoders (GSTE) in parallel to extract the global features in the spatiotemporal dimension. To verify the performance of the proposed method, we conducted experiments on a self-built monkey action recognition dataset. The experimental results show that the proposed GSTEN could achieve an accuracy of 76.54% without increasing the number of model parameters, which was 6.79% higher than the baseline model ST-CGN.
action recognition; skeleton sequence; global spatiotemporal encode network; monkey; drug safety assessment
TP 391
10.11996/JG.j.2095-302X.2022050832
A
2095-302X(2022)05-0832-09
2022-04-15;
2022-06-03
15 April,2022;
3 June,2022
國(guó)家自然科學(xué)基金項(xiàng)目(82090051,81871442);中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)(Y201930)
The Chinese National Natural Science Foundation Projects (82090051, 81871442);The Youth Innovation Promotion Association CAS (Y201930)
孫 崢(1996-),男,碩士研究生。主要研究方向?yàn)樽藨B(tài)估計(jì)和行為識(shí)別等。E-mail:zheng.sun@nlpr.ia.ac.cn
SUN Zheng (1996-), master student. His main research interests cover pose estimation and action recognition, etc. E-mail:zheng.sun@nlpr.ia.ac.cn
馬喜波(1981-),女,研究員,博士。主要研究方向?yàn)槎嗄B(tài)融合的醫(yī)學(xué)成像方法及設(shè)備開(kāi)發(fā)等。E-mail:xibo.ma@nlpr.ia.ac.cn
MA Xi-bo (1981?), researcher, Ph.D. Her main research interests cover development of multi-modal fusion medical imaging methods and equipment, etc. E-mail:xibo.ma@nlpr.ia.ac.cn