国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人物交互檢測研究進展綜述

2022-08-25 03:03:34張志瑩吳昆倫
西南交通大學(xué)學(xué)報 2022年4期
關(guān)鍵詞:實例物體人體

龔 勛 ,張志瑩 ,劉 璐 ,馬 冰 ,吳昆倫

(1.西南交通大學(xué)計算機與人工智能學(xué)院,四川 成都 611756;2.西南交通大學(xué)唐山研究生院,河北 唐山063000)

作為視覺理解的子任務(wù),人物交互(humanobject interaction,HOI)檢測往往需要對模糊、復(fù)雜且難以識別的行為進行分析判斷.同樣是利用對象間潛在的關(guān)系來提升分類效果,視覺關(guān)系檢測(visual relationship detection,VRD)使用 < 物體 A,謂語,物體 B > 定義關(guān)系表達(dá)式,會涉及人-人、人-物、物-物等多種目標(biāo)對象的動作關(guān)系組合.而HOI檢測將交互行為限定在人和物之間,謂語也主要集中于動詞范疇,對于行為識別的發(fā)展有顯著的借鑒價值.

HOI檢測旨在利用人體、物體以及人-物對的特征將人與物體之間的交互進行關(guān)聯(lián),從而實現(xiàn)對圖像或視頻中動作的定位及分類.同時,HOI檢測可以與計算機視覺的其他工作協(xié)作以完成復(fù)雜任務(wù),如目標(biāo)檢測、動作檢索[1]、字幕生成[2-3]等,具有廣闊的應(yīng)用前景.

HOI檢測主要通過全局檢測模型將空間、外觀與人體姿態(tài)在內(nèi)的感知信息進行整合,生成場景中人物對的關(guān)系[4-6].近年卷積神經(jīng)網(wǎng)絡(luò)與注意力機制的出現(xiàn)也推動了基于局部身體部位的HOI檢測方法的發(fā)展.此外,研究人員還從語義規(guī)律、視覺相關(guān)性和上下文信息等角度對于圖像理解展開了更為深入的研究.

人物交互檢測首先通過目標(biāo)檢測模塊提取圖像中人與物體的候選區(qū)域作為實例對象,然后通過交互識別模塊輸出人物關(guān)系的三元組表示 <h,i,o>,其中h代表“人”,i代表“交互”,o代表“物體”.圖1以“人騎自行車”為例,先由目標(biāo)檢測得到“人”(h)與“自行車”(o)兩個實例,然后交互識別模型判別出圖像中的人屬于“騎”(i)的狀態(tài),最后將人、物以及交互行為三者組合,輸出關(guān)系三元組.

圖1 人物交互關(guān)系檢測流程Fig.1 Flowchart of HOI detection

HOI檢測的數(shù)據(jù)對象包括圖像和視頻兩類,視頻中的人物交互檢測涉及時序信息融合以及多目標(biāo)動態(tài)分析,關(guān)系建模難度大,相關(guān)研究成果較少.本文主要對基于圖像的人物交互檢測研究成果進行綜述,統(tǒng)計了從2009年至今計算機視覺主要國際期刊及會議的文章.

本文第1章詳細(xì)介紹了人物交互重要數(shù)據(jù)集及其評價指標(biāo);第2章將人物交互檢測算法分為基于全局實例和基于局部實例的方法,并依次介紹;第3章探討了零樣本學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)和Transformer模型在人物交互檢測領(lǐng)域的應(yīng)用;第4章分析了人物交互檢測當(dāng)前所面臨的主要挑戰(zhàn),并指出未來值得探索的研究方向.

1 數(shù)據(jù)集分類與評價指標(biāo)

目前,人物交互公開數(shù)據(jù)集的不斷涌現(xiàn)反映了HOI領(lǐng)域朝著規(guī)模更大、場景更復(fù)雜、動作類型更多的方向發(fā)展.本章將HOI關(guān)系檢測涉及的主流數(shù)據(jù)集分為傳統(tǒng)的語義描述數(shù)據(jù)集和基于目標(biāo)檢測的實例數(shù)據(jù)集兩類.

1.1 傳統(tǒng)數(shù)據(jù)集

Sports event[7]是2007年提出的小型運動數(shù)據(jù)集,它包含了從互聯(lián)網(wǎng)上收集的8種體育賽事類別.由于早期的人物交互檢測研究缺乏數(shù)據(jù)支持,該數(shù)據(jù)集的發(fā)布使得人物交互檢測領(lǐng)域得到了更多學(xué)者的關(guān)注.

TUHOI[8]是一個通用的人物交互數(shù)據(jù)集,其中的圖像來自ILSVRC 2013檢測數(shù)據(jù)集.該數(shù)據(jù)集是根據(jù)英語單詞的含義來進行類別劃分,然而動詞的語法時態(tài)以及一詞多義現(xiàn)象會帶來映射偏差,導(dǎo)致驗證時難以區(qū)分語言理解錯誤和HOI檢測錯誤.

HICO[9]是由密西根大學(xué)安娜堡分校在2015年ICCV (IEEE International Conference on Computer Vision)上提出的基準(zhǔn)數(shù)據(jù)集,收錄了來自80個對象的117種常見行為.在真實場景中人可能與多個物體同時產(chǎn)生交互行為,因此,該數(shù)據(jù)集以物體為中心,對交互類的標(biāo)簽注釋進行了大幅度擴展.

一些用于動作識別的數(shù)據(jù)集也被用于HOI檢測分析,包括早期的 Sports event、The sports[5]以及MPII[10]人體姿勢數(shù)據(jù)集.其中,Sports event和 The sports數(shù)據(jù)集使用大量的語義級標(biāo)簽描述場景和對象;MPII作為2D人體姿態(tài)估計的基準(zhǔn)數(shù)據(jù)集,提供了3D軀干和頭部方向標(biāo)簽、關(guān)節(jié)點標(biāo)簽和身體部位的遮擋標(biāo)簽以及行為標(biāo)簽.

1.2 實例數(shù)據(jù)集

傳統(tǒng)的語義描述數(shù)據(jù)集缺少對粗粒度行為的分解,所以對于人物交互關(guān)系的準(zhǔn)確評估較為困難.VCOCO[11]針對每一類別的單個目標(biāo)進行了實例分割并為每張圖像提供了5種文字描述,實例框使人物交互模型能更好地估計目標(biāo)對象的區(qū)域位置,實現(xiàn)對視覺場景語義的深入理解.

HICO-DET[12]使用無向邊作為交互類標(biāo)簽,將人與物體的實例框相連接,提供了15萬個帶注釋的人-物實例,每個實例框由介于人和對象邊界框之間的類標(biāo)簽表示,該數(shù)據(jù)集與V-COCO是人物交互檢測領(lǐng)域中公認(rèn)的兩大基準(zhǔn)數(shù)據(jù)集.

HAKE[13]是人物交互領(lǐng)域最新發(fā)布的數(shù)據(jù)集.它使用了大量的人體局部(part state,PaSta)狀態(tài)標(biāo)簽來推斷人的身體部位狀態(tài),成為第一個帶有細(xì)粒度注釋的大規(guī)模實例數(shù)據(jù)集,涵蓋了247 000個人體實例、220 000個物體實例和7 000 000個局部動作標(biāo)簽.

HOI-A[14]來自真實場景,涵蓋了不同外觀類型、低分辨率以及具有嚴(yán)重遮擋的圖像,識別難度較大;HCVRD[15]是目前規(guī)模最大的以人為中心的HOI數(shù)據(jù)集,圖像數(shù)量較多且交互動作多.

表1對現(xiàn)有HOI數(shù)據(jù)集進行了對比分析.總體上,現(xiàn)有的HOI數(shù)據(jù)集涉及體育運動[7,10]、室外場景[11,14]、室內(nèi)場景[16]以及不同交互方式[7,13,17],在一定程度上解決了訓(xùn)練數(shù)據(jù)不足和標(biāo)注不完整的問題,但仍然存在以下不足:

1) 交互類型單一:動作類數(shù)據(jù)集往往包括個體行為、交互行為以及群體行為等多種動作類型,而HOI檢測數(shù)據(jù)集需要篩選出人與物體同時存在且有交互的圖像,采集難度更大,因此,目前主流數(shù)據(jù)集中的交互關(guān)系類別不夠豐富.

2) 動詞標(biāo)注歧義性:對于圖像中的不同對象,標(biāo)注出來的動詞在語義層面和視覺特征的表達(dá)上存在一定偏差,給交互檢測帶來阻礙,動詞的一詞多義現(xiàn)象已經(jīng)成為HOI檢測的一個難題.

3) 人物標(biāo)簽欠細(xì)化:鑒于人的性別和年齡會對人物的交互方式產(chǎn)生一定的影響,細(xì)粒度的人物(成人/孩童、男人/女人)標(biāo)注有利于HOI檢測技術(shù)的進步,圖像中的人物信息需要得到更加詳細(xì)的標(biāo)注.

1.3 評價指標(biāo)

早期的人物交互檢測主要使用準(zhǔn)確率(Acc)進行評估:

式中:nTP、nTN、nFP及nFN分別為檢測正確的正樣例、檢測正確的負(fù)樣例、檢測錯誤的正樣例以及檢測錯誤的負(fù)樣例.

但當(dāng)樣本數(shù)據(jù)分布不均勻時,使用準(zhǔn)確率評價易產(chǎn)生偏差(bias),不能客觀描述錯誤類型.

當(dāng)前HOI檢測領(lǐng)域主要使用平均精確率(AP)與平均準(zhǔn)確度(mAP)兩種性能評估標(biāo)準(zhǔn).AP基于精確率(P)和召回率(r)進行定義:

式中:N為測試集中圖片總數(shù);P(k)為能識別出k張圖片的精確率; Δr(k) 為從k- 1變化到k時精確率的變化情況.

而P為分類正確的正樣本個數(shù)與分類后判別為正樣本個數(shù)的比值,r為分類正確的正樣本數(shù)與實際正樣本數(shù)的比值.綜上,AP作為P與r乘積的累加值,其值越大,表示檢測效果越好.

mAP由所有類別的平均精確率計算而得,作為衡量分類器對所有類別檢測效果的評價因素,mAP成為人物交互檢測的主流指標(biāo).定義如下:

式中:P1(R)為歸一化的識別精確率.

2 人物交互檢測方法分類

不同的HOI檢測方法區(qū)別主要體現(xiàn)在交互識別階段對實例對象采用的策略不同,下文將從基于全局實例和基于局部實例兩個角度進行分類總結(jié).

2.1 基于全局實例的方法

基于全局實例的人物交互建模強調(diào)人體、物體以及背景的整體性.為了充分利用圖像中的線索,基于全局實例的方法有3種實現(xiàn)方式,分別是融合空間位置信息、融合外觀信息以及融合人體姿勢信息.

2.1.1 融合空間位置信息

目標(biāo)檢測器定位到人和物體實例后,空間布局能夠為HOI檢測提供重要的先驗信息.如圖2所示,由于交互類型的不同,人和物體在圖中的空間位置分布有很大差異,合理利用空間關(guān)系有助于交互識別的判斷,并在預(yù)測時排除可能性較小的分類.

圖2 人物交互的相對空間關(guān)系Fig.2 Relative spatial relationship in HOI

Chao等[12]提出三分支網(wǎng)絡(luò)HO-RCNN,用于提取人物空間關(guān)系的特征,如圖3所示.該網(wǎng)絡(luò)包含人體流、物體流以及人物對流3部分.首先,根據(jù)人體和物體框?qū)υ继卣鬟M行裁剪;然后,歸一化成相同大小的特征輸入到各自的卷積網(wǎng)絡(luò)中,生成對應(yīng)的交互類別概率;最終,通過全連接層將視覺和空間特征融合,輸出動作類別的預(yù)測得分.人體流和物體流的作用是對Fast-RCNN[18]檢測的目標(biāo)區(qū)域進一步提取特征,人物對流使得模型在不同類型背景下也能發(fā)現(xiàn)HOI類中動詞與物體的潛在規(guī)律.

圖3 基于人-物區(qū)域位置信息的HO-RCNN網(wǎng)絡(luò)Fig.3 HO-RCNN networks based on human-object regional information

為了實現(xiàn)端到端的HOI檢測訓(xùn)練,Gao等[19]提出了以人體為中心的注意力模塊(instance-centric attention network,iCAN)來強調(diào)圖中與交互相關(guān)的重要區(qū)域,即上下文信息.該模塊的主要思想是應(yīng)用ROI (region of interest)池與殘差塊進行全局平均池化,通過降低模型的參數(shù)量來降低過擬合效應(yīng).并使用softmax函數(shù)對融合的實例級外觀特征和卷積特征進行映射,得到能夠突顯高層特征的注意力圖.iCAN不僅可以與其他網(wǎng)絡(luò)聯(lián)合訓(xùn)練提高模型性能,而且能根據(jù)不同的對象實例自動調(diào)整關(guān)注區(qū)域.與基于手工設(shè)計的外觀特征相比,該方法在V-COCO和HICO-DET數(shù)據(jù)集上檢測精確率分別提高了10.00%和49.00%.

Wang等[20]改進了iCAN模塊,在“人體流”和“物體流”中嵌入上下文感知外觀和注意力模塊,以提取全局圖像中的外觀和上下文信息.上下文感知外觀模塊通過上下文聚合[21]和本地編碼塊捕獲人和物體實例附近的區(qū)域信息.同時,作者借鑒了動作識別[22]中的方式,引入上下文注意力模塊以增強鑒別性強的特征,在一定程度上減少了背景噪聲干擾.

Bansal等[23]為了強化人和物體間相對空間位置的作用,提出了空間引發(fā)模型(spatial priming model)結(jié)構(gòu),如圖4所示,該模型包含視覺模塊V和布局模塊L兩部分,它們在多個階段共享視覺上下文.首先,堆疊和裁剪人和物體的邊界框(bh和bo),輸入到L和V中.然后,在L中利用不同卷積層C1 ~C8提取人的布局特征(f1),與物體的語義表示(wo)相連接,通過兩個全連接層輸出人和物體的聯(lián)合框信息(p1)和加權(quán)損失(J1).V 通過殘差塊 Res1 ~Res4 與全局池化層 (global average pooled,GAP)提取物體的全局特征(f2),并結(jié)合來自目標(biāo)檢測的人和物體特征(fh和fo)與L的預(yù)測結(jié)果,聯(lián)合輸出謂詞的最終概率(p2)和L與V的損失總和(J2).目前在融合空間位置信息的方法中,該方法效果最好,在HICO-DET與V-COCO上mAP分別達(dá)到了24.79%與49.20%.

圖4 空間引發(fā)模型框架Fig.4 Framework of spatial priming model

2.1.2 融合外觀信息

在交互模式中,人與物體的外觀信息作為主要的視覺表現(xiàn),能夠?qū)嵗龑ο蟮耐獠枯喞M行描述.在HO-RCNN的基礎(chǔ)上,Gkioxari等[24]提出了一種三分支網(wǎng)絡(luò)InteractNet,采用外觀特征提取人-物互關(guān)系.第一個分支采用Faster-RCNN網(wǎng)絡(luò)[25]進行人與物體檢測;第二個分支對每一種動作類型中檢測目標(biāo)的相對位置進行密度估計;第三個分支將第二個分支中得到的特征與目標(biāo)物體特征結(jié)合,得到兩者之間的動作類別,最后將三分支的得分進行融合輸出分類結(jié)果,該方法在V-COCO上可以達(dá)到135幀/ms的運行速度.

三分支網(wǎng)絡(luò)模型(如InteractNet和HO-RCNN)復(fù)雜且訓(xùn)練時間長,給HOI檢測的性能提升帶來了挑戰(zhàn).Gupta等[26]提出一種兩階段外觀編碼方法:第一階段為圖像中每個人和物體創(chuàng)建一組候選框,然后將人候選框與物體候選框配對形成人-物候選框?qū)?第二階段使用分解模型對候選框?qū)M行評分,通過不同交互類別之間利用參數(shù)傳遞評分結(jié)果,能夠有效減少人物交互檢測的誤檢.但該網(wǎng)絡(luò)將區(qū)域候選框生成和交互檢測分離開來,導(dǎo)致實時性較差,而且人-物候選框?qū)Φ呐鋵头纸膺M一步增加了計算復(fù)雜度.

針對以上問題,Liao等[14]提出了單階段的并行點檢測與匹配模型(parallel point detection and matching,PPDM),點檢測分支負(fù)責(zé)估計人體點、交互點和物體點的位置,點匹配分支將源于同一交互點的人體點和物體點視為匹配對,僅篩選出少量的候選交互點,節(jié)省了計算成本.同時,該文獻還使用了深層聚合(deep layer aggregation,DLA)[27-28]與Hourglass[29-30]兩種關(guān)鍵點熱圖預(yù)測網(wǎng)絡(luò)來擴大交互點和位移預(yù)測值的感受野,提取語義層次更高的特征.如圖5所示,兩種網(wǎng)絡(luò)在HICO-DET上最好的達(dá)到37.03幀/s的檢測速度與21.73%的平均識別準(zhǔn)確度,PPDM方法在一定程度上解決了模型規(guī)模大、檢測速度慢的問題.

圖5 PPDM與同類方法在HICO-DET上的推理時間、平均準(zhǔn)確度以及速度Fig.5 Inference time, mAP, speed between PPDM and similar methods on HICO-DET dataset

2.1.3 融合人體姿勢信息

一方面,融合空間特征的方法因缺乏人體形態(tài)的精確特征,性能無法得到進一步提升,人體姿勢能將人體與相互作用的物體聯(lián)系起來;另一方面手工特征方法[26]利用先驗知識來幫助交互檢測與識別任務(wù),但這種方法獲得的姿態(tài)表征能力較弱,因此,近年來一些工作將姿態(tài)估計與視覺特征進行融合.

在HO-RCNN基礎(chǔ)上,Li等[31]利用姿態(tài)估計網(wǎng)絡(luò)[32-33]與人體骨架分支提取人體姿勢特征.骨架分支與“人物對流”組成的網(wǎng)絡(luò)進行了互動性判別,使得模型能夠?qū)W習(xí)互動性知識,從而帶來更有效的監(jiān)督約束,該方法能解決罕見類別由于信息稀缺而導(dǎo)致的訓(xùn)練困難.

姿態(tài)感知網(wǎng)絡(luò)PMFNet[34]不是以成對的方式提取交互關(guān)系,而是利用身體部位與物體之間的空間位置作為注意力,動態(tài)放大了人體部位的相關(guān)區(qū)域.該方法使用姿勢估計網(wǎng)絡(luò)[35]將空間特征、外觀特征和姿態(tài)信息共同輸入到整體模塊(holistic module)和放大模塊(zoom-in module)中,然后從人體姿態(tài)中提取人體部位外觀特征、人體部位空間特征以及增強相關(guān)人體部位對各個交互作用的注意力特征,最終通過融合模塊結(jié)合整體和局部特征進行關(guān)系分類.

除了對人體姿態(tài)與物體的相對空間位置信息建模,Liang等[36]對人體邊界框的中心歸一化,構(gòu)造絕對空間姿態(tài)特征,并提出基于姿態(tài)的模塊化網(wǎng)絡(luò)(pose-based modular network,PMN).該模塊由兩個分支組成,一個分支獨立處理各關(guān)節(jié)的相對姿態(tài)特征,另一個分支使用圖卷積更新各關(guān)節(jié)的絕對姿態(tài)特征,然后利用視覺語義圖注意力網(wǎng)絡(luò)(visualsemantic graph attention networks,VS-GATs)[17]融合相對空間姿勢特征和絕對空間姿勢特征,這能有效減少擁擠場景中的錯誤識別.

為了探索細(xì)粒度的人體姿勢信息對人物交互檢測的影響,Liang等[37]提出了視覺、語義和姿態(tài)融合網(wǎng)絡(luò)VSP-GMN,利用圖神經(jīng)網(wǎng)絡(luò)將一系列的語境線索進行組合,減少場景理解與內(nèi)在語義規(guī)律之間的歧義.如圖6所示,作者重新定義了相對空間姿態(tài)特征,把人體各個關(guān)節(jié)與物體邊界框中心相連的整體作為相對空間姿態(tài)征.隨后,將相對、絕對空間姿態(tài)特征姿態(tài)和視覺特征分別輸入到 PMN 和 VS-GAT模塊中,兩個分支的動作得分因子相加,實現(xiàn)人、物體之間的三元組關(guān)系預(yù)測.

圖6 融合視覺語義姿態(tài)特征的VSP-GMN網(wǎng)絡(luò)Fig.6 VSP-GMN network integrating visual, semantic and pose features

目前,人物交互檢測中基于全局實例的方法都體現(xiàn)了圖像整體的視覺描述,不同的是,基于空間位置信息的方法偏向于快速定位與特定動作相關(guān)聯(lián)的對象;基于外觀特征的方法常利用人或物體的外觀為條件,縮小目標(biāo)對象的搜索空間;基于人體姿態(tài)信息的方法強調(diào)靠近交互區(qū)域的人體部位在檢測時不同的重要程度.

2.2 基于局部實例的方法

與基于全局實例的方法不同,基于局部實例的方法重點從目標(biāo)主體的骨骼、姿勢、部位等局部特征出發(fā)分析人與物體的內(nèi)在聯(lián)系.局部實例方法需要解決如下兩方面問題:

1) 如何將姿態(tài)各異的身體部位與物體的交互進行整合?

2) 身體部位配對增加了計算負(fù)荷,如何提高模型效率?

如圖7所示,人體部位特征相比整體視覺特征更細(xì)致,數(shù)量更多也更難獲得.Fang等[38]就關(guān)鍵部位與HOI識別的相關(guān)性進行了探索,使用姿勢估計網(wǎng)絡(luò)[39]提取了人體骨骼點,然后根據(jù)關(guān)鍵點將人體劃分為11個部位,每個部位設(shè)置一個與待檢測的人體軀干大小成比例的邊界框,該方法通過將人體的各個部位配對輸入注意力模型,學(xué)習(xí)得到相關(guān)性最大的部位作為整體結(jié)果.該方法靈活地利用了不同部位特征間的關(guān)聯(lián)關(guān)系,在HICO數(shù)據(jù)集上相比于以人為中心的方法[40]mAP提升了10%.

圖7 整體人體姿態(tài)與局部特征的對比Fig.7 Comparison of overall human posture and local features

基于局部特征的注意力模塊會產(chǎn)生多個部位間的配對關(guān)系,計算開銷較大.針對這一問題,基于GCN的方法是目前最好的解決方式.Zhou等[41]提出關(guān)系解析神經(jīng)網(wǎng)絡(luò)模型RPNN,使用Detectron[42]和Mask R-CNN[43]分別檢測人體、物體框以及人體骨骼點信息,利用人體骨骼點信息生成4個人體部位,即頭部、手部、臀部和腿部,加強了人體局部特征的表征能力,接著采用GPNN[44]整合局部信息生成圖結(jié)構(gòu),該方法檢測效果較成對的身體部位注意模型[38]有顯著提升.

在一般情況下,只有少量的人體部位展現(xiàn)出了與交互行為的高度相關(guān)性,其他部分則很少攜帶有用的線索.為了提取人體部位狀態(tài)的細(xì)粒度信息,Liu等[45]構(gòu)建了基于身體部位的數(shù)據(jù)集HAKE,并提出多級成對特征網(wǎng)絡(luò)PFNet.如圖8所示,該數(shù)據(jù)集將每個交互動作細(xì)化為多個局部交互動作,比如“人開車”被分為“頭看后視鏡”、“左手握方向盤”、“右手握方向盤”以及“臀部坐在椅子上”等一系列相關(guān)交互.從實驗結(jié)果看,各主流算法在該數(shù)據(jù)集上得到了性能提升,為后續(xù)的HOI檢測算法提供了新基準(zhǔn).

圖8 基于實例行為的局部標(biāo)簽Fig.8 Local annotations based on instance behavior

由于人經(jīng)常關(guān)注在交互過程中提供重要信息的區(qū)域,因此Zhong等[46]設(shè)計出單階段的GGNet(glance and gaze network)網(wǎng)絡(luò),通過掃視和凝視兩步驟自適應(yīng)地對一組動作感知點進行建模.凝視步驟利用由掃視步驟生成的特征圖,以漸進方式推理出每個像素周圍的動作感知點,并聚合其特征以進行交互預(yù)測.GGNet不僅通過掃視策略改進了交互預(yù)測任務(wù),還通過動作感知點匹配模塊提高了人體對象對匹配的準(zhǔn)確性,在HICO-DET數(shù)據(jù)集上mAP達(dá)到目前最優(yōu)結(jié)果:29.17%.

同樣是利用人的視線為交互識別鎖定關(guān)鍵區(qū)域,Xu等[16]認(rèn)為在弱監(jiān)督場景中人眼的注視方向能作為線索幫助模型學(xué)習(xí)多個上下文區(qū)域的信息,為此,他們提出了以人類意圖驅(qū)動的HOI檢測框架(human intention-driven HOI detection,iHOI).該方法借助身體各關(guān)節(jié)到實例的相對距離對人體姿勢進行建模,然后將不同的人-物對整合到特征空間中,最后結(jié)合注視位置的概率密度圖輸出關(guān)系三元組,這種方法利用人眼的注視方向作為人類意圖的直觀體現(xiàn),為人物交互檢測的改進提供了新思路.

2.3 小 結(jié)

本章總結(jié)了近幾年基于外觀特征建模、外觀和空間特征結(jié)合、姿態(tài)特征和外觀特征結(jié)合等方面的代表性工作,表2和表3按照時間順序整理了2017年—2021年基于視覺特征的代表性方法,分別對比了各方法在HICO-DET和V-COCO兩個主流數(shù)據(jù)集中的性能.

表2 基于視覺特征方法在HICO-DET數(shù)據(jù)集的mAP結(jié)果對比Tab.2 Result comparison of mAP with visual feature based methods on HICO-DET data set

表3 基于視覺特征方法在V-COCO數(shù)據(jù)集結(jié)果對比Tab.3 Results comparison of visual feature based methods on V-COCO data set

結(jié)合圖5可以看出:在主流的人物交互檢測算法中,融合多個特征會提升模型檢測的準(zhǔn)確率,但其推理速度也會相應(yīng)下降.在HICO-DET數(shù)據(jù)集上mAP大于17.00%的方法大多使用兩個及其以上的附加特征,僅有基于全局實例的PPDM和基于局部實例的GGNet使用外觀特征建模,并且這兩個模型分別在檢測幀數(shù)和識別準(zhǔn)確度方面取得了第一的成績,這說明全局實例模型在速度提升方面更有優(yōu)勢;而局部實例模型能更好捕捉交互動作之間的細(xì)微差異,在真實場景中具有更強的抗干擾力,由于人在和物體的交互行為中起到主導(dǎo)作用,針對人體局部進行建模仍是局部實例檢測研究的核心.

兩個公開數(shù)據(jù)集的整體結(jié)果說明人物交互檢測正朝著降低模型規(guī)模和提高檢測精度兩方面發(fā)展,未來該領(lǐng)域的發(fā)展應(yīng)切合實際問題,擴大模型的適用場景,以滿足實際應(yīng)用中對模型的檢測時間和儲存空間的需求.

3 其他新技術(shù)

鑒于HOI檢測的一些工作不便于歸類到視覺特征方法中,本章從零樣本學(xué)習(xí)方法、弱監(jiān)督學(xué)習(xí)以及基于Transformer的方法對其他新技術(shù)進行介紹.

目前,人物交互數(shù)據(jù)集中存在少量類別占用大量樣本的現(xiàn)象,數(shù)據(jù)分布不均使得訓(xùn)練難度增大.零樣本學(xué)習(xí)(zero-shot learning,ZSL)由 Lampert等[47]提出,“零樣本”表示算法模型從未見過某個特定示例,該方法利用語義屬性來預(yù)測對象類標(biāo)簽,能將HOI檢測應(yīng)用于類的長尾問題.如圖9所示,其工作原理可概括為利用處理好的已見類數(shù)據(jù)集幫助其他實例獲得有效的特征表示,然后根據(jù)HOI類的屬性描述進行組合表示,該表示可以看作是未見類和已見類的偽特征級實例描述.

圖9 零樣本目標(biāo)檢測流程Fig.9 Flowchart of zero-shot object detection

Shen等[48]首次將零樣本學(xué)習(xí)引入人物交互關(guān)系檢測任務(wù)中,提出的HOI分解模型由一組視覺特征提取層與動詞分離和目標(biāo)檢測網(wǎng)絡(luò)組成.與基于視覺特征的方法不同,該模型分別對動詞和目標(biāo)對象建模,在測試時可以使用這些網(wǎng)絡(luò)根據(jù)已見類的動詞或賓語實例識別新的人-物對.該方法學(xué)習(xí)了成分動詞和賓語的表示,有效抑制過擬合的現(xiàn)象.基于屬性類間遷移的零樣本學(xué)習(xí),Eum等[49]將語義信息嵌入到前景對象所占據(jù)的局部區(qū)域中,使得對象的語義和空間的屬性被聯(lián)合嵌入到視覺的輸入流中.Rahman等[50]在雙流ZSL體系結(jié)構(gòu)中使用動詞-對象查詢來推斷人物交互,增強了零樣本場景下視覺特征的表示.Peyre等[51]通過優(yōu)化聯(lián)合損失函數(shù)獲得融合的語義與視覺嵌入空間,能在不同粒度層次的視覺語義空間中聯(lián)合表示視覺關(guān)系.

Alessandro等[52]使用弱監(jiān)督學(xué)習(xí)建立人物之間的交互模型,輸入的圖像僅使用動作標(biāo)簽注釋,不帶有人或物體的位置信息,這樣能夠大大減少訓(xùn)練需要的手工注釋成本.Peyre等[53]引入了潛在變量來模擬參與交互的對象,使用預(yù)訓(xùn)練的目標(biāo)檢測網(wǎng)絡(luò)為每個謂詞構(gòu)建分類器,并對潛在變量加以約束,從而合并圖像級標(biāo)簽,該方法可用于預(yù)測從未見過的關(guān)系三元組.Sarullo等[54]使用功能屬性圖(affordance graph,AG)在人物表征和弱監(jiān)督訓(xùn)練階段提供預(yù)估標(biāo)簽,通過外部知識圖像化的方式對動作和對象之間的關(guān)系進行建模.AG將物體和動作定義為節(jié)點,物體和動作的交互聯(lián)系表示為邊.其中,所有的鏈接設(shè)置為相互對稱結(jié)構(gòu),且同一類型結(jié)點之間不存在連接關(guān)系,從而避免產(chǎn)生多余的語義組合.

Transformer是完全由注意力機制組成的編碼器-解碼器架構(gòu)[55],在可擴展性和訓(xùn)練效率方面表現(xiàn)優(yōu)秀,目前已被廣泛應(yīng)用于自然語言處理與計算機視覺等領(lǐng)域.Kim等[56]中第1次將Transformer架構(gòu)擴展到HOI檢測任務(wù)中,作者利用Transformer對交互之間的關(guān)系進行建模,同時實例解碼器和交互解碼器并行預(yù)測同一組對象,然后與定位實例框生成最終的HOI三元組.在Transformer的基礎(chǔ)上,Tamura等[57]還添加了基于查詢的檢測模塊選擇性地聚合圖像范圍的上下文信息,避免了解碼過程中多個實例特征的混合,目前在V-COCO數(shù)據(jù)集上達(dá)到了最優(yōu)的檢測精度.

表4歸納了本章的相關(guān)工作.總的來說,以上方法在圖像范圍的特征利用不足、全局實例框提供的上下文信息有限以及目標(biāo)域的標(biāo)注數(shù)據(jù)缺乏等方面有著廣泛的研究空間.與單一的語義嵌入模型或視覺模型相比,零樣本與弱監(jiān)督學(xué)習(xí)方法充分利用了語義知識的指導(dǎo)信息,有效地提升了HOI檢測在少樣本場景數(shù)據(jù)集上的泛化能力.基于Transformer的模型在實際場景中能減少多個HOI實例重疊現(xiàn)象導(dǎo)致的錯誤檢測.

表4 其他新技術(shù)總結(jié)Tab.4 Summary of other new technologies

4 挑戰(zhàn)及展望

人物交互檢測的研究工作已經(jīng)擴展到物體功能、空間位置、人物姿態(tài)和語義描述等多個層面.隨著與目標(biāo)檢測和行為識別相關(guān)領(lǐng)域的技術(shù)融合,人物交互檢測技術(shù)趨向使用更加精準(zhǔn)的局部特征來引導(dǎo)學(xué)習(xí)和推理.基于圖像的HOI檢測技術(shù)要從理論研究發(fā)展到實際應(yīng)用,還面臨如下挑戰(zhàn):

1) 交互類別欠全面.目前公開數(shù)據(jù)集的交互行

猜你喜歡
實例物體人體
人體“修補匠”
人體冷知識(一)
排便順暢,人體無毒一身輕
深刻理解物體的平衡
我們是怎樣看到物體的
奇妙的人體止咳點
特別健康(2018年3期)2018-07-04 00:40:10
為什么同一物體在世界各地重量不一樣?
完形填空Ⅱ
完形填空Ⅰ
懸浮的雞蛋
方正县| 清河县| 肃宁县| 汕尾市| 阳江市| 鄂州市| 莱州市| 莒南县| 惠东县| 兖州市| 德庆县| 涟水县| 绥中县| 南开区| 营山县| 法库县| 涿鹿县| 扎囊县| 吉安市| 若尔盖县| 金寨县| 仁布县| 凯里市| 凤冈县| 平谷区| 固镇县| 常德市| 达孜县| 三原县| 眉山市| 兴宁市| 贵州省| 措美县| 盐边县| 枣庄市| 克山县| 两当县| 灌阳县| 四平市| 沙坪坝区| 盱眙县|