阮晨釗,張祥森,劉 科,趙增順
山東科技大學(xué) 電子信息工程學(xué)院,山東 青島266590
隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)已經(jīng)能夠協(xié)助人們完成很多工作,幫助解決人們無(wú)法解決的難題,甚至在某些領(lǐng)域已經(jīng)可以取代人類。圖像是人類獲取信息的主要形式,有80%的信息都是以圖像的形式獲取的。常見的圖像任務(wù),如目標(biāo)檢測(cè)、動(dòng)作識(shí)別和圖像分割等都屬于計(jì)算機(jī)視覺(jué)任務(wù)的范疇。而近幾年,這些任務(wù)也隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的深入應(yīng)用得到了快速發(fā)展。在此基礎(chǔ)上針對(duì)個(gè)體對(duì)象更高層的圖像語(yǔ)義研究,如人的動(dòng)作識(shí)別、姿態(tài)估計(jì)等也取得了較為明顯的進(jìn)步。但是僅憑這樣的個(gè)體對(duì)象識(shí)別還遠(yuǎn)遠(yuǎn)不能理解圖像中發(fā)生的事情,還需要識(shí)別出不同對(duì)象之間的關(guān)系。由于人與物的交互占據(jù)了大多數(shù)的人類活動(dòng),檢測(cè)和識(shí)別每個(gè)人與周圍物體的交互方式對(duì)于有效理解圖像內(nèi)容十分重要,這個(gè)任務(wù)被稱為人-物體交互檢測(cè),主要目的是定位人體、物體,并識(shí)別它們之間的交互關(guān)系。簡(jiǎn)單來(lái)說(shuō),就是檢測(cè)圖像中的<人體,動(dòng)詞,物體>三元組,如圖1 所示。這樣的輸出能夠幫助回答很多與圖像相關(guān)的問(wèn)題。它可以告訴更多關(guān)于圖像中描繪的場(chǎng)景的當(dāng)前狀態(tài),幫助更好地預(yù)測(cè)未來(lái),還能夠反過(guò)來(lái)幫助理解動(dòng)作。人-物體交互檢測(cè)(human-object interaction,HOI)技術(shù)已經(jīng)被運(yùn)用在監(jiān)控視頻的自動(dòng)識(shí)別檢測(cè)中,識(shí)別檢測(cè)出視頻圖像中的異常行為,做到及時(shí)預(yù)警。此外,該技術(shù)對(duì)于智能交通、信息檢索以及人機(jī)交互等諸多領(lǐng)域的研究有重要幫助。
圖1 HOI檢測(cè)任務(wù)實(shí)例Fig.1 Examples of HOI detection
擁有廣闊研究前景的同時(shí),這個(gè)問(wèn)題的研究也是具有挑戰(zhàn)性的,因?yàn)閳D像中可能包含多個(gè)執(zhí)行相同交互的人,同一個(gè)人可能同時(shí)與多個(gè)物體交互,同一個(gè)物體可能同時(shí)與多個(gè)人交互以及細(xì)粒度交互等。這些復(fù)雜多樣的交互場(chǎng)景都會(huì)給設(shè)計(jì)HOI 檢測(cè)解決方案帶來(lái)相當(dāng)大的難度。本文圍繞著基于深度學(xué)習(xí)的人-物體交互檢測(cè)技術(shù),主要對(duì)以下幾點(diǎn)進(jìn)行了綜述:(1)人-物體交互檢測(cè)任務(wù)的提出;(2)人-物體交互檢測(cè)關(guān)鍵方法類別和發(fā)展現(xiàn)狀;(3)人-物體交互檢測(cè)的評(píng)價(jià)指標(biāo)和常用數(shù)據(jù)集。
從2009 年開始,陸續(xù)出現(xiàn)了與HOI 檢測(cè)相關(guān)的研究,這些早期研究主要使用了手工制作的局部特征,通過(guò)捕捉這些特征將其分到特定的類別中。這些基于手工制作的特征主要是顏色、HOG和SIFT。其中Gupta 等人研究使用貝葉斯模型來(lái)進(jìn)行HOI分類,Yao 等人使用人和物體之間的上下文關(guān)系,Delaitre 等人使用具有空間交互和上下文的結(jié)構(gòu)化表示,Desai等人使用合成模型,Hu 等人則是參考了一組HOI 樣本。但是在這些早期的HOI 識(shí)別研究中都沒(méi)有在HOI 檢測(cè)中進(jìn)行直接評(píng)估,其中文獻(xiàn)[8,11,13]首先進(jìn)行動(dòng)作分類,然后進(jìn)行人與物關(guān)系的判斷;文獻(xiàn)[9]是目標(biāo)檢測(cè)之后進(jìn)行評(píng)估;文獻(xiàn)[12]是基于人體姿勢(shì)的結(jié)果進(jìn)行評(píng)判。該技術(shù)真正快速發(fā)展是在2015 年以后。
隨著深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺(jué)的性能得到了極大的提升,人們可以從規(guī)模龐大的數(shù)據(jù)集中提取特征而不是局限于手工提取的特征,加之專門用于HOI檢測(cè)的數(shù)據(jù)集的出現(xiàn),HOI檢測(cè)任務(wù)迎來(lái)了新的發(fā)展階段。2015 年,Gupta 和Malik 提出了首個(gè)用于HOI 檢測(cè)的數(shù)據(jù)集,并且提出了“視覺(jué)語(yǔ)義角色標(biāo)注”這一概念,對(duì)這一任務(wù)進(jìn)行了明確的定義:推理圖像中細(xì)粒度的動(dòng)作并檢測(cè)出與該動(dòng)作相關(guān)的語(yǔ)義角色(使用邊界框標(biāo)記出動(dòng)作區(qū)域以及做出這個(gè)動(dòng)作人與物)。其首先真正解決了人-物體交互識(shí)別檢測(cè)問(wèn)題。
Chao 等人于2018 年提出的基于人-物體區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(human-object region-based convolutional neural networks,HO-RCNN)對(duì)HOI 檢測(cè)的研究具有十分重要的意義。它是一個(gè)多流網(wǎng)絡(luò)結(jié)構(gòu),包含三個(gè)流:一個(gè)人流、一個(gè)物體流以及一個(gè)成對(duì)流。其中人流和物體流分別編碼人和物體的外觀特征,而成對(duì)流的目的則是編碼人和物體之間的空間關(guān)系。值得一提的是它沒(méi)有直接將邊界框坐標(biāo)作為輸入,而是提出了交互模式這一特殊類型的深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)輸入,用來(lái)描述兩個(gè)邊界框的相對(duì)位置。這個(gè)模型首先使用人體和物體檢測(cè)器生成人體-物體區(qū)域?qū)Φ慕ㄗh,然后將每個(gè)人-物對(duì)的建議送入卷積神經(jīng)網(wǎng)絡(luò)以生成HOI 分類分?jǐn)?shù),再將三個(gè)流中的分?jǐn)?shù)以后期融合的方式進(jìn)行融合,最后根據(jù)動(dòng)作得分進(jìn)行交互識(shí)別,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 多流網(wǎng)絡(luò)模型Fig.2 Multi-stream model
這一經(jīng)典的多流網(wǎng)絡(luò)結(jié)構(gòu)是兩階段方法的開端,同時(shí)為后續(xù)研究提供了基準(zhǔn)和思路,后來(lái)出現(xiàn)的很多方法是在它的基礎(chǔ)上進(jìn)行深入研究。例如,加入注意力機(jī)制、使用圖模型、引入人體姿態(tài)或身體部位信息。
兩階段方法的思想就是把HOI 檢測(cè)任務(wù)分為目標(biāo)檢測(cè)和交互推理兩個(gè)子任務(wù)。目標(biāo)檢測(cè)階段使用預(yù)訓(xùn)練的目標(biāo)檢測(cè)模型檢測(cè)圖像中的人和物體,然后將其逐一匹配為成對(duì)的建議,而交互推理階段則是根據(jù)人-物體對(duì)的特征來(lái)推斷交互。近兩年的方法大多使用多流體系結(jié)構(gòu)來(lái)進(jìn)行交互推理。
通過(guò)關(guān)注早期預(yù)測(cè)進(jìn)而對(duì)結(jié)構(gòu)化輸出進(jìn)行建模的想法在以前被成功地應(yīng)用于各類計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中。一些突出的例子包括機(jī)器翻譯模型、圖像字幕、語(yǔ)音識(shí)別和人體姿態(tài)估計(jì)。注意力也被融入到HOI檢測(cè)的方法中。
Georgia等人于2018年提出了一個(gè)以人為中心的模型InteractNet 來(lái)識(shí)別人與物的交互,通過(guò)擴(kuò)展Faster R-CNN 模型,增加了一個(gè)分支,對(duì)目標(biāo)對(duì)象位置上的動(dòng)作和特定動(dòng)作的概率密度估計(jì)進(jìn)行分類。Kolesnikov 等人提出了一種用于檢測(cè)視覺(jué)關(guān)系的聯(lián)合概率模型BAR-CNN(box attention R-CNN),使用鏈?zhǔn)揭?guī)則將概率模型分解成兩個(gè)更簡(jiǎn)單的模型:第一檢測(cè)模型定位輸入圖像中的所有目標(biāo);對(duì)于每個(gè)檢測(cè)到的目標(biāo),第二個(gè)模型檢測(cè)與該目標(biāo)交互的所有其他對(duì)象。該模型的核心是框注意機(jī)制,該機(jī)制增強(qiáng)了第二個(gè)模型的能力,使其能夠?qū)W⒂诘谝粋€(gè)檢測(cè)模型定位的對(duì)象。具體來(lái)說(shuō),就是將第一個(gè)模型檢測(cè)到的對(duì)象表示其空間位置的二進(jìn)制編碼,這些編碼作為第二檢測(cè)模型的附加輸入。該方法沒(méi)有引入新的超參,并且在數(shù)據(jù)集上取得了不錯(cuò)的效果。
與BAR-CNN 通過(guò)單獨(dú)分析人和物體而不考慮兩者之間關(guān)系的思路不同,Gao 等人認(rèn)為除了需要人、物的外觀特征以及人-物體對(duì)的空間特征以外,還需要上下文信息來(lái)識(shí)別HOI。因此,在HO-RCNN 的基礎(chǔ)上,他們提出的用于人機(jī)交互檢測(cè)的以實(shí)例為中心的注意網(wǎng)絡(luò)(instance-centric attention network for human-object interaction detection,ICAN)采用以實(shí)例為中心的注意力模塊來(lái)提取與局部區(qū)域(人/物框)的外觀特征互補(bǔ)的上下文特征,以提高HOI 檢測(cè)效果,而不是像HO-RCNN 那樣只是簡(jiǎn)單地用DNN 來(lái)提取特征,ICAN 模塊如圖3 所示。與之前手動(dòng)設(shè)計(jì)的上下文特征的方法(基于姿勢(shì)、整個(gè)圖像或次要區(qū)域的交互檢測(cè)方法)不同,ICAN 的注意力圖是自動(dòng)學(xué)習(xí)的,并與網(wǎng)絡(luò)的其余部分聯(lián)合訓(xùn)練,以提高性能。此外,與為圖像級(jí)分類設(shè)計(jì)的注意力模塊相比,ICAN的以實(shí)例為中心的注意力圖提供了更大的靈活性,因?yàn)樗试S根據(jù)不同的對(duì)象實(shí)例關(guān)注圖像中的不同區(qū)域。
圖3 ICAN 模塊Fig.3 ICAN module
Wang 等人提出的用于人-物交互檢測(cè)的上下文注意框架與ICAN 使用標(biāo)準(zhǔn)外觀特征構(gòu)建注意力圖不同,他們使用上下文外觀特征構(gòu)建注意力圖,并且注意力圖集中在人和物體分支中的相關(guān)區(qū)域,這些區(qū)域可能包含人和物體的相互作用。此外,對(duì)于單個(gè)和多個(gè)人-物交互,與ICAN 模型相比,這個(gè)方法能夠產(chǎn)生更多的固定注意力圖。該方法也是基于HORCNN 框架,在人流和物體流中引入了上下文感知的外觀模塊和上下文注意模塊。其中上下文感知的外觀模塊產(chǎn)生由外觀和上下文信息編碼而成的上下文外觀特征;注意力模塊抑制全局上下文產(chǎn)生的背景噪聲,同時(shí)保留相關(guān)的上下文信息,自適應(yīng)地選擇相關(guān)的以實(shí)例為中心的上下文信息,以突出可能包含人-對(duì)象交互的圖像區(qū)域。
注意力機(jī)制的加入有效提高了HOI 檢測(cè)模型提取上下文特征的能力,使模型的檢測(cè)效果得到了很大的提升,尤其是ICAN,其準(zhǔn)確率比HO-RCNN 提升了一倍,但是由于其分支結(jié)構(gòu)與HO-RCNN 相比并沒(méi)有明顯變化,仍然只是利用人與物體的視覺(jué)特征以及空間特征來(lái)進(jìn)行推理判斷。除此以外并沒(méi)有額外信息的加入,因此其準(zhǔn)確率還有較大的提升空間。
利用圖模型或者圖卷積是解決HOI 檢測(cè)問(wèn)題的一個(gè)重要思路。已經(jīng)有一些工作將網(wǎng)絡(luò)結(jié)構(gòu)與圖形模型集成在一起,并在場(chǎng)景理解、目標(biāo)檢測(cè)與解析和視覺(jué)問(wèn)答(visual question answering,VQA)等應(yīng)用中取得了可觀的結(jié)果。在HOI檢測(cè)中,圖模型的基本思想是用節(jié)點(diǎn)表示人和物體,用邊表示人和物體間的交互,人與物體間的交互相關(guān)性越大,則邊的強(qiáng)度就越高。
Qi 等人首次將圖模型和神經(jīng)網(wǎng)絡(luò)整合到一起來(lái)實(shí)現(xiàn)HOI 識(shí)別,他們提出了一個(gè)圖解析神經(jīng)網(wǎng)絡(luò)(graph parsing neural network,GPNN),它是消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural network,MPNN)的推廣,繼承了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和圖形模型的表示能力。相較于之前的研究,能夠更好地解釋并明確地利用空間和時(shí)間相關(guān)性以及人-物關(guān)系,其示例如圖4 中的上圖所示。不同于大多數(shù)以前圖形或結(jié)構(gòu)化DNN 模型采用預(yù)固定圖形結(jié)構(gòu)的方法,為了尋求更好的泛化能力,圖解析神經(jīng)網(wǎng)絡(luò)引入了一個(gè)重要的連接函數(shù)來(lái)解決圖結(jié)構(gòu)學(xué)習(xí)的問(wèn)題。它學(xué)會(huì)以端到端的方式推斷鄰接矩陣,因此可以推斷出明確解釋HOI 關(guān)系的解析圖,從而迭代學(xué)習(xí)并推斷圖形結(jié)構(gòu)和消息傳遞。將人和物用節(jié)點(diǎn)表示,它們的關(guān)系定義為邊。以節(jié)點(diǎn)和邊緣特征作為輸入,并以消息傳遞方式輸出解析圖。
圖4 GPNN 與上下文異構(gòu)圖網(wǎng)絡(luò)區(qū)別Fig.4 Difference between GPNN and context heterogeneous graph network
GPNN 將人和物用相同類型節(jié)點(diǎn)表示的方法并不夠完善,因?yàn)樵贖OI 中人和物體所扮演的角色不同(人是交互的主體,物是交互的客體),活動(dòng)場(chǎng)景中異構(gòu)實(shí)體(人和物)之間存在類間語(yǔ)境,而同構(gòu)實(shí)體(人與人、物與物)之間存在類內(nèi)語(yǔ)境,這意味著它們之間的關(guān)系不盡相同?;谶@一考慮,Wang等人在2020年提出了一個(gè)上下文異構(gòu)的圖網(wǎng)絡(luò),將人和物用不同的節(jié)點(diǎn)表示,同時(shí)人和物體的空間關(guān)系是識(shí)別交互的基本信息,因此它被編碼到連接異構(gòu)節(jié)點(diǎn)的邊中。連接同類節(jié)點(diǎn)的邊表示類內(nèi)上下文,反映同類節(jié)點(diǎn)的相關(guān)性,連接異類節(jié)點(diǎn)的邊表示類間上下文,反映交互性,其示例如圖4 中下圖所示。此外,他們還將上下文學(xué)習(xí)與圖注意力方法相結(jié)合,以提高節(jié)點(diǎn)從其鄰居節(jié)點(diǎn)收集知識(shí)的有效性。
吳偉等人利用圖結(jié)構(gòu)對(duì)圖像中潛在的HOI 進(jìn)行建模,并通過(guò)引入注意力機(jī)制的特征處理網(wǎng)絡(luò)將圖像上下文信息融入到圖節(jié)點(diǎn)的特征表示中去,最后聯(lián)合圖注意力網(wǎng)絡(luò)(graph attention network,GAT)對(duì)真實(shí)的HOI 加以推斷。Liang 等人也使用了GAT,他們發(fā)現(xiàn)大多數(shù)工作僅使用來(lái)自單個(gè)人-物對(duì)的局部特征進(jìn)行推斷,很少有學(xué)者研究如何通過(guò)圖網(wǎng)絡(luò)來(lái)消除附屬關(guān)系的歧義,也很少有人研究如何有效地利用視覺(jué)線索以及包含在HOI中的內(nèi)在語(yǔ)義規(guī)則。他們構(gòu)建了一個(gè)視覺(jué)語(yǔ)義圖注意網(wǎng)絡(luò)(visualsemantic graph attention networks,VS-GATs),這是一個(gè)并行聚合視覺(jué)空間和語(yǔ)義信息的雙圖注意網(wǎng)絡(luò),它通過(guò)注意力機(jī)制有效地從主要的人-物關(guān)系以及附屬關(guān)系中動(dòng)態(tài)地聚集上下文視覺(jué)、空間和語(yǔ)義信息,具有很強(qiáng)的消除歧義能力。
由Ulutan 等人提出的視覺(jué)空間圖網(wǎng)絡(luò)(visualspatial-graph network,VSGNet)在傳統(tǒng)的三分支網(wǎng)絡(luò)上進(jìn)行了改進(jìn),不僅利用了人-物體對(duì)的空間配置來(lái)細(xì)化視覺(jué)特征,還加入了圖卷積分支。其中視覺(jué)分支從人-物對(duì)中提取人的特征、物的特征以及上下文特征,空間分支使用人-物對(duì)的空間配置來(lái)細(xì)化視覺(jué)特征,圖卷積分支使用圖卷積結(jié)構(gòu)連接,圖形卷積使用交互提議分?jǐn)?shù)作為人-對(duì)象節(jié)點(diǎn)之間的邊緣強(qiáng)度。最后,由三個(gè)分支的交互建議得分共同推理交互動(dòng)作。
然而,Zhang 等人對(duì)VSGNet 進(jìn)行測(cè)試發(fā)現(xiàn),當(dāng)使用一次以上的消息傳遞迭代時(shí),它的二分圖本身的性能要差得多。于是他們推測(cè)這是因?yàn)猷徑又禌](méi)有適當(dāng)?shù)貥?biāo)準(zhǔn)化,導(dǎo)致節(jié)點(diǎn)編碼被傳入的消息所支配。而在他們提出的用于檢測(cè)人-物交互的時(shí)空注意力圖神經(jīng)網(wǎng)絡(luò)(spatio-attentive graphs,SAG)中,消息傳遞算法沒(méi)有顯示出這種問(wèn)題,并且更加穩(wěn)定。與現(xiàn)有的分離外觀和空間特征的方法不同,他們的方法將這兩個(gè)線索融合在一個(gè)圖形模型中,使用它們共同推理交互,允許以兩種形式為條件的信息影響與相鄰節(jié)點(diǎn)的交互預(yù)測(cè),從而消除在視覺(jué)上相似但空間上不同的交互之間的歧義。
Gao 等人先使用抽象的空間語(yǔ)義表示來(lái)描述每個(gè)人-物體對(duì),然后利用雙重關(guān)系圖(dual relation graph,DRG)來(lái)聚合場(chǎng)景的上下文信息,其中一個(gè)以人為中心,一個(gè)以物體為中心。該模型能有效地捕捉來(lái)自場(chǎng)景的區(qū)別性線索,以解決局部預(yù)測(cè)時(shí)的歧義。不同于從其他物體、身體部位或場(chǎng)景背景中聚合上下文信息的方法,DRG 利用不同HOI 之間的關(guān)系來(lái)細(xì)化預(yù)測(cè)。
圖模型的強(qiáng)大推理能力對(duì)于HOI 檢測(cè)有重要的幫助,但是像GPNN 與VSGNet,只是簡(jiǎn)單地根據(jù)人與物體的視覺(jué)特征來(lái)構(gòu)建圖模型,這樣的表示方法存在一定的局限性,它們不僅忽略了兩者在交互中扮演著不同的角色,也沒(méi)有考慮如何使用其他的信息來(lái)完善圖模型。吳偉等人通過(guò)引入注意力機(jī)制的特征處理網(wǎng)絡(luò)來(lái)完善圖模型的構(gòu)建,VS-GATs 與DRG 則是根據(jù)不同的信息分別構(gòu)建了兩個(gè)不同的圖模型來(lái)共同分析這一問(wèn)題。除此之外,GAT 也在一些方法中被應(yīng)用進(jìn)來(lái)。
現(xiàn)有的研究表明,僅僅依靠人和物的外觀特征以及兩者的空間關(guān)系遠(yuǎn)遠(yuǎn)不能滿足HOI 檢測(cè)的需要。因此,一些研究開始引入額外的信息以提高HOI檢測(cè)的精確度,其中人的身體部位和姿態(tài)就是一種重要的信息。
傳統(tǒng)方法將人體視為一個(gè)整體,并對(duì)整個(gè)身體區(qū)域給予相同的關(guān)注,但是它們忽略了通常情況下人類只使用身體的某些部分與物體進(jìn)行交互。2018年,F(xiàn)ang 等人認(rèn)為不同的身體部位應(yīng)該得到不同的重視,并且不同身體部位之間的相關(guān)性也應(yīng)該進(jìn)一步考慮,這是因?yàn)樯眢w部位總是協(xié)同工作,于是他們提出了一個(gè)新的成對(duì)的身體部位注意模型,其結(jié)構(gòu)如圖5 所示。它可以通過(guò)學(xué)習(xí)來(lái)關(guān)注關(guān)鍵部位以及它們之間的相關(guān)性,用來(lái)進(jìn)行HOI 識(shí)別。對(duì)于人體部位及其成對(duì)相關(guān)性,使用成對(duì)感興趣區(qū)域(region of interest,ROI)池化,將成對(duì)的身體部位的聯(lián)合特征映射池化,并舍棄其他身體部位的特征。此外,該模型首次將注意力機(jī)制應(yīng)用于人體部位相關(guān)性來(lái)檢測(cè)HOI。
圖5 成對(duì)的身體部位注意模型Fig.5 Model of pairwise body-part attention
雖然交互性是HOI 檢測(cè)的一個(gè)基本要素,但是它可以用于提高網(wǎng)絡(luò)檢測(cè)性能的作用往往被忽視,并且與具體的HOI 類別相比,互動(dòng)性包含更多的基本信息,而這種屬性使得交互性更容易在數(shù)據(jù)集之間傳遞。受到這一啟發(fā),Li等人提出了一種交互識(shí)別方法TIN(transferable interactiveness knowledge network),其核心思想是利用交互網(wǎng)絡(luò)從多個(gè)HOI 數(shù)據(jù)集學(xué)習(xí)一般的交互知識(shí),并在推理過(guò)程中的HOI 分類之前執(zhí)行非交互抑制(non-interaction suppression,NIS)。也就是說(shuō),在HOI 分類之前,就明確區(qū)分非交互對(duì)并抑制它們,從而減少過(guò)多非互動(dòng)候選對(duì)造成的干擾。交互網(wǎng)絡(luò)使用人、物體和空間姿態(tài)流從人和物體的外觀、空間位置和人的姿態(tài)信息中提取特征,然后三個(gè)流的輸出連接起來(lái)并輸入到交互鑒別器中。由于交互性提供了額外的信息來(lái)幫助HOI 分類,并且獨(dú)立于HOI 分類之外,這使得它擁有良好的泛化性從而可以跨數(shù)據(jù)集傳輸,并且可以與任何HOI檢測(cè)模型相結(jié)合,從而增強(qiáng)為不同HOI 環(huán)境設(shè)計(jì)的HOI模型。
相較于上述兩種只是將人體姿態(tài)作為人體部分和物體之間的空間約束的方法,Wan 等人考慮到人-物體外觀和空間配置的巨大差異以及相似關(guān)系間的細(xì)微差異,于2019 年提出了姿態(tài)感知多級(jí)特征網(wǎng)絡(luò)(pose-aware multi-level feature network,PMFNet),它利用人體姿態(tài)線索來(lái)捕捉關(guān)系的全局空間配置,并作為一種注意力機(jī)制來(lái)動(dòng)態(tài)放大人體部分級(jí)別的相關(guān)區(qū)域的多級(jí)關(guān)系檢測(cè)策略。具體來(lái)說(shuō),使用一個(gè)多分支深層網(wǎng)絡(luò)來(lái)學(xué)習(xí)三個(gè)語(yǔ)義層次上的姿態(tài)增強(qiáng)關(guān)系表示,包括交互上下文、目標(biāo)特征和詳細(xì)的局部線索。
Zhou 和Chi則是將圖模型與身體部位相結(jié)合,提出了關(guān)系解析神經(jīng)網(wǎng)絡(luò)(relation parsing neural network,RPNN),該網(wǎng)絡(luò)由兩個(gè)基于注意力的圖表示,一個(gè)是動(dòng)態(tài)捕捉身體部位和周圍對(duì)象之間關(guān)系的物體-身體部位圖,一個(gè)是推理人體與身體部位之間關(guān)系的人-身體部位圖,并組合身體部位上下文來(lái)預(yù)測(cè)動(dòng)作。RPNN 引入了詳細(xì)的身體部位特征,并且模型結(jié)合了用于特征細(xì)化的圖結(jié)構(gòu),而不是GPNN 中的基于粗略的人/物體外觀特征來(lái)擴(kuò)展可學(xué)習(xí)的圖模型以獲取強(qiáng)有力的表示。它與以實(shí)例為中心的圖像注意ICAN 不同,該研究認(rèn)為物體和身體部位才是需要注意的最有趣的區(qū)域。因此,基于檢測(cè)到的身體部位和對(duì)象,明確引入物體-身體部位注意機(jī)制和人體-身體部位注意機(jī)制來(lái)聚焦感興趣的對(duì)象和身體部位區(qū)域。相較于成對(duì)的身體部位注意模型為身體各部分之間的配對(duì)關(guān)系建模,RPNN 則是把重點(diǎn)放在了對(duì)物-身體部分對(duì)以及人-身體部分對(duì)之間的關(guān)系進(jìn)行建模。此外,這是第一個(gè)在HOI 檢測(cè)中關(guān)注身體部位和物體之間的成對(duì)相關(guān)性的研究。
Liu 等人認(rèn)為PMFNet 和RPNN 的成對(duì)特征不夠全面,導(dǎo)致不能更好地模擬身體部分和對(duì)象之間的微妙交互,而他們于2021 年提出的多級(jí)成對(duì)特征網(wǎng)絡(luò)(multi-level pairwise feature network,PFNet)包含更全面的成對(duì)特征,主要有三個(gè)組成部分(身體部分的視覺(jué)特征、物體的視覺(jué)特征及其相對(duì)空間配置)。此外,當(dāng)對(duì)象被部分遮擋時(shí),對(duì)象的語(yǔ)義標(biāo)簽可以作為可靠的先驗(yàn)以及對(duì)象外觀的替代。Sun 等人也發(fā)現(xiàn)了PMFNet 和RPNN 中存在的不足。首先,它們使用在目標(biāo)檢測(cè)數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)主干來(lái)提取用于HOI 推理的視覺(jué)特征,導(dǎo)致交互短語(yǔ)(人-物對(duì)的聯(lián)合區(qū)域)和單個(gè)物體的外觀分布存在顯著的偏差。此外,它們根據(jù)檢測(cè)到的實(shí)體和人體部分的邊界框裁剪多級(jí)CNN 特征,以捕獲詳細(xì)的視覺(jué)線索,盡管利用了先前的位置信息,但是CNN 的特征仍然僅僅來(lái)源于圖像?;谶@兩點(diǎn),Sun 等人提出了一個(gè)多層次條件網(wǎng)絡(luò)(multi-level conditioned network,MLCNet),旨在將額外的顯性知識(shí)與多層次視覺(jué)特征相融合。他們構(gòu)建了一個(gè)多分支CNN 作為多層次視覺(jué)表示的主干,然后通過(guò)仿射變換和注意機(jī)制,將包括人體結(jié)構(gòu)和對(duì)象上下文在內(nèi)的額外知識(shí)編碼為條件,以動(dòng)態(tài)影響CNN 的特征提取,最后融合調(diào)制的多模態(tài)特征來(lái)區(qū)分相互作用。
Liang 等人則是提出了基于姿態(tài)的模塊化網(wǎng)絡(luò)(pose-based modular network,PMN),該模塊由一個(gè)獨(dú)立處理每個(gè)關(guān)節(jié)相對(duì)空間姿態(tài)特征的分支和另一個(gè)使用圖卷積更新每個(gè)關(guān)節(jié)絕對(duì)姿態(tài)特征的分支組成,最后把融合處理后的特征,送入動(dòng)作分類器進(jìn)行分類。該模塊能夠與現(xiàn)有網(wǎng)絡(luò)完全兼容,并在性能上有顯著的提高。
融入身體部位和姿勢(shì)的方法在準(zhǔn)確率上已經(jīng)取得了很好的效果,雖然提取的上下文特征有利于特征表達(dá),但是額外的注釋和計(jì)算是不可或缺的,帶來(lái)了很大的工作量和計(jì)算負(fù)擔(dān),并且基于姿態(tài)的方法離不開預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)器,它對(duì)硬件設(shè)備的要求會(huì)更高。而TIN 與PMN 可以與不同方法進(jìn)行結(jié)合,相較于其他方法靈活得多。
兩階段的HOI 檢測(cè)方法已經(jīng)取得了很大的進(jìn)展,但其缺陷也很明顯,由于需要將檢測(cè)到人和物體先配對(duì)再進(jìn)行交互預(yù)測(cè),會(huì)產(chǎn)生高昂的計(jì)算代價(jià)且靈活性不足,其效率和有效性都受到其串行結(jié)構(gòu)的限制。隨著一階段目標(biāo)檢測(cè)器的發(fā)展,開始有一階段的HOI 檢測(cè)器被提出?,F(xiàn)有的單級(jí)HOI 檢測(cè)器將HOI檢測(cè)公式化為并行檢測(cè)問(wèn)題,它能夠直接從圖像中檢測(cè)HOI 三元組,一步到位的方法在效率和效果上都有較大的提高。
2020 年,Liao 等人提出了首個(gè)實(shí)時(shí)的一階段HOI 檢測(cè)方法PPDM(parallel point detection and matching),這一方法使用檢測(cè)框的中心點(diǎn)表示人和物體點(diǎn),用人點(diǎn)和物體點(diǎn)間的中點(diǎn)表示交互點(diǎn)。該模型使用兩個(gè)并行分支分別進(jìn)行點(diǎn)檢測(cè)和匹配,其中點(diǎn)檢測(cè)分支預(yù)測(cè)人、物體以及交互點(diǎn),點(diǎn)匹配分支預(yù)測(cè)從交互點(diǎn)到其對(duì)應(yīng)的人點(diǎn)和物體點(diǎn)的兩個(gè)位移。源自同一交互點(diǎn)的人點(diǎn)和物體點(diǎn)被視為匹配對(duì),而不太可能形成有意義的HOI 三元組的孤立檢測(cè)框則會(huì)被抑制,增加了HOI 檢測(cè)的精度。此外,人和物體檢測(cè)框之間的匹配僅應(yīng)用于有限數(shù)量的過(guò)濾后的候選交互點(diǎn),節(jié)省了大量的計(jì)算成本。
受到無(wú)錨框物體檢測(cè)研究的啟發(fā),Wang 等人也用點(diǎn)的思想解決HOI 檢測(cè)問(wèn)題,通過(guò)將人和物體之間的相互作用定義為相互作用點(diǎn),將HOI 檢測(cè)視為相互作用點(diǎn)估計(jì)問(wèn)題,這是首個(gè)把HOI 檢測(cè)作為關(guān)鍵點(diǎn)檢測(cè)和分組問(wèn)題的方法,被稱作IP-Net(interaction point)?;诮换c(diǎn),該方法學(xué)習(xí)生成關(guān)于人和物體中心點(diǎn)的交互向量,并進(jìn)一步引入了一種交互分組方案,該方案將交互點(diǎn)和向量與來(lái)自檢測(cè)分支的相應(yīng)的人和物體邊界框預(yù)測(cè)配對(duì),以產(chǎn)生最終的交互預(yù)測(cè)。
與前兩個(gè)基于點(diǎn)的方法不同,Kim 等人提出的面向?qū)崟r(shí)人機(jī)交互檢測(cè)的聯(lián)合檢測(cè)器(union-level detector towards real-time human-object interaction detection,UnionDet)是把從主干網(wǎng)絡(luò)獲得的特征金字塔同時(shí)送到聯(lián)合分支和實(shí)例分支。在聯(lián)合分支直接捕獲交互區(qū)域的同時(shí),實(shí)例分支執(zhí)行傳統(tǒng)的目標(biāo)檢測(cè)和動(dòng)作分類,以獲得更細(xì)粒度的HOI 檢測(cè)結(jié)果。它不同于將每個(gè)目標(biāo)對(duì)送入單獨(dú)的神經(jīng)網(wǎng)絡(luò)來(lái)關(guān)聯(lián)目標(biāo)檢測(cè)結(jié)果,而是使用提出的聯(lián)合檢測(cè)框架直接檢測(cè)相互作用的人類對(duì)象對(duì)。這消除了在物體檢測(cè)之后對(duì)繁重的神經(jīng)網(wǎng)絡(luò)推理的需要,并且其能夠在現(xiàn)有物體檢測(cè)器的基礎(chǔ)上以最小的額外時(shí)間檢測(cè)交互。UnionDet 還能與現(xiàn)有的單階段目標(biāo)檢測(cè)器兼容,如SSD、RetinaNet和STDN,并且是端到端可訓(xùn)練的。
Chen 等人于2021 年提出的基于自適應(yīng)集合的一階段框架(adaptive set-based one-stage framework,AS-Net)與之前方法都不同。PPDM 與IP-Net 都是基于點(diǎn)的方法,在每個(gè)交互關(guān)鍵點(diǎn)執(zhí)行推理,例如每個(gè)對(duì)應(yīng)的人-物體對(duì)的中點(diǎn);UnionDet 則是基于框的方法,根據(jù)每個(gè)聯(lián)合框預(yù)測(cè)交互。而AS-Net 將HOI 檢測(cè)表述為一個(gè)集合預(yù)測(cè)問(wèn)題,具有并行的實(shí)例分支和交互分支,突破了現(xiàn)有方法以實(shí)例為中心和位置為中心的限制,通過(guò)聚集來(lái)自全局上下文的交互相關(guān)特征,并將每個(gè)基本事實(shí)與交互預(yù)測(cè)進(jìn)行匹配,該網(wǎng)絡(luò)在特征聚集和監(jiān)督兩方面都表現(xiàn)出了自適應(yīng)能力。此外,它的實(shí)例感知注意模塊有助于增強(qiáng)有指導(dǎo)意義的實(shí)例特征,并且還引入了語(yǔ)義嵌入來(lái)提高性能。
針對(duì)以上介紹的不同HOI 檢測(cè)方法,表1 分析了各類方法的優(yōu)點(diǎn)、缺點(diǎn)、適用場(chǎng)景等。
表1 不同HOI檢測(cè)方法比較Table 1 Comparison of different HOI detection methods
V-COCO(verbs in common objects in context)數(shù)據(jù)集派 生自Microsoft COCO 數(shù) 據(jù)集,是Gupta 等人使用AMT(Amazon mechanical turk)通過(guò)連接相互作用的人和物體并標(biāo)記它們的語(yǔ)義角色擴(kuò)充MSCOCO 而來(lái)。它由含2 533 幅圖像的訓(xùn)練集、2 867 幅圖像的驗(yàn)證集和4 946 幅圖像的測(cè)試集三部分組成,其中訓(xùn)練集和驗(yàn)證集圖像來(lái)自COCO 的訓(xùn)練集,測(cè)試集圖像來(lái)自COCO 的驗(yàn)證集。V-COCO 數(shù)據(jù)集總共有10 346 幅圖像,其中包含了16 199 個(gè)人的實(shí)例,每個(gè)帶注釋的人有26 個(gè)不同的二進(jìn)制動(dòng)作標(biāo)簽,同時(shí)含有80 個(gè)對(duì)象類別。過(guò)去大多數(shù)的數(shù)據(jù)集中每個(gè)人只有一個(gè)動(dòng)作標(biāo)簽,每幅圖像只有一個(gè)帶注釋的人,而V-COCO 中的人平均有2.87 個(gè)動(dòng)作標(biāo)簽,平均每張圖片上有1.57 個(gè)被標(biāo)注了動(dòng)作標(biāo)簽的人,約有2 000 張含兩個(gè)人的圖像,800 張含3 個(gè)人的圖像。同時(shí)V-COCO 中的所有圖像都繼承了COCO 中的所有注釋,使得它可滿足各種研究任務(wù)的需求。
HICO-DET 數(shù)據(jù)集是一個(gè)專門用于HOI 研究任務(wù)的大型基準(zhǔn)數(shù)據(jù)集,是Chao 等人在2018 年提出的,他們通過(guò)在AMT 上設(shè)置注釋任務(wù)來(lái)收集實(shí)例注釋,從而擴(kuò)充只有圖像級(jí)注釋的HICO(humans interacting with common objects)數(shù)據(jù)集。HICO-DET比V-COCO 更大,也更多樣化,共有47 776 幅圖像,其中38 118 幅用于訓(xùn)練,9 658 幅用于測(cè)試,有超過(guò)15萬(wàn)個(gè)人類實(shí)例與600個(gè)HOI類別。同時(shí),HICO-DET數(shù)據(jù)集包含與MS-COCO 相同的80 個(gè)對(duì)象類別。
雖然V-COCO 數(shù)據(jù)集與HICO-DET 數(shù)據(jù)集在近幾年一直是評(píng)估HOI 檢測(cè)任務(wù)的基準(zhǔn)數(shù)據(jù)集,但是Liao 等人考慮到在實(shí)際應(yīng)用中V-COCO 數(shù)據(jù)集與HICO-DET 數(shù)據(jù)集里需要特別注意的出現(xiàn)頻繁的HOI 類別有限,于是構(gòu)建了HOI-A(human-object interaction for application)數(shù)據(jù)集。HOI-A 數(shù)據(jù)集由38 668 個(gè)帶注釋的圖像組成,其中包含11 種交互物體和10 種交互動(dòng)作。具體來(lái)說(shuō),它包含43 820 個(gè)人體實(shí)例,60 438 個(gè)物體實(shí)例和96 160 個(gè)交互實(shí)例。此外,為了擴(kuò)大數(shù)據(jù)的類內(nèi)變化,HOI-A 數(shù)據(jù)集中每種類型的交互分為室內(nèi)、室外和車內(nèi)三種場(chǎng)景,包括了黑暗、自然和強(qiáng)烈的三種照明條件,以及各種不同的角度。
在目標(biāo)檢測(cè)任務(wù)中,如果算法預(yù)測(cè)的目標(biāo)邊框與真實(shí)邊框(ground truth)重疊部分的交并比(intersection over union,IoU)大于0.5,則會(huì)被認(rèn)為是真陽(yáng)性(true positive,TP)。HOI 檢測(cè)任務(wù)在此判別基礎(chǔ)上進(jìn)行了修改,認(rèn)為只有同時(shí)滿足以下條件才能被判定為真陽(yáng)性:(1)預(yù)測(cè)的人類邊框與其真實(shí)邊框(ground truth)之間的IoU 大于或等于0.5;(2)預(yù)測(cè)的物體邊框與真實(shí)的物體邊框之間的IoU 大于或等于0.5;(3)預(yù)測(cè)出的人與物體之間的交互動(dòng)作與標(biāo)簽標(biāo)注的真實(shí)發(fā)生的交互動(dòng)作一致。
遵循目標(biāo)檢測(cè)的標(biāo)準(zhǔn)評(píng)估標(biāo)準(zhǔn),使用平均精度(mean average precision,mAP)來(lái)評(píng)估HOI 檢測(cè),它是AP(average precision)的平均值。要計(jì)算AP 需要用到混淆矩陣,如表2 所示。表2 中TP(true positive)表示模型的預(yù)測(cè)結(jié)果和樣本的真實(shí)類別一致均是正例;FN(false negative)表示模型預(yù)測(cè)的結(jié)果是反例,而樣本的真實(shí)類別是正例;FP(false positive)表示模型預(yù)測(cè)的結(jié)果是正例,而樣本的真實(shí)類別是反例;TN(true negative)表示模型的預(yù)測(cè)結(jié)果和樣本的真實(shí)類別均是反例。
表2 混淆矩陣Table 2 Confusion matrix
準(zhǔn)確率(precision)指的是真正的正樣本占人-物體交互檢測(cè)模型預(yù)測(cè)出的全部正樣本的比例。定義如式(1)所示:
召回率(recall)指的是在所有真實(shí)的正樣本中,人-物體交互檢測(cè)模型預(yù)測(cè)為正確的正樣本所占的比例。定義如式(2)所示:
AP 指的是所有準(zhǔn)確率的和占該類別的圖像數(shù)量的比例,它衡量的是在單個(gè)類別上模型判斷結(jié)果的好壞。定義如式(3)所示:
其中,表示,表示,()是一個(gè)以為參數(shù)的函數(shù),函數(shù)的積分表示的是平均精準(zhǔn)率,該公式表示的AP 值也可以看作是PR(precision-recall curve)曲線以下部分的面積。PR 特征曲線,即準(zhǔn)確率-召回率曲線,在目標(biāo)檢測(cè)、顯著性檢測(cè)等領(lǐng)域有廣泛的應(yīng)用。
mAP 指的是平均精確率(AP)的平均值,它衡量的是在所有類別上模型判斷結(jié)果的好壞。定義如式(4)所示:
其中,表示HOI類的總數(shù)。
本文所述HOI 檢測(cè)模型在V-COCO 數(shù)據(jù)集和HICO-DET數(shù)據(jù)集上的測(cè)試結(jié)果分別如表3、表4所示。
表3 V-COCO 數(shù)據(jù)集測(cè)試結(jié)果Table 3 Results on V-COCO data set
與最早使用V-COCO 進(jìn)行測(cè)試的文獻(xiàn)[15]相比,后面出現(xiàn)的方法在平均準(zhǔn)確率上都取得了較高的提升,兩階段方法中融入注意力的方法將mAP 提升到了40%以上,融入人體姿勢(shì)和身體部位的方法由于加入額外的信息與融入圖模型方法準(zhǔn)確率大都高于50%。一階段方法中基于框的UnionDet 的準(zhǔn)確率略低于基于點(diǎn)的方法的準(zhǔn)確率。AS-Net不僅是一階段方法中準(zhǔn)確率最高的,與本文提到的其他方法相比,它也是效果最好的。
需要注意的是,在HICO-DET 數(shù)據(jù)集上提供了兩種設(shè)置:(1)已知對(duì)象設(shè)置(Known Object),對(duì)于每個(gè)HOI 類別,僅在包含目標(biāo)對(duì)象類別的圖像上評(píng)估檢測(cè);(2)默認(rèn)設(shè)置(Default),對(duì)于每個(gè)HOI 類別,在整個(gè)測(cè)試集上評(píng)估檢測(cè),包括包含和不包含目標(biāo)對(duì)象類別的圖像,這顯然是更具難度的。這兩種設(shè)置下都包含了full、rare、non-rare 三種類別,full 表示數(shù)據(jù)集中的全部600 個(gè)HOI 類,rare 表示138 個(gè)少于10 個(gè)實(shí)例的HOI 類,non-rare 表示462 個(gè)擁有10 個(gè)或更多實(shí)例的HOI類。
與在V-COCO 數(shù)據(jù)集上的結(jié)果類似,一階段方法在HICO-DET數(shù)據(jù)集上也表現(xiàn)出了很好的結(jié)果,ASNet不僅在各種設(shè)置下都表現(xiàn)出了最高的準(zhǔn)確率,并且明顯領(lǐng)先于其他方法,而其他方法之間則沒(méi)有如此明顯的差距。
目前HOI 檢測(cè)網(wǎng)絡(luò)主要從以下兩方面進(jìn)行改進(jìn)提升:
(1)替換主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)用于提取圖像特征,提取圖像特征是HOI檢測(cè)的一個(gè)重要環(huán)節(jié),從表3、表4 中可以看出,大多數(shù)模型使用的特征提取主干網(wǎng) 絡(luò)是ResNet或是在其基礎(chǔ)上融入特征金字塔(feature pyramid networks,F(xiàn)PN)、可變形卷積網(wǎng)絡(luò)(deformable convolutional networks,DCN),也有方法使用CaffeNet、Hourglass-104來(lái)提取特征。
表4 HICO-DET 數(shù)據(jù)集測(cè)試結(jié)果Table 4 Results on HICO-DET data set %
(2)融入額外的信息。例如加入人體姿態(tài)與身體部分信息可以提升模型的理解能力。此外,也有像一階段方法一樣,使用新思路來(lái)解決HOI 檢測(cè)問(wèn)題的方法出現(xiàn)。
(1)數(shù)據(jù)集中不同類別間的實(shí)例樣本數(shù)量不平衡,一些常見的交互具有豐富的樣本,而一些不常見的交互甚至只有不到10 個(gè)樣本,這大大增加了訓(xùn)練難度,還會(huì)造成過(guò)擬合。
(2)由于一張圖像中往往含有多個(gè)人和物體,若是將所有人和物體的組合窮舉出來(lái)再逐對(duì)進(jìn)行推理判斷,則會(huì)給計(jì)算資源帶來(lái)巨大的負(fù)擔(dān)。
(3)兩階段模型雖然取得了不錯(cuò)的準(zhǔn)確率,但是受其串行結(jié)構(gòu)的限制,并不能用于對(duì)實(shí)時(shí)性要求較高的場(chǎng)景。
(4)目前的HOI 檢測(cè)模型主要基于V-COCO 和HICO-DET 等少數(shù)幾個(gè)公共基準(zhǔn)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,雖然有的數(shù)據(jù)集中的類別有幾百個(gè),但是由于缺少種類少而樣本多的專門針對(duì)某種特定場(chǎng)景的數(shù)據(jù)集,無(wú)法訓(xùn)練出應(yīng)用于特定使用場(chǎng)景的模型。
自2018 年HO-RCNN 出現(xiàn)以來(lái),兩階段的HOI檢測(cè)方法已經(jīng)被廣泛研究且逐漸趨于成熟,其中包括使用注意力機(jī)制、圖模型以及引入身體部分和姿勢(shì)等,而且最近的方法也不再僅僅是使用其中一種,而是融合兩種或多種。就平均精確率來(lái)看,兩階段方法已經(jīng)取得了不錯(cuò)的結(jié)果。
(1)在兩階段方法中,圖網(wǎng)絡(luò)的強(qiáng)大的推理能力非常適用于解決HOI 檢測(cè)任務(wù),但大多數(shù)以前的工作未能利用圖形中的空間關(guān)系信息。因此,如何引入其他信息來(lái)完善圖模型的構(gòu)建還有較大的研究空間。
(2)與兩階段方法相比,一階段方法更快、更高效,不需要在不同階段之間切換模型,也不需要保存或加載中間結(jié)果,更容易在實(shí)際應(yīng)用中部署,并且還擁有不輸兩階段方法的準(zhǔn)確率,在將來(lái)勢(shì)必會(huì)成為HOI 檢測(cè)領(lǐng)域的重要研究方向。此外,使用它擴(kuò)展處理一些相關(guān)問(wèn)題,如視覺(jué)關(guān)系檢測(cè)和多目標(biāo)跟蹤等也是值得研究的方向。然而,剛剛起步的一階段方法仍然有許多需要解決的問(wèn)題,比如需要復(fù)雜的后期處理來(lái)對(duì)目標(biāo)檢測(cè)結(jié)果和交互預(yù)測(cè)進(jìn)行分組,對(duì)相互作用區(qū)域或點(diǎn)的定義仍然相對(duì)粗糙等。因此,如何簡(jiǎn)化后期處理以及怎樣處理好與交互區(qū)域相關(guān)的語(yǔ)義歧義是未來(lái)研究中亟需解決的問(wèn)題。
(3)近兩年有研究旨在直接解決不同類別樣本數(shù)量不均衡所造成的長(zhǎng)尾(long tail)問(wèn)題以及人-物對(duì)組合爆炸問(wèn)題,Shen 等人提出了一種弱監(jiān)督模型,首次將零樣本學(xué)習(xí)(zero-shot learning)擴(kuò)展到HOI識(shí)別中,實(shí)現(xiàn)對(duì)數(shù)據(jù)集中未出現(xiàn)過(guò)的HOI類別的識(shí)別。Ji 等人提出的少樣本HOI 檢測(cè)方法SAPNet與DGIG-Net也能有效解決這兩個(gè)問(wèn)題。由于少樣本的HOI 檢測(cè)是為直接解決HOI 檢測(cè)中最重要的兩個(gè)問(wèn)題而設(shè)計(jì)的,是解決HOI 檢測(cè)問(wèn)題必要深入研究的重要方向。
(4)為了能夠更好地將HOI 檢測(cè)技術(shù)應(yīng)用于現(xiàn)實(shí)中的特定場(chǎng)景,迫切需要更多像HOI-A 這樣包含更具針對(duì)性動(dòng)作的或更具實(shí)際意義動(dòng)作的數(shù)據(jù)集來(lái)進(jìn)一步推動(dòng)這項(xiàng)技術(shù)的發(fā)展與應(yīng)用。在評(píng)價(jià)指標(biāo)上,隨著一階段方法的興起,除了模型的準(zhǔn)確率外,檢測(cè)速率也將會(huì)成為用于評(píng)價(jià)模型的重要指標(biāo)。
隨著深度學(xué)習(xí)和目標(biāo)檢測(cè)技術(shù)的發(fā)展,HOI檢測(cè)技術(shù)得到了快速發(fā)展。本文將HOI 檢測(cè)技術(shù)分兩階段方法與一階段方法分別進(jìn)行闡述,其中將兩階段方法分為三類著重進(jìn)行介紹,而一階段方法是2020年開始出現(xiàn)的,目前的研究相對(duì)較少。目前HOI 檢測(cè)技術(shù)已經(jīng)在多個(gè)領(lǐng)域發(fā)揮其作用,相信在將來(lái),人-物交互檢測(cè)技術(shù)會(huì)吸引越來(lái)越多研究者的目光,并且會(huì)有越來(lái)越多的突破性的進(jìn)展出現(xiàn)。后續(xù)將會(huì)對(duì)使用圖神經(jīng)網(wǎng)絡(luò)的HOI檢測(cè)方法進(jìn)行深入研究,同時(shí)也會(huì)對(duì)一階段方法進(jìn)行持續(xù)研究以提高模型的檢測(cè)效率。