深度學(xué)習(xí)的人-物體交互檢測(cè)研究進(jìn)展

2022-02-23 10:03阮晨釗張祥森趙增順

計(jì)算機(jī)與生活 2022年2期

阮晨釗，張祥森，劉科，趙增順

山東科技大學(xué) 電子信息工程學(xué)院，山東青島266590

隨著信息技術(shù)的發(fā)展，計(jì)算機(jī)已經(jīng)能夠協(xié)助人們完成很多工作，幫助解決人們無(wú)法解決的難題，甚至在某些領(lǐng)域已經(jīng)可以取代人類。圖像是人類獲取信息的主要形式，有80%的信息都是以圖像的形式獲取的。常見的圖像任務(wù)，如目標(biāo)檢測(cè)、動(dòng)作識(shí)別和圖像分割等都屬于計(jì)算機(jī)視覺(jué)任務(wù)的范疇。而近幾年，這些任務(wù)也隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的深入應(yīng)用得到了快速發(fā)展。在此基礎(chǔ)上針對(duì)個(gè)體對(duì)象更高層的圖像語(yǔ)義研究，如人的動(dòng)作識(shí)別、姿態(tài)估計(jì)等也取得了較為明顯的進(jìn)步。但是僅憑這樣的個(gè)體對(duì)象識(shí)別還遠(yuǎn)遠(yuǎn)不能理解圖像中發(fā)生的事情，還需要識(shí)別出不同對(duì)象之間的關(guān)系。由于人與物的交互占據(jù)了大多數(shù)的人類活動(dòng)，檢測(cè)和識(shí)別每個(gè)人與周圍物體的交互方式對(duì)于有效理解圖像內(nèi)容十分重要，這個(gè)任務(wù)被稱為人-物體交互檢測(cè)，主要目的是定位人體、物體，并識(shí)別它們之間的交互關(guān)系。簡(jiǎn)單來(lái)說(shuō)，就是檢測(cè)圖像中的＜人體，動(dòng)詞，物體＞三元組，如圖1 所示。這樣的輸出能夠幫助回答很多與圖像相關(guān)的問(wèn)題。它可以告訴更多關(guān)于圖像中描繪的場(chǎng)景的當(dāng)前狀態(tài)，幫助更好地預(yù)測(cè)未來(lái)，還能夠反過(guò)來(lái)幫助理解動(dòng)作。人-物體交互檢測(cè)（human-object interaction，HOI）技術(shù)已經(jīng)被運(yùn)用在監(jiān)控視頻的自動(dòng)識(shí)別檢測(cè)中，識(shí)別檢測(cè)出視頻圖像中的異常行為，做到及時(shí)預(yù)警。此外，該技術(shù)對(duì)于智能交通、信息檢索以及人機(jī)交互等諸多領(lǐng)域的研究有重要幫助。

圖1 HOI檢測(cè)任務(wù)實(shí)例Fig.1 Examples of HOI detection

擁有廣闊研究前景的同時(shí)，這個(gè)問(wèn)題的研究也是具有挑戰(zhàn)性的，因?yàn)閳D像中可能包含多個(gè)執(zhí)行相同交互的人，同一個(gè)人可能同時(shí)與多個(gè)物體交互，同一個(gè)物體可能同時(shí)與多個(gè)人交互以及細(xì)粒度交互等。這些復(fù)雜多樣的交互場(chǎng)景都會(huì)給設(shè)計(jì)HOI 檢測(cè)解決方案帶來(lái)相當(dāng)大的難度。本文圍繞著基于深度學(xué)習(xí)的人-物體交互檢測(cè)技術(shù)，主要對(duì)以下幾點(diǎn)進(jìn)行了綜述：（1）人-物體交互檢測(cè)任務(wù)的提出；（2）人-物體交互檢測(cè)關(guān)鍵方法類別和發(fā)展現(xiàn)狀；（3）人-物體交互檢測(cè)的評(píng)價(jià)指標(biāo)和常用數(shù)據(jù)集。

1 HOI檢測(cè)方法

從2009 年開始，陸續(xù)出現(xiàn)了與HOI 檢測(cè)相關(guān)的研究，這些早期研究主要使用了手工制作的局部特征，通過(guò)捕捉這些特征將其分到特定的類別中。這些基于手工制作的特征主要是顏色、HOG和SIFT。其中Gupta 等人研究使用貝葉斯模型來(lái)進(jìn)行HOI分類，Yao 等人使用人和物體之間的上下文關(guān)系，Delaitre 等人使用具有空間交互和上下文的結(jié)構(gòu)化表示，Desai等人使用合成模型，Hu 等人則是參考了一組HOI 樣本。但是在這些早期的HOI 識(shí)別研究中都沒(méi)有在HOI 檢測(cè)中進(jìn)行直接評(píng)估，其中文獻(xiàn)[8,11,13]首先進(jìn)行動(dòng)作分類，然后進(jìn)行人與物關(guān)系的判斷；文獻(xiàn)[9]是目標(biāo)檢測(cè)之后進(jìn)行評(píng)估；文獻(xiàn)[12]是基于人體姿勢(shì)的結(jié)果進(jìn)行評(píng)判。該技術(shù)真正快速發(fā)展是在2015 年以后。

隨著深度學(xué)習(xí)的發(fā)展，計(jì)算機(jī)視覺(jué)的性能得到了極大的提升，人們可以從規(guī)模龐大的數(shù)據(jù)集中提取特征而不是局限于手工提取的特征，加之專門用于HOI檢測(cè)的數(shù)據(jù)集的出現(xiàn)，HOI檢測(cè)任務(wù)迎來(lái)了新的發(fā)展階段。2015 年，Gupta 和Malik 提出了首個(gè)用于HOI 檢測(cè)的數(shù)據(jù)集，并且提出了“視覺(jué)語(yǔ)義角色標(biāo)注”這一概念，對(duì)這一任務(wù)進(jìn)行了明確的定義：推理圖像中細(xì)粒度的動(dòng)作并檢測(cè)出與該動(dòng)作相關(guān)的語(yǔ)義角色（使用邊界框標(biāo)記出動(dòng)作區(qū)域以及做出這個(gè)動(dòng)作人與物）。其首先真正解決了人-物體交互識(shí)別檢測(cè)問(wèn)題。

Chao 等人于2018 年提出的基于人-物體區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)（human-object region-based convolutional neural networks，HO-RCNN）對(duì)HOI 檢測(cè)的研究具有十分重要的意義。它是一個(gè)多流網(wǎng)絡(luò)結(jié)構(gòu)，包含三個(gè)流：一個(gè)人流、一個(gè)物體流以及一個(gè)成對(duì)流。其中人流和物體流分別編碼人和物體的外觀特征，而成對(duì)流的目的則是編碼人和物體之間的空間關(guān)系。值得一提的是它沒(méi)有直接將邊界框坐標(biāo)作為輸入，而是提出了交互模式這一特殊類型的深度神經(jīng)網(wǎng)絡(luò)（deep neural networks，DNN）輸入，用來(lái)描述兩個(gè)邊界框的相對(duì)位置。這個(gè)模型首先使用人體和物體檢測(cè)器生成人體-物體區(qū)域?qū)Φ慕ㄗh，然后將每個(gè)人-物對(duì)的建議送入卷積神經(jīng)網(wǎng)絡(luò)以生成HOI 分類分?jǐn)?shù)，再將三個(gè)流中的分?jǐn)?shù)以后期融合的方式進(jìn)行融合，最后根據(jù)動(dòng)作得分進(jìn)行交互識(shí)別，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 多流網(wǎng)絡(luò)模型Fig.2 Multi-stream model

這一經(jīng)典的多流網(wǎng)絡(luò)結(jié)構(gòu)是兩階段方法的開端，同時(shí)為后續(xù)研究提供了基準(zhǔn)和思路，后來(lái)出現(xiàn)的很多方法是在它的基礎(chǔ)上進(jìn)行深入研究。例如，加入注意力機(jī)制、使用圖模型、引入人體姿態(tài)或身體部位信息。

1.1 兩階段方法

兩階段方法的思想就是把HOI 檢測(cè)任務(wù)分為目標(biāo)檢測(cè)和交互推理兩個(gè)子任務(wù)。目標(biāo)檢測(cè)階段使用預(yù)訓(xùn)練的目標(biāo)檢測(cè)模型檢測(cè)圖像中的人和物體，然后將其逐一匹配為成對(duì)的建議，而交互推理階段則是根據(jù)人-物體對(duì)的特征來(lái)推斷交互。近兩年的方法大多使用多流體系結(jié)構(gòu)來(lái)進(jìn)行交互推理。

通過(guò)關(guān)注早期預(yù)測(cè)進(jìn)而對(duì)結(jié)構(gòu)化輸出進(jìn)行建模的想法在以前被成功地應(yīng)用于各類計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中。一些突出的例子包括機(jī)器翻譯模型、圖像字幕、語(yǔ)音識(shí)別和人體姿態(tài)估計(jì)。注意力也被融入到HOI檢測(cè)的方法中。

Georgia等人于2018年提出了一個(gè)以人為中心的模型InteractNet 來(lái)識(shí)別人與物的交互，通過(guò)擴(kuò)展Faster R-CNN 模型，增加了一個(gè)分支，對(duì)目標(biāo)對(duì)象位置上的動(dòng)作和特定動(dòng)作的概率密度估計(jì)進(jìn)行分類。Kolesnikov 等人提出了一種用于檢測(cè)視覺(jué)關(guān)系的聯(lián)合概率模型BAR-CNN（box attention R-CNN），使用鏈?zhǔn)揭?guī)則將概率模型分解成兩個(gè)更簡(jiǎn)單的模型：第一檢測(cè)模型定位輸入圖像中的所有目標(biāo)；對(duì)于每個(gè)檢測(cè)到的目標(biāo)，第二個(gè)模型檢測(cè)與該目標(biāo)交互的所有其他對(duì)象。該模型的核心是框注意機(jī)制，該機(jī)制增強(qiáng)了第二個(gè)模型的能力，使其能夠?qū)Ｗ⒂诘谝粋€(gè)檢測(cè)模型定位的對(duì)象。具體來(lái)說(shuō)，就是將第一個(gè)模型檢測(cè)到的對(duì)象表示其空間位置的二進(jìn)制編碼，這些編碼作為第二檢測(cè)模型的附加輸入。該方法沒(méi)有引入新的超參，并且在數(shù)據(jù)集上取得了不錯(cuò)的效果。

與BAR-CNN 通過(guò)單獨(dú)分析人和物體而不考慮兩者之間關(guān)系的思路不同，Gao 等人認(rèn)為除了需要人、物的外觀特征以及人-物體對(duì)的空間特征以外，還需要上下文信息來(lái)識(shí)別HOI。因此，在HO-RCNN 的基礎(chǔ)上，他們提出的用于人機(jī)交互檢測(cè)的以實(shí)例為中心的注意網(wǎng)絡(luò)（instance-centric attention network for human-object interaction detection，ICAN）采用以實(shí)例為中心的注意力模塊來(lái)提取與局部區(qū)域（人/物框）的外觀特征互補(bǔ)的上下文特征，以提高HOI 檢測(cè)效果，而不是像HO-RCNN 那樣只是簡(jiǎn)單地用DNN 來(lái)提取特征，ICAN 模塊如圖3 所示。與之前手動(dòng)設(shè)計(jì)的上下文特征的方法（基于姿勢(shì)、整個(gè)圖像或次要區(qū)域的交互檢測(cè)方法）不同，ICAN 的注意力圖是自動(dòng)學(xué)習(xí)的，并與網(wǎng)絡(luò)的其余部分聯(lián)合訓(xùn)練，以提高性能。此外，與為圖像級(jí)分類設(shè)計(jì)的注意力模塊相比，ICAN的以實(shí)例為中心的注意力圖提供了更大的靈活性，因?yàn)樗试S根據(jù)不同的對(duì)象實(shí)例關(guān)注圖像中的不同區(qū)域。

圖3 ICAN 模塊Fig.3 ICAN module

Wang 等人提出的用于人-物交互檢測(cè)的上下文注意框架與ICAN 使用標(biāo)準(zhǔn)外觀特征構(gòu)建注意力圖不同，他們使用上下文外觀特征構(gòu)建注意力圖，并且注意力圖集中在人和物體分支中的相關(guān)區(qū)域，這些區(qū)域可能包含人和物體的相互作用。此外，對(duì)于單個(gè)和多個(gè)人-物交互，與ICAN 模型相比，這個(gè)方法能夠產(chǎn)生更多的固定注意力圖。該方法也是基于HORCNN 框架，在人流和物體流中引入了上下文感知的外觀模塊和上下文注意模塊。其中上下文感知的外觀模塊產(chǎn)生由外觀和上下文信息編碼而成的上下文外觀特征；注意力模塊抑制全局上下文產(chǎn)生的背景噪聲，同時(shí)保留相關(guān)的上下文信息，自適應(yīng)地選擇相關(guān)的以實(shí)例為中心的上下文信息，以突出可能包含人-對(duì)象交互的圖像區(qū)域。

注意力機(jī)制的加入有效提高了HOI 檢測(cè)模型提取上下文特征的能力，使模型的檢測(cè)效果得到了很大的提升，尤其是ICAN，其準(zhǔn)確率比HO-RCNN 提升了一倍，但是由于其分支結(jié)構(gòu)與HO-RCNN 相比并沒(méi)有明顯變化，仍然只是利用人與物體的視覺(jué)特征以及空間特征來(lái)進(jìn)行推理判斷。除此以外并沒(méi)有額外信息的加入，因此其準(zhǔn)確率還有較大的提升空間。

利用圖模型或者圖卷積是解決HOI 檢測(cè)問(wèn)題的一個(gè)重要思路。已經(jīng)有一些工作將網(wǎng)絡(luò)結(jié)構(gòu)與圖形模型集成在一起，并在場(chǎng)景理解、目標(biāo)檢測(cè)與解析和視覺(jué)問(wèn)答（visual question answering，VQA）等應(yīng)用中取得了可觀的結(jié)果。在HOI檢測(cè)中，圖模型的基本思想是用節(jié)點(diǎn)表示人和物體，用邊表示人和物體間的交互，人與物體間的交互相關(guān)性越大，則邊的強(qiáng)度就越高。

Qi 等人首次將圖模型和神經(jīng)網(wǎng)絡(luò)整合到一起來(lái)實(shí)現(xiàn)HOI 識(shí)別，他們提出了一個(gè)圖解析神經(jīng)網(wǎng)絡(luò)（graph parsing neural network，GPNN），它是消息傳遞神經(jīng)網(wǎng)絡(luò)（message passing neural network，MPNN）的推廣，繼承了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和圖形模型的表示能力。相較于之前的研究，能夠更好地解釋并明確地利用空間和時(shí)間相關(guān)性以及人-物關(guān)系，其示例如圖4 中的上圖所示。不同于大多數(shù)以前圖形或結(jié)構(gòu)化DNN 模型采用預(yù)固定圖形結(jié)構(gòu)的方法，為了尋求更好的泛化能力，圖解析神經(jīng)網(wǎng)絡(luò)引入了一個(gè)重要的連接函數(shù)來(lái)解決圖結(jié)構(gòu)學(xué)習(xí)的問(wèn)題。它學(xué)會(huì)以端到端的方式推斷鄰接矩陣，因此可以推斷出明確解釋HOI 關(guān)系的解析圖，從而迭代學(xué)習(xí)并推斷圖形結(jié)構(gòu)和消息傳遞。將人和物用節(jié)點(diǎn)表示，它們的關(guān)系定義為邊。以節(jié)點(diǎn)和邊緣特征作為輸入，并以消息傳遞方式輸出解析圖。

圖4 GPNN 與上下文異構(gòu)圖網(wǎng)絡(luò)區(qū)別Fig.4 Difference between GPNN and context heterogeneous graph network

GPNN 將人和物用相同類型節(jié)點(diǎn)表示的方法并不夠完善，因?yàn)樵贖OI 中人和物體所扮演的角色不同（人是交互的主體，物是交互的客體），活動(dòng)場(chǎng)景中異構(gòu)實(shí)體（人和物）之間存在類間語(yǔ)境，而同構(gòu)實(shí)體（人與人、物與物）之間存在類內(nèi)語(yǔ)境，這意味著它們之間的關(guān)系不盡相同?；谶@一考慮，Wang等人在2020年提出了一個(gè)上下文異構(gòu)的圖網(wǎng)絡(luò)，將人和物用不同的節(jié)點(diǎn)表示，同時(shí)人和物體的空間關(guān)系是識(shí)別交互的基本信息，因此它被編碼到連接異構(gòu)節(jié)點(diǎn)的邊中。連接同類節(jié)點(diǎn)的邊表示類內(nèi)上下文，反映同類節(jié)點(diǎn)的相關(guān)性，連接異類節(jié)點(diǎn)的邊表示類間上下文，反映交互性，其示例如圖4 中下圖所示。此外，他們還將上下文學(xué)習(xí)與圖注意力方法相結(jié)合，以提高節(jié)點(diǎn)從其鄰居節(jié)點(diǎn)收集知識(shí)的有效性。

吳偉等人利用圖結(jié)構(gòu)對(duì)圖像中潛在的HOI 進(jìn)行建模，并通過(guò)引入注意力機(jī)制的特征處理網(wǎng)絡(luò)將圖像上下文信息融入到圖節(jié)點(diǎn)的特征表示中去，最后聯(lián)合圖注意力網(wǎng)絡(luò)（graph attention network，GAT）對(duì)真實(shí)的HOI 加以推斷。Liang 等人也使用了GAT，他們發(fā)現(xiàn)大多數(shù)工作僅使用來(lái)自單個(gè)人-物對(duì)的局部特征進(jìn)行推斷，很少有學(xué)者研究如何通過(guò)圖網(wǎng)絡(luò)來(lái)消除附屬關(guān)系的歧義，也很少有人研究如何有效地利用視覺(jué)線索以及包含在HOI中的內(nèi)在語(yǔ)義規(guī)則。他們構(gòu)建了一個(gè)視覺(jué)語(yǔ)義圖注意網(wǎng)絡(luò)（visualsemantic graph attention networks，VS-GATs），這是一個(gè)并行聚合視覺(jué)空間和語(yǔ)義信息的雙圖注意網(wǎng)絡(luò)，它通過(guò)注意力機(jī)制有效地從主要的人-物關(guān)系以及附屬關(guān)系中動(dòng)態(tài)地聚集上下文視覺(jué)、空間和語(yǔ)義信息，具有很強(qiáng)的消除歧義能力。

由Ulutan 等人提出的視覺(jué)空間圖網(wǎng)絡(luò)（visualspatial-graph network，VSGNet）在傳統(tǒng)的三分支網(wǎng)絡(luò)上進(jìn)行了改進(jìn)，不僅利用了人-物體對(duì)的空間配置來(lái)細(xì)化視覺(jué)特征，還加入了圖卷積分支。其中視覺(jué)分支從人-物對(duì)中提取人的特征、物的特征以及上下文特征，空間分支使用人-物對(duì)的空間配置來(lái)細(xì)化視覺(jué)特征，圖卷積分支使用圖卷積結(jié)構(gòu)連接，圖形卷積使用交互提議分?jǐn)?shù)作為人-對(duì)象節(jié)點(diǎn)之間的邊緣強(qiáng)度。最后，由三個(gè)分支的交互建議得分共同推理交互動(dòng)作。

然而，Zhang 等人對(duì)VSGNet 進(jìn)行測(cè)試發(fā)現(xiàn)，當(dāng)使用一次以上的消息傳遞迭代時(shí)，它的二分圖本身的性能要差得多。于是他們推測(cè)這是因?yàn)猷徑又禌](méi)有適當(dāng)?shù)貥?biāo)準(zhǔn)化，導(dǎo)致節(jié)點(diǎn)編碼被傳入的消息所支配。而在他們提出的用于檢測(cè)人-物交互的時(shí)空注意力圖神經(jīng)網(wǎng)絡(luò)（spatio-attentive graphs，SAG）中，消息傳遞算法沒(méi)有顯示出這種問(wèn)題，并且更加穩(wěn)定。與現(xiàn)有的分離外觀和空間特征的方法不同，他們的方法將這兩個(gè)線索融合在一個(gè)圖形模型中，使用它們共同推理交互，允許以兩種形式為條件的信息影響與相鄰節(jié)點(diǎn)的交互預(yù)測(cè)，從而消除在視覺(jué)上相似但空間上不同的交互之間的歧義。

Gao 等人先使用抽象的空間語(yǔ)義表示來(lái)描述每個(gè)人-物體對(duì)，然后利用雙重關(guān)系圖（dual relation graph，DRG）來(lái)聚合場(chǎng)景的上下文信息，其中一個(gè)以人為中心，一個(gè)以物體為中心。該模型能有效地捕捉來(lái)自場(chǎng)景的區(qū)別性線索，以解決局部預(yù)測(cè)時(shí)的歧義。不同于從其他物體、身體部位或場(chǎng)景背景中聚合上下文信息的方法，DRG 利用不同HOI 之間的關(guān)系來(lái)細(xì)化預(yù)測(cè)。

圖模型的強(qiáng)大推理能力對(duì)于HOI 檢測(cè)有重要的幫助，但是像GPNN 與VSGNet，只是簡(jiǎn)單地根據(jù)人與物體的視覺(jué)特征來(lái)構(gòu)建圖模型，這樣的表示方法存在一定的局限性，它們不僅忽略了兩者在交互中扮演著不同的角色，也沒(méi)有考慮如何使用其他的信息來(lái)完善圖模型。吳偉等人通過(guò)引入注意力機(jī)制的特征處理網(wǎng)絡(luò)來(lái)完善圖模型的構(gòu)建，VS-GATs 與DRG 則是根據(jù)不同的信息分別構(gòu)建了兩個(gè)不同的圖模型來(lái)共同分析這一問(wèn)題。除此之外，GAT 也在一些方法中被應(yīng)用進(jìn)來(lái)。

現(xiàn)有的研究表明，僅僅依靠人和物的外觀特征以及兩者的空間關(guān)系遠(yuǎn)遠(yuǎn)不能滿足HOI 檢測(cè)的需要。因此，一些研究開始引入額外的信息以提高HOI檢測(cè)的精確度，其中人的身體部位和姿態(tài)就是一種重要的信息。

傳統(tǒng)方法將人體視為一個(gè)整體，并對(duì)整個(gè)身體區(qū)域給予相同的關(guān)注，但是它們忽略了通常情況下人類只使用身體的某些部分與物體進(jìn)行交互。2018年，F(xiàn)ang 等人認(rèn)為不同的身體部位應(yīng)該得到不同的重視，并且不同身體部位之間的相關(guān)性也應(yīng)該進(jìn)一步考慮，這是因?yàn)樯眢w部位總是協(xié)同工作，于是他們提出了一個(gè)新的成對(duì)的身體部位注意模型，其結(jié)構(gòu)如圖5 所示。它可以通過(guò)學(xué)習(xí)來(lái)關(guān)注關(guān)鍵部位以及它們之間的相關(guān)性，用來(lái)進(jìn)行HOI 識(shí)別。對(duì)于人體部位及其成對(duì)相關(guān)性，使用成對(duì)感興趣區(qū)域（region of interest，ROI）池化，將成對(duì)的身體部位的聯(lián)合特征映射池化，并舍棄其他身體部位的特征。此外，該模型首次將注意力機(jī)制應(yīng)用于人體部位相關(guān)性來(lái)檢測(cè)HOI。

圖5 成對(duì)的身體部位注意模型Fig.5 Model of pairwise body-part attention

雖然交互性是HOI 檢測(cè)的一個(gè)基本要素，但是它可以用于提高網(wǎng)絡(luò)檢測(cè)性能的作用往往被忽視，并且與具體的HOI 類別相比，互動(dòng)性包含更多的基本信息，而這種屬性使得交互性更容易在數(shù)據(jù)集之間傳遞。受到這一啟發(fā)，Li等人提出了一種交互識(shí)別方法TIN（transferable interactiveness knowledge network），其核心思想是利用交互網(wǎng)絡(luò)從多個(gè)HOI 數(shù)據(jù)集學(xué)習(xí)一般的交互知識(shí)，并在推理過(guò)程中的HOI 分類之前執(zhí)行非交互抑制（non-interaction suppression，NIS）。也就是說(shuō)，在HOI 分類之前，就明確區(qū)分非交互對(duì)并抑制它們，從而減少過(guò)多非互動(dòng)候選對(duì)造成的干擾。交互網(wǎng)絡(luò)使用人、物體和空間姿態(tài)流從人和物體的外觀、空間位置和人的姿態(tài)信息中提取特征，然后三個(gè)流的輸出連接起來(lái)并輸入到交互鑒別器中。由于交互性提供了額外的信息來(lái)幫助HOI 分類，并且獨(dú)立于HOI 分類之外，這使得它擁有良好的泛化性從而可以跨數(shù)據(jù)集傳輸，并且可以與任何HOI檢測(cè)模型相結(jié)合，從而增強(qiáng)為不同HOI 環(huán)境設(shè)計(jì)的HOI模型。

相較于上述兩種只是將人體姿態(tài)作為人體部分和物體之間的空間約束的方法，Wan 等人考慮到人-物體外觀和空間配置的巨大差異以及相似關(guān)系間的細(xì)微差異，于2019 年提出了姿態(tài)感知多級(jí)特征網(wǎng)絡(luò)（pose-aware multi-level feature network，PMFNet），它利用人體姿態(tài)線索來(lái)捕捉關(guān)系的全局空間配置，并作為一種注意力機(jī)制來(lái)動(dòng)態(tài)放大人體部分級(jí)別的相關(guān)區(qū)域的多級(jí)關(guān)系檢測(cè)策略。具體來(lái)說(shuō)，使用一個(gè)多分支深層網(wǎng)絡(luò)來(lái)學(xué)習(xí)三個(gè)語(yǔ)義層次上的姿態(tài)增強(qiáng)關(guān)系表示，包括交互上下文、目標(biāo)特征和詳細(xì)的局部線索。

Zhou 和Chi則是將圖模型與身體部位相結(jié)合，提出了關(guān)系解析神經(jīng)網(wǎng)絡(luò)（relation parsing neural network，RPNN），該網(wǎng)絡(luò)由兩個(gè)基于注意力的圖表示，一個(gè)是動(dòng)態(tài)捕捉身體部位和周圍對(duì)象之間關(guān)系的物體-身體部位圖，一個(gè)是推理人體與身體部位之間關(guān)系的人-身體部位圖，并組合身體部位上下文來(lái)預(yù)測(cè)動(dòng)作。RPNN 引入了詳細(xì)的身體部位特征，并且模型結(jié)合了用于特征細(xì)化的圖結(jié)構(gòu)，而不是GPNN 中的基于粗略的人/物體外觀特征來(lái)擴(kuò)展可學(xué)習(xí)的圖模型以獲取強(qiáng)有力的表示。它與以實(shí)例為中心的圖像注意ICAN 不同，該研究認(rèn)為物體和身體部位才是需要注意的最有趣的區(qū)域。因此，基于檢測(cè)到的身體部位和對(duì)象，明確引入物體-身體部位注意機(jī)制和人體-身體部位注意機(jī)制來(lái)聚焦感興趣的對(duì)象和身體部位區(qū)域。相較于成對(duì)的身體部位注意模型為身體各部分之間的配對(duì)關(guān)系建模，RPNN 則是把重點(diǎn)放在了對(duì)物-身體部分對(duì)以及人-身體部分對(duì)之間的關(guān)系進(jìn)行建模。此外，這是第一個(gè)在HOI 檢測(cè)中關(guān)注身體部位和物體之間的成對(duì)相關(guān)性的研究。

Liu 等人認(rèn)為PMFNet 和RPNN 的成對(duì)特征不夠全面，導(dǎo)致不能更好地模擬身體部分和對(duì)象之間的微妙交互，而他們于2021 年提出的多級(jí)成對(duì)特征網(wǎng)絡(luò)（multi-level pairwise feature network，PFNet）包含更全面的成對(duì)特征，主要有三個(gè)組成部分（身體部分的視覺(jué)特征、物體的視覺(jué)特征及其相對(duì)空間配置）。此外，當(dāng)對(duì)象被部分遮擋時(shí)，對(duì)象的語(yǔ)義標(biāo)簽可以作為可靠的先驗(yàn)以及對(duì)象外觀的替代。Sun 等人也發(fā)現(xiàn)了PMFNet 和RPNN 中存在的不足。首先，它們使用在目標(biāo)檢測(cè)數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）主干來(lái)提取用于HOI 推理的視覺(jué)特征，導(dǎo)致交互短語(yǔ)（人-物對(duì)的聯(lián)合區(qū)域）和單個(gè)物體的外觀分布存在顯著的偏差。此外，它們根據(jù)檢測(cè)到的實(shí)體和人體部分的邊界框裁剪多級(jí)CNN 特征，以捕獲詳細(xì)的視覺(jué)線索，盡管利用了先前的位置信息，但是CNN 的特征仍然僅僅來(lái)源于圖像?；谶@兩點(diǎn)，Sun 等人提出了一個(gè)多層次條件網(wǎng)絡(luò)（multi-level conditioned network，MLCNet），旨在將額外的顯性知識(shí)與多層次視覺(jué)特征相融合。他們構(gòu)建了一個(gè)多分支CNN 作為多層次視覺(jué)表示的主干，然后通過(guò)仿射變換和注意機(jī)制，將包括人體結(jié)構(gòu)和對(duì)象上下文在內(nèi)的額外知識(shí)編碼為條件，以動(dòng)態(tài)影響CNN 的特征提取，最后融合調(diào)制的多模態(tài)特征來(lái)區(qū)分相互作用。

Liang 等人則是提出了基于姿態(tài)的模塊化網(wǎng)絡(luò)（pose-based modular network，PMN），該模塊由一個(gè)獨(dú)立處理每個(gè)關(guān)節(jié)相對(duì)空間姿態(tài)特征的分支和另一個(gè)使用圖卷積更新每個(gè)關(guān)節(jié)絕對(duì)姿態(tài)特征的分支組成，最后把融合處理后的特征，送入動(dòng)作分類器進(jìn)行分類。該模塊能夠與現(xiàn)有網(wǎng)絡(luò)完全兼容，并在性能上有顯著的提高。

融入身體部位和姿勢(shì)的方法在準(zhǔn)確率上已經(jīng)取得了很好的效果，雖然提取的上下文特征有利于特征表達(dá)，但是額外的注釋和計(jì)算是不可或缺的，帶來(lái)了很大的工作量和計(jì)算負(fù)擔(dān)，并且基于姿態(tài)的方法離不開預(yù)先訓(xùn)練的人體姿態(tài)估計(jì)器，它對(duì)硬件設(shè)備的要求會(huì)更高。而TIN 與PMN 可以與不同方法進(jìn)行結(jié)合，相較于其他方法靈活得多。

1.2 一階段方法

兩階段的HOI 檢測(cè)方法已經(jīng)取得了很大的進(jìn)展，但其缺陷也很明顯，由于需要將檢測(cè)到人和物體先配對(duì)再進(jìn)行交互預(yù)測(cè)，會(huì)產(chǎn)生高昂的計(jì)算代價(jià)且靈活性不足，其效率和有效性都受到其串行結(jié)構(gòu)的限制。隨著一階段目標(biāo)檢測(cè)器的發(fā)展，開始有一階段的HOI 檢測(cè)器被提出?，F(xiàn)有的單級(jí)HOI 檢測(cè)器將HOI檢測(cè)公式化為并行檢測(cè)問(wèn)題，它能夠直接從圖像中檢測(cè)HOI 三元組，一步到位的方法在效率和效果上都有較大的提高。

2020 年，Liao 等人提出了首個(gè)實(shí)時(shí)的一階段HOI 檢測(cè)方法PPDM（parallel point detection and matching），這一方法使用檢測(cè)框的中心點(diǎn)表示人和物體點(diǎn)，用人點(diǎn)和物體點(diǎn)間的中點(diǎn)表示交互點(diǎn)。該模型使用兩個(gè)并行分支分別進(jìn)行點(diǎn)檢測(cè)和匹配，其中點(diǎn)檢測(cè)分支預(yù)測(cè)人、物體以及交互點(diǎn)，點(diǎn)匹配分支預(yù)測(cè)從交互點(diǎn)到其對(duì)應(yīng)的人點(diǎn)和物體點(diǎn)的兩個(gè)位移。源自同一交互點(diǎn)的人點(diǎn)和物體點(diǎn)被視為匹配對(duì)，而不太可能形成有意義的HOI 三元組的孤立檢測(cè)框則會(huì)被抑制，增加了HOI 檢測(cè)的精度。此外，人和物體檢測(cè)框之間的匹配僅應(yīng)用于有限數(shù)量的過(guò)濾后的候選交互點(diǎn)，節(jié)省了大量的計(jì)算成本。

受到無(wú)錨框物體檢測(cè)研究的啟發(fā)，Wang 等人也用點(diǎn)的思想解決HOI 檢測(cè)問(wèn)題，通過(guò)將人和物體之間的相互作用定義為相互作用點(diǎn)，將HOI 檢測(cè)視為相互作用點(diǎn)估計(jì)問(wèn)題，這是首個(gè)把HOI 檢測(cè)作為關(guān)鍵點(diǎn)檢測(cè)和分組問(wèn)題的方法，被稱作IP-Net（interaction point）?；诮换c(diǎn)，該方法學(xué)習(xí)生成關(guān)于人和物體中心點(diǎn)的交互向量，并進(jìn)一步引入了一種交互分組方案，該方案將交互點(diǎn)和向量與來(lái)自檢測(cè)分支的相應(yīng)的人和物體邊界框預(yù)測(cè)配對(duì)，以產(chǎn)生最終的交互預(yù)測(cè)。

與前兩個(gè)基于點(diǎn)的方法不同，Kim 等人提出的面向?qū)崟r(shí)人機(jī)交互檢測(cè)的聯(lián)合檢測(cè)器（union-level detector towards real-time human-object interaction detection，UnionDet）是把從主干網(wǎng)絡(luò)獲得的特征金字塔同時(shí)送到聯(lián)合分支和實(shí)例分支。在聯(lián)合分支直接捕獲交互區(qū)域的同時(shí)，實(shí)例分支執(zhí)行傳統(tǒng)的目標(biāo)檢測(cè)和動(dòng)作分類，以獲得更細(xì)粒度的HOI 檢測(cè)結(jié)果。它不同于將每個(gè)目標(biāo)對(duì)送入單獨(dú)的神經(jīng)網(wǎng)絡(luò)來(lái)關(guān)聯(lián)目標(biāo)檢測(cè)結(jié)果，而是使用提出的聯(lián)合檢測(cè)框架直接檢測(cè)相互作用的人類對(duì)象對(duì)。這消除了在物體檢測(cè)之后對(duì)繁重的神經(jīng)網(wǎng)絡(luò)推理的需要，并且其能夠在現(xiàn)有物體檢測(cè)器的基礎(chǔ)上以最小的額外時(shí)間檢測(cè)交互。UnionDet 還能與現(xiàn)有的單階段目標(biāo)檢測(cè)器兼容，如SSD、RetinaNet和STDN，并且是端到端可訓(xùn)練的。

Chen 等人于2021 年提出的基于自適應(yīng)集合的一階段框架（adaptive set-based one-stage framework，AS-Net）與之前方法都不同。PPDM 與IP-Net 都是基于點(diǎn)的方法，在每個(gè)交互關(guān)鍵點(diǎn)執(zhí)行推理，例如每個(gè)對(duì)應(yīng)的人-物體對(duì)的中點(diǎn)；UnionDet 則是基于框的方法，根據(jù)每個(gè)聯(lián)合框預(yù)測(cè)交互。而AS-Net 將HOI 檢測(cè)表述為一個(gè)集合預(yù)測(cè)問(wèn)題，具有并行的實(shí)例分支和交互分支，突破了現(xiàn)有方法以實(shí)例為中心和位置為中心的限制，通過(guò)聚集來(lái)自全局上下文的交互相關(guān)特征，并將每個(gè)基本事實(shí)與交互預(yù)測(cè)進(jìn)行匹配，該網(wǎng)絡(luò)在特征聚集和監(jiān)督兩方面都表現(xiàn)出了自適應(yīng)能力。此外，它的實(shí)例感知注意模塊有助于增強(qiáng)有指導(dǎo)意義的實(shí)例特征，并且還引入了語(yǔ)義嵌入來(lái)提高性能。

針對(duì)以上介紹的不同HOI 檢測(cè)方法，表1 分析了各類方法的優(yōu)點(diǎn)、缺點(diǎn)、適用場(chǎng)景等。

表1 不同HOI檢測(cè)方法比較Table 1 Comparison of different HOI detection methods

2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

2.1 數(shù)據(jù)集

V-COCO（verbs in common objects in context）數(shù)據(jù)集派生自Microsoft COCO 數(shù) 據(jù)集，是Gupta 等人使用AMT（Amazon mechanical turk）通過(guò)連接相互作用的人和物體并標(biāo)記它們的語(yǔ)義角色擴(kuò)充MSCOCO 而來(lái)。它由含2 533 幅圖像的訓(xùn)練集、2 867 幅圖像的驗(yàn)證集和4 946 幅圖像的測(cè)試集三部分組成，其中訓(xùn)練集和驗(yàn)證集圖像來(lái)自COCO 的訓(xùn)練集，測(cè)試集圖像來(lái)自COCO 的驗(yàn)證集。V-COCO 數(shù)據(jù)集總共有10 346 幅圖像，其中包含了16 199 個(gè)人的實(shí)例，每個(gè)帶注釋的人有26 個(gè)不同的二進(jìn)制動(dòng)作標(biāo)簽，同時(shí)含有80 個(gè)對(duì)象類別。過(guò)去大多數(shù)的數(shù)據(jù)集中每個(gè)人只有一個(gè)動(dòng)作標(biāo)簽，每幅圖像只有一個(gè)帶注釋的人，而V-COCO 中的人平均有2.87 個(gè)動(dòng)作標(biāo)簽，平均每張圖片上有1.57 個(gè)被標(biāo)注了動(dòng)作標(biāo)簽的人，約有2 000 張含兩個(gè)人的圖像，800 張含3 個(gè)人的圖像。同時(shí)V-COCO 中的所有圖像都繼承了COCO 中的所有注釋，使得它可滿足各種研究任務(wù)的需求。

HICO-DET 數(shù)據(jù)集是一個(gè)專門用于HOI 研究任務(wù)的大型基準(zhǔn)數(shù)據(jù)集，是Chao 等人在2018 年提出的，他們通過(guò)在AMT 上設(shè)置注釋任務(wù)來(lái)收集實(shí)例注釋，從而擴(kuò)充只有圖像級(jí)注釋的HICO（humans interacting with common objects）數(shù)據(jù)集。HICO-DET比V-COCO 更大，也更多樣化，共有47 776 幅圖像，其中38 118 幅用于訓(xùn)練，9 658 幅用于測(cè)試，有超過(guò)15萬(wàn)個(gè)人類實(shí)例與600個(gè)HOI類別。同時(shí)，HICO-DET數(shù)據(jù)集包含與MS-COCO 相同的80 個(gè)對(duì)象類別。

雖然V-COCO 數(shù)據(jù)集與HICO-DET 數(shù)據(jù)集在近幾年一直是評(píng)估HOI 檢測(cè)任務(wù)的基準(zhǔn)數(shù)據(jù)集，但是Liao 等人考慮到在實(shí)際應(yīng)用中V-COCO 數(shù)據(jù)集與HICO-DET 數(shù)據(jù)集里需要特別注意的出現(xiàn)頻繁的HOI 類別有限，于是構(gòu)建了HOI-A（human-object interaction for application）數(shù)據(jù)集。HOI-A 數(shù)據(jù)集由38 668 個(gè)帶注釋的圖像組成，其中包含11 種交互物體和10 種交互動(dòng)作。具體來(lái)說(shuō)，它包含43 820 個(gè)人體實(shí)例，60 438 個(gè)物體實(shí)例和96 160 個(gè)交互實(shí)例。此外，為了擴(kuò)大數(shù)據(jù)的類內(nèi)變化，HOI-A 數(shù)據(jù)集中每種類型的交互分為室內(nèi)、室外和車內(nèi)三種場(chǎng)景，包括了黑暗、自然和強(qiáng)烈的三種照明條件，以及各種不同的角度。

2.2 評(píng)價(jià)指標(biāo)

在目標(biāo)檢測(cè)任務(wù)中，如果算法預(yù)測(cè)的目標(biāo)邊框與真實(shí)邊框（ground truth）重疊部分的交并比（intersection over union，IoU）大于0.5，則會(huì)被認(rèn)為是真陽(yáng)性（true positive，TP）。HOI 檢測(cè)任務(wù)在此判別基礎(chǔ)上進(jìn)行了修改，認(rèn)為只有同時(shí)滿足以下條件才能被判定為真陽(yáng)性：（1）預(yù)測(cè)的人類邊框與其真實(shí)邊框（ground truth）之間的IoU 大于或等于0.5；（2）預(yù)測(cè)的物體邊框與真實(shí)的物體邊框之間的IoU 大于或等于0.5；（3）預(yù)測(cè)出的人與物體之間的交互動(dòng)作與標(biāo)簽標(biāo)注的真實(shí)發(fā)生的交互動(dòng)作一致。

遵循目標(biāo)檢測(cè)的標(biāo)準(zhǔn)評(píng)估標(biāo)準(zhǔn)，使用平均精度（mean average precision，mAP）來(lái)評(píng)估HOI 檢測(cè)，它是AP（average precision）的平均值。要計(jì)算AP 需要用到混淆矩陣，如表2 所示。表2 中TP（true positive）表示模型的預(yù)測(cè)結(jié)果和樣本的真實(shí)類別一致均是正例；FN（false negative）表示模型預(yù)測(cè)的結(jié)果是反例，而樣本的真實(shí)類別是正例；FP（false positive）表示模型預(yù)測(cè)的結(jié)果是正例，而樣本的真實(shí)類別是反例；TN（true negative）表示模型的預(yù)測(cè)結(jié)果和樣本的真實(shí)類別均是反例。

表2 混淆矩陣Table 2 Confusion matrix

準(zhǔn)確率（precision）指的是真正的正樣本占人-物體交互檢測(cè)模型預(yù)測(cè)出的全部正樣本的比例。定義如式（1）所示：

召回率（recall）指的是在所有真實(shí)的正樣本中，人-物體交互檢測(cè)模型預(yù)測(cè)為正確的正樣本所占的比例。定義如式（2）所示：

AP 指的是所有準(zhǔn)確率的和占該類別的圖像數(shù)量的比例，它衡量的是在單個(gè)類別上模型判斷結(jié)果的好壞。定義如式（3）所示：

其中，表示，表示，()是一個(gè)以為參數(shù)的函數(shù)，函數(shù)的積分表示的是平均精準(zhǔn)率，該公式表示的AP 值也可以看作是PR（precision-recall curve）曲線以下部分的面積。PR 特征曲線，即準(zhǔn)確率-召回率曲線，在目標(biāo)檢測(cè)、顯著性檢測(cè)等領(lǐng)域有廣泛的應(yīng)用。

mAP 指的是平均精確率（AP）的平均值，它衡量的是在所有類別上模型判斷結(jié)果的好壞。定義如式（4）所示：

其中，表示HOI類的總數(shù)。

2.3 結(jié)果與分析

本文所述HOI 檢測(cè)模型在V-COCO 數(shù)據(jù)集和HICO-DET數(shù)據(jù)集上的測(cè)試結(jié)果分別如表3、表4所示。

表3 V-COCO 數(shù)據(jù)集測(cè)試結(jié)果Table 3 Results on V-COCO data set

與最早使用V-COCO 進(jìn)行測(cè)試的文獻(xiàn)[15]相比，后面出現(xiàn)的方法在平均準(zhǔn)確率上都取得了較高的提升，兩階段方法中融入注意力的方法將mAP 提升到了40%以上，融入人體姿勢(shì)和身體部位的方法由于加入額外的信息與融入圖模型方法準(zhǔn)確率大都高于50%。一階段方法中基于框的UnionDet 的準(zhǔn)確率略低于基于點(diǎn)的方法的準(zhǔn)確率。AS-Net不僅是一階段方法中準(zhǔn)確率最高的，與本文提到的其他方法相比，它也是效果最好的。

需要注意的是，在HICO-DET 數(shù)據(jù)集上提供了兩種設(shè)置：（1）已知對(duì)象設(shè)置（Known Object），對(duì)于每個(gè)HOI 類別，僅在包含目標(biāo)對(duì)象類別的圖像上評(píng)估檢測(cè)；（2）默認(rèn)設(shè)置（Default），對(duì)于每個(gè)HOI 類別，在整個(gè)測(cè)試集上評(píng)估檢測(cè)，包括包含和不包含目標(biāo)對(duì)象類別的圖像，這顯然是更具難度的。這兩種設(shè)置下都包含了full、rare、non-rare 三種類別，full 表示數(shù)據(jù)集中的全部600 個(gè)HOI 類，rare 表示138 個(gè)少于10 個(gè)實(shí)例的HOI 類，non-rare 表示462 個(gè)擁有10 個(gè)或更多實(shí)例的HOI類。

與在V-COCO 數(shù)據(jù)集上的結(jié)果類似，一階段方法在HICO-DET數(shù)據(jù)集上也表現(xiàn)出了很好的結(jié)果，ASNet不僅在各種設(shè)置下都表現(xiàn)出了最高的準(zhǔn)確率，并且明顯領(lǐng)先于其他方法，而其他方法之間則沒(méi)有如此明顯的差距。

目前HOI 檢測(cè)網(wǎng)絡(luò)主要從以下兩方面進(jìn)行改進(jìn)提升：

（1）替換主干網(wǎng)絡(luò)。主干網(wǎng)絡(luò)用于提取圖像特征，提取圖像特征是HOI檢測(cè)的一個(gè)重要環(huán)節(jié)，從表3、表4 中可以看出，大多數(shù)模型使用的特征提取主干網(wǎng) 絡(luò)是ResNet或是在其基礎(chǔ)上融入特征金字塔（feature pyramid networks，F(xiàn)PN）、可變形卷積網(wǎng)絡(luò)（deformable convolutional networks，DCN），也有方法使用CaffeNet、Hourglass-104來(lái)提取特征。

表4 HICO-DET 數(shù)據(jù)集測(cè)試結(jié)果Table 4 Results on HICO-DET data set %

（2）融入額外的信息。例如加入人體姿態(tài)與身體部分信息可以提升模型的理解能力。此外，也有像一階段方法一樣，使用新思路來(lái)解決HOI 檢測(cè)問(wèn)題的方法出現(xiàn)。

3 目前挑戰(zhàn)和未來(lái)發(fā)展趨勢(shì)

3.1 主要挑戰(zhàn)分析

（1）數(shù)據(jù)集中不同類別間的實(shí)例樣本數(shù)量不平衡，一些常見的交互具有豐富的樣本，而一些不常見的交互甚至只有不到10 個(gè)樣本，這大大增加了訓(xùn)練難度，還會(huì)造成過(guò)擬合。

（2）由于一張圖像中往往含有多個(gè)人和物體，若是將所有人和物體的組合窮舉出來(lái)再逐對(duì)進(jìn)行推理判斷，則會(huì)給計(jì)算資源帶來(lái)巨大的負(fù)擔(dān)。

（3）兩階段模型雖然取得了不錯(cuò)的準(zhǔn)確率，但是受其串行結(jié)構(gòu)的限制，并不能用于對(duì)實(shí)時(shí)性要求較高的場(chǎng)景。

（4）目前的HOI 檢測(cè)模型主要基于V-COCO 和HICO-DET 等少數(shù)幾個(gè)公共基準(zhǔn)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試，雖然有的數(shù)據(jù)集中的類別有幾百個(gè)，但是由于缺少種類少而樣本多的專門針對(duì)某種特定場(chǎng)景的數(shù)據(jù)集，無(wú)法訓(xùn)練出應(yīng)用于特定使用場(chǎng)景的模型。

3.2 未來(lái)發(fā)展趨勢(shì)

自2018 年HO-RCNN 出現(xiàn)以來(lái)，兩階段的HOI檢測(cè)方法已經(jīng)被廣泛研究且逐漸趨于成熟，其中包括使用注意力機(jī)制、圖模型以及引入身體部分和姿勢(shì)等，而且最近的方法也不再僅僅是使用其中一種，而是融合兩種或多種。就平均精確率來(lái)看，兩階段方法已經(jīng)取得了不錯(cuò)的結(jié)果。

（1）在兩階段方法中，圖網(wǎng)絡(luò)的強(qiáng)大的推理能力非常適用于解決HOI 檢測(cè)任務(wù)，但大多數(shù)以前的工作未能利用圖形中的空間關(guān)系信息。因此，如何引入其他信息來(lái)完善圖模型的構(gòu)建還有較大的研究空間。

（2）與兩階段方法相比，一階段方法更快、更高效，不需要在不同階段之間切換模型，也不需要保存或加載中間結(jié)果，更容易在實(shí)際應(yīng)用中部署，并且還擁有不輸兩階段方法的準(zhǔn)確率，在將來(lái)勢(shì)必會(huì)成為HOI 檢測(cè)領(lǐng)域的重要研究方向。此外，使用它擴(kuò)展處理一些相關(guān)問(wèn)題，如視覺(jué)關(guān)系檢測(cè)和多目標(biāo)跟蹤等也是值得研究的方向。然而，剛剛起步的一階段方法仍然有許多需要解決的問(wèn)題，比如需要復(fù)雜的后期處理來(lái)對(duì)目標(biāo)檢測(cè)結(jié)果和交互預(yù)測(cè)進(jìn)行分組，對(duì)相互作用區(qū)域或點(diǎn)的定義仍然相對(duì)粗糙等。因此，如何簡(jiǎn)化后期處理以及怎樣處理好與交互區(qū)域相關(guān)的語(yǔ)義歧義是未來(lái)研究中亟需解決的問(wèn)題。

（3）近兩年有研究旨在直接解決不同類別樣本數(shù)量不均衡所造成的長(zhǎng)尾（long tail）問(wèn)題以及人-物對(duì)組合爆炸問(wèn)題，Shen 等人提出了一種弱監(jiān)督模型，首次將零樣本學(xué)習(xí)（zero-shot learning）擴(kuò)展到HOI識(shí)別中，實(shí)現(xiàn)對(duì)數(shù)據(jù)集中未出現(xiàn)過(guò)的HOI類別的識(shí)別。Ji 等人提出的少樣本HOI 檢測(cè)方法SAPNet與DGIG-Net也能有效解決這兩個(gè)問(wèn)題。由于少樣本的HOI 檢測(cè)是為直接解決HOI 檢測(cè)中最重要的兩個(gè)問(wèn)題而設(shè)計(jì)的，是解決HOI 檢測(cè)問(wèn)題必要深入研究的重要方向。

（4）為了能夠更好地將HOI 檢測(cè)技術(shù)應(yīng)用于現(xiàn)實(shí)中的特定場(chǎng)景，迫切需要更多像HOI-A 這樣包含更具針對(duì)性動(dòng)作的或更具實(shí)際意義動(dòng)作的數(shù)據(jù)集來(lái)進(jìn)一步推動(dòng)這項(xiàng)技術(shù)的發(fā)展與應(yīng)用。在評(píng)價(jià)指標(biāo)上，隨著一階段方法的興起，除了模型的準(zhǔn)確率外，檢測(cè)速率也將會(huì)成為用于評(píng)價(jià)模型的重要指標(biāo)。

4 結(jié)束語(yǔ)

隨著深度學(xué)習(xí)和目標(biāo)檢測(cè)技術(shù)的發(fā)展，HOI檢測(cè)技術(shù)得到了快速發(fā)展。本文將HOI 檢測(cè)技術(shù)分兩階段方法與一階段方法分別進(jìn)行闡述，其中將兩階段方法分為三類著重進(jìn)行介紹，而一階段方法是2020年開始出現(xiàn)的，目前的研究相對(duì)較少。目前HOI 檢測(cè)技術(shù)已經(jīng)在多個(gè)領(lǐng)域發(fā)揮其作用，相信在將來(lái)，人-物交互檢測(cè)技術(shù)會(huì)吸引越來(lái)越多研究者的目光，并且會(huì)有越來(lái)越多的突破性的進(jìn)展出現(xiàn)。后續(xù)將會(huì)對(duì)使用圖神經(jīng)網(wǎng)絡(luò)的HOI檢測(cè)方法進(jìn)行深入研究，同時(shí)也會(huì)對(duì)一階段方法進(jìn)行持續(xù)研究以提高模型的檢測(cè)效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡