国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Conditional HOTR:基于Transformer的人物交互檢測

2023-08-15 02:02:04張詩凡葉海波
計算機技術(shù)與發(fā)展 2023年8期
關(guān)鍵詞:解碼器參考點指針

張詩凡,葉海波

(南京航空航天大學 計算機科學與技術(shù)學院,江蘇 南京 211106)

0 引 言

人物交互檢測(HOI)是一項視覺關(guān)系檢測任務,旨在將一幅圖片中所有具有交互關(guān)系的人和物體成功配對,識別出人和物體的位置和類別,以及交互動作的類別,以幫助更好地理解場景。這可以表示為檢測一組<人,動作,物>的HOI三元組。

目前主要有兩類HOI檢測方法,一類是順序HOI檢測,也叫做兩階段方法,另一類是并行檢測,即一階段方法。兩階段方法將HOI檢測任務解耦為目標檢測任務和交互分類任務,可想而知這種方法比較耗時、昂貴。在一階段方法中,人類通過先驗知識預先定義交互檢測的規(guī)則,有些工作借助交互點[1-2]、交互框[3]來定位交互關(guān)系。因為目標檢測可以和交互分類并行,所以這類一階段方法更加高效,但它們?nèi)匀恍枰止ず筇幚黼A段來對匹配規(guī)則進行匹配。

最近,因為NLP領(lǐng)域transformer[4]的火熱應用,以及受到一些將transformer運用到CV領(lǐng)域的工作——如DETR的啟發(fā)和影響,一些基于transformer的端到端HOI檢測算法被提出。如DETR[5]一樣,它們將HOI檢測看作是一個集合預測問題,因此消除了對額外的手工后處理階段的需要。利用transformer強大的建模能力,它們提取圖片的全局信息,transformer的解碼器通過交叉注意力模塊中的query來查詢與交互相關(guān)的特征,之后解碼器的輸出結(jié)果通過檢測頭,以端到端的方式得到HOI關(guān)系。這些方法解決了一階段算法的問題,即不需要手工后處理而是直接端到端檢測,取得了較好的效果,但仍然面臨新的挑戰(zhàn)。

在目標檢測領(lǐng)域,DETR[5]和Conditional DETR[6]模型都利用transformer來實現(xiàn)端到端的目標檢測,它們發(fā)現(xiàn),在transformer的交叉注意力模塊中,內(nèi)容嵌入起主要作用,而位置嵌入對mAP的貢獻很小。然而,交叉注意力的內(nèi)容嵌入必須同時匹配key的內(nèi)容嵌入和位置嵌入,并且其所定位的區(qū)域?qū)τ跈z測物體的位置和類別非常重要,因此高質(zhì)量的內(nèi)容嵌入是非常必要的。因此,筆者認為在基于transformer的HOI領(lǐng)域,同樣需要高質(zhì)量的內(nèi)容嵌入來識別和定位,要減少對內(nèi)容嵌入的依賴。

受Conditional DETR[6]的啟發(fā),針對交叉注意力層,該文提出了條件交互查詢,它作為位置嵌入縮小了搜索范圍以幫助顯式地定位與交互相關(guān)的區(qū)域。這樣,對于內(nèi)容嵌入方面的要求便沒那么高了,因為它可以更專注于內(nèi)容方面來進行識別,而定位則交由條件交互查詢。雖然HOI檢測任務與目標檢測任務類似,但兩者存在一定的差異。HOI檢測的關(guān)鍵是正確匹配人物對,而不僅僅是檢測物體實例,因此需要根據(jù)HOI檢測任務的特點來設計條件交互查詢。該文實現(xiàn)了基于HOTR[7](一種基于transformer的HOI檢測模型)的條件交互查詢。與Conditional DETR不同的是,通過交互query來預測生成人和物體的參考點,以此來表示人和物體在交互中的位置,并且讓它們參與檢測頭的最終預測過程。

然后,根據(jù)設計的公式由人和物體參考點生成交互參考點,可以理解這些交互參考點定位了與交互相關(guān)的區(qū)域。對于設計條件交互查詢,包含了兩部分內(nèi)容:交互參考點和當前解碼器的輸出,因為它們都包含了與定位相關(guān)的信息,所以要將這些信息都考慮進去。將該模型稱為Conditional HOTR,它改進了transformer的注意力機制,以便更好地適應HOI檢測任務。與基線方法HOTR對比,Conditional HOTR的mAP在V-COCO上提高了2.13百分點,在HICO-DET上提高了8.33百分點,并且在V-COCO數(shù)據(jù)集上精度達到了目前最優(yōu)。

1 相關(guān)工作

1.1 傳統(tǒng)人物交互檢測

傳統(tǒng)人物交互檢測算法可以劃分為兩階段和一階段方法。

1.1.1 兩階段HOI檢測

在兩階段方法中[8-21],首先會執(zhí)行目標檢測任務,預訓練的目標檢測器首先檢測人和物體的邊框及其對應的類別,然后將所有檢測出的人和物體兩兩組合配對,將所有成對的組合傳入一個單獨的神經(jīng)網(wǎng)絡進行訓練和交互分類。一些工作利用人類姿態(tài)[9,14,17,20]來檢測HOI關(guān)系,這有助于細粒度交互類別的檢測。還有一些工作提出了以實例為中心[11,18]的注意力機制、面向動作[15]的關(guān)系推理網(wǎng)絡進行HOI檢測。ACP[13]的目的是解決HOI的長尾分布問題。還有一些方法用圖結(jié)構(gòu)表示HOI關(guān)系[10,16,19]。還有方法[21]基于關(guān)系推理的交互實例推薦網(wǎng)絡來進行HOI檢測。

1.1.2 一階段HOI檢測

由于兩階段方法受到其冗余推理結(jié)構(gòu)的限制,一些工作提出了一階段方法,它意味著交互分類檢測可以與目標檢測并行,而無需再等待其結(jié)果才能進入下一階段。在這些方法中,設計一個合理的匹配模式是將目標檢測與交互檢測結(jié)果匹配的關(guān)鍵。IPNet、PPDM[1-2]將HOI檢測視為交互點檢測問題,通過將目標檢測器檢測到的人和物體與交互點關(guān)聯(lián)來完成匹配。除交互點外,Uniondet[3]將人與物體的聯(lián)合框看作是交互區(qū)域來定位交互。由于不需要訓練全部的人物組合對,一階段方法的時間復雜度得到了很大程度的降低,但是它們?nèi)匀恍枰獮镠OI檢測手工設計匹配策略。

1.2 基于transformer的人物交互檢測

隨著transformer在NLP領(lǐng)域的廣泛應用,它最近也被用來解決計算機視覺領(lǐng)域的一些任務,如目標檢測。transformer擅長捕捉遠距離依賴關(guān)系,這正是HOI檢測所需要的,transformer幫助聚合圖片中的全局上下文信息。

作為目標檢測領(lǐng)域的一項創(chuàng)新性工作,DETR[5]利用transformer以端到端的方式來檢測物體,許多工作[7,22-24]都受其啟發(fā),并將其改進為HOI檢測器以簡化檢測管道。這些方法將HOI檢測視為一個集合預測問題,并通過匈牙利算法執(zhí)行二部匹配來將預測結(jié)果和真實值進行一一對應,然后根據(jù)匹配的結(jié)果計算損失。QPIC[24]設計了query,每個query最多可以捕獲一個人物對,所以即使不同HOI關(guān)系的實例距離很近,也可以單獨提取每個HOI實例的特征。CDN[22]在分析和總結(jié)一階段和兩階段HOI檢測方法優(yōu)缺點的基礎上,提出了一種新的方法,即以級聯(lián)的方式分離目標檢測和交互分類。HOTR[7]為HOI檢測設計了一個共享編碼器和兩個并行解碼器,分別是實例解碼器和交互解碼器。

1.3 CV領(lǐng)域?qū)τ趖ransformer的改進

隨著transformer在CV領(lǐng)域的廣泛應用,許多研究不再僅僅滿足于transformer的基本結(jié)構(gòu),因為圖像的注意力權(quán)重計算量很大,而且一些基于transformer的工作的訓練收斂速度較慢。在目標檢測領(lǐng)域,對于DETR進行改進的一些工作[6,25-26]致力于解決上述transformer的問題。Deformable DETR[26]提出了一種新的注意力模塊,它只關(guān)注目標物體參考點周圍少量的關(guān)鍵采樣點,而不是所有像素點。SMCA[25]通過預測物體區(qū)域的高斯映射,加快了檢測的收斂速度。Conditional DETR[6]提出了條件位置嵌入,它可以明確地定位物體的邊緣,縮小搜索的范圍,從而解決檢測依賴高質(zhì)量內(nèi)容嵌入的問題。

而在HOI檢測領(lǐng)域,尚未有研究考慮transformer結(jié)構(gòu)的缺點,受Conditional DETR[6]的啟發(fā),設計了條件交互查詢,以改進transformer的結(jié)構(gòu)更好地用于HOI檢測。

2 文中方法

2.1 概 述

在本節(jié)中,詳細了介紹基于改進transformer結(jié)構(gòu)的HOI檢測方法,幫助顯式定位與交互相關(guān)的區(qū)域并縮小搜索范圍。該方法的整體實現(xiàn)框架如圖1所示(其中虛線框即為圖2所示的條件交互查詢的生成方法)。

圖1 Conditional HOTR整體框圖

圖2 條件交互查詢pq的生成

Conditional DETR[6]認為解碼器中的自注意力模塊的主要功能類似于非極大值抑制(NMS),它不涉及查詢交互區(qū)域,所以只在交叉注意力模塊中設計了條件交互查詢。設計條件交互查詢?nèi)鐖D2所示。

2.2 相關(guān)知識回顧

2.2.1 HOTR

HOTR[7]是基于transformer的HOI檢測模型,它主要由四個部分組成:骨干網(wǎng)絡、transformer結(jié)構(gòu)、檢測頭和組合配對。首先CNN網(wǎng)絡提取圖片特征,接著將這些特征與映射到正弦編碼空間的位置編碼相加,結(jié)果輸入transformer結(jié)構(gòu),做進一步的特征增強。transformer結(jié)構(gòu)由一個共享的編碼器和兩個并行解碼器構(gòu)成,其中一個是負責生成實例表示的實例解碼器,一個是交互解碼器,它負責生成交互表示信息。只在交互解碼器上應用條件交互查詢,因為在實例解碼器上進行目標檢測的改進是Conditional DETR所做的工作。實例解碼器的檢測頭預測物體的邊框和類別,而交互解碼器的檢測頭負責預測人指針表示、物指針表示和交互類別,而不是直接回歸人和物體的邊界框。在最后的組合配對部分,對于之前得到的human指針表示和object指針表示,分別尋找與其相似度最高的實例表示(實例表示即實例解碼器的輸出結(jié)果),找到的索引即為相應的human指針和object指針,通過這種方法將具有HOI關(guān)系的人物進行匹配,完成HOI檢測。

人和物的指針表示向量定義為:

(1)

(2)

其中,fi表示解碼器輸出的第i個交互表示,給定N個interaction query則得到N個交互表示。

2.2.2 Conditional DETR

為了解決DETR訓練收斂速度慢的問題,Conditional DETR提出了條件交叉注意力機制,通過條件位置查詢嵌入直接尋找物體的邊緣區(qū)域,以此來縮小搜索物體的范圍。簡要介紹下它是如何生成條件位置查詢的。

Conditional DETR是基于解碼器嵌入f(即當前解碼器層的輸出)以及參考點信息s(由object query生成,有多少個query就生成多少個參考點,代表了每個query所定位的區(qū)域)這兩部分信息來進行邊框預測的。因此,Conditional DETR認為,條件位置查詢的生成也應該考慮這兩部分,因為它們包含了與位置相關(guān)的信息。即,條件位置查詢pq:

(s,f)→pq

(3)

2.3 檢測頭

檢測頭部分內(nèi)容見圖1。對于交互解碼器,最終的檢測頭不直接回歸人和物體的邊框,而是像HOTR一樣,預測human指針和object指針的表示,回歸實例邊框的部分由實例解碼器完成。為Conditional HOTR設計了一種新的預測方法來生成指針表示信息:

(4)

(5)

其中,f表示解碼器嵌入,即當前解碼器層的輸出,h_reference_point和o_reference_point是human參考點和object參考點,它們是由interaction query經(jīng)過兩層MLP預測得到的2D坐標,并且N個interaction query分別生成N個human參考點和N個object參考點。這些坐標用于表示人和物體的參考位置。FFN{h,o}1由三層MLP組成,作用于解碼器嵌入f得到初步的human指針表示和object指針表示。這正是公式(1)和(2)所表示的。然后,通過FFN{h,o}2將human參考點和object參考點映射到與FFN{h,o}1(f)相同的維度(設置為256),并且將兩者的結(jié)果相加。normalize意味著對結(jié)果進行L2標準化操作。

對于動作類別預測,則保持不變。

a=FFNa(f)

(6)

2.4 條件交互查詢設計

提出的條件交互查詢有助于交互解碼器的交叉注意力模塊定位交互相關(guān)區(qū)域,因此在設計它時,考慮所有與位置相關(guān)的組件。在2.3節(jié)中,詳細描述了Conditional HOTR的檢測頭,它利用解碼器嵌入f以及人和物的參考點來預測得到人和物體的指針表示。由于指針表示不僅包含實例的類別信息,還包含了位置信息,因此在設計條件交互查詢時,將這兩部分考慮在內(nèi),即f以及人和物體的參考點。

那么,如何利用人和物體的參考點呢?根據(jù)HOI檢測的特點,設計了公式,使用人和物體參考點來計算出交互參考點,定義交互點位于人和物體的參考點中間連線上,這也符合真實世界的邏輯。交互參考點a可以表示為:

(7)

ratio是一個超參數(shù),它的值應該在[0,1]之間。不同的交互點定位不同的HOI三元組。使用交互點生成條件交互查詢有助于顯式地定位與交互相關(guān)的區(qū)域。

然后,遵循Conditional DETR的步驟,將pointa映射到256維的正弦編碼空間,使得它與key的位置嵌入編碼方式保持一致:

ps=sinusoidal(pointa)

(8)

對于另一個包含位置相關(guān)信息的成分:解碼器嵌入f,還遵循Conditional DETR的操作,即f通過一個兩層的MLP,形成可學習的轉(zhuǎn)換T。因此,最終的條件交互查詢pq的組成是:

pq=Tps

(9)

最終,pq(即位置查詢嵌入)與自注意力層的輸出(即內(nèi)容查詢嵌入)相加作為交叉注意力模塊的query,參與最后的注意力計算,即,query與key進行點乘得到注意力權(quán)重。

3 實 驗

為了證明Conditional HOTR是有效的,在本節(jié)中展示了比較全面的實驗。

3.1 數(shù)據(jù)集和評估指標

3.1.1 數(shù)據(jù)集

在HICO-DET[8]和V-COCO[27]這兩個被HOI檢測任務廣泛使用的數(shù)據(jù)集上進行了實驗,以驗證文中方法的有效性。HICO-DET包含了47 776張圖片(38 118張用于訓練,9 658張用于測試),并且包括超過150 K對的人物對。它有117個動作類別和80個物體類別,構(gòu)成600個HOI三元組,其中138個是稀少類別(即少于10個訓練實例),其余462個類別為非稀少類別。V-COCO是MS-COCO[28]的一個子集,其中包括10 346張圖片(2 533張用于訓練,2 867張用于驗證,以及4 946張用于測試)。它包含29個動作類別,每個都是一個二進制標簽,還包含了80個物體類別。

3.1.2 評估指標

與HOTR一樣,使用mAP作為評估指標。對于檢測結(jié)果,僅當預測的邊框和對應的真實邊框的交并比(IOU)大于0.5,并且物體類別和動作類別都預測正確時,HOI檢測結(jié)果被視為正確的正樣本。對于V-COCO,報告了兩個場景的mAP:場景1需要報告沒有物體的情況,而場景2則忽略這種情況。對于HICO-DET,評估默認情況下的性能,即根據(jù)所有測試圖像來計算AP。報告了三種類型的mAP:所有類別(Full)、稀少類別(Rare)和非稀少類別(Non-Rare)。

3.2 實現(xiàn)細節(jié)

因為只修改了HOTR中交互解碼器的交叉注意模塊及其最終的檢測頭部分,其他的都遵循原始的模型結(jié)構(gòu),所以訓練過程與HOTR幾乎相同。使用AdamW[29]對模型進行訓練,將主干網(wǎng)絡的學習率設置為1e-5,權(quán)重衰減為1e-4。對于V-COCO,將transformer的初始學習率設置為1e-4,對于HICO-DET設置為1e-5。與HOTR一樣,主干特征提取網(wǎng)絡、編碼器以及實例解碼器加載在MS-COCO上預訓練的模型,這些權(quán)重在模型訓練期間被凍結(jié)。增強機制和損失函數(shù)與HOTR相同,并且,對模型訓練100個周期,其中學習率在80個周期時衰減一次。

3.3 實驗結(jié)果

在V-COCO和HICO-DET上進行實驗。表1展示了在V-COCO數(shù)據(jù)集上的實驗結(jié)果,以及基線方法HOTR和最近的SOTA方法的結(jié)果。表2是在HICO-DET數(shù)據(jù)集上的結(jié)果。將ResNet-50作為主干網(wǎng)絡。對于HICO-DET數(shù)據(jù)集,目標檢測器在MS-COCO上進行預訓練。與基線方法HOTR進行比較時,為了體現(xiàn)出與其結(jié)果比較提升的程度,采用提升了多少百分比的形式;而與其他SOTA方法比較時,直接利用表格中mAP的值進行相減得到差值來直觀對比mAP。

表1 在V-COCO數(shù)據(jù)集上的結(jié)果

表2 在HICO-DET數(shù)據(jù)集上的結(jié)果

3.3.1 與基線HOTR比較

考慮到不同gpu設備對實驗結(jié)果的影響,重新跑了一遍HOTR的源碼,并將此結(jié)果作為文中方法的基線,以此來體現(xiàn)公平??梢钥吹?在V-COCO測試集上,比HOTR提高了2.13百分點(61.0→62.3),在HICO-DET上提高了8.33百分點(21.73→23.54)。表明文中方法在兩個基準上都得到了明顯的提升,尤其是在HICO-DET上,這驗證了Conditional HOTR的有效性。

3.3.2 與SOTA方法比較

在V-COCO測試集上,Conditional HOTR優(yōu)于所有的兩階段方法和普通的一階段方法。對于基于transformer的HOI檢測方法,它優(yōu)于大多數(shù)方法,例如相比于HOI Transformer,超過其9.4 mAP,超過QPIC 3.5 mAP。與目前的SOTA方法CDN相比,在同等條件的ResNet50為主干網(wǎng)絡的情況下,Conditional HOTR與其具有相同的精度。值得一提的是,文中方法在場景2上達到了SOTA。

對于HICO-DET數(shù)據(jù)集,Conditional HOTR優(yōu)于所有兩階段方法和普通一階段方法。此外,文中方法優(yōu)于基于transformer的HOI檢測方法——HOI Transformer。在基線HOTR的結(jié)果和QPIC結(jié)果之間差距2.48 mAP的情況下,文中方法最終僅比QPIC低0.67 mAP。QAHOI利用多尺度特征進行HOI檢測,這對檢測結(jié)果有利,文中方法沒有使用多尺度,比它低了0.81 mAP。

3.4 消融實驗

為了驗證設計的條件交互查詢的有效性,設置成不同的超參來觀察其對結(jié)果的影響,不同的參數(shù)設置會導致交互點處于不同的位置。從表3可以看出,不同的ratio檢測精度不同,但在兩個數(shù)據(jù)集上結(jié)果都優(yōu)于基線HOTR,因此文中方法是有效的。

表3 不同的ratio值的結(jié)果

此外,還做了一些額外的實驗,通過改變設計的Conditional HOTR的結(jié)構(gòu)來深入探討其有效性。所有實驗均在V-COCO上進行,并使用ResNet50作為主干,ratio設置為0.5。表4是實驗的結(jié)果。Conditional HOTR-Q表示取消了人和物的參考點的設計,并直接生成一個可學習的向量作為圖1中的ps。Conditional HOTR-P表示在最終的檢測頭中,公式(4)和(5)中的FFNh1(f)和FFNo1(f)直接加上交互點的信息,而不是分別與人和物的參考點信息相加。從結(jié)果可以推斷,參考點和檢測頭的設計是有效的。

表4 在V-COCO上進行消融實驗

4 結(jié)束語

提出了條件交互查詢,旨在優(yōu)化基于transformer的HOI檢測方法,并在HOTR上驗證了其有效性,稱它為Conditional HOTR。在解碼器中充當交叉注意的位置查詢嵌入,顯式地定位與交互相關(guān)的區(qū)域,減少了對高質(zhì)量內(nèi)容查詢的依賴。使用交互點和當前解碼器層的輸出來生成條件交互查詢,因為它們包含與位置相關(guān)的信息。通過人和物體的參考點來生成交互參考點,其表示HOI三元組的定位區(qū)域。文中方法在兩個基準數(shù)據(jù)集上都比HOTR有顯著改進,并且超過了大多數(shù)的HOI檢測方法。

猜你喜歡
解碼器參考點指針
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
FANUC數(shù)控系統(tǒng)機床一鍵回參考點的方法
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
偷指針的人
娃娃畫報(2019年5期)2019-06-17 16:58:10
參考點對WiFi位置指紋算法的影響
數(shù)控機床返回參考點故障維修
為什么表的指針都按照順時針方向轉(zhuǎn)動
FANUC數(shù)控機床回參考點故障分析與排除
连江县| 若羌县| 封丘县| 福贡县| 上高县| 葫芦岛市| 渝中区| 镇宁| 年辖:市辖区| 古蔺县| 胶州市| 安多县| 兰坪| 无为县| 南乐县| 金乡县| 山丹县| 辉南县| 德保县| 石狮市| 吴江市| 漠河县| 萝北县| 观塘区| 镇安县| 三穗县| 儋州市| 嘉兴市| 乌恰县| 盈江县| 二连浩特市| 赤壁市| 开原市| 洱源县| 宝坻区| 桃江县| 康乐县| 涿鹿县| 勃利县| 博客| 广西|