龐彥偉,王佳蓓
基于空間級解耦和上下文增強的行人搜索方法
龐彥偉1, 2,王佳蓓1, 2
(1. 天津大學電氣自動化與信息工程學院,天津 300072;2. 天津市類腦智能技術重點實驗室,天津 300072)
行人搜索是一個同時處理行人檢測與行人重識別的聯(lián)合任務.然而,行人檢測與行人重識別之間存在任務沖突:行人檢測旨在區(qū)分人與背景區(qū)域,關注行人的共性;行人重識別旨在辨別不同人,關注行人的特性. 針對此任務沖突,與以往堆疊多個卷積層的深度級解耦方式不同,基于空間分離的思想,提出了一種簡單高效的空間級解耦策略.該策略為兩個任務設計不同的可形變卷積,自適應地在不同位置上分別提取行人檢測特征與行人重識別特征,實現(xiàn)了行人共性與特性的分離. 進一步,為了利用豐富的上下文信息幫助更好地辨別不同的行人,提出了一種上下文增強特征提取模塊.該模塊使用全局感知的多頭注意力網(wǎng)絡生成信息互補的多級特征,然后利用所設計的基于自注意力機制的多級特征融合模塊,融合得到上下文增強特征.在該上下文增強特征的基礎上,應用上述空間級解耦策略對其不同空間位置進行采樣,解耦行人檢測和行人重識別兩個任務. 實驗結果表明,所提方法在CUHK-SYSU測試集上mAP和top-1準確率分別達到了94.2%和94.6%,在PRW測試集上mAP和top-1準確率分別達到了52.6%和87.6%,能夠有效地提升行人搜索任務性能.
行人搜索;行人檢測;行人重識別;形變卷積;上下文增強
行人搜索[1-2]旨在從一組多種場景圖像中尋找與定位特定目標行人,它可以看作是行人檢測與行人重識別的聯(lián)合任務.相比于在剪裁后的行人圖像中辨別行人的行人重識別任務[3],在全景圖像中對行人進行搜索與辨別的行人搜索任務更加貼近真實應用場景,同時也具有挑戰(zhàn)性.一方面,它需要面對這兩個子任務各自普遍存在的挑戰(zhàn),如遮擋[4]和尺度變??化[5];另一方面,行人搜索需要應對行人檢測與行人重識別兩個子任務之間的沖突[6].
在過去的幾年里,借助于深度卷積網(wǎng)絡,行人搜索研究工作取得了巨大的成就.當前行人搜索方法大致可以分為兩類:兩步行人搜索方法和單步行人搜索方法.兩步行人搜索方法使用兩個獨立的網(wǎng)絡分別處理行人檢測與行人重識別任務,即首先在全景圖像中檢測行人,然后使用裁剪后的行人圖像完成行人重識別任務.例如,Wang等[7]利用了檢測和重識別任務的相關性,提出了一個查詢目標圖像身份信息引導檢測器和一個適應檢測結果的重識別模型.與之相對應,單步行人搜索方法則在單個網(wǎng)絡中同時進行行人檢測與重識別任務.Xiao等[1]通過引入在線實例匹配損失監(jiān)督行人重識別的學習,提出了第1個單步端到端行人搜索方法.之后很多單步行人搜索方法[8-9]都是基于這個框架.例如,Chen等[10]提出將行人特征表達向量在極坐標系中分解為徑向模長和角度,分別用于檢測分類和重識別預測.Han等[11]提出了一種解耦檢測與重識別優(yōu)化網(wǎng)絡,使用區(qū)域候選框網(wǎng)絡預測行人檢測結果,使用真值框的感興趣區(qū)域特征預測行人重識別.與兩步行人搜索方法相比,單步行人搜索方法在運行速度與內(nèi)存消耗上均具有比較明顯的優(yōu)勢.
本文聚焦于解決行人搜索任務中行人檢測與行人重識別的任務沖突問題.行人檢測目的是定位圖像中的人,區(qū)分人和背景的過程會最小化不同人之間的特征差異;而重識別任務目的是判斷不同行人圖像是否屬于同一人,辨別不同的行人過程會最大化不同行人特征差異.為了解決該任務沖突問題,現(xiàn)有的單步行人搜索方法在不同的深度層級上分別預測檢測與重識別,在檢測與重識別預測網(wǎng)絡之間保持一定的深度距離,隱式地轉換特征.與之不同的是,本文在空間中分離特征選擇,提出空間級解耦策略.其出發(fā)點在于檢測任務的空間特征選擇集中在最小化不同人特征差異的位置上,而重識別任務的空間特征選擇集中在最大化不同人特征差異的位置上.所提出的空間級解耦策略是通過分離變形模塊(separate deformation module,SDM)實現(xiàn)的.SDM使用同一輸入特征,利用兩個并行可形變卷積分支分別提取特征進行檢測預測和重識別預測,通過使用不同的空間特征來緩解任務沖突.
此外,具有豐富上下文信息的特征對于行人搜索任務至關重要.例如,在一些具有挑戰(zhàn)性的場景中,上下文信息可以通過利用周圍環(huán)境或附近行人來幫助識別目標行人[12-13].為此,本文提出上下文增強特征提取模塊(context-enhanced feature extraction module,CFEM),該模塊包括多級特征生成(multi-level feature generation,MFG)和多級特征融合(multi-level feature fusion,MFF),采用基于全局感知的多頭注意力網(wǎng)絡來生成具有豐富上下文互補信息的多級特征,代替原有基于局部感知的卷積神經(jīng)網(wǎng)絡,在多級特征的基礎上,進一步引入基于自注意力機制的上下文多級特征融合模塊,挖掘更多的上下文信息,在兩個公開數(shù)據(jù)集上進行豐富的實驗,證明了本方法的有效性.
基于空間級解耦和上下文增強的行人搜索方法的網(wǎng)絡結構如圖1所示,主要包括上下文增強特征提取模塊和分離變形模塊兩個部分.
給定一幅包含待搜索行人的輸入圖像,先經(jīng)過上下文增強特征提取模塊(CFEM)提取兩個任務通用的融合特征,其中多級特征生成(MFG)能夠提供上下文信息豐富的特征金字塔,多級特征融合(MFF)將不同分辨率的特征有效地融合成為上下文增強特征.然后,分離變形模塊(SDM)對這一上下文增強特征的不同空間位置進行采樣,通過一種高效的并行多任務設計,解耦行人檢測和重識別兩個子任務,最終有效完成行人搜索任務.
行人搜索的兩個子任務之間存在著本質(zhì)上的任務沖突:行人檢測任務將所有人視為同一類(前景),為了區(qū)分人和背景會最小化不同人之間的特征差異,使得不同人的特征盡可能地靠近;而行人重識別任務將不同人視為不同的類別,為了辨別不同的人會最大化不同人特征差異,使得不同人的特征盡可能地遠離,如圖2所示,其中不同顏色的特征表示不同類別的特征.理想的單步行人搜索方法應該能夠處理該任務沖突,而不需要過于復雜的過程.
圖1?所提方法網(wǎng)絡結構
圖2?行人檢測與行人重識別任務沖突說明
為了解決檢測和重識別之間的任務沖突問題,當前大多數(shù)行人搜索方法傾向于使用來自不同深度層的不同特征來進行這兩個子任務的預測.具體地,兩步行人搜索方法采用兩個獨立的網(wǎng)絡分別處理行人檢測與行人重識別任務,以此來顯式分離檢測與重識別的特征.單步行人搜索方法是在檢測預測與重識別預測之間堆疊幾個卷積或正則化層等,以不同深度級的方式生成不同特征,從而隱式地解耦檢測和重識別任務,典型的單步行人搜索方法預測網(wǎng)絡對比如圖3所示.圖3(a)中的OIM[1]和圖3(b)中的NAE[10]在檢測預測和重識別預測之間存在多個全連接或歸一化層.圖3(c)中AlignPS[14]遵循重識別任務優(yōu)先的原則,在檢測預測之前疊加4個卷積層.總之,這些已有的行人搜索預測網(wǎng)絡在檢測和重識別預測層之間保持一定的深度距離.這種方法一定程度上忽略了兩個子任務之間的相關性,并且?guī)砹舜罅坎槐匾挠嬎汩_銷,所以本文認為這種深度級的解耦并不是一個有效的解決沖突的方式.為解決已有方法的局限,本文提出空間級解耦策略,在空間級上選擇不同位置的特征,在空間中分離特征選擇.行人檢測特征更集中在能夠最大化行人共性特征的位置,以便將人與背景區(qū)域分開.相反地,重識別預測特征更集中在能夠最大化不同人的特征差異的位置,以便區(qū)分不同的人.空間級解耦策略是通過一個分離變形模塊(SDM)來實現(xiàn)的,該模塊有效地學習空間中兩個子任務關注的不同位置特征,如圖3(d)所示.通過一定程度的空間分離,便可以有效緩解行人重識別與行人檢測之間的任務沖突,同時避免了已有方案存在的計算開銷大的問題.
圖3?不同單步行人搜索方法預測網(wǎng)絡對比
上下文信息在行人搜索中起著重要的作用,一些研究利用上下文信息來提高行人搜索的準確性.例如,Yan等[12]建立了一個圖學習框架并使用具有相鄰行人信息的上下文特征來更新計算不同行人之間的相似性.Munjal等[13]提出了一種查詢圖像引導的行人搜索網(wǎng)絡,利用查詢圖像與待搜索的圖庫圖像的全局上下文信息.本文提出了一個簡單而有效的上下文增強特征提取模塊(CFEM),它可以生成擁有豐富上下文信息、更魯棒的特征.CFEM分為兩個連續(xù)的部分:多級特征生成(MFG)和多級特征融合(MFF).
1.2.1?多級特征生成
1.2.2?多級特征融合
為了充分增強各級特征中的上下文信息,提出了上下文多級加和策略,如圖4(c)所示.首先在多級輸入特征圖上分別使用注意力層,利用其對非相鄰特征間關系的建模能力,來捕捉特征中的遠距離信息.其中注意層保留了原有設計的跳連接方式.之后,多級注意力層后的輸出特征的和作為最終輸出特征,實現(xiàn)了具有豐富上下文信息的多特征融合,計算表達式為
圖4?不同多級特征融合網(wǎng)絡結構對比
為了驗證所提出方法的有效性,本文在兩個公開行人搜索數(shù)據(jù)集CUHK-SYSU[1]和PRW[2]進行行人搜索實驗.
CUHK-SYSU是一個大規(guī)模的行人搜索數(shù)據(jù)集,有街拍和電影場景兩種數(shù)據(jù)來源.它一共包含18184張圖像、8432個標注身份和96143個標注行人邊界框.對于每個需要查詢的目標行人,對應的搜索圖庫大小包含了從50~4000不等的6種配置.如果沒有特殊說明,默認使用搜索圖庫大小為100張圖的配置來進行實驗.
使用mAP(mean average precision)和top-1準確率兩個標準行人搜索任務評價指標.與行人重識別任務評價不同,只有當預測邊界框與真值的交并比(intersection over union,IoU)大于0.5,該預測框才會被作為候選框計算行人搜索匹配度,計算mAP和top-1準確率.對于mAP,首先基于每個目標行人的精度-召回曲線下的面積計算平均精度(AP),再對所有目標行人的AP計算平均來作為mAP.top-1準確率是指在整個搜索圖庫中,具有最高得分的預測候選框與給定目標行人匹配的平均值.
除了以上兩個用于行人搜索任務的評價指標外,本文還使用AP50評價指標來度量行人檢測任務的性能.
本文基于開源庫mmdetection[22]實現(xiàn)了所提出的單步無錨框行人搜索方法.使用在ImageNet-1K[23]上預訓練過的骨干網(wǎng)絡,包括ResNet-50、Swin Transformer和PVTv2.最后采用的PVTv2模型使用AdamW優(yōu)化器在單個NVIDIA GeForce RTX 3090 GPU上訓練.具體相關實驗參數(shù)設置如表1所示.
表1?實驗參數(shù)設置
Tab.1?Parameter setting of the experiment
本文在PRW數(shù)據(jù)集上進行消融實驗來驗證所提出的不同模塊的效果,包括上下文增強特征提取模塊和分離變形模塊,其中上下文增強特征提取模塊包含兩部分:多級特征生成和多級特征融合,如表2所示.
表2?在PRW測試集上所提模塊消融實驗結果
Tab.2 Ablation experiment results of the proposed mod-ules on the PRW test set
表3為分離變形模塊行人搜索預測網(wǎng)絡在不同設置下的對比實驗結果,即使用不同的檢測預測特征采樣卷積和重識別預測特征采樣卷積.首先使用單個相同的可形變卷積同時進行檢測與重識別預測在mAP和top-1準確率上分別達到了44.8%和84.4%.表3中其他實驗結果均為使用兩個或多個不同的卷積分別處理檢測與重識別預測.僅使用單個可形變卷積分別用于檢測預測特征采樣和重識別預測特征采樣,在mAP上分別達到了43.0%和48.9%.與這些方法相比,通過使用兩個并行的可形變卷積自適應地對檢測和重識別預測特征進行采樣,分離變形模塊實現(xiàn)了最好的性能,mAP和top-1準確率分別是52.6%和87.6%,這證明了分離變形模塊可以通過對檢測和重識別在不同感興趣位置上提取特征,有效地解決兩者之間的任務沖突.此外,按照AlignPS[14]在檢測預測之前堆疊4個標準卷積,在增加了網(wǎng)絡參數(shù)量的同時,觀察發(fā)現(xiàn)可以提高檢測性能,然而并沒有改善搜索mAP性能,對top-1準確率的提高很小,這表明在檢測和重識別預測層之間堆疊更多的卷積層并不重要.這也反映了先前方法所采用的深度級解耦策略增加計算開支的同時并沒有帶來行人搜索性能上的明顯收益,反而會引入一定負作用.一個重要的原因是在單步行人搜索方法中由于存在任務沖突,單一任務性能的提升可能會導致另一任務性能的下降,最終的搜索性能下降.
表3?在PRW測試集上分離變形模塊對比實驗結果
Tab.3?Comparison of experiment results of separate deformation module on the PRW test set
表4展示了不同骨干網(wǎng)絡的對比實驗結果.對于行人檢測任務性能AP50,卷積神經(jīng)網(wǎng)絡和多頭注意力網(wǎng)絡作為骨干網(wǎng)絡的性能相近.對于行人搜索任務性能,ResNet-50和ResNet-101的mAP分別為44.6%和45.0%,而Swin-T、PVTv2-B1、Swin-S和PVTv2-B2的mAP分別為48.2%、48.3%、49.5%和52.6%,作為骨干網(wǎng)絡,多頭注意力網(wǎng)絡優(yōu)于卷積神經(jīng)網(wǎng)絡,上下文信息對于幫助辨別目標行人十分重要,進而基于全局注意力機制的多頭注意力網(wǎng)絡相比于局部感知的卷積神經(jīng)網(wǎng)絡更能夠捕獲上下文信息,可以利用豐富的上下文信息來提升行人搜索性能.在骨干網(wǎng)絡采用不同多頭注意力網(wǎng)絡中,PVTv2-B2的性能最好.與PVTv2-B2相比,Swin-T和Swin-S可能無法通過局部注意模塊充分利用全局上下文信息,所以最終采用PVTv2-B2作為模型骨干網(wǎng)絡.
圖5 在PRW測試集上可形變卷積采樣點可視化
表4 在PRW測試集上不同骨干網(wǎng)絡對比實驗結果
Tab.4 Comparison of experiment results of different backbone networks on the PRW test set
表5 在PRW測試集上單級特征與多級融合特征對比實驗結果
Tab.5 Comparison of experiment results of single-level features and multi-level fused features on the PRW test set
為了證明提出的分離變形模塊的有效性,在AlignPS上進行實驗,骨干網(wǎng)絡均使用ResNet-50,用空間級解耦的SDM替換AlignPS中的原始深度級解耦的預測網(wǎng)絡模型.表6展示了模型準確率、推理時間、時間復雜度和空間復雜度的結果.其中時間復雜度采用浮點運算(floating-point operations,F(xiàn)LOPs)次數(shù)指標衡量,空間復雜度采用訪存量指標衡量.與原始的AlignPS預測網(wǎng)絡相比,通過將SDM集成到AlignPS中,它以更低的計算復雜度、更快的推理速度獲得了更好的性能,證明了所提出的空間級解耦策略的有效性.
表6 在PRW測試集上AlignPS與SDM效率對比實驗結果
Tab.6 Comparison of experiment results of the efficiency of AlignPS and SDM on the PRW test set
本文將所提出的方法與一些先進的行人搜索方法進行行人搜索任務性能比較,包括單步行人搜索方法和兩步行人搜索方法,如表7所示.
表7 在CUHK-SYSU和PRW測試集上與其他先進方法對比
Tab.7 Comparison with other state-of-the-art methods on the CUHK-SYSU and PRW test sets
在CUHK-SYSU數(shù)據(jù)集上,使用100個搜索圖庫將本文方法與其他先進方法進行了比較.本文方法達到了94.2%的mAP和94.6%的top-1準確率,優(yōu)于目前多數(shù)的單步和兩步行人搜索方法.例如,兩步法TCTS和單步法DMRNet分別有93.9%和93.2%的mAP,本文方法分別高出其0.3%和1.0%.另外,還將本文方法與其他的單步和兩步行人搜索方法在50~4000的不同圖庫規(guī)模下進行了比較,如圖6所示.行人搜索任務是在圖庫候選圖像中按照給定的包含目標行人的查詢圖像進行搜索,定位與識別目標行人,圖庫規(guī)模表示圖庫中候選圖像數(shù)量.隨著圖庫規(guī)模的增加,行人搜索的挑戰(zhàn)難度越來越大.本文方法在不同的圖庫規(guī)模下穩(wěn)定地優(yōu)于其他方法,尤其是圖庫規(guī)模較大的時候.
PRW數(shù)據(jù)集由于搜索圖庫規(guī)模更大,拍攝視角變換更多,性能指標更低,更具有挑戰(zhàn)性.本文方法分別實現(xiàn)了52.6%的mAP和87.6%的top-1準確率,超過了當前所有其他先進方法.本文方法在mAP上比最好的兩步行人搜索方法TCTS提高了5.8%,比最好的單步行人搜索方法DMRNet在mAP和top-1準確率上分別提高了5.7%和4.3%.
圖6?在CUHK-SYSU測試集上改變圖庫規(guī)模與其他方法對比
除了以上定量的比較外,部分行人搜索結果的可視化如圖7與圖8所示.圖7顯示了本文方法在PRW測試集上的一些搜索定性結果,圖7(a)為包含目標行人的查詢圖像,圖7(b)~(d)為本文方法在圖庫中進行識別匹配得到的屬于目標行人在不同場景圖像中的3個搜索結果示例.本文方法成功地檢測和識別了不同攝像機視角下的搜索圖庫中的目標行人,其中行人具有姿勢、大小和背景等差異.圖8進一步展示了一些本文方法和AlignPS方法在PRW測試集上最佳匹配的搜索結果對比.相比之下,本文所提出的模型成功地在不同場景下找到了目標行人,原因之一在于本文方法能夠利用豐富上下文信息來幫助識別目標行人.比如第3行,目標行人旁邊有1名兒童;最后1行,有5個人在目標行人附近談話.
圖7?在PRW測試集上本文方法定性結果
圖8 在PRW測試集上與AlignPS定性結果(最佳搜索結果)比較
本文提出了一種新的單步無錨框行人搜索方法,該方法采用了空間級解耦策略,有效地緩解了行人檢測和行人重識別之間的任務沖突.該策略基于檢測與重識別任務的特征集中在不同空間位置的觀察,簡化任務沖突的解決方法為空間級的特征選擇而不是深度級的特征選擇.具體地,空間級解耦策略由一個分離變形模塊(SDM)實現(xiàn).此外,提出一個上下文增強特征提取模塊(CFEM),利用豐富的上下文信息更好地辨別行人.該方法在CUHK-SYSU和PRW兩個行人搜索數(shù)據(jù)集上取得了良好的性能,提升了行人搜索任務性能.
在未來,本文提出的空間級解耦策略可以擴展到單步兩階段檢測器行人搜索方法中,提供一種可能的方式:從不同的空間采樣位置提取感興趣區(qū)域特征分別用于檢測和重識別,例如使用可形變感興趣區(qū)域操作.此外,行人搜索任務是在搜索圖庫圖像中識別目標行人,可廣泛用于智慧城市的構建.
[1]Xiao T,Li S,Wang B C,et al. Joint detection and identification feature learning for person search [C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:3376-3385.
[2]Zheng L,Zhang H H,Sun S Y,et al. Person re-identification in the wild[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:3346-3355.
[3]He S T,Luo H,Wang P C,et al. TransReID:Transformer-based object re-identification[C]// Proceed-ings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal,Canada,2021:14933-15002.
[4]梁?煜,李佳豪,張?為,等. 嵌入中心點預測模塊的Yolov3遮擋人員檢測網(wǎng)絡[J]. 天津大學學報(自然科學與工程技術版),2021,54(5):517-525.
Liang Yu,Li Jiahao,Zhang Wei,et al. Embedded center prediction module of Yolov3 occlusion human detection network[J]. Journal of Tianjin University (Science and Technology),2021,54(5):517-525(in Chinese).
[5]龐彥偉,余?珂,孫漢卿,等. 基于逐級信息恢復網(wǎng)絡的實時目標檢測算法[J]. 天津大學學報(自然科學與工程技術版),2022,55(5):471-479.
Pang Yanwei,Yu Ke,Sun Hanqing,et al. Hierarchical information recovery network for real-time object detection[J]. Journal of Tianjin University(Science and Technology),2022,55(5):471-479(in Chinese).
[6]Chen D,Zhang S S,Ouyang W L,et al. Person search via a mask-guided two-stream CNN model[C]// Proceedings of 2018 European Conference on Computer Vision. Munich,Germany,2018:764-781.
[7]Wang C,Ma B P,Chang H,et al. TCTS:A task-consistent two-stage framework for person search [C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:11949-11958.
[8]Dong W K,Zhang Z X,Song C F,et al. Bi-directional interaction network for person search[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:2836-2845.
[9]Xiao J M,Xie Y C,Tillo T,et al. IAN:The individual aggregation network for person search[J]. Pattern Recognition,2019,87:332-340.
[10]Chen D,Zhang S S,Yang J,et al. Norm-aware embedding for efficient person search[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:12612-12621.
[11]Han C C,Zheng Z D,Gao C X,et al. Decoupled and memory-reinforced networks:Towards effective feature learning for one-step person search[C]// Proceedings of 2021 AAAI Conference on Artificial Intelligence. Hong Kong,China,2021:1505-1512.
[12]Yan Y C,Zhang Q,Ni B B,et al. Learning context graph for person search[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision and Pattern Recongnition. Long Beach,USA,2019:2158-2167.
[13]Munjal B,Amin S,Tombari F,et al. Query-guided end-to-end person search[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision and Pattern Recongnition. Long Beach,USA,2019:811-820.
[14]Yan Y C,Li J P,Qin J,et al. Anchor-free person search[C]//Proceedings of 2021 IEEE/CVF Computer Vision and Pattern Recognition. Hong Kong,China,2021:7686-7695.
[15]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[16]Tian Z,Shen C H,Chen H,et al. FCOS:Fully convolutional one-stage object detection[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:9626-9635.
[17]Chen D,Zhang S S,Ouyang W L,et al. Hierarchical online instance matching for person search[C]// Proceedings of 2020 AAAI Conference on Artificial Intelligence. New York,USA,2020:10518-10525.
[18]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[19]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words[C]//Proceedings of 2021 International Conference on Learning Representations. Vienna,Austria,2021:1-19.
[20]Liu Z,Lin Y T,Cao Y,et al. Swin Transformer:Hierarchical vision transformer using shifted windows [C]//Proceedings of 2021 IEEE/CVF Interna-tional Conference on Computer Vision. Montreal,Canada,2021:9992-10002.
[21]Wang W H,Xie E Z,Li X,et al. Pyramid vision transformer:A versatile backbone for dense prediction without convolutions[C]//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal,Canada,2021:568-578.
[22]Chen K,Wang J Q,Pang J M,et al. MMDetection:Open MMLab detection toolbox and benchmark [EB/OL]. http://arxiv.org/abs/1906.07155,2019-04-25.
[23]Deng J,Dong W,Socher R,et al. Imagenet:A large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Florida,USA,2009:248-255.
[24]Lan X,Zhu X T,Gong S G. Person search by multi-scale matching[C]//Proceedings of 2018 European Conference on Computer Vision. Munich,Germany,2018:553-569.
[25]Han C C,Ye J C,Zhong Y S,et al. Re-ID driven localization refinement for person search[C]//Proceed-ings of 2019 IEEE/CVF International Conference on Computer Vision. Long Beach,USA,2019:9813-9822.
[26]Dong W K,Zhang Z X,Song C F,et al. Instance guided proposal network for person search[C]//Proceed-ings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:2582-2591.
[27]Liu H,F(xiàn)eng J S,Jie Z Q,et al. Neural person search machines[C]//Proceedings of 2017 IEEE/CVF Interna-tional Conference on Computer Vision. Venice,Italy,2017:493-501.
[28]Chang X J,Huang P-Y,Shen Y-D,et al. RCAA:Relational context-aware agents for person search[C]// Proceedings of 2018 European Conference on Computer Vision. Munich,Germany,2018:86-102.
[29]Kim H,Joung S,Kim I,et al. Prototype-guided saliency feature learning for person search [C]// Proceedings of 2021 IEEE/CVF Computer Vision and Pattern Recognition. Boston,USA,2021:4863-4872.
[30]Zhao C R,Chen Z C,Dou S G,et al. Context-aware feature learning for noise robust person search[J]. IEEE Transactions on Circuits and Systems for Video Technology,2022,32(10):7047-7060.
[31]Lee S,Oh Y,Baek D,et al. OIMNet++:Prototypical normalization and localization-aware learning for person search[C]//Proceedings of 2022 IEEE/CVF European Conference on Computer Vision. Tel Aviv,Israel,2022:621-637.
Person Search with Spatial-Level Decoupling and Contextual Enhancement
Pang Yanwei1, 2,Wang Jiabei1, 2
(1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2. Tianjin Key Laboratory of Brain-Inspired Intelligence Technology,Tianjin University,Tianjin 300072,China)
Person search is a joint task that simultaneously performs pedestrian detection and person re-identification;however,these two sub-tasks are not similar. Pedestrian detection aims to differentiate persons from background regions by focusing on the commonness of pedestrians,while person re-identification aims to distinguish different persons by emphasizing the uniqueness of each pedestrian. To address this task contradiction,a simple and efficient spatial-level decoupling strategy was proposed,as opposed to the existing depth-level decoupling methods of stacking multiple convolutional layers. Two different deformable convolutions were endorsed to adaptively extract features at different positions for the two sub-tasks,allowing the separation of pedestrian commonness and uniqueness. Furthermore,a context-enhanced feature extraction module was also presented to exploit rich contextual information for better person identification. A multi-head attention network capable of capturing long-range dependencies was used to generate multi-level features with complementary information. Moreover,a multi-level feature fusion module based on a self-attention mechanism was proposed to obtain the context-enhanced features. The above spatial-level decoupling strategy was applied to the context-enhanced feature for sampling features at different spatial positions,thereby decoupling the pedestrian detection task and person re-identification task. Experimental results show that the mean average precision(mAP)and top-1 accuracy of the proposed method are 94.2% and 94.6% on the CUHK-SYSU test set,respectively. For the PRW test set,the mAP and top-1 accuracy are 52.6% and 87.6%,respectively. Those results indicate that the proposed method can significantly improve person search.
person search;pedestrian detection;person re-identification;deformable convolution;contextual enhancement
Tianjin Science and Technology Program(No. 19ZXZNGX00050).
10.11784/tdxbz202209005
TP391.4
A
0493-2137(2023)12-1307-10
2022-09-05;
2022-12-01.
龐彥偉(1976—??),男,博士,教授.Email:m_bigm@tju.edu.cn
龐彥偉,pyw@tju.edu.cn.
天津市科技計劃資助項目(19ZXZNGX00050).
(責任編輯:孫立華)