跨模態(tài)行人重識別研究綜述

2021-11-22 10:09劉天瑜劉正熙

現(xiàn)代計(jì)算機(jī) 2021年7期

劉天瑜，劉正熙

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都610065）

0 引言

近年來，隨著智能監(jiān)控領(lǐng)域的不斷發(fā)展，單純憑借傳統(tǒng)的人力已經(jīng)很難在對復(fù)雜的監(jiān)控場景做出完善詳盡的處理。作為一項(xiàng)在大型非重疊視角多攝像機(jī)網(wǎng)絡(luò)獲取到的海量視頻畫面序列里找到目標(biāo)行人的任務(wù)，行人重識別（Person Re-Identification）可以被看作是多攝像頭的行人檢索問題。它建立在行人檢測的基礎(chǔ)之上，捕捉獲取同一目標(biāo)個(gè)體在不同非重疊攝像頭中分布位置信息，推動了智能安保、智能視頻監(jiān)控、智能檢索等領(lǐng)域的發(fā)展。

目前的大部分工作集中于可見光攝像頭下的行人重識別問題。然而在實(shí)際應(yīng)用場景下，攝像頭應(yīng)保證全天候的運(yùn)作。由于可見光攝像頭對夜間的監(jiān)控安防工作作用有限，隨著科技的進(jìn)步發(fā)展，能夠切換紅外模式的攝像頭正被廣泛應(yīng)用于智能監(jiān)控系統(tǒng)。在可見光模式和紅外模式下，分別采集到的是RGB 圖像和紅外圖像，這是屬于兩種不同模態(tài)的數(shù)據(jù)，因此跨模態(tài)行人重識別問題被提出，隨之引起了廣泛的關(guān)注。有效解決跨模態(tài)行人重識別問題，對公共安全、預(yù)防犯罪和刑偵追查等方面有著重大的意義。

1 介紹

1.1 行人重識別

行人重識別作為計(jì)算機(jī)視覺領(lǐng)域的研究方向之一，近年來獲得了一定關(guān)注。它被認(rèn)為是一個(gè)利用計(jì)算機(jī)視覺技術(shù)對給定圖像進(jìn)行非重疊攝像頭檢索，從而識別出屬于同一個(gè)行人圖像的問題。行人重識別任務(wù)的起源最早可以追溯到1997 年的多攝像頭追蹤問題，2014 年，將深度學(xué)習(xí)中的孿生網(wǎng)絡(luò)（Siamese Network）引入了行人重識別任務(wù)，從此開始將深度學(xué)習(xí)應(yīng)用于行人重識別，形成了端對端的行人重識別系統(tǒng)。相較于之前大多基于手工設(shè)計(jì)的行人重識別系統(tǒng)，有了實(shí)質(zhì)性的進(jìn)展[1-2]。

基于深度學(xué)習(xí)的行人重識別可主要分為封閉世界方法（Closed-World Person Re-Identification）和開放世界方法（Open-World Person Re-Identification）兩大類[3]。過去的行人重識別研究主要集中在基于封閉世界的設(shè)定上，用于訓(xùn)練和測試的數(shù)據(jù)為單一模態(tài)下已生成檢測邊界框的圖像，且經(jīng)過人工篩選處理和準(zhǔn)確標(biāo)注，能夠保證同一個(gè)體在訓(xùn)練集和測試集中都有分布。相對的，開放世界方法更接近實(shí)際場景應(yīng)用，其用于訓(xùn)練和測試的數(shù)據(jù)往往跨越單一模態(tài)，跨模態(tài)行人重識別問題屬于其中的一種，它主要研究RGB 圖像和紅外圖像之間屬于同一行人個(gè)體之間的匹配檢索問題。

1.2 跨模態(tài)行人重識別

在以往對行人重識別的研究中，用于訓(xùn)練和測試的數(shù)據(jù)集往往都是單模態(tài)的RGB 圖像，然而在現(xiàn)實(shí)場景應(yīng)用中，紅外模式攝像頭、深度攝像頭，以及目擊者陳述所捕捉描述的行人圖像都是十分常見的?？缭娇梢姽夂图t外兩種模態(tài)下捕捉的行人重識別問題是其中亟待解決的一種。跨模態(tài)行人重識別，主要研究在給定一個(gè)特定個(gè)體的可見光圖像或者紅外圖像，嘗試在兩種模態(tài)下的圖像庫中檢索匹配屬于同一個(gè)體圖像的問題。該問題于2017 年在行人重識別領(lǐng)域首次被Wu等人[4]提出定義。他們提出了一個(gè)跨模態(tài)行人重識別框架，并提供了一個(gè)公開的大規(guī)模RGB-紅外多模態(tài)行人數(shù)據(jù)庫，名稱為SYSU Multiple Modality Re-ID（SYSU-MM01）。之后開始有大量相關(guān)工作涌現(xiàn)，然而距離跨模態(tài)行人重識別能夠投入實(shí)際場景中應(yīng)用依舊存在許多問題。

目前，跨模態(tài)行人重識別問題面臨的困難與挑戰(zhàn)主要在于：

（1）兩種模態(tài)下捕捉的圖像存在較大差異。RGB圖像擁有三個(gè)通道，包含了紅綠藍(lán)的可見光顏色信息，而紅外圖像只有一個(gè)通道，包含了近紅外光的強(qiáng)度信息，而且從成像原理的角度出發(fā)，二者的波長范圍也有所區(qū)別。不同的清晰度和光照條件在兩類圖像上所能產(chǎn)生效果可能會大相徑庭。

（2）數(shù)據(jù)集較為單一且規(guī)模較小。雖然現(xiàn)在已經(jīng)有許多工作致力于擴(kuò)充行人重識別數(shù)據(jù)集，然而數(shù)據(jù)集中的圖像大多來源于相似型號以及角度的機(jī)位，和實(shí)際中多樣化的場景差距較大。

（3）傳統(tǒng)行人重識別中存在的模態(tài)內(nèi)差異，例如低分辨率、遮擋、視角變化等問題在跨模態(tài)行人重識別中也依舊存在。

2 跨模態(tài)行人重識別方法

跨模態(tài)行人重識別面臨的主要難題在于跨模態(tài)問題中。針對模態(tài)的建模如何較好地減少兩種模態(tài)圖像間的差異，學(xué)習(xí)兩種模態(tài)間共享的魯棒性特征，是目前研究的關(guān)鍵。早期的研究主要集中于基于表征的學(xué)習(xí)以及基于度量的學(xué)習(xí)這兩種方法，之后又出了基于模態(tài)互轉(zhuǎn)的學(xué)習(xí)方法，實(shí)現(xiàn)RGB 圖像和紅外圖像之間的模態(tài)風(fēng)格轉(zhuǎn)換，從而將跨模態(tài)行人重識別問題轉(zhuǎn)換為單一模態(tài)下的行人重識別問題。目前跨模態(tài)行人重識別的研究可大致分為以下三類。

2.1 基于表征學(xué)習(xí)的方法

基于表征學(xué)習(xí)的方法主要研究如何設(shè)計(jì)建模合理的網(wǎng)絡(luò)架構(gòu)，能夠提取兩種模態(tài)圖像共享的具有魯棒性和鑒別性的特征，盡量縮小模態(tài)間存在的差異性，輸入到共享參數(shù)的網(wǎng)絡(luò)，從而比較二者的相似性。

2017 年，Wu 等人[4]首次在行人重識別領(lǐng)域提出定義了跨模態(tài)行人重識別問題，分析了三種網(wǎng)絡(luò)架構(gòu)，并提出了一種深度補(bǔ)零的數(shù)據(jù)預(yù)處理方法，比較評估了這四種網(wǎng)絡(luò)的性能。其中，三種網(wǎng)絡(luò)架構(gòu)分別為單流網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)以及非對稱全連接層結(jié)構(gòu)。經(jīng)過研究發(fā)現(xiàn)，這三種網(wǎng)絡(luò)在特殊情況下都可以使用單流網(wǎng)絡(luò)來表示。通過將不同模態(tài)的數(shù)據(jù)通道置于不同的對應(yīng)通道，而將屬于其他模態(tài)的置零，從而提出深度補(bǔ)零的單流網(wǎng)絡(luò)。網(wǎng)絡(luò)中不同的節(jié)點(diǎn)對應(yīng)不同的模態(tài)數(shù)據(jù)會選擇性“失活”，同時(shí)也存在始終激活的節(jié)點(diǎn)，針對不同模態(tài)數(shù)據(jù)的輸入，可以進(jìn)行不同的特征提取操作。

2018 年，Ye 等人[5]提出了一種分層的跨模態(tài)匹配模型，該模型通過聯(lián)合優(yōu)化模態(tài)特異性和模態(tài)共享矩陣來實(shí)現(xiàn)，其框架分為表征學(xué)習(xí)和度量學(xué)習(xí)兩個(gè)部分，前者通過構(gòu)造一個(gè)雙流網(wǎng)絡(luò)對分屬兩個(gè)模態(tài)的圖像輸入進(jìn)行特征學(xué)習(xí)，再結(jié)合特征損失和對比損失進(jìn)行相似度的學(xué)習(xí)。Dai 等人[6]為解決識別信息不足的問題，利用了GAN 生成器和判別器對抗訓(xùn)練的思想，提出了一個(gè)交叉模式生成對抗網(wǎng)絡(luò)，該網(wǎng)絡(luò)分為生成器和判別器兩個(gè)部分。生成器使用三元組損失和身份損失進(jìn)行訓(xùn)練，從而使得同一身份下不同模態(tài)行人之間的相似性增加，而不同身份且不同模態(tài)的行人之間的相似性會減?。慌袆e器則使用RGB 圖像和紅外圖像的二分類損失進(jìn)行訓(xùn)練，從而和生成器展開對抗，減少二者特征的相似性。之后，為了解決模式間和模式內(nèi)的差異這兩個(gè)問題，Liu 等人[7]提出了一種增強(qiáng)鑒別學(xué)習(xí)的方法（Enhancing the Discriminative Feature Learning，EDFL），通過采用跳躍連接從而融合中間層特征，增強(qiáng)了特征的魯棒性。Zhang 等人[8]提出了一種雙路徑交叉模態(tài)特征學(xué)習(xí)框架，主要由雙路空間結(jié)構(gòu)保持公共空間網(wǎng)絡(luò)（DSCSN）和對比相關(guān)網(wǎng)絡(luò)兩部分組成。前者利用部分共享結(jié)構(gòu)，學(xué)習(xí)跨模態(tài)結(jié)構(gòu)共同空間特征，將交叉模態(tài)圖像嵌入到一個(gè)三維張量空間從而保留空間結(jié)構(gòu)；后者是通過關(guān)注兩個(gè)相似對象的差異來模擬學(xué)習(xí)機(jī)制。Xiang 等人[9]利用RGB 圖像和紅外圖像之間的內(nèi)在聯(lián)系，提出了一個(gè)端到端的雙路多分支交叉模態(tài)網(wǎng)絡(luò)，通過結(jié)合圖像的全局以及局部信息來提取魯棒性特征。針對由于集中學(xué)習(xí)跨模態(tài)圖像共同特征而丟失大量特異信息的情況，Lu 等人[10]一種新的跨模態(tài)共享特征轉(zhuǎn)移算法（cross-modality Shared-Specific Feature Transfer，cm-SSFT），在表示相似性的跨模態(tài)近鄰吸引力模型的基礎(chǔ)上引入模態(tài)特征，有效地利用了每個(gè)樣本的共享信息和特定信息。Ye 等人[11]提出了兩個(gè)注意力模塊機(jī)制去提高模型的識別能力和魯棒性。模態(tài)內(nèi)加權(quán)部分聚合模塊（Intra-modality Weighted-Part Aggregation，IWPA），將同一模態(tài)內(nèi)的局部特征的權(quán)重聚合在一起；跨模態(tài)圖結(jié)構(gòu)化全局特征學(xué)習(xí)注意力模塊（Cross-modality Graph Structured Attention for global feature learning，CGSA）利用跨模態(tài)的鄰近結(jié)構(gòu)關(guān)系去學(xué)習(xí)兩個(gè)模態(tài)的全局特征。

2.2 基于度量學(xué)習(xí)的方法

基于度量學(xué)習(xí)的方法旨在通過網(wǎng)絡(luò)學(xué)習(xí)出兩張圖片的相似度，關(guān)鍵在于設(shè)計(jì)合理的度量方法或者損失函數(shù)，從而使得在模態(tài)一致的情況下，屬于同一個(gè)體的樣本圖像距離盡可能小，不屬于同一個(gè)體的樣本圖像距離盡可能大；而不屬于同一模態(tài)也不屬于同一個(gè)體的樣本圖像距離盡可能大。

Ye 等人[12]提出了一種雙向排序損失，將不同模態(tài)下屬于同一個(gè)體的樣本圖像距離拉近，同時(shí)融合傳統(tǒng)的交叉熵?fù)p失，從而達(dá)到不同模態(tài)特征進(jìn)行融合的目的。Lin 等人[13]提出了一種新的特征學(xué)習(xí)框架。在該框架中，對現(xiàn)有的單模態(tài)行人重識別模型進(jìn)行了修正以適應(yīng)跨模態(tài)場景，并設(shè)計(jì)了一種難五聯(lián)損失函數(shù)，它由難全局三元組損失和難跨模態(tài)三元組函數(shù)組成，從而有效處理跨模態(tài)變化和內(nèi)模態(tài)變化，再結(jié)合身份損失以提高修正后的跨模態(tài)重識別模型的準(zhǔn)確性。Hao等人[14]提出了一種具有分類和識別約束的端到端雙流超球面流形嵌入網(wǎng)絡(luò)（Hyper-Sphere Manifold Embedding network，HSMEnet），與傳統(tǒng)映射到歐氏空間不同，該網(wǎng)絡(luò)設(shè)計(jì)了Sphere Softmax 函數(shù)將樣本的深度特征映射到超球上，使模型能夠?qū)W習(xí)該超球的判別表示，在這個(gè)超球面上，兩個(gè)樣本圖像之間的距離可以通過它們的特征向量的角度來確定，結(jié)合身份損失和排序損失進(jìn)行訓(xùn)練，再通過KL 散度衡量兩個(gè)領(lǐng)域的相似性。最后，通過單矢量分解方法對Sphere Softmax 最大值權(quán)矩陣進(jìn)行了修正，從而由高相關(guān)狀態(tài)轉(zhuǎn)換為低相關(guān)狀態(tài)。Ye 等人[15]提出了一種基于雙流網(wǎng)絡(luò)的模態(tài)意識協(xié)同學(xué)習(xí)方法（Modality-Aware Collaborative，MAC），提出了基線分類器、模態(tài)特異分類器和模態(tài)分類器，進(jìn)行多分類器的協(xié)同學(xué)習(xí)。Zhu 等人[16]提出一個(gè)簡單且高性能的網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)跨模態(tài)人再辨識的局部特征表示。由于直接約束模態(tài)分布之間的距離比較困難且代價(jià)高昂，所以使用兩個(gè)模態(tài)分布之間的中心距離來代替兩個(gè)模態(tài)分布之間的距離，從而縮小每個(gè)類中兩個(gè)模態(tài)特征分布之間的距離。針對忽略了一致模態(tài)下樣本相似性，Jia 等人[17]提出了一種新穎的相似性推斷度量（Similarity Inference Metric，SIM），該度量方法利用一致模態(tài)內(nèi)樣本圖像相似性來規(guī)避針對跨模態(tài)圖像匹配的跨模態(tài)差異，通過連續(xù)相似圖推理和相互最近鄰?fù)评磉M(jìn)行訓(xùn)練，從兩個(gè)不同的角度利用一致模態(tài)內(nèi)樣本圖像相似性來挖掘跨模態(tài)樣本相似性，縮小了模態(tài)間差異。

2.3 基于模態(tài)互轉(zhuǎn)的方法

相對于基于表征的學(xué)習(xí)以及基于度量的學(xué)習(xí)，隨著近年來GAN 的快速發(fā)展，實(shí)現(xiàn)模態(tài)的相互轉(zhuǎn)換，將跨模態(tài)行人重識別問題轉(zhuǎn)化為單模態(tài)的行人重識別問題，這在很大程度上減少了模態(tài)間的差異這一難點(diǎn)。為了實(shí)現(xiàn)兩者的相互轉(zhuǎn)換，Wang 等人[18]提出了一種雙層差異減少方法（Dual-level Discrepancy Reduction Learning，D2RL），分為兩個(gè)部分，先使用變分自編碼器消除模態(tài)之間的差異，再使用傳統(tǒng)的行人重識別方法約束外表特征差異。Wang 等人[19]一種用于跨模態(tài)行人重識別任務(wù)的端到端對齊生成對抗網(wǎng)絡(luò)。像素對齊模塊將RGB 圖像轉(zhuǎn)化為紅外圖像；特征對齊模塊把真實(shí)的紅外圖像和合成的紅外圖像映射到同一個(gè)特征空間，并使用基于身份標(biāo)簽的分類和三元組損失來監(jiān)督特征；聯(lián)合判別模塊負(fù)責(zé)判別真假紅外圖像，通過身份一致性特性使得前兩者互相學(xué)習(xí)從而得到魯棒性特征。

Zhang 等人[20]提出了一種基于不同域的師生模型（TS-GAN），使用了兩個(gè)模態(tài)的圖像相互生成作為指導(dǎo)，但僅使用了RGB 圖像生成IR 圖像作為教師-學(xué)生模型的輸入，分為用于RGB 圖像生成IR 圖像的GAN、提取特征的主干網(wǎng)絡(luò)和預(yù)訓(xùn)練教師模型這三個(gè)模塊，這三個(gè)模塊互相指導(dǎo)，從而提升了GAN 生成圖像效果。為解決不同攝像機(jī)帶來的交叉光譜問題，F(xiàn)an 等人[21]提出了跨光譜雙子空間配對模型（Cross-spectrum Dualsubspace Pairing，CDP）模型來生成多種光譜的圖像，利用生成的樣本幫助網(wǎng)絡(luò)找到鑒別信息，從而實(shí)現(xiàn)對同一個(gè)人的跨模態(tài)重新識別

3 數(shù)據(jù)集及評價(jià)標(biāo)準(zhǔn)

為了評估跨模態(tài)行人重識別方法的性能，現(xiàn)有兩個(gè)同時(shí)包含RGB 圖像和紅外圖像的公開基準(zhǔn)數(shù)據(jù)集供研究實(shí)驗(yàn)，通過相同指標(biāo)對不同方法進(jìn)行比較。

3.1 數(shù)據(jù)集

SYSU-MM01 數(shù)據(jù)集[4]是2017 年為研究跨模態(tài)行人重識別問題而提出的公開數(shù)據(jù)集，它包含了在白天的4 個(gè)用于捕捉RGB 圖像的攝像視域以及在黑暗環(huán)境中用于捕捉紅外圖像的攝像視域，共有491 個(gè)不同身份行人的287628 張RGB 圖像和15792 張紅外圖像。

RegDB 數(shù)據(jù)集[22]共有412 個(gè)不同身份的行人，分為254 個(gè)女性和158 個(gè)男性，每個(gè)人分別對應(yīng)10 張RGB 圖像和10 張紅外圖像，其中拍攝到156 個(gè)行人的正面，256 個(gè)行人的背面。該數(shù)據(jù)集總共有4120 張RGB 圖像和4120 張的紅外圖像。

3.2 評價(jià)標(biāo)準(zhǔn)

（1）CMC 曲線

CMC（Cumulative Match Characteristic，CMC）曲線，即累積匹配曲線，它反映了分類器性能，一般使用Rank-k 表示，表示按照某種相似度匹配規(guī)則匹配后，第n 次能判斷出正確的行人標(biāo)簽的測試數(shù)目與總的測試樣本數(shù)目之比。例如Rank-1 識別率就是表示第一次匹配檢索后就能返回正確匹配的概率。

（2）mAP 均值平準(zhǔn)精度

mAP（mean Average Precision）根據(jù)準(zhǔn)確率-召回率曲線計(jì)算得到反應(yīng)召回率。具體操作是分別求出每個(gè)類別的平均準(zhǔn)確值后再次取平均值。平均準(zhǔn)確值是求準(zhǔn)確率-召回率曲線下的面積，綜合考慮了準(zhǔn)確率和召回率，是衡量一個(gè)模型好壞的標(biāo)準(zhǔn)。

4 結(jié)語

本文對跨模態(tài)行人重識別問題進(jìn)行了研究，將現(xiàn)階段的跨模態(tài)行人重識別方法分為基于表征學(xué)習(xí)的方法、基于度量學(xué)習(xí)的方法和基于模態(tài)互轉(zhuǎn)的方法，并對這些方法進(jìn)行了介紹。跨模態(tài)行人重識別作為當(dāng)前行人重識別的一個(gè)分支方向，隨著攝像監(jiān)控系統(tǒng)的發(fā)展完善，在公共安全、預(yù)防犯罪和刑偵追查等領(lǐng)域有著重要意義，但目前的研究距離實(shí)際落地應(yīng)用還有很長一段距離，可以預(yù)見到未來會持續(xù)涌現(xiàn)大量相關(guān)工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡