劉天瑜,劉正熙
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
近年來,隨著智能監(jiān)控領(lǐng)域的不斷發(fā)展,單純憑借傳統(tǒng)的人力已經(jīng)很難在對復(fù)雜的監(jiān)控場景做出完善詳盡的處理。作為一項(xiàng)在大型非重疊視角多攝像機(jī)網(wǎng)絡(luò)獲取到的海量視頻畫面序列里找到目標(biāo)行人的任務(wù),行人重識別(Person Re-Identification)可以被看作是多攝像頭的行人檢索問題。它建立在行人檢測的基礎(chǔ)之上,捕捉獲取同一目標(biāo)個(gè)體在不同非重疊攝像頭中分布位置信息,推動了智能安保、智能視頻監(jiān)控、智能檢索等領(lǐng)域的發(fā)展。
目前的大部分工作集中于可見光攝像頭下的行人重識別問題。然而在實(shí)際應(yīng)用場景下,攝像頭應(yīng)保證全天候的運(yùn)作。由于可見光攝像頭對夜間的監(jiān)控安防工作作用有限,隨著科技的進(jìn)步發(fā)展,能夠切換紅外模式的攝像頭正被廣泛應(yīng)用于智能監(jiān)控系統(tǒng)。在可見光模式和紅外模式下,分別采集到的是RGB 圖像和紅外圖像,這是屬于兩種不同模態(tài)的數(shù)據(jù),因此跨模態(tài)行人重識別問題被提出,隨之引起了廣泛的關(guān)注。有效解決跨模態(tài)行人重識別問題,對公共安全、預(yù)防犯罪和刑偵追查等方面有著重大的意義。
行人重識別作為計(jì)算機(jī)視覺領(lǐng)域的研究方向之一,近年來獲得了一定關(guān)注。它被認(rèn)為是一個(gè)利用計(jì)算機(jī)視覺技術(shù)對給定圖像進(jìn)行非重疊攝像頭檢索,從而識別出屬于同一個(gè)行人圖像的問題。行人重識別任務(wù)的起源最早可以追溯到1997 年的多攝像頭追蹤問題,2014 年,將深度學(xué)習(xí)中的孿生網(wǎng)絡(luò)(Siamese Network)引入了行人重識別任務(wù),從此開始將深度學(xué)習(xí)應(yīng)用于行人重識別,形成了端對端的行人重識別系統(tǒng)。相較于之前大多基于手工設(shè)計(jì)的行人重識別系統(tǒng),有了實(shí)質(zhì)性的進(jìn)展[1-2]。
基于深度學(xué)習(xí)的行人重識別可主要分為封閉世界方法(Closed-World Person Re-Identification)和開放世界方法(Open-World Person Re-Identification)兩大類[3]。過去的行人重識別研究主要集中在基于封閉世界的設(shè)定上,用于訓(xùn)練和測試的數(shù)據(jù)為單一模態(tài)下已生成檢測邊界框的圖像,且經(jīng)過人工篩選處理和準(zhǔn)確標(biāo)注,能夠保證同一個(gè)體在訓(xùn)練集和測試集中都有分布。相對的,開放世界方法更接近實(shí)際場景應(yīng)用,其用于訓(xùn)練和測試的數(shù)據(jù)往往跨越單一模態(tài),跨模態(tài)行人重識別問題屬于其中的一種,它主要研究RGB 圖像和紅外圖像之間屬于同一行人個(gè)體之間的匹配檢索問題。
在以往對行人重識別的研究中,用于訓(xùn)練和測試的數(shù)據(jù)集往往都是單模態(tài)的RGB 圖像,然而在現(xiàn)實(shí)場景應(yīng)用中,紅外模式攝像頭、深度攝像頭,以及目擊者陳述所捕捉描述的行人圖像都是十分常見的??缭娇梢姽夂图t外兩種模態(tài)下捕捉的行人重識別問題是其中亟待解決的一種。跨模態(tài)行人重識別,主要研究在給定一個(gè)特定個(gè)體的可見光圖像或者紅外圖像,嘗試在兩種模態(tài)下的圖像庫中檢索匹配屬于同一個(gè)體圖像的問題。該問題于2017 年在行人重識別領(lǐng)域首次被Wu等人[4]提出定義。他們提出了一個(gè)跨模態(tài)行人重識別框架,并提供了一個(gè)公開的大規(guī)模RGB-紅外多模態(tài)行人數(shù)據(jù)庫,名稱為SYSU Multiple Modality Re-ID(SYSU-MM01)。之后開始有大量相關(guān)工作涌現(xiàn),然而距離跨模態(tài)行人重識別能夠投入實(shí)際場景中應(yīng)用依舊存在許多問題。
目前,跨模態(tài)行人重識別問題面臨的困難與挑戰(zhàn)主要在于:
(1)兩種模態(tài)下捕捉的圖像存在較大差異。RGB圖像擁有三個(gè)通道,包含了紅綠藍(lán)的可見光顏色信息,而紅外圖像只有一個(gè)通道,包含了近紅外光的強(qiáng)度信息,而且從成像原理的角度出發(fā),二者的波長范圍也有所區(qū)別。不同的清晰度和光照條件在兩類圖像上所能產(chǎn)生效果可能會大相徑庭。
(2)數(shù)據(jù)集較為單一且規(guī)模較小。雖然現(xiàn)在已經(jīng)有許多工作致力于擴(kuò)充行人重識別數(shù)據(jù)集,然而數(shù)據(jù)集中的圖像大多來源于相似型號以及角度的機(jī)位,和實(shí)際中多樣化的場景差距較大。
(3)傳統(tǒng)行人重識別中存在的模態(tài)內(nèi)差異,例如低分辨率、遮擋、視角變化等問題在跨模態(tài)行人重識別中也依舊存在。
跨模態(tài)行人重識別面臨的主要難題在于跨模態(tài)問題中。針對模態(tài)的建模如何較好地減少兩種模態(tài)圖像間的差異,學(xué)習(xí)兩種模態(tài)間共享的魯棒性特征,是目前研究的關(guān)鍵。早期的研究主要集中于基于表征的學(xué)習(xí)以及基于度量的學(xué)習(xí)這兩種方法,之后又出了基于模態(tài)互轉(zhuǎn)的學(xué)習(xí)方法,實(shí)現(xiàn)RGB 圖像和紅外圖像之間的模態(tài)風(fēng)格轉(zhuǎn)換,從而將跨模態(tài)行人重識別問題轉(zhuǎn)換為單一模態(tài)下的行人重識別問題。目前跨模態(tài)行人重識別的研究可大致分為以下三類。
基于表征學(xué)習(xí)的方法主要研究如何設(shè)計(jì)建模合理的網(wǎng)絡(luò)架構(gòu),能夠提取兩種模態(tài)圖像共享的具有魯棒性和鑒別性的特征,盡量縮小模態(tài)間存在的差異性,輸入到共享參數(shù)的網(wǎng)絡(luò),從而比較二者的相似性。
2017 年,Wu 等人[4]首次在行人重識別領(lǐng)域提出定義了跨模態(tài)行人重識別問題,分析了三種網(wǎng)絡(luò)架構(gòu),并提出了一種深度補(bǔ)零的數(shù)據(jù)預(yù)處理方法,比較評估了這四種網(wǎng)絡(luò)的性能。其中,三種網(wǎng)絡(luò)架構(gòu)分別為單流網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)以及非對稱全連接層結(jié)構(gòu)。經(jīng)過研究發(fā)現(xiàn),這三種網(wǎng)絡(luò)在特殊情況下都可以使用單流網(wǎng)絡(luò)來表示。通過將不同模態(tài)的數(shù)據(jù)通道置于不同的對應(yīng)通道,而將屬于其他模態(tài)的置零,從而提出深度補(bǔ)零的單流網(wǎng)絡(luò)。網(wǎng)絡(luò)中不同的節(jié)點(diǎn)對應(yīng)不同的模態(tài)數(shù)據(jù)會選擇性“失活”,同時(shí)也存在始終激活的節(jié)點(diǎn),針對不同模態(tài)數(shù)據(jù)的輸入,可以進(jìn)行不同的特征提取操作。
2018 年,Ye 等人[5]提出了一種分層的跨模態(tài)匹配模型,該模型通過聯(lián)合優(yōu)化模態(tài)特異性和模態(tài)共享矩陣來實(shí)現(xiàn),其框架分為表征學(xué)習(xí)和度量學(xué)習(xí)兩個(gè)部分,前者通過構(gòu)造一個(gè)雙流網(wǎng)絡(luò)對分屬兩個(gè)模態(tài)的圖像輸入進(jìn)行特征學(xué)習(xí),再結(jié)合特征損失和對比損失進(jìn)行相似度的學(xué)習(xí)。Dai 等人[6]為解決識別信息不足的問題,利用了GAN 生成器和判別器對抗訓(xùn)練的思想,提出了一個(gè)交叉模式生成對抗網(wǎng)絡(luò),該網(wǎng)絡(luò)分為生成器和判別器兩個(gè)部分。生成器使用三元組損失和身份損失進(jìn)行訓(xùn)練,從而使得同一身份下不同模態(tài)行人之間的相似性增加,而不同身份且不同模態(tài)的行人之間的相似性會減?。慌袆e器則使用RGB 圖像和紅外圖像的二分類損失進(jìn)行訓(xùn)練,從而和生成器展開對抗,減少二者特征的相似性。之后,為了解決模式間和模式內(nèi)的差異這兩個(gè)問題,Liu 等人[7]提出了一種增強(qiáng)鑒別學(xué)習(xí)的方法(Enhancing the Discriminative Feature Learning,EDFL),通過采用跳躍連接從而融合中間層特征,增強(qiáng)了特征的魯棒性。Zhang 等人[8]提出了一種雙路徑交叉模態(tài)特征學(xué)習(xí)框架,主要由雙路空間結(jié)構(gòu)保持公共空間網(wǎng)絡(luò)(DSCSN)和對比相關(guān)網(wǎng)絡(luò)兩部分組成。前者利用部分共享結(jié)構(gòu),學(xué)習(xí)跨模態(tài)結(jié)構(gòu)共同空間特征,將交叉模態(tài)圖像嵌入到一個(gè)三維張量空間從而保留空間結(jié)構(gòu);后者是通過關(guān)注兩個(gè)相似對象的差異來模擬學(xué)習(xí)機(jī)制。Xiang 等人[9]利用RGB 圖像和紅外圖像之間的內(nèi)在聯(lián)系,提出了一個(gè)端到端的雙路多分支交叉模態(tài)網(wǎng)絡(luò),通過結(jié)合圖像的全局以及局部信息來提取魯棒性特征。針對由于集中學(xué)習(xí)跨模態(tài)圖像共同特征而丟失大量特異信息的情況,Lu 等人[10]一種新的跨模態(tài)共享特征轉(zhuǎn)移算法(cross-modality Shared-Specific Feature Transfer,cm-SSFT),在表示相似性的跨模態(tài)近鄰吸引力模型的基礎(chǔ)上引入模態(tài)特征,有效地利用了每個(gè)樣本的共享信息和特定信息。Ye 等人[11]提出了兩個(gè)注意力模塊機(jī)制去提高模型的識別能力和魯棒性。模態(tài)內(nèi)加權(quán)部分聚合模塊(Intra-modality Weighted-Part Aggregation,IWPA),將同一模態(tài)內(nèi)的局部特征的權(quán)重聚合在一起;跨模態(tài)圖結(jié)構(gòu)化全局特征學(xué)習(xí)注意力模塊(Cross-modality Graph Structured Attention for global feature learning,CGSA)利用跨模態(tài)的鄰近結(jié)構(gòu)關(guān)系去學(xué)習(xí)兩個(gè)模態(tài)的全局特征。
基于度量學(xué)習(xí)的方法旨在通過網(wǎng)絡(luò)學(xué)習(xí)出兩張圖片的相似度,關(guān)鍵在于設(shè)計(jì)合理的度量方法或者損失函數(shù),從而使得在模態(tài)一致的情況下,屬于同一個(gè)體的樣本圖像距離盡可能小,不屬于同一個(gè)體的樣本圖像距離盡可能大;而不屬于同一模態(tài)也不屬于同一個(gè)體的樣本圖像距離盡可能大。
Ye 等人[12]提出了一種雙向排序損失,將不同模態(tài)下屬于同一個(gè)體的樣本圖像距離拉近,同時(shí)融合傳統(tǒng)的交叉熵?fù)p失,從而達(dá)到不同模態(tài)特征進(jìn)行融合的目的。Lin 等人[13]提出了一種新的特征學(xué)習(xí)框架。在該框架中,對現(xiàn)有的單模態(tài)行人重識別模型進(jìn)行了修正以適應(yīng)跨模態(tài)場景,并設(shè)計(jì)了一種難五聯(lián)損失函數(shù),它由難全局三元組損失和難跨模態(tài)三元組函數(shù)組成,從而有效處理跨模態(tài)變化和內(nèi)模態(tài)變化,再結(jié)合身份損失以提高修正后的跨模態(tài)重識別模型的準(zhǔn)確性。Hao等人[14]提出了一種具有分類和識別約束的端到端雙流超球面流形嵌入網(wǎng)絡(luò)(Hyper-Sphere Manifold Embedding network,HSMEnet),與傳統(tǒng)映射到歐氏空間不同,該網(wǎng)絡(luò)設(shè)計(jì)了Sphere Softmax 函數(shù)將樣本的深度特征映射到超球上,使模型能夠?qū)W習(xí)該超球的判別表示,在這個(gè)超球面上,兩個(gè)樣本圖像之間的距離可以通過它們的特征向量的角度來確定,結(jié)合身份損失和排序損失進(jìn)行訓(xùn)練,再通過KL 散度衡量兩個(gè)領(lǐng)域的相似性。最后,通過單矢量分解方法對Sphere Softmax 最大值權(quán)矩陣進(jìn)行了修正,從而由高相關(guān)狀態(tài)轉(zhuǎn)換為低相關(guān)狀態(tài)。Ye 等人[15]提出了一種基于雙流網(wǎng)絡(luò)的模態(tài)意識協(xié)同學(xué)習(xí)方法(Modality-Aware Collaborative,MAC),提出了基線分類器、模態(tài)特異分類器和模態(tài)分類器,進(jìn)行多分類器的協(xié)同學(xué)習(xí)。Zhu 等人[16]提出一個(gè)簡單且高性能的網(wǎng)絡(luò)架構(gòu)來學(xué)習(xí)跨模態(tài)人再辨識的局部特征表示。由于直接約束模態(tài)分布之間的距離比較困難且代價(jià)高昂,所以使用兩個(gè)模態(tài)分布之間的中心距離來代替兩個(gè)模態(tài)分布之間的距離,從而縮小每個(gè)類中兩個(gè)模態(tài)特征分布之間的距離。針對忽略了一致模態(tài)下樣本相似性,Jia 等人[17]提出了一種新穎的相似性推斷度量(Similarity Inference Metric,SIM),該度量方法利用一致模態(tài)內(nèi)樣本圖像相似性來規(guī)避針對跨模態(tài)圖像匹配的跨模態(tài)差異,通過連續(xù)相似圖推理和相互最近鄰?fù)评磉M(jìn)行訓(xùn)練,從兩個(gè)不同的角度利用一致模態(tài)內(nèi)樣本圖像相似性來挖掘跨模態(tài)樣本相似性,縮小了模態(tài)間差異。
相對于基于表征的學(xué)習(xí)以及基于度量的學(xué)習(xí),隨著近年來GAN 的快速發(fā)展,實(shí)現(xiàn)模態(tài)的相互轉(zhuǎn)換,將跨模態(tài)行人重識別問題轉(zhuǎn)化為單模態(tài)的行人重識別問題,這在很大程度上減少了模態(tài)間的差異這一難點(diǎn)。為了實(shí)現(xiàn)兩者的相互轉(zhuǎn)換,Wang 等人[18]提出了一種雙層差異減少方法(Dual-level Discrepancy Reduction Learning,D2RL),分為兩個(gè)部分,先使用變分自編碼器消除模態(tài)之間的差異,再使用傳統(tǒng)的行人重識別方法約束外表特征差異。Wang 等人[19]一種用于跨模態(tài)行人重識別任務(wù)的端到端對齊生成對抗網(wǎng)絡(luò)。像素對齊模塊將RGB 圖像轉(zhuǎn)化為紅外圖像;特征對齊模塊把真實(shí)的紅外圖像和合成的紅外圖像映射到同一個(gè)特征空間,并使用基于身份標(biāo)簽的分類和三元組損失來監(jiān)督特征;聯(lián)合判別模塊負(fù)責(zé)判別真假紅外圖像,通過身份一致性特性使得前兩者互相學(xué)習(xí)從而得到魯棒性特征。
Zhang 等人[20]提出了一種基于不同域的師生模型(TS-GAN),使用了兩個(gè)模態(tài)的圖像相互生成作為指導(dǎo),但僅使用了RGB 圖像生成IR 圖像作為教師-學(xué)生模型的輸入,分為用于RGB 圖像生成IR 圖像的GAN、提取特征的主干網(wǎng)絡(luò)和預(yù)訓(xùn)練教師模型這三個(gè)模塊,這三個(gè)模塊互相指導(dǎo),從而提升了GAN 生成圖像效果。為解決不同攝像機(jī)帶來的交叉光譜問題,F(xiàn)an 等人[21]提出了跨光譜雙子空間配對模型(Cross-spectrum Dualsubspace Pairing,CDP)模型來生成多種光譜的圖像,利用生成的樣本幫助網(wǎng)絡(luò)找到鑒別信息,從而實(shí)現(xiàn)對同一個(gè)人的跨模態(tài)重新識別
為了評估跨模態(tài)行人重識別方法的性能,現(xiàn)有兩個(gè)同時(shí)包含RGB 圖像和紅外圖像的公開基準(zhǔn)數(shù)據(jù)集供研究實(shí)驗(yàn),通過相同指標(biāo)對不同方法進(jìn)行比較。
SYSU-MM01 數(shù)據(jù)集[4]是2017 年為研究跨模態(tài)行人重識別問題而提出的公開數(shù)據(jù)集,它包含了在白天的4 個(gè)用于捕捉RGB 圖像的攝像視域以及在黑暗環(huán)境中用于捕捉紅外圖像的攝像視域,共有491 個(gè)不同身份行人的287628 張RGB 圖像和15792 張紅外圖像。
RegDB 數(shù)據(jù)集[22]共有412 個(gè)不同身份的行人,分為254 個(gè)女性和158 個(gè)男性,每個(gè)人分別對應(yīng)10 張RGB 圖像和10 張紅外圖像,其中拍攝到156 個(gè)行人的正面,256 個(gè)行人的背面。該數(shù)據(jù)集總共有4120 張RGB 圖像和4120 張的紅外圖像。
(1)CMC 曲線
CMC(Cumulative Match Characteristic,CMC)曲線,即累積匹配曲線,它反映了分類器性能,一般使用Rank-k 表示,表示按照某種相似度匹配規(guī)則匹配后,第n 次能判斷出正確的行人標(biāo)簽的測試數(shù)目與總的測試樣本數(shù)目之比。例如Rank-1 識別率就是表示第一次匹配檢索后就能返回正確匹配的概率。
(2)mAP 均值平準(zhǔn)精度
mAP(mean Average Precision)根據(jù)準(zhǔn)確率-召回率曲線計(jì)算得到反應(yīng)召回率。具體操作是分別求出每個(gè)類別的平均準(zhǔn)確值后再次取平均值。平均準(zhǔn)確值是求準(zhǔn)確率-召回率曲線下的面積,綜合考慮了準(zhǔn)確率和召回率,是衡量一個(gè)模型好壞的標(biāo)準(zhǔn)。
本文對跨模態(tài)行人重識別問題進(jìn)行了研究,將現(xiàn)階段的跨模態(tài)行人重識別方法分為基于表征學(xué)習(xí)的方法、基于度量學(xué)習(xí)的方法和基于模態(tài)互轉(zhuǎn)的方法,并對這些方法進(jìn)行了介紹。跨模態(tài)行人重識別作為當(dāng)前行人重識別的一個(gè)分支方向,隨著攝像監(jiān)控系統(tǒng)的發(fā)展完善,在公共安全、預(yù)防犯罪和刑偵追查等領(lǐng)域有著重要意義,但目前的研究距離實(shí)際落地應(yīng)用還有很長一段距離,可以預(yù)見到未來會持續(xù)涌現(xiàn)大量相關(guān)工作。