龔云鵬,曾智勇,葉 鋒
(福建師范大學計算機與網(wǎng)絡空間安全學院,福州 350117)
(?通信作者電子郵箱zzyong@fjnu.edu.cn)
視頻分析及圖像偵查技術(shù)在安防、智慧城市、民生服務等方面發(fā)揮了愈來愈強大的作用。行人重識別(Person Re-Identification,ReID)是對行人進行跨攝像頭檢索,從而判斷圖像或者視頻序列中是否存在特定身份行人的技術(shù)[1]。這項任務的挑戰(zhàn)在于不同攝像頭拍攝的圖像往往包含由視角、人體姿態(tài)、光線變化、遮擋等變化引起的顯著的類內(nèi)變化,即同一行人圖像的表觀可能會發(fā)生了巨大的變化,使得行人間的類內(nèi)(同一個行人)的差異可能大于類間(不同行人)差異,因此,尋找更加魯棒的特征與度量方法來有效地解決上述問題,已經(jīng)成為ReID的主要目標之一。
本文提出的方法通過模擬行人樣本的顏色信息丟失并從數(shù)據(jù)增強的角度強調(diào)樣本的結(jié)構(gòu)信息,促進模型學習到更穩(wěn)健的特征?;叶葓D像可以看作是丟失了一些顏色信息但保留了空間結(jié)構(gòu)的RGB 圖像。在人類認知上,人類通過灰度圖片就可以很好地辨別不同的行人。因此,探究如何充分利用灰度信息,減少顏色信息偏差對ReID 的影響是一個重要的問題。為了探究灰度圖像在ReID 任務中的所能起到的作用,本文設計了如下的灰度貢獻率測試實驗:
通過圖像的灰度變換將可見光RGB 圖像構(gòu)成的數(shù)據(jù)集A1 轉(zhuǎn)換成由灰度圖像構(gòu)成的數(shù)據(jù)集A2,然后分別用A1 和A2在同一個基準模型上訓練和測試,并把模型在RGB 數(shù)據(jù)集和其對應灰度數(shù)據(jù)集上相應性能評價指標的比值當作灰度信息的貢獻率,如圖1所示。
圖1 灰度貢獻率實驗示意圖Fig.1 Schematic diagram of experiment on grayscale contribution rate
表1 則展示了在ReID 三個數(shù)據(jù)集上測試得到灰度圖像在各數(shù)據(jù)集上對模型性能的貢獻度,其中:Rank-1、Rank-5、Rank-10表示按相似度排序的查詢結(jié)果中第1、5、10個返回結(jié)果的平均準確率,mAP 表示平均精度均值(mean Average Precision)??梢钥闯?,灰度圖像對檢索精度的貢獻率占87%以上。值得一提的是,在Rank10 中,灰度圖像對檢索精度的貢獻率高達95%以上。
表1 不同數(shù)據(jù)集上在各評價指標上的灰度貢獻率 單位:%Tab.1 Grayscale contribution rate on each evaluation index on different datasets unit:%
圖2直觀地展示了利用灰度進行數(shù)據(jù)增強(圖2(a))和利用生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)進行數(shù)據(jù)增強(圖2(b))這兩種數(shù)據(jù)增強方式的對比。如圖2(a)中第一行彩色圖像和第二行灰度圖像所示(第一列圖像給出來正常情況下的對比,其余列為具有顏色偏差的情況下的對比),各數(shù)據(jù)集中普遍存在著行人對比度低的著裝、暗色系和灰色系著裝、行人的移動而引起的圖像模糊或分辨率低、光線變化等引起的顏色偏差等問題,這些因素使得圖片本身會更接近于灰度圖片。由于顏色偏差問題客觀存在且不可避免,即使顏色偏差不是趨向于介于黑白的灰度形式而是看起來整體圖像偏向于某一色調(diào),總體情形也是相似的,因為這種情況下模型在判別過程中所依賴的顏色信息都已經(jīng)不再可靠,而圖像結(jié)構(gòu)信息就顯得尤為重要。這也直觀地揭示了為什么在評價指標Rank-10 上灰度圖像對檢索精度的貢獻率能夠高達95%以上。這些證據(jù)表明灰度圖像的空間結(jié)構(gòu)信息在ReID檢索任務中具有很大的潛力。
如圖2(b)所示,Zheng 等[5]提出的DGNet 利用GAN 為圖像上的每一個行人換上其他行人的衣著,生成了更多樣化的數(shù)據(jù)來降低顏色變化對模型的影響,有效提升了模型的泛化能力。該結(jié)果表明,通過減少模型訓練過程中對顏色信息的過度擬合,可以有效提高模型的泛化能力。實際上,本文提出的局部灰度轉(zhuǎn)換(Local Grayscale Transformation,LGT)方法通過隨機將RGB 圖像中的某些區(qū)域轉(zhuǎn)換為灰度也可以達到相同的目的。
圖2 兩種數(shù)據(jù)增強方式對比Fig.2 Comparison of two data augmentation approaches
基于對灰度貢獻率的探索,本文提出了一種有效的數(shù)據(jù)增強方法來模擬行人圖像顏色信息的丟失來提高特征的魯棒性,所提方法包括全局灰度轉(zhuǎn)換(Global Grayscale Transformation,GGT)、局部灰度轉(zhuǎn)換(LGT)以及這兩者的組合。該方法有以下的優(yōu)點:
1)它是一種輕量級方法,可以在不改變學習策略的情況下與各種卷積神經(jīng)網(wǎng)絡模型相結(jié)合;
2)它是現(xiàn)有數(shù)據(jù)增強的一種補充方法,當組合其他方法使用時,本文方法可以進一步提高模型識別精度。
本文的主要工作如下:
1)針對ReID 提出了一種有效的數(shù)據(jù)增強方法,充分利用灰度圖像的結(jié)構(gòu)信息和RGB 圖像的顏色信息,兩者的互相補充有效解決了ReID 訓練過程中顏色偏差所帶來的不良影響,提升了現(xiàn)有模型的性能上限。
2)通過大量實驗和分析驗證了本文方法能有效提升ReID 性能。本文方法可以為ReID 未來的研究提供一個有效增長的方向,并在多個基準和具有代表性的數(shù)據(jù)集上驗證了所提方法的有效性。
自深度學習被引入到ReID 領域后,短短幾年間就取得了快速的發(fā)展,先后公開的數(shù)據(jù)集很快就被不斷提出的模型和方法逼近識別精度的上限。諸如的隨機裁剪、隨機翻轉(zhuǎn)等眾所周知的簡單數(shù)據(jù)增強技巧在分類、檢測和ReID 領域發(fā)揮了重要作用。利用GAN[6]來增加訓練數(shù)據(jù)也是ReID 研究的一個活躍領域[3,7-8],該類方法能增加訓練數(shù)據(jù)的多樣性,從而在一定程度上提升模型的泛化能力。此外,最近的研究提出了一些有針對性的方法來從不同的角度幫助模型提高泛化能力。隨機擦除[9]在訓練過程中模擬真實場景中頻繁遇到的遮擋問題,在一定程度上有效解決了識別任務面臨遮擋問題時泛化能力不足的缺陷,成為公認有效的方法。Fan 等[10]發(fā)現(xiàn)學習率對ReID 模型的性能有很大的影響,為了取得更好的性能它采用了一種預熱策略來引導網(wǎng)絡盡可能跳出局部最優(yōu)解。Zhong 等[11]提出的k倒數(shù)編碼來對檢索得到的結(jié)果進行重新排序以提升模型精度,這一技巧被稱之為re-Rank,同樣是一種公認提升模型性能的方法。Circle Loss[12]從統(tǒng)一的相似度配對優(yōu)化角度出發(fā),統(tǒng)一了分類學習和樣本對學習兩種基本學習范式下的損失函數(shù),在Market-1501數(shù)據(jù)集上取得了CVPR2020的最高識別精度。IANet(Interaction-and-Aggregation Network)[13]針對ReID 圖像空間位置不匹配的問題,通過設計空間交互聚合模塊和通道交互聚合模塊實現(xiàn)自適應地確定感受野和增強特征表示,以克服卷積神經(jīng)網(wǎng)絡難以應對建模人體姿態(tài)和尺度的巨大變化這一固有局限。AdaptiveReID[14]通過將可訓練的標量變量作為正則化因子來實現(xiàn)正則化因子的反向傳播進行自適應更新。據(jù)我們所知,該方法在MSMT17數(shù)據(jù)集上取得了目前的最高識別精度。此外,還有其他一些方法[15-19]從空間通道相關性、局部信息匹配、注意力方面來改善模型性能,雖然以上這些方法各不相同,但它們分別從不同的角度和環(huán)節(jié)提高了ReID 模型的泛化能力。這激勵我們打開思維,從更多的角度尋找方法來解決問題。
由于灰度圖像的結(jié)構(gòu)信息對ReID 模型性能有很大影響,為了充分利用灰度結(jié)構(gòu)信息并降低ReID 模型對顏色信息的過度擬合,本文提出了隨機灰度轉(zhuǎn)換,它包括全局灰度轉(zhuǎn)換(GGT)、局部灰度轉(zhuǎn)換(LGT)以及這兩者的組合。通過在訓練數(shù)據(jù)中以一定的概率將輸入圖像進行隨機灰度轉(zhuǎn)換讓模型更充分地挖掘灰度信息的潛力以增強模型的泛化能力。本文方法的框架如圖3所示。
圖3 本文方法框架Fig.3 Framework of the proposed method
全局灰度轉(zhuǎn)換在數(shù)據(jù)加載過程中隨機抽取K個身份,對每個身份抽取m個RGB 樣本圖像來組成一個訓練批組。用集合表示為表示訓練批組的第i個樣本圖像,yi表示樣本圖像的類別標簽。然后以一定的概率隨機將整個批組的訓練圖像進行全局灰度轉(zhuǎn)換,最后再輸入到模型中進行訓練。對于每個RGB 樣本圖像的灰度轉(zhuǎn)換可以由如下公式實現(xiàn):
其中:t(?)是全局灰度圖像轉(zhuǎn)換函數(shù),通過在原始的可見光RGB 圖像的R、G、B通道上應用灰度變換函數(shù)執(zhí)行逐像素累加計算實現(xiàn)。轉(zhuǎn)換后的圖像標簽和原來保持一致。用xg表示轉(zhuǎn)換后得到的灰度樣本圖像,則有如下公式:
局部灰度轉(zhuǎn)換在訓練中同樣按一定概率進行。對于原始的RGB 圖像I,假設隨機灰度轉(zhuǎn)換的概率為p,則保持不變的概率為1-p。該方法在圖像中隨機選擇一個矩形區(qū)域,并用其對應的灰度圖像中相同的矩形區(qū)域的像素進行替換。其中Sl和Sh為最小和最大的矩形區(qū)域的面積比例,通過Sg=Rand(Sl,Sh)×S得到限定在最小和最大比例之間的隨機矩形區(qū)域的面積大小Sg。rg是一個系數(shù),用來將得到的隨機矩形寬、高的具體數(shù)值以確定矩形的形狀,它被限定在(r1,r2)區(qū)間。根據(jù)經(jīng)驗,本文以Sl=0.03,Sh=0.4,r1=0.3,r2=1/r1作為基礎設置。(xg,yg)為隨機得到的該矩形的左上角坐標,如果這個坐標會導致隨機生成的矩形超出圖片范圍,則重新確定矩形的面積、形狀和位置坐標,直到找到了一個符合要求的矩形。最后對原始RGB 圖像中的目標區(qū)域使用灰度像素進行替換,由此產(chǎn)生了不同灰度替換區(qū)域的訓練圖像。如圖4所示,這個過程中訓練圖像的整體結(jié)構(gòu)沒有遭到破壞,方框指出了灰度轉(zhuǎn)換的部分。該方法實現(xiàn)了數(shù)據(jù)的多樣化,并保留了RGB 圖像的空間結(jié)構(gòu)信息。根據(jù)上述過程,本文建立局部灰度轉(zhuǎn)換算法如下:
圖4 局部灰度轉(zhuǎn)換示意圖Fig.4 Schematic diagram of local grayscale transformation
輸入 RGB 圖像I,圖像的寬W和高H,圖像的面積S,局部灰度轉(zhuǎn)換概率pr,灰度轉(zhuǎn)換面積比例范圍(Sl,Sh),形狀比例區(qū)間(r1,r2)。
輸出 局部灰度轉(zhuǎn)換圖像I*。
1)由Rand(r1,r2)得到一個屬于(0,1)區(qū)間的隨機數(shù)p1,若p1>pr則直接返回原圖像。
2)while True
2.1)通過計算Rand(Sl,Sh)×S得到目標矩形區(qū)域的面積大小Sg。
2.2)由Rand(r1,r2)獲得(r1,r2)區(qū)間范圍內(nèi)的一個隨機數(shù)rg,并通過計算Sqrt(Sg×rg)和Sqrt(Sg/rg)得到目標矩形區(qū)域的寬Wg和高Hg。
2.3)分別由Rand(0,W)和Rand(0,H)隨機得到目標矩形的左上角坐標(xg,yg)。
2.4)如果由目標的左上角坐標(xg,yg)和其寬Wg高Hg構(gòu)造出來的矩形區(qū)域在圖像范圍內(nèi),則將可見光圖像上的目標區(qū)域替換為灰度;否則重新生成目標區(qū)域的寬高和其左上角坐標。
2.5)返回局部灰度轉(zhuǎn)換圖像。
除此之外,xv和xg使用一個共享身份分類器φ進行訓練。使用分類器φ識別,對其身份標簽yi的預測概率表示為。身份損失表示如下:
綜上所述,進行隨機灰度轉(zhuǎn)換時總體損失表示如下:
本文在三個基準模型上進行實驗來驗證所提方法的有效性,它們分別是ReID Baseline[20]、Strong Baseline[21](SB)和FastReID[22](FR)。ReID Baseline 和Strong Baseline都基于ResNet-50[23]骨干網(wǎng)絡實現(xiàn),F(xiàn)astReID 基于IBN-ResNet101[24]骨干網(wǎng)絡實現(xiàn)。
本文在ReID 的三個具有代表性的數(shù)據(jù)集上進行對比實驗,它們分別是MTMC17、DukeMTMC和Market-1501數(shù)據(jù)集。
MSMT17數(shù)據(jù)集是2018年提出的更接近真實場景的大型數(shù)據(jù)集,總共包含4 101 個獨立人物,涵蓋了多場景多時段。該數(shù)據(jù)集共包含15 個攝像頭,其中包含12 個戶外攝像頭和3個室內(nèi)攝像頭。在一個月里選擇了具有不同天氣條件的4 天進行數(shù)據(jù)采集,每天采集3 h,涵蓋了早上、中午、下午三個時間段。
DukeMTMC 數(shù)據(jù)集是一個大規(guī)模標記的多目標多攝像機行人跟蹤數(shù)據(jù)集,于2017 年提出。它提供了一個由8 個同步攝像機記錄的新型大型高清視頻數(shù)據(jù)集,具有7 000多個單攝像機軌跡和超過2 700多個獨立人物。
Market-1501 數(shù)據(jù)集于2015 年構(gòu)建并公開。它包括由6個攝像頭(其中5 個高清攝像頭和1 個低清攝像頭)拍攝到的1 501個行人。
以上數(shù)據(jù)集是目前開源ReID 數(shù)據(jù)集中最大的3 個數(shù)據(jù)集,它們總體包含了多季節(jié)、多時段、高清與低清攝像頭,具有豐富的場景和背景以及復雜的光照變化,因此也是最具代表性的。
ReID 最主要的兩個性能指標是首選準確率(Rank-1)和平均準確率(mAP)。其中Rank-1 表示每個查詢圖片對應的第一(最相似)返回結(jié)果的平均準確率;mAP 表示返回查詢結(jié)果的平均精度均值,查詢中正確的結(jié)果越靠前得分就越高。
訓練過程中有兩個超參數(shù)需要確定,其中一個是全局灰度轉(zhuǎn)換概率pg。取超參數(shù)pg分別為0.01、0.03、0.05、0.07、0.1、0.2、0.3、…、1,使用ReID Baseline 基準在Market-1501 數(shù)據(jù)集上進行實驗,對每個參數(shù)取值進行3 次獨立重復實驗取平均值得到的最終結(jié)果如圖5。從圖5 中可以看出,當pg=0.05時,模型的性能在評價指標Rank-1和mAP上都一致地取得了最大值,最佳結(jié)果在Rank-1 和mAP 上比基準提高了0.7個百分點和1.9 個百分點;在同樣使用reRank(表示對檢索結(jié)果使用了重排序技術(shù))的條件,此時Rank-1 和mAP 比基準提高了1.5 個百分點和1.7 個百分點。當pg>0.2 時,模型性能會受到負面影響。
圖5 全局灰度轉(zhuǎn)換中不同超參數(shù)下的模型性能Fig.5 Model performance in global grayscale transformation under different hyper-parameters
另一個需要確定的超參數(shù)是局部灰度轉(zhuǎn)換概率pl,在Market-1501 數(shù)據(jù)集上進行實驗得到的最終結(jié)果如圖6 所示。從圖6中可以看出,當pl=0.4和pl=0.7時模型可以取得較好的性能,而當pl=0.4 時模型的綜合性能最好,最佳結(jié)果在Rank-1 和mAP 上比基準提高了1.2 個百分點和3.3 個百分點;在同樣使用reRank 的條件下,此時Rank-1 和mAP 比基準提高了1.5 個百分點和2.1 個百分點。不論pl取何值都不會對模型的性能帶來負面的影響。
圖6 局部灰度轉(zhuǎn)換中不同超參數(shù)下的模型性能Fig.6 Model performance in local grayscale transformation under different hyper-parameters
局部灰度轉(zhuǎn)換與全局灰度轉(zhuǎn)換的最佳結(jié)果相比,精度在Rank-1 和mAP 上分別提高了0.5 個百分點和1.4 個百分點;在同樣使用reRank 的條件,mAP 提高了0.4 個百分點。這表明局部灰度替換在不使用reRank時優(yōu)勢更明顯。然而圖6也表明局部灰度替換所帶來的性能提升不夠穩(wěn)定,具有比較明顯的波動變化,而全局灰度轉(zhuǎn)換所帶來的性能提升比較穩(wěn)定。因此本文通過結(jié)合兩者來提升性能表現(xiàn)的穩(wěn)定性。
在結(jié)合使用全局灰度轉(zhuǎn)換與局部灰度轉(zhuǎn)換時,由于全局灰度替換的性能表現(xiàn)比較穩(wěn)定,并且在pg=0.05 時取得最佳性能,因此本文實驗固定全局灰度替換的超參數(shù)值為pg=0.05,再確定局部灰度替換的超參數(shù)。使用ReID Baseline 基準在Market-1501 數(shù)據(jù)集上進行兩者的結(jié)合實驗,結(jié)果如圖7所示。從圖7 可以看出,兩者結(jié)合使用后模型性能的提升表現(xiàn)更為穩(wěn)定且波動更小,并且在局部灰度轉(zhuǎn)換的超參數(shù)取值pl=0.4時,模型的綜合性能表現(xiàn)最佳。因此本文在接下來的實驗中設置超參數(shù)為pg=0.05,pl=0.4。
圖7 全局灰度轉(zhuǎn)換與局部灰度轉(zhuǎn)換結(jié)合的模型性能Fig.7 Model performance with combining global grayscale transformation with local grayscale transformation
本文方法與先進方法在三個數(shù)據(jù)集上的性能比較如表2~4 所示,其中:+GGT 表示使用全局灰度轉(zhuǎn)換,+LGT 表示使用局部灰度轉(zhuǎn)換,+GGT&LGT 表示上述兩者的結(jié)合使用;+reRank 表示對檢索結(jié)果使用了重排序技術(shù);括號內(nèi)數(shù)值表示相對于原始基準所提升的性能,如表2 的SB+GCT(94.6%)與SB(94.5%)相比,Rank-1提升了0.1個百分點。
表2 Market-1501數(shù)據(jù)集上不同方法的性能比較 單位:%Tab.2 Performance comparison of different methods on Market-1501 dataset unit:%
Strong Baseline 和FastReID 這兩個基準訓練時默認使用了隨機翻轉(zhuǎn)、隨機裁剪、隨機擦除等數(shù)據(jù)增強方法,本文方法在使用它們的基礎上能進一步提升模型精度,這表明本文的方法可以與其他數(shù)據(jù)增強方法結(jié)合,并且它們是互補的。據(jù)筆者所知,F(xiàn)astReID 上應用本文方法在MTMC17 數(shù)據(jù)集上取得了目前的最高檢索精度。
表3 DukeMTMC數(shù)據(jù)集上不同方法的性能比較 單位:%Tab.3 Performance comparison of different methods on DukeMTMC dataset unit:%
除此之外,Strong Baseline 和FastReID 這兩個基準默認使用Circle Loss 作為損失函數(shù)來進行模型訓練,這表明本文的方法可以與該損失函數(shù)結(jié)合,并且它們是互補的。另外Strong Baseline 的報告表明,Circle Loss 的使用幫助模型性能在Rank-1和mAP 指標上分別提升0.4個百分點和0.2個百分點。從表2 可以看出本文所提出的局部灰度轉(zhuǎn)換(LGT)所帶來的性能提升更大。
從表2到表4還可以看出,F(xiàn)astReID 明顯優(yōu)于當前的先進方法,本文方法可以在其基礎上幫助模型顯著提升性能,這驗證了本文方法的有效性和通用性。
表4 MSMT17數(shù)據(jù)集上不同方法的性能比較 單位:%Tab.4 Performance comparison of different methods on MSMT17 dataset unit:%
一種方法的跨域性能表現(xiàn)可以檢驗該方法是否切實提高了模型所提取特征的魯棒性。為了進一步探究本文方法在跨域?qū)嶒炛械谋憩F(xiàn),使用全局灰度轉(zhuǎn)換在Strong Baseline 上進行以下跨域?qū)嶒?,結(jié)果如表5所示。
在表5 中,本文使用Market-1501 數(shù)據(jù)集和DukeMTMC 數(shù)據(jù)集進行跨域性能評估。其中:+REA 表示在模型訓練中使用了隨機擦除的技巧,-REA 表示關閉它;M→D 表示在Market-1501 上訓練模型然后在DukeMTMC 上評估模型;D→M 同理。實驗結(jié)果表明,隨機擦除雖能顯著提高ReID 模型的性能,但會造成模型在跨域測試時性能顯著下降,而本文所提的全局灰度轉(zhuǎn)換(GGT)能顯著提高REID 模型的跨域性能,這表明本文方法有助于增強特征的魯棒性。
表5 全局灰度轉(zhuǎn)換與隨機擦除的跨域性能比較 單位:%Tab.5 Cross-domain performance comparison of global grayscale transformation with random erasing unit:%
本文提出了一種簡單有效的行人重識別數(shù)據(jù)增強方法,該方法既不需要像GAN 那樣進行大規(guī)模訓練也不會引入噪聲。通過樣本圖像的隨機灰度轉(zhuǎn)換可以增加訓練樣本的數(shù)量和多樣性,并讓圖像的結(jié)構(gòu)信息和顏色信息在模型訓練中相互擬合,從而減少顏色偏差對ReID 的不利影響。本文通過在多個數(shù)據(jù)集和測試基準上進行實驗,驗證了所提方法的有效性。