祁子梁 曲寒冰 趙傳虎 董良 李博昭 王長生
摘 要:針對在實際場景中存在的不同行人圖像之間比相同行人圖像之間更相似所造成的行人再識別準確率較低的問題,提出一種基于孿生網(wǎng)絡并結(jié)合識別損失和雙向最大邊界排序損失的行人再識別方法。首先,對在超大數(shù)據(jù)集上預訓練過的神經(jīng)網(wǎng)絡模型進行結(jié)構(gòu)改造,主要是對最后的全連接層進行改造,使模型可以在行人再識別數(shù)據(jù)集上進行識別判斷;其次,聯(lián)合識別損失和排序損失監(jiān)督網(wǎng)絡在訓練集上的訓練,并通過正樣本對的相似度值減去負樣本對的相似度值大于預定閾值這一判定條件,來使得負例圖像對之間的距離大于正例圖像對之間的距離;最后,使用訓練好的神經(jīng)網(wǎng)絡模型在測試集上測試,提取特征并比對特征之間的余弦相似度。在公開數(shù)據(jù)集Market-1501、CUHK03和DukeMTMC-reID上進行的實驗結(jié)果表明,所提方法分別取得了89.4%、86.7%、77.2%的rank-1識別率,高于其他典型的行人再識別方法,并且該方法在基準網(wǎng)絡結(jié)構(gòu)下最高達到了10.04%的rank-1識別率提升。
關鍵詞:?行人再識別;孿生網(wǎng)絡;雙向最大邊界;排序損失;卷積神經(jīng)網(wǎng)絡
中圖分類號:TP391.4
文獻標志碼:A
文章編號:1001-9081(2019)04-0977-07
Abstract: Focusing on the low accuracy of person re-identification caused by that the similarity between different pedestrians images is more than that between the same pedestrians images in reality, a person re-identification method based on Siamese network combined with identification loss and bidirectional max margin ranking loss was proposed. Firstly, a neural network model which was pre-trained on a huge dataset, especially its final full-connected layer was structurally modified so that it can output correct results on the person re-identification dataset. Secondly, training of the network on the training set was supervised by the combination of identification loss and ranking loss. And according to that the difference between the similarity of the positive and negative sample pairs is greater than the predetermined value, the distance between negative sample pair was made to be larger than that of positive sample pair. Finally, a trained neural network model was used to test on the test set, extracting features and comparing the cosine similarity between the features. Experimental result on the open datasets Market-1501, CUHK03 and DukeMTMC-reID show that rank-1 recognition rates of the proposed method reach 89.4%, 86.7%, and 77.2% respectively, which are higher than those of other classical methods. Moreover, the proposed method can achieve a rank-1 rate improvement of up to 10.04% under baseline network structure.
Key words: person re-identification; Siamese network; bidirectional max margin; ranking loss; Convolutional Neural Network (CNN)
0?引言
行人再識別的目的是識別出跨攝像頭、跨場景下的行人是否為同一個人,可以幫助進行進一步的查詢跟蹤,其應用領域廣泛,如視頻監(jiān)控、城市監(jiān)管、刑事安防等[1]。近年來,行人再識別技術引起了人們的廣泛關注,雖然取得了大量的研究成果,但是行人再識別的研究依然存在著諸多挑戰(zhàn)。例如:1)由于攝像機一般架設在較高位置,距離行人目標較遠,所采集的圖像內(nèi)行人細節(jié)特征不明顯,導致再識別精度不高;2)行人處于非合作狀態(tài),造成拍攝視角更加多樣;3)即使視角相同,但由于服裝或姿勢的變化,導致不同行人的圖像可能比相同行人的圖像更加相似。
行人再識別的研究方法大體可以分為無監(jiān)督學習方法和有監(jiān)督學習方法兩種,當前大部分行人再識別技術采用的是有監(jiān)督學習方法?;谟斜O(jiān)督學習的行人再識別方法可以概括為三大類:基于特征提取的方法、基于度量學習的方法和基于深度學習的方法。其中,早期的行人再識別方法主要為特征提取和度量學習兩種,并且這些早期方法只關注其中的某一種,沒有把這兩個過程進行很好的結(jié)合,而深度學習則提供了較好的端到端解決方法。
特征提取通過提取具有分辨力和魯棒性的行人特征來解決行人再識別問題,這里的特征是指通過研究者對研究對象觀察研究后,人工選擇并提取的特征,常用的特征如文獻[2-3]中采用的顏色特征、紋理特征,以及多種特征的組合。
但是通過人工提取的特征大部分只能適應特定情況下拍攝的圖像,對于未考慮到的情況無法很好地適用,并且設計特征需要較高的經(jīng)驗水平。當前,隨著行人再識別研究的進行,人工特征研究對識別率的提升變得越來越小。
鑒于在特征研究中存在的問題和困難,度量學習的方法被應用于行人再識別問題,例如,XQDA(Cross-view Quadratic Discriminant Analysis)算法[3]、KISSME(Keep It Simple and Straightforward MEtric)算法[4]、最大邊界近鄰(Large Margin Nearest Neighbor, LMNN)算法[5]。該類方法的主要思想是通過學習一個映射矩陣,將特征從原始特征空間映射到另一個具有高區(qū)分度的特征空間,使得在原始特征空間難區(qū)分甚至不可分的特征變得容易區(qū)分。這種方法在一定程度上降低了對特征的要求,提高了識別算法的魯棒性,但是這些特征提取和度量學習相互獨立的處理方法還是不能達到令人滿意的效果,在拍攝條件和環(huán)境差異較大時無法取得良好的效果。
隨著計算機硬件的發(fā)展、計算能力的不斷提升,以及大規(guī)模數(shù)據(jù)集的出現(xiàn),深度學習開始應用于包括計算機視覺領域在內(nèi)的各個領域,并取得了優(yōu)異表現(xiàn)[6]。自從在2012年的ImageNet競賽中獲勝,深度學習吸引了許多的研究者。隨著其發(fā)展,LeNet5、AlexNet、VGGNet、GoogLeNet、ResNet等優(yōu)秀的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)模型不斷被提出,網(wǎng)絡的結(jié)構(gòu)越來越深,網(wǎng)絡性能也不斷提升。
由于深度學習在計算機視覺領域展現(xiàn)出了優(yōu)越的性能,以及非深度學習方法的局限性,深度學習方法開始被用于行人再識別課題的研究。其中一些深度學習的研究方法可以看作從分類的角度來解決行人再識別的問題,如文獻[7-8]方法,這些方法通過softmax函數(shù)連接交叉熵損失來判斷某個行人的ID,依此來確定某一幅圖像是否屬于某一個人;還有一些方法從排序的角度來考慮這個問題,如文獻[9-10],這類方法的出發(fā)點就是類內(nèi)距離應該比類間距離更近,與被檢索圖像屬于同一類別的行人圖像排在前面。
針對不同行人圖像之間比相同行人圖像之間更相似所造成的行人再識別準確率較低的問題,
本文從排序角度進行分析,利用深度學習的方法來解決行人再識別問題。
本文方法是一種有監(jiān)督學習方法,實質(zhì)上就是通過更有效的損失函數(shù)來對具有較深結(jié)構(gòu)的網(wǎng)絡進行監(jiān)督訓練,從而得到更好的網(wǎng)絡權重,之后通過提取更具分辨力和魯棒性的深度特征來解決行人再識別問題。
本文網(wǎng)絡結(jié)構(gòu)與文獻[11]中的網(wǎng)絡結(jié)構(gòu)相似,但其網(wǎng)絡結(jié)構(gòu)為一個較淺的8層的CNN結(jié)構(gòu),且未經(jīng)過預訓練,而本文采用了網(wǎng)絡結(jié)構(gòu)更復雜、效果更好的預訓練過的CNN結(jié)構(gòu)來處理圖像對,這使得所提取的特征可以對圖像進行更好的表達。雖然本文方法在操作上與文獻[9]比較相似,但其僅僅使用了平方損失,而本文使用了更好的損失函數(shù)(排序損失)來監(jiān)督網(wǎng)絡的學習,其優(yōu)勢在于可以使得正樣本之間的距離小于負樣本之間的距離。同時,與文獻[9]不同之處還在于本文方法中正負樣本的比例是固定的,這樣可以降低正負樣本的數(shù)量不平衡所造成的影響,從而得到較高識別率。
1?網(wǎng)絡結(jié)構(gòu)
1.1?整體網(wǎng)絡結(jié)構(gòu)
本文的整體網(wǎng)絡結(jié)構(gòu)是在孿生網(wǎng)絡(Siamese網(wǎng)絡)結(jié)構(gòu)的基礎上進行的改進,所提出的網(wǎng)絡主要包括兩個判別力很強的CNN模型,并且融合了softmax損失和雙向最大邊界排序損失(本文簡稱為排序損失),網(wǎng)絡結(jié)構(gòu)如圖1所示。圖1中輸入圖像序列是一個四元圖像組,并且這些輸入圖像需要調(diào)整大小來適應網(wǎng)絡輸入尺寸,CNN模型可以是任何一個基準網(wǎng)絡結(jié)構(gòu),或者是一個重新設計定義的網(wǎng)絡結(jié)構(gòu)。為了得到更好的結(jié)果和提高訓練效率,并對所提出的聯(lián)合損失的有效性進行驗證,本文采用已經(jīng)在ImageNet數(shù)據(jù)集上預訓練過的VGGNet-16、GoogLeNet、ResNet-50基準網(wǎng)絡作為CNN模型進行實驗。
以ResNet-50為例,首先,為了使本文模型能夠在行人數(shù)據(jù)集上進行訓練和預測,需要去掉原始ResNet-50中與最后的池化層相連的全連接(Fully Connected, FC)層和結(jié)果預測層;然后,在ResNet-50后添加用于防止過擬合的Dropout層和用于預測的1×1×2048×N維的全連接層,其中2048是特征維數(shù),N是數(shù)據(jù)集的實例個數(shù);最后,通過連接softmax損失層,得到識別損失,并且使用該網(wǎng)絡最后池化層的輸出作為圖像特征來對輸入圖像進行表示,圖像特征會用于測試階段。
本文所提出的網(wǎng)絡結(jié)構(gòu)不僅利用到了結(jié)構(gòu)和參數(shù)非常優(yōu)秀的預訓練模型,同時也可以通過孿生網(wǎng)絡結(jié)構(gòu)很方便地將softmax損失和排序損失結(jié)合在一起。下面分別對構(gòu)建整體網(wǎng)絡結(jié)構(gòu)所用到的技術進行介紹。
1.2?基準網(wǎng)絡結(jié)構(gòu)
本文中孿生網(wǎng)絡的兩個分支結(jié)構(gòu)采用在ImageNet競賽的大規(guī)模數(shù)據(jù)集上預訓練過的網(wǎng)絡模型作為基準網(wǎng)絡結(jié)構(gòu)(baseline network),該數(shù)據(jù)集有10萬左右的圖片,包括各種類別的對象1000類。使用預訓練過的模型有以下優(yōu)點:1)由于預訓練數(shù)據(jù)集包含對象類別較多,圖片數(shù)量很大,因此使用預訓練模型的初始權重相對人為設置更加合理,在訓練時有利于快速找到最優(yōu)解;2)由于參數(shù)量巨大,重新對復雜網(wǎng)絡模型進行訓練需要很多的計算資源和時間,不必要的重復訓練會造成很大的浪費;3)這些預訓練模型的性能已經(jīng)通過大量研究者的實驗驗證,性能有所保障。表1對當前常用的經(jīng)典基準網(wǎng)絡結(jié)構(gòu)的特點進行簡單總結(jié)。
表1中的層數(shù)計算的是網(wǎng)絡中包含可變參數(shù)的層的數(shù)量,比如卷積層和全連接層,那些參數(shù)固定或不包含可變參數(shù)的層未計算進去,其中參數(shù)可變與否是針對訓練階段而言的。另外,盡管表1中的網(wǎng)絡結(jié)構(gòu)都有相當多不同的版本和各種結(jié)構(gòu)上的改進,但考慮到訓練的效率和實驗驗證效果,本文只采用了表格中所展示的基準結(jié)構(gòu)進行實驗,其中包括VGGNet-16[12]、GoogLeNet[13]和ResNet-50[14]。
1.3?孿生網(wǎng)絡
孿生網(wǎng)絡通常用來度量兩個輸入樣本之間的相似性(兩個輸入樣本為同類,即輸入都是圖像或者都是文本),判斷輸入樣本是否為相同標簽。同時,對應孿生網(wǎng)絡的還有偽孿生網(wǎng)絡(pseudo-Siamese network,兩種輸入樣本可以是不同類型的,比如一個是圖像另一個是文本),用來判別輸入樣本是否匹配。兩類網(wǎng)絡的基本結(jié)構(gòu)如圖2所示。
圖2中孿生網(wǎng)絡的兩個分支使用相同的結(jié)構(gòu)并且權重W共享,輸入無論從類型還是數(shù)量上也都是相同的,而偽孿生網(wǎng)絡則可以使用不同的結(jié)構(gòu)(比如一個為VGGNet,另一個為GoogLeNet),且權重不共享,輸入也不相同。對于本文來講更加適合使用Siamese網(wǎng)絡結(jié)構(gòu)的依據(jù)如下:1)行人再識別問題中輸入的都是行人圖像,即輸入的是相同類型的數(shù)據(jù);2)在訓練過程中利用到兩幅圖像是否為相同行人這一已知信息;3)充分利用每幅圖像自身所包含的各種信息(顏色和形狀等)。Siamese網(wǎng)絡通過把輸入圖像映射到特征空間中,從而在特征空間中用度量函數(shù)對比圖像特征的相似度。通常度量函數(shù)可以表示為:
通過訓練找到合適的W,使得當X1和X2屬于相同類別時DW較小,當類別不同時DW較大。
可以看到,當輸入為相同類別圖像對時,即輸入圖像屬于相同行人,則只需要在訓練時最小化DW即可。DW可以是歐氏距離、余弦距離或其他度量方法。
2?目標函數(shù)
2.1?雙向最大邊界排序損失
通常用于兩個特征向量之間距離度量的是歐氏距離,但對于行人再識別問題來說,僅僅使用歐氏距離無法區(qū)分那些外觀非常相似的不同行人的圖像。因此,本文使用余弦相似度來度量特征向量的相似度,即通過兩個向量之間的夾角來判斷圖像是否屬于同一行人。余弦相似度可以表示為:
其中:m是最大損失邊界,它的大小影響訓練中收斂的速度和效率;D(*,*)為式(2)所示的余弦相似度分數(shù),圖像的相似度越大則這個分數(shù)會越高。由式(3)~(4)可知正樣本對之間的相似度大于負樣本對之間的相似度,排序損失函數(shù)的作用就是在訓練中約束這種關系。因此在式(5)中,當正樣本對的相似性分數(shù)減去負樣本對的相似性分數(shù)大于m時,即符合判定條件,損失為0。
本文截取了ResNet-50網(wǎng)絡中某一非線性層(res4fx)的結(jié)果來可視化輸出其特征圖,分別對使用了雙向最大邊界損失的本文方法,文獻[9]方法(使用了歐氏距離)和基準網(wǎng)絡ResNet-50(僅使用了識別損失)的效果進行展示,其中原始圖像來自Market-1501數(shù)據(jù)集,結(jié)果如圖3所示。
由圖3可看出:1)相對于文獻[9]方法,本文方法訓練出的網(wǎng)絡對于圖像中行人信息的表達更加準確,對于一些背景的處理效果更好;2)相對于基準網(wǎng)絡ResNet-50,本文方法對于行人和背景之間的差異性表現(xiàn)更好,即圖像中行人的信息得到了更高的響應值(對應特征圖中采用深色進行表示)。
2.2?目標函數(shù)
受文獻[9]的啟發(fā),本文最后的目標函數(shù)同時利用識別損失和排序損失。通過兩個較深的基準網(wǎng)絡結(jié)構(gòu)提取兩幅圖像的特征,然后銜接FC層和softmax損失層產(chǎn)生每一類的概率和識別損失,其中softmax損失定義為:
代表該樣本在真實標簽位置i上的值;分母是對該樣本在所有標簽位置上的值進行求和。
softmax損失可以充分利用圖像類別信息,但是只使用該損失函數(shù)無法有效地對那些相似的不同類別圖像進行訓練。因此,為了學習到一個判別力好的特征,并且在特征空間中具有相同類標簽的特征向量之間比具有不同類標簽的特征向量距離更近,本文把兩種損失函數(shù)結(jié)合,得到最終的目標函數(shù)為:
其中:Lobject代表整個網(wǎng)絡計算得到的損失;Lsoftmax1和Lsoftmax2為網(wǎng)絡中兩個分支的softmax損失;Lrank為雙向最大邊界排序損失; μ是用來權衡兩種損失之間的影響,當μ=0時,只有softmax損失函數(shù)產(chǎn)生作用,并且本文在實驗驗證中得到 μ=0.5可以取得較好的實驗結(jié)果。
通過式(7)對兩種損失的結(jié)合,不僅充分利用了圖像的類別信息,也使得相同類的特征向量之間比不同類的特征向量之間距離更近,從而降低了由于不同行人的圖像非常相似導致誤判的可能性。并且相對于只使用一種損失的方法, 本文方法充分利用了所有的已知信息去訓練,因此可以達到較好的效果。
圖4通過可視化展示了上述目標函數(shù)(式(7))的處理效果。為了得到該可視化結(jié)果,首先,通過本文方法訓練得到網(wǎng)絡權重,基準網(wǎng)絡為ResNet-50;然后,提取行人圖像特征并通過主成分分析法(Principal Component Analysis, PCA)降維使得特征降為50維,行人圖像為來自Market-1501數(shù)據(jù)集的421人的7000張圖像;最后,使用Barnes-Hut t-SNE(tree-based approaches for Stochastic Neighbor Embedding)算法[16]使特征降到2維(坐標位置)并聚類。由圖4容易看出,相似的圖像距離較近,不同圖像距離較遠,即本文方法在直觀上是有效的。
2.3?參數(shù)分析
由式(7)可知本文方法中較重要的參數(shù)有損失邊界和損失權重,為了得到更好的改進提升,這兩個參數(shù)需要通過實驗得到。本節(jié)實驗在Market-1501數(shù)據(jù)集上采用ResNet-50為基準進行,為了實驗效果和速度,采用單檢索(Single Query)的測試方式,實驗結(jié)果如圖5所示。
圖5中橫坐標分別為m和μ的值,縱坐標為在不同參數(shù)下兩種評價指標第一準確度(rank-1)和平均精度均值(mean Average Precision, mAP)的數(shù)值。rank-1是最重要的指標,即檢索序列結(jié)果排序在第一位(相關程度第一)的結(jié)果為正確結(jié)果的概率。
通過實驗結(jié)果可知,m和μ值均為0.5左右時可以取得最好的效果。通過對圖5分析可得:1)當m很小時排序損失作用較小,無法取得較大的效果提升;2)當m較大時容易導致過擬合現(xiàn)象的產(chǎn)生,因此準確率也會下降;3)當μ為0時,結(jié)果幾乎和只用softmax損失是一樣的,即Lobject=Lsoftmax,這和本文的預期相符;4)當μ較大時,由于識別損失無法充分發(fā)揮作用,即對圖像信息的利用不夠充分,因此也會造成準確率下降。
3?實驗與結(jié)果分析
3.1?數(shù)據(jù)集
清華大學的Market-1501數(shù)據(jù)集[1]拍攝場景為清華校園,包含了1501位行人的標記好的32668幅圖像,這些行人圖像是用6個不同的攝像機拍攝的。本文使用751位行人的12936張圖像進行訓練,750位行人的19732張圖像進行測試。該數(shù)據(jù)集中的邊界框(bounding box)是用可變形部分模型(Deformable Part Model,DPM)獲得的。
香港中文大學的CUHK03數(shù)據(jù)集[17]包含1467位行人的14097幅圖像,這些圖像拍攝于兩個攝像頭,每個攝像頭下每個行人平均有4.8幅圖像。該數(shù)據(jù)集同時具有人工標記和DPM算法檢測的邊界框,為了更接近實際應用場景,本文使用DPM檢測到的邊界數(shù)據(jù)進行實驗。
DukeMTMC-reID數(shù)據(jù)集[10]是行人跟蹤數(shù)據(jù)集DukeMTMC的一個子集。DukeMTMC數(shù)據(jù)集由杜克大學學者在文獻[18]中提出,包含8個不同視角的85min高分辨率視頻。DukeMTMC-reID數(shù)據(jù)集的圖片截取自DukeMTMC的視頻,它的結(jié)構(gòu)類似于Market-1501數(shù)據(jù)集,包含702位行人,其中16522張為訓練圖片,17661張圖像用于測試,2228張作為查詢圖像。
3.2?評價準則和實驗設置
為了驗證本文方法的有效性,本文采用3種基準網(wǎng)絡(VGGNet、GoogLeNet和ResNet-50)和3個公開的行人再識別數(shù)據(jù)集(Market-1501、CUHK03和DukeMTMC-reID)進行實驗。使用Matconvnet深度學習框架進行算法實現(xiàn),實驗環(huán)境為Ubuntu 16.04,Matlab 2016a,NVIDIA Tesla P100顯卡。
本文使用隨機梯度下降(Stochastic Gradient Descent, SGD)算法對網(wǎng)絡進行訓練,訓練中采用批訓練的方式,批尺寸(mini-batch size)設置為10,訓練的動量因子固定為0.9,共訓練40次,前20次學習率為0.1,其后10次為0.02,最后10次為0.01。
在訓練階段:首先,數(shù)據(jù)集中的原始行人圖像被重置為256×256像素的大小,并且從該圖像中裁剪出224×224大小的圖像作為網(wǎng)絡輸入;然后,圖像數(shù)據(jù)輸入網(wǎng)絡之中,經(jīng)前向傳播計算得到損失;最后,進行損失反向傳播,并調(diào)整網(wǎng)絡參數(shù),其中排序損失邊界和損失權重為0.5。
在測試階段:由于本文網(wǎng)絡中的兩個分支權重共享,因此只使用其中一個進行特征提取即可。首先,對圖像進行預處理;然后,通過訓練過的網(wǎng)絡進行特征提取,對應VGGNet-16、GoogLeNet和ResNet-50分別為4096維、1024維和2048維的深度特征;最后,計算對比所提特征的余弦距離得到余弦相似度獲得最終結(jié)果。
本文在實驗中主要采用兩種評價指標,分別為累計匹配特征曲線(Cumulated Matching Characteristics curve, CMC)和平均精度均值(mAP)。累計匹配特征曲線從排序的角度對再識別問題進行評價,即把檢索結(jié)果按照相關程度進行排序。當然,排序靠后的檢索結(jié)果正確率也很重要,盡管排序靠后的檢索結(jié)果相關程度不如在第一位的結(jié)果,但對于輔助人工識別具有重要意義。
平均精度均值則是把行人再識別當作圖像檢索問題來進行評價,該指標可以從整體上對算法進行評價。其中,精度均值(Average Precision, AP)計算公式為:
3.3?有效性驗證
本文通過對行人再識別問題進行分析,提出并采用了性能更好的損失函數(shù),因此在有效性實驗部分本文分別采用VGGNet-16、GoogLeNet和ResNet-50作為基準網(wǎng)絡,
通過在Market-1501數(shù)據(jù)集上比較本文方法和基準網(wǎng)絡的CMC曲線來進行有效性驗證,實驗結(jié)果如圖6所示。
由圖6可知,與基準網(wǎng)絡的結(jié)果相比本文方法取得了較大的提升,其中對VGGNet-16、GoogLeNet和ResNet-50三種基準網(wǎng)絡在Market-1501數(shù)據(jù)集上rank-1的提升幅度分別為5.85%、8.94%和10.04%,并且通過對比在三種基準網(wǎng)絡上的提升幅度也可以得出,當網(wǎng)絡結(jié)構(gòu)較深時本文方法可以達到更好的提升效果。
3.4?Market-1501數(shù)據(jù)集實驗
本文在Market-1501數(shù)據(jù)集上采用了兩種測試方法,即單檢索(Single-Query)和多檢索(Multi-Query)。單檢索時被檢索的圖像為單幀行人圖像,多檢索時被檢索的圖像為多幀同一行人的圖像的均值圖像,其中多檢索可以利用到更多的行人圖像信息,但單檢索更接近實際情況,實驗結(jié)果如表2所示。
從表2可知,在Market-1501數(shù)據(jù)集上,本文方法在使用ResNet-50作為基準網(wǎng)絡時分別在單檢索和多檢索條件下取得了84.5%和89.4%的rank-1準確率,67.4%和79.2%的mAP。
從實驗結(jié)果數(shù)據(jù)可得,本文方法取得了最好的綜合效果,并且,在多檢索條件下采用多幅行人圖像用于檢索,有利于提高再識別準確率。
3.5?CUHK03數(shù)據(jù)集實驗
在CUHK03數(shù)據(jù)集中分別在單攝像采集(single-shot)和多攝像采集(multi-shot)的條件下進行實驗。單攝像采集條件下每個被檢索圖像在搜索集中只有一幅對應的正確圖像,多攝像采集條件下則是使用來自其他攝像機的所有圖像用于待檢索,對應正確的行人圖像不只一幅。其中多攝像采集的情況非常接近圖像檢索,并且可以在一定程度上降低隨機采樣對結(jié)果帶來的影響,實驗結(jié)果如表3所示。
從表3可知,本文方法在CUHK03數(shù)據(jù)集上使用ResNet-50作為基準網(wǎng)絡,在單攝像采集(single-shot)條件下取得了82.9%的rank-1準確率和89.2%的mAP;在多攝像采集(multi-shot)條件下取得了86.7%的rank-1準確率和77.8%的mAP。表3中,在單攝像采集條件下,Siamese-reranking方法[8]取得了最好的rank-1結(jié)果,原因是其在訓練網(wǎng)絡并提取特征后采用了重排序技術,使得特征更相似的圖像有更大的概率被排在前面,處理過程較為復雜;然而,本文僅僅通過改進網(wǎng)絡和損失函數(shù)來提高深度特征對行人圖像的表達能力,直接提升網(wǎng)絡本身的性能,沒有進行進一步的處理。
3.6?DukeMTMC-reID數(shù)據(jù)集實驗
DukeMTMC-reID數(shù)據(jù)集的數(shù)據(jù)在結(jié)構(gòu)上和Market-1501相似,由于該數(shù)據(jù)集提出較晚,因此本文只列出了在單檢索(Single Query)時本文方法與其他一些方法的對比。從表4可知,在DukeMTMC-reID數(shù)據(jù)集上本文方法使用ResNet-50作為基準網(wǎng)絡取得了77.2%的rank-1準確率和53.9%的mAP。表4中得到最好mAP的方法是BraidNet-CS+SRL算法[23],該方法比BraidNet-CS多了對負樣本率進行自適應學習的步驟,使得參數(shù)的選擇更加合理,但同時也需要更多的學習時間。
4?結(jié)語
本文通過提出一種基于孿生網(wǎng)絡結(jié)合識別損失和雙向最大邊界排序損失的方法,解決了在實際中不同行人圖像之間比相同行人圖像之間更相似所造成的行人再識別準確率較低的問題,并且通過數(shù)據(jù)可視化手段展示了識別處理效果。盡管本文只使用了3種基準網(wǎng)絡驗證本文方法的有效性,但本文所提的排序損失和對應的網(wǎng)絡結(jié)構(gòu)可以適用于所有的基準CNN結(jié)構(gòu)。同時,通過在三個公開數(shù)據(jù)集上與其他方法進行對比實驗,本文方法取得了較好的綜合性能。
本文方法存在的主要問題是:1)盡管沒有通過實驗數(shù)據(jù)對運行時間進行分析,但是由于使用了擁有大量參數(shù)的網(wǎng)絡模型,并且所提出的損失函數(shù)在訓練時計算較慢,因此訓練時間相對較長;2)文中實驗的參數(shù)并不是通過自適應學習得到的,而是通過在某一數(shù)據(jù)集上實驗獲得的,因此參數(shù)選擇的合理性需要進行進一步的驗證。
基于現(xiàn)有結(jié)論,本文認為未來可以沿以下幾個方向開展進一步的研究工作:首先,對如何把本文方法應用于更大規(guī)模的再識別數(shù)據(jù)集進行研究,或者驗證其在實際場景中的效果;其次,對損失函數(shù)計算的優(yōu)化和對算法參數(shù)的選擇上需要采用更合理的方法;最后,盡管本文方法是針對行人再識別提出的,但也可以對其應用到其他課題進行探索,如圖像檢索等。
參考文獻(References)
[1] ZHENG L, SHEN L, TIAN L, et al. Scalable person re-identification: a benchmark[C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1116-1124.
[2] MATSUKAWA T, OKABE T, SUZUKI E, et al. Hierarchical Gaussian descriptor for person re-identification[C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. ?Washington, DC: IEEE Computer Society, 2016: 1363-1372.
[3] LIAO S, HU Y, ZHU X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. ?Washington, DC: IEEE Computer Society, 2015: 2197-2206.
[4] KOESTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]// CVPR 2012: Proceedings of the 2012 IEEE International Conference on Computer Vision. ?Washington, DC: IEEE Computer Society, 2012: 2288-2295.