吳珊
摘要
本文提出了利用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)行人的深度特征,可以保留更多有價值的信息,利用簡單有效的余弦距離方法計算每個圖像對的相似度。我們的方法可以應(yīng)用于不同的場景,在不同的數(shù)據(jù)集上進(jìn)行了實驗,都能達(dá)到較好的結(jié)果。
【關(guān)鍵詞】行人再識別 遷移學(xué)習(xí) 深度學(xué)習(xí)距離度量
1 介紹
行人再識別是指在非重疊的多攝像機(jī)監(jiān)控系統(tǒng)中,對不同場景中的行人進(jìn)行匹配的技術(shù)。
多年來,由于其在視頻監(jiān)控中的重要應(yīng)用,受到了人們的廣泛關(guān)注。行人再識別第一個關(guān)鍵技術(shù)是特征表示,已經(jīng)提出了幾種有效的方法,例如HOG、ELF、LBP和SIFT。
另外一個關(guān)鍵技術(shù)是相似性度量,主要的方法有包括交叉視圖二次判別分析(XQDA)、歐氏距離度量和余弦距離度量。
上述行人再識別的方法大多數(shù)的前提是假定在相似的場景中獲取訓(xùn)練和測試樣本,數(shù)據(jù)分布是相同的,但是這種假設(shè)并不適用于實際的應(yīng)用場景中。為了解決出現(xiàn)的問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征網(wǎng)(FN),特征網(wǎng)絡(luò)提取的深度特征是64維,噪音少并且有價值的信息多,用于學(xué)習(xí)行人特征對交叉數(shù)據(jù)集的視覺識別,然后利用余弦距離進(jìn)行相似度量的學(xué)習(xí),減少了處理時間,同時提高了精確度。
2 深度特征表示的學(xué)習(xí)方法
方法中的框架是在已經(jīng)趨于成熟的VGG-16網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行稍加改進(jìn),根據(jù)要求對其中的參數(shù)進(jìn)行微調(diào)。在深度特征表示框架中首先對這些訓(xùn)練的行人圖像進(jìn)行圖像增強(qiáng)的操作,然后利用參數(shù)已經(jīng)微調(diào)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度特征提取,最后選用余弦距離進(jìn)行相似性度量。
特征網(wǎng)絡(luò)FN的輸入包括5個卷積層和2個全連接層,卷積層包括一個的conv、一個Batch Normalization層和一個ReLU層,使用BN策略主要是加速收斂,并且可以避免手動調(diào)整權(quán)重和偏差的初始化問題。全連接層包括一個FC、一個ReLU層和Dropout,使用Dropout策略主要是在最后的一個全連接層前去除一些神經(jīng)元,使最終提取的特征維數(shù)小,并且含有的有價值的信息多,表1列出了特征網(wǎng)絡(luò)FN的框架細(xì)節(jié)(其中N:訓(xùn)練數(shù)據(jù)集的數(shù)量,conv:卷積層,F(xiàn)C:全連接層,BN:Batch Normalization策略,ReLU:(Rectifiedlinear unit)修正線性單元)。
2.2 余弦距離方法
本文采用余弦距離作為距離度量的方法,定義A=(α1,α2,…,α64),B=(b1,b2,…,b64)分別來代表從兩張圖像中利用特征網(wǎng)絡(luò)提取的特征,兩張圖像的相似性可以表示為(其中值越大就代表兩張圖像的相似性越高):
3 實驗過程及結(jié)果
3.1 實驗過程
深度特征表示方法在CUHK03數(shù)據(jù)集、DukeMTMC數(shù)據(jù)集、以及Market-1501數(shù)據(jù)集進(jìn)行實驗。實驗具體的過程是在DukcMTMC數(shù)據(jù)集上進(jìn)行將近60,000次的網(wǎng)絡(luò)訓(xùn)練迭代,消耗的時間將近20多個小時,將訓(xùn)練好的模型應(yīng)用到CUHK03數(shù)據(jù)集和Market-1501數(shù)據(jù)集,并且微調(diào)參數(shù),各個數(shù)據(jù)集上的一些參數(shù)配置如表2所示。
3.2 實驗結(jié)果
在行人CLJHK03數(shù)據(jù)集的實驗結(jié)果和一些常用的方法進(jìn)行了比較,例如KISSME、LOMO-XQDA、FPNN和RME方法,在數(shù)據(jù)集CUHK03上排名為1的匹配率達(dá)到了77.3%,在排名為5的匹配率達(dá)到了94.6%,即挑選與待測圖片相似度高的前5個人取得了很高的正確率,比其他方法的精確度要高很多,從CMC曲線圖中顯示的實驗結(jié)果證明該方法是可行的。
在行人DukcMTMC數(shù)據(jù)集的實驗結(jié)果和一些常用的方法作了對比,例如KISSME、eSDC、KMFA和NLML方法。在數(shù)據(jù)集DukeMTMC上排名為I的匹配率達(dá)到了80.7%,遠(yuǎn)遠(yuǎn)高于與其相比較的方法。
在行人Market-1501數(shù)據(jù)集的實驗結(jié)果和一些常用的方法作了對比,例如mFillter、LADF、KISSME、PCCA方法。在數(shù)據(jù)集Market-1501上排名為1的匹配率達(dá)到了55.17%,精確度和其他方法比較也是略高的。
4 總結(jié)
本文將遷移學(xué)習(xí)應(yīng)用于行人再識別的研究中,提出了一種有效的行人特征提取方法,并利用卷積神經(jīng)網(wǎng)絡(luò)自動收集有價值的信息,提取的特征是低維的。此外,采用簡單但有效的余弦距離作為測量方法,對兩幅圖像的相似度進(jìn)行度量。在三個具有挑戰(zhàn)性的行人再識別數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果證明了方法的魯棒性。
參考文獻(xiàn)
[1]Kostinger M,Hirzer M,Wohlhart P,etal.Large scale metric learning fromequivalence constraints[C].ComputerVision and Pattern Recognition.IEEE,2012:2288-2295.
[2]Zheng W S,Gong S,Xiang T.Personre-identification by probabilisticrelative distance comparison[C].Computer Vision and PatternRecognition.IEEE,2011:649-656.