劉一敏 蔣建國(guó) 齊美彬
摘要:伴隨著安防監(jiān)控領(lǐng)域科學(xué)技術(shù)的發(fā)展和國(guó)家對(duì)安防監(jiān)控領(lǐng)域的重視,我國(guó)已經(jīng)成了世界上最安全的國(guó)家之一。無(wú)重疊視域行人再識(shí)別旨在解決通過(guò)不同視域的攝像機(jī)來(lái)識(shí)別匹配相同行人,研究對(duì)行政機(jī)關(guān)和司法機(jī)關(guān)維護(hù)社會(huì)公共安全具有重大的意義?;谏疃葘W(xué)習(xí)的行人再識(shí)別因數(shù)據(jù)集偏小而依賴于樣本數(shù)量,設(shè)計(jì)了一種基于多尺度幀率的視頻行人再識(shí)別方法,通過(guò)自適應(yīng)可分離卷積插幀技術(shù)生成幀間信息,增加了目標(biāo)樣本和運(yùn)動(dòng)間的細(xì)節(jié)變化特征;并且在訓(xùn)練中對(duì)輸入進(jìn)行了幀率尺度變化,提高了時(shí)-空注意力網(wǎng)絡(luò)對(duì)行人步伐大小、周期快慢的魯棒性。實(shí)驗(yàn)結(jié)果表明,提出的方法在一定程度上可以提高公開數(shù)據(jù)集的識(shí)別率,在PRID2011和iLIDS-VID數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),RANK1分別達(dá)到了79%和64%。
關(guān)鍵詞:行人再識(shí)別;深度學(xué)習(xí);插幀算法
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)19-0196-04
Abstract:With the development of science and technology in the field of security monitoring and the emphasis on national security in government policy, China has become one of the safest countries in the world. The non-overlapped view person re-identification aims to solve the problem of identifying and matching the same pedestrian through cameras in different visual fields, and it is of great significance to study the public secuity for administrative agencies and judicial organs. The pedestrian re-recognition based on deep learning relies on the number of samples because of the small dataset. A multi-scale frame rate video pedestrian recognition method is designed to generate inter-frame information through adaptive separable convolutional interpolation frame technology. The characteristics of the changes between the target sample and the movement and the frame rate scale change of the input during training, Improve the ASTPN network's robustness to the size of the pace and the speed of the cycle. Experimental results show that the proposed method can improve the recognition rate of public datasets to a certain extent. Experiments were conducted on PRID2011 and iLIDS-VID datasets. RANK1 reached 78% and 64% respectively.
Keyword:Person re-identification;Deep Learning;Video Frame Interpolation
行人再識(shí)別任務(wù)是指在無(wú)重疊多視域攝像機(jī)下識(shí)別和匹配相同行人的任務(wù)。任務(wù)場(chǎng)景廣泛應(yīng)用在街頭、商場(chǎng)、車站等人員密集的場(chǎng)所,預(yù)防突發(fā)情況的發(fā)生,對(duì)維護(hù)社會(huì)穩(wěn)定、保障公民利益有著重大的意義。但是在實(shí)際應(yīng)用場(chǎng)景中,不同視域下攝像機(jī)捕捉到的行人,由于存在攝像機(jī)屬性、場(chǎng)景光照、行人姿態(tài)和角度的差異,干擾目標(biāo)的外觀特征的正常表示,使得行人再識(shí)別的研究依舊面臨著很大的挑戰(zhàn)。深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)領(lǐng)域上的成功,也帶動(dòng)了行人再識(shí)別課題的發(fā)展,一些基于深度學(xué)習(xí)的行人再識(shí)別方法也相繼提出。文獻(xiàn)[1]提出用孿生網(wǎng)絡(luò)(Siamese Network)來(lái)解決行人再識(shí)別的任務(wù),孿生網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)雙流網(wǎng)絡(luò),利用監(jiān)督信息和對(duì)比損失函數(shù)來(lái)訓(xùn)練和識(shí)別相同行人對(duì)。文獻(xiàn)[2]通過(guò)對(duì)行人圖像進(jìn)行分割,對(duì)各分割區(qū)域利用LSTM順序的提取特征的時(shí)空關(guān)系,來(lái)提高目標(biāo)深度特征的區(qū)分性。文獻(xiàn)[3]提出在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的每個(gè)卷積層后加入一個(gè)門選通函數(shù),用來(lái)獲得目標(biāo)的有效細(xì)節(jié)。文獻(xiàn)[4]用CNN提取目標(biāo)特征,并將視頻序列送入到循環(huán)卷積網(wǎng)絡(luò)(Recurrent Neural Network,RNN)中,學(xué)習(xí)到行人運(yùn)動(dòng)時(shí)間序列上的特征,最后將其整合,作為行人視頻的特征表達(dá)信息。文獻(xiàn)[5]與[4]結(jié)構(gòu)類似,采用了加了門控的RNN,并且設(shè)計(jì)了新的損失函數(shù),提高了模型的收斂效率。
訓(xùn)練樣本匱乏是行人再識(shí)別領(lǐng)域遇到的重要問(wèn)題之一。較小的數(shù)據(jù)集讓依賴于數(shù)據(jù)規(guī)模的來(lái)描述高維特征的深度方法來(lái)說(shuō),容易造成模型泛化能力降低,影響高維特征的正確表達(dá),降低識(shí)別率。因此一些基于樣本增加的行人再識(shí)別方法被提出,文獻(xiàn)[7]將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于行人再識(shí)別方向,通過(guò)生成對(duì)抗網(wǎng)絡(luò)生成符合行人特征分布的圖像,提高了匹配效果。文獻(xiàn)[8]在生成對(duì)抗網(wǎng)絡(luò)中加入了條件信息,可以生成帶監(jiān)督信息的行人圖片。但是生成對(duì)抗網(wǎng)絡(luò)生成的圖片成像質(zhì)量較低,會(huì)使網(wǎng)絡(luò)無(wú)法獲取到正確的外觀特征,一定程度上影響了網(wǎng)絡(luò)的識(shí)別。因此本文提出了多尺度幀率的視頻行人再識(shí)別方法,增加幀與幀之間的強(qiáng)監(jiān)督樣本,并利用多尺度的幀率對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)適應(yīng)不同行人步伐變化,提高網(wǎng)絡(luò)泛化能力。在PRID2011和iLIDS-VID視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),行人匹配效率得到了提升。
本文余下的章節(jié)安排如下。第一節(jié)介紹多尺度幀率的視頻行人再識(shí)別方法;第二節(jié)介紹本文方法在視頻數(shù)據(jù)集上的實(shí)驗(yàn);第三節(jié)總結(jié)全文和展望。
1 基于多尺度幀率的視頻行人再識(shí)別
1.1 自適應(yīng)可分離卷積插幀算法
視頻幀插值是計(jì)算機(jī)視覺(jué)和視頻處理領(lǐng)域的一個(gè)重要的研究方向,根據(jù)視頻中前一幀圖像[I1]和后一幀圖像[I2],來(lái)預(yù)算和估計(jì)中間幀[I]的生成。早前,傳統(tǒng)的幀插值方法[9-11]主要是利用光流算法,通過(guò)視頻生成前一幀和后一幀之間的光流信息,用來(lái)插入由光流信息的引導(dǎo)的中間幀的過(guò)程,但是生成圖像的好壞往往依賴于光流的質(zhì)量。與基于光流的方法不同,Meyer等人[12]開發(fā)了一種基于相位的插幀值方法,利用單個(gè)像素相移中的運(yùn)動(dòng)情況修改生成中間幀圖像,算法用來(lái)生成中間幀圖像相較于基于光流的方法取得了清晰的結(jié)果,但是當(dāng)視頻具有較大時(shí)間的變化時(shí),算法會(huì)無(wú)法保留視頻中的高頻細(xì)節(jié)。Niklaus等人[13]采用CNN構(gòu)成Encoder-Decoder框架,最終訓(xùn)練出兩個(gè)41×41的卷積內(nèi)核,通過(guò)移位卷積生成中間幀的多個(gè)像素,但處理1080p的視頻時(shí),內(nèi)存消耗高達(dá)26GB。
Simon Niklaus等人[14]基于文獻(xiàn)[13]結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)可分離的一維卷積內(nèi)核來(lái)近似二維卷積內(nèi)核來(lái)改進(jìn)算法,減少了內(nèi)存的消耗,算法結(jié)構(gòu)如圖1所示。
如圖所示,輸入前一幀[I1]和后一幀[I2],經(jīng)過(guò)特征提取模塊和上采樣模塊,得到特征輸出。其中,特征提取模塊由6個(gè)由卷積層和平均池化層組成的單元所構(gòu)成,上采樣模塊使用雙線性插值方法。特征輸出擴(kuò)展分到4個(gè)子網(wǎng)絡(luò)。訓(xùn)練過(guò)程中,每個(gè)子網(wǎng)絡(luò)可以分別學(xué)習(xí)4個(gè)1維卷積核,最后將4個(gè)1維卷積分別與輸入圖像[I1]、[I2]相卷疊加得到最后的中間幀[I]。算法表示為式(1)。
將插幀算法生成的圖片和生成對(duì)抗網(wǎng)絡(luò)生成的圖片比較,如圖3所示,自適應(yīng)可分離卷積插幀算法生成的畫面更加清晰,邊緣過(guò)度也更加自然。
1.2 基于多尺度幀率的視頻行人再識(shí)別
文獻(xiàn)[6]提出了添加注意力的時(shí)空網(wǎng)絡(luò)(ASTPN)的行人再識(shí)別結(jié)構(gòu),結(jié)構(gòu)如圖4所示。
網(wǎng)絡(luò)結(jié)構(gòu)采用Siamese Network的框架,通過(guò)CNN來(lái)提取行人視頻幀與幀圖像上的特征,再將每幀的圖像特征通過(guò)空間金字塔池化層(Spatial Pyramid Pooling Layer,SPP)。之后得到的多尺度空間特征信息作為圖像表示特征通過(guò)RNN提取視頻幀時(shí)間信息。最后,由RNN產(chǎn)生的所有時(shí)間特征通過(guò)注意力時(shí)間池化層(Attentive Temporal Pooling Layer,ATP)匯集來(lái)組合形成序列級(jí)表示,并通過(guò)歐式距離進(jìn)行度量。在SPP中,由于有多個(gè)尺度的空間塊來(lái)生成多個(gè)尺度的空間表示,因此可以使提取到的特征包含了行人位置信息和多尺度空間信息,能夠關(guān)注到區(qū)域中有價(jià)值的信息。在ATP中,查詢集(Probe)和行人圖像集(Gallery)的輸入通過(guò)CNN,SPP和RNN分別輸出矩陣P和G,網(wǎng)絡(luò)中引用參數(shù)矩陣U來(lái)計(jì)算時(shí)間維度中的注意力矩陣A,表示為公式5。最后分別通過(guò)列/行方式的最大池化操作和Softmax函數(shù),分別獲得具有對(duì)時(shí)間序列注意的向量[vp]和[vg],[vp]表示Probe的特征向量,[vg]表示Gallery的特征向量。最后將[vp]和[vg]進(jìn)行距離上的度量,實(shí)驗(yàn)取得了很好的算法效果。
[A=tanh(PUGT)] (5)
在基于視頻的行人再識(shí)別研究中,由于相較于基于圖像的行人再識(shí)別中常用的行人目標(biāo)的外觀特征之外,行人行走的步伐大小、周期、姿態(tài)也可作為行人的重要特征,讓網(wǎng)絡(luò)進(jìn)行有效的區(qū)分。如圖5所示,ID 1中所拍攝到的行人行走周期較快,步伐較小;而ID 2中的行人周期較慢,步伐較大。因此在ASTPN的輸入中,我們將按單一幀率的輸入改成多尺度幀率的輸入。在添加幀間圖片的數(shù)據(jù)集中分別選取1x,2x,3x的行人視頻序列作為ASTPN網(wǎng)絡(luò)的輸入,分別表示為圖6中的序列1,序列2和序列3。
1.3 本文算法的具體步驟
步驟1.輸入視頻行人再識(shí)別的數(shù)據(jù)集,利用自適應(yīng)可分離卷積插幀算法對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,生成視頻幀與幀之間的中間幀,擴(kuò)大數(shù)據(jù)集的大小。
步驟2.利用步驟1擴(kuò)充的行人再識(shí)別數(shù)據(jù)集,將數(shù)據(jù)集輸入不同尺度的幀率視頻,利用ASTPN網(wǎng)絡(luò)訓(xùn)練測(cè)試,獲取實(shí)驗(yàn)結(jié)果。
2 實(shí)驗(yàn)測(cè)試與結(jié)果
本節(jié)介紹了行人再識(shí)別研究中算法性能評(píng)估方法和實(shí)驗(yàn)中使用的視頻行人再識(shí)別數(shù)據(jù)集,并且通過(guò)本文算法在PRID2011和iLIDS-VID上實(shí)驗(yàn),并與已有的行人再識(shí)別算法實(shí)驗(yàn)性能進(jìn)行了比較。文中的實(shí)驗(yàn)通過(guò)Torch和TensorFlow框架實(shí)現(xiàn),硬件采用搭載i5-4590(3.30GHz)和NVIDIA GTX-980TI(4GB)的臺(tái)式電腦。
2.1 測(cè)試數(shù)據(jù)和算法性能的評(píng)測(cè)準(zhǔn)則
實(shí)驗(yàn)在PRID2011和iLIDS-VID行人視頻數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,采用累積匹配特征曲線(CMC)[17]來(lái)評(píng)價(jià)行人再識(shí)別算法的性能,CMC曲線指的是在給定的查詢集和行人圖像集中,找到在行人圖像庫(kù)相似度排序前n個(gè)圖像中指定行人的概率。訓(xùn)練和測(cè)試如文獻(xiàn)[6]所述,行人視頻數(shù)據(jù)集將分為訓(xùn)練集和測(cè)試集。當(dāng)網(wǎng)絡(luò)訓(xùn)練時(shí),訓(xùn)練集中的Probe和Gallery將會(huì)選取16幀圖像輸入進(jìn)網(wǎng)絡(luò)模型;而在測(cè)試集中攝像機(jī)1將作為Probe,攝像機(jī)2將作為Gallery。實(shí)驗(yàn)中,算法重復(fù)驗(yàn)證10次,取平均值作為實(shí)驗(yàn)結(jié)果。
2.2 實(shí)驗(yàn)在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
2.2.1 PRID2011數(shù)據(jù)集
PRID2011行人視頻數(shù)據(jù)集[15]總共包含了24541張圖片,分別由兩臺(tái)不同視域的攝像機(jī)捕捉了總計(jì)934個(gè)行人,其中有385個(gè)行人視頻序列來(lái)自Cam A,有749個(gè)行人視頻序列來(lái)自Cam B,每個(gè)行人序列的長(zhǎng)度在5到675個(gè)圖像幀不等,圖片像素尺寸為128×64。
表1給出了本文方法針對(duì)PRID2011數(shù)據(jù)集相對(duì)于其他算法CMC的對(duì)比,可以看出本文改進(jìn)方法相較于ASTPN和其他基于視頻的行人再識(shí)別方法來(lái)說(shuō),有效的提升CMC中Rank1的識(shí)別率,對(duì)Rank5的識(shí)別率也有一定提升。對(duì)比ASTPN算法,加入了更多樣本和多尺度的幀率會(huì)讓Rank1提升了2%。
2.2.2 iLIDS-VID數(shù)據(jù)集
iLIDS-VID數(shù)據(jù)集[16]包含了42495張圖片,包含了300個(gè)不同的行人的600個(gè)圖像視頻序列,其中每個(gè)行人視頻序列的長(zhǎng)度在23到192個(gè)圖像幀之間。相較于PRID2011數(shù)據(jù)集,iLIDS-VID數(shù)據(jù)集中場(chǎng)景和遮擋等問(wèn)題更加復(fù)雜,給研究人員帶來(lái)了很大的挑戰(zhàn)。
表2可知,本文方法對(duì)iLIDS-VID數(shù)據(jù)集在CMC上同樣有所提高,將Rank1提高到64%。相較于ASTPN提高2%,Rank5也提升了2%。
3 結(jié)論
目前,行人再識(shí)別的優(yōu)化目標(biāo)主要是提取對(duì)行人更具鑒別力的魯棒特征和設(shè)計(jì)網(wǎng)絡(luò)模型以提高分類能力。本文提出多尺度幀率的視頻行人再識(shí)別方法,方法首先利用自適應(yīng)可分離卷積插幀算法對(duì)視頻序列插圖像幀,插入的圖像增加了行人的姿勢(shì)信息和步態(tài)信息,擴(kuò)大了行人再識(shí)別視頻數(shù)據(jù)集。同時(shí),輸入不同尺度幀率的視頻序列使網(wǎng)絡(luò)對(duì)行人行走周期、步伐大小的變化具有更好的魯棒性,提高了網(wǎng)絡(luò)的泛化性。方法在數(shù)據(jù)集上進(jìn)行試驗(yàn)取得了較好的實(shí)驗(yàn)結(jié)果。針對(duì)目前行人再識(shí)別數(shù)據(jù)集中的遮擋干擾行人目標(biāo)有效特征的表達(dá),準(zhǔn)備利用生成對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行圖像去遮擋任務(wù),用來(lái)提高算法識(shí)別率。
參考文獻(xiàn):
[1] Yi D, Lei Z, Liao S, et al. Deep Metric Learning for Person Re-identification[C]// International Conference on Pattern Recognition. IEEE, 2014:34-39.
[2] Varior R R, Shuai B, Lu J, et al. A Siamese Long Short-Term Memory Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:135-153.
[3] Varior R R, Haloi M, Wang G. Gated Siamese Convolutional Neural Network Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:791-808.
[4] Mclaughlin N, Rincon J M D, Miller P. Recurrent Convolutional Network for Video-Based Person Re-identification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1325-1334.
[5] Wu L, Shen C, Hengel A V D. Deep Recurrent Convolutional Networks for Video-based Person Re-identification: An End-to-End Approach[J]. 2016.
[6] Xu S, Cheng Y, Gu K, et al. Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:4743-4752.
[7] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.
[8] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.
[9] S. Baker, D. Scharstein, J. P. Lewis, S. Roth, M. J. Black, and R. Szeliski. A database and evaluation methodology for optical flow. International Journal of Computer Vision, 92(1):1– 31, 2011. 1, 2, 5, 6
[10] L. Xu, J. Jia, and Y. Matsushita. Motion detail preserving optical flow estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(9):1744–1757, 2012. 5
[11] Z. Yu, H. Li, Z. Wang, Z. Hu, and C. W. Chen. Multi-level video frame interpolation: Exploiting the interaction among different levels. IEEE Trans. Circuits Syst. Video Techn., 23(7):1235–1248, 2013. 2
[12] S. Meyer, O. Wang, H. Zimmer, M. Grosse, and A. SorkineHornung. Phase-based frame interpolation for video. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1410–1418, 2015. 2, 5
[13] Niklaus S, Mai L, Liu F. Video Frame Interpolation via Adaptive Convolution[J]. 2017:261-270.
[14] Niklaus S, Long M, Liu F. Video Frame Interpolation via Adaptive Separable Convolution[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:261-270.
[15] Hirzer M, Beleznai C, Roth P M, et al. Person re-identification by descriptive and discriminative classification[C]// Scandinavian Conference on Image Analysis. Springer-Verlag, 2011:91-102.
[16] Wang T,Gong S,Zhu X, et al.Person Re-Identification by Discriminative Selection in Video Ranking[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2501-2514.
[17] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking[C].Proc. IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS),2007:1-7.