国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時空正則化的視頻序列中行人的再識別

2019-12-23 07:19:04劉保成樸燕唐悅
計算機應(yīng)用 2019年11期
關(guān)鍵詞:注意力機制機器視覺卷積神經(jīng)網(wǎng)絡(luò)

劉保成 樸燕 唐悅

摘 要:由于現(xiàn)實復(fù)雜情況中各種因素的干擾,行人再識別的過程中可能出現(xiàn)識別錯誤等問題。為了提高行人再識別的準確性,提出了一種基于時空正則化的行人再識別算法。首先,利用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列逐幀進行特征提取,將一系列幀級特征輸入到時空正則化網(wǎng)絡(luò)并產(chǎn)生對應(yīng)的權(quán)重分數(shù); 然后,對幀級特征使用加權(quán)平均得到視頻序列級特征, 為避免權(quán)重分數(shù)聚集在一幀,使用幀級正則化來限制幀間差異;最后, 通過最小化損失得到最優(yōu)結(jié)果。在DukeMTMCReID和MARS數(shù)據(jù)集中做了大量的測試,實驗結(jié)果表明,所提方法與Triplet算法相比能夠有效提高行人再識別的平均精度(mAP)和準確率,并且對于人體姿勢變化、視角變化和相似外觀目標的干擾具有出色的性能表現(xiàn)。

關(guān)鍵詞:機器視覺;行人再識別;注意力機制;卷積神經(jīng)網(wǎng)絡(luò);時間建模

中圖分類號:TP391.41

文獻標志碼:A

Person reidentification in video sequence based on spatialtemporal regularization

LIU Baocheng, PIAO Yan*, TANG Yue

College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China

Abstract:

Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.

Key words:

machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling

0?引言

近年來,隨著智能視頻分析的迅速發(fā)展和國家對公共安防監(jiān)控的重視,行人再識別技術(shù)已成為視頻監(jiān)控領(lǐng)域中至關(guān)重要的一部分[1]。行人再識別來源于多攝像機目標跟蹤,主要處理非重疊攝像機間重新確定特定行人的問題,即判斷在不同時間、不同地點出現(xiàn)在不同攝像機的行人是否為同一個人。

基于視頻的行人再識別是當前研究的熱點,現(xiàn)階段的大多數(shù)方法都是基于深度神經(jīng)網(wǎng)絡(luò)和時間信息建模: McLaughlin等[2]首先提出通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)對幀之間的時間信息建模; Wu等[3]通過訓(xùn)練卷積網(wǎng)絡(luò)和循環(huán)層,從視頻中提取外觀特征和時空特征,并構(gòu)建混合網(wǎng)絡(luò)融合兩種類型的特征; Liu等[4]設(shè)計了一個質(zhì)量感知網(wǎng)絡(luò)(Quality Aware Network, QAN)用于聚合時序特征; Zhou等[5]提出用RNN和時間注意方法對行人進行再識別; Karpathy等[6]設(shè)計了一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來提取特征,并使用時間池化方法來聚合特征。由于不同相機拍攝的視頻圖像會因光照變化、遮擋或人體姿勢變化等因素影響,目標會出現(xiàn)較大的外觀變化,使得行人再識別仍然是一個具有挑戰(zhàn)性的問題。

本文針對行人再識別的準確性,提出了一種基于時空正則化的行人再識別算法。利用ResNet-50網(wǎng)絡(luò)逐幀進行特征提取,幀級特征經(jīng)過時空正則化網(wǎng)絡(luò)產(chǎn)生相應(yīng)的權(quán)重分數(shù),通過加權(quán)平均將幀級特征融合為一個序列級特征; 同時使用幀級正則化避免權(quán)重分數(shù)聚集在一幀,最終通過最小化損失函數(shù)找到最佳的識別結(jié)果。

1?相關(guān)工作

1.1?卷積神經(jīng)網(wǎng)絡(luò)

最近幾年,深度學習在計算機視覺領(lǐng)域取得了出色的成績。與人工設(shè)計特征的方法相比,基于深度學習的方法可以從大量數(shù)據(jù)中自主學習得到圖像的特征信息,更加符合人工智能的要求。

在計算機視覺領(lǐng)域中,CNN是應(yīng)用最廣泛的深度學習模型之一, CNN通過在卷積層中的非線性疊加可以得到具有高級語義信息的特征,并且其每個卷積層都可以得到輸入圖像的不同特征表達。在行人再識別的過程中,利用CNN提取目標行人更精準和更具有判別性的特征,可以獲得更多關(guān)于目標行人的信息,有利于提高識別結(jié)果的準確性。

本文使用在ImageNet數(shù)據(jù)集[7]上預(yù)訓(xùn)練的ResNet-50[8]卷積神經(jīng)網(wǎng)絡(luò)對輸入的視頻序列進行特征提取。ResNet-50網(wǎng)絡(luò)深度為50層,其中包含5個卷積層,即Conv1和4個具有殘差模塊的Conv2、Conv3、Conv4、Conv5。ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.2?時間建模方法

近年來由于數(shù)據(jù)集規(guī)模不斷地擴大,基于視頻的行人再識別成為當前研究的主流方向。與基于圖像的方法相比,基于視頻的方法可以有效地利用視頻序列中的時間信息。因為攝像機拍攝的大部分都是時間連續(xù)的視頻,可以為行人再識別提供更多的信息。

基于視頻的行人再識別方法主要注重時間信息的整合,即通過時間建模的方法將幀級特征聚合為視頻序列級特征。首先,將輸入的視頻序列通過卷積神經(jīng)網(wǎng)絡(luò)提取幀級特征{ft},t∈[1,T],其中T表示視頻序列的幀數(shù);然后,利用時間建模方法將幀級特征{ft}聚合成單個特征f,用f表示視頻序列級特征;最后,通過最小化損失得到最優(yōu)的識別結(jié)果。圖2展示了基于時間建模方法的原理。

常用的時間建模方法有三種:時間池化、時間注意和RNN或其改進模型長短期記憶(Long ShortTerm Memory, LSTM)網(wǎng)絡(luò)。在時間池化模型[9]中,主要使用最大池化或平均池化。對于最大池化,f=maxft; 對于平均池化, f=1T∑Tt=1ft。但當視頻中目標行人經(jīng)常出現(xiàn)遮擋時,這種方法通常會失敗。

RNN或LSTM模型中[10],將一系列幀級特征聚合成單個特征主要有兩種方法:第一種方法是直接在最后一個步驟采用隱藏狀態(tài)hT,即f=hT; 第二種方法是計算RNN的輸出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取淺層特征,缺少對目標的判別性表達,并且難以在大型數(shù)據(jù)集中訓(xùn)練。

在基于時間注意的模型[11]中,主要使用加權(quán)平均法將幀級特征聚合為序列級特征,即f=1T∑Tt=1αt ft,其中αt為每幀的權(quán)重?;跁r間注意的方法可以很好地抑制噪聲的干擾(如遮擋等),并且它是現(xiàn)在最主流的方法之一。

2?本文方法

本文首先使用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列逐幀進行特征提取,將最后一個卷積層(Conv5)的特征輸入到時空正則化網(wǎng)絡(luò)并產(chǎn)生相應(yīng)的權(quán)重分數(shù),通過對所有幀級特征加權(quán)平均得到視頻序列級特征。為了避免在注意圖轉(zhuǎn)換為權(quán)重分數(shù)時聚焦于一幀而忽略其他幀,使用幀級正則化來限制幀間差異。最后將幀級正則化與三重損失函數(shù)、softmax交叉熵損失函數(shù)聯(lián)合起來,用于訓(xùn)練整個網(wǎng)絡(luò)。本文方法的整體框圖如圖3所示。

2.1?特征提取

本文使用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列進行特征提取。通常,ResNet-50網(wǎng)絡(luò)使用一系列層處理圖像,其中每個單獨的層由卷積、池化和非線性激活函數(shù)等步驟組成。為了簡化符號,本文將ResNet-50網(wǎng)絡(luò)定義為函數(shù)fc=C(x),其將圖像x作為輸入并且產(chǎn)生特征作為輸出。

設(shè)I=I1,I2,…,IT是由行人圖像組成的長度為T的視頻序列,其中It是目標行人在時間t處的圖像。每個圖像It通過ResNet-50網(wǎng)絡(luò)之后產(chǎn)生幀級特征,即ft=C(It)。本文將視頻序列輸入到ResNet-50網(wǎng)絡(luò)中并輸出一系列幀級特征{ft}(t∈[1,T])。

2.2?時空正則化

ResNet-50網(wǎng)絡(luò)中最后一個卷積層(Conv5)的特征圖大小為W×H,其維度為D=2-048,H和W是特征圖的高度和寬度,H和W的大小取決于輸入圖像的尺寸。首先將幀級特征ft=(ft1, ft2,…, ftD)作為時空正則化網(wǎng)絡(luò)的輸入,將特征圖中的所有元素,針對每個特征通道d進行空間正則化,生成相應(yīng)的注意圖gt:

gt=ftd/‖ft‖2(1)

其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范數(shù)。在經(jīng)過空間正則化之后,每幀都具有一個對應(yīng)的注意圖。然后將每幀注意圖中的所有元素針對每個特征通道d使用L1范數(shù)以獲得相應(yīng)的空間注意分數(shù):

st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)

其中m和n代表每幀注意圖中相應(yīng)的所有元素。因此,每幀都具有一個對應(yīng)的空間注意分數(shù)st。

本文直接比較來自不同幀的空間注意分數(shù)st(t∈[1,T]),并采用Sigmoid函數(shù)和L1歸一化計算時間注意分數(shù):

αt=σ(st)/∑Tt=1σ(st)(3)

其中σ表示Sigmoid函數(shù)。最后,為每幀分配一個特定的權(quán)重分數(shù)αt,通過加權(quán)平均得到視頻序列級特征f:

f=1T∑Tt=1αt ft(4)

2.3?幀級正則化

對于基于視頻的行人再識別而言,來自同一視頻序列的行人圖像應(yīng)代表同一人的外觀,但是在注意圖轉(zhuǎn)換為注意分數(shù)時,會出現(xiàn)注意分數(shù)集中在一個特定幀上并且在很大程度上忽略其他幀的情況。為了限制幀間差異,避免注意分數(shù)聚集在一幀,本文從視頻序列的T幀中隨機選擇兩幀i和j,并使用Frobenius范數(shù)對幀級注意圖進行正則化:

Fi,j=‖gi-gj‖F(xiàn)=

∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)

其中g(shù)i和gj是由式(1)產(chǎn)生的注意圖。將所有正則化項Fi, j乘以一個常數(shù)β后加到式(9)中來最小化損失:

minLtotal+Ti=j=1i≠jβ·Fi, j(6)

2.4?損失函數(shù)

本文使用三重損失函數(shù)和softmax交叉熵損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。

三重損失函數(shù)最初是Hermans等[12]提出的,是原始的三重損失(semihard triplet loss)的改進版。本文為每個小批量(minibatch)隨機抽取P個身份,并為每個身份隨機抽取K個視頻序列(每個序列包含T幀),以滿足三重損失函數(shù)要求。三重損失函數(shù)可以表述如下:

Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-

minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)

其中:f(i)a、 f(i)p和f(j)n分別是從目標樣本、正樣本和負樣本中提取的特征; α是用于控制樣本內(nèi)部距離的超參數(shù)。正樣本和負樣本指的是與目標樣本具有相同身份和不同身份的行人。

除了使用三重損失函數(shù)以外,本文還采用softmax交叉熵損失進行判別性學習。softmax交叉熵損失函數(shù)可以表述如下:

Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)

其中pi,a和qi,a是樣本{i,a}的真實身份和預(yù)測。

總損失函數(shù)Ltotal是softmax損失和triplet損失的組合,如式(9)所示:

Ltotal=Lsoftmax+Ltriplet(9)

3?實驗與結(jié)果

3.1?實驗環(huán)境和參數(shù)設(shè)置

本文使用Python語言進行編程,實驗環(huán)境為pytorch。所有實驗都在Windows 10系統(tǒng),NVIDIA GTX 1060 GPU的電腦上完成。視頻序列的大小調(diào)整為256×128。首先從輸入的視頻序列中隨機選擇T=4幀,然后隨機選擇P=4個身份對每個小批量(minibatch)進行采樣,并從訓(xùn)練集中為每個身份隨機抽取K=4個視頻序列,批量大小(batch size)為32。學習率為0.000-3,三重損失函數(shù)的margin參數(shù)設(shè)置為0.3。在訓(xùn)練期間,采用Adam[13]優(yōu)化網(wǎng)絡(luò)。

3.2?數(shù)據(jù)集

運動分析和再識別數(shù)據(jù)集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261個身份和大約20-000個視頻序列,是迄今為止最大的視頻行人再識別數(shù)據(jù)集之一。這些序列至少由2個攝像機捕獲,最多由6個攝像機捕獲,每個身份平均有13.2個序列。此外,數(shù)據(jù)集固定地分為訓(xùn)練集和測試集,用于訓(xùn)練的身份為625個,用于測試的身份為626個,其中還包含3-248個干擾序列。

DukeMTMCReID數(shù)據(jù)集[15]源自DukeMTMC數(shù)據(jù)集[16],也是一個大規(guī)模的行人再識別數(shù)據(jù)集。它由8個攝像機捕獲的1-812個身份組成,其中1-404個身份出現(xiàn)在兩個以上的攝像機中,其余的408個是干擾身份。數(shù)據(jù)集固定地分為訓(xùn)練集和測試集,都有702個身份。

3.3?評價指標

為了評估本文的方法,使用累積匹配特征(Cumulative Matching Characteristic, CMC)曲線和平均精度(mean Average Precision, mAP)作為本實驗中的評價指標。CMC曲線表示行人識別的準確性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲線。當每次識別僅對應(yīng)視頻序列中的一個目標時,CMC指標是有效的, 但是當視頻中存在多個目標時,CMC指標是有偏差的。DukeMTMCReID和MARS數(shù)據(jù)集在使用CMC曲線作為評價指標的同時,也采用mAP作為評價指標。相比之下,mAP是一個更具有綜合性的指標,非常適合單目標和多目標的再識別。

3.4?在MARS和DukeMTMCReID數(shù)據(jù)集中評估

為了驗證本文方法的有效性,在MARS數(shù)據(jù)集中進行了測試與分析。本文選取了4個具有代表性的視頻序列,如圖4所示,其中:query表示待識別的目標行人; 數(shù)字1~10表示Rank1到Rank10; 黑色實線框代表正樣本(與目標具有相同身份的人),即識別正確; 無框代表負樣本(與目標具有不同身份的人),即匹配錯誤。

從圖4(a)中可以看出,本文方法成功識別不同視角的所有候選者;在圖4(b)中本文方法也成功找到了最高等級的正確候選者;圖4(c)受到明顯的光照變化的影響;圖4(d)包含與待識別目標具有相似外觀行人的干擾。實驗結(jié)果表明本文方法對于人體姿勢變化、視角變化、光照變化和相似外觀目標的干擾都具有出色的性能表現(xiàn)。

表1列出了本文方法中各個組成部分的性能比較結(jié)果,其中:Baseline對應(yīng)于在DukeMTMCReID和MARS數(shù)據(jù)集上使用softmax交叉熵損失函數(shù)訓(xùn)練的基礎(chǔ)的網(wǎng)絡(luò)模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分別代表三重損失函數(shù)、時空正則化和幀級正則化。Baseline+Triplet代表用三重損失函數(shù)和softmax交叉熵損失函數(shù)訓(xùn)練的網(wǎng)絡(luò)。在MARS數(shù)據(jù)集中,與Baseline+Triplet相比,STR在mAP方面提高了2.5個百分點,在Rank1準確率方面提高了3.3個百分點。與Baseline+Triplet+STR相比,F(xiàn)LR方法在mAP方面提高了1.7個百分點,在Rank1準確率方面提高了2.7個百分點。在DukeMTMCReID數(shù)據(jù)集中,STR在mAP方面提高了1.7個百分點,在Rank1準確率方面提高了4.8個百分點。而FLR在mAP方面提高了1.2個百分點,在Rank1準確率上提高了1.8個百分點。結(jié)果表明空間正則化方法有助于提高行人再識別的準確性,幀級正則化方法可以平衡幀間差異,進一步提高整體的性能。

表2展示了輸入不同長度視頻序列的性能比較。為了公平比較,本文除了改變視頻序列的長度T以外,其他的參數(shù)均保持不變。T=1是不使用時間建模方法的單幅圖像的模型。從表2中可以看出,隨著序列長度T的增加,mAP和Rank準確率得分均有所提高, 這表明時間建模方法對于提高行人再識別的準確性是有效的。當T=4時,本文方法的整體性能表現(xiàn)最佳。T=4時,在MARS數(shù)據(jù)集中本文方法的Rank1準確率為82.1%,mAP為72.3%;而在DukeMTMCReID數(shù)據(jù)集中本文方法的Rank1準確率為80.0%,mAP為61.2%。

為了進行公平的比較,本文使用相同的基礎(chǔ)模型與現(xiàn)有的方法進行對比。表3列出了本文方法與MARS中其他方法的比較,其中“—”表示論文作者沒有進行對應(yīng)的實驗(下同)。本文方法的mAP為72.3%,與Triplet[12]相比提高了4.6個百分點,與CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9個百分點,與MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3個百分點。Rank1準確率為 82.1%,相對于Triplet 提高了2.3個百分點,相對于CSACSE提高了0.9個百分點。對于Rank-5和Rank20而言,本文方法也取得了出色的成績。在Rank10方面,準確率為93.1%。

表4列出了本文方法與DukeMTMCReID中其他方法的比較, 該數(shù)據(jù)集比MARS更具有挑戰(zhàn)性,因為它的相機視域更寬,場景更復(fù)雜,行人圖像在分辨率和背景方面變化很大。表4中列出了本文方法的mAP和Rank1準確率分別為61.2%和80.0%,與APR方法相比[21]均提高了9.3個百分點,與其他方法相比并沒有明顯的提高。但是本文方法的模型更加簡單、且易于訓(xùn)練。表4還列出了本文方法的Rank-5和Rank20準確率分別為88.8%和93.7%。

4?結(jié)語

本文主要對基于視頻的行人再識別進行了分析和研究。實驗結(jié)果表明,時間建模方法對于提高視頻中行人再識別的準確性是有效的。本文還提出了時空正則化和幀級正則化策略,進一步提高了行人再識別的準確性。在DukeMTMCReID和MARS數(shù)據(jù)集上進行實驗,實驗結(jié)果清楚地證明了本文方法的整體有效性。未來的主要工作是將本文方法與目標檢測或跟蹤算法相結(jié)合應(yīng)用于實際的多攝像機監(jiān)控環(huán)境,實現(xiàn)對目標行人準確的識別和連續(xù)、穩(wěn)定的跟蹤。

參考文獻 (References)

[1]李幼蛟,卓力,張菁,等.行人再識別技術(shù)綜述[J].自動化學報, 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)

[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.

[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.

[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.

[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.

[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.

[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.

[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.

[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.

[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.

[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.

[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.

[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.

[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.

[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.

[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.

[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.

[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.

[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.

[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.

[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.

[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.

[25]李姣,張曉暉,朱虹,等.多置信度重排序的行人再識別算法[J].模式識別與人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)

This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).

LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.

PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.

TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.

摘 要:由于現(xiàn)實復(fù)雜情況中各種因素的干擾,行人再識別的過程中可能出現(xiàn)識別錯誤等問題。為了提高行人再識別的準確性,提出了一種基于時空正則化的行人再識別算法。首先,利用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列逐幀進行特征提取,將一系列幀級特征輸入到時空正則化網(wǎng)絡(luò)并產(chǎn)生對應(yīng)的權(quán)重分數(shù); 然后,對幀級特征使用加權(quán)平均得到視頻序列級特征, 為避免權(quán)重分數(shù)聚集在一幀,使用幀級正則化來限制幀間差異;最后, 通過最小化損失得到最優(yōu)結(jié)果。在DukeMTMCReID和MARS數(shù)據(jù)集中做了大量的測試,實驗結(jié)果表明,所提方法與Triplet算法相比能夠有效提高行人再識別的平均精度(mAP)和準確率,并且對于人體姿勢變化、視角變化和相似外觀目標的干擾具有出色的性能表現(xiàn)。

關(guān)鍵詞:機器視覺;行人再識別;注意力機制;卷積神經(jīng)網(wǎng)絡(luò);時間建模

中圖分類號:TP391.41

文獻標志碼:A

Person reidentification in video sequence based on spatialtemporal regularization

LIU Baocheng, PIAO Yan*, TANG Yue

College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China

Abstract:

Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.

Key words:

machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling

0?引言

近年來,隨著智能視頻分析的迅速發(fā)展和國家對公共安防監(jiān)控的重視,行人再識別技術(shù)已成為視頻監(jiān)控領(lǐng)域中至關(guān)重要的一部分[1]。行人再識別來源于多攝像機目標跟蹤,主要處理非重疊攝像機間重新確定特定行人的問題,即判斷在不同時間、不同地點出現(xiàn)在不同攝像機的行人是否為同一個人。

基于視頻的行人再識別是當前研究的熱點,現(xiàn)階段的大多數(shù)方法都是基于深度神經(jīng)網(wǎng)絡(luò)和時間信息建模: McLaughlin等[2]首先提出通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)對幀之間的時間信息建模; Wu等[3]通過訓(xùn)練卷積網(wǎng)絡(luò)和循環(huán)層,從視頻中提取外觀特征和時空特征,并構(gòu)建混合網(wǎng)絡(luò)融合兩種類型的特征; Liu等[4]設(shè)計了一個質(zhì)量感知網(wǎng)絡(luò)(Quality Aware Network, QAN)用于聚合時序特征; Zhou等[5]提出用RNN和時間注意方法對行人進行再識別; Karpathy等[6]設(shè)計了一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)來提取特征,并使用時間池化方法來聚合特征。由于不同相機拍攝的視頻圖像會因光照變化、遮擋或人體姿勢變化等因素影響,目標會出現(xiàn)較大的外觀變化,使得行人再識別仍然是一個具有挑戰(zhàn)性的問題。

本文針對行人再識別的準確性,提出了一種基于時空正則化的行人再識別算法。利用ResNet-50網(wǎng)絡(luò)逐幀進行特征提取,幀級特征經(jīng)過時空正則化網(wǎng)絡(luò)產(chǎn)生相應(yīng)的權(quán)重分數(shù),通過加權(quán)平均將幀級特征融合為一個序列級特征; 同時使用幀級正則化避免權(quán)重分數(shù)聚集在一幀,最終通過最小化損失函數(shù)找到最佳的識別結(jié)果。

1?相關(guān)工作

1.1?卷積神經(jīng)網(wǎng)絡(luò)

最近幾年,深度學習在計算機視覺領(lǐng)域取得了出色的成績。與人工設(shè)計特征的方法相比,基于深度學習的方法可以從大量數(shù)據(jù)中自主學習得到圖像的特征信息,更加符合人工智能的要求。

在計算機視覺領(lǐng)域中,CNN是應(yīng)用最廣泛的深度學習模型之一, CNN通過在卷積層中的非線性疊加可以得到具有高級語義信息的特征,并且其每個卷積層都可以得到輸入圖像的不同特征表達。在行人再識別的過程中,利用CNN提取目標行人更精準和更具有判別性的特征,可以獲得更多關(guān)于目標行人的信息,有利于提高識別結(jié)果的準確性。

本文使用在ImageNet數(shù)據(jù)集[7]上預(yù)訓(xùn)練的ResNet-50[8]卷積神經(jīng)網(wǎng)絡(luò)對輸入的視頻序列進行特征提取。ResNet-50網(wǎng)絡(luò)深度為50層,其中包含5個卷積層,即Conv1和4個具有殘差模塊的Conv2、Conv3、Conv4、Conv5。ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.2?時間建模方法

近年來由于數(shù)據(jù)集規(guī)模不斷地擴大,基于視頻的行人再識別成為當前研究的主流方向。與基于圖像的方法相比,基于視頻的方法可以有效地利用視頻序列中的時間信息。因為攝像機拍攝的大部分都是時間連續(xù)的視頻,可以為行人再識別提供更多的信息。

基于視頻的行人再識別方法主要注重時間信息的整合,即通過時間建模的方法將幀級特征聚合為視頻序列級特征。首先,將輸入的視頻序列通過卷積神經(jīng)網(wǎng)絡(luò)提取幀級特征{ft},t∈[1,T],其中T表示視頻序列的幀數(shù);然后,利用時間建模方法將幀級特征{ft}聚合成單個特征f,用f表示視頻序列級特征;最后,通過最小化損失得到最優(yōu)的識別結(jié)果。圖2展示了基于時間建模方法的原理。

常用的時間建模方法有三種:時間池化、時間注意和RNN或其改進模型長短期記憶(Long ShortTerm Memory, LSTM)網(wǎng)絡(luò)。在時間池化模型[9]中,主要使用最大池化或平均池化。對于最大池化,f=maxft; 對于平均池化, f=1T∑Tt=1ft。但當視頻中目標行人經(jīng)常出現(xiàn)遮擋時,這種方法通常會失敗。

RNN或LSTM模型中[10],將一系列幀級特征聚合成單個特征主要有兩種方法:第一種方法是直接在最后一個步驟采用隱藏狀態(tài)hT,即f=hT; 第二種方法是計算RNN的輸出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取淺層特征,缺少對目標的判別性表達,并且難以在大型數(shù)據(jù)集中訓(xùn)練。

在基于時間注意的模型[11]中,主要使用加權(quán)平均法將幀級特征聚合為序列級特征,即f=1T∑Tt=1αt ft,其中αt為每幀的權(quán)重?;跁r間注意的方法可以很好地抑制噪聲的干擾(如遮擋等),并且它是現(xiàn)在最主流的方法之一。

2?本文方法

本文首先使用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列逐幀進行特征提取,將最后一個卷積層(Conv5)的特征輸入到時空正則化網(wǎng)絡(luò)并產(chǎn)生相應(yīng)的權(quán)重分數(shù),通過對所有幀級特征加權(quán)平均得到視頻序列級特征。為了避免在注意圖轉(zhuǎn)換為權(quán)重分數(shù)時聚焦于一幀而忽略其他幀,使用幀級正則化來限制幀間差異。最后將幀級正則化與三重損失函數(shù)、softmax交叉熵損失函數(shù)聯(lián)合起來,用于訓(xùn)練整個網(wǎng)絡(luò)。本文方法的整體框圖如圖3所示。

2.1?特征提取

本文使用ResNet-50網(wǎng)絡(luò)對輸入的視頻序列進行特征提取。通常,ResNet-50網(wǎng)絡(luò)使用一系列層處理圖像,其中每個單獨的層由卷積、池化和非線性激活函數(shù)等步驟組成。為了簡化符號,本文將ResNet-50網(wǎng)絡(luò)定義為函數(shù)fc=C(x),其將圖像x作為輸入并且產(chǎn)生特征作為輸出。

設(shè)I=I1,I2,…,IT是由行人圖像組成的長度為T的視頻序列,其中It是目標行人在時間t處的圖像。每個圖像It通過ResNet-50網(wǎng)絡(luò)之后產(chǎn)生幀級特征,即ft=C(It)。本文將視頻序列輸入到ResNet-50網(wǎng)絡(luò)中并輸出一系列幀級特征{ft}(t∈[1,T])。

2.2?時空正則化

ResNet-50網(wǎng)絡(luò)中最后一個卷積層(Conv5)的特征圖大小為W×H,其維度為D=2-048,H和W是特征圖的高度和寬度,H和W的大小取決于輸入圖像的尺寸。首先將幀級特征ft=(ft1, ft2,…, ftD)作為時空正則化網(wǎng)絡(luò)的輸入,將特征圖中的所有元素,針對每個特征通道d進行空間正則化,生成相應(yīng)的注意圖gt:

gt=ftd/‖ft‖2(1)

其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范數(shù)。在經(jīng)過空間正則化之后,每幀都具有一個對應(yīng)的注意圖。然后將每幀注意圖中的所有元素針對每個特征通道d使用L1范數(shù)以獲得相應(yīng)的空間注意分數(shù):

st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)

其中m和n代表每幀注意圖中相應(yīng)的所有元素。因此,每幀都具有一個對應(yīng)的空間注意分數(shù)st。

本文直接比較來自不同幀的空間注意分數(shù)st(t∈[1,T]),并采用Sigmoid函數(shù)和L1歸一化計算時間注意分數(shù):

αt=σ(st)/∑Tt=1σ(st)(3)

其中σ表示Sigmoid函數(shù)。最后,為每幀分配一個特定的權(quán)重分數(shù)αt,通過加權(quán)平均得到視頻序列級特征f:

f=1T∑Tt=1αt ft(4)

2.3?幀級正則化

對于基于視頻的行人再識別而言,來自同一視頻序列的行人圖像應(yīng)代表同一人的外觀,但是在注意圖轉(zhuǎn)換為注意分數(shù)時,會出現(xiàn)注意分數(shù)集中在一個特定幀上并且在很大程度上忽略其他幀的情況。為了限制幀間差異,避免注意分數(shù)聚集在一幀,本文從視頻序列的T幀中隨機選擇兩幀i和j,并使用Frobenius范數(shù)對幀級注意圖進行正則化:

Fi,j=‖gi-gj‖F(xiàn)=

∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)

其中g(shù)i和gj是由式(1)產(chǎn)生的注意圖。將所有正則化項Fi, j乘以一個常數(shù)β后加到式(9)中來最小化損失:

minLtotal+Ti=j=1i≠jβ·Fi, j(6)

2.4?損失函數(shù)

本文使用三重損失函數(shù)和softmax交叉熵損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。

三重損失函數(shù)最初是Hermans等[12]提出的,是原始的三重損失(semihard triplet loss)的改進版。本文為每個小批量(minibatch)隨機抽取P個身份,并為每個身份隨機抽取K個視頻序列(每個序列包含T幀),以滿足三重損失函數(shù)要求。三重損失函數(shù)可以表述如下:

Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-

minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)

其中:f(i)a、 f(i)p和f(j)n分別是從目標樣本、正樣本和負樣本中提取的特征; α是用于控制樣本內(nèi)部距離的超參數(shù)。正樣本和負樣本指的是與目標樣本具有相同身份和不同身份的行人。

除了使用三重損失函數(shù)以外,本文還采用softmax交叉熵損失進行判別性學習。softmax交叉熵損失函數(shù)可以表述如下:

Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)

其中pi,a和qi,a是樣本{i,a}的真實身份和預(yù)測。

總損失函數(shù)Ltotal是softmax損失和triplet損失的組合,如式(9)所示:

Ltotal=Lsoftmax+Ltriplet(9)

3?實驗與結(jié)果

3.1?實驗環(huán)境和參數(shù)設(shè)置

本文使用Python語言進行編程,實驗環(huán)境為pytorch。所有實驗都在Windows 10系統(tǒng),NVIDIA GTX 1060 GPU的電腦上完成。視頻序列的大小調(diào)整為256×128。首先從輸入的視頻序列中隨機選擇T=4幀,然后隨機選擇P=4個身份對每個小批量(minibatch)進行采樣,并從訓(xùn)練集中為每個身份隨機抽取K=4個視頻序列,批量大?。╞atch size)為32。學習率為0.000-3,三重損失函數(shù)的margin參數(shù)設(shè)置為0.3。在訓(xùn)練期間,采用Adam[13]優(yōu)化網(wǎng)絡(luò)。

3.2?數(shù)據(jù)集

運動分析和再識別數(shù)據(jù)集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261個身份和大約20-000個視頻序列,是迄今為止最大的視頻行人再識別數(shù)據(jù)集之一。這些序列至少由2個攝像機捕獲,最多由6個攝像機捕獲,每個身份平均有13.2個序列。此外,數(shù)據(jù)集固定地分為訓(xùn)練集和測試集,用于訓(xùn)練的身份為625個,用于測試的身份為626個,其中還包含3-248個干擾序列。

DukeMTMCReID數(shù)據(jù)集[15]源自DukeMTMC數(shù)據(jù)集[16],也是一個大規(guī)模的行人再識別數(shù)據(jù)集。它由8個攝像機捕獲的1-812個身份組成,其中1-404個身份出現(xiàn)在兩個以上的攝像機中,其余的408個是干擾身份。數(shù)據(jù)集固定地分為訓(xùn)練集和測試集,都有702個身份。

3.3?評價指標

為了評估本文的方法,使用累積匹配特征(Cumulative Matching Characteristic, CMC)曲線和平均精度(mean Average Precision, mAP)作為本實驗中的評價指標。CMC曲線表示行人識別的準確性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲線。當每次識別僅對應(yīng)視頻序列中的一個目標時,CMC指標是有效的, 但是當視頻中存在多個目標時,CMC指標是有偏差的。DukeMTMCReID和MARS數(shù)據(jù)集在使用CMC曲線作為評價指標的同時,也采用mAP作為評價指標。相比之下,mAP是一個更具有綜合性的指標,非常適合單目標和多目標的再識別。

3.4?在MARS和DukeMTMCReID數(shù)據(jù)集中評估

為了驗證本文方法的有效性,在MARS數(shù)據(jù)集中進行了測試與分析。本文選取了4個具有代表性的視頻序列,如圖4所示,其中:query表示待識別的目標行人; 數(shù)字1~10表示Rank1到Rank10; 黑色實線框代表正樣本(與目標具有相同身份的人),即識別正確; 無框代表負樣本(與目標具有不同身份的人),即匹配錯誤。

從圖4(a)中可以看出,本文方法成功識別不同視角的所有候選者;在圖4(b)中本文方法也成功找到了最高等級的正確候選者;圖4(c)受到明顯的光照變化的影響;圖4(d)包含與待識別目標具有相似外觀行人的干擾。實驗結(jié)果表明本文方法對于人體姿勢變化、視角變化、光照變化和相似外觀目標的干擾都具有出色的性能表現(xiàn)。

表1列出了本文方法中各個組成部分的性能比較結(jié)果,其中:Baseline對應(yīng)于在DukeMTMCReID和MARS數(shù)據(jù)集上使用softmax交叉熵損失函數(shù)訓(xùn)練的基礎(chǔ)的網(wǎng)絡(luò)模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分別代表三重損失函數(shù)、時空正則化和幀級正則化。Baseline+Triplet代表用三重損失函數(shù)和softmax交叉熵損失函數(shù)訓(xùn)練的網(wǎng)絡(luò)。在MARS數(shù)據(jù)集中,與Baseline+Triplet相比,STR在mAP方面提高了2.5個百分點,在Rank1準確率方面提高了3.3個百分點。與Baseline+Triplet+STR相比,F(xiàn)LR方法在mAP方面提高了1.7個百分點,在Rank1準確率方面提高了2.7個百分點。在DukeMTMCReID數(shù)據(jù)集中,STR在mAP方面提高了1.7個百分點,在Rank1準確率方面提高了4.8個百分點。而FLR在mAP方面提高了1.2個百分點,在Rank1準確率上提高了1.8個百分點。結(jié)果表明空間正則化方法有助于提高行人再識別的準確性,幀級正則化方法可以平衡幀間差異,進一步提高整體的性能。

表2展示了輸入不同長度視頻序列的性能比較。為了公平比較,本文除了改變視頻序列的長度T以外,其他的參數(shù)均保持不變。T=1是不使用時間建模方法的單幅圖像的模型。從表2中可以看出,隨著序列長度T的增加,mAP和Rank準確率得分均有所提高, 這表明時間建模方法對于提高行人再識別的準確性是有效的。當T=4時,本文方法的整體性能表現(xiàn)最佳。T=4時,在MARS數(shù)據(jù)集中本文方法的Rank1準確率為82.1%,mAP為72.3%;而在DukeMTMCReID數(shù)據(jù)集中本文方法的Rank1準確率為80.0%,mAP為61.2%。

為了進行公平的比較,本文使用相同的基礎(chǔ)模型與現(xiàn)有的方法進行對比。表3列出了本文方法與MARS中其他方法的比較,其中“—”表示論文作者沒有進行對應(yīng)的實驗(下同)。本文方法的mAP為72.3%,與Triplet[12]相比提高了4.6個百分點,與CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9個百分點,與MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3個百分點。Rank1準確率為 82.1%,相對于Triplet 提高了2.3個百分點,相對于CSACSE提高了0.9個百分點。對于Rank-5和Rank20而言,本文方法也取得了出色的成績。在Rank10方面,準確率為93.1%。

表4列出了本文方法與DukeMTMCReID中其他方法的比較, 該數(shù)據(jù)集比MARS更具有挑戰(zhàn)性,因為它的相機視域更寬,場景更復(fù)雜,行人圖像在分辨率和背景方面變化很大。表4中列出了本文方法的mAP和Rank1準確率分別為61.2%和80.0%,與APR方法相比[21]均提高了9.3個百分點,與其他方法相比并沒有明顯的提高。但是本文方法的模型更加簡單、且易于訓(xùn)練。表4還列出了本文方法的Rank-5和Rank20準確率分別為88.8%和93.7%。

4?結(jié)語

本文主要對基于視頻的行人再識別進行了分析和研究。實驗結(jié)果表明,時間建模方法對于提高視頻中行人再識別的準確性是有效的。本文還提出了時空正則化和幀級正則化策略,進一步提高了行人再識別的準確性。在DukeMTMCReID和MARS數(shù)據(jù)集上進行實驗,實驗結(jié)果清楚地證明了本文方法的整體有效性。未來的主要工作是將本文方法與目標檢測或跟蹤算法相結(jié)合應(yīng)用于實際的多攝像機監(jiān)控環(huán)境,實現(xiàn)對目標行人準確的識別和連續(xù)、穩(wěn)定的跟蹤。

參考文獻 (References)

[1]李幼蛟,卓力,張菁,等.行人再識別技術(shù)綜述[J].自動化學報, 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)

[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.

[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.

[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.

[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.

[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.

[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.

[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.

[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.

[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.

[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.

[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.

[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.

[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.

[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.

[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.

[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.

[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.

[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.

[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.

[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.

[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.

[25]李姣,張曉暉,朱虹,等.多置信度重排序的行人再識別算法[J].模式識別與人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)

This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).

LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.

PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.

TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.

猜你喜歡
注意力機制機器視覺卷積神經(jīng)網(wǎng)絡(luò)
基于深度學習的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
大場景三維激光掃描儀在研究生實踐教學培養(yǎng)中的應(yīng)用
深度學習算法應(yīng)用于巖石圖像處理的可行性研究
基于機器視覺的工件鋸片缺陷檢測系統(tǒng)設(shè)計
軟件工程(2016年8期)2016-10-25 15:55:22
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于機器視覺技術(shù)的動態(tài)“白帶”常規(guī)檢測系統(tǒng)的開發(fā)
科技視界(2016年20期)2016-09-29 11:11:40
宜都市| 陇南市| 鄂伦春自治旗| 兴义市| 苍梧县| 锡林浩特市| 泰宁县| 台东市| 石首市| 普定县| 泰安市| 阳泉市| 孟津县| 台湾省| 康平县| 普定县| 丰台区| 如皋市| 仙居县| 梨树县| 阳东县| 长岛县| 犍为县| 新野县| 乌拉特后旗| 察哈| 上蔡县| 文水县| 华坪县| 舒兰市| 河池市| 额济纳旗| 西安市| 遂昌县| 绵阳市| 鲜城| 菏泽市| 罗甸县| 安西县| 剑川县| 弋阳县|