吳丹,方明,付飛蚺
(長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022)
行人重識(shí)別是指在不同攝像機(jī)下進(jìn)行同一行人的查找和匹配,其主要應(yīng)用在公共安全領(lǐng)域。雖然行人重識(shí)別技術(shù)已經(jīng)發(fā)展了20多年,而且目前對(duì)其的研究工作也越來越多,但是依然有很多沒有很好解決的問題,由于行人重識(shí)別是在多個(gè)攝像機(jī)下進(jìn)行匹配,這會(huì)造成很多問題,例如被遮擋、不同攝像頭下的位姿變化和相似的不同行人間的區(qū)分等。
本文在Spindle Net[1]網(wǎng)絡(luò)的基礎(chǔ)上導(dǎo)入了行人的掩碼策略。Spindle Net能較好解決遮擋和位姿問題,所以本文以Spindle Net為基礎(chǔ)加入掩碼信息,與一般的行人重識(shí)別方法相比,由于添加的行人圖片的掩碼圖中含有很多隱含的信息,掩碼邊緣特征作為圖片中行人最基本的特征之一,將其應(yīng)用到神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征提取,有助于提取到更多特征,抑制冗余或干擾的特征,在提取更多隱含特征的同時(shí)去除背景的干擾并且減少圖片的噪聲干擾,并在后續(xù)減少不必要的數(shù)據(jù)量處理,最終使得重識(shí)別準(zhǔn)確率有所提升。本文使用Mask R-CNN來提取行人掩碼圖,該方法對(duì)目標(biāo)的分割十分精確,為目前效果最好的幾種方法之一[2]。本文方法與目前集中行人重識(shí)別方法相比,準(zhǔn)確率有明顯提升。
對(duì)于行人重識(shí)別問題的研究可以追溯到1996年,主要針對(duì)的是無(wú)重疊的監(jiān)控視頻,即多相機(jī)追蹤[3]。2006年澳大利亞國(guó)家信息與通信技術(shù)研究所首次提出行人重識(shí)別這一概念,此后行人重識(shí)別就成為機(jī)器視覺領(lǐng)域的熱門研究問題。Gheissari等人[4]通過對(duì)行人圖片的研究和分析,提取到了行人外貌中的穩(wěn)定區(qū)域,主要為行人的顏色和邊緣特征,然后使用三角模型對(duì)行人的特征進(jìn)行匹配。Weinberger等[5]提出了LMNN方法,該方法類似于支持向量機(jī)方法[6],同類間距離盡可能小,不同類間隔盡可能大。Dikmen等人[7]在LMNN的基礎(chǔ)上提出了改進(jìn)的LMNN-R算法。Li等[8]定義了多種行人服飾的屬性,并將LFDA方法應(yīng)用其中。Zheng等[9]將尺度學(xué)習(xí)與行人重識(shí)別技術(shù)融合,提出了PRDC這種改進(jìn)的距離度量學(xué)習(xí)算法。Matsukawa等[10]提出了GOG方法,主要是通過像素點(diǎn)分布來表征行人。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
現(xiàn)階段的行人重識(shí)別技術(shù),只提取行人的全局特征的模型已經(jīng)達(dá)到瓶頸,目前大多都使用局部特征模型。Rahul等[11]將行人圖片進(jìn)行水平分割,分別放入LSTM網(wǎng)絡(luò)中各自提取特征,最后再將其融合。Zhao等[12]提出了一種類似attention models的思想,旨在只對(duì)圖片中的行人進(jìn)行處理,而非整張行人圖片。Wei等[13]提出了一種類似于Spindle Net的方法,不同點(diǎn)在于Spindle Net是對(duì)整體損失進(jìn)行計(jì)算,而該方法是對(duì)不同部分分別計(jì)算其損失。
本文將掩碼圖與已有的行人重識(shí)別網(wǎng)絡(luò)Spindle Net相融合。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要分為三部分,局部提取網(wǎng)絡(luò)、特征提取網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)。
局部提取網(wǎng)絡(luò)主要分為兩部分,一個(gè)是掩碼提取部分Mask R-CNN網(wǎng)絡(luò),另一個(gè)是骨架提取網(wǎng)絡(luò)RPN。Mask R-CNN是一種用于實(shí)例分割的速度較快且準(zhǔn)確率較高的方法,能準(zhǔn)確輸出目標(biāo)區(qū)域的掩碼圖。RPN是一種基于串行化的全卷積網(wǎng)絡(luò)結(jié)構(gòu),通過使用卷積層學(xué)習(xí)紋理信息和空間信息進(jìn)行人體姿態(tài)估計(jì)。CNN由3個(gè)卷積層、1個(gè)Inception模型構(gòu)成。
Mask R-CNN是在Faster R-CNN的基礎(chǔ)上加入了輸出目標(biāo)掩碼的功能,其網(wǎng)絡(luò)框架主要分為三個(gè)部分,首先是目標(biāo)檢測(cè),就是直接在圖片上繪制邊界框(bounding box)。其次是對(duì)每個(gè)邊界框中的目標(biāo)進(jìn)行分類,本文中使用到的是人的分類。最后是對(duì)目標(biāo)進(jìn)行像素層面上的分割,輸出行人的掩碼圖。掩碼圖經(jīng)過CNN網(wǎng)絡(luò)后得到原始圖片經(jīng)過CNN后得到
圖2 局部提取網(wǎng)絡(luò)中的提取區(qū)域
RPN是用來定位人體的14個(gè)關(guān)節(jié)點(diǎn),關(guān)鍵點(diǎn)如圖2(a)所示,通過這14個(gè)關(guān)節(jié)點(diǎn)將人體分為7個(gè)區(qū)域,其中宏觀區(qū)域?yàn)椋侯^部區(qū)域F2=[1 , 2,3,4]、軀干區(qū)域F3=[3 , 4,5,6,7,8,9,10]、腿部區(qū)域F4=[9 , 10,11,12,13,14]。微觀區(qū)域?yàn)椋鹤蟊跢6=[4 , 7,8] 、右 臂F5=[3 , 5,6]、左 腿F7=[9 , 11,12]、右腿F8=[1 0 ,13,14],7個(gè)區(qū)域如圖2(b)所示。
經(jīng)過特征提取網(wǎng)絡(luò)(FEN)處理后得到包含整體行人、掩碼圖和七個(gè)局部區(qū)域在內(nèi)的9個(gè)256維的特征,F(xiàn)EN包含3個(gè)網(wǎng)絡(luò),特征提取網(wǎng)絡(luò)1(FEN1)、特征提取網(wǎng)絡(luò)2(FEN2)與特征提取網(wǎng)絡(luò)3(FEN3)。
FEN1是由1個(gè)ROI pooling構(gòu)成,將F2、F3、F4依次與進(jìn)行ROI池化得到,經(jīng)過FEN1后,統(tǒng)一輸出大小為24×24的5個(gè)特征圖;FEN2由1個(gè)Inception模型和1個(gè)ROI池化所構(gòu)成的,在FEN2中將上一層網(wǎng)絡(luò)中的輸出作為輸入,得到再將與區(qū)域提取網(wǎng)絡(luò)中的部分輸出F5、F6、F7、F8作為輸入,分別與進(jìn)行ROI池化從而得到,經(jīng)過FEN2后,統(tǒng)一輸出大小為12×12的9個(gè)特征圖。FEN3是由1個(gè)Inception模型、1個(gè)global pooling層和1個(gè)Inner product層構(gòu)成,以上一層的所有輸出作為輸入,得到9個(gè)256維的特征。
特征融合網(wǎng)絡(luò)采用對(duì)應(yīng)元素取最大值的方法將FFN中輸出的9個(gè)256維特征,融合成1個(gè)256維特征,用該特征表示輸入行人的最終特征F。融合過程如圖1所示。
本文的實(shí)驗(yàn)是在裝載有兩個(gè)NVIDIA GEFORCE GTX 1080 GPU顯卡的電腦上,在Ubuntu 16.04系統(tǒng)下的Caffe環(huán)境中運(yùn)行,本文采用與JSTL相同的設(shè)置來生成訓(xùn)練、驗(yàn)證和測(cè)試圖像集/候選圖像集樣本,訓(xùn)練和驗(yàn)證集中的行人與所有數(shù)據(jù)集的測(cè)試集行人沒有重疊。將PSDB與CUHK02數(shù)據(jù)集也作為訓(xùn)練樣本,但是不用來做測(cè)試。在訓(xùn)練過程中本文采取與Spindle Net相同的策略即分步訓(xùn)練方法,該方法是在訓(xùn)練時(shí)將所有數(shù)據(jù)集整合到一起,然后打亂順序?qū)ζ溥M(jìn)行訓(xùn)練。
圖3為Mask R-CNN掩碼提取情況,由圖可知,該方法的行人掩碼提取十分準(zhǔn)確,其對(duì)后續(xù)的特征提取有很大幫助。
圖3 Mask R-CNN掩碼示例
本文分別在 Shinpuhkan[14]與 Market-1501[15]數(shù)據(jù)集中進(jìn)行了測(cè)試,采用CMC評(píng)估方法,對(duì)重識(shí)別的準(zhǔn)確率進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表1與表2所示所示。
從表中可知本文方法在Shinpuhkan數(shù)據(jù)集中Top-1的準(zhǔn)確率有大約5%的提升,而在Market-1501數(shù)據(jù)集中Top-1的準(zhǔn)確率有2%的提高。
表1 Shinpuhkan方法準(zhǔn)確率對(duì)比
表2 Market-1501方法準(zhǔn)確率對(duì)比
圖4 CMC曲線準(zhǔn)確率
為了更直觀的表述本文方法與其他方法的準(zhǔn)確率,針對(duì)不同的數(shù)據(jù)集,繪制了不同方法在該數(shù)據(jù)集上的重識(shí)別準(zhǔn)確率,如圖4所示,4(a)為包含本文方法在內(nèi)的四種方法在Shinpuhkan數(shù)據(jù)集的準(zhǔn)確率對(duì)比,可以很直觀的看出本文方法對(duì)比準(zhǔn)確率較高的方法,Top-1的準(zhǔn)確率有5%左右的提升,4(b)是在Market-1501數(shù)據(jù)集中的準(zhǔn)確率對(duì)比結(jié)果。該方法在各個(gè)數(shù)據(jù)集中Top-1的準(zhǔn)確率平均有3%的提升。
本文在現(xiàn)有準(zhǔn)確率較高的行人重識(shí)別方法Spindle Nec的基礎(chǔ)上引入掩碼圖,使得重識(shí)別的準(zhǔn)確率平均提高3%左右,證明該方法對(duì)重識(shí)別的準(zhǔn)確率有一定提高,但同時(shí)還有很大改進(jìn)空間,下一步會(huì)對(duì)該方法進(jìn)行更進(jìn)一步的改進(jìn),例如對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行進(jìn)一步的精簡(jiǎn),或者對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)以繼續(xù)提高重識(shí)別的準(zhǔn)確率。