馬吉忠 , 謝 一 , 馬全海 , 武文魁 , 李文琪 , 李 玥
(甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070)
隨著大數(shù)據(jù)時(shí)代的到來(lái),攝像機(jī)網(wǎng)絡(luò)越來(lái)越多地部署在每個(gè)角落。人們通過(guò)智能視頻應(yīng)用實(shí)現(xiàn)目標(biāo)跟蹤、異常行為檢測(cè)等需求變得日益強(qiáng)烈。而Re-ID應(yīng)用和研究意義在社區(qū)中也變得越來(lái)越流行,但Re-ID仍然面臨許多挑戰(zhàn),例如人物姿勢(shì),照明和背景雜亂的變化很大。而深度學(xué)習(xí)則不同,它與人工提取特征的方式不同,它的適應(yīng)性很強(qiáng),可以很好地挖掘數(shù)據(jù)的深層特征,建立深層網(wǎng)絡(luò)之間的相互聯(lián)系,從原始圖像數(shù)據(jù)中學(xué)習(xí)更加高級(jí)的語(yǔ)義特征,使得特征更具辨識(shí)能力和魯棒性。而此次研究中對(duì)于行人再識(shí)別技術(shù),通過(guò)基于屬性標(biāo)簽和ID標(biāo)簽的互補(bǔ)性,提出了一個(gè)基于屬性的人識(shí)別(APR)網(wǎng)絡(luò)。
Person Re-ID和屬性識(shí)別都意味著在視頻監(jiān)控中有著關(guān)鍵的應(yīng)用。在本文中,通過(guò)使用屬性標(biāo)簽的補(bǔ)充提示來(lái)提高大規(guī)模Re-ID的性能。
其中屬性標(biāo)簽的有效性有三方面:1)使用屬性標(biāo)簽進(jìn)行訓(xùn)練可以提高Re-ID模型的判別能力。通過(guò)相似性來(lái)區(qū)別這些人,這可以用相似的彼此靠近,不相似的彼此遠(yuǎn)離。2)詳細(xì)的屬性標(biāo)簽明確指導(dǎo)模型通過(guò)指定的人文特征學(xué)習(xí)人的表征。通過(guò)屬性標(biāo)簽,該模型能夠通過(guò)關(guān)注一些局部語(yǔ)義描述來(lái)學(xué)習(xí)并對(duì)行人分類(lèi),從而極大地簡(jiǎn)化了模型的訓(xùn)練。3)可以使用屬性來(lái)加速Re-ID的檢索過(guò)程,其主要思想是篩選出一些與查詢(xún)屬性不同的圖像。
隨著深度學(xué)習(xí)發(fā)展,基于CNN的方法正在主導(dǎo)Re-ID社區(qū)。學(xué)塔爾提出了PPA的建議,以從基礎(chǔ)網(wǎng)絡(luò)中提取身體部位的注意特征。然后,身體部位的特征被進(jìn)一步重新加權(quán),產(chǎn)生最終的特征向量[1]。有人轉(zhuǎn)移生成對(duì)抗網(wǎng)絡(luò)(PTGAN)被提議從一種數(shù)據(jù)集向另一種轉(zhuǎn)移圖像風(fēng)格,同時(shí)保持身份信息以彌合領(lǐng)域差距[2]。這使用了一種字典學(xué)習(xí)方案通過(guò)對(duì)象識(shí)別和人檢測(cè)(源域)學(xué)習(xí)的功能轉(zhuǎn)移到人Re-ID(目標(biāo)域)中。近來(lái),已經(jīng)提出了一些半監(jiān)督方法和非監(jiān)督方法來(lái)解決關(guān)于Re-ID的數(shù)據(jù)問(wèn)題[3]。
Person Re-ID的屬性。以前屬性被用作輔助信息以改善低級(jí)功能。最近,朗哥(Franco)等人提出了一種由粗到細(xì)的學(xué)習(xí)框架,該框架由一組混合深度網(wǎng)絡(luò)組成。該框架對(duì)網(wǎng)絡(luò)訓(xùn)練的時(shí)候可能會(huì)忽略ID標(biāo)簽和屬性標(biāo)簽的互補(bǔ)性[4]。為此,首先在具有屬性標(biāo)簽的獨(dú)立數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),然后使用帶有三元組損失的唯一身份標(biāo)簽對(duì)網(wǎng)絡(luò)目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào)。最后,將目標(biāo)數(shù)據(jù)集的預(yù)測(cè)屬性標(biāo)簽與獨(dú)立數(shù)據(jù)集相結(jié)合,以進(jìn)行最終的微調(diào)。該屬性也可用作無(wú)監(jiān)督學(xué)習(xí)。而無(wú)監(jiān)督的Re-ID方法通過(guò)從標(biāo)記源數(shù)據(jù)中學(xué)習(xí)到的屬性來(lái)共享源域知識(shí),并通過(guò)跨域的聯(lián)合屬性標(biāo)識(shí)學(xué)習(xí)將這樣的知識(shí)轉(zhuǎn)移到未標(biāo)記的目標(biāo)數(shù)據(jù)中。
令SI={(x1,y1),...,(xn,yn)}是行人身份標(biāo)簽數(shù)據(jù)集,其中xi和yi分別表示第i張圖像及其身份標(biāo)簽。對(duì)于每個(gè)圖像xi∈SI,具有屬性注釋其中aji是圖像xi的第j個(gè)屬性標(biāo)簽,m是屬性類(lèi)。令SA={(x1,a1),...,(xn,an)}為標(biāo)記為集合的屬性。請(qǐng)注意,集SI和SA共享公共行人圖像{xi}?;谶@兩個(gè)SI和SA集,有以下兩個(gè)基準(zhǔn):
1)區(qū)分嵌入(IDE)。采用IDE來(lái)訓(xùn)練Re-ID模型,該模型將Re-ID訓(xùn)練過(guò)程視為圖像身份分類(lèi)任務(wù)。僅在身份標(biāo)簽數(shù)據(jù)集SI上對(duì)其進(jìn)行訓(xùn)練。為IDE提供以下目標(biāo)函數(shù):
其中ф是嵌入函數(shù),由θI參數(shù)化,以從數(shù)據(jù)xi中提取特征。CNN模型通常使用嵌入函數(shù)ф。fI是通過(guò)wI進(jìn)行參數(shù)化的身份分類(lèi)器,用于將嵌入圖像特征ф(θI; xi)分類(lèi)為維度身份置信度估計(jì),其中n是身份的數(shù)目。?表示分類(lèi)器預(yù)測(cè)與其基本事實(shí)標(biāo)簽之間的損失。
2)屬性識(shí)別網(wǎng)絡(luò)(ARN)。與用于身份預(yù)測(cè)的IDE基準(zhǔn)相似,提出了用于屬性預(yù)測(cè)的屬性識(shí)別網(wǎng)絡(luò)(ARN)。ARN僅在屬性標(biāo)簽數(shù)據(jù)集SA上訓(xùn)練。為ARN定義以下目標(biāo)函數(shù):
其中fAj是由wAj參數(shù)化的第j個(gè)屬性分類(lèi)器,用于將嵌入的圖像表示ф(θ; xi)分類(lèi)為第j個(gè)屬性預(yù)測(cè)。將輸入圖像xi上m個(gè)屬性預(yù)測(cè)所有遭受損失的總和作為第i個(gè)樣本的損失。
3.2.1 架構(gòu)概述
APR網(wǎng)絡(luò)包含兩個(gè)預(yù)測(cè)部分,一個(gè)用于屬性識(shí)別任務(wù),另一個(gè)用于身份分類(lèi)任務(wù)。給定輸入的行人圖像,APR網(wǎng)絡(luò)首先通過(guò)CNN提取器、ф提取人的特征表示。隨后,APR根據(jù)圖像特征預(yù)測(cè)屬性。在這里,通過(guò)屬性預(yù)測(cè)和地面真相標(biāo)簽來(lái)計(jì)算屬性損失。而本地屬性有益于全局識(shí)別,將屬性預(yù)測(cè)作為身份預(yù)測(cè)的其他線(xiàn)索。具體來(lái)說(shuō),為了更好地利用屬性,給定輸入圖像,APR網(wǎng)絡(luò)首先計(jì)算M個(gè)單獨(dú)的屬性損失。然后,將M個(gè)預(yù)測(cè)得分連接起來(lái),并輸入到屬性重加權(quán)模塊(ARM)中。然后將ARM的輸出與全局映像功能連接起來(lái),以進(jìn)行ID損失計(jì)算。最終識(shí)別是建立在連接的局部全局特征基礎(chǔ)上,如圖1所示。
圖1 APR網(wǎng)絡(luò)概覽
3.2.2 優(yōu)化
為了利用屬性數(shù)據(jù)SA作為Re-ID任務(wù)的輔助注釋?zhuān)岢隽藢傩孕腥俗R(shí)別(APR)網(wǎng)絡(luò)。在身份集SI和屬性集SA的組合數(shù)據(jù)集S上訓(xùn)練APR網(wǎng)絡(luò),即S={(x1,y1,a1),...,(xn,yn,an)}。對(duì)于行人圖像xi,首先通過(guò)嵌入函數(shù)ф(θ;xi)提取圖像特征表示。根據(jù)圖像表示ф(θ; xi),同時(shí)優(yōu)化兩個(gè)目標(biāo)函數(shù):
屬性預(yù)測(cè)的目標(biāo)函數(shù),屬性預(yù)測(cè)是輸入圖像特征上的一組屬性分類(lèi)器獲得的,即{fAj(wAj;ф(θ; xi))}。然后,針對(duì)與等式相同的屬性預(yù)測(cè)優(yōu)化目標(biāo)函數(shù)。
識(shí)別的目標(biāo)函數(shù),為了能夠?qū)傩砸肷矸蓊A(yù)測(cè),則通過(guò)收集屬性預(yù)測(cè)的方法即{fAj(wAj;ф(θ; xi))},并將屬性重加權(quán)模塊對(duì)其進(jìn)行加權(quán)。結(jié)合重新加權(quán)的屬性預(yù)測(cè)ai和圖像全局特征ф(θ;xi)來(lái)形成局部全局表示身份分類(lèi)。因此,具有以下用于身份預(yù)測(cè)的目標(biāo)函數(shù):
總體目標(biāo)函數(shù),考慮到屬性識(shí)別和身份預(yù)測(cè),定義了所有對(duì)象。功能如下:
在實(shí)驗(yàn)中,分別采用ResNet-50 和CaffeNet作為CNN骨干。網(wǎng)絡(luò)由ImageNet預(yù)先訓(xùn)練的模型初始化。以ResNet-50為例,在pool5層之后附加一個(gè)512維的全連接層,然后添加批處理歸一化,這是一個(gè)具有0.5的跌落率和ReLU的退出層。512維的完全連接層與27維(對(duì)于Market-1501)屬性預(yù)測(cè)核心串聯(lián)。539維(512+27)功能用于身份分類(lèi)?;贑affeNet的實(shí)驗(yàn)也以類(lèi)似方式進(jìn)行。最后,使用具有k個(gè)類(lèi)節(jié)點(diǎn)的分類(lèi)層來(lái)預(yù)測(cè)身份。對(duì)于每個(gè)屬性,在“pool5”層之后采用完全連接的層作為屬性預(yù)測(cè)的分類(lèi)器。當(dāng)評(píng)估APR網(wǎng)絡(luò)在此處的ID任務(wù)時(shí),將嵌入特征的垂直連接和加權(quán)屬性預(yù)測(cè)作為每個(gè)圖像的最終特征表示。在Market1501的經(jīng)驗(yàn)研究中,通過(guò)將閾值設(shè)置為0.7,檢索過(guò)程加快了10倍以上,但準(zhǔn)確率降低了2.92%。
在深度學(xué)習(xí)的基礎(chǔ)下,通過(guò)討論屬性學(xué)習(xí)的集成來(lái)改進(jìn)Re-ID。將屬性標(biāo)簽和ID標(biāo)簽進(jìn)行補(bǔ)充,提出了一個(gè)屬性人識(shí)別(APR)網(wǎng)絡(luò),ARN網(wǎng)絡(luò)學(xué)習(xí)Re-ID嵌入并在相同框架下預(yù)測(cè)行人屬性。系統(tǒng)地研究了人員Re-ID和屬性識(shí)別如何相互受益。還考慮到人的屬性之間的依賴(lài)性和相關(guān)性,對(duì)屬性預(yù)測(cè)重新加權(quán)。為了展示方法的有效性,在兩個(gè)大型Re-ID基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果表明,與最新技術(shù)相比,APR通過(guò)學(xué)習(xí)更具區(qū)分性的表示,可以實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的Re-ID性能。還使用APR加快了Re-ID的檢索過(guò)程三倍以上。在后期可以研究行人屬性的可傳遞性和可伸縮性。例如,可以將Market1501上學(xué)習(xí)的屬性模型改編為其他行人數(shù)據(jù)集。其次,也可以研究屬性檢索相關(guān)行人圖像的系統(tǒng)。