国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合衣服特征遷移的行人重識(shí)別方法

2021-09-13 01:02:26苑春苗
計(jì)算機(jī)與生活 2021年9期

苑春苗,牛 瑛,郭 濤,李 鑫

1.天津工業(yè)大學(xué) 天津市自主智能技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津300387

2.天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300387

3.天津工業(yè)大學(xué) 電子與信息工程學(xué)院,天津300387

4.天津工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,天津300387

在進(jìn)行跨攝像頭人物匹配時(shí),由于人臉識(shí)別技術(shù)廣泛存在后腦勺和側(cè)臉的情況,做正臉的人臉識(shí)別就很困難;另外,由于相機(jī)分辨率和拍攝角度的緣故,通常無法得到質(zhì)量非常高的人臉圖片,匹配效果經(jīng)常失效。因此,跨攝像頭人物匹配通常采用行人重識(shí)別(person re-identification,Re-ID)[1]技術(shù)。Re-ID即在非重疊攝像頭中人物匹配的過程,一般可以表述為圖像的排序問題:給定一個(gè)人的查詢圖像(query image),需要根據(jù)其相似性對(duì)所有的庫圖像(gallery image)進(jìn)行排序。該技術(shù)可廣泛應(yīng)用于智能視頻監(jiān)控、智能安保等領(lǐng)域。

對(duì)于目前行人重識(shí)別存在的一些挑戰(zhàn),近幾年來國內(nèi)外學(xué)者主要通過以下三個(gè)方向進(jìn)行研究:第一是通過局部特征提取[2-4]方法;第二是通過距離學(xué)習(xí)方法[5-6];第三是通過深度學(xué)習(xí)方法[7-10]。這些Re-ID方法在匹配過程時(shí),目標(biāo)人物的服裝信息在局部特征中占有較大的比重,而當(dāng)目標(biāo)行人在查詢庫和圖像庫中衣服特征發(fā)生改變的時(shí)候,這些算法的性能都將會(huì)下降,不能準(zhǔn)確地將更換衣服后的行人匹配出來。

由此可見,行人重識(shí)別的方法嚴(yán)重依賴于服裝信息。在實(shí)際應(yīng)用中,查詢圖像中的人和圖像庫中的人可能穿不同的衣服。例如,一個(gè)罪犯可能會(huì)穿上不同的衣服,以避免在他或她離開犯罪現(xiàn)場(chǎng)后被跟蹤;并且人們會(huì)隔幾天換一次衣服,因此當(dāng)查詢圖像和圖像庫不在同一天拍攝時(shí),目標(biāo)人物的衣服信息可能不同。

在上述討論的基礎(chǔ)上,本文提出了基于衣服特征遷移的行人重識(shí)別模型,主要解決同一個(gè)目標(biāo)行人穿著不同衣服進(jìn)行行人重識(shí)別的問題。模型主要分為三個(gè)模塊:行人檢測(cè)模塊、衣服特征遷移模塊、行人匹配模塊。該模型的基本思想是:給定一個(gè)目標(biāo)人物的查詢圖像,通過衣服特征遷移算法,將圖像庫中所有人物的衣服特征都更換成與目標(biāo)人物的衣服特征一樣,目的是消除在匹配過程中衣服特征差異,最后通過人物肢體特征來進(jìn)行匹配。

本文的貢獻(xiàn)主要包括三部分:(1)這是一次研究目標(biāo)人物在查詢圖像和圖像庫中穿著不同衣服的Re-ID 問題;(2)為目標(biāo)人物在查詢圖像和圖像庫中穿著不同衣服的Re-ID 問題開發(fā)了第一個(gè)公共數(shù)據(jù)集;(3)為了消除人物匹配過程中的服裝差異,提出了一種基于查詢圖像中目標(biāo)人物的服裝特征,在圖庫圖像中更換人物服裝的新方法。

1 相關(guān)工作

行人重識(shí)別最初用于多攝像頭跟蹤。Gheissari等人[11]設(shè)計(jì)了一種提取視覺線索的時(shí)空分割方法,并使用顏色、顯著邊緣進(jìn)行前景檢測(cè)。該工作將基于圖像的行人重識(shí)別定義為特定的計(jì)算機(jī)視覺任務(wù)。近年來,行人重識(shí)別通過手工設(shè)計(jì)識(shí)別特性[12]、跨攝像機(jī)視圖學(xué)習(xí)特性轉(zhuǎn)換和學(xué)習(xí)距離度量來解決這個(gè)問題。除此之外,許多研究者提出了各種基于深度學(xué)習(xí)的方法,共同處理所有行人檢測(cè)和人的識(shí)別。

深度學(xué)習(xí)方法:Li等人[13]為Re-ID設(shè)計(jì)了特定的CNN(convolutional neural networks)模型。這個(gè)網(wǎng)絡(luò)利用裁剪過的圖像,并采用二進(jìn)制驗(yàn)證損失函數(shù)來訓(xùn)練參數(shù)。Deng等人[14]和Chen等人[15]利用三聯(lián)體樣本對(duì)CNN進(jìn)行訓(xùn)練,最小化同一人的特征間距離,最大化不同人之間的距離。

二維姿態(tài)估計(jì)方法:關(guān)節(jié)式人體位姿通常采用一元項(xiàng)和圖形結(jié)構(gòu)[16]或圖形模型,身體部分混合[17-19]的組合建模。隨著深度姿勢(shì)[20]的引入,將姿態(tài)估計(jì)問題轉(zhuǎn)化為使用標(biāo)準(zhǔn)卷積架構(gòu)的回歸問題,人類姿態(tài)估計(jì)的研究開始從經(jīng)典方法轉(zhuǎn)向深度網(wǎng)絡(luò)。例如,Wei等人在文獻(xiàn)[21]中引入了對(duì)身體各部分空間相關(guān)性的推論。Newell等人提出了一個(gè)堆疊的沙漏網(wǎng)絡(luò)[22],使用重復(fù)的下池化和上采樣過程來學(xué)習(xí)空間分布。

人體分割方法:最近,許多研究都致力于人體分割[23-30]。例如,Liang 等人[24]提出了一種新穎的Co-CNN 架構(gòu),將多個(gè)層次的圖像上下文集成到一個(gè)統(tǒng)一的網(wǎng)絡(luò)中。為了在先進(jìn)的CNN架構(gòu)的基礎(chǔ)上捕捉豐富的結(jié)構(gòu)信息,常用的解決方案包括將CNN 和條件隨機(jī)場(chǎng)(conditional random fields,CRF)[31]結(jié)合起來,采用多尺度的特征表示[25]。Chen等人[15]提出了一種注意機(jī)制,該機(jī)制學(xué)習(xí)對(duì)每個(gè)像素位置的多尺度特征進(jìn)行加權(quán)。

基于圖像的服裝合成:最近的幾項(xiàng)研究[9-10]解決的問題與本文相似。Lassner等人[7]提出了一種方法,生成同一個(gè)人在相同姿態(tài)條件下任意服裝的圖像。文獻(xiàn)[8]提出了一種框架,可以在保持服裝不變的同時(shí)修改圖像中人物的視點(diǎn)或姿勢(shì)。文獻(xiàn)[9]試圖將一件獨(dú)立的衣服轉(zhuǎn)移到一個(gè)人的圖像上,而文獻(xiàn)[10]解決了相反的任務(wù),即在給定人物圖像的情況下生成一件獨(dú)立的衣服。最后,Zhu等人[32]的工作是基于文本描述從給定的圖像生成不同的服裝,同時(shí)保持原始圖像的姿勢(shì)。Yang等人[33]提出了一種不同于生成模型的思路,它包括對(duì)三維身體模型的估計(jì),然后進(jìn)行服裝模擬。變換姿態(tài):Ma 等人[8]提出了一個(gè)框架修改一個(gè)圖像里人的角度或姿態(tài),同時(shí)保持服裝不變。Raj等人[34]提出了一種以無監(jiān)督的方式從圖像中分離出姿態(tài)、前景和背景的方法,這樣不同的分離表示可以用來生成新的圖像。以上的工作并沒有解決在保持目標(biāo)圖片身份的同時(shí)將服裝從源轉(zhuǎn)移到目標(biāo)的問題,而事實(shí)上,在服裝的轉(zhuǎn)移過程中往往會(huì)丟失身份。另一個(gè)不同之處在于,他們通常使用從稀疏的姿態(tài)關(guān)鍵點(diǎn)導(dǎo)出的剪影來表示姿態(tài),而本文是使用獨(dú)立的衣服分割信息來表示姿態(tài),服裝分割提供了比姿態(tài)關(guān)鍵點(diǎn)更多的特征信號(hào),使本文方法能夠更精確地將服裝從源轉(zhuǎn)移到目標(biāo)。

異常圖像重識(shí)別及識(shí)別性能優(yōu)化:最近的一些工作解決了人們對(duì)異常圖像的重新識(shí)別,如低分辨率圖像或部分遮擋圖像等識(shí)別。他們利用分離檢測(cè)和重新鑒定的方法與分?jǐn)?shù)重新加權(quán)來解決這個(gè)問題。Xiao 等人[35]提出了一種兩方面共同處理的深度學(xué)習(xí)框架,開發(fā)了一種端到端人員搜索框架,利用在線實(shí)例匹配損失(online instance matching loss,OIM)來共同處理兩方面,提出了身份嵌入(identification embedding,IDE)方法和置信加權(quán)相似度(confidence weighted similarity,CWS)來提高人員識(shí)別性能。另一個(gè)有效的策略是分類模型,它充分利用了Re-ID標(biāo)簽。Zheng 等人[31]提出了一種識(shí)別嵌入(IDE)方法,將重構(gòu)后的識(shí)別模型訓(xùn)練成圖像分類,該方法在圖像網(wǎng)絡(luò)預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行了微調(diào)。Wu等人[36]提出了一種特征融合網(wǎng)絡(luò)(feature fusion net,F(xiàn)FN),將自己設(shè)計(jì)的特征融合到CNN特征中。最近,Ma等人[8]提出一種新穎的深度學(xué)習(xí)方法,用于將現(xiàn)有數(shù)據(jù)集的標(biāo)記信息轉(zhuǎn)移到新的看不見(未標(biāo)記)的目標(biāo)域中,以便人員重新識(shí)別,而無需在目標(biāo)域中進(jìn)行任何監(jiān)督學(xué)習(xí)。具體來說,引入了可轉(zhuǎn)移的聯(lián)合屬性的標(biāo)簽用于深度學(xué)習(xí),同時(shí)可轉(zhuǎn)移到新的目標(biāo)域進(jìn)行無監(jiān)督學(xué)習(xí)的RE-ID任務(wù)。

2 方法

提出的框架如圖1 所示,本文的模型描述如下,分為三個(gè)步驟:

(1)人物檢測(cè):給定查詢圖像和圖庫圖像,目標(biāo)人物位于給定圖像中,包含人物的子圖像記為P0。給定圖庫圖像中的所有人都被定位,并記為Pi,i=1,2,…,n。利用Faster RCNN檢測(cè)子圖像P0,P1,…,Pn。

(2)衣服特征轉(zhuǎn)移:人體二維關(guān)鍵點(diǎn)和服裝分割特征分別位于子圖像P0和P1,P2,…,Pn中。P0的服裝特征被轉(zhuǎn)移到P1,P2,…,Pn,并生成新的子圖像,其中包含目標(biāo)人物的衣服重新搭配后的圖像P0和

(3)人員匹配:P0與匹配。整個(gè)模型框架可以表示為:

其中,E是將P0衣服特征轉(zhuǎn)移到Pi的遷移函數(shù),并生成新的人物圖像;γ是排序函數(shù);F可以評(píng)估最大分?jǐn)?shù)是否合理匹配,當(dāng)輸出結(jié)果為0 的時(shí)候,表示查詢行人與圖像庫中的行人不匹配,當(dāng)輸出的結(jié)果為1的時(shí)候,表示查詢圖像和圖像庫中的行人匹配。

2.1 人員檢測(cè)模塊

給定查詢圖像和圖像庫圖像的視頻幀,目標(biāo)人物位于給定的查詢圖像中,包含該人物的子圖像表示為P0。給定圖像庫中的所有人都被定位并表示為Pi(i=1,2,…,n)。使用Faster-RCNN[37]網(wǎng)絡(luò)檢測(cè)的子圖像分別記為P1,P2,…,Pn。

Fig.1 Framework of person re-identification with clothes transfer圖1 基于衣服遷移的行人重識(shí)別總體方案框架

2.2 衣服特征遷移模塊

衣服特征遷移函數(shù)(clothing feature transferring function,CFTF)是該方法的核心部分。與CFTF最相關(guān)的工作是Zhu等人的論文[32]。本文在基于文獻(xiàn)[38]的方法中使用了CFTF模型,但是他們的模型需要手動(dòng)定位身體的關(guān)鍵點(diǎn)。因此,本文的模型利用文獻(xiàn)[39]自動(dòng)定位二維人體關(guān)鍵點(diǎn)。此外,利用文獻(xiàn)[40]提取衣服特征中的查詢和圖庫圖像。

2.2.1 二維人體關(guān)鍵點(diǎn)

系統(tǒng)以大小為w×h的彩色圖像為輸入,生成圖像,并自動(dòng)輸出圖像中每個(gè)人的人體二維關(guān)鍵點(diǎn)。首先,前饋網(wǎng)絡(luò)同時(shí)預(yù)測(cè)一組二維的人體部位置信度圖和一組二維的人體部位相似性向量場(chǎng),對(duì)人體部位之間的關(guān)聯(lián)程度進(jìn)行編碼。集合S=(S1,S2,…,SJ)有J個(gè)置信映射,每個(gè)部分一個(gè),其中Sj∈Rw×h,j∈1,2,…,J,集合L=(L1,L2,…,LC) 有C個(gè)向量場(chǎng),其中Lc∈Rw×h×2,c∈1,2,…,C中的每個(gè)圖像位置都編碼一個(gè)二維向量。最后,通過貪婪推理對(duì)置信圖和親和域進(jìn)行分析,自動(dòng)輸出圖像中所有人的二維人體關(guān)鍵點(diǎn)。

圖2 是二維人體關(guān)鍵點(diǎn)卷積網(wǎng)絡(luò)框架。圖像首先由卷積網(wǎng)絡(luò)進(jìn)行分析(由VGG-19 的前10 層初始化并進(jìn)行微調(diào)),生成一組特征圖F,輸入到每個(gè)分支的第一階段。在第一階段,網(wǎng)絡(luò)產(chǎn)生一組檢測(cè)置信度圖S1=A1(F)和一組局部親和力場(chǎng)L1=B1(F),其中A1和B1是第一階段推理的CNN。在每個(gè)后續(xù)階段,來自前一階段的兩個(gè)分支的預(yù)測(cè),連同原始圖像特征F,被連接起來,用來產(chǎn)生精確的預(yù)測(cè)。

Fig.2 2D human key points convolutional network framework圖2 二維人體關(guān)鍵點(diǎn)卷積網(wǎng)絡(luò)框架

其中,At和Bt為t階段推理的CNN。

在關(guān)鍵點(diǎn)提取算法中衡量預(yù)估值與給定真值間的損失差異使用了歐氏距離L2損失函數(shù)。這里,本文在空間上對(duì)損失函數(shù)進(jìn)行加權(quán),以解決某些數(shù)據(jù)集并沒有完全標(biāo)記所有人的問題。其中,兩個(gè)支路在t階段的損失函數(shù)為:

將查詢和圖庫中的圖像輸入到二維關(guān)鍵點(diǎn)模塊中,輸出所有人的二維關(guān)鍵點(diǎn)(p0,p1,…,pi),分別記為k0,k1,…,ki,為下一階段的衣服特征的轉(zhuǎn)移做準(zhǔn)備。

2.2.2 人體分割算法

全卷積網(wǎng)絡(luò)FCN-8s[41],深度卷積編解碼器架構(gòu)(SegNet)[42],具有無窮卷積和多尺度(DeepLab VGG-16)[43]的深度卷積網(wǎng),DeepLab ResNet-101 以及注意機(jī)制[23](attention)等結(jié)構(gòu)在進(jìn)行語義圖像分割時(shí),均取得了優(yōu)異的效果。在本文的模型中,為了進(jìn)行公平的比較,在LIP 訓(xùn)練集上對(duì)每種方法進(jìn)行訓(xùn)練,直到驗(yàn)證性能達(dá)到飽和,并對(duì)驗(yàn)證集和測(cè)試集進(jìn)行評(píng)估。對(duì)于DeepLab 方法,本文去掉了后處理的、密集的CRF。和文獻(xiàn)[27]一樣,本文使用IoU 標(biāo)準(zhǔn)和像素級(jí)精度進(jìn)行評(píng)估。

和文獻(xiàn)[44]一樣,對(duì)于每個(gè)分割結(jié)果和對(duì)應(yīng)的真值,本文計(jì)算區(qū)域的中心點(diǎn),得到以熱圖表示的關(guān)節(jié),使訓(xùn)練更加順暢。然后,本文使用歐幾里德度量來評(píng)估生成的聯(lián)合結(jié)構(gòu)的質(zhì)量,這也反映了預(yù)測(cè)的分割結(jié)果與真值之間的結(jié)構(gòu)一致性。最后,用關(guān)節(jié)結(jié)構(gòu)損失加權(quán)像素級(jí)分割損失,得到結(jié)構(gòu)敏感損失。因此,整個(gè)人體分割網(wǎng)絡(luò)在結(jié)構(gòu)敏感損失的情況下變得自我監(jiān)督。

圖3 給出了SS-JPPNet[40]用于人體分割的示意圖。對(duì)于給定的圖像I,定義一個(gè)關(guān)節(jié)構(gòu)型列表,其中根據(jù)分割結(jié)果映射計(jì)算出第i個(gè)關(guān)節(jié)的熱圖。同理,,由相應(yīng)的解析真值得到。這里,N是由輸入圖像中的人體決定的變量,對(duì)于全身圖像,N等于9。對(duì)于圖像中遺漏的關(guān)節(jié),簡(jiǎn)單地將熱圖替換為填滿0的熱圖。關(guān)節(jié)結(jié)構(gòu)損失為歐幾里德(L2)損失,計(jì)算如下:

最終的結(jié)構(gòu)敏感損失(稱為L(zhǎng)structure)是關(guān)節(jié)結(jié)構(gòu)損失和解析分段損失的組合,其計(jì)算公式如下:

其中,Lparsing是基于分割注釋計(jì)算的像素級(jí)soft-max損失。

Fig.3 SS-JPPNet for human parsing圖3 人物分割的算法SS-JPPNet框圖

2.2.3 衣服特征轉(zhuǎn)移

衣服特征轉(zhuǎn)移函數(shù)框架如圖4 所示。本文提出了一個(gè)服裝轉(zhuǎn)換系統(tǒng),可以交換一對(duì)圖像之間的衣服,同時(shí)保持姿勢(shì)和身體形狀不變。本文通過將服裝的概念從體型和姿勢(shì)中分離出來,從而達(dá)到這個(gè)目的,這樣就可以改變?nèi)嘶蚍b,并重新組合它們。給定一張穿著所需服裝的人的圖像P0和以目標(biāo)人體形狀和姿勢(shì)刻畫另一個(gè)人的圖像Pi,本文生成的圖像由穿著P0中的所需服裝與Pi相同的人組成。注意,P0和Pi描繪了不同的人,不同的體型和姿勢(shì)穿著任意的衣服。本文的衣服特征遷移網(wǎng)絡(luò)的整體功能如下:

Fig.4 Framework of clothing feature transfer圖4 服裝特征轉(zhuǎn)移框架

本文提出了一個(gè)兩階段的流水線來分別處理語義解析傳輸和服裝傳輸生成,如圖4 所示。具體來說,衣服分割和身體分割提供了一個(gè)簡(jiǎn)潔和必要目標(biāo)所需的服裝和身體。因此,首先在Pi的目標(biāo)體型和姿態(tài)中生成衣服分割,其中衣服在P0中。假設(shè)圖像P0的衣服分割和圖像Pi的二維人體關(guān)鍵點(diǎn)在之前的工作[45]中給出或計(jì)算。在第二階段,本文輸入合成的服裝分割和想要的服裝圖像,生成最終的轉(zhuǎn)移結(jié)果。

2.3 人員匹配模塊

本文采用ResNet-50作為基于CNN模型的網(wǎng)絡(luò)結(jié)構(gòu)。該模型前面有一個(gè)7×7的卷積層(命名為conv1),后面是四個(gè)塊(命名為conv2 到conv5),每個(gè)塊分別包含3、4、6、3個(gè)殘差單元,采用第一層到第四層作為源CNN 部分,給定一張輸入圖像,輸出一個(gè)1 024 維的特征圖,這個(gè)特征圖是原圖像的1/16,根據(jù)特征流,利用卷積層來對(duì)行人特征進(jìn)行轉(zhuǎn)換,接著在特征熱圖[37]的每個(gè)位置利用9 個(gè)錨點(diǎn)(源于Faster RCNN[37])和Soft-max分類器進(jìn)行行人與否的預(yù)測(cè),同時(shí)還包括了線性回歸來調(diào)整的錨點(diǎn)位置,在非最大抑制過后保留128個(gè)調(diào)整后的邊界框作為最終的區(qū)域提議。

為了在這些區(qū)域提議里找到目標(biāo)行人,建立了識(shí)別網(wǎng)絡(luò)來提取肢體特征,并與目標(biāo)行人進(jìn)行對(duì)比。首先利用卷積層從特征熱圖中得到的區(qū)域(對(duì)應(yīng)于每個(gè)提議區(qū)域),接著將它們送入ResNet-50 的第四至第五層,再利用整體平均層將其整合為2 048維的特征向量。一方面,行人預(yù)測(cè)網(wǎng)絡(luò)不可避免地會(huì)包含一些錯(cuò)誤的警報(bào)(也就是邊界框里包含的不是行人)和錯(cuò)位,利用soft-max 分類器和線性回歸來拒絕非行人區(qū)域并完善區(qū)域提議的位置;另一方面,本文將特征投影到經(jīng)過歐式距離L2 正則化后的256維向量子空間中(這里進(jìn)行低維投影是因?yàn)镺IM 容易過擬合),計(jì)算它們和目標(biāo)行人的余弦相似度。在訓(xùn)練階段,本文用提出的OIM損失函數(shù)來監(jiān)督,與其他用于檢測(cè)的損失函數(shù)一起,整個(gè)網(wǎng)絡(luò)以多任務(wù)學(xué)習(xí)的方式聯(lián)合訓(xùn)練,而不是使用文獻(xiàn)[35]中的替代優(yōu)化。

2.4 匹配損失函數(shù)

有三種不同類型的預(yù)測(cè),即有標(biāo)記身份、未標(biāo)記身份和背景混亂。假設(shè)訓(xùn)練集中有L個(gè)不同的目標(biāo)人員,當(dāng)一個(gè)預(yù)測(cè)與目標(biāo)人員匹配時(shí),稱其為標(biāo)記身份的實(shí)例,并為其分配一個(gè)類別ID(從1到L)。還有許多預(yù)測(cè)可以正確預(yù)測(cè)行人,但并不屬于目標(biāo)人群。在這種情況下,稱其為未標(biāo)記身份。在提出的損失函數(shù)中,僅考慮標(biāo)記和未標(biāo)記的身份,而其他預(yù)測(cè)則不予考慮。

本文的目標(biāo)是區(qū)分不同的人,因此本文的模型要盡量減少同一個(gè)人實(shí)例之間的特征差異,而最大限度地增加不同人之間的差異。為了實(shí)現(xiàn)這個(gè)目標(biāo),需要記住所有人的特點(diǎn)。這可以通過對(duì)所有訓(xùn)練圖像進(jìn)行離線的前向網(wǎng)絡(luò)訓(xùn)練來完成,但在使用隨機(jī)梯度下降(stochastic gradient descent,SGD)進(jìn)行優(yōu)化時(shí)是不可行的。因此,在本文方法中,選擇在線近似代替。在一個(gè)小批處理中x∈RD表示標(biāo)記身份的特征,其中D為特征維,維護(hù)一個(gè)查找表(LUT)V∈RD×L來存儲(chǔ)所有標(biāo)記身份的特征。在正向傳播過程中,通過VTx計(jì)算了小批樣本和所有標(biāo)記恒等式之間的余弦相似性。在反向傳播時(shí),如果目標(biāo)類id是t,將更新t列附近地區(qū)的vt←γvt+(1-γ)x,γ∈[0,1],然后將vt縮放L2-norm 個(gè)單位。

除了有標(biāo)記的身份,許多未標(biāo)記的身份對(duì)于學(xué)習(xí)特性表示也很有價(jià)值。它們可以安全地用作所有標(biāo)記身份的負(fù)樣本。使用一個(gè)循環(huán)隊(duì)列來存儲(chǔ)這些在最近的小批中出現(xiàn)的未標(biāo)記身份的特性。用U∈RD×Q表示這個(gè)循環(huán)隊(duì)列中的特征,其中Q為隊(duì)列大小,還可以用UTx計(jì)算它們與小批量樣本的余弦相似度。在每次迭代之后,將新的特征向量推入隊(duì)列,而取出過時(shí)的特征向量以保持隊(duì)列大小不變。

基于這兩種數(shù)據(jù)結(jié)構(gòu),定義了一個(gè)soft-max函數(shù)來確定x被識(shí)別為類IDi的標(biāo)識(shí)的概率。

更高的溫度τ將會(huì)導(dǎo)致更柔和的概率分布。同樣,在循環(huán)隊(duì)列中被識(shí)別為第i未標(biāo)記標(biāo)識(shí)的概率為:

OIM的目標(biāo)是最大化預(yù)期的對(duì)數(shù)似然率:

可以看出,本文方法的損失有效地將小批樣本與所有標(biāo)記和未標(biāo)記的身份進(jìn)行了比較,使得底層特征向量與目標(biāo)向量相似,同時(shí)將查詢圖像中的底層特征向量與圖像庫中的其他特征向量差異增強(qiáng)。

3 實(shí)驗(yàn)

3.1 PRDDC數(shù)據(jù)集的標(biāo)注描述

由于當(dāng)目標(biāo)人物在圖庫圖像中更換衣服時(shí)沒有行人重識(shí)別數(shù)據(jù)集,構(gòu)建了一個(gè)名為PRDDC(person RE-ID with different clothes)的數(shù)據(jù)集。本文的數(shù)據(jù)集主要分為三種類型:第一種是目標(biāo)人物在錄像中換裝,主要是夏裝和春裝;第二種是收集100個(gè)明星,在不同的場(chǎng)合穿不同的衣服(包括娛樂明星、體育明星);最后,目標(biāo)人物在錄像中更換衣服,主要是更換更厚的冬衣。本文的數(shù)據(jù)集中總共包含12 279幀圖像,這些圖像是在公共場(chǎng)所收集的。圖5給出了在數(shù)據(jù)集PRDDC圖片庫中的一些例子,相同的人員身著不同的衣服。數(shù)據(jù)集有三個(gè)子數(shù)據(jù)集:

(1)單人在同一位置(person Re-ID with different clothes of single people in a fixed position,PRDDCFP),在PRDDC-FP數(shù)據(jù)集中包含2 235幀。

(2)單人隨機(jī)姿勢(shì)(person Re-ID with different clothes of single people in random postpose,PRDDCSPRP),在PRDDC-SPRP數(shù)據(jù)集中包含6 486幀。

(3)多人隨機(jī)姿勢(shì)(person Re-ID with different clothes of multiple people in random postpose,PRDDCMPRP),在PRDDC-MPRP數(shù)據(jù)集中包含4 058幀。

3.2 實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)是在操作系統(tǒng)Ubuntu16.04 環(huán)境中配置的,其操作系統(tǒng)的位數(shù)為64位,使用python編程語言來實(shí)現(xiàn)算法模型,用深度學(xué)習(xí)框架Keras 和Tensorflow作為主要框架,與此同時(shí)還使用了Cuda8.0進(jìn)行GPU 加速操作,由于數(shù)據(jù)集數(shù)量大、訓(xùn)練時(shí)間長(zhǎng),本文選擇GPU來進(jìn)行圖像特征的提取,這樣一來不僅可以提高運(yùn)算的速度,而且其輸出結(jié)果的精確度也很高。本數(shù)據(jù)集訓(xùn)練中數(shù)據(jù)迭代的次數(shù)為160次,訓(xùn)練期間總共耗費(fèi)的總時(shí)間為8 h。

Fig.5 Examples of persons that change their clothes on dataset圖5 數(shù)據(jù)集中更換衣服的人的示例

基于tensorflow 的框架實(shí)現(xiàn)了深度Re-ID 模型。采用ResNet-50作為模型的主干,并使用在Image-Net上預(yù)先訓(xùn)練的參數(shù)對(duì)模型進(jìn)行初始化。固定了前兩個(gè)殘差層來節(jié)省GPU 內(nèi)存。輸入圖像大小調(diào)整為256×128。在訓(xùn)練中,執(zhí)行隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪和隨機(jī)擦除來增加數(shù)據(jù)。Dropout 的概率設(shè)置為0.5。在ResNet-50 基礎(chǔ)層中以0.01 的學(xué)習(xí)率訓(xùn)練模型,而在前40個(gè)epoch中以0.1的學(xué)習(xí)率訓(xùn)練模型。在接下來的20 個(gè)epoch 內(nèi),學(xué)習(xí)率除以10。采用SGD 優(yōu)化模式進(jìn)行訓(xùn)練。將源圖像和目標(biāo)圖像的迷你批處理大小都設(shè)置為128。初始化更新率的關(guān)鍵記憶α為0.01,隨著epoch的增加線性增加α值,即α=0.01×epoch。設(shè)置溫度β=0.05,候選正樣本k=6 和權(quán)重的損失λ=0.3。在前5個(gè)epoch用樣本不變性和攝像機(jī)不變性學(xué)習(xí)訓(xùn)練模型,并在其余epoch加入鄰域不變性學(xué)習(xí)。在測(cè)試中,提取第5 個(gè)池化層的L2正則化輸出作為圖像特征,并采用歐氏距離來度量查詢圖像與圖庫圖像的相似性。

3.3 評(píng)價(jià)指標(biāo)

一個(gè)好的Re-ID 系統(tǒng)有兩個(gè)特點(diǎn):首先,所有的人都精確地定位在每個(gè)圖像中;其次,給定一個(gè)查詢圖像和一個(gè)圖庫圖像,由圖庫圖像捕獲的同一個(gè)人的所有實(shí)例都將在頂級(jí)結(jié)果中檢索。給出一個(gè)查詢圖像P0和一個(gè)圖庫圖像Pi,計(jì)算它們之間的相似度得分,得到一個(gè)排序結(jié)果。使用平均精度(mean average precision,mAP)指標(biāo)來評(píng)估人員重新識(shí)別的準(zhǔn)確性,這是所有查詢的平均精度(average precision,AP)值。通過累積匹配特性(cumulative matching characteristic,CMC)和平均精度(mAP)來評(píng)估性能。

3.4 人員檢測(cè)評(píng)價(jià)

本文使用mAP指標(biāo)來評(píng)估行人檢測(cè)模塊的有效性,分別在數(shù)據(jù)集PRDDC 的三個(gè)子數(shù)據(jù)集PRDDCFP、PRDDC-SPRP、PRDDC-MPRP 上進(jìn)行評(píng)估,使用不同檢測(cè)算法在三個(gè)子數(shù)據(jù)集的準(zhǔn)確率比較結(jié)果如表1 所示,從測(cè)試結(jié)果可以得出如下結(jié)論:使用Faster RCNN[37]檢測(cè)器的性能最好,在三個(gè)子數(shù)據(jù)集上的性能分別為84.3%、86.6%、88.2%,因此選擇Faster RCNN[37]網(wǎng)絡(luò)作為本文的行人檢測(cè)網(wǎng)絡(luò)。

本文在子數(shù)據(jù)集和數(shù)據(jù)集PRDDC 中檢測(cè)的結(jié)果如圖6所示,在視頻幀1中主要是對(duì)單個(gè)目標(biāo)行人進(jìn)行檢測(cè),從圖中結(jié)果可以得出行人檢測(cè)網(wǎng)絡(luò)能夠準(zhǔn)確有效地將單個(gè)行人檢測(cè)出來;在視頻幀2中主要是對(duì)多個(gè)目標(biāo)行人進(jìn)行檢測(cè),從圖中結(jié)果可以得出行人檢測(cè)網(wǎng)絡(luò)能夠準(zhǔn)確有效地將多個(gè)目標(biāo)行人同時(shí)檢測(cè)出來。綜上所述,可以得出如下結(jié)論:使用行人檢測(cè)網(wǎng)絡(luò)能夠準(zhǔn)確地將視頻幀中的目標(biāo)行人檢測(cè)出來。

Table 1 mAP of different detectors表1 不同檢測(cè)算法的平均精度 %

Fig.6 Person detection results on dataset PRDDC圖6 數(shù)據(jù)集PRDDC上的人員檢測(cè)結(jié)果

3.5 服裝信息轉(zhuǎn)移功能評(píng)價(jià)

(1)二維人體關(guān)鍵點(diǎn)。本文使用的關(guān)鍵點(diǎn)提取模型主要是從一張圖像中定位人物二維關(guān)鍵點(diǎn),在服裝特征的轉(zhuǎn)移過程中,會(huì)利用人的二維關(guān)鍵點(diǎn)。本文工作的創(chuàng)新之處在于可以自動(dòng)輸出二維的人體關(guān)鍵點(diǎn)。這種自動(dòng)定位方法優(yōu)于現(xiàn)有的解決方案,可以自動(dòng)定位人體的二維關(guān)鍵點(diǎn)來進(jìn)行換衣。

本文在human3.6M 數(shù)據(jù)集[49]上進(jìn)行關(guān)鍵點(diǎn)模型訓(xùn)練,該數(shù)據(jù)集包含360 萬個(gè)準(zhǔn)確的二維人物姿態(tài)。本文的工作首先是在這個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練。然后利用數(shù)據(jù)集PRDDC 測(cè)試關(guān)鍵點(diǎn)模型的有效性。在數(shù)據(jù)集PRDDC上的關(guān)鍵點(diǎn)檢測(cè)結(jié)果如圖7所示。實(shí)驗(yàn)的主要過程是:首先利用Faster RCNN網(wǎng)絡(luò)來檢測(cè)目標(biāo)人物,然后將檢測(cè)到的人物傳遞給關(guān)鍵點(diǎn)模塊,自動(dòng)輸出二維的人物關(guān)鍵點(diǎn)。然后利用這些二維人體關(guān)鍵點(diǎn)來傳遞服裝特征。

Fig.7 2D human key points on dataset PRDDC圖7 數(shù)據(jù)集PRDDC上2D人體關(guān)鍵點(diǎn)

(2)人體分割網(wǎng)絡(luò)。本文評(píng)估了PRDDC 數(shù)據(jù)集上的人體語義分割。圖8 給出了中間語義映射和對(duì)應(yīng)的生成圖像。進(jìn)行人物分割實(shí)驗(yàn)的流程是:輸入圖像通過解析網(wǎng)絡(luò)JPP-Net[50],輸出相對(duì)應(yīng)的分割結(jié)果。通過計(jì)算分割圖中相應(yīng)區(qū)域的中心點(diǎn),包括頭部(H)、上半身(U)、下半身(L)、右臂(RA),獲得表示為熱圖關(guān)節(jié)的生成關(guān)節(jié)和對(duì)應(yīng)的真實(shí)值,分別為左臂(LA)、右腿(RL)、左腿(LL)、右鞋(RS)和左鞋(LS)。利用聯(lián)合結(jié)構(gòu)損失加權(quán)分段損失來產(chǎn)生最終的結(jié)構(gòu)損失函數(shù),為了清楚地觀察,在這里將九個(gè)熱圖組合在一個(gè)圖中。同樣地,上衣、外套和圍巾合并為上半身,褲子和裙子合并為下半身,其余區(qū)域也可以通過相應(yīng)的標(biāo)簽獲得。通過分割網(wǎng)絡(luò),在語義上對(duì)查詢圖像和圖像庫中的人物進(jìn)行分割,得到人物的衣服特征,為下一階段中衣服特征的遷移做準(zhǔn)備。

Fig.8 Results of human semantic parsing on dataset PRDDC圖8 數(shù)據(jù)集PRDDC上的人類語義分割的結(jié)果

(3)衣服特征轉(zhuǎn)移。本文對(duì)數(shù)據(jù)集PRDDC上的衣服特征轉(zhuǎn)移進(jìn)行了評(píng)估。在語義解析轉(zhuǎn)換階段,整合了查詢圖像P0、圖庫圖像Pi、二維人物關(guān)鍵點(diǎn)ki、圖像P0的語義解析結(jié)果生成一個(gè)粗略的結(jié)果,即服裝分割符合期望的姿勢(shì)。在服裝轉(zhuǎn)換生成階段,利用所需要的服裝圖像中的服裝信息,綜合出與前一階段服裝分割一致的服裝細(xì)節(jié)紋理。通過優(yōu)化和改進(jìn),得到了從第一階段轉(zhuǎn)移到服裝特征的最終結(jié)果。

通過轉(zhuǎn)移衣服特征模塊,將P0的衣服特征轉(zhuǎn)移到P1,P2,…,Pn,以及生成新的子圖像主要測(cè)試目標(biāo)人物在一個(gè)固定的位置,主要包括正面、左側(cè)和右側(cè)的圖像。衣服前后固定位置的特征轉(zhuǎn)移結(jié)果如圖9所示。

Fig.9 Results of transferring clothes feature圖9 服裝轉(zhuǎn)移生成的結(jié)果

從圖9的實(shí)驗(yàn)結(jié)果可以看出,兩階段服裝特征轉(zhuǎn)移可以達(dá)到預(yù)期的效果,包含的人物特征更豐富。例如,該人的面部和衣服特征的更多細(xì)節(jié)將轉(zhuǎn)移到生成的結(jié)果中,可以為人物和衣服生成正確的顏色和紋理。

3.6 人員匹配模塊的評(píng)價(jià)

通過對(duì)服裝特征遷移模塊與非遷移模塊的比較,驗(yàn)證了新模型在子數(shù)據(jù)集上的有效性。人匹配過程中使用的在線實(shí)例匹配函數(shù)(OIM)[35]。在圖庫圖像中,有標(biāo)記身份的人和未標(biāo)記身份的人用不同的顏色標(biāo)記。使用一個(gè)循環(huán)隊(duì)列來存儲(chǔ)有標(biāo)記身份人的信息,稱為L(zhǎng)UT的查找表;使用另外一個(gè)循環(huán)隊(duì)列用于存儲(chǔ)沒有標(biāo)記身份的人的信息,查找表是CQ。當(dāng)進(jìn)行查詢匹配時(shí),每個(gè)標(biāo)記的ID將匹配所有存儲(chǔ)的特性。當(dāng)沒有匹配成功時(shí),它自動(dòng)根據(jù)ID 更新LUT,將新來的目標(biāo)行人特征推送到CQ,自動(dòng)進(jìn)入下一個(gè)循環(huán),繼續(xù)重復(fù)上述更新匹配的過程,直到識(shí)別出換衣服后的目標(biāo)人物。

將PRDDC 數(shù)據(jù)集分為三個(gè)子數(shù)據(jù)集。第一個(gè)子數(shù)據(jù)集是目標(biāo)人物固定姿勢(shì)的類型,三個(gè)固定姿勢(shì)是目標(biāo)人物的前面、左邊和右邊。第二個(gè)子數(shù)據(jù)集的類型是在視頻監(jiān)控中多人處于任意位置的情況。第三個(gè)子數(shù)據(jù)集類型是一個(gè)人在視頻監(jiān)控中的任何姿勢(shì)。在子數(shù)據(jù)集上,本文比較了不同Re-ID方法下CFTF 和non-CFTF 的識(shí)別精度。Re-ID 方法的比較主要包括CAMEL[51]、TJ-AIDL[52]、PTGAN[3]、SPGAN[14]、HHL[53]等。測(cè)試結(jié)果如表2所示。

Table 2 Recognition precision on PRDDC dataset表2 PRDCC數(shù)據(jù)集上的識(shí)別精確度 %

本文所做的對(duì)比實(shí)驗(yàn)是將三個(gè)不同子數(shù)據(jù)集分別通過和不通過衣服特征遷移模塊,再運(yùn)用不同Re-ID方法進(jìn)行匹配的過程,測(cè)試出這三種不同子數(shù)據(jù)集下Re-ID 的匹配精確度。從表2 中的測(cè)試結(jié)果可以看出,當(dāng)子數(shù)據(jù)集通過衣服特征遷移模塊時(shí),其Re-ID 的匹配精確度遠(yuǎn)高于沒有通過CFTF 模塊的匹配精確度。例如,當(dāng)單人固定姿勢(shì)的子數(shù)據(jù)集通過衣服特征遷移模塊時(shí),運(yùn)用HHL[53]的方法其Re-ID的匹配精確度為57.80%;當(dāng)該數(shù)據(jù)集沒有通過衣服特征遷移模塊時(shí),運(yùn)用該方法其Re-ID 的精確度為16.50%。從表2中還可以看出,本文提出的算法在通過不同數(shù)據(jù)集PRDDC-FP、PRDDC-SPRP、PRDDCMPRP 時(shí),其Re-ID 的匹配精確度分別為63.70%、37.60%和21.60%,都要優(yōu)于現(xiàn)有其他算法。這些實(shí)驗(yàn)結(jié)果表明了衣服遷移有效消除了人物匹配過程中服裝差異的影響,提高了Re-ID 算法的準(zhǔn)確性,同時(shí)也體現(xiàn)出衣服特征在識(shí)別過程中的重要性以及驗(yàn)證了本文提出模型的有效性。

4 結(jié)束語

本文提出了在Re-ID 任務(wù)中查詢圖像和圖庫圖像中出現(xiàn)不同服裝的人的問題,該問題在實(shí)際應(yīng)用中是可行的。為了支持這一研究方向,收集了大規(guī)模的人衣遷移數(shù)據(jù)集PRDDC。此外,本文還提出了一種新的模型,將衣服的特征從一個(gè)人的圖像轉(zhuǎn)移到另一個(gè)人的圖像,以實(shí)現(xiàn)人的匹配。實(shí)驗(yàn)結(jié)果表明,與沒有衣服特征轉(zhuǎn)移模塊的算法相比,包含特征轉(zhuǎn)移模塊的算法在識(shí)別率上有明顯的提高。本文嘗試解決Re-ID任務(wù)中的換衣問題,在以后的工作中將對(duì)更復(fù)雜的表情變化案例進(jìn)行研究。

新干县| 平果县| 英德市| 随州市| 耿马| 栖霞市| 汉沽区| 金溪县| 康马县| 安福县| 布尔津县| 舒兰市| 昌邑市| 冷水江市| 天水市| 盐山县| 安泽县| 阜新市| 利川市| 江西省| 正定县| 会宁县| 会同县| 扶余县| 广南县| 汝南县| 凌海市| 合山市| 孟村| 穆棱市| 内黄县| 汤原县| 南部县| 金山区| 红原县| 英超| 固阳县| 五常市| 阿拉善左旗| 西昌市| 海南省|