国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義引導(dǎo)自注意力網(wǎng)絡(luò)的換衣行人重識別模型

2024-01-09 02:45:02鐘建華邱創(chuàng)一巢建樹明瑞成鐘劍鋒
計算機(jī)應(yīng)用 2023年12期
關(guān)鍵詞:全局行人注意力

鐘建華,邱創(chuàng)一,巢建樹,明瑞成,鐘劍鋒*

基于語義引導(dǎo)自注意力網(wǎng)絡(luò)的換衣行人重識別模型

鐘建華1,邱創(chuàng)一1,2,巢建樹2,明瑞成2,鐘劍鋒1*

(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000; 2.中國科學(xué)院海西研究院 泉州裝備制造研究中心,福建 泉州 362000)(?通信作者電子郵箱 zhongjianfeng@fzu.edu.cn)

針對換衣行人重識別(ReID)任務(wù)中有效信息提取困難的問題,提出一種基于語義引導(dǎo)自注意力網(wǎng)絡(luò)的換衣ReID模型。首先,利用語義信息將圖像分割出無服裝圖像,和原始圖像一起輸入雙分支多頭自注意力網(wǎng)絡(luò)進(jìn)行計算,分別得到衣物無關(guān)特征和完整行人特征。其次,利用全局特征重建模塊(GFR),重建兩種全局特征,得到的新特征中服裝區(qū)域包含換衣任務(wù)中魯棒性更好的頭部特征,使得全局特征中的顯著性信息更突出;利用局部特征重組重建模塊(LFRR),在完整圖像特征和無服裝圖像特征中提取頭部和鞋部局部特征,強(qiáng)調(diào)頭部和鞋部特征的細(xì)節(jié)信息,并減少換鞋造成的干擾。最后,除了使用行人重識別中常用的身份損失和三元組損失,提出特征拉近損失(FPL),拉近局部與全局特征、完整圖像特征與無服裝圖像特征之間的距離。在PRCC(Person ReID under moderate Clothing Change)和VC-Clothes(Virtually Changing-Clothes)數(shù)據(jù)集上,與基于衣物對抗損失(CAL)模型相比,所提模型的平均精確率均值(mAP)分別提升了4.6和0.9個百分點;在Celeb-reID和Celeb-reID-light數(shù)據(jù)集上,與聯(lián)合損失膠囊網(wǎng)絡(luò)(JLCN)模型相比,所提模型的mAP分別提升了0.2和 5.0個百分點。實驗結(jié)果表明,所提模型在換衣場景中突出有效信息表達(dá)方面具有一定優(yōu)勢。

換衣行人重識別;多頭自注意力網(wǎng)絡(luò);語義分割;特征重建;特征重組

0 引言

行人重識別(person Re-IDentification, ReID)是在跨攝像頭情況下,對不同攝像頭拍攝的同一行人進(jìn)行重新識別[1]。目前在常規(guī)ReID任務(wù)中,檢測識別的精度已經(jīng)取得了較大的進(jìn)步。但是在現(xiàn)實生活中,通常會發(fā)生行人更換衣服的情況,例如在犯罪場景中,犯罪分子在攝像頭無法拍攝的區(qū)域可能會通過換衣躲避監(jiān)管部門的追查[2];或者在長達(dá)數(shù)天的ReID任務(wù)中,行人換衣的情況是通常發(fā)生的。如果按照現(xiàn)有的常規(guī)ReID方法進(jìn)行換衣情況下的ReID,行人被正確識別的難度大幅增加。因此,換衣ReID的研究具有實際意義。

現(xiàn)有的常規(guī)ReID目的是充分學(xué)習(xí)并利用行人圖像的各種有效特征信息。文獻(xiàn)[3]中提出的強(qiáng)壯骨干網(wǎng)絡(luò)僅使用全局特征提取行人信息,添加隨機(jī)擦除[4]等方法更有效地提取信息;文獻(xiàn)[5]中提出分塊特征提取網(wǎng)絡(luò)PCB(Part-based Convolutional Baseline),證明圖像的局部特征在ReID任務(wù)中比全局特征包含更多的細(xì)節(jié)信息;文獻(xiàn)[6]中提出的多粒度網(wǎng)絡(luò)(Multiple Granularity Network, MGN)結(jié)合全局和局部特征,進(jìn)一步提高模型性能;文獻(xiàn)[7]中提出使用局部灰度域得到更穩(wěn)健的特征。

對比常規(guī)ReID任務(wù),換衣ReID的挑戰(zhàn)在于ReID中最大的識別區(qū)域(即上衣與褲子)是正確識別目標(biāo)行人的阻礙。目前,研究人員已經(jīng)在換衣ReID任務(wù)領(lǐng)域取得了較多成果:文獻(xiàn)[8]中在換衣ReID膠囊網(wǎng)絡(luò)(Capsule network for cloth-changing ReID, ReIDCaps)[9]上添加標(biāo)簽平滑的交叉熵?fù)p失與圓損失(circle loss)[10],提高模型的性能;文獻(xiàn)[2]中提出將行人輪廓進(jìn)行空間極性變換(Spatial Polar Transformation, SPT)后輸入神經(jīng)網(wǎng)絡(luò),保證最大區(qū)分不同行人的身材輪廓,并且避免了衣物顏色信息的導(dǎo)入;文獻(xiàn)[11]中使用單張圖像的相鄰圖像設(shè)置步態(tài)信息,并結(jié)合步態(tài)信息和色彩(Red, Green and Blue, RGB)信息輸出行人特征;文獻(xiàn)[12]中提出結(jié)合RGB信息和三維行人體態(tài)信息的雙流網(wǎng)絡(luò)提升對衣物紋理與顏色的魯棒性,使用對抗網(wǎng)絡(luò)生成ReID數(shù)據(jù)集中缺失的三維人體模型;文獻(xiàn)[13]中提出結(jié)合圖像的RGB信息和行人輪廓信息的雙流網(wǎng)絡(luò),設(shè)計損失函數(shù)糾正額外模型分割的輪廓信息;文獻(xiàn)[14]中提出多正類分類損失與衣服信息損失進(jìn)行對抗學(xué)習(xí),通過多正類分類損失使網(wǎng)絡(luò)在衣物區(qū)域更多地學(xué)習(xí)行人的體態(tài)特征。

現(xiàn)有的換衣ReID模型大多基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的骨架網(wǎng)絡(luò),但是:1)由于CNN的局部依賴性[15],網(wǎng)絡(luò)的注意力大多集中在較小的判別區(qū)域;2)CNN在縮小模型規(guī)模時不可避免地使用降采樣操作[16-18],容易在網(wǎng)絡(luò)的傳播中丟失細(xì)節(jié)信息,而細(xì)節(jié)信息對于換衣任務(wù)中的有效信息區(qū)域相較于常規(guī)ReID任務(wù)更重要。這兩個缺點導(dǎo)致基于CNN的模型判別條件苛刻,換衣任務(wù)精度難以提升。多頭自注意力網(wǎng)絡(luò)[15]能夠更有效地捕捉長期依賴關(guān)系,因此能夠充分利用全局特征,并且因為無下采樣操作,能夠保留更多的細(xì)節(jié)信息。此外,現(xiàn)有的換衣ReID模型主要使用輪廓信息或者身體姿態(tài)等輔助學(xué)習(xí)原圖像,沒有充分挖掘圖像RGB信息,也沒有對換衣任務(wù)中的特征進(jìn)行進(jìn)一步處理。

因此本文提出基于語義引導(dǎo)自注意力網(wǎng)絡(luò)的換衣ReID模型。通過語義信息引導(dǎo)雙分支網(wǎng)絡(luò),將完整圖像與無服裝圖像輸入網(wǎng)絡(luò),保證網(wǎng)絡(luò)能學(xué)習(xí)完整的行人特征和避免衣服干擾的行人特征;利用多頭自注意力網(wǎng)絡(luò)提取更豐富的細(xì)節(jié)信息,并能更有效地獲得全局信息;同時,提出全局特征重建模塊(Global Feature Reconstruction module, GFR)在換衣任務(wù)中強(qiáng)調(diào)顯著性信息,使網(wǎng)絡(luò)對圖像的關(guān)注區(qū)域更全面;提出局部特征重組重建模塊(Local Feature Reorganization and Reconstruction module, LFRR),以輸出換衣任務(wù)中干擾較少的頭部和鞋部特征,并將它們進(jìn)行重組重建,提高模型的魯棒性;最后,提出特征拉近損失(Feature Pull Loss, FPL),拉近兩個全局特征之間的距離,拉近全局與局部特征之間的距離,進(jìn)一步強(qiáng)調(diào)顯著性信息,從而提升換衣ReID模型的準(zhǔn)確性。

1 本文模型

本文模型的整體框架如圖1所示。

圖1 本文模型的整體框架

1.1 訓(xùn)練流程策略

本文模型的訓(xùn)練流程如圖2所示。首先對原始圖像做語義分割得到無衣物信息的行人圖像,將原始圖像和無服裝圖像輸入雙分支多頭自注意力網(wǎng)絡(luò)進(jìn)行訓(xùn)練,原始圖像分支學(xué)習(xí)行人的完整信息,無服裝圖像分支學(xué)習(xí)排除了服裝干擾的行人信息。

在多頭自注意力網(wǎng)絡(luò)的訓(xùn)練中,兩類圖像被分別分割為大小一致的塊輸入網(wǎng)絡(luò),并將塊拉伸成向量序列。在輸入的向量序列前,添加一個額外的可學(xué)習(xí)的分類標(biāo)志(class token)向量作為模型的分類預(yù)測。為了表示每個塊在圖像中的順序,在每個向量序列前添加位置嵌入(position embedding)。將向量序列輸入Transformer編碼器,使用多層多頭自注意力網(wǎng)絡(luò)提取特征。

在多頭自注意力網(wǎng)絡(luò)的最后一層自注意力模塊前分別進(jìn)行全局特征重建和局部特征重組重建:全局特征融合頭部特征和行人的服裝特征,突出顯著性信息的同時不丟棄輔助信息;局部特征重組重建操作將圖像分塊,取出換衣任務(wù)中顯著的頭部和鞋部特征,并將兩種局部特征進(jìn)行重組重建,增強(qiáng)模型的魯棒性。

最后通過損失函數(shù)進(jìn)行迭代更新,除了常用的身份損失和柔性三元組損失,提出FPL,拉近兩個全局特征之間的距離,在全局特征中強(qiáng)調(diào)非服裝等無干擾信息,同時拉近全局與局部特征之間的距離,使用局部特征突出全局特征中的細(xì)節(jié)信息,提高網(wǎng)絡(luò)在服裝變化情況的魯棒性。

圖2 本文模型的訓(xùn)練流程

1.2 語義引導(dǎo)多頭自注意力網(wǎng)絡(luò)結(jié)構(gòu)

換衣ReID任務(wù)中,由于服裝對網(wǎng)絡(luò)造成干擾,因此提出語義信息引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu),使用語義分割將原始圖像分成服裝信息和非服裝信息兩個類別,剔除服裝信息得到無服裝圖像。考慮到實際情況中模型不只對換衣任務(wù)進(jìn)行ReID,仍然有大量非換衣的常規(guī)情況,因此保留原始圖像,將無服裝圖像和原圖像輸入雙分支網(wǎng)絡(luò)進(jìn)行訓(xùn)練。骨干網(wǎng)絡(luò)選擇多頭自注意力網(wǎng)絡(luò),是因為相較于CNN,多頭自注意力網(wǎng)絡(luò)沒有池化等操作,能保留更多細(xì)節(jié)信息;同時由于網(wǎng)絡(luò)的自注意力結(jié)構(gòu),每個局部塊都有全局的感受野,像素距離較遠(yuǎn)的頭部和鞋部同樣有緊密的相互關(guān)系,能更好地捕獲遠(yuǎn)程依賴性。

1.3 GFR

多頭自注意力網(wǎng)絡(luò)能夠更有效地利用全局特征,在換衣ReID任務(wù)中,行人服裝會發(fā)生變化,而行人的臉部信息通常變化較少,網(wǎng)絡(luò)對于頭部的關(guān)注度大于身體部位,因此把頭部信息作為在全局特征中的顯著性信息進(jìn)行強(qiáng)化。在全局特征處理中,本文模型沒有丟棄軀干區(qū)域的服裝信息,而是把它與同區(qū)域的身材、手臂飾品等作為對于換衣情況下的輔助信息輸入網(wǎng)絡(luò),因此提出GFR,如圖3所示。

圖3 全局特征重建模塊

1.4 LFRR

在ReID任務(wù)中,局部特征相較于全局特征能夠更有效地反映行人細(xì)節(jié)信息[5];但在換衣情況中,服裝部分的局部信息容易導(dǎo)致判別失誤,于是提出LFRR。在局部特征中只使用圖像的頭部和鞋部特征,頭部特征最顯著,在長時間的ReID中,鞋子在換衣任務(wù)中不經(jīng)常替換,因此鞋子也是識別換衣行人重要的特征,所以選擇頭部和鞋部特征作為模型的局部特征進(jìn)行輸出,但由于長時間的ReID中,鞋子依然有替換的可能,因此進(jìn)行局部特征重組重建,降低鞋子替換對網(wǎng)絡(luò)造成的干擾,LFRR如圖4所示。

圖4 局部特征重組重建模塊

1.5 損失函數(shù)

本文模型在訓(xùn)練階段使用了3種損失函數(shù),包括:身份損失[19]、柔性三元組損失[20]和FPL函數(shù)。

身份損失函數(shù)是基于模型預(yù)測身份和行人身份標(biāo)簽間的交叉熵,計算公式如式(5)所示:

同時由于換衣情況下服裝是干擾信息,非換衣情況下服裝是正確識別信息,導(dǎo)致網(wǎng)絡(luò)注意力并沒有完全集中在非服裝區(qū)域,在換衣情況下魯棒性不強(qiáng),因此需要加強(qiáng)非服裝方面的特征表示。本文提出FPL函數(shù),以強(qiáng)調(diào)在換衣任務(wù)中的有效信息,拉近局部和全局特征使得網(wǎng)絡(luò)注意力集中在重組后的頭部和鞋部信息,拉近完整圖像全局特征和無服裝圖像全局特征使得網(wǎng)絡(luò)注意力集中在非服裝信息。FPL計算公式如式(8)(9)所示。式(8)表示拉近完整圖像全局特征和無服裝圖像全局特征的損失函數(shù),式(9)表示拉近全局與局部特征的損失函數(shù):

本文使用上述3種損失聯(lián)合訓(xùn)練。為了避免3種損失函數(shù)收斂時振蕩[3],在身份損失前添加歸一化層[23]。整體網(wǎng)絡(luò)模型的損失函數(shù)包括對全局和局部特征的身份損失和三元組損失收斂,完整全局特征和無服裝全局特征的拉近損失收斂,全局和局部特征的拉近損失收斂,如式(10)所示:

2 實驗與結(jié)果分析

2.1 數(shù)據(jù)集與評價指標(biāo)

為驗證本文模型的有效性,在PRCC (Person ReID under moderate Clothing Change)[2]、VC-Clothes (Virtually Changing-Clothes)[24]、Celeb-reID (Celebrities re-IDentification)[9]和Celeb-reID-light (light version of Celebrities re-IDentification)[9]這4個公開換衣ReID數(shù)據(jù)集上進(jìn)行換衣情況測試。

PRCC數(shù)據(jù)集包含221個行人,共有33 698張行人圖像,由3個不同角度相機(jī)拍攝組成,相機(jī)A和B中每個人穿著相同的衣服,相機(jī)C中的行人穿著不同的衣服。訓(xùn)練集包含150個行人,圖像張數(shù)為17 896。測試集中共有71個行人,圖像張數(shù)為3 384。查詢集中相同服裝的有71個行人,3 543張圖像;換衣情況的有71個行人,3 873張圖像。

VC-Clothes數(shù)據(jù)集是虛擬數(shù)據(jù)集,包含512個行人,共有19 060張行人圖像,4個相機(jī)視角拍攝組成,相機(jī)2和相機(jī)3的行人不換衣,相機(jī)3和相機(jī)4的行人換衣。訓(xùn)練集包含256個行人,9 449張圖像;測試集包含256個行人,8 591張圖像;查詢集包含256個行人,1 020張圖像。

Celeb-reID和Celeb-reID-light是最早針對換衣ReID提出的數(shù)據(jù)集之一,其中Celeb-reID-light是Celeb-reID的子集,兩個數(shù)據(jù)集并沒有嚴(yán)格地區(qū)分換衣和非換衣的情況。在Celeb-reID數(shù)據(jù)集上:訓(xùn)練集包含632個行人,20 208張圖像;測試集包含420個行人,11 006張圖像;查詢集包含420個行人,2 972張圖像。在Celeb-reID-light數(shù)據(jù)集上:訓(xùn)練集包含490個行人,9 021張圖像;測試集包含100個行人,934張圖像;查詢集包含100個行人,887張圖像。

為了評估模型的有效性,評價指標(biāo)采用ReID中常用的累計匹配特征(Cumulative Matching Characteristic, CMC)曲線和平均精確率均值(mean Average Precision, mAP)。累計匹配特性曲線表示搜索結(jié)果前張圖像中有正確結(jié)果的概率,其中Rank-1表示搜索結(jié)果置信度最高的圖像有正確結(jié)果的概率,Rank-5表示搜索結(jié)果置信度排行前5的圖像中有正確結(jié)果的概率,Rank-10表示所搜結(jié)果置信度排行前10的圖像中有正確結(jié)果的概率。mAP表示正確結(jié)果排序靠前的程度,體現(xiàn)整體多張圖像的檢索性能。

2.2 實驗設(shè)置

本文的實驗采用Ubuntu 20.04操作系統(tǒng),深度學(xué)習(xí)框架為PyTorch 1.9.0,編程語言版本為Python 3.7,硬件基礎(chǔ)為V100 GPU。

本文實驗的骨干網(wǎng)絡(luò)為多頭自注意力網(wǎng)絡(luò),初始權(quán)重在ImageNet-21K上預(yù)先訓(xùn)練,然后在ImageNet-1K上進(jìn)行網(wǎng)絡(luò)調(diào)整。圖像的大小統(tǒng)一調(diào)整為384×192,使用隨機(jī)水平翻轉(zhuǎn)、填充、隨機(jī)裁剪和隨機(jī)擦除[4]的數(shù)據(jù)增強(qiáng)方法對圖像進(jìn)行預(yù)處理。本文選擇的語義分割方法為LIP (Look Into Person)數(shù)據(jù)集[25]預(yù)先訓(xùn)練的自我糾錯人體解析(Self Correction Human Parsing, SCHP)模型[26]。批量大小為64,每個行人在一批次中有8張圖像,初始化為0.003 5,使用余弦學(xué)習(xí)率衰減學(xué)習(xí)率,采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)優(yōu)化模型,迭代次數(shù)為60。在此,將本文模型簡稱為SGSNet(Semantic-Guided Self-attention Network)。

2.3 結(jié)果與分析

2.3.1消融實驗

驗證模型的各個模塊在換衣ReID任務(wù)中的有效性,在PRCC數(shù)據(jù)集上的消融實驗結(jié)果如表1所示。其中,使用多頭自注意力網(wǎng)絡(luò)做基準(zhǔn)網(wǎng)絡(luò)(Baseline),語義引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)(Semantic Guidance Network structure, SGN)、全局特征重建模塊(GFR)、局部特征重組重建模塊(LFRR)和特征拉近損失(FPL)在表1中都用縮略語表示。消融實驗部分驗證提出的不同模塊在換衣場景下ReID情況的有效性。

從表1可以看出,在PRCC數(shù)據(jù)集換衣情況使用語義引導(dǎo)多頭自注意力網(wǎng)絡(luò)對性能有較大提升,相較于只使用多頭自注意力網(wǎng)絡(luò)(Baseline),Rank-1和mAP分別提升了6.7和7.1個百分點,這是因為新增的語義引導(dǎo)網(wǎng)絡(luò)分支使用的圖像經(jīng)過語義分割去除了衣服的干擾,使得網(wǎng)絡(luò)可以獨立學(xué)習(xí)換衣情況下的無服裝信息,精度的提升表明使用語義信息引導(dǎo)網(wǎng)絡(luò)發(fā)揮了作用。

表1在PRCC數(shù)據(jù)集上的消融實驗結(jié)果 單位: %

Tab.1 Ablation experimental results on PRCC dataset unit: %

在SGN的基礎(chǔ)上,添加GFR,通過分塊、融合和拼接的方式,強(qiáng)調(diào)了換衣任務(wù)中顯著的頭部信息,弱化了服裝信息,降低了換衣情況下的噪聲干擾,同時又保留了服裝同區(qū)域的體態(tài)信息作為輔助信息輸入。添加GFR后,Rank-1和mAP分別提升了1.5和0.1個百分點,結(jié)果表明GFR是在換衣情況下是有效的。

在添加LFRR的測試中,通過分塊、重組重建操作,提取在換衣任務(wù)中更有效的頭部和鞋部特征,重組重建兩種局部特征,突出了頭部和鞋部的細(xì)節(jié)信息。在添加LFRR后,Rank-1和mAP分別提升了1.0和0.6個百分點,結(jié)果表明LFRR能夠強(qiáng)調(diào)有效細(xì)節(jié)信息,提高模型魯棒性。

最后添加FPL,拉近全局與局部特征之間的距離,拉近完整圖像全局特征與無服裝圖像全局特征之間的距離,Rank-1和mAP分別提升了2.7和0.9個百分點,精度的提升表明同時使用兩種FPL在換衣情況下是有效的。

2.3.2特征重組重建模塊實驗

本節(jié)對特征重組重建模塊進(jìn)行測試,提出特征平均分塊、特征重組重建模塊兩種策略進(jìn)行測試。特征平均分塊指對圖像橫向平均分塊成4份,分成4份局部特征,包含對服裝特征的輸出。LFRR即本文模型的模塊,將頭部特征與鞋部特征進(jìn)行重新組合。使用PRCC數(shù)據(jù)集進(jìn)行測試,性能比較如表2所示。

表2 特征平均分塊和特征重組重建模塊在 PRCC數(shù)據(jù)集上的性能比較 單位:%

在表2的對比中,特征重組重建模塊效果相較于特征平均分塊的Rank-1提升了0.8個百分點,表明特征重組重建模塊能夠有效提高模型的魯棒性,弱化服裝信息,減少換鞋情況時單獨輸出鞋部局部特征的干擾。

2.3.3FPL實驗

本文對不同的FPL函數(shù)策略進(jìn)行測試,包括模型中不使用FPL(No FPL)、僅對局部和全局特征之間使用FPL(FPL between Local features and Global features, FPL-LG)、僅對兩種全局特征之間使用FPL(FPL between Two Global features, FPL-TG)、本文設(shè)置的使用兩種FPL結(jié)合(用FPL表示)。使用PRCC數(shù)據(jù)集進(jìn)行測試,性能對比如表3所示。

在表3中,僅在局部與全局特征中使用FPL,相較于沒有使用FPL,Rank-1和mAP分別提升了0.8和0.2個百分點,說明拉近局部和全局特征距離能夠使網(wǎng)絡(luò)更有效關(guān)注顯著性特征的細(xì)節(jié)信息。僅在兩種全局特征中使用FPL函數(shù),相較于沒有使用FPL,Rank-1提升了2.3個百分點,mAP基本不變,原因是拉近兩者特征減弱了兩條分支中服裝的關(guān)注程度,減小了圖像中的干擾因素。使用本文提出的FPL,相較于沒有使用FPL,Rank-1和mAP分別提升了2.7和0.9個百分點,局部與全局特征中使用FPL穩(wěn)定全局特征的注意力,并在全局特征中強(qiáng)調(diào)局部特征中的細(xì)節(jié)信息,兩種全局特征之間使用FPL,突出顯著特征,降低了干擾,兩者疊加提高了模型的精度。

表3不同特征拉近損失函數(shù)策略在PRCC數(shù)據(jù)集的性能比較 單位:%

Tab.3 Performance comparison of different FPL function strategies on PRCC dataset unit: %

2.3.4與現(xiàn)有方法比較

為了驗證本文解決方案的有效性,在PRCC、VC-Clothes、Celeb-reID和Celeb-reID-light這4個換衣ReID數(shù)據(jù)集上與目前先進(jìn)的換衣ReID方法進(jìn)行比較。用Rank-1和mAP作為評價指標(biāo)。在PRCC和VC-Clothes數(shù)據(jù)集上的性能比較結(jié)果如表4所示,在Celeb-reID和Celeb-reID-light的性能比較結(jié)果如表5所示。

表4不同方法在PRCC和VC-Clothes數(shù)據(jù)集上的性能比較 單位:%

Tab.4 Performance comparison of different methods on PRCC and VC-Clothes datasets unit:%

注:“―”表示原文獻(xiàn)中沒有該項實驗結(jié)果。

和諧注意力卷積神經(jīng)網(wǎng)絡(luò)(Harmonious Attention Convolutional Neural Network,HACNN)[27]、PCB[5]和基于Transformer網(wǎng)絡(luò)的物體重識別(Transformer-based object Re-Identification, TransReID)[28]是近年來具有代表性的常規(guī)ReID方法;SPT[2]和局部對齊(Part-aligned)網(wǎng)絡(luò)[24]是分別提出PRCC和VC-Clothes兩個換衣ReID數(shù)據(jù)集的方法;步態(tài)識別驅(qū)動圖像ReID(Gait recognition to drive the Image ReID, GI-ReID)[11]、三維形態(tài)學(xué)習(xí)(3D Shape Learning, 3DSL)[12]、細(xì)粒度形狀外觀互相作用學(xué)習(xí)框架(Fine-grained Shape-Appearance Mutual learning framework, FSAM)[13]和基于衣物對抗損失(Clothes-based Adversarial Loss, CAL)模型[14]是近年來具有代表性的換衣ReID方法。在表4中,本文模型在換衣場景,PRCC數(shù)據(jù)集中Rank-1和mAP分別達(dá)到63.7%和60.4%,VC-Clothes數(shù)據(jù)集中Rank-1和mAP分別達(dá)到了88.9%和82.6%。在PRCC數(shù)據(jù)集和VC-Clothes數(shù)據(jù)集中,相較于CAL,文本模型的mAP分別提升了4.6和0.9個百分點;相較于其他對比ReID方法,本文模型表現(xiàn)優(yōu)秀,精度有一定的提升。

如表5所示,在Celeb-reID和Celeb-reID-light換衣數(shù)據(jù)集上,選取HACNN[27]、PCB[5]、MGN[29]這3種常規(guī)ReID方法,ReIDCaps[9]和聯(lián)合損失膠囊網(wǎng)絡(luò)(Joint Loss Capsule Network, JLCN)[8]這2種換衣ReID方法進(jìn)行比較,在Celeb-reID換衣數(shù)據(jù)集上,本文模型的Rank-1和mAP分別達(dá)到53.0%和11.0%,在Celeb-reID-light換衣數(shù)據(jù)集中,Rank-1和mAP分別達(dá)到25.8%和16.1%,相較于對比的先進(jìn)方法取得了優(yōu)秀水平。在Celeb-reID和Celeb-reID-light數(shù)據(jù)集上,相較于JLCN模型,本文模型的mAP分別提升了0.2和5.0個百分點。因此,本文模型在換衣情況中優(yōu)于其他對比ReID方法,在4個換衣ReID數(shù)據(jù)集的對比實驗中驗證了本文模型的有效性。

表5不同方法在Celeb-reID和Celeb-reID-light數(shù)據(jù)集上性能比較 單位:%

Tab.5 Performance comparison of different methods on Celeb-reID and Celeb-reID-light datasets unit:%

2.3.5可視化分析

為了驗證本文模型在換衣場景中的有效性,在PRCC數(shù)據(jù)集上進(jìn)行可視化排序,將Baseline模型和本文模型進(jìn)行比較,分別查詢Top-1~Top-5圖像,選3張示意圖進(jìn)行對比,可視化結(jié)果如圖5所示,其中query表示查詢圖像。

圖5(a)和圖5(b)中,對于Top-1~Top-5圖像,Baseline模型和本文模型全部檢索正確,說明自注意力網(wǎng)絡(luò)能夠提取豐富的細(xì)節(jié)信息,在換衣任務(wù)中能保持一定的準(zhǔn)確性。圖5(c)中,對于Top-1~Top-5圖像,Baseline模型對Top-1、Top-2、Top-4與Top-5檢索錯誤,本文模型只有Top-4檢索錯誤,說明本文模型的有效性。從圖5可以看出,本文模型能夠有效提高檢索精度。

圖5 使用Baseline模型與本文模型返回的前5張檢索圖像對比

3 結(jié)語

本文提出一種基于語義引導(dǎo)自注意力網(wǎng)絡(luò)的換衣ReID模型,利用語義分割提取無服裝圖像,與完整圖像輸入雙分支多頭自注意力網(wǎng)絡(luò),提取圖像的完整信息與不受服裝干擾的信息。通過全局特征重建和LFRR提高顯著性特征的細(xì)節(jié)信息,保留輔助信息。最后提出FPL拉近特征之間的距離,強(qiáng)調(diào)非干擾信息,并突出它的細(xì)節(jié)信息。實驗結(jié)果表明本文模型具有一定優(yōu)勢,在換衣場景中有較高的魯棒性與檢索精度。接下來將研究針對復(fù)雜場景中因為語義分割誤差導(dǎo)致的檢索錯誤問題,進(jìn)一步提高換衣任務(wù)中的模型性能。

[1] 羅浩,姜偉,范星,等.基于深度學(xué)習(xí)的行人重識別研究進(jìn)展[J]. 自動化學(xué)報, 2019, 45(11): 2032-2049.(LUO H, JIANG W, FAN X, et al. A survey on deep learning based on person re-identification [J]. Acta Automatica Sinica, 2019, 45(11): 2032-2049.)

[2] YANG Q, WU A, ZHENG W-S. Person re-identification by contour sketch under moderate clothing change [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 2029-2046.

[3] LUO H, JIANG W, GU Y, et al. A strong baseline and batch normalization neck for deep person re-identification [J]. IEEE Transactions on Multimedia, 2019, 22(10): 2597-2609.

[4] ZHONG Z, ZHENG L, KANG G, et al. Random erasing data augmentation [C]// Proceedings of the 2020 AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 13001-13008.

[5] SUN Y, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]// Proceedings of the 2018 European Conference on Computer Vision. Cham: Springer, 2018: 501-518.

[6] WANG G, YUAN Y, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification [C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 274-282.

[7] 龔云鵬,曾智勇,葉鋒. 基于灰度域特征增強(qiáng)的行人重識別方法[J]. 計算機(jī)應(yīng)用, 2021, 41(12): 3590-3595.(GONG Y P, ZENG Z Y, YE F. Person re-identification method based on grayscale feature enhancement [J]. Journal of Computer Applications, 2021, 41(12): 3590-3595.)

[8] 劉乾,王洪元,曹亮,等.基于聯(lián)合損失膠囊網(wǎng)絡(luò)的換衣行人重識別[J]. 計算機(jī)應(yīng)用, 2021, 41(12): 3596-3601.(LIU Q,WANG H Y, CAO L, et al. Cloth-changing person re-identification based on joint loss capsule network [J]. Journal of Computer Applications, 2021, 41(12): 3596-3601.)

[9] HUANG Y, XU J, WU Q, et al. Beyond scalar neuron: adopting vector-neuron capsules for long-term person re-identification [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(10): 3459-3471.

[10] SUN Y, CHENG C, ZHANG Y, et al. Circle loss: a unified perspective of pair similarity optimization [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE , 2020: 6397-6406.

[11] JIN X, HE T, ZHENG K, et al. Cloth-changing person re-identification from a single image with gait prediction and regularization [C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 14258-14267.

[12] CHEN J, JIANG X, WANG F, et al. Learning 3D shape feature for texture-insensitive person re-identification [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 8142-8151.

[13] HONG P, WU T, WU A, et al. Fine-grained shape-appearance mutual learning for cloth-changing person re-identification [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 10508-10517.

[14] GU X, CHANG H, MA B, et al. Clothes-changing person re-identification with RGB modality only [C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 1050-1059.

[15] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03)[2022-12-13]. https://arxiv.org/pdf/2010.11929.pdf.

[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10)[2022-12-13]. https://arxiv.org/pdf/1409.1556.pdf.

[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[18] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks [C]// Proceedings of the 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2261-2269.

[19] SUN Y, ZHENG L, DENG W, et al. SVDNet for pedestrian retrieval [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3820-3828.

[20] LAWEN H, BEN-COHEN A, PROTTER M, et al. Compact network training for person ReID [C]// Proceedings of the 2020 International Conference on Multimedia Retrieval. New York: ACM, 2020: 164-171.

[21] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 815-823.

[22] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification [EB/OL]. (2018-03-24)[2022-12-13]. https://arxiv.org/pdf/1703.07737.pdf.

[23] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 32nd International Conference on Machine Learning. New York: ACM, 2015: 448-456.

[24] WAN F, WU Y, QIAN X, et al. When person re-identification meets changing clothes [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3620-3628.

[25] GONG K, LIANG X, ZHANG D, et al. Look into person: self-supervised structure-sensitive learning and a new benchmark for human parsing [C]// Proceedings of the 2017 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6757-6765.

[26] LI P, XU Y, WEI Y, et al. Self-correction for human parsing [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(6): 3260-3271.

[27] LI W, ZHU X, GONG S. Harmonious attention network for person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.

[28] HE S, LUO H, WANG P, et al. TransReID: Transformer-based object re-identification [C]// Proceedings of the 2021 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2021: 14993-15002.

[29] WANG G, YUAN Y, CHEN X, et al. Learning discriminative features with multiple granularities for person re-identification [C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 274-282.

Cloth-changing person re-identification model based on semantic-guided self-attention network

ZHONG Jianhua1, QIU Chuangyi1,2, CHAO Jianshu2, MING Ruicheng2, ZHONG Jianfeng1*

(1,,362000,;2,,,362000,)

Focused on the difficulty of extracting effective information in the cloth-changing person Re-identification (ReID) task, a cloth-changing person re-identification model based on semantic-guided self-attention network was proposed. Firstly, semantic information was used to segment an original image into a cloth-free image. Both images were input into a two-branch multi-head self-attention network to extract cloth-independent features and complete person features, respectively. Then, a Global Feature Reconstruction module (GFR) was designed to reconstruct two global features, in which the clothing region contained head features with better robustness, which made the saliency information in the global features more prominent. And a Local Feature Reorganization and Reconstruction module (LFRR) was proposed to extract the head and shoe features from the original image and the cloth-free image, emphasizing the detailed information about the head and shoe features and reducing the interference caused by changing shoes. Finally, in addition to the identity loss and triplet loss commonly used in person re-identification, Feature Pull Loss (FPL) was proposed to close the distances among local and global features, complete image features and costume-free image features. On the PRCC (Person ReID under moderate Clothing Change) and VC-Clothes (Virtually Changing-Clothes) datasets, the mean Average Precision (mAP) of the proposed model improved by 4.6 and 0.9 percentage points respectively compared to the Clothing-based Adversarial Loss (CAL) model. On the Celeb-reID (Celebrities re-IDentification) and Celeb-reID-light (a light version of Celebrities re-IDentification) datasets, the mAP of the proposed model improved by 0.2 and 5.0 percentage points respectively compared with the Joint Loss Capsule Network (JLCN) model. The experimental results show that the proposed method has certain advantages in highlighting effective information expression in the cloth-changing scenarios.

cloth-changing person re-identification; multi-head self-attention network; semantic segmentation; feature reconstruction; feature reorganization

This work is partially supported by National Natural Science Foundation of China (52275523).

ZHONG Jianhua, born in 1985, Ph. D., associate professor. His research interests include image processing, pattern recognition.

QIU Chuangyi, born in 1998, M. S. candidate. His research interests include image processing, person re-identification.

CHAO Jianshu, born in 1984, Ph. D., research fellow. His research interests include image processing, deep learning.

MING Ruicheng, born in 1994, M. S., engineer. His research interests include image processing, deep learning.

ZHONG Jianfeng, born in 1988, Ph. D., associate professor. His research interests include structural health detection, deep learning.

TP391.41

A

1001-9081(2023)12-3719-08

10.11772/j.issn.1001-9081.2022121875

2022?12?26;

2023?02?23;

2023?02?28。

國家自然科學(xué)基金資助項目(52275523)。

鐘建華(1985—),男,福建龍巖人,副教授,博士,主要研究方向:圖像處理、模式識別;邱創(chuàng)一(1998—),男,福建福州人,碩士研究生,主要研究方向:圖像處理、行人重識別;巢建樹(1984—),男,江蘇江陰人,研究員,博士,主要研究方向:圖像處理、深度學(xué)習(xí);明瑞成(1994—),男,湖北十堰人,工程師,碩士,主要研究方向:圖像處理、深度學(xué)習(xí);鐘劍鋒(1988—),男,福建龍巖人,副教授,博士,主要研究方向:結(jié)構(gòu)健康檢測、深度學(xué)習(xí)。

猜你喜歡
全局行人注意力
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
讓注意力“飛”回來
毒舌出沒,行人避讓
意林(2021年5期)2021-04-18 12:21:17
路不為尋找者而設(shè)
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
我是行人
A Beautiful Way Of Looking At Things
新思路:牽一發(fā)動全局
安福县| 青铜峡市| 东丰县| 年辖:市辖区| 库尔勒市| 奇台县| 安义县| 民勤县| 雅安市| 衢州市| 资中县| 镇雄县| 英超| 南安市| 雷州市| 边坝县| 利辛县| 南康市| 龙山县| 桑植县| 佛坪县| 琼中| 贵州省| 湖北省| 将乐县| 游戏| 自治县| 淄博市| 出国| 辉县市| 中超| 三门峡市| 金昌市| 翁牛特旗| 惠水县| 库尔勒市| 宁波市| 武穴市| 三原县| 博湖县| 体育|