龐遵毅 李丹
摘 ?要:一般人流量密度大的場所容易發(fā)生行人走失的情況,如:車站、游樂園、廣場。針對此類人流量大的密集場所中發(fā)生的行人走失情況,提出一種基于TransReID的智能尋人系統(tǒng),結(jié)合跨鏡技術(shù)在場所內(nèi)對行人目標進行檢測搜尋。TransReID在Transformer的基礎(chǔ)上做了網(wǎng)絡(luò)結(jié)構(gòu)層的改進,提高了魯棒特征提取效率。對比CNN網(wǎng)絡(luò)結(jié)構(gòu)有了很大的提升,TransReID在對行人目標重識別上也有著更好的綜合性能。
關(guān)鍵詞:目標檢測;重識別;行人;TransReID
中圖分類號:TP391.4 ? ? ?文獻標識碼:A文章編號:2096-4706(2021)14-0083-03
Abstract: Lost pedestrians are easy to happen in places with high pedestrian flow density, such as: station, amusement and square. In view of the lost pedestrians situation in such places with high pedestrian flow density, the intelligent human search system based on TransReID is proposed, it combined the cross-mirror technology to search pedestrians targets in the sites. TransReID has improved the network structure layer and the robust feature extraction efficiency on the basis of Transformer. Compared with CNN, the network structure has been greatly improved, TransReID also has better comprehensive performance in re-recognition of pedestrian targets.
Keywords: target detection; re-indentification; pedestrians; TransReID
0 ?引 ?言
隨著近年來人工智能的異軍突起,AI技術(shù)在計算機行業(yè)快速發(fā)展,以前在科幻電影中才能見到的目標檢測技術(shù),現(xiàn)在也已經(jīng)廣泛應(yīng)用在人們的日常生活之中。目標檢測中非常重要的一環(huán)應(yīng)用就是目標重識別的應(yīng)用,而行人目標重識別也是目標重識別研究較多的領(lǐng)域。
目標重識別技術(shù)一直以來都被CNN神經(jīng)網(wǎng)絡(luò)方法所主導,CNN神經(jīng)網(wǎng)絡(luò)方法在目標重識別領(lǐng)域已經(jīng)取得了巨大的成功,但依然有方法實現(xiàn)上的不足。CNN神經(jīng)網(wǎng)絡(luò)方法在處理目標圖像時,由于一次只能處理一個局部領(lǐng)域,并且還會受到卷積和降采樣操作在細節(jié)上造成信息損失的影響,TransReID方法由此被提出,成為實現(xiàn)更高精度和更高效率的目標重識別方法,這也是首個基于純Transformer技術(shù)的目標重識別方法,也是Transformer方法在目標重識別領(lǐng)域上的首次應(yīng)用。
TransReID將ViT應(yīng)用到目標重識別任務(wù)上,并且以ViT為骨干構(gòu)建了一個強大的基線ViT-BOT,其在目標重識別的幾個基準上,其結(jié)果完全可以與CNN神經(jīng)網(wǎng)絡(luò)的框架相比。除此之外,因為考慮到ReID數(shù)據(jù)的特殊性,TransReID網(wǎng)絡(luò)結(jié)構(gòu)還設(shè)計了兩個用于數(shù)據(jù)處理的模塊,分別是JPM和SIE模塊。JPM模塊提高了網(wǎng)絡(luò)的識別能力和更多樣化的覆蓋,SIE則是處理圖像的非視覺信息以此減少特征對攝像機或者視圖的偏差。以此設(shè)計的TransReID架構(gòu)在實驗結(jié)果上,在對行人目標重識別上,其性能對比CNN神經(jīng)網(wǎng)絡(luò)有顯著的提升,這也是在行人目標重識別任務(wù)上一次突破性的探索,打破了一直被CNN神經(jīng)網(wǎng)絡(luò)架構(gòu)所主導的局面。
1 ?TransReID概述
TransReID網(wǎng)絡(luò)架構(gòu)是由阿里巴巴與浙江大學在Transformer與ReID上的一次突破性探索,也將ReID提升到了新的高度。在自然語言處理領(lǐng)域,為了處理序列數(shù)據(jù)提出了Transformer模型,許多研究顯示了它在計算機視覺中的有效性。Transfomer模型最初用于處理由CNN模型為視頻提取的序列特征。有研究者使用一種Transformer架構(gòu)的變體來聚合視頻中與特定人物相關(guān)的上下文線索[1]。目前Pure Transformer模型越來越受歡迎,ViT是最近提出的一種將Pure Transformer直接應(yīng)用于圖像序列配準的方法。然而,ViT需要一個大規(guī)模的數(shù)據(jù)集來進行預訓練。為了克服這一缺點,Touvron等人進行了一系列的研究并提出了一個名為DeiT的框架,該框架引入了一種針對Transformer的teacher-student策略,以加速ViT訓練,而不需要大規(guī)模的預訓練數(shù)據(jù)。而TransReID則是將ViT做了一些調(diào)整過后擴展到ReID任務(wù)中,并證明了它的有效性。盡管ViT-BOT在ReID任務(wù)中可以實現(xiàn)比較好的性能,但是為了利用ReID數(shù)據(jù)中的特性,更好地挖掘side信息和fine-grained部分,TransReID的整體網(wǎng)絡(luò)結(jié)構(gòu)中還加入了JPM和SIE模塊,以此來實現(xiàn)更高的ReID準確率。
1.1 ?ViT-BOT
ViT-BOT的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其遵循一般的強管道對象ReID,并且做了一定程度上的調(diào)整[2]。第一步作為預處理步驟,ViT將圖像分割成N個不重疊的塊,但是這就會導致塊的局部近鄰結(jié)構(gòu)信息無法較好的保持;相反,如果采用滑動窗口形式生成重疊塊,假設(shè)滑動窗口的步長為S像素,每個塊的尺寸P=16,那么重疊部分的形狀為(P-S)× P。如果輸入圖像的尺寸為H×W,那么所得到的圖像塊數(shù)量將如公式所示:。從公式可以看出,重疊區(qū)域越大,所提圖像塊數(shù)量越多,能帶來更好的性能,但同時也會增加計算量。第二步進行位置信息的編碼,利用ρi對第i個塊的位置信息進行編碼,它有助于Transformer的編碼器編碼空間信息,在對位置進行編碼的同時,引入雙線性插值,以幫助ViT-BOT處理任何給定的輸入和大小形狀[3]。第三步進行特征的學習,將圖像分割成一系列的塊,再將一個可學習的特征嵌入到上述塊中,最后一個編碼層的類標志作為圖像的全局特征表示,假設(shè)最終的類標志表示為F,其他輸出表示為P0={P1,P2,…PN},則其損失函數(shù)可表示為:LT=log[1=exp(‖F(xiàn)a-Fp‖22-‖F(xiàn)a-Fn‖22)]。
1.1.1 ?TransReID框架
盡管上述ViT-BOT網(wǎng)絡(luò)結(jié)構(gòu)可以在ReID任務(wù)上取得較好的結(jié)果,但是它并未充分利用ReID數(shù)據(jù)的特性,所以提出將SIE和JPM模塊融合到ViT-BOT網(wǎng)絡(luò)結(jié)構(gòu)之中,構(gòu)成了最終的TransReID框架,其結(jié)構(gòu)圖如圖2所示。
1.1.2 ?SIE模塊
在目標重識別領(lǐng)域,一個極具挑戰(zhàn)的問題就是:不同相機、視覺及其他因素導致的視覺偏差。Transformer則非常善于融合這類邊界信息,因為類似于位置嵌入,它可以采用可學習層來編碼這些邊界信息。具體來說,如果一幅圖像的攝像頭記為C,則其攝像頭Embedding可以記為S(C)。不同于Position Embedding在各patch之間的變化,攝像機EmbeddingS(C)對于一幅圖像的所有patch都是相同的。另外,如果物體的視點是可用的,無論是通過視點估計算法還是人工標注,都可以將視點標簽V編碼為S(V),然后用于圖像的所有patch。將攝像頭ID和視角標簽同時編碼為S(C,V)。也就是說對于CN個攝像機IDs和VN個視角標簽,S(C,V)總共有CN×VN個不同的值。最后,第i個patch的輸入Embedding將遵循公式Ei=F(pi)+pi+λS(C,V)。
1.1.3 ?JPM模塊
由于將強基線ViT-BOT的最后一層調(diào)整為并行分支結(jié)構(gòu),采用兩個獨立的Transformer層學習局部特征和全局特征[4]。假設(shè)倒數(shù)第二層的輸出為:Zl-1=[Z0l-1,…Z1l-1,Z2l-1…ZNl-1]。局分支采用標準的transformer,得到Zl=[fg,…Z11,Z21…ZN1]。token embedding往往取決于其靠近的token,因此一組相近的patch進行embedding會把信息局限在有限的區(qū)域。JPM模塊,其本質(zhì)是隨機分組,具體為:把前m個patch挪到后面,再進行patch打亂劃分。這里的k組patch會輸入到同一個transformer結(jié)構(gòu)中,分別提取出一個局部特征。(并不是把一組的patch級聯(lián),形成k個大patch,輸入一次transformer;而是每組輸入一次transformer。)由此得到局部特征{f1l,f2l,…fkl}。。最后的損失函數(shù)計算為:L=LID(fg)+LT(fg)+∑(LID(fil)+LT(fil))。最后將全局特征和局部特征級聯(lián),得到最終的特征表示。
2 ?實驗及結(jié)果
2.1 ?數(shù)據(jù)集
本文使用的原始數(shù)據(jù)集是Market-1501數(shù)據(jù)集,它包含了1 501個行人對象,由6個不同的攝像頭捕捉,每個行人對象在每個視點平均有3.6張圖像。其中750個行人對象用于訓練集,751個行人對象用于測試集。
2.2 ?模型訓練
本文算法基于Cglab平臺實施,迭代次數(shù)為120,GPU為TeslaT4。在訓練模型時,將所有圖片大小調(diào)整為256×256。訓練圖像通過隨機水平翻轉(zhuǎn)、填充、隨機裁剪、隨機擦除進行圖像增強。Batch=8,采用SGD優(yōu)化算法,動量為0.9,權(quán)值衰減為1e-4。學習率初始化為0.008。如圖3所示。
3 ?智能尋人系統(tǒng)
隨著科技的發(fā)展,電子設(shè)備通信成為人與人溝通的主要方式,但如果脫離了電子設(shè)備,尤其是在一些人口密集的場所,單純依靠人力尋找目標如同大海撈針[5]?,F(xiàn)在的科技尋人方式,基本還停留在依靠人力去查閱監(jiān)控視頻、尋找行人軌跡的方式,進而再組織尋找,這樣的方式需要耗費大量人力,但是ReID技術(shù)就能很好地應(yīng)用并解決這一問題,只需要輸入一張目標人物的照片進入ReID的系統(tǒng),實時地在場所內(nèi)所有監(jiān)控攝像頭尋找目標任務(wù),通過ReID的跨鏡技術(shù),實現(xiàn)區(qū)域內(nèi)監(jiān)控設(shè)備的多鏡結(jié)合查找,并且ReID技術(shù)在針對目標圖像不同姿態(tài)、不同角度、不同分辨率時,通過多粒度網(wǎng)絡(luò)結(jié)構(gòu)與邊信息融合處理,結(jié)果上都有很好地識別效果,進一步提升人臉識別的精準度,尤其是在針對視頻質(zhì)量低、部分遮擋等復雜場景時,通過視頻連續(xù)幀的處理,延長行人在攝像頭連續(xù)跟蹤的時空延續(xù)性,可以快速反應(yīng)并且找到目標的最近落腳點,實現(xiàn)真正的監(jiān)控技術(shù)智能化,結(jié)合現(xiàn)在城市發(fā)達的監(jiān)控網(wǎng)絡(luò),就能高效實現(xiàn)在人口密集場所尋人的功能。圖4所示。
4 ?結(jié) ?論
本文所實現(xiàn)的是利用監(jiān)控網(wǎng)絡(luò),在人口密集場所利用ReID的跨攝像頭技術(shù)進行尋人的功能,從而幫助人們在走失時能夠快速團聚。TransReID以Transformer技術(shù)為基礎(chǔ),通過構(gòu)建其ViT-BOT強基線與其SIE和JPM模塊的結(jié)合,在ReID性能上對比CNN網(wǎng)絡(luò)有著更高效率的表現(xiàn),并且通過其對圖像邊信息的處理,能夠進一步降低不同相機的視點引起的負面偏差,彌補CNN網(wǎng)絡(luò)在這方面的不足,在ReID幾個主流基準上達到更高的準確率。將其應(yīng)用于智能尋人系統(tǒng),只要在監(jiān)控網(wǎng)絡(luò)覆蓋范圍內(nèi),都必將實現(xiàn)更高的查找效率,對于日后社會的和諧,民生的安康都有著非常巨大的幫助。
參考文獻:
[1] BEAL J,KIM E,TZENG E,et al. Toward Transformer-Based Object Detection [J/OL].arXiv:2012.09958 [cs.CV].(2020-12-17).https://arxiv.org/abs/2012.09958v1.
[2] HE S T,LUO H,WANG P C,et al. TransReID:Transformer-based Object Re-Identification [J/OL].arXiv:2102.04378 [cs.CV].(2021-02-08). https://arxiv.org/abs/2102.04378v1.
[3] MENG D C,LI L,LIU X J,et al. Parsing-Based View-Aware Embedding Network for Vehicle Re-Identification [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),Seattle:IEEE,2020:7101-7110.
[4] LUO H,GU Y Z,LIAO X Y,et al. Bag of tricks and a strong baseline for deep person re-identifification [J/OL].arXiv:1903.07071 [cs.CV].(2019-05-19).https://arxiv.org/abs/1903.07071v3.
[5] 郝翠翠.基于人臉識別的尋人系統(tǒng)設(shè)計與實現(xiàn) [D].大連:大連理工大學,2015.
作者簡介:龐遵毅(2000.02—),男,漢族,四川內(nèi)江人,本科在讀,研究方向:人工智能。