王勇 張志騰 王瑛
摘要:行人目標跟蹤是智能監(jiān)控領域的一個重要課題。傳統(tǒng)的目標跟蹤技術,在跟蹤精度上沒有深度網(wǎng)絡高,但深度卷積神經(jīng)網(wǎng)絡計算量極大,導致計算速度緩慢無法實時跟蹤。隨著卷積網(wǎng)絡的不斷發(fā)展,孿生網(wǎng)絡在目標跟蹤這一課題上脫穎而出,其根據(jù)子網(wǎng)共享權重的特點,可以訓練出有效的網(wǎng)絡只需要少量的參數(shù),少量的參數(shù)也就意味著不易于過擬合以及運行速度快等突出的優(yōu)點,適用于實時行人目標跟蹤。文中采用孿生網(wǎng)絡和輕量骨干網(wǎng)絡構建目標跟蹤網(wǎng)絡,實現(xiàn)實時高精度的目標跟蹤算法。
關鍵詞;目標跟蹤;孿生網(wǎng)絡;輕量網(wǎng)絡;實時跟蹤
中圖分類號:TP18 ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)32-0001-03
Object Tracking Algorithm Based on Lightweight Siamese Network
WANG Yong, ?ZHANG Zhi-teng, ?WANG Ying
(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Pedestrian object tracking is an important subject in the field of intelligent monitoring. The traditional object tracking technology is not as high as the deep network in tracking accuracy, but the deep convolutional neural network has a huge amount of computation, which leads to slow computing speed and unable to track in real time With the continuous development of convolution network, siamese network in object tracking on the subject, according to the characteristics of the subnet Shared weight, can train the effective network only need a small amount of parameters, a small amount of means is not easy to fitting parameters and running speed of such outstanding advantages, suitable for real-time object tracking of pedestrians. In this paper, the siamese network and the lightweight backbone network are used to construct the target tracking network, and the real-time and high precision target tracking algorithm is realized.
Key words:object tracking;siamese network;lightweight network;real-time tracking
現(xiàn)代社會智能化發(fā)展飛快,越來越多的監(jiān)控攝像頭以及視頻圖像分析技術應用于我們的日常生活中[1]。如商場中使用監(jiān)控攝像頭來關注分析顧客行為以防止顧客破壞超市的公共秩序以及道路上的紅綠燈處監(jiān)控攝像頭用于監(jiān)控來往車輛是否違反交通規(guī)則以此來約束司機不當行車行為,維護交通秩序。未來監(jiān)控視頻分析技術還可應用于大量聚集人群行為監(jiān)控分析,實時分析人群行為,當發(fā)生暴動及斗毆等不良行為時自動報警以防止大規(guī)模沖突斗毆事件發(fā)生時未能及時發(fā)現(xiàn)并出警的情況發(fā)生。
由此可見,監(jiān)控攝像頭將會越來越普及,安裝至各個公共場合甚至于各家各戶中,其硬件成本隨著時間的推移也會越來越低,視頻分析技術也將會越來越精進,此時大商場中遍布大量攝像頭將是一種必然的趨勢。在這種大環(huán)境下,如果只將攝像頭用于監(jiān)控顧客是否做出破壞超市公共秩序的行為,未免有點大材小用。沃爾瑪、麥德龍以及華潤萬家這類超級商場巨頭都在使用監(jiān)控視頻分析算法來分析顧客購物行為以提升顧客的購物舒適度甚至間接地提升商品的銷售額,促進銷售業(yè)績上升。如沃爾瑪采用監(jiān)控攝像頭來自動分析商品是否正確地擺放在合適的貨架上,若不在則自動發(fā)出警告及時告知銷售員及時將商品正確地放置回合適的貨架上,以提升商場的整體整潔度和商品的有序度,方便顧客更好地找到相應的商品進而提升顧客的購物體驗。孿生網(wǎng)絡以其少量參數(shù)計算速度快的優(yōu)點在近年來的實時目標跟蹤領域脫穎而出,本文將通過改進全卷積神經(jīng)網(wǎng)絡SiamFC,以實現(xiàn)一個在商場環(huán)境下能夠實時跟蹤且精度優(yōu)秀的輕量孿生網(wǎng)絡SiamLight,提升商場監(jiān)控的使用效率。
1 研究現(xiàn)狀
視覺目標跟蹤算法在廣義上可分為兩大類[2]:基于生成模型和基于判別模型的算法。第一類,通過歷史幀的結果生成一個統(tǒng)計模型用來描述目標特征,能較好地處理目標在被跟蹤的過程中丟失的情況,但這類算法忽略目標的背景信息,導致在背景非?;靵y時易丟失目標。第二類,基于判別模型的算法主要是通過學習生成一個決策邊界,以此來區(qū)分背景區(qū)域和目標區(qū)域。目前較為活躍的目標跟蹤算法狹義上也分為兩類:基于相關濾波的跟蹤算法和基于深度學習的跟蹤算法。
第一類目標跟蹤算法,以較佳的運行速度和優(yōu)秀的性能,在工業(yè)界和學術界中研究使用頻率都較高,發(fā)展比較快速。
Bolme等人[3]提出最小平方和跟蹤算法,這是相關濾波算法第一次應用在目標跟蹤領域,該算法通過將均方誤差最小化以達到在后續(xù)圖像中找到目標的最可能出現(xiàn)的位置。
基于深度學習的目標跟蹤算法可以分為基于回歸網(wǎng)絡、孿生網(wǎng)絡和基于其他網(wǎng)絡的目標跟蹤算法[4]。
Held等人[5]在2016年提出了基于回歸網(wǎng)絡的目標跟蹤算法,該算法第一次在目標跟蹤領域使用孿生網(wǎng)絡,第一次實現(xiàn)了實時跟蹤的深度學習算法。
Bertinetto等人[6]提出全卷積孿生網(wǎng)路SiamFC算法,SiamFC的網(wǎng)絡結構如圖1所示,SiamFC網(wǎng)絡通過骨干網(wǎng)絡(AlexNet)對圖像提取特征,再將兩個特征圖做卷積操作,最終得到響應值最高的位置就是要映射出預測框的位置。
Fan等人[7]提出了結構感知視覺跟蹤網(wǎng)絡SANet該網(wǎng)絡基于循環(huán)神經(jīng)網(wǎng)絡。SANet在學習過程中對目標的自身結構進行編碼,不僅提高了抗同類相似源干擾的能力,也提高了對不同類目標源的鑒別能力。同時,該算法通過采用跳層連接策略融合RNN和CNN的特征,為網(wǎng)絡提供了更多的信息,經(jīng)過驗證該算法同樣也有較好的跟蹤效果。
基于孿生網(wǎng)絡的目標追蹤器可以克服其他深度學習網(wǎng)絡一個重要缺點,即當用預訓練網(wǎng)絡來提取特征時導致網(wǎng)絡速度非常慢的問題。孿生網(wǎng)絡在具有較快速度的同時也有較強的跟蹤性能,本文也將基于該類目標追蹤器開展實驗。
2 輕量孿生網(wǎng)絡
本文的孿生網(wǎng)絡結構如圖2所示,該孿生網(wǎng)絡由分支t和x組成。分支都使用一個輕量級卷積神經(jīng)網(wǎng)絡,異步通過卷積神經(jīng)網(wǎng)絡進行訓練,提取特征,之后對兩個分支皆做卷積操作得到兩張?zhí)卣鲌D,再對兩張?zhí)卣鲌D進行卷積操作,得到響應圖,響應圖中的響應值代表兩張圖的相似度。最后,目標跟蹤的過程可以表示為一個互相關操作,如公式(1)所示:
[ft,x=φx*φt+b] ? ? ? ? ? ? ? ? (1)
式子中[φ(?)]表示輕量卷積神經(jīng)網(wǎng)絡,*表示以t的特征圖為卷積核的卷積操作,b代表偏置。通過圖2可以看到,圖像t和x作為網(wǎng)絡輸入,最終輸出為兩個圖像塊所生成的響應圖,在響應圖中響應值最大的位置映射到待搜索圖塊中就是跟蹤目標的位置。
本章孿生網(wǎng)絡中的卷積神經(jīng)網(wǎng)絡使用了一個輕量的網(wǎng)絡作為孿生網(wǎng)絡跟蹤算法的骨干網(wǎng)絡。該骨干網(wǎng)絡有3個最大池化層(Max pooling)和13個卷積層,采用的是1×1和3×3的兩種卷積核,在卷積層之后都進行歸一化處理,來達到對模型進行歸一化且加速訓練模型的效果。本章的卷積神經(jīng)網(wǎng)絡的各層的卷積核、輸入輸出通道數(shù)以及步長等詳細信息如表4-1所示,相比于常用作骨干網(wǎng)絡的VGGNet和AlexNet,本章的網(wǎng)絡結構的特點是頻繁地使用了1×1這一小卷積核,它的優(yōu)勢是可以將通道數(shù)量壓縮變小,有利于提高使用較深的卷積神經(jīng)網(wǎng)絡時的速度,且它也可以減少網(wǎng)絡中參數(shù)的數(shù)量,使得在一些小顯存的GPU設備上也能讓該目標跟蹤算法運行起來,不僅如此,使用1×1卷積核還一個最大的好處是可以提高跨通道信息和非線性表達的混合,從而提高網(wǎng)絡的泛化能力。
3 實驗
3.1實驗環(huán)境與網(wǎng)絡訓練
本文的跟蹤算法使用的編程語言是Python語言在操作系統(tǒng)為ubuntu18.04內存為8G、CPU為Intel i7-8750H并搭載GTX1060顯卡的個人電腦上進行模型的訓練和實驗評估。
本文選擇中科院發(fā)布的一個目標追蹤數(shù)據(jù)集GOT-10k[121]作為訓練集,通過隨機梯度下降法求解公式3.1來對目標跟蹤網(wǎng)絡進行訓練,訓練參數(shù)如下:模板圖像t和搜索圖像x都裁剪縮放成127×127×3和255×255×3。卷積層的初始學習率設置為0.0008,訓練過程包括60次迭代,每個迭代包括3000個樣本對,每6個次迭代學習率就變成原來的0.89。
3.2實驗結果與分析
本文測試數(shù)據(jù)集使用VOT2019數(shù)據(jù)集進行實驗將本文算法SiamLight與SiamFC和KCF算法進行對比。實驗結果如表2所示:
表2可以看出SiamLight的EAO、準確性、魯棒性都最優(yōu),且?guī)氏啾萐iamFC提升89.1%。由此我們可以得到本文中所應用的輕量級網(wǎng)絡相比于SiamFC中的AlexNet網(wǎng)絡有更強的特征提取能力,同時本文算法多次運用1×1的卷積來減少參數(shù)數(shù)量,使得SiamLight在有較好精度的情況下也有很快的運行速度,同樣相比于傳統(tǒng)KCF算法性能領先更明顯,這表明了本文的改進算法輕量級孿生網(wǎng)絡在實時目標跟蹤上任務有著優(yōu)異的表現(xiàn)。
參考文獻:
[1] 朱紅岷,戴道清,李靜正.基于圖像處理的變電站視頻智能分析研究[J].計算機工程與應用,2018,54(7):264-270.
[2] 孟琭,楊旭.目標跟蹤算法綜述[J].自動化學報,2019,45(7):1244-1260.
[3] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.June 13-18,2010,San Francisco,CA,USA.IEEE,2010:2544-2550.
[4] Luo W H,Xing J L,Milan A,et al.Multiple object tracking:a literature review[J].Artificial Intelligence,2021,293:103448.
[5] Held D,Thrun S,Savarese S.Learning to track at 100 FPS with deep regression networks[C]//Computer Vision - ECCV 2016,2016:749-765. DOI:10.1007/978-3-319-46448-0_45.
[6] Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision - ECCV 2016 Workshops,2016:850-865. DOI:10.1007/978-3-319-48881-3_56.
[7] Fan H,Ling H B.SANet:structure-aware network for visual tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:2217-2224.
【通聯(lián)編輯:唐一東】
收稿日期:2021-07-25
基金項目:廣東省科技研發(fā)專項(2015B090923001)
作者簡介:王勇(1968—),男,湖南長沙人,博士, 教授,研究方向為物聯(lián)網(wǎng)、非結構化信息處理與智能計算;張志騰(1997—),男,碩士研究生,研究方向為目標跟蹤;王瑛(1970—),女,湖南長沙人,高級工程師,研究方向為云計算、大數(shù)據(jù)、知識工程。