諶 頏 鐘 貴 戴華珍 張袖斌 朱愷文
(廣州科技貿易職業(yè)學院,廣東 廣州 511442)
現(xiàn)實空間環(huán)境中動態(tài)目標對象遮擋、變形情況下的視覺跟蹤,是計算機圖像視覺領域研究的重要課題之一,特別是隨著城市交通網(wǎng)絡日益復雜化、城市居民數(shù)量的不斷增加,對于公共空間內不同人員個體的目標對象識別和跟蹤,成為計算機圖像視覺識別與分析的主要方向,對于實現(xiàn)空間人物目標的智能化識別與監(jiān)控具有現(xiàn)實意義。目前有關空間動態(tài)目標的識別與跟蹤研究,諸如文獻[1-4],這些文獻從運動目標圖像序列的像素點識別、像素樣本學習訓練、目標模板匹配等技術出發(fā),對存在遮擋、干擾噪聲的動態(tài)目標識別跟蹤作出分析,但即便如此,以上算法在動態(tài)目標識別跟蹤的準確性、魯棒性和可擴展性等方面依然存在不足,在復雜光照、遮擋和變形情況下的圖像處理質量仍有待提高。基于此,本文從深度學習卷積神經(jīng)網(wǎng)絡的角度出發(fā),提出卡爾曼濾波的SiamRPN 深度學習算法進行動態(tài)目標跟蹤。首先運用SiamRPN網(wǎng)絡算法提取運動目標的檢測幀、模板幀的重要特征,運用卡爾曼濾波預測模塊對現(xiàn)有的圖像幀進行目標預測,隨后通過置信度加權融合2個及以上的跟蹤模型,利用區(qū)域候選網(wǎng)絡RPN對存在遮擋、背景干擾等的動態(tài)目標對象,進行跟蹤框的位置坐標和尺度的計算,確定最優(yōu)跟蹤框準確地定位跟蹤目標位置,實現(xiàn)對全遮擋目標、噪聲干擾目標的多次跟蹤識別,提高外部環(huán)境中動態(tài)目標的跟蹤準確率。
Siamese跟蹤網(wǎng)絡是在Faster RCNN網(wǎng)絡框架的基礎上,建立起的用于區(qū)域候選網(wǎng)絡確定、目標對象特征提取的卷積神經(jīng)網(wǎng)絡。[1]其中,RPN網(wǎng)絡判斷圖像幀的空間環(huán)境中,是否有動態(tài)監(jiān)測目標,以及修正anchor 使跟蹤框更準確,且RPN網(wǎng)絡的區(qū)域候選框提取、目標對象跟蹤耗時更少,具體Siamese跟蹤網(wǎng)絡框架如圖1所示。
圖1 Siamese動態(tài)目標跟蹤網(wǎng)絡框架
從圖1可以看出,Siamese網(wǎng)絡框架為具有孿生結構的深度學習模型,分為搜索區(qū)域確定、動態(tài)跟蹤目標特征提取兩個分支,左邊上下兩個支路為動態(tài)目標特征提取的孿生網(wǎng)絡,支路的網(wǎng)絡結構、提取特征參數(shù)完全相同,根據(jù)上方靠近候選區(qū)域的目標模板幀,對下方的提取檢測幀作出對比分析,通過全卷積神經(jīng)網(wǎng)絡形成2個分支的連接。
右邊為搜索區(qū)域確定并輸出的孿生網(wǎng)絡,中間為搜索區(qū)域學習與提取網(wǎng)絡,包括分類分支、回歸分支,這里分類分支輸出含有2k個通道的特征圖像,紅色和藍色分別表示k個錨點的前景得分、背景得分;回歸分支輸出含有4k個通道的特征圖像,用不同顏色分別表示k個錨點的坐標偏移預測值。
基于Siamese 網(wǎng)絡框架的動態(tài)目標跟蹤,是在圖像搜索區(qū)域x內,找到與模板幀z最相似的目標跟蹤對象。[2]因而在Siamese全卷積網(wǎng)絡中,采用完全卷積函數(shù)h(),引入LT來表示平移算子,則對任意圖像幀平移轉換T、整數(shù)步長k之間的關系定義如式1:
計算圖像幀搜索區(qū)域x的所有目標跟蹤對象,與模板幀z之間的相似性。使用卷積網(wǎng)絡嵌入函數(shù)ψ,計算搜索區(qū)域的目標跟蹤對象x、模板幀z的相似性,計算公式如式2所示:
其中f表示相似性函數(shù),*表示相關性操作符,φ(x)表示搜索圖像對象、φ(z)表示模板幀圖像。
SiamRPN 算法包括目標對象特征提取、分類回歸、分支回歸計算等執(zhí)行流程,其中分類回歸是對圖像搜索區(qū)域內,存在的模板幀作出卷積運算;分支回歸是對圖像搜索區(qū)域內,存在的檢測幀作出卷積運算[3],計算公式如式3:
其中(Adx,Ady)為錨點框的中心點坐標,Adw、Adh為錨點框的長和寬;(Tdx,Tdy)為真實檢測框的中心點坐標,Tdw、Tdh為真實檢測框的長和寬,由于不同提取圖像的長和寬存在差異,因而需先對圖像尺寸作正則化處理。
采取RPN孿生網(wǎng)絡的端到端訓練方式,在圖像搜索區(qū)域內隨機提取模板幀、檢測幀,進行錨框、真實檢測框的相似性識別訓練。由于相鄰兩幀的目標跟蹤對象變化較小,因而選取[0.33,0.5,1,2,3]等5種不同比例的錨,結合公式3、4,對0、1、2、3 等不同檢測框作出樣本訓練識別,真實框樣本的正則化處理、損失函數(shù)如式5、6所示:
其中Lcls表示檢測圖像的目標對象交叉的熵損失;λ表示分類或分支回歸的損失參數(shù)。在RPN 孿生網(wǎng)絡的錨框識別訓練時,使用錨點框、真實目標對象框的交并比(IOU),判斷識別的目標對象框屬于正樣本或負樣本,定義IOU>0.6 為正樣本、IOU<0.3 為負樣本。
卡爾曼濾波是利用觀測方程、狀態(tài)方程,對動態(tài)目標的狀態(tài)進行實時跟蹤、迭代預測的方法。當跟蹤動態(tài)目標受到遮擋、噪聲干擾等影響時,將很大可能導致動態(tài)目標跟丟的問題。[4]這一情況下,使用卡爾曼濾波器、濾波回歸算法,可對受到遮擋、噪聲干擾的目標對象,進行目標位置預測及標記,以保證前后相鄰幀目標對象跟蹤的連續(xù)性。當前卡爾曼濾波模型的狀態(tài)轉移方程、觀測方程如式7、8所示:
在使用卡爾曼濾波模型,對動態(tài)跟蹤目標的狀態(tài)進行預測時,首要任務是確定圖像幀中目標的初始狀態(tài)。假定某一動態(tài)跟蹤目標的狀態(tài)為x=(p,v),其中p表示目標對象的位置、v表示目標對象的速度[5],則跟蹤目標的狀態(tài)向量、觀測方程可用如式11、12表示。
其中x(0)表示觀測目標的初始狀態(tài)、θ 表示目標對象的轉動角度。在初始化階段定義目標的模板幀為zpos,采用卡爾曼濾波模型,對目標對象將會出現(xiàn)的區(qū)域作出預測,計算公式為式13、14,根據(jù)公式13 計算得到預測目標對象的下一位置,多次迭代后得出目標跟蹤的最優(yōu)化估計結果。
面對跟蹤動態(tài)目標存在遮擋、噪聲干擾的情況,提出卡爾曼濾波模型、SiamRPN 深度學習算法相融合跟蹤的方式,完成目標對象跟蹤的總體流程設置,[6]具體如圖2所示。
圖2 卡爾曼濾波模型、SiamRPN融合算法的目標跟蹤實現(xiàn)
首先使用跟蹤器采集圖像幀,使用RPN網(wǎng)絡確定跟蹤目標的候選區(qū)域。隨后在初始化模塊中,將目標對象的初始框中心點、坐標位置,賦值給卡爾曼濾波器、SiamRPN 神經(jīng)網(wǎng)絡,并對卡爾曼濾波器中的跟蹤目標初始狀態(tài)、初始預測值作出修改。
然后由SiamRPN神經(jīng)網(wǎng)絡算法,進行跟蹤目標對象的分類回歸、分支回歸卷積運算,提取圖像搜索區(qū)域內的檢測幀特征,包括動態(tài)目標對象跟蹤框的位置坐標、尺度信息。最后將使用SiamRPN深度學習算法、卡爾曼濾波器,得到的目標對象跟蹤框置信度值k1、k2,作出自適應的加權融合計算,得到加權融合后的最優(yōu)跟蹤框值x為如式15、16:
其中w1、w2表示SiamRPN 網(wǎng)絡算法、卡爾曼濾波器的加權因子。假設使用SiamRPN 深度學習算法、卡爾曼濾波器,得到的動態(tài)目標對象跟蹤框值分別為x1、x2,則利用公式15可得到加權融合后的目標最優(yōu)跟蹤框值x。
基于Linux 系統(tǒng)平臺、MATLAB R2021a 仿真軟件,建立包含100 個視頻的OTB 跟蹤數(shù)據(jù)集(100 幀),該數(shù)據(jù)集中涉及到跟蹤目標對象,存在快速運動、背景相似、噪聲干擾、光照變化等一系列問題,基本上能夠全面反映卡爾曼濾波器、SiamRPN網(wǎng)絡算法的目標跟蹤性能。
利用RPN 區(qū)域候選網(wǎng)絡,對OTB 跟蹤數(shù)據(jù)集的兩個卷積層參數(shù)作出調整,通過以上的損失函數(shù)進行參數(shù)優(yōu)化。假設跟蹤目標對象的邊界框的大小表示為(w,h),則將裁剪后的模板幀大小設置為A*A,計算公式如式17:
其中p=(w+h)/2,按照圖1 的跟蹤目標對象幀要求,將裁剪后的模板幀大小調整為127×127,將檢測幀設置為模板幀大小的2倍為255×255。
選取OTB跟蹤數(shù)據(jù)集內的3組典型跟蹤數(shù)據(jù)序列,設置為Soccer、Human6 和Bolt2 序列,其中Soccer 序列內的跟蹤目標對象,存在著遮擋、快速運動等影響因素;Human6 和Bolt2 序列的跟蹤目標對象,存在著遮擋、平面旋轉、運動模糊等影響因素。采用卡爾曼濾波器、SiamRPN 深度學習算法,對以上3組序列的動態(tài)目標對象作出跟蹤,具體的跟蹤結果如圖3所示。
圖3 Soccer、Human6和Bolt2序列的目標對象跟蹤結果
從圖3 可以看出,最上層一組跟蹤圖像為Soccer 序列圖像,其存在著遮擋、快速運動等的干擾因素。在目標對象未經(jīng)過紅綠燈桿時,采用卡爾曼濾波器(紅框)、SiamRPN 網(wǎng)絡算法(綠框)及SianFC 單目標跟蹤算法(藍框),都能夠順利完成對動態(tài)行人目標的有效跟蹤,且跟蹤精度差異不大。而當目標遇到紅綠燈桿的遮擋后(#56,#67 幀),基于SianFC算法的單目標跟蹤很快丟失目標,卡爾曼濾波器、SiamRPN網(wǎng)絡算法的跟蹤仍舊保持著較高精度,其中SiamRPN 深度學習算法的跟蹤精度最高,跟蹤效果基本上不受外部干擾因素的影響。
圖3 的中間層為Human6 序列,跟蹤目標對象存在著平面旋轉、運動模糊等影響因素,如發(fā)現(xiàn)38幀以后跟蹤目標快速運動、伴隨運動模糊,此時采用卡爾曼濾波器、SiamRPN深度學習算法相融合的跟蹤方式,均可以保證在連續(xù)多幀時間內的跟蹤效果。圖3的最下層為Bolt2序列,跟蹤目標對象存在著遮擋、平面旋轉等影響因素,在20~78 幀是的跟蹤時間范圍內,發(fā)現(xiàn)使用卡爾曼濾波器、SiamRPN深度學習算法,均能保證跟蹤框、標記目標對象的跟蹤精準性,而SianFC算法在面對人物遮擋的情況,很容易發(fā)生再次識別的跟蹤丟失問題。綜上分析可知,在上中下三組圖像的目標對象跟蹤中,基于卡爾曼濾波的SiamRPN算法,可被用于含有遮擋、平面旋轉、快速運動的跟蹤情況,且具有明顯的算法跟蹤優(yōu)勢。
根據(jù)跟蹤目標的中心位置誤差(CLE)、重疊率(OR)等量化的度量指標,對使用卡爾曼濾波器、SiamRPN 網(wǎng)絡算法、SianFC 算法、融合算法的目標跟蹤精度,進行量化性能分析。通常情況下,跟蹤目標的中心位置誤差、重疊率成反比,也即CLE越小時OR越大,跟蹤精度越高。利用以上多種算法,進行目標對象幀測試序列的跟蹤分析,得到的CLE、OR相關量化指標結果如表1、表2所示。
表1 動態(tài)目標跟蹤的中心位置誤差(CLE)結果
表2 動態(tài)目標跟蹤的重疊率(OR)結果
從表1、表2可以看出,針對以上三組跟蹤目標序列的測試視頻幀,使用“卡爾曼濾波+SiamRPN算法”的跟蹤方式,平均跟蹤速率為37幀/秒,高于SianFC算法的18幀/秒、低于SiamRPN算法的49幀/秒,滿足目標跟蹤的圖像幀實時性處理需求。同時相比于卡爾曼濾波器、SiamRPN 網(wǎng)絡算法、Sian-FC 算法而言,融合算法得到的動態(tài)目標跟蹤的中心位置誤差(CLE)更小,目標跟蹤的重疊率(OR)更高,在運行實時性、跟蹤精度方面體現(xiàn)出良好的性能。
外部空間環(huán)境中動態(tài)目標對象的視覺跟蹤,是近年來計算機視覺及姿態(tài)評估等領域關注的重要問題。特別在面對具有噪聲干擾、遮擋、變形的復雜場景中,需要采取濾波器目標跟蹤、相鄰兩幀關聯(lián)分析的級聯(lián)匹配方法,對包含多個目標的變量問題作出跟蹤分析。因此,在Faster RCNN 網(wǎng)絡框架的基礎上,建立用于區(qū)域候選網(wǎng)絡確定、目標對象特征提取的卷積神經(jīng)網(wǎng)絡,使用卡爾曼濾波模型、SiamRPN 深度學習的融合算法,進行圖像幀關聯(lián)分析,解決相似目標的運動檢測、交互或遮擋監(jiān)測問題,對跟丟或再次出現(xiàn)的目標作出準確識別,相比于傳統(tǒng)的動態(tài)目標跟蹤算法的識別跟蹤性能更優(yōu)。