国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于動態(tài)權重的雙分支孿生網絡目標跟蹤算法

2022-12-19 16:37:10王皓韡
中國民航大學學報 2022年5期
關鍵詞:分支外觀注意力

韓 萍,王皓韡,方 澄

(中國民航大學a.電子信息與自動化學院;b.計算機科學與技術學院,天津 300300)

視頻目標跟蹤作為計算機視覺中最基本的任務之一,在人機交互、視頻監(jiān)控、自動駕駛、醫(yī)學診斷、行為識別等多個領域有著廣泛的應用。跟蹤算法利用視頻第一幀中未知目標的邊界框作為初始信息,實現對后續(xù)視頻中目標的跟蹤定位。但由于邊界框中摻雜了目標以外的背景信息,且在跟蹤過程中易受多種因素的干擾,跟蹤算法較難準確地理解跟蹤目標的特征信息。因此,如何加強跟蹤算法對視頻信息的理解,提高目標與背景的區(qū)分能力,實現對視頻目標的精準跟蹤仍是一個富有挑戰(zhàn)的問題。

近年來,隨著計算機視覺領域的發(fā)展,多種跟蹤算法先后出現。其中,主流跟蹤算法可以歸結為兩大類:基于相關濾波的跟蹤算法和基于孿生網絡的跟蹤算法。以CCOT(learning continuous convolution operators for visual tracking)[1]、ECO(efficient convolution operators for tracking)[2]等算法為代表的基于相關濾波的跟蹤算法利用深度圖像特征替換了傳統特征,但由于仍需要在線學習網絡參數,不可避免地限制了此類算法的跟蹤性能。另一類基于孿生網絡的跟蹤算法利用大量視頻數據離線學習,不需要在線更新參數,在跟蹤精度和速度上取得了較好的平衡。而基于全卷積孿生網絡的目標跟蹤(SiamFC,fully-convolutional siamese net works for object tracking)算法[3]成功地利用孿生網絡結構將跟蹤問題轉換為相似度匹配問題,以跟蹤目標圖像為目標模板,后續(xù)視頻幀為搜索圖像,利用深度神經網絡提取圖像特征,計算目標模板特征與搜索圖像特征的相似匹配程度,實現目標跟蹤。隨后,Valmadre等[4]提出了跟蹤算法CFNet(end-to-end representation learning for correlation filter based tracking),將相關濾波器模塊嵌入孿生網絡中,以加強模型的特征提取能力。Li 等[5]提出的跟蹤算法SiamRPN(high performance visual tra-cking with siamese region proposal network)首次將區(qū)域建議網絡引入孿生網絡結構中,利用分類分支和回歸分支共同確定跟蹤目標位置。Wang 等[6]提出了利用無監(jiān)督方法訓練的跟蹤算法UDT(unsupervised deep tra-cking),通過比較視頻序列正放與倒放過程中目標跟蹤的差距建立損失訓練模型,為豐富訓練數據提供了新思路。但以上SiamFC 的改進算法均以目標外觀信息的相似程度作為衡量依據進行跟蹤。這些算法在視頻序列中出現其他相似外觀物體的干擾或因背景光照變化等情況造成目標外觀模糊或遮擋時,易發(fā)生跟蹤漂移或丟失。

為了提升孿生網絡算法對目標和背景的區(qū)分能力,受注意力機制在圖像領域應用的啟發(fā),許多改進算法利用注意力機制加強對目標特征的提取能力。如王玲等[7]在目標模板分支添加了通道注意力結構,以增強卷積網絡對正負樣本的區(qū)分能力;Wang 等[8]提出的跟蹤算法RasNet(residual attentional siamese network for high performance online visual tracking)針對目標模板設計了以殘差注意力為主,通用注意力和通道注意力為輔的三重注意力機制強化目標模板特征;范穎等[9]提出了多層深度特征漸進注意力網絡,利用注意力機制減少了深層特征與淺層特征結合的冗余。然而,這些針對目標模板設計的注意力機制,忽視了對搜索圖像中跟蹤目標的特征表達,一定程度上限制了對目標模板與搜尋區(qū)域的匹配準確度。

針對以上問題,提出了一種基于動態(tài)權重的雙分支孿生網絡目標跟蹤算法。本文提出的算法在SiamFC算法基礎上,利用圖像深度語義信息不易隨外觀變化而改變的特性,增加了基于語義信息的跟蹤支路,作為外觀分支的有效補充。同時在語義分支添加了雙重注意力模塊,同步加強目標模板和搜索圖像的語義信息。兩分支采用不同的初始化參數和訓練方式單獨訓練,以保證兩分支跟蹤結果的異質性。為了在跟蹤過程中更有效地結合兩分支的各自優(yōu)勢,給出了一種動態(tài)權重系數的計算方法,實時調整分支的結合權重,更好地實現了分支互補。在4 個標準目標跟蹤數據集OTB2015[10]、UAV20L[11]、UAV123 和GOT-10 k[12]上驗證了本文算法的有效性,實驗證明,該算法有效提高了算法的跟蹤精度和魯棒性。

1 相關理論知識

1.1 SiamFC 算法

SiamFC 算法的兩分支分別輸入目標模板與搜索圖像,利用兩個共享權重的全卷積神經網絡進行特征提取,衡量輸出的高維特征的相似度,實現目標跟蹤。具體來講,目標模板x 和搜索圖像z 通過共享權重的全卷積神經網絡φ 提取特征后,利用互相關操作計算兩者相似匹配程度如下

式中corr()表示互相關計算函數。輸入圖像對經特征提取和互相關計算后,可得到衡量目標模板與搜索圖像相似匹配程度的響應圖f(x,z),以其作為新一幀目標位置的判斷依據,如圖1 所示。響應圖中的最大值即為匹配程度最高的位置,經上采樣和插值操作后,將該位置坐標對應還原至搜索圖像中,視作下一視頻幀的跟蹤目標位置中心。

圖1 SiamFC 算法網絡結構圖Fig.1 Network structure of SiamFC algorithm

1.2 注意力機制

注意力機制源于人類選擇性關注圖像重點區(qū)域的特殊視覺機制,受這一現象啟發(fā),深度學習領域引入注意力機制,以訓練網絡自主學習一組權重系數來強調重點信息,抑制無關信息。在計算機視覺領域中,主流的注意力機制可分為3 種:通道注意力、空間注意力與自注意力。由于圖像特征通道對不同目標的響應有所區(qū)別,通道注意力通過學習特征通道的重要程度,為特征通道賦予不同的權重系數,實現在通道維度上的關注。為了減少圖像因旋轉、平移等空間變換的影響,空間注意力通過空間轉換,將原始圖像特征變換至空間維度,計算不同位置的權重系數,實現對特定位置區(qū)域的關注。自注意力則強調關注特征的內部信息,減少對外部信息的依賴。

2 算法描述

針對SiamFC 算法僅依據圖像外觀信息進行跟蹤的問題,本文算法中的跟蹤網絡采用外觀與語義相結合的雙分支結構,將語義分支作為外觀分支的補充。外觀分支采用SiamFC 算法結構,以度量顏色、紋理等外觀信息的相似性作為訓練目的,衡量相似度,確定目標位置。為了利用圖像深層語義信息不易隨圖像外觀變化而改變的特性,語義分支以目標類別等抽象語義信息為度量依據衡量相似度。同時,語義分支采用一種雙重注意力機制,從空間位置和通道響應兩個維度深化語義特征表達。跟蹤網絡分別從目標外觀和語義兩個角度的圖像信息進行相關匹配計算,利用實時更新的動態(tài)權重整合跟蹤結果,確定新一幀的目標位置,基于動態(tài)權重的雙分支目標跟蹤網絡結構如圖2所示。

2.1 外觀分支

外觀分支結構如圖2 中虛線分支所示,為了加強模型特征提取能力,將SiamFC 算法的特征提取網絡替換為網絡層次更深的VGGNet-16 網絡。目標模板x和搜索圖像z 通過共享權重的卷積神經網絡φA提取外觀特征,經互相關計算后,得到衡量外觀相似度的響應圖HA,互相關計算如下

式中φA表示外觀分支的特征提取網絡。所得響應圖HA與標簽Y 通過交叉熵損失函數計算損失,經反向傳播更新模型參數,如下

式中:N 為每輪輸入的樣本數量;θA為外觀分支網絡模型中的可學習參數;L()表示所采用的交叉熵損失函數;xi,zi分別代表第i 對訓練樣本中的目標模板和搜索圖像;Yi代表第i 對訓練樣本的響應圖標簽。

2.2 語義分支

語義分支結構如圖2 中實線分支所示,語義分支模型利用共享權重的卷積神經網絡φS提取特征。兩分支的特征提取網絡雖結構相同,但其中的參數有所區(qū)分。語義分支在ImageNet[13]數據集上,采用以目標分類為訓練目的VGGNet-16 網絡進行參數初始化,且特征提取網絡參數在訓練中不做更新。同時為了深化語義特征表達,經網絡提取的語義特征需經雙重注意力模塊后,再通過互相關計算得到衡量語義相似度的響應圖HS。語義分支采用如下的損失函數進行反向傳播更新模型參數

式中θS為語義分支網絡模型的可學習參數,其余參數含義同外觀分支。語義特征響應圖HS計算如下

式中:φS表示語義分支的特征提取網絡;A()表示第2.3節(jié)所述的雙重注意力機制。

2.3 雙重注意力模塊

由于特征提取網絡的卷積核大小固定,感受野范圍受到限制,使語義分支在特征提取過程中僅能關注局部空間內的語義特征,未能充分考慮不同空間位置語義信息間的相互聯系。同時,與具有先驗類別的圖像分類或檢測任務不同,目標跟蹤任務有跟蹤目標類別預先未知但跟蹤過程中不改變的特點。如Li 等[14]所觀察,深層圖像特征的不同通道對某一類目標有著更為突出的響應,但對于同一類別的物體,響應通道明顯不唯一且相互關聯。為了強化網絡對同一類別的目標響應,同時關注全局的語義信息,采用融合空間注意力和通道注意力的雙重注意力機制,從空間位置和通道響應兩個維度深化語義特征。空間注意力將全局的語義信息加權至圖像局部特征中,綜合考慮圖像的全局語義,完善局部特征表達;通道注意力通過加強特征通道間的關聯性強化語義特征。兩類注意力在同步計算后,以對應元素相加的方式實現注意力融合,整體結構如圖3 所示。

圖3 雙重注意力機制結構圖Fig.3 Dual-attention mechanism structure diagram

空間注意力結構如圖3 中上半分支所示,經特征提取網絡φS提取的原始特征F∈RC×H×W為C ×H ×W長×寬×高的三維矩陣,分別通過兩個不同的卷積層生成新的特征矩陣,分別記作B,K∈RC×H×W,特征矩陣B 經轉置后與K 進行對應元素相乘計算,通過Softmax函數得到空間注意力S,其中元素計算如下

空間注意力S 中的元素sij用于衡量在原始特征F 中第i 個位置元素對第j 個位置元素的影響,處于不同位置的元素所代表的特征語義越相近,兩者間的相關性就越強。

原始特征F 通過另一個單獨的卷積層,生成特征矩陣D∈RC×N(長×寬為C×N 的二維矩陣)。特征矩陣D 與空間注意力S 進行矩陣對應元素相乘計算,經形狀轉換生成空間注意力特征??臻g注意力特征與參數α 相乘后,與原始特征F 的對應位置元素相加,得到最終的空間注意力特征EP,其中元素計算如下

通道注意力結構如圖3 中下半分支所示,與空間注意力不同,為了關注通道間的關聯性,由原始特征F及其轉置L 生成通道注意力M∈RC×C(長×寬為C×C的二維矩陣),其中元素計算如下

式中:mij表示原始特征F 中第i 個通道對第j 個通道的影響和依賴關系,生成的通道注意力特征以矩陣相乘的方法施加到原始特征上作為通道注意力G。通道注意力G 與權重系數β 相乘后,以矩陣對應位置元素相加的方式得到最終的通道注意力特征EC∈RC×H×W,其中元素計算如下

式中β 初始預設為0。通道注意力特征EC在原始特征F 上利用通道特征間的語義依賴關系,加強了特征表達能力。

為了融合兩種不同的注意力特征,將兩種注意力特征對應位置元素相加,經雙重注意力強化后的語義特征如下

文中的雙重注意力機制僅采用了少量卷積計算和轉置操作,在加強語義表達的同時不會增加過多模型參數,減少了對跟蹤速度的影響。

2.4 分支結合策略

外觀分支與語義分支分別根據不同類型的圖像信息進行跟蹤,因此兩分支在單獨跟蹤過程中也有不同的跟蹤結果。為了能夠更好地利用兩分支在不同場景下的跟蹤優(yōu)勢,采用動態(tài)權重結合兩分支,優(yōu)化跟蹤結果,如圖4 所示。

圖4 跟蹤響應圖對比Fig.4 Comparison of tracking response map

由圖4可知,決定跟蹤位置的響應圖峰值大小以及波動程度直觀地反映了跟蹤結果的置信度。當跟蹤目標與搜索視頻圖像的某一位置匹配準確時,理想的響應圖僅存在一個尖銳的高峰響應,其他區(qū)域無明顯響應,如圖4(a)所示,相似匹配峰越尖銳突出,表明定位的置信度越高;相反地,當響應圖中峰值不明顯、響應圖波動程度劇烈或存在多個次高峰干擾時,容易引發(fā)目標跟蹤的漂移或丟失,如圖4(b)所示。針對這一特點,為了對兩分支的響應圖進行評價,采用了平均峰值相關能量(APCE,average peak to correlation energy)指標衡量響應圖的結果,平均峰值相關能量EAPCE的計算方式如下

式中fmax、fmin和fw,h分別表示響應圖中的最大值、最小值和響應圖中(w,h)位置上的響應。對于存在尖銳的高峰響應且噪聲較小的響應圖,EAPCE指標更高;當響應圖中有多個峰值或有較大波動時,EAPCE指標會顯著降低。同時,響應圖中最大值fmax的大小也直接反映了該位置的置信度。根據以上這兩個指標,動態(tài)分支結合權重系數λ 由兩分支響應圖的最高響應峰值和波動程度指標EAPCE計算,如下

通過在跟蹤過程中,實時計算衡量兩分支各自響應圖置信度的指標,動態(tài)調整分支結合權重,有效地利用兩分支的各自優(yōu)勢進一步提升跟蹤模型的跟蹤精度。

3 實驗結果分析

兩分支采用VGGNet-16 的1~13 層作為骨干網絡。網絡訓練階段,外觀分支參數根據Xavier 方法初始化,語義分支采用在ImageNet 數據集上進行目標分類訓練的參數初始化。為了保證兩分支特征提取異質性,采用不同的訓練策略單獨訓練。以數據集GOT-10 k作為訓練集,該數據集包含了563 個類別,87 個目標運動模式,超過10 000 個視頻序列,共計150 萬個標注框。

網絡訓練階段,兩分支網絡的初始學習率設置為10-2,隨著訓練過程衰減至10-5,共進行50 輪迭代,梯度下降動量設為0.9,批次大小設為16,其中語義分支的特征提取網絡參數在訓練過程中不做修改,只訓練雙重注意力部分。網絡跟蹤階段,兩分支利用動態(tài)權重系數結合測試,為了應對目標跟蹤過程中尺度變化,跟蹤時采用0.974 5、1、1.037 5 3 個尺度進行匹配搜索。

3.1 OTB2015 數據集實驗

OTB2015 作為目標跟蹤領域評價算法的常用視頻跟蹤測試集,共計包括100 個人工標注的視頻序列,該數據集的評價指標主要為準確率(Precision)和成功率(Success)。準確率關注跟蹤算法對目標中心位置定位的誤差,成功率關注跟蹤算法所生成的邊界框與標注框的重疊比率。首先通過消融實驗驗證了本文算法各部分結構的有效性,隨后與多個跟蹤算法進行對比試驗,在OTB2015 數據集上對算法的整體跟蹤效果進行了評估。

3.1.1 消融實驗

消融實驗通過比較以不同權重系數結合與是否采用雙重注意力機制的跟蹤結果,分析了單獨采用外觀分支、語義分支、以固定權重進行分支結合和利用動態(tài)權重分支結合的跟蹤性能,對比結果如表1 所示。

表1 在OTB2015 數據集上本文算法的消融實驗Tab.1 Ablation experiment of proposed method on dataset OTB2015

由表1 可見,當λ=0 和λ=1 時,分別代表了單獨采用語義分支和外觀分支進行跟蹤,當兩者以不同固定權重進行結合跟蹤時,均較采用單一分支的跟蹤結果更好,表明兩分支相結合確實能起到信息互補,完善模型表達,提升跟蹤準確率的效果。當采用動態(tài)權重結合分支時,算法結果優(yōu)于結果最好的固定值。表明兩分支利用動態(tài)權重結合時,能夠使模型在跟蹤過程中及時調整分支結合權重,發(fā)揮不同分支優(yōu)勢,提升跟蹤準確率和成功率。

在實時跟蹤速度測試中,采用分支結合策略的跟蹤算法與采用單一分支進行跟蹤相比,跟蹤速度略有降低。這主要是由于在實時跟蹤中,需要對雙分支3個尺度的響應分別進行計算,增大了實時計算量。同時由表1 后兩行可見,跟蹤算法采用雙重注意力后,未對跟蹤速度造成較大影響。

3.1.2 對比實驗

將本文算法與SiamRPN[5]、ECO[2]、SiamFC[3]、UDT[6]等跟蹤算法進行對比試驗。評價指標為跟蹤算法自視頻初始值跟蹤至最后一幀(OPE,one pass evaluation)的準確率和成功率,結果如圖5 和圖6 所示。

圖5 OTB2015 數據集準確率對比結果Fig.5 Comparison result of precision rate on dataset OTB2015

圖6 OTB2015 數據集成功率對比結果Fig.6 Comparison result of success rate on dataset OTB2015

由圖5 和圖6 可知,本文算法充分利用了深度孿生神經網絡離線學習圖像特征的優(yōu)勢,在準確率和成功率上均優(yōu)于ECO 等相關濾波算法。同時與CFNet、SiamRPN、UDT 等采用深度孿生神經網絡結構的算法相比,本文算法在準確率和成功率兩項指標上也均較優(yōu),這主要是由于該算法添加了經雙重注意力機制強化后的語義分支,有效地補充了僅利用外觀特征進行跟蹤的不足。

OTB2015 數據集中的每段視頻分別存在一類或多類跟蹤挑戰(zhàn)。挑戰(zhàn)屬性分為光照變化(Ⅳ,illumination variation)、尺度變化(SV,scale variation),目標遮擋(OCC,occlusion)、目標形變(DEF,deformation)、運動模糊(MB,motion blur)、快速移動(FM,fast motion)、平面內旋轉(IPR,in-plane rotation)、平面外旋轉(OPR,out-of-plane rotation)、離開視野(OV,out-of-view)、背景雜亂(BC,background clutters)、低分辨率(LR,low resolution)共計11 種。若跟蹤算法在某一類挑戰(zhàn)上的評價結果較高,則表示該算法對該類挑戰(zhàn)的應對更加出色,跟蹤結果更加準確。表2 和表3 具體展示了本文算法與對比算法在各類挑戰(zhàn)屬性上跟蹤準確率與成功率的結果,并依照整體結果進行排序。

表2 OTB2015 數據集上不同挑戰(zhàn)屬性跟蹤準確率對比Tab.2 Comparison of the precision rate of different challenge attributes on the dataset OTB2015

從表2、表3 可看出:由于本文算法語義分支的補充,減少了因目標移動過程中外觀變化帶來的影響,使該算法在運動模糊、快速移動和離開視野3 類挑戰(zhàn)屬性上的跟蹤結果較其他算法更為準確;在平面內外旋轉兩個挑戰(zhàn)屬性上,跟蹤成功率指標略低于SiamRPN 算法,主要是由于SiamRPN 算法采用了錨框回歸的算法分支,提升了對跟蹤目標的旋轉適應性;在平面內外旋轉的定位準確率指標及其他挑戰(zhàn)屬性中,本文算法仍有著一定優(yōu)勢。

表3 OTB2015 數據集上不同挑戰(zhàn)屬性跟蹤成功率對比Tab.3 Comparison of the success rate of different challenge attributes on the dataset OTB2015

圖7 以可視化的方式比較了本文算法與SiamRPN、UDT、SiamFC 在Liquor 等視頻序列上的結果。以首行Liquor 視頻序列為例,跟蹤目標頻繁移動帶來了尺度變化、目標遮擋、離開視野等多項挑戰(zhàn),SiamRPN、SiamFC 算法由于相似目標的干擾造成了目標漂移,UDT 則無法正確適應目標的尺度變化,而本文算法對跟蹤目標進行了準確定位,且較好地應對了目標的尺度變化。

圖7 在OTB2015 數據集上跟蹤算法可視化對比Fig.7 Visual comparison of tracking algorithms on OTB2015 dataset

3.2 UAV20L/UAV123 數據集實驗

UAV 數據集是無人機在低空航空視角采集的目標跟蹤數據集,其中:UAV20L 包含20 段長時跟蹤視頻序列,平均每段視頻包含2 934 個視頻幀;UAV123包含123 個短時跟蹤視頻序列,平均每段視頻包含915個視頻幀。將本文算法同CCOT[1]、UDT[6]、ECO[2]、SiamFC[3]、SiamRPN[5]算法進行比較,并以在UAV20L 數據集上的跟蹤準確率由低至高排序,結果如表4 所示。

表4 UAV 數據集準確率和成功率對比結果Tab.4 Comparison results of precision rate and success rate on dataset UAV

由表4 可見,本文算法在UAV20L、UAV123 兩個數據集的準確率和成功率分別為0.621/0.465,0.755/0.542,均高于對比算法。

3.3 GOT-10k 數據集實驗

GOT-10k 測試集共計180 個視頻序列,包含84種不同的目標類別和32 種運動模式,跟蹤算法在視頻第一幀上初始化,跟蹤至視頻序列末尾。為了更好地與其他跟蹤算法進行對比,采用GOT-10k 數據集的通用評價指標平均重疊率(EAO,expect average overlap rate)進行衡量與排序,并附加重疊閾值為0.5 的成功率指標SR_0.5。本文算法同CFNet[4]、CCOT[1]、ECO[2]、SiamFC[3]、SiamRPN[5]的對比試驗結果如表5 所示,可見本文算法在EAO 和SR_0.5 上均高于對比算法。

表5 GOT-10k 數據集平均重疊率和成功率對比結果Tab.5 Comparison results of average overlap rate and success rate on dataset GOT-10k

4 結語

本文給出了一種基于動態(tài)權重的雙分支孿生網絡目標跟蹤算法,利用雙重注意力機制強化的語義分支,彌補了僅關注目標外觀特征的不足,同時采用動態(tài)權重有效地結合兩分支結果,提升了跟蹤精度。將本文算法在公開通用目標跟蹤數據集OTB2015、UAV20L、UAV123 和GOT-10k 上進行了實驗,驗證了其有效性。同時,本文算法的平均跟蹤幀率為47 幀/s,滿足跟蹤實時性要求。

猜你喜歡
分支外觀注意力
外觀動作自適應目標跟蹤方法
A Shopping Story to Remember
讓注意力“飛”回來
不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
巧分支與枝
學生天地(2019年28期)2019-08-25 08:50:54
一類擬齊次多項式中心的極限環(huán)分支
方外觀遺跡舊照
紫禁城(2017年6期)2017-08-07 09:22:52
“揚眼”APP:讓注意力“變現”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
生成分支q-矩陣的零流出性
玉溪市| 辛集市| 桐梓县| 遵义县| 喀喇| 昔阳县| 呼伦贝尔市| 德惠市| 康马县| 满洲里市| 青神县| 昭通市| 门头沟区| 怀来县| 固镇县| 鱼台县| 靖远县| 泾川县| 井研县| 崇左市| 钦州市| 威海市| 灯塔市| 青阳县| 浦东新区| 米脂县| 同德县| 平武县| 广德县| 姚安县| 德庆县| 三河市| 公安县| 静海县| 博白县| 永胜县| 晋城| 汉沽区| 永登县| 灵武市| 府谷县|