孫德剛,白榮雪,王超,高天學(xué),胡正平,2
(1.山東華宇工學(xué)院信息工程學(xué)院,山東德州 253000; 2.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島 066004)
為了緩解跟蹤樣本邊緣產(chǎn)生的邊界效應(yīng),盡可能提升跟蹤精度和魯棒性,本文作者結(jié)合時域正則化和空域正則化來解決相關(guān)濾波跟蹤時的邊界效應(yīng)問題,提取目標(biāo)的基礎(chǔ)手工特征和深度特征,通過降維方法加速算法運算,并利用尺度池方法估計目標(biāo)尺度,提升跟蹤效果。
深度網(wǎng)絡(luò)框架由于其訓(xùn)練過程導(dǎo)致速度大多比較慢,與相關(guān)濾波結(jié)合的孿生網(wǎng)絡(luò)速度優(yōu)勢比較大。WANG等提出端到端的輕量級孿生網(wǎng)絡(luò)體系結(jié)構(gòu)(Discriminative Correlation Filter with Network,DCFNet)算法,在網(wǎng)絡(luò)的一層加入相關(guān)濾波器,將網(wǎng)絡(luò)輸出作為響應(yīng)圖并推導(dǎo)反向傳播的過程依然在頻域進行,因此在深度算法中速度較快。HONG等將離線CNN圖像庫為背景,利用網(wǎng)絡(luò)的隱藏層輸出描述特征,并結(jié)合反向傳播和在線SVM構(gòu)造目標(biāo)顯著圖,被稱為CNN-SVM算法。此外,端到端學(xué)習(xí)和注意力機制等也常用于視頻處理中。為了盡可能提升跟蹤精度和魯棒性,本文作者將相關(guān)濾波與深度特征相結(jié)合,并在現(xiàn)有算法基礎(chǔ)上從特征、模型等多方面進行改進。
本文作者提出基于卷積特征的多尺度估計和自適應(yīng)響應(yīng)融合目標(biāo)跟蹤算法,來解決相關(guān)濾波跟蹤框架中深度特征跟蹤優(yōu)勢受限和計算存儲冗余等問題。首先提取目標(biāo)區(qū)域的手工和深度卷積特征,通過學(xué)習(xí)連續(xù)域卷積算子實現(xiàn)多分辨率特征的融合;其次,通過調(diào)整高斯標(biāo)簽參數(shù),充分利用手工特征的準(zhǔn)確性,深入挖掘深度特征的魯棒性;然后,通過分解卷積操作對深度特征進行有監(jiān)督降維來減少模型參數(shù),為了減少樣本冗余并保留正確樣本,進行基于高斯混合模型的動態(tài)樣本融合,并使用模糊稀疏的模型更新機制提高模型更新的有效性;最后,根據(jù)預(yù)測質(zhì)量評估標(biāo)準(zhǔn),對深度特征和手工淺層特征的跟蹤響應(yīng)圖進行自適應(yīng)融合。此外,還分別使用PCA和正交三角分解方法對平移濾波器和尺度濾波器特征進行降維,并使用三角插值法進一步提高跟蹤精度。
在將多層深度卷積特征用于相關(guān)濾波跟蹤時,由于不同卷積層具有不同的圖像分辨率,超出了相關(guān)濾波只能處理單分辨率圖像的限制。為了集成多分辨率深度特征圖,文獻(xiàn)[6]提出連續(xù)卷積算子方法,在圖像訓(xùn)練之前應(yīng)用空域隱式插值將特征圖插值到連續(xù)空域。一方面,該方法在連續(xù)域中執(zhí)行卷積來實現(xiàn)多分辨率特征圖的自然集成,這樣就可以獨立靈活地選擇每個視覺特征的分辨率,而無需顯式重采樣;另一方面,以連續(xù)函數(shù)的形式求出目標(biāo)的跟蹤響應(yīng),從而實現(xiàn)子網(wǎng)格的精確定位,進一步提高相關(guān)濾波的跟蹤精度。
(1)
訓(xùn)練一個連續(xù)周期多通道卷積濾波器=(,…,)來預(yù)測目標(biāo)的檢測分?jǐn)?shù):
(2)
連續(xù)卷積算子目標(biāo)跟蹤算法,利用訓(xùn)練樣本的隱式內(nèi)插模型來學(xué)習(xí)連續(xù)空間域中的卷積算子,通過學(xué)習(xí)的卷積濾波器,可以產(chǎn)生目標(biāo)的連續(xù)域置信圖,使相關(guān)濾波器跟蹤實現(xiàn)對多分辨率特征映射的融合。但復(fù)雜的計算使算法無法達(dá)到實時要求,在一定程度上限制了算法的實際跟蹤應(yīng)用。本文作者結(jié)合文獻(xiàn)[7]提出的幾點改進措施,進一步設(shè)計對于連續(xù)卷積算子跟蹤算法的優(yōu)化方法。
(3)
上式的最后一步可以看作是降維數(shù)據(jù)的重組,首先降維矩陣與位置處的特征向量{}()相乘求出維降維特征圖,然后再與濾波器卷積。是通過公式(2)和公式(3)最小化分解算子的分類誤差,再判別聯(lián)合地學(xué)習(xí)濾波器和矩陣而得到的。
(4)
(5)
(6)
以上分解卷積算子過程中的降維矩陣只需要在第一幀時學(xué)習(xí),而后直接用于特征降維來提高運算速度。這樣在后續(xù)跟蹤時,有利于減少投影特征圖{}所占用的內(nèi)存空間,濾波器更新時也可以直接利用{}將特征圖由維降至維,以此達(dá)到節(jié)約內(nèi)存和減少計算量的目的。
在以往的跟蹤算法中,每跟蹤一幀圖像就相應(yīng)添加一個訓(xùn)練樣本,由于跟蹤樣本的外觀變化是時空連續(xù)的,所以該樣本權(quán)重設(shè)置為由學(xué)習(xí)率控制的指數(shù)衰減~(1-)-,當(dāng)樣本數(shù)達(dá)到上限時,最小權(quán)重的樣本將被新樣本替換,這種更新策略需要較大的樣本限制才能獲得比較具有代表性的樣本集。否則,若采用上述逐幀添加新樣本的策略,將會使空間有限的樣本集被大量相似的樣本占用,產(chǎn)生過多冗余信息,不能涵蓋樣本的多樣性。本文作者采用混合高斯模型(Gaussian Mixture Model,GMM)提高樣本差異性,將相似的樣本融合為一個樣本分量,并始終保留第一幀樣本分量,最終生成由各具差異性的樣本分量構(gòu)成的緊湊型的樣本集來緩解上述問題。文中使用基于GMM的動態(tài)樣本融合策略,通過賦予第一幀穩(wěn)定的權(quán)重,并動態(tài)調(diào)整樣本分量的權(quán)重,使樣本集中的樣本數(shù)量從降至,且保持了每個樣本分量的高效性和對樣本形變的適應(yīng)性。
理論上,最合理的模型更新方式是選擇在目標(biāo)外觀發(fā)生一定程度的變化之后進行更新,但實際上目前還很難找到一個相對簡單且計算量小的判別目標(biāo)外觀變化程度的指標(biāo)。綜合以上分析,使用稀疏的模型更新方式,間隔一定幀數(shù)更新一次跟蹤模型。借鑒已有的實驗結(jié)果,模型更新間隔處于一個動態(tài)范圍內(nèi)時跟蹤效果更好。本文作者在稀疏的模型更新方式上使用模糊策略,使算法在一個區(qū)間[,]內(nèi)隨機選擇更新間隔,則采用模糊稀疏策略的模型更新次數(shù)降至:
=[∑()](-+1)
(7)
其中:是跟蹤視頻序列的總幀數(shù);是使用的更新間隔,取[,]區(qū)間內(nèi)的整數(shù)。使用模糊稀疏的模型更新策略,在一定程度上可以緩解因遮擋和運動出視野等導(dǎo)致模型腐化的問題,提高了跟蹤算法模型更新的有效性和計算效率。
深度特征(如VGGNet)近幾年越來越多地應(yīng)用于目標(biāo)跟蹤領(lǐng)域。但研究表明,計算耗時的深度特征無法從更深卷積層獲益,這與深度學(xué)習(xí)性能隨著網(wǎng)絡(luò)的增大和加深而更優(yōu)的原則相悖。為了充分發(fā)揮深層和淺層特征的跟蹤優(yōu)勢,本文作者差異化對待兩種特征,更關(guān)注深度特征的魯棒性和淺層特征的精度,并在響應(yīng)階段使用自適應(yīng)融合策略。
參考已有預(yù)測質(zhì)量評估標(biāo)準(zhǔn),對跟蹤精度和魯棒性進行量化。從響應(yīng)圖的情況來看:一方面響應(yīng)圖的峰值越尖銳,表明其定位能力更精準(zhǔn);另一方面主峰與鄰近干擾峰的邊際越大表明當(dāng)前預(yù)測置信度明顯高于其他候選位置,說明跟蹤魯棒性強。所使用的評價目標(biāo)預(yù)測質(zhì)量的最小化權(quán)重置信邊際指標(biāo)為
(8)
(9)
在響應(yīng)融合階段,基于在響應(yīng)融合階段提出的預(yù)測質(zhì)量評估標(biāo)準(zhǔn),對深度特征響應(yīng)()和淺層特征響應(yīng)()分別以權(quán)重和進行加權(quán)融合:
()=()+()
(10)
以上求解通過建模來最小化損失函數(shù):
subject to:+=1,≥0,≥0
(11)
其中:是正則項參數(shù)。
引入松弛變量={},公式(5)可以優(yōu)化為
subject to:+=1,≥0,≥0
()-(-)≥(),
?∈
(12)
通過采樣有限組候選狀態(tài)來求解該問題,每組是含有3個變量的二次規(guī)劃問題,這種問題可以用常規(guī)標(biāo)準(zhǔn)方法來求解,計算量增加不大。通過調(diào)整高斯標(biāo)簽函數(shù)參數(shù),并根據(jù)預(yù)測質(zhì)量評估方法進行自適應(yīng)響應(yīng)融合,發(fā)揮了深度特征的跟蹤魯棒性和淺層特征的跟蹤精度特性,有利于進一步提高目標(biāo)跟蹤效果。
對于尺度估計,采用7個比較粗的尺度池方法,平移濾波器從尺度池內(nèi)的縮放圖像檢測出響應(yīng)最大的目標(biāo)位置和尺度,檢測得到位置和尺度的全局最優(yōu)結(jié)果,檢測得到的不一定是位置和尺度各自局部的最優(yōu)結(jié)果。本文作者借鑒尺度金字塔方法,并結(jié)合降維思想,將這種高效精細(xì)的尺度估計方法用于文中算法。
實驗環(huán)境為Intel Core i5-4200 CPU,主頻1.6 GHz,內(nèi)存8 GB,64位Win10操作系統(tǒng),實驗平臺為MATLAB R2016b。模型更新間隔區(qū)間[,]取[5,7],深度和淺層特征的標(biāo)簽函數(shù)標(biāo)準(zhǔn)差分別是=14和=116,預(yù)測質(zhì)量評估的控制參數(shù)以8為因子與目標(biāo)大小成反比,響應(yīng)融合階段的正則項參數(shù)=015,尺度金字塔的尺度因子=1.02,文中算法OursHC使用FHOG、CN和gray特征,OursDeep使用FHOG和VGG-M網(wǎng)絡(luò)的Conv1和Conv5。
為了評估算法性能,選取OTB-2013和OTB-2015作為測試數(shù)據(jù)集,選取的數(shù)據(jù)集中每個視頻序列具有一種或多種挑戰(zhàn)因素,測試數(shù)據(jù)更具有代表性。采用OTB數(shù)據(jù)集的一次性通過評估OPE模式,選擇跟蹤的距離精度和重疊率精度作為評價指標(biāo)。文中設(shè)定閾值為20像素,閾值為0.5。將文中使用的深度特征算法OursDeep和手工特征算法OursHC與DeepSRDCF、CNN-SVM、SiamFC3s、CFNet、DCFNet、SRDCF、DSST共9種流行算法進行比較,驗證文中算法框架和使用深度特征的有效性,并做定量和定性分析。
測得9種算法在OTB-2013和OTB-2015數(shù)據(jù)集的平均距離精度()和平均重疊率精度()見表1,圖1和圖2分別為9種算法在OTB-2013和OTB-2015數(shù)據(jù)集中11種視頻屬性的距離精度和成功率,其中第一幅曲線圖是平均跟蹤結(jié)果。為便于數(shù)據(jù)對比,將9種算法在OTB-2013和OTB-2015數(shù)據(jù)集中11種視頻屬性下的跟蹤成功率和距離精度結(jié)果列在表2和表3中,其中加框數(shù)據(jù)表示最優(yōu)結(jié)果,加下劃線數(shù)據(jù)表示次優(yōu)結(jié)果。
表1 OPE模式下9種算法的平均跟蹤性能 單位:%
結(jié)合表1可知:在OTB-2013數(shù)據(jù)集上,文中深度特征算法OursDeep的平均和平均分別為90.5%和68.2%,手工特征算法OursHC分別為86.4%和65.0%,在OTB-2015數(shù)據(jù)集上;文中深度特征算法OursDeep的平均和平均分別為89.0%和67.0%,手工特征算法OursHC分別為83.5%和62.7%。與其他幾種深度算法相比,文中使用深度特征的算法超越了性能較好的DeepSRDCF以及使用孿生網(wǎng)絡(luò)框架的DCFNet、CFNet和SiamFC3s算法,使用手工特征的算法獲得了較優(yōu)的跟蹤結(jié)果。與同樣采取判別相關(guān)濾波和深度特征的DeepSRDCF算法相比,在OTB-2013數(shù)據(jù)集上的精確度和成功率分別提升了5.6%和4.1%,在OTB-2015數(shù)據(jù)集上分別提升了3.9%和3.5%,表明文中算法具有較好的跟蹤性能。
由圖1可知:在11種挑戰(zhàn)因素中,文中算法OursDeep在其中10種因素的跟蹤精度均排在第1名。但在圖像序列低分辨率情況下,文中算法跟蹤效果略高于DCFNet算法,接近于SiamFC3s和CFNet算法,與采用CNN和SVM構(gòu)造目標(biāo)顯著圖的CNN-SVM算法相比,還存在一定差距。另外,文中手工特征的算法OursHC在尺度變化等7個挑戰(zhàn)因素中均排在第2名,說明算法總體跟蹤精度較高。
圖1 9種算法在OTB-2013數(shù)據(jù)集11種挑戰(zhàn)因素的距離精度圖
由表2可更直觀看出:在對11種挑戰(zhàn)因素的跟蹤成功率測試中,文中算法跟蹤效果優(yōu)勢比較明顯,尤其是對具有障礙物遮擋和運動出視野等挑戰(zhàn)因素時,文中算法相比DeepSRDCF算法跟蹤成功率提升8%以上,對低分辨率圖像跟蹤效果有待改善。
表2 OTB-2013數(shù)據(jù)集中9種算法在11種挑戰(zhàn)因素的跟蹤成功率 單位:%
由表3可知:在數(shù)據(jù)量更多的OTB-2015數(shù)據(jù)集中,測試的跟蹤趨勢與OTB-2013數(shù)據(jù)集大體一致,但隨著測試數(shù)據(jù)的增多,在11種視頻屬性的挑戰(zhàn)因素中,文中算法相對于DeepSRDCF算法的跟蹤優(yōu)勢依然明顯,說明文中算法的整體跟蹤性能較好,適應(yīng)性較強。
表3 OTB-2015數(shù)據(jù)集中9種算法在11種挑戰(zhàn)因素的跟蹤距離精度 單位:%
結(jié)合圖2可知:文中算法在11種挑戰(zhàn)因素的10種因素中成功率依然排名第一,且手工特征OursHC的跟蹤成功率在其中9種因素中排名前三,跟蹤效果穩(wěn)超很多深度學(xué)習(xí)框架算法。
圖2 9種算法在OTB-2015數(shù)據(jù)集11種挑戰(zhàn)因素的成功率
綜合各圖和表顯示的結(jié)果可知:與參與對比的其他算法相比,文中設(shè)計的算法總體跟蹤距離精度和成功率均排在第1名,在11種視頻屬性的測試中,在10種上具有較大優(yōu)勢。從文中算法自身對比來看:采用深度特征的OursDeep比單純使用手工特征的OursHC跟蹤距離精度和成功率均有較大提高,其跟蹤效果在數(shù)據(jù)較多的OTB-2015數(shù)據(jù)集測試中分別提升5.5%和4.3%,說明深度特征的使用作用明顯。
選取6組具有多種挑戰(zhàn)因素的視頻序列對文中算法進行分析,各視頻包含的視頻屬性、幀數(shù)等信息見表4,選取的視頻序列包含多種挑戰(zhàn)因素,數(shù)據(jù)的多樣性更具有說服力。
表4 6組視頻序列的屬性及相關(guān)信息
文中采用稀疏更新模型并且對深度特征和手工特征的響應(yīng)圖進行自適應(yīng)融合,在出視野、形變、低分辨率等情況下的穩(wěn)定性較好,對目標(biāo)的綜合跟蹤能力較強。
提出基于卷積特征和響應(yīng)融合的目標(biāo)跟蹤算法,從特征、學(xué)習(xí)更新方式和響應(yīng)融合等幾個方面進行改進。首先,引入手工特征和多層深度卷積特征,通過學(xué)習(xí)連續(xù)域卷積算子實現(xiàn)了多分辨率特征的融合,并通過調(diào)整高斯標(biāo)簽函數(shù)參數(shù),充分發(fā)揮了兩種特征各自跟蹤優(yōu)勢;然后,通過分解卷積操作,對深度特征進行有監(jiān)督降維,并利用基于高斯混合模型的動態(tài)樣本融合,保留正確樣本的同時提高了樣本差異性,使用的模糊稀疏更新機制緩解了遮擋情況下因模型退化導(dǎo)致的跟蹤失敗問題;最后,根據(jù)預(yù)測質(zhì)量評估指標(biāo),對深度特征和手工特征的跟蹤響應(yīng)圖進行自適應(yīng)融合,發(fā)揮特征各自在不同跟蹤場景中的跟蹤優(yōu)勢。