基于改進MDNet 的視頻目標跟蹤算法①

2022-06-27 03:54:10曹建榮張玉婷朱亞琴武欣瑩楊紅娟

計算機系統(tǒng)應(yīng)用 2022年5期

曹建榮, 張玉婷, 朱亞琴, 武欣瑩, 楊紅娟

1(山東建筑大學(xué) 信息與電氣工程學(xué)院, 濟南 250101)

2(山東省智能建筑技術(shù)重點實驗室, 濟南 250101)

目標跟蹤作為計算機視覺中的關(guān)鍵問題之一, 已經(jīng)被廣泛應(yīng)用于視頻監(jiān)控、人機交互、無人駕駛等領(lǐng)域. 目標跟蹤是根據(jù)視頻幀序列第一幀的目標位置來預(yù)測后續(xù)幀中的目標位置, 不僅需要把跟蹤目標所在的空間位置在視頻序列中標注出來還需要將連續(xù)的視頻幀中標注出的目標中心點連接以得到運動軌跡[1].

目標跟蹤分為生成式和判別式兩類方法. 生成式方法通過最小化跟蹤目標和候選目標之間的重構(gòu)誤差來確認目標, 比較常見的算法有卡爾曼算法、粒子濾波算法、光流法等. 而判別式方法是以當前幀目標區(qū)域為正樣本、當前幀背景區(qū)域為負樣本訓(xùn)練分類器,下一幀用訓(xùn)練好的分類器尋找最優(yōu)的目標區(qū)域. 判別式方法的最新發(fā)展就是相關(guān)濾波類方法和深度學(xué)習(xí)類方法, 這兩個方向的算法是當前跟蹤算法中的研究熱點. Bolme 等人開創(chuàng)性地將相關(guān)濾波技術(shù)引入到目標跟蹤領(lǐng)域, 提出了一種誤差平方和最小的濾波器MOSSE跟蹤算法[2], 不同于只是簡單使用模板跟蹤的算法, 其濾波器是通過首幀的目標訓(xùn)練而得的, 遮擋時能夠根據(jù)跟蹤是否失敗來決定是否更新濾波器參數(shù), 以自適應(yīng)于目標的變化. KCF 算法[3]是通過基于核化的嶺回歸分類器使用循環(huán)移位得到的循環(huán)矩陣來采集樣本,利用循環(huán)矩陣的性質(zhì)降低運算量以提高算法實時性.C-COT 算法[4]將不同空間分辨率的特征圖插值到連續(xù)空間域, 將多尺度與深層語義信息結(jié)合起來, 可以更好地應(yīng)對尺度變化時的模型漂移.

近年來, 隨著深度學(xué)習(xí)在目標檢測、實例分割等多方面研究中取得了令人矚目的成果, 基于深度學(xué)習(xí)的目標跟蹤研究也越來越多. 現(xiàn)有的針對目標檢測、實例分割等預(yù)訓(xùn)練的網(wǎng)絡(luò)需要區(qū)分出較多類的目標,但在跟蹤問題中, 網(wǎng)絡(luò)只需要區(qū)分前景和背景兩類目標, 太復(fù)雜的網(wǎng)絡(luò)會增加計算量, 降低算法的實時性.卷積神經(jīng)網(wǎng)絡(luò)(CNN)憑借其對特征強大的表示能力和高效的提取方式, 逐漸應(yīng)用于計算機視覺領(lǐng)域. 在目標跟蹤任務(wù)中, 出現(xiàn)了眾多基于CNN 的深度學(xué)習(xí)算法,其致力于對目標表征能力的強化, 例如樹結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(TCNN)[5]用了樹結(jié)構(gòu)來組織多個CNN 構(gòu)成網(wǎng)絡(luò), 模型按照樹結(jié)構(gòu)中的路徑進行在線更新, 提高了模型可靠性; 結(jié)構(gòu)感知網(wǎng)絡(luò)(SANet)[6]將CNN 與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)融合, CNN 用來提供目標物體和背景之間的判別性, RNN 用來提供目標物體與相似物之間的判別性, 以此增強模型對相似目標的分辨能力; 全卷積孿生網(wǎng)絡(luò)(SiamNet)[7]利用相同的兩個CNN 進行相似度的比較, 成功地將跟蹤問題轉(zhuǎn)換為相似度學(xué)習(xí)問題;對抗學(xué)習(xí)跟蹤算法(VITAL)[8]用到了生成對抗網(wǎng)絡(luò)(GAN)算法[9]的思想, 在CNN 的基礎(chǔ)上引入了對抗特征生成器, 有效提高了網(wǎng)絡(luò)性能, 成功將GAN 應(yīng)用到目標跟蹤領(lǐng)域.

基于遷移學(xué)習(xí)[10]思想的多域卷積神經(jīng)網(wǎng)絡(luò)(MDNet)[11]是CNN 應(yīng)用于深度目標跟蹤最具有代表性的算法之一. MDNet 算法通過多域?qū)W習(xí)的網(wǎng)絡(luò)結(jié)構(gòu), 利用網(wǎng)絡(luò)的卷積層學(xué)習(xí)不同視頻中的通用特征, 利用多分支全連接層分別學(xué)習(xí)不同視頻的高層特征, 候選框的選取部分借鑒了RCNN[12], 具有很高的跟蹤準確率. 但一般來說, 跟蹤模型會隨著目標的變化而穩(wěn)定變化, 當目標出現(xiàn)一些復(fù)雜情況時, 模型更新會使得模型的可靠性降低, 用這樣的模型去進行后續(xù)的跟蹤, 很難重新準確定位目標; 跟蹤問題中, 每幀的正樣本在空間上高度重疊,不能捕獲豐富的外觀變化, 并且正樣本和負樣本極度不平衡. 本文在MDNet 算法基礎(chǔ)上提出了一種基于候選框置信度與坐標方差閾值判斷相結(jié)合的模型更新方法, 使其正樣本在正確的基礎(chǔ)上更加豐富, 其次將原算法的交叉熵損失函數(shù)改進為效果更好的focal loss 損失函數(shù). Focal loss 最初由Lin 等人[13]提出, 是一種改進的交叉熵損失函數(shù), 用于解決目標檢測領(lǐng)域數(shù)據(jù)極不平衡的問題, 并且在同一論文中成功應(yīng)用于RetinaNet算法中, 后來逐漸被應(yīng)用于語義分割、目標跟蹤等任務(wù)中.

1 MDNet 算法原理及損失函數(shù)

1.1 MDNet 算法原理

如圖1 所示, MDNet 算法使用多域?qū)W習(xí)的網(wǎng)絡(luò)結(jié)構(gòu), 輸入是107×107 的RGB 圖像, conv1-conv3 卷積層和fc4、fc5 全連接層構(gòu)成網(wǎng)絡(luò)共享層, fc61-fc6k全連接層為特定域?qū)? 每個視頻序列都對應(yīng)一個域. 訓(xùn)練時,用不同的視頻序列訓(xùn)練得到網(wǎng)絡(luò)共享層, 追蹤一個新目標時, 網(wǎng)絡(luò)結(jié)合共享層和特定域?qū)? 只有對應(yīng)該視頻序列的特定域?qū)颖皇褂?

圖1 MDNet 網(wǎng)絡(luò)結(jié)構(gòu)

MDNet 采用隨機梯度(SGD)的方式進行端到端的離線預(yù)訓(xùn)練. 在離線訓(xùn)練過程中, 每幀提取50 個正樣本和200 個負樣本, 正樣本與目標框的重疊率≥0.7,負樣本與目標框的重疊率≤0.5. 每一幀圖片, 以上一幀目標的位置為中心, 采用多維高斯分布(寬、高和尺度3 個維度) 的形式采樣256 個候選框, 然后將這256 個候選框輸入到網(wǎng)絡(luò)里進行計算. 網(wǎng)絡(luò)輸出是一個二維向量, 分別表示輸入的候選框是對應(yīng)目標和背景的概率. 目標得分概率最高的那個候選框即確定為最終跟蹤到的目標. 計算如式(1)所示.

MDNet 網(wǎng)絡(luò)使用長期和短期兩種方式更新. 在線跟蹤時, 當前幀判斷跟蹤成功, 且預(yù)測邊界框與真實邊界框重疊率不小于0.7 時, 在目標框周圍按照隨機高斯分布選取50 個正樣本和200 個負樣本, 提取的負樣本與目標框的重疊率不大于0.3. 視頻序列的第一幀中提取500 個正樣本和5 000 個負樣本. 在邊界框回歸中,隨機提取1 000 個重疊率≥0.6 的正樣本. 當預(yù)測目標的分數(shù)小于0.5 時, 用最近20 幀所收集到的樣本進行短期更新, 每隔10 幀用最近100 幀收集到的樣本進行一次長期更新.

1.2 MDNet 算法的損失函數(shù)

MDNet 算法中使用了交叉熵損失函數(shù), 函數(shù)公式如式(2):

2 改進MDNet 的視頻目標跟蹤算法

本文基于MDNet 算法提出了一種基于候選框置信度與坐標方差閾值判斷相結(jié)合的模型更新方法, 并將原算法的交叉熵損失函數(shù)改進為效果更好的focal loss 損失函數(shù).

2.1 基于候選框置信度與坐標方差閾值判斷相結(jié)合的模型更新方法

不同于MDNet 算法每幀無差別地在目標框周圍提取50 個正樣本和200 個負樣本進行特征集合的更新, 本文算法為了豐富正樣本, 采取基于候選框置信度的方法選取正負樣本, 根據(jù)候選框置信度(即候選框預(yù)測得分)排列的top5, 按照隨機高斯分布在5 個候選框周邊都分別選取10 個正樣本和40 個負樣本放入用于更新的特征集合中.

MDNet 算法中, 只要當前幀預(yù)測得分top5 候選框的得分均值為正, 則認為跟蹤成功, 對每個跟蹤成功的當前幀目標框周圍都選取符合條件的樣本進行特征樣本集合的更新. 本文算法在判斷是否進行模型更新時,考慮到用當前幀所取樣本進行更新可能會使模型可靠性降低從而導(dǎo)致后續(xù)跟蹤性能下降的問題, 設(shè)置中心點坐標方差閾值:

2.2 focal loss 損失函數(shù)

跟蹤檢測中, 一張?zhí)卣鲌D往往會產(chǎn)生成千上萬的候選區(qū), 但絕大多數(shù)像素都是背景, 只有少數(shù)像素是我們要檢測跟蹤的對象, 而且正樣本的位置比較集中, 第一幀取得的都是在標記的目標附近, 位置比較相近且數(shù)量較少, 負樣本取自于圖片中比較分散且數(shù)量較多,負樣本的數(shù)量遠遠多于正樣本的數(shù)量, 正負樣本極其不均衡. 交叉熵損失函數(shù)在訓(xùn)練過程中會傾向于樣本多的類別, 導(dǎo)致對樣本量少的類別判斷性能較差, 針對此問題引入focal loss 損失函數(shù):

其中, α為引入的權(quán)重因子, 范圍為[0, 1], γ≥0 為可調(diào)節(jié)因子,y代表樣本的標簽, 1 為正樣本, 0 為負樣本,pi為判定樣本為正樣本的概率,pt越大, 分類的置信度越高, 樣本越容易分類,pt越小, 分類的置信度越低, 代表樣本越難分. 因此focal loss 相當于增加了難分樣本在損失函數(shù)中的權(quán)重, 使得損失函數(shù)傾向于難分的樣本, 提高了難分樣本的準確度, 因此適用于樣本不平衡的情況.

3 實驗分析

3.1 實驗平臺及數(shù)據(jù)集

本文算法基于PyTorch 深度學(xué)習(xí)框架實現(xiàn), 實驗操作系統(tǒng)為 Windows, CPU 為Intel i7-7700 3.60 GHz,GPU 為NVIDIA GeForce GTX 1050 Ti.

數(shù)據(jù)集使用OTB100[14]和自己采集的監(jiān)控視頻數(shù)據(jù)集的混合數(shù)據(jù)集, 其中包括OTB100 中80 個完全標注的視頻序列和20 個完全標注的監(jiān)控視頻數(shù)據(jù), 其中涉及背景干擾、光照變化、遮擋、形變、尺度變化、快速運動、運動模糊、移出視野、低分辨率、平面內(nèi)旋轉(zhuǎn)和外旋轉(zhuǎn)11 種視頻屬性.

3.2 評價指標

3.2.1 成功率(Success)

3.3 實驗結(jié)果與分析

本實驗包括4 部分: 基于候選框置信度的更新策略對比實驗、坐標方差閾值實驗、損失函數(shù)對比實驗、本文算法評估實驗.

3.3.1 基于候選框置信度的更新策略對比實驗

本實驗針對本文提出的基于候選框置信度的更新策略中候選框的選擇數(shù)量及分配方法進行了實驗, 分配方法設(shè)置正負樣本均分和由多到少分布的兩類實驗.選擇正負樣本的總數(shù)量是參考MDNet 實驗中正負樣本分別取50、200 個, 在此基礎(chǔ)上多次實驗, 最終確定了4 個策略的樣本取值. 策略1-4 分別為: (1)得分前5 的候選框?qū)γ總€框周邊都取20 個正樣本、80 個負樣本; (2)得分前5 的候選框依次對每個框周邊取30、25、20、15、10 個正樣本和120、100、80、60、40 個負樣本; (3) 得分前5 的候選框依次對每個框周邊取15、13、10、7、5 個正樣本和60、50、40、30、20 個負樣本; (4) 得分前5 的候選框?qū)γ總€框周邊都取10 個正樣本、40 個負樣本.

實驗結(jié)果如表1 所示, 可以看出, 策略1 所取樣本是策略4 所取樣本數(shù)的兩倍, 精確率比策略4 要低2.46%, 但是成功率只提升了0.07%不明顯, 分析原因可能是, 雖然對得分前5 的候選框周邊取樣本可以增加樣本的豐富性, 但取的樣本數(shù)量過多會影響精確度,進而對成功率的提升也有影響, 此結(jié)果也側(cè)面證明了策略4 所取樣本數(shù)量已足夠, 樣本數(shù)量過多反而影響結(jié)果; 而策略2 和策略3 成功率和準確率均不如策略4, 效果不夠好的原因可能是, 得分越高的候選框取的樣本數(shù)越多、得分越低的候選框取的樣本數(shù)越少, 對模型更新影響最大的還是得分最高的候選框, 得分第5 的候選框?qū)φ麄€模型的影響非常小, 因此提升效果不明顯. 但策略1、4 在精確率和成功率均優(yōu)于原算法,因此本實驗可以充分證明基于候選框置信度的更新策略的有效性.

表1 更新策略對比實驗的測試結(jié)果

3.3.2 坐標方差閾值實驗

圖2 是對數(shù)據(jù)集一個視頻序列中當前幀預(yù)測得分top5 候選框的位置數(shù)據(jù)的方差, 圖2(a)-圖2(f)依次是對候選框左上角坐標x1、y1、候選框?qū)挾葁、候選框高度h、候選框中心點坐標x2、y2六個數(shù)據(jù)計算的方差結(jié)果. 可以看出, top5 候選框左上角和中心點橫坐標x1、x2、縱坐標y1、y2方差最高分別可達600、2 000 像素點, 波動較大, 隨著視頻序列的變化, 5 個候選框的位置離散程度出現(xiàn)較大波動; 而top5 候選框?qū)挾?ω的方差最高僅25 個像素點左右, 各幀之間無較大波動; 候選框高度h的方差最高為250, 遠小于x1、x2、y1、y2坐標方差波動程度.

圖2 坐標方差

表2 為選擇方差變化明顯的中心點坐標方差, 設(shè)定不同的方差閾值進行實驗得到的結(jié)果, 可以看出, 加入方差閾值判斷后, 在精確率與成功率上均有不同程度的提高, 其中方差閾值取前5 幀方差均值的1.2 倍時取得最好的結(jié)果, 精確率相比于原算法提高了2.18%,成功率上提高了0.93%. 實驗充分證明了坐標方差閾值判斷方法的有效性.

表2 不同坐標方差閾值實驗結(jié)果

3.3.3 損失函數(shù)對比實驗

本實驗為更改損失函數(shù)為focal loss 函數(shù)后在數(shù)據(jù)集上的測試結(jié)果與更改損失函數(shù)之前的測試結(jié)果對比,實驗中唯一變量為損失函數(shù), MDNet-FL 算法為MDNet算法更改交叉熵損失函數(shù)為focal loss 損失函數(shù)后的算法.

實驗結(jié)果如表3 所示, 可以看出, MDNet-FL 比起原算法在精確率和成功率上均有提高. 但精確率提高了0.83 個百分點的同時, 成功率僅提高了0.20 個百分點. 分析原因, focal loss 的原理是通過控制不同類別對損失函數(shù)的貢獻來調(diào)節(jié)類間的不平衡, 更強調(diào)錯分樣本, 完全丟棄易分的樣本, 降低了簡單負樣本在訓(xùn)練中所占的權(quán)重. 訓(xùn)練中實際值與預(yù)測值差距越大, 對損失的貢獻就越大, 訓(xùn)練趨于穩(wěn)定后, 對損失函數(shù)貢獻最明顯的是困難樣本和標簽不明確兩部分. 因此, 實驗效果很大程度上取決于數(shù)據(jù)集的特點. 本文實驗中, 設(shè)置正樣本與目標框的重疊率大于0.7, 負樣本與目標框的重疊率小于0.5, 因此會出現(xiàn)雖然預(yù)測到了真實目標但是為非正樣本的情況, 這時候引入focal loss, 雖然一定程度上解決了正負樣本不平衡的問題, 但是標簽不明確的樣本權(quán)重被增大, 影響網(wǎng)絡(luò)訓(xùn)練過程, 進而導(dǎo)致效果提升不夠明顯.

表3 損失函數(shù)對比實驗

3.3.4 本文算法評估

本文算法是在MDNet 算法基礎(chǔ)上采用了基于候選框置信度與坐標方差閾值判斷相結(jié)合的更新方法,引入了focal loss 損失函數(shù).

本實驗采用OPE (one-pass evaluation)評估方法,圖3 為本文算法與MDNet 算法在數(shù)據(jù)集上的評估結(jié)果: 準確率結(jié)果圖中橫坐標的閾值為預(yù)測邊界框與真實邊界框中心點誤差距離的像素點數(shù), 設(shè)置為20 個像素點; 成功率結(jié)果圖中橫坐標的閾值為預(yù)測邊界框與真實邊界框重疊率, 跟蹤問題中, 一般認為目標框與真實框重疊率大于0.5 即為跟蹤成功, 且本文為了對比實驗效果, 將實驗成功率閾值與MDNet 中的實驗統(tǒng)一設(shè)置為0.5. 可以看出, 本文算法在精確率上取得了90.87%的優(yōu)異表現(xiàn), 成功率上取得了68.32%的結(jié)果, 相較于MDNet 算法在精確率上提高了2.80 個百分點, 在成功率上提高了1.42 個百分點.

圖3 混合數(shù)據(jù)集上的測試結(jié)果

在OTB100 基準數(shù)據(jù)集上對本文算法和MDNet算法進行了評估對比, 圖4 為實驗結(jié)果, 可以看出, 相比于原算法, 本文算法在精確率上提高了0.29 個百分點, 成功率上提高了0.23 個百分點.

圖4 OTB100 數(shù)據(jù)集上的測試結(jié)果

圖5 展示了本文算法在幾個視頻序列中與MDNet算法測試結(jié)果的效果對比, 本文算法為紅色框, MDNet算法為綠色框. 可以直觀看出, 無論在OTB100 視頻序列中還是在監(jiān)控視頻序列中, 本文算法目標框更準確,而且在部分MDNet 算法跟蹤失敗的視頻幀中本文算法跟蹤成功.

圖5 部分視頻序列測試效果

表4 列出了本文算法與MDNet 算法在部分視頻序列測試結(jié)果成功幀數(shù)的對比. 跟蹤閾值設(shè)置為0.5,即當前幀的預(yù)測邊界框與目標真實邊界框重疊率大于0.5 視為當前幀跟蹤成功. 其中S為視頻序列的總幀數(shù),M為MDNet 算法跟蹤成功的幀數(shù),N為本文算法跟蹤成功的幀數(shù). 其中, Bolt 視頻序列中效果最為明顯, 跟蹤成功率提高了8.60%.

表4 數(shù)據(jù)集部分視頻在本文算法的測試結(jié)果

4 結(jié)論與展望

本文在MDNet 算法基礎(chǔ)上提出了一種基于候選框置信度與坐標方差閾值判斷相結(jié)合的更新方法, 引入了focal loss 損失函數(shù), 有效豐富了正樣本, 提升了模型的性能, 并在實驗中驗證了模型的有效性, 對跟蹤領(lǐng)域中正樣本缺乏且不夠豐富的問題有一定借鑒意義.近年來, 雖然目標跟蹤領(lǐng)域有大量研究取得了較好的效果, 但相比于計算機視覺其他領(lǐng)域, 當前基于深度學(xué)習(xí)的目標跟蹤算法[15-17]仍面臨著諸多挑戰(zhàn), 其中最關(guān)鍵的是缺乏大量準確的訓(xùn)練數(shù)據(jù), 因此, 針對不同應(yīng)用場景做出大量的公開數(shù)據(jù)也是推動基于深度學(xué)習(xí)的目標跟蹤發(fā)展的重要途徑.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡