黃智慧, 趙慧民, 詹 瑾*, 利華康, 鄭鵬根, 2, 鄭偉俊, 李偉鍵, 黃科喬
(1.廣東技術(shù)師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 廣州 510630; 2.中山大學(xué)電子與通信工程學(xué)院, 廣州 510275)
目標(biāo)跟蹤是視頻分析和理解視頻語(yǔ)義的前提和基礎(chǔ), 是計(jì)算機(jī)視覺(jué)研究的一個(gè)重要分支,在人機(jī)交互、智能視頻監(jiān)控、自動(dòng)駕駛、醫(yī)學(xué)診斷等領(lǐng)域應(yīng)用非常廣泛.但視頻場(chǎng)景存在遮擋、光線變化、快速運(yùn)動(dòng)和尺度變化等復(fù)雜的非線性變化,給視頻目標(biāo)跟蹤研究帶來(lái)巨大挑戰(zhàn).大數(shù)據(jù)時(shí)代的到來(lái)及深度學(xué)習(xí)方法的出現(xiàn), 為目標(biāo)跟蹤的進(jìn)一步研究提供了新的契機(jī)[1].為優(yōu)化跟蹤算法的準(zhǔn)確度和穩(wěn)定性,研究者不斷完善基于深度網(wǎng)絡(luò)的目標(biāo)跟蹤算法[2-3].Wang等[4]提出了一種DLT方法,首次采用離線預(yù)訓(xùn)練與在線微調(diào)相結(jié)合的思路,對(duì)大規(guī)模自然圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,獲得深度目標(biāo)跟蹤模型參數(shù); Nam等[5]基于CNN網(wǎng)絡(luò)提出了MDNet多領(lǐng)域?qū)W習(xí)框架,通過(guò)共享層和特定域多分支層組成網(wǎng)絡(luò)模型,同時(shí)采用硬負(fù)樣本挖掘法獲得有效負(fù)樣本,提高分類器的判別能力; Tao等[6]將孿生網(wǎng)絡(luò)(Siamese network)引入到跟蹤算法,通過(guò)訓(xùn)練通用匹配函數(shù)獲得跟蹤模型,取得良好的實(shí)驗(yàn)效果,由此引起了廣泛關(guān)注; Bertinetto等[7]提出了SiamFC跟蹤方法, 使用模板幀在搜索圖像上作全卷積匹配,取得了較好的跟蹤實(shí)時(shí)性和準(zhǔn)確性,但對(duì)相似物體干擾的識(shí)別能力較差,容易產(chǎn)生目標(biāo)定位誤差.為了提高定位回歸精度, Li等[8]提出了SiamRPN方法, 將Siamese網(wǎng)絡(luò)與區(qū)域建議網(wǎng)絡(luò)[9](region proposal network, RPN)結(jié)合,完成特征提取并快速生成候選目標(biāo),通過(guò)分類分支和定位回歸分支確定最佳跟蹤目標(biāo)位置,取得了較好的跟蹤目標(biāo)位置的準(zhǔn)確性.
在基于Siamese網(wǎng)絡(luò)的深度跟蹤算法中, 損失函數(shù)對(duì)于設(shè)計(jì)魯棒且精確的跟蹤器十分重要,可衡量訓(xùn)練模型的性能好壞.近年來(lái),損失度量的優(yōu)化得到越來(lái)越多的關(guān)注, 研究者相繼提出一系列損失模型.Song等[10]針對(duì)正負(fù)樣本分布不平衡問(wèn)題提出VITAL算法, 采用高階代價(jià)敏感損失函數(shù)降低了易負(fù)樣本的影響, 提高了跟蹤模型的魯棒性; Yu等[11]引入交并比(intersection over union, IOU)損失函數(shù), 考慮目標(biāo)框和預(yù)測(cè)框的重疊面積, 將邊框四個(gè)點(diǎn)作為整體進(jìn)行回歸,提高了回歸收斂速度, 但無(wú)法應(yīng)對(duì)邊界框不相交時(shí)模型訓(xùn)練失敗問(wèn)題; Rezatofighi等[12]提出了廣義交并比(generation intersection over union, GIOU)損失函數(shù), 在IOU基礎(chǔ)上增加了目標(biāo)框和預(yù)測(cè)框的外接矩形, 具有尺度不變性, 提高了回歸精度, 但當(dāng)目標(biāo)框完全包裹預(yù)測(cè)框時(shí), GIOU退化為IOU; Zheng等[13]提出了距離交并比(distance intersection over union, DIOU)損失函數(shù), 考慮了回歸損失的重疊面積與中心點(diǎn)歸一化距離, 訓(xùn)練過(guò)程模型收斂速度快且不易發(fā)散,更好地優(yōu)化回歸問(wèn)題.
本文以SiamRPN網(wǎng)絡(luò)框架為基礎(chǔ), 主要分為2個(gè)模塊: 一個(gè)是Siamese網(wǎng)絡(luò), 完成輸入模板幀與檢測(cè)幀的特征提取,其骨干網(wǎng)絡(luò)采用Resnet50網(wǎng)絡(luò),搭建訓(xùn)練框架; 另一個(gè)是區(qū)域建議網(wǎng)絡(luò), 根據(jù)特征向量獲得預(yù)測(cè)目標(biāo)候選區(qū)域,減少區(qū)域提取的時(shí)間開銷.RPN網(wǎng)絡(luò)包含分類分支與回歸分支,其中分類分支用于識(shí)別正負(fù)樣本,回歸分支則負(fù)責(zé)預(yù)測(cè)候選目標(biāo)坐標(biāo)偏移量.具體網(wǎng)絡(luò)框架如圖1所示.
圖1 網(wǎng)絡(luò)框架圖Fig.1 Method network framework
損失函數(shù)是模型優(yōu)化最關(guān)鍵一步, 反映預(yù)測(cè)模型與實(shí)際數(shù)據(jù)之間的差異, 從而衡量訓(xùn)練模型性能.本文利用交叉熵?fù)p失函數(shù)完成分類任務(wù),回歸定位采用DIOU度量對(duì)預(yù)測(cè)框和真實(shí)框的中心點(diǎn)距離進(jìn)行回歸計(jì)算,輸出精確位置信息.
圖2 真實(shí)框與預(yù)測(cè)框示意圖Fig.2 Schematic diagram of target box and predicted box
基于DIOU[13]的距離度量損失函數(shù)具有尺度不變性, 既考慮了任意預(yù)測(cè)框和真實(shí)目標(biāo)框的最小封閉框, 又優(yōu)化了兩者中心點(diǎn)歸一化距離,使目標(biāo)框包裹預(yù)測(cè)框時(shí)收斂速度更快.LDIOU的范圍為0≤LDIOU<2, 當(dāng)Bg和Bp完全重疊時(shí),LDIOU=0, 此時(shí)預(yù)測(cè)框與真實(shí)框一致; 當(dāng)兩個(gè)邊界框距離較遠(yuǎn)時(shí),ρ2/c2趨向于1, 表明LDIOU逐漸收斂到最大值2.
本文采用ILSVRC-VID數(shù)據(jù)集訓(xùn)練算法模型, 對(duì)OTB2015數(shù)據(jù)集進(jìn)行測(cè)試.訓(xùn)練過(guò)程中, 學(xué)習(xí)率初設(shè)為5×10-3, anchor個(gè)數(shù)為5, 由于跟蹤過(guò)程目標(biāo)形變差異不明顯, anchor尺度恒定不變, anchor ratios設(shè)置為(0.33, 0.5, 1, 2, 3), 共執(zhí)行20次階段訓(xùn)練.實(shí)驗(yàn)環(huán)境為單個(gè)GPU, 內(nèi)存為8 GB, 顯卡為Nvidia GTX 1080Ti, 整個(gè)訓(xùn)練過(guò)程大約40 h.
訓(xùn)練數(shù)據(jù)包含光照變化、尺度大小和低分辨率等不同場(chǎng)景的視頻序列,以及跟蹤目標(biāo)的邊框位置信息.對(duì)每個(gè)視頻序列進(jìn)行訓(xùn)練, 首先, 將第一幀作為模板與后序檢測(cè)幀構(gòu)成多組樣本對(duì); 其次, 分別輸入模板分支和搜索分支進(jìn)行相關(guān)處理,模板分支利用卷積操作調(diào)整輸入圖像塊大小為127×127,搜索分支的圖像塊統(tǒng)一尺度為255×255; 最后, 根據(jù)DIOU loss損失度量計(jì)算結(jié)果分類,當(dāng)檢測(cè)樣本DIOU大于0.6時(shí)判定為正樣本, DIOU不超過(guò)0.3時(shí)為負(fù)樣本.
表1 采用4種損失函數(shù)進(jìn)行跟蹤的平均中心誤差
圖3 采用4種損失函數(shù)進(jìn)行跟蹤的平均精度和平均成功率曲線Fig.3 Average accuracy and success rate of tracking using four loss functions
圖4 不同視頻場(chǎng)景下采用4種損失函數(shù)進(jìn)行跟蹤的成功率曲線圖Fig.4 Success rate curve of tracking with four loss functions under different video scenes
邊框顏色: 紅色表示DIOU算法, 黃色表示1-smooth算法, 綠色表示GIOU算法, 藍(lán)色表示IOU算法. 圖5 采用4種損失函數(shù)進(jìn)行跟蹤的效果對(duì)比圖Fig.5 The effect contrast diagram of tracking with four loss functions
本文基于孿生網(wǎng)絡(luò)和RPN網(wǎng)絡(luò)框架,提出了一種基于距離交并比回歸的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法, 將距離交并比度量方法引入孿生網(wǎng)絡(luò)的回歸分支中,把目標(biāo)框和預(yù)測(cè)框的重疊面積與中心點(diǎn)距離作為整體進(jìn)行回歸,為邊界框提供更加直接的回歸方向,加快了模型收斂速度,解決了目標(biāo)檢測(cè)框與真實(shí)框非重疊情況下不能優(yōu)化的問(wèn)題,提高了跟蹤器在多種視頻場(chǎng)景下的魯棒性.實(shí)驗(yàn)結(jié)果表明,采用DIOU作為回歸損失的SiamRPN跟蹤方法在目標(biāo)尺度變化、低分辨率、光照變化及快速運(yùn)動(dòng)等干擾下能夠較好地完成目標(biāo)跟蹤任務(wù),實(shí)現(xiàn)實(shí)時(shí)跟蹤.