管皓 薛向陽 安志勇
?
深度學(xué)習(xí)在視頻目標(biāo)跟蹤中的應(yīng)用進(jìn)展與展望
管皓1薛向陽1安志勇1
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺的重要研究課題,在視頻監(jiān)控、機(jī)器人、人機(jī)交互等方面具有廣泛應(yīng)用.大數(shù)據(jù)時(shí)代的到來及深度學(xué)習(xí)方法的出現(xiàn),為視頻目標(biāo)跟蹤的研究提供了新的契機(jī).本文首先闡述了視頻目標(biāo)跟蹤的基本研究框架.對(duì)新時(shí)期視頻目標(biāo)跟蹤研究的特點(diǎn)與趨勢(shì)進(jìn)行了分析,介紹了國際上新興的數(shù)據(jù)平臺(tái)、評(píng)測(cè)方法.重點(diǎn)介紹了目前發(fā)展迅猛的深度學(xué)習(xí)方法,包括堆疊自編碼器、卷積神經(jīng)網(wǎng)絡(luò)等在視頻目標(biāo)跟蹤中的最新具體應(yīng)用情況并進(jìn)行了深入分析與總結(jié).最后對(duì)深度學(xué)習(xí)方法在視頻目標(biāo)跟蹤中的未來應(yīng)用與發(fā)展方向進(jìn)行了展望.
目標(biāo)跟蹤,視頻分析,在線學(xué)習(xí),深度學(xué)習(xí),大數(shù)據(jù)
引用格式管皓,薛向陽,安志勇.深度學(xué)習(xí)在視頻目標(biāo)跟蹤中的應(yīng)用進(jìn)展與展望.自動(dòng)化學(xué)報(bào),2016,42(6):834-847
視頻目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的重要研究課題,其主要任務(wù)是獲取視頻序列中感興趣的目標(biāo)的位置與運(yùn)動(dòng)信息,為進(jìn)一步的語義層分析(動(dòng)作識(shí)別、場(chǎng)景識(shí)別等)提供基礎(chǔ).其定義是:給定視頻序列初始幀中目標(biāo)的位置框(一般為矩形框),在接下來的視頻序列中自動(dòng)給出該目標(biāo)的位置框或者在目標(biāo)離開視域時(shí)給出提示.視頻目標(biāo)跟蹤研究在智能視頻監(jiān)控、人機(jī)交互、機(jī)器人等領(lǐng)域有廣泛應(yīng)用,具有很強(qiáng)的實(shí)用價(jià)值.視頻目標(biāo)跟蹤同視頻目標(biāo)檢測(cè)、視頻分類(識(shí)別)一樣,都是視頻內(nèi)容分析的重要方面.在一個(gè)實(shí)用的計(jì)算機(jī)視覺系統(tǒng)中,跟蹤的初始狀態(tài)由檢測(cè)結(jié)果所提供,同時(shí)其所給出的運(yùn)動(dòng)信息為語義層的分類(識(shí)別)等任務(wù)所使用.因此,視頻目標(biāo)跟蹤是處于視頻內(nèi)容分析研究的中間層次模塊.
視頻目標(biāo)跟蹤研究有較多分支,內(nèi)容十分豐富.按照跟蹤目標(biāo)是否已知,可分為特定目標(biāo)跟蹤與非特定目標(biāo)跟蹤.特定目標(biāo)的跟蹤可以利用先驗(yàn)知識(shí)對(duì)目標(biāo)外觀進(jìn)行建模,典型代表有手的跟蹤、人眼跟蹤、頭或臉部跟蹤等,其中手的跟蹤在人機(jī)交互方面有重要應(yīng)用,是未來非接觸式交互工具的基礎(chǔ).非特定目標(biāo)跟蹤對(duì)目標(biāo)無任何先驗(yàn)知識(shí),只能利用第一幀所給出的標(biāo)注信息,因其較高的難度一直以來都是跟蹤研究的重點(diǎn).按照跟蹤目標(biāo)的數(shù)量,可分為單目標(biāo)跟蹤和多目標(biāo)跟蹤.單目標(biāo)跟蹤是最早、最基礎(chǔ)也是目前研究最多的分支.多目標(biāo)跟蹤研究隨著近年來數(shù)據(jù)關(guān)聯(lián)等方法的出現(xiàn)也日益增多并發(fā)展較快.按照獲取目標(biāo)數(shù)據(jù)的攝像頭的特點(diǎn),可以分為單攝像頭跟蹤、多攝像頭跟蹤和跨攝像頭跟蹤(也稱為重識(shí)別).單攝像頭跟蹤最為基礎(chǔ),其特點(diǎn)是無法獲取目標(biāo)的深度信息.多攝像頭跟蹤可以捕獲目標(biāo)多個(gè)視角的圖像,從而獲取深度信息,但圖像融合難度較大.跨攝像頭跟蹤是近年來跟蹤領(lǐng)域里面新興的研究課題,旨在彌補(bǔ)目前固定攝像頭的視域局限,在目前的安防領(lǐng)域中具有重要的實(shí)用價(jià)值.
此外,還有剛體跟蹤與非剛體跟蹤、離線跟蹤與在線跟蹤、RGBD跟蹤、紅外小目標(biāo)跟蹤等研究分支.限于篇幅,本文不再一一列舉.本文主要以單攝像頭下的單目標(biāo)跟蹤進(jìn)行說明,該部分研究的歷史較長(zhǎng),成果最為豐富,是目前視頻目標(biāo)跟蹤的主流內(nèi)容,最能體現(xiàn)跟蹤的本質(zhì)特點(diǎn),而其他分支的內(nèi)容則多與圖形學(xué)、圖像識(shí)別以及具體領(lǐng)域知識(shí)等有所交叉融合.
將視頻中目標(biāo)的運(yùn)動(dòng)信息進(jìn)行提取一直以來都是多媒體內(nèi)容分析研究中的重要方面,因此視頻目標(biāo)跟蹤是一個(gè)研究歷史并不短的課題.許多經(jīng)典的視頻目標(biāo)跟蹤算法如均值漂移(Mean shift)已經(jīng)作為標(biāo)準(zhǔn)模塊集成到影響較大的計(jì)算機(jī)視覺開發(fā)庫如OpenCV等當(dāng)中.雖然其發(fā)展一直較為緩慢,但是隨著目前大數(shù)據(jù)時(shí)代的到來,在新時(shí)期下視頻目標(biāo)跟蹤研究取得了突飛猛進(jìn)式的發(fā)展并呈現(xiàn)出許多新的特點(diǎn).這主要得益于機(jī)器學(xué)習(xí)理論和技術(shù)的發(fā)展以及較大規(guī)模跟蹤數(shù)據(jù)集和評(píng)測(cè)平臺(tái)的建設(shè).尤其值得重視的是,目前機(jī)器學(xué)習(xí)的前沿領(lǐng)域,在多媒體識(shí)別領(lǐng)域中取得了巨大成功的深度學(xué)習(xí)方法也開始在視頻目標(biāo)跟蹤研究中得以應(yīng)用并取得了良好效果.本文在介紹視頻目標(biāo)跟蹤研究的基本框架及自身特點(diǎn)的基礎(chǔ)上,重點(diǎn)介紹深度學(xué)習(xí)方法在視頻目標(biāo)跟蹤研究中的最新應(yīng)用情況.通過結(jié)合視頻目標(biāo)跟蹤自身的特點(diǎn),對(duì)具體應(yīng)用深度學(xué)習(xí)時(shí)存在的困難與挑戰(zhàn)進(jìn)行了分析和探討.最后對(duì)其未來發(fā)展進(jìn)行分析和展望.
一般性視頻目標(biāo)跟蹤系統(tǒng)的運(yùn)行流程及框架如圖1所示.
圖1 視頻目標(biāo)跟蹤系統(tǒng)框架Fig.1 The framework of video object tracking
從整體上分為輸入視頻、運(yùn)動(dòng)模型、特征提取、外觀模型、位置確定、模型更新等幾個(gè)步驟.初始化由視頻序列中的第一幀給定,一般由一個(gè)矩形框來標(biāo)定待跟蹤的目標(biāo).運(yùn)動(dòng)模型利用視頻序列的時(shí)空關(guān)聯(lián)性,在目標(biāo)潛在空間范圍內(nèi)進(jìn)行搜索或采樣,為后面的特征提取、外觀模型提供樣本.特征提取是對(duì)目標(biāo)外觀進(jìn)行有效編碼,從二維圖像空間映射到某一特征空間,從而為后面不同外觀模型的處理提供基礎(chǔ).外觀模型旨在對(duì)目標(biāo)外觀進(jìn)行有效建模與描述,從而將目標(biāo)以最大的區(qū)分度被跟蹤系統(tǒng)搜索到.具體跟蹤時(shí),通過計(jì)算候選樣本的相似度、可信度,得分最高的樣本被確定為最終的預(yù)測(cè)結(jié)果.
目標(biāo)在新一幀視頻中的位置最終確定以后,一般要利用新得到的數(shù)據(jù)對(duì)目標(biāo)的外觀模型進(jìn)行更新操作,這樣做的目的是適應(yīng)目標(biāo)在線運(yùn)動(dòng)過程中外觀的變化.
1.1運(yùn)動(dòng)模型
在視頻序列中對(duì)目標(biāo)的位置進(jìn)行預(yù)測(cè)時(shí),會(huì)在上一幀跟蹤框的基礎(chǔ)上,在原目標(biāo)位置周圍產(chǎn)生一定數(shù)量的候選位置.跟蹤算法就是要在這些候選位置中尋找出一個(gè)最優(yōu)解.運(yùn)動(dòng)模型在此過程中起到核心作用,即按照一定規(guī)則產(chǎn)生候選位置樣本.連續(xù)兩幀之間目標(biāo)的位置不會(huì)相距過遠(yuǎn),運(yùn)動(dòng)模型就是依據(jù)這個(gè)基本約束來以較高效率提供候選,這是與基于全圖像掃描的目標(biāo)檢測(cè)的根本不同之處.目前運(yùn)動(dòng)模型主要分為三種:
1)均值漂移(Mean shift)
均值漂移,是一種基于核密度估計(jì)的非參數(shù)估計(jì)方法.文獻(xiàn)[1]中首先將均值漂移算法應(yīng)用于跟蹤問題,此后成為經(jīng)典跟蹤方法.在跟蹤時(shí),需要設(shè)定一個(gè)目標(biāo)函數(shù)來計(jì)算目標(biāo)與候選窗口的核密度,而后利用Bhattacharyya準(zhǔn)則作為匹配條件,通過移動(dòng)均值向量來不斷優(yōu)化目標(biāo)函數(shù)從而完成目標(biāo)搜索.由于通過梯度優(yōu)化來完成搜索,因此基于均值漂移的跟蹤算法運(yùn)行速度快、實(shí)時(shí)性高.
2)滑動(dòng)窗口(Slide window)
在目標(biāo)周邊正方形或者圓形范圍內(nèi)進(jìn)行窮舉搜索的采樣策略,也稱為密集采樣.這種方式將搜索范圍內(nèi)所有可能的潛在位置都予以考慮,但是要付出較大的計(jì)算代價(jià).
3)粒子濾波(Particle filter)
粒子濾波在經(jīng)典的卡爾曼濾波的基礎(chǔ)上發(fā)展而來[2],先驗(yàn)概率密度用加權(quán)粒采樣樣本(粒子)來近似表示.每個(gè)粒子的權(quán)值表示了該樣本的重要程度.每次跟蹤結(jié)果確定后,會(huì)根據(jù)不同粒子的重要程度進(jìn)行重采樣.粒子濾波方法具有較高的計(jì)算效率,同時(shí)可以融入仿射變換信息,因此目前在一些較好的跟蹤算法中應(yīng)用較多.
1.2特征提取
特征是對(duì)目標(biāo)的抽象化表示,即從目標(biāo)原始空間映射到某一特征空間.特征提取過程就是將原始圖像數(shù)據(jù)通過轉(zhuǎn)換得到更有利于描述需求的表達(dá)方式.在多媒體內(nèi)容分析的各個(gè)領(lǐng)域,特征表達(dá)與提取都是最重要的內(nèi)容之一.對(duì)于視頻目標(biāo)跟蹤而言,好的特征應(yīng)當(dāng)具備兩個(gè)基本性質(zhì):1)具有較強(qiáng)的區(qū)分度;2)要具有較高的計(jì)算效率,以滿足跟蹤的實(shí)時(shí)性要求.
目前跟蹤算法采用的特征分為人工特征和學(xué)習(xí)特征兩類.人工特征可以分為外觀特征和運(yùn)動(dòng)特征.外觀特征是從目標(biāo)的物理直觀出發(fā),通過結(jié)合數(shù)學(xué)工具設(shè)計(jì)出來的特征.運(yùn)動(dòng)特征是針對(duì)視頻的特點(diǎn),從視頻幀之間的時(shí)間關(guān)聯(lián)性出發(fā)設(shè)計(jì)的特征,這些特征是靜態(tài)圖像中所沒有的.由機(jī)器自動(dòng)學(xué)習(xí)到的特征為學(xué)習(xí)特征.這些特征通過機(jī)器學(xué)習(xí)的方式自動(dòng)提取,無需事先知道目標(biāo)的物理性質(zhì),從而可以大大提高特征提取的效率.目前以深度學(xué)習(xí)為代表的特征學(xué)習(xí)方法已經(jīng)成為計(jì)算機(jī)領(lǐng)域的前沿和熱點(diǎn).
1.2.1人工特征
人工特征包含外觀特征和運(yùn)動(dòng)特征.目前跟蹤算法廣泛采用的外觀特征總體上可以分為四類:灰度特征、顏色特征、梯度特征和紋理特征.
灰度特征是最為簡(jiǎn)單和直觀的特征表達(dá)方式,計(jì)算效率高,可以分為原始灰度特征、灰度直方圖特征、區(qū)域灰度變化特征(Haar特征)三種表征形式.原始灰度特征就是將輸入視頻圖像轉(zhuǎn)換為灰度圖,而后將標(biāo)準(zhǔn)化處理后的灰度圖作為模板來表示目標(biāo).這種方式較簡(jiǎn)單,運(yùn)算速度快.灰度直方圖通過統(tǒng)計(jì)手段來反映目標(biāo)圖像整體或局部的灰度分布特征.Haar特征是一種反映目標(biāo)圖像中區(qū)域灰度變化的特征表示手段,于文獻(xiàn)[3]中首次提出并成功應(yīng)用于人臉檢測(cè).Haar特征由于計(jì)算效率高,同時(shí)對(duì)于邊緣、水平、垂直敏感等優(yōu)點(diǎn)被廣泛應(yīng)用到目標(biāo)檢測(cè)與跟蹤當(dāng)中.
顏色特征主要分為兩種:一種以顏色直方圖來表征[4-5];另一種則是近年來興起的具有更好表征能力的Color name特征[6].顏色特征對(duì)姿態(tài)、尺度等不敏感,用于非剛體跟蹤時(shí)具有一定優(yōu)勢(shì).但其受光照影響較大,同時(shí)易受顏色相近背景的干擾.
紋理特征通過外觀表面的微觀變化來描述目標(biāo),是對(duì)目標(biāo)外觀細(xì)節(jié)、規(guī)則程度的量化.目前跟蹤算法中常用的紋理特征是局部二值模式(Local binary pattern,LBP)[7].紋理特征可以較好地描述目標(biāo)外觀的細(xì)節(jié),但是對(duì)于紋理細(xì)節(jié)少、小尺度、遠(yuǎn)距離或者背景紋理復(fù)雜的目標(biāo)描述能力較差,此時(shí)跟蹤效果往往不理想.
梯度特征通過統(tǒng)計(jì)目標(biāo)圖像局部的梯度分布來表征外觀.文獻(xiàn)[8-9]中采用在圖像中廣泛采用的SIFT(Scale invariant feature transform)特征及其加速版本SURF(Speeded up robust features)特征來表征跟蹤目標(biāo),但實(shí)時(shí)性較差.一種更為廣泛應(yīng)用的梯度特征是HOG(Histogram of oriented gradient)特征,它于文獻(xiàn)[10]中首次被提出并成功用于行人檢測(cè).HOG特征的思想是利用分塊單元對(duì)梯度進(jìn)行統(tǒng)計(jì),能夠非常好地反映局部像素之間的關(guān)聯(lián).梯度特征對(duì)光照變化等具有不變性,性能穩(wěn)定.其主要不足是無法描述外觀精確尺寸、角度、姿態(tài)等信息.
運(yùn)動(dòng)特征旨在挖掘視頻幀之間的時(shí)空關(guān)聯(lián)性,因此有效提取運(yùn)動(dòng)特征,可在外觀特征的基礎(chǔ)上增添輔助信息,有利于提高跟蹤性能.目前跟蹤中最重要的運(yùn)動(dòng)特征提取方法是光流法.光流(Optical flow)是對(duì)局部圖像運(yùn)動(dòng)的一種近似表達(dá),主要通過計(jì)算給定視頻中局部圖像的時(shí)間與空間導(dǎo)數(shù),近似得出二維運(yùn)動(dòng)場(chǎng).兩種經(jīng)典的光流算法是LK算法[11]和HS算法[12].前者更具運(yùn)算效率優(yōu)勢(shì),在跟蹤中應(yīng)用更多.
光流法效率較高,能夠應(yīng)對(duì)攝像頭與目標(biāo)相對(duì)運(yùn)動(dòng)的情況,但其計(jì)算存在一些光強(qiáng)、位移的限定條件.目前對(duì)復(fù)雜場(chǎng)景的跟蹤較少單獨(dú)使用光流特征,而是同其他外觀特征結(jié)合在一起,最典型的例子是TLD(Tracking learning detection)算法[13-14].
1.2.2學(xué)習(xí)特征
研究者們?cè)谝恢迸?,試圖讓機(jī)器能夠自動(dòng)學(xué)習(xí)到特征.主成分分析法(Principle component analysis,PCA)可以視為最早的自動(dòng)特征提取方法.
近三年來,深度學(xué)習(xí)(Deep learning)在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域取得了突出成績(jī),成為目前最強(qiáng)有力的自動(dòng)特征提取方法.深度神經(jīng)網(wǎng)絡(luò)通過多層級(jí)的學(xué)習(xí)和映射,可以從邊緣、顏色等底層特征逐步得到高層的抽象特征.這些抽象特征維數(shù)高、區(qū)分力強(qiáng),利用簡(jiǎn)單的分類器即可實(shí)現(xiàn)高準(zhǔn)確率的分類、回歸等任務(wù).目前已經(jīng)有一些基于學(xué)習(xí)特征的跟蹤方法被提出,利用離線訓(xùn)練好的深度卷積網(wǎng)絡(luò),在跟蹤時(shí)通過截取目標(biāo)在網(wǎng)絡(luò)不同卷積層的特征來輔助實(shí)現(xiàn)目標(biāo)定位.
關(guān)于深度學(xué)習(xí)在視頻跟蹤方向的研究進(jìn)展是本文的核心內(nèi)容,將在稍后部分進(jìn)行詳細(xì)介紹.
1.3外觀模型
外觀模型是視頻目標(biāo)跟蹤研究中的重要內(nèi)容[15-16].好的外觀模型能較大提升跟蹤性能.近年來,外觀模型得到了極大發(fā)展,這主要得益于圖像處理、機(jī)器學(xué)習(xí)、目標(biāo)檢測(cè)等相關(guān)領(lǐng)域所取得的豐碩成果.目前跟蹤算法的外觀模型分為兩類:產(chǎn)生式模型和判別式模型.
1.3.1產(chǎn)生式模型
產(chǎn)生式模型是一種自頂向下的處理方法[17].首先建立目標(biāo)的外觀數(shù)據(jù)先驗(yàn)分布,而后在候選區(qū)域中搜索與先驗(yàn)?zāi)P妥顬槠ヅ?、重?gòu)誤差最小的區(qū)域作為下一幀中目標(biāo)的位置,如圖2所示.產(chǎn)生式模型總體上分為三類:基于模板的模型[18-20]、基于子空間的模型[21-22]和基于稀疏表示的模型[23[27],它通過基函數(shù)字典表示的稀疏向量來建立目標(biāo)的外觀模型.文獻(xiàn)[28]首次將稀疏表示方法引入到視頻目標(biāo)跟蹤領(lǐng)域中,其核心思想是將跟蹤轉(zhuǎn)化為求解L1范數(shù)最小化問題.
圖2 產(chǎn)生式外觀模型Fig.2 The generative appearance model
產(chǎn)生式模型著眼于對(duì)目標(biāo)外觀數(shù)據(jù)內(nèi)在分布的刻畫,具有很強(qiáng)的表征能力.其最大不足是沒有利用背景信息,在遇到遮擋等情況時(shí)容易通過錯(cuò)誤更新將噪聲混入模型中從而最終導(dǎo)致誤差和漂移.
1.3.2判別式模型(基于目標(biāo)檢測(cè)的模型)
判別式模型也稱為基于檢測(cè)的模型(Tracking by detection),是近年來逐漸興起并逐漸占據(jù)主流的方法.其直接借鑒了機(jī)器學(xué)習(xí)理論及其在目標(biāo)檢測(cè)中的成功應(yīng)用.與產(chǎn)生式模型不同,判別式模型并不對(duì)目標(biāo)外觀分布做事先的刻畫,而是將跟蹤問題等同于一個(gè)分類問題,利用一個(gè)在線分類器(目標(biāo)檢測(cè)器)將跟蹤目標(biāo)與背景分離,如圖3所示.
圖3 判別式外觀模型Fig.3 The discriminative appearance model
判別式模型充分利用了前景與背景信息,可以將兩者更好的區(qū)分,因而具有較強(qiáng)的魯棒性,這是較之于產(chǎn)生式模型的優(yōu)勢(shì)所在.但在利用樣本進(jìn)行在線學(xué)習(xí)與更新的過程中,也容易因樣本的標(biāo)注錯(cuò)誤影響分類器的性能,造成誤分類.盡管如此,各種改進(jìn)與優(yōu)化措施的出現(xiàn),使得基于判別式模型的跟蹤器顯示出越來越強(qiáng)的優(yōu)勢(shì).
判別式模型有基于支持向量機(jī)的模型[29-31]、基于Boosting的模型[32-34]、基于多示例學(xué)習(xí)的模型[35]、基于嶺回歸的模型[36[13]、基于樸素貝葉斯的模型[38]等.
1.4更新
相比于離線訓(xùn)練模型(目標(biāo)及視頻都是已知的),在線跟蹤的優(yōu)勢(shì)在于可以實(shí)時(shí)地獲取目標(biāo)外觀變化并做出在線調(diào)整,體現(xiàn)出更大的靈活性與適應(yīng)性.在線跟蹤的這種優(yōu)勢(shì)主要體現(xiàn)于在線更新環(huán)節(jié).利用第一幀給出的標(biāo)注信息以及隨后各幀的跟蹤結(jié)果,在線外觀模型可以增量式更新.對(duì)于產(chǎn)生式模型,主要是對(duì)模板或基函數(shù)的更新;對(duì)于判別式模型,主要利用新采樣的樣本來對(duì)分類器進(jìn)行增量式在線訓(xùn)練,通過不斷融入的正負(fù)樣本,使分類器能夠不斷適應(yīng)目標(biāo)與背景的變化.目前更新策略研究相對(duì)較少,主要的更新策略有:
1)每一幀都進(jìn)行更新.該方式較簡(jiǎn)單,目前應(yīng)用較多.但由于太過頻繁,增加了漂移的可能性.
2)每隔一定的幀數(shù)才更新一次.
3)當(dāng)響應(yīng)分?jǐn)?shù)(匹配或分類得分)低于一定閾值時(shí)才更新.低于閾值往往說明目標(biāo)外觀已發(fā)生較大變化.在該策略中,增加了對(duì)外觀變化程度的判斷,減少了更新頻率,因而比策略1)效果好一些.
4)分別計(jì)算正負(fù)樣本的響應(yīng)分?jǐn)?shù),當(dāng)兩者的差值低于一定閾值時(shí)更新.該方式在判別式模型中采用.由于考慮了前景與背景的差異度量,可使跟蹤器具有更好的鑒別能力.
2.1跟蹤算法的最新評(píng)測(cè)數(shù)據(jù)平臺(tái)
一個(gè)有代表性的數(shù)據(jù)集對(duì)于跟蹤算法性能進(jìn)行全面而公正的評(píng)測(cè)是至關(guān)重要的.隨著大數(shù)據(jù)時(shí)代的到來,對(duì)訓(xùn)練與測(cè)試數(shù)據(jù)集的重視與日倶增[39],如圖像識(shí)別領(lǐng)域的ImageNet[40]、目標(biāo)檢測(cè)領(lǐng)域的Pascal VOC[41]、視頻檢索領(lǐng)域的TRECVID[42]等.具體到視頻目標(biāo)跟蹤研究領(lǐng)域,權(quán)威的數(shù)據(jù)集與測(cè)試平臺(tái)的建立也是大勢(shì)所趨.
該方面突破性的工作是文獻(xiàn)[43]中所提出VTB數(shù)據(jù)集,它是目前最具影響力的視頻目標(biāo)跟蹤算法測(cè)試數(shù)據(jù)集.起初包含50個(gè)測(cè)試視頻,隨后擴(kuò)展到100個(gè)[44].該數(shù)據(jù)集的建立具有里程碑式的意義,結(jié)束了跟蹤算法在零散視頻集上測(cè)試的局面,使眾多跟蹤算法第一次有了真正意義上統(tǒng)一的測(cè)試平臺(tái).
另一個(gè)有影響力的視頻目標(biāo)跟蹤數(shù)據(jù)集是VOT數(shù)據(jù)集[45].該平臺(tái)效法著名的目標(biāo)檢測(cè)數(shù)據(jù)平臺(tái)Pascal VOC,從2013年開始每年進(jìn)行一次跟蹤算法的競(jìng)賽并作排名.其規(guī)模與VTB相當(dāng),但在算法的性能評(píng)測(cè)指標(biāo)上有一些不同.
以上兩個(gè)是目前最具影響力的視頻跟蹤數(shù)據(jù)集.
2.2跟蹤算法的評(píng)測(cè)準(zhǔn)則與方法
對(duì)目標(biāo)跟蹤算法有三個(gè)要求:準(zhǔn)確性、魯棒性、高效性.目前很少算法能同時(shí)在這三點(diǎn)上表現(xiàn)優(yōu)異.
準(zhǔn)確性(Accuracy):有三個(gè)指標(biāo)可反映跟蹤準(zhǔn)確性.如果一個(gè)跟蹤器能盡量降低這三種誤差,則其準(zhǔn)確性較高.這三個(gè)指標(biāo)分別是:1)偏移(Deviation):預(yù)測(cè)位置同實(shí)際位置的距離;2)誤檢(False positive):將非目標(biāo)物體視為物體;3)漏檢(False negative):沒有正確識(shí)別出目標(biāo).
魯棒性(Robustness):如果一個(gè)跟蹤器在一個(gè)視頻序列中取得高精度,但在另一些視頻中表現(xiàn)差,則其不夠魯棒.一個(gè)有較高魯棒性的跟蹤器應(yīng)能在大多數(shù)的測(cè)試視頻序列中表現(xiàn)出較高性能,即能應(yīng)對(duì)復(fù)雜多樣的場(chǎng)景.
高效性(Efficiency):視頻目標(biāo)跟蹤是一個(gè)對(duì)實(shí)時(shí)性要求極高的研究領(lǐng)域,這是與檢測(cè)、識(shí)別的重要不同點(diǎn).一個(gè)真正實(shí)用的跟蹤器必須實(shí)時(shí)運(yùn)行.
對(duì)應(yīng)于跟蹤器的總體性能要求,很多測(cè)量準(zhǔn)則與方法被提出.下面進(jìn)行詳細(xì)介紹.
1)中心誤差(Center location error):每一幀中跟蹤器輸出的矩形框中心與實(shí)際中心位置的歐氏距離.加和后取平均值為平均中心誤差.中心誤差越小,說明跟蹤效果越好.
2)重疊率(Overlap rate):設(shè)ST是跟蹤器輸出的跟蹤框區(qū)域,SG為實(shí)際目標(biāo)區(qū)域,則重疊率的定義為兩者的交集與并集的比值,即:,重疊率越高,說明跟蹤效果越好.
3)成功率(Success rate):對(duì)于每一幀而言,若中心誤差小于一定閾值或重疊率大于一定閾值則認(rèn)為該幀跟蹤成功.跟蹤成功的幀數(shù)同視頻序列總幀數(shù)的比值稱為成功率.
4)精度圖(Precision plot)與成功圖(Success plot):將3)中所設(shè)置的閾值在一定范圍內(nèi)變動(dòng)時(shí),會(huì)得到一系列的成功率數(shù)值所構(gòu)成的曲線圖,當(dāng)對(duì)應(yīng)于中心誤差時(shí)構(gòu)成的曲線稱為精度圖;對(duì)應(yīng)于重疊率時(shí)稱為成功圖.
5)時(shí)間魯棒性度量(Temporal robustness evaluation,TRE)和空間魯棒性度量(Spatial robustness evaluation,SRE).這兩個(gè)指標(biāo)是在文獻(xiàn)[43]中為衡量跟蹤器魯棒性而提出的.TRE跟蹤器用測(cè)試視頻序列中的隨機(jī)的一幀進(jìn)行初始化而不是第一幀,作出其相應(yīng)的成功圖,以此來衡量跟蹤器在時(shí)間軸上的魯棒性.SRE跟蹤器用第一幀初始化,但對(duì)初始跟蹤框位置進(jìn)行了一定的平移、縮放等微小擾動(dòng),做出相應(yīng)的成功圖,以此來測(cè)試跟蹤器能否在隨后幀中穩(wěn)定跟蹤住目標(biāo).
6)FPS(Frames per second):每秒處理的幀數(shù),是一個(gè)用來衡量跟蹤算法處理效率和速度的常用指標(biāo).
3.1深度學(xué)習(xí)概述
深度學(xué)習(xí)(Deep learning)是近年來機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新的研究方向.由于其在語音、文本、圖像、視頻等諸多方面相較于傳統(tǒng)方法所取得的巨大進(jìn)展和突破,使得其成為目前計(jì)算機(jī)科學(xué)中最引人注目的研究課題,在某種程度上可以說是引領(lǐng)了一場(chǎng)大數(shù)據(jù)時(shí)代下的科技革命.
深度學(xué)習(xí)的產(chǎn)生和崛起并非一日之功,而是有著深厚的歷史積淀.直觀上,它是神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)時(shí)代新的發(fā)展,然而從“淺”走到“深”卻經(jīng)歷了很長(zhǎng)的曲折與積累.20世紀(jì)80年代,Rumelhart、Hinton和Williams三位科學(xué)家完整而系統(tǒng)的提出了基于反向傳播算法(Back propagation,BP)的神經(jīng)網(wǎng)絡(luò)[46].此成果掀起了神經(jīng)網(wǎng)絡(luò)研究的巨大浪潮.但BP神經(jīng)網(wǎng)絡(luò)只能含有較“淺”的層次結(jié)構(gòu),原因是隨著層數(shù)的增加網(wǎng)絡(luò)很容易陷入局部最小和出現(xiàn)過擬合現(xiàn)象.隨著20世紀(jì)90年代以支持向量機(jī)(Support vector machine,SVM)為代表的更優(yōu)秀的“淺”層模型的出現(xiàn),神經(jīng)網(wǎng)絡(luò)的研究相對(duì)沉寂.此局面在2006年被Hinton及其學(xué)生發(fā)表在著名的《科學(xué)》上的研究成果所打破[47].該文提出了深度網(wǎng)絡(luò)與深度學(xué)習(xí)的概念,拉開了深度學(xué)習(xí)的序幕.深度學(xué)習(xí)首先在語音識(shí)別領(lǐng)域取得突破[48],在圖像識(shí)別領(lǐng)域取得的突破性成果[49],其作者用深層卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像識(shí)別問題上取得了巨大成功.隨后在目標(biāo)檢測(cè)任務(wù)中也超越了傳統(tǒng)方法[50-51],繼而在視頻分類方面也取得突破[52-53].
深度學(xué)習(xí)之所以在其產(chǎn)生和發(fā)展過程中不斷取得驚人的成功,根本原因在于其強(qiáng)大的特征表達(dá)能力.如圖4所示,在多媒體識(shí)別領(lǐng)域,一個(gè)最為基本和核心的問題就是如何對(duì)多媒體信息(圖像、語音等)進(jìn)行有效表達(dá).一個(gè)強(qiáng)有力的特征表達(dá),對(duì)于多媒體內(nèi)容識(shí)別和分析的效果是事半功倍的.
圖4 多媒體內(nèi)容識(shí)別的框架Fig.4 The framework of recognition in multimedia
傳統(tǒng)的特征表達(dá)是通過人們手工設(shè)計(jì)的特征來實(shí)現(xiàn)的,比如上文所提到的HOG特征、LBP特征等,這樣做的缺點(diǎn)是費(fèi)時(shí)費(fèi)力,需要根據(jù)具體問題和任務(wù)的不同而重新設(shè)計(jì).而深度學(xué)習(xí)則可以自動(dòng)學(xué)習(xí)到反映目標(biāo)的良好特征,完全不需要人的參與.同時(shí),神經(jīng)學(xué)的研究表明人對(duì)信息的處理是分級(jí)的[54-55],而深度學(xué)習(xí)的分層架構(gòu)在某種程度上正是對(duì)人腦機(jī)制的模擬.相比于淺層模型,深度學(xué)習(xí)方法對(duì)于如圖像這種高度非結(jié)構(gòu)化、分布復(fù)雜的數(shù)據(jù)的刻畫能力和泛化性能要強(qiáng)大很多.
特別需要指出的是,深度模型的成功有賴于兩個(gè)重要基礎(chǔ)條件,一個(gè)是容量巨大的訓(xùn)練和測(cè)試數(shù)據(jù)集,它們?yōu)樯疃饶P偷挠?xùn)練提供了數(shù)據(jù)保障;另一個(gè)是通用計(jì)算芯片GPU的發(fā)展,它為深度模型的訓(xùn)練提供了硬件支持.GPU原本用于計(jì)算機(jī)圖形顯示,后來在大規(guī)模并行計(jì)算中的優(yōu)勢(shì)使其成為深度學(xué)習(xí)的計(jì)算硬件基礎(chǔ).目前主流的深度學(xué)習(xí)研究開發(fā)平臺(tái)如Caffe[56]、Theano[57]都已將對(duì)GPU的支持作為必備功能.
3.2深度學(xué)習(xí)基本模型
深度學(xué)習(xí)按照學(xué)習(xí)方法可以分為無監(jiān)督學(xué)習(xí)模型和有監(jiān)督學(xué)習(xí)模型.無監(jiān)督深度學(xué)習(xí)模型主要包括基于受限玻爾茲曼機(jī)的深度置信網(wǎng)絡(luò)(Deep belief net,DBN)[58]和基于自動(dòng)編碼器的深度網(wǎng)絡(luò)(Stacked autoencoder)[59]兩大類.監(jiān)督學(xué)習(xí)深度模型包括多層感知機(jī)(Multilayer perceptron)和深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[60].
按照深度網(wǎng)絡(luò)中的組成單元之間是否存在閉環(huán),可將深度學(xué)習(xí)模型分為前饋型深度網(wǎng)絡(luò)(Feedforward neural network,F(xiàn)NN)和遞歸型深度網(wǎng)絡(luò)(Recurrent neural network,RNN)[61],如圖5所示.值得一提的是遞歸型深度網(wǎng)絡(luò)是較其他類型深度網(wǎng)絡(luò)更加特殊的類型,它將著眼點(diǎn)放在“時(shí)間”的深度建模上.尤其是目前遞歸型神經(jīng)網(wǎng)絡(luò)的主要代表之一—長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long and short term memory,LSTM)[62-64],能夠?qū)?shù)據(jù)相對(duì)較長(zhǎng)的時(shí)間跨度內(nèi)的狀態(tài)進(jìn)行記憶和學(xué)習(xí),因此在序列問題的處理,如語音識(shí)別、自然語言處理、手寫體識(shí)別等方面表現(xiàn)優(yōu)異,成為又一引人注目的深度模型.
圖5 深度學(xué)習(xí)的基本模型Fig.5 The basic models of deep learning
3.3深度學(xué)習(xí)方法在跟蹤中的應(yīng)用概述
深度學(xué)習(xí)是一種強(qiáng)大的特征學(xué)習(xí)方法.本節(jié)對(duì)深度學(xué)習(xí)在視頻目標(biāo)跟蹤領(lǐng)域中的應(yīng)用做一個(gè)整體性的介紹與分析.盡管在多媒體領(lǐng)域諸多方面取得了巨大成功,但在視頻目標(biāo)跟蹤這一特殊領(lǐng)域,深度學(xué)習(xí)的應(yīng)用卻受到一定限制,成果數(shù)量較視頻識(shí)別、視頻目標(biāo)檢測(cè)要少很多.主要原因是:
1)視頻目標(biāo)跟蹤中,嚴(yán)格意義上講僅有第一幀的數(shù)據(jù)是真正的標(biāo)注數(shù)據(jù),在其后的在線跟蹤過程中,正負(fù)樣本的量級(jí)僅有幾百個(gè).所以,視頻目標(biāo)跟蹤是典型的小樣本在線學(xué)習(xí)問題,這使得以處理大數(shù)據(jù)見長(zhǎng)的深度學(xué)習(xí)方法難以發(fā)揮優(yōu)勢(shì).
2)視頻目標(biāo)跟蹤對(duì)實(shí)時(shí)性要求極高.而規(guī)模龐大的深度網(wǎng)絡(luò)很難達(dá)到實(shí)時(shí)性要求.這就需要在網(wǎng)絡(luò)規(guī)模和運(yùn)行速度方面做綜合考慮.
盡管存在以上困難,由于深度學(xué)習(xí)在特征提取、外觀建模上的優(yōu)勢(shì),研究者們?nèi)匀煌ㄟ^不同手段,結(jié)合視頻目標(biāo)跟蹤任務(wù)的特點(diǎn),設(shè)計(jì)出一些基于深度學(xué)習(xí)的跟蹤算法.從目前的研究成果來看,研究者們?cè)趯⑸疃葘W(xué)習(xí)應(yīng)用于目標(biāo)跟蹤的過程中主要遵循兩種思路:
1)利用深度神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)到的特征的可遷移性,首先在大規(guī)模的圖像或視頻數(shù)據(jù)集上離線訓(xùn)練某一特定類型的深度神經(jīng)網(wǎng)絡(luò).而后在具體的在線跟蹤時(shí),利用之前基本訓(xùn)練好的網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行特征提取,并利用在線獲取的數(shù)據(jù)對(duì)該深度網(wǎng)絡(luò)進(jìn)行微調(diào)節(jié),以適應(yīng)在線時(shí)目標(biāo)外觀的具體變化.
2)將深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)做一定的改變,使其能夠適應(yīng)在線跟蹤的要求.主要的方法包括將網(wǎng)絡(luò)的層數(shù)維持在一個(gè)兼顧性能與效率的數(shù)量水平、將網(wǎng)絡(luò)中費(fèi)時(shí)的訓(xùn)練過程做適度簡(jiǎn)化等.目前該方面的工作還處于起步階段,探索空間較大.
3.4堆疊自編碼器在跟蹤中的應(yīng)用
3.4.1自編碼器基本原理
堆疊自編碼器是典型的非監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò),它的基本構(gòu)成單元是自編碼器(Autoencoder).自編碼器的示意圖如圖6所示.其基本過程是將輸入信號(hào)進(jìn)行編碼,而后利用解碼器在編碼后的信號(hào)的基礎(chǔ)上對(duì)原始信號(hào)進(jìn)行重構(gòu),目標(biāo)函數(shù)是使重建信號(hào)與原始信號(hào)的重構(gòu)誤差最小.自編碼器的思想是通過對(duì)原始信號(hào)進(jìn)行編碼的方式將其以更為簡(jiǎn)潔的形式加以表達(dá),從而去除冗余,反映信號(hào)更加本質(zhì)的屬性.
將自編碼器逐層疊加就構(gòu)成了堆疊自編碼器(Stacked autoencoder)這一深度學(xué)習(xí)網(wǎng)絡(luò)模型.在堆疊自編碼器中,下一層的輸出作為上一層的輸入,每一層進(jìn)行單獨(dú)優(yōu)化.這樣通過每一層編碼器的映射,逐步得到反映原始信號(hào)更本質(zhì)屬性的高層特征.為了利用數(shù)據(jù)中的標(biāo)注信息,還可以使用監(jiān)督學(xué)習(xí)的方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),此時(shí)需在頂層增加一個(gè)邏輯斯諦回歸(Logistic regression)層.
圖6 自編碼器示意圖Fig.6 The illustration of autoencoder
自編碼器的一個(gè)重要改進(jìn)是去噪自編碼器[59].其提出的目的是使深度網(wǎng)絡(luò)對(duì)于噪聲更加魯棒.去噪自編碼器的原理示意如圖7所示.它的核心思想是在原始信號(hào)上施加一定噪聲后作為訓(xùn)練數(shù)據(jù)對(duì)深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練.將重構(gòu)信號(hào)與原始未加噪聲的信號(hào)作對(duì)比作為重構(gòu)誤差.通過最小化重構(gòu)誤差,使得去噪自編碼器可以適應(yīng)一定程度的噪聲干擾,從而增強(qiáng)了網(wǎng)絡(luò)的魯棒性.
圖7 去噪自編碼器示意圖Fig.7 The illustration of denoise autoencoder
3.4.2自編碼器在跟蹤中的應(yīng)用
由于堆疊自編碼器,尤其是去噪堆疊自編碼器的特征學(xué)習(xí)能力和抗噪聲性能,它被首先應(yīng)用到非特定目標(biāo)的在線視頻目標(biāo)跟蹤當(dāng)中.該方面的經(jīng)典工作來自于文獻(xiàn)[65].該文作者首先在大規(guī)模的小尺度圖像樣本數(shù)據(jù)集[66]上對(duì)一個(gè)堆疊去噪自編碼器進(jìn)行離線訓(xùn)練.其深度網(wǎng)絡(luò)的結(jié)構(gòu)如圖8中左圖所示.而后將訓(xùn)練好的網(wǎng)絡(luò)用于跟蹤時(shí)對(duì)目標(biāo)外觀的特征提取.為了利用在線標(biāo)注信息,在網(wǎng)絡(luò)的頂端加入邏輯斯諦回歸二值分類器,“1”指示目標(biāo),“0”指示背景,如圖8中右圖所示.初始化時(shí),利用第一幀給出的標(biāo)注信息,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)整.在線跟蹤時(shí),繼續(xù)通過實(shí)時(shí)采集的正負(fù)樣本對(duì)深度網(wǎng)絡(luò)進(jìn)行微調(diào)(更新),以達(dá)到適應(yīng)目標(biāo)外觀變化的目的.
圖8 用于跟蹤的去噪自編碼器架構(gòu)[65]Fig.8 Denoise autoencoder for video tracking[65]
為減少計(jì)算量,系統(tǒng)更新并非每一幀都進(jìn)行,而是每隔一定幀數(shù)或系統(tǒng)置信度小于一定閾值時(shí)才更新一次.整個(gè)跟蹤系統(tǒng)的運(yùn)動(dòng)模型基于粒子濾波框架.實(shí)驗(yàn)結(jié)果表明其跟蹤效果好于部分基于傳統(tǒng)特征表示的方法.該文工作首次將深度網(wǎng)絡(luò)用于非特定目標(biāo)在線跟蹤問題,是典型的“離線訓(xùn)練+在線微調(diào)”架構(gòu)下的深度學(xué)習(xí)跟蹤方法,框架具有示范性.其網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,訓(xùn)練容易.其不足主要是:1)對(duì)網(wǎng)絡(luò)進(jìn)行離線的預(yù)訓(xùn)練所使用的圖像數(shù)據(jù)都是較低分辨率下的小圖像,雖然網(wǎng)絡(luò)可以學(xué)習(xí)到一些一般性的圖像特征,但對(duì)于跟蹤任務(wù)而言,核心要求是對(duì)跟蹤目標(biāo)特征的有效描述而非對(duì)整個(gè)圖像的描述.這些基于低分辨率圖像重構(gòu)意義下所學(xué)習(xí)到的特征能否最大化區(qū)分目標(biāo)與背景并沒有理論上保證. 2)其網(wǎng)絡(luò)后端為一個(gè)二值分類器,即只將跟蹤視為二值分類問題.在線樣本標(biāo)注時(shí),將與當(dāng)前目標(biāo)較近的樣本標(biāo)為正樣本,較遠(yuǎn)的標(biāo)為負(fù)樣本.由于“近”和“遠(yuǎn)”都需要設(shè)定具體的閾值,因此非常容易引入誤樣本從而使網(wǎng)絡(luò)得到錯(cuò)誤的訓(xùn)練信息.3)實(shí)時(shí)性低,特別是目標(biāo)遭遇背景中較強(qiáng)干擾時(shí),網(wǎng)絡(luò)頻繁的更新操作使得運(yùn)行效率很低.
文獻(xiàn)[67]在文獻(xiàn)[65]的基礎(chǔ)上,將深度網(wǎng)絡(luò)同在線AdaBoost框架進(jìn)行融合,將4個(gè)基于堆疊自編碼器的跟蹤器組成集成系統(tǒng),將置信度最大的候選區(qū)域作為最終預(yù)測(cè)的目標(biāo)位置.而后根據(jù)跟蹤結(jié)果在線調(diào)節(jié)每個(gè)自編碼器網(wǎng)絡(luò)的權(quán)重從而達(dá)到增強(qiáng)魯棒性的目的.該方法通過幾個(gè)網(wǎng)絡(luò)的融合互補(bǔ),一定程度上彌補(bǔ)了單個(gè)網(wǎng)絡(luò)跟蹤時(shí)易受干擾而漂移的問題,但代價(jià)是使得計(jì)算負(fù)擔(dān)進(jìn)一步加重.
文獻(xiàn)[68]同樣采用了先離線訓(xùn)練深度堆疊自動(dòng)編碼器,而后在線微調(diào)的策略.與文獻(xiàn)[65]不同的是,文獻(xiàn)[68]中的工作強(qiáng)調(diào)了深度網(wǎng)絡(luò)對(duì)于時(shí)間關(guān)聯(lián)性圖像的學(xué)習(xí).在離線訓(xùn)練階段并未利用離散的靜態(tài)圖像作為訓(xùn)練樣本,而是采用帶標(biāo)注的視頻序列圖像來訓(xùn)練深度網(wǎng)絡(luò).在網(wǎng)絡(luò)訓(xùn)練算法上,除了增加重構(gòu)誤差最小的約束項(xiàng)外,還增加了基于獨(dú)立子空間分析(Independent subspace analysis,ISA)的相鄰幀之間的時(shí)間連續(xù)性約束(Temporal slowness constraint).通過這樣的策略,使得訓(xùn)練出的網(wǎng)絡(luò)在進(jìn)行在線跟蹤時(shí)可以更好地提取運(yùn)動(dòng)不變性特征.實(shí)驗(yàn)結(jié)果表明其效果要好于文獻(xiàn)[65]中的方法.
文獻(xiàn)[69]將深度自編碼器網(wǎng)絡(luò)用于跟蹤含有運(yùn)動(dòng)模糊的視頻目標(biāo).快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊是視頻目標(biāo)跟蹤中的一大類困難因素.該文通過高斯函數(shù)對(duì)模糊圖像建模與深度網(wǎng)絡(luò)進(jìn)行特征提取相結(jié)合,在一定程度上克服了模糊幀對(duì)跟蹤器的影響.
文獻(xiàn)[70]的重點(diǎn)放在解決深度學(xué)習(xí)用于跟蹤時(shí)的實(shí)時(shí)性問題.文章作者的出發(fā)點(diǎn)有兩個(gè):1)視頻跟蹤中的目標(biāo)都是較小尺度的圖像,因此沒有必要用過多層數(shù)的深度網(wǎng)絡(luò),這樣會(huì)加大在線計(jì)算負(fù)擔(dān),作者認(rèn)為用較少層數(shù)的深度網(wǎng)絡(luò)足可以充分表達(dá)目標(biāo)特征.2)作者認(rèn)為由于只有視頻第一幀是真正的標(biāo)注數(shù)據(jù),而在線運(yùn)行時(shí)的標(biāo)注數(shù)據(jù)都或多或少存在不準(zhǔn)確性,因此在對(duì)離線訓(xùn)練好的深度網(wǎng)絡(luò)進(jìn)行在線微調(diào)時(shí),第一幀與后繼幀采用不同的訓(xùn)練策略,即在后繼幀中更新微調(diào)時(shí),采用較少的訓(xùn)練周期和較大的學(xué)習(xí)率,這樣可以進(jìn)一步加快網(wǎng)絡(luò)的運(yùn)行速度.
總體而言,作為優(yōu)秀的非監(jiān)督深度學(xué)習(xí)模型,堆疊自編碼器理論直觀而優(yōu)美,體量適中,因此在視頻跟蹤中最先得到應(yīng)用并取得了優(yōu)良效果.
3.5卷積神經(jīng)網(wǎng)絡(luò)在跟蹤中的應(yīng)用
3.5.1卷積神經(jīng)網(wǎng)絡(luò)基本原理
與堆疊自編碼器不同,深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)是一種監(jiān)督型的前饋神經(jīng)網(wǎng)絡(luò).鑒于其出色的效果,卷積神經(jīng)網(wǎng)絡(luò)成為目前圖像與視頻識(shí)別領(lǐng)域的研究熱點(diǎn).
卷積神經(jīng)網(wǎng)絡(luò)的生理學(xué)理論基礎(chǔ)來自20世紀(jì)60年代科學(xué)家Hubel和Wiesel通過對(duì)貓視覺皮層的研究成果.他們提出了感受野(Receptive field)的概念[71].基于此發(fā)現(xiàn),文獻(xiàn)[72]中提出的神經(jīng)認(rèn)知機(jī)(Neocognitron)首次將感受野概念應(yīng)用于人工神經(jīng)網(wǎng)絡(luò),該模型可視為卷積神經(jīng)網(wǎng)絡(luò)的初級(jí)版本.隨后LeCun等設(shè)計(jì)出基于BP算法的卷積神經(jīng)網(wǎng)絡(luò)[60,73],該網(wǎng)絡(luò)集成了局部感受野、權(quán)值共享、降采樣三大特性,在計(jì)算機(jī)視覺的許多方面都獲得了很好的效果[74].在大數(shù)據(jù)時(shí)代,隨著大規(guī)模帶標(biāo)注的圖像數(shù)據(jù)平臺(tái)ImageNet等的出現(xiàn)以及計(jì)算硬件水平的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別,特別是計(jì)算機(jī)視覺任務(wù)中體現(xiàn)出強(qiáng)大性能.革命性的標(biāo)志是文獻(xiàn)[49]中,Krizhevsky等利用深層卷積神經(jīng)網(wǎng)絡(luò)大幅度提高了圖像識(shí)別成功率.此后在目標(biāo)檢測(cè)、視頻分類等任務(wù)中都取得了超越傳統(tǒng)方法的成果.
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖9所示,總體上分為特征提取部分、全連接部分和輸出部分.特征提取部分是卷積神經(jīng)網(wǎng)絡(luò)的核心,由卷積、非線性變換和降采樣三種操作的周期性交替進(jìn)行而組成.卷積操作就是通過卷積核來獲取特征圖(圖9中的C1,C2層),卷積核需要通過訓(xùn)練優(yōu)化得到.非線性變換就是將卷積階段得到的特征按照一定的原則進(jìn)行篩選,提高模型的特征表達(dá)能力.降采樣操作采用池化(Pooling,通常的做法是取一定鄰域內(nèi)像素的平均值或最大值)得到分辨率降低的圖像,目的是獲取一定的位移不變性,提高圖像識(shí)別的魯棒性.經(jīng)過特征提取層后,得到的多個(gè)特征圖構(gòu)成特征向量后通過全連接層與最終的輸出層相連.
圖9 卷積神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)示意[60,73]Fig.9 The illustration of convolutional neural network[60,73]
卷積神經(jīng)網(wǎng)絡(luò)通過誤差反向傳播算法進(jìn)行有監(jiān)督的學(xué)習(xí)和訓(xùn)練.隨著當(dāng)前一些技術(shù)實(shí)力強(qiáng)大的科技公司的推動(dòng),卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)在不斷加深,規(guī)模越來越龐大[75-76],但需耗費(fèi)大量的訓(xùn)練時(shí)間.
3.5.2卷積神經(jīng)網(wǎng)絡(luò)在跟蹤中的應(yīng)用
目前卷積神經(jīng)網(wǎng)絡(luò)在跟蹤中的應(yīng)用,主要研究思路有兩種:一種是先離線訓(xùn)練好所采用的網(wǎng)絡(luò),而后在線運(yùn)行時(shí)微調(diào);另一種則是設(shè)計(jì)簡(jiǎn)化版的卷積神經(jīng)網(wǎng)絡(luò),力圖擺脫離線訓(xùn)練而能夠完全在線運(yùn)行.
文獻(xiàn)[77]中采用兩卷積層和兩降采樣層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取.網(wǎng)絡(luò)后端接徑向基神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)分類.該工作的主要不足是在線跟蹤時(shí)沒有采用實(shí)時(shí)更新的策略,因此對(duì)目標(biāo)外觀變化的適應(yīng)性不強(qiáng).
文獻(xiàn)[78]中首先在輔助數(shù)據(jù)集上離線訓(xùn)練一個(gè)兩層級(jí)的卷積神經(jīng)網(wǎng)絡(luò),而后將其應(yīng)用于在線跟蹤當(dāng)中.為使網(wǎng)絡(luò)學(xué)習(xí)到能夠應(yīng)對(duì)復(fù)雜運(yùn)動(dòng)的特征,作者提出在視頻圖像而非離散圖像上進(jìn)行離線訓(xùn)練.在線跟蹤時(shí),利用在線采集的樣本對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)、更新.該工作的主要?jiǎng)?chuàng)新在于注重了網(wǎng)絡(luò)對(duì)于運(yùn)動(dòng)不變性特征的學(xué)習(xí),因而對(duì)于跟蹤而言更具啟發(fā)意義.
文獻(xiàn)[79]中作者設(shè)計(jì)了一個(gè)含有7個(gè)卷積層和2個(gè)全連接層的深度卷積神經(jīng)網(wǎng)絡(luò).與大部分用于跟蹤的卷積神經(jīng)網(wǎng)絡(luò)不同,作者所設(shè)計(jì)的網(wǎng)絡(luò)并不是二值化輸出(1代表目標(biāo),0代表背景),而是結(jié)構(gòu)化輸出.通過一張響應(yīng)圖來指示目標(biāo)潛在區(qū)域的可能性.首先在ImageNet上離線訓(xùn)練網(wǎng)絡(luò),而后通過遷移學(xué)習(xí)將其用于在線特征提取.通過兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的相互融合互補(bǔ)來實(shí)現(xiàn)穩(wěn)定的跟蹤.該工作的主要?jiǎng)?chuàng)新在于對(duì)深度網(wǎng)絡(luò)用于跟蹤時(shí)的輸出端進(jìn)行了關(guān)注.
文獻(xiàn)[80]中利用離線訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)在線提取目標(biāo)的顯著性圖,跟蹤系統(tǒng)通過存儲(chǔ)若干幀跟蹤目標(biāo)的顯著性特征圖,在線維護(hù)一個(gè)外觀模型模板,通過相關(guān)匹配來實(shí)現(xiàn)定位目標(biāo).該文的研究著眼點(diǎn)較為新穎,沒有直接利用深度卷積網(wǎng)絡(luò)給出跟蹤結(jié)果,而是先通過其得到目標(biāo)的顯著性特征圖再進(jìn)行操作,這在很大程度上避免了網(wǎng)絡(luò)誤分類造成跟蹤漂移的問題.
文獻(xiàn)[81-82]都借鑒了卷積網(wǎng)絡(luò)的最新發(fā)展,將更深層數(shù)、特征學(xué)習(xí)能力更強(qiáng)的卷積網(wǎng)絡(luò)引入到視頻目標(biāo)跟蹤中.與之前的工作相比,兩者都注重了對(duì)不同層級(jí)特征的充分利用,在對(duì)跟蹤中應(yīng)用深度網(wǎng)絡(luò)的理解上更進(jìn)了一步.
以上工作都是首先離線訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)而后以在線數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)和更新.除了這種思路外,還有少數(shù)工作試圖通過以完全在線的方式來利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤.
文獻(xiàn)[83-84]中提出了一種在線卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),其特點(diǎn)在于完全不依賴離線學(xué)習(xí)而只進(jìn)行在線學(xué)習(xí).其在采樣、訓(xùn)練、更新等幾個(gè)方面都做了一定改進(jìn),主要考慮在線運(yùn)行效率問題.其采用含有兩個(gè)卷積層和兩個(gè)降采樣層的卷積神經(jīng)網(wǎng)絡(luò).為獲取盡可能多的在線樣本,增加了一個(gè)預(yù)處理環(huán)節(jié),得到若干不同參數(shù)的局部正則化圖像及梯度圖像作為多通道輸入.跟蹤系統(tǒng)維持一個(gè)記憶池,在線存儲(chǔ)跟蹤到的目標(biāo)樣本作為網(wǎng)絡(luò)訓(xùn)練和更新之用.
文獻(xiàn)[85]中對(duì)卷積神經(jīng)網(wǎng)絡(luò)做了較大的簡(jiǎn)化,沒有通過監(jiān)督訓(xùn)練的方式獲取卷積核,而是通過預(yù)先設(shè)計(jì)的濾波器作為卷積核來獲取層級(jí)特征.這些方式往往需要在特征表達(dá)能力與運(yùn)行速度之間做權(quán)衡以便設(shè)計(jì)簡(jiǎn)化版網(wǎng)絡(luò).
3.6對(duì)比分析
3.6.1卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)方法的對(duì)比分析
能夠?qū)⒛繕?biāo)與其周邊背景有效區(qū)分的特征向量對(duì)視頻目標(biāo)跟蹤的最終效果起到關(guān)鍵作用.傳統(tǒng)方法的局限首先在于往往只著眼于目標(biāo)某一方面物理特性的刻畫,而忽視了其他特性.例如Haar特征在對(duì)人臉進(jìn)行跟蹤時(shí)的效果較好,但應(yīng)用于行人跟蹤時(shí)效果則不夠理想.這就使得這些方法的應(yīng)用范圍受到很大限制,在含有各種干擾因素的最新跟蹤數(shù)據(jù)平臺(tái)上很難獲得全面優(yōu)異的表現(xiàn).而深度學(xué)習(xí)方法在輔助訓(xùn)練數(shù)據(jù)的支撐下可以獲取普適性更高的特征[86].
其次,傳統(tǒng)方法如HOG特征幾乎都只著眼于底層特征,而卷積神經(jīng)網(wǎng)絡(luò)可以通過層級(jí)映射提取從邊緣、紋理等底層特征到高層抽象語義特征等一系列不同層次的特征表示.與圖像分類等任務(wù)僅利用最后的語義性特征不同,卷積神經(jīng)網(wǎng)絡(luò)所提取的不同層級(jí)的特征都可以為跟蹤任務(wù)所采用,這等同于為目標(biāo)的位置分析提供了更多的視窗,這一點(diǎn)是傳統(tǒng)方法無法比擬的.
當(dāng)然,傳統(tǒng)方法的主要優(yōu)勢(shì)在于運(yùn)行速度和對(duì)輔助數(shù)據(jù)的較少依賴,在目前而言更具工程實(shí)用價(jià)值,隨著硬件加速技術(shù)的進(jìn)步,相信這種差距會(huì)逐步縮小.同時(shí)非深度學(xué)習(xí)跟蹤方法中的優(yōu)秀思想也值得借鑒[87],如文獻(xiàn)[29]中提出的Struck算法所采用的結(jié)構(gòu)化學(xué)習(xí)與輸出思想,體現(xiàn)出對(duì)目標(biāo)跟蹤問題更深刻的理解,對(duì)于深度學(xué)習(xí)跟蹤方法而言非常值得借鑒.
3.6.2卷積神經(jīng)網(wǎng)絡(luò)與堆疊編碼器的對(duì)比分析
通過對(duì)目前的研究成果的對(duì)比分析,基于卷積網(wǎng)絡(luò)的跟蹤架構(gòu)比基于堆疊自編碼器的方法具有更大的優(yōu)勢(shì)和更廣闊的發(fā)展空間.首先,卷積網(wǎng)絡(luò)的結(jié)構(gòu)決定了其具有處理圖像數(shù)據(jù)的先天優(yōu)勢(shì),這是目前其他深度學(xué)習(xí)架構(gòu)所不及的.同時(shí),卷積網(wǎng)絡(luò)的架構(gòu)具有很強(qiáng)的可拓展性,可以達(dá)到非?!吧睢钡膶訑?shù).相比深度卷積網(wǎng)絡(luò)而言,目前堆疊自編碼器的中間層數(shù)就少很多.卷積網(wǎng)絡(luò)的這種優(yōu)勢(shì)使得其具有更強(qiáng)大的特征學(xué)習(xí)能力,可以為跟蹤任務(wù)提供更多的特征分析視窗.
圖10所示是一份基于卷積網(wǎng)絡(luò)最新成果的跟蹤方法與優(yōu)秀的傳統(tǒng)方法及基于堆疊自編碼器方法的實(shí)驗(yàn)對(duì)比結(jié)果圖(引自文獻(xiàn)[81]).其中,圖10(a)為精度圖,圖10(b)為成功圖,其物理意義分別是在不同的中心誤差閾值和重疊度閾值下,成功跟蹤到的幀數(shù)的百分比(具體定義詳見第2.2節(jié)).其中每個(gè)圖中的說明框是各個(gè)算法的性能排名,越靠上的算法性能越好.從結(jié)果可以看出,基于卷積網(wǎng)絡(luò)的跟蹤方法優(yōu)于目前性能較好的基于傳統(tǒng)方法的跟蹤器,同時(shí)對(duì)比于基于堆疊自編碼器的跟蹤方法[65]也表現(xiàn)出明顯優(yōu)勢(shì).
3.7應(yīng)用總結(jié)與困難分析
上面的一些工作盡管取得了一些成果,但是深度學(xué)習(xí)在視頻目標(biāo)跟蹤中的應(yīng)用仍然較少,盡管部分算法跟蹤效果很好,但總體而言,此方面仍有很大的探索空間.目前的問題和困難主要有:
圖10 基于卷積網(wǎng)絡(luò)的跟蹤算法與其他方法的對(duì)比實(shí)驗(yàn)[81](FCNT為基于卷積網(wǎng)絡(luò)的跟蹤器,DLT為基于堆疊自編碼器的跟蹤器[65].)Fig.10 Comparison of CNN-based tracking method and other trackers[81](FCNT is a CNN-based tracker and DLT is an autoencoder-based tracker[65].)
1)通過預(yù)訓(xùn)練深度網(wǎng)絡(luò)的方式需要耗費(fèi)大量的時(shí)間,且此種方式更加適合于特定目標(biāo)的跟蹤,如行人跟蹤等.當(dāng)應(yīng)用場(chǎng)合是非特定目標(biāo)的跟蹤時(shí),一個(gè)重要問題是選取什么樣的輔助訓(xùn)練集能夠獲取更穩(wěn)定的跟蹤效果.有些研究者認(rèn)為應(yīng)選取如ImageNet這樣包含物體類別豐富的海量圖像訓(xùn)練集,這樣可以獲取更一般的圖像特征,另一些工作則更傾向于視頻數(shù)據(jù)集,認(rèn)為可以獲取更好的時(shí)間特征表達(dá)能力.目前針對(duì)輔助訓(xùn)練數(shù)據(jù)集的選取并沒有明確的理論指導(dǎo),也沒有工作進(jìn)行此方面的實(shí)驗(yàn)來驗(yàn)證,總體上訓(xùn)練數(shù)據(jù)集的選取有著較大的隨意性.
2)卷積神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)架構(gòu)在圖像識(shí)別、檢測(cè)等領(lǐng)域取得了巨大成功,但并不適用于跟蹤.這主要是因?yàn)槠渲械慕挡蓸?、池化等操作?huì)降低圖像的分辨率.這些操作的目的是獲取圖像位移不變性從而降低因物體形變等因素對(duì)于識(shí)別的影響.然而降低分辨率后會(huì)損失空間位置信息,而這些信息對(duì)于視頻目標(biāo)跟蹤來說是至關(guān)重要的.因此簡(jiǎn)單套用卷積神經(jīng)網(wǎng)絡(luò)未必會(huì)取得非常好的效果,必須對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行一定的改進(jìn),不能夠在特征提取過程損失空間信息.
3)目前深度學(xué)習(xí)在視頻目標(biāo)跟蹤中的應(yīng)用中,大都以二值分類器作為最終的輸出,即在線跟蹤過程中所采樣的樣本都是以0和1作為樣本,這種在線標(biāo)注方式顯得過“硬”,非常容易引入誤標(biāo)簽,從而引起深度網(wǎng)絡(luò)的誤分類,最終導(dǎo)致誤差積累直致漂移.此時(shí)單純使用深度學(xué)習(xí)方法并不能解決跟蹤漂移問題,需要同其他方法相結(jié)合才能更好地發(fā)揮深度網(wǎng)絡(luò)的作用.
4)深度網(wǎng)絡(luò)用于視頻目標(biāo)跟蹤的實(shí)時(shí)性問題是其應(yīng)用的一大挑戰(zhàn).由于深度學(xué)習(xí)算法及架構(gòu)固有的性質(zhì),其實(shí)時(shí)性往往很難達(dá)到實(shí)用要求.一些工作對(duì)深度網(wǎng)絡(luò)作了過大的簡(jiǎn)化,以犧牲特征表達(dá)能力來加速系統(tǒng),似乎并不可取.如何做真正合理的簡(jiǎn)化和改進(jìn),使得深度學(xué)習(xí)方法真正適用于實(shí)時(shí)應(yīng)用,是值得深入研究的課題.
5)深度網(wǎng)絡(luò)的重要形式—遞歸神經(jīng)網(wǎng)絡(luò)目前在視頻目標(biāo)跟蹤中還沒有應(yīng)用.遞歸神經(jīng)網(wǎng)絡(luò),尤其是其重要變體—長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)在序列識(shí)別問題上已取得了較大的成功.由于具有對(duì)序列的記憶能力,這種網(wǎng)絡(luò)是一種時(shí)間軸上的深度學(xué)習(xí)方法,也是對(duì)人類智能的一種重要的模擬形式.具體到視頻目標(biāo)跟蹤領(lǐng)域,由于當(dāng)前數(shù)據(jù)集中各種干擾因素的存在,如攝像機(jī)晃動(dòng)等,使得跟蹤視頻序列往往成為很不規(guī)則的序列信號(hào),這與語音信號(hào)等不同.因此目前對(duì)于非特定目標(biāo)、非特定環(huán)境的視頻目標(biāo)跟蹤問題,應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)還非常困難,僅有一些研究工作試圖從其他方面進(jìn)行模擬[88].
作為多媒體內(nèi)容分析的重要子領(lǐng)域,視頻目標(biāo)跟蹤是一個(gè)復(fù)雜且困難的研究課題,因?yàn)樵诂F(xiàn)實(shí)環(huán)境中有太多因素對(duì)跟蹤過程進(jìn)行干擾.經(jīng)過數(shù)十年的努力,雖然對(duì)一些簡(jiǎn)單場(chǎng)景已經(jīng)能夠很好處理,但面對(duì)更多更復(fù)雜環(huán)境時(shí)跟蹤效果仍不夠理想.深度學(xué)習(xí)方法的出現(xiàn),為構(gòu)建更加魯棒的目標(biāo)外觀模型提供了可能.但為了設(shè)計(jì)出高精度、高魯棒性和實(shí)時(shí)性的跟蹤算法,仍然需要開展大量研究工作,目前的研究重點(diǎn)和發(fā)展趨勢(shì)主要集中于以下幾點(diǎn):
1)深度學(xué)習(xí)與在線學(xué)習(xí)的融合.視頻目標(biāo)跟蹤本質(zhì)上是一個(gè)在線學(xué)習(xí)問題,最顯著的特點(diǎn)是在線數(shù)據(jù)集是在不斷擴(kuò)充的.深度學(xué)習(xí)應(yīng)用中所采用的先逐層訓(xùn)練而后全局微調(diào)的訓(xùn)練方式在純粹的在線環(huán)境是否真正適用,如何避免陷入局部極小值,都是值得深入研究的問題.
2)構(gòu)建適合視頻目標(biāo)跟蹤的深度網(wǎng)絡(luò).需要在目標(biāo)表征能力和實(shí)時(shí)性之間有所權(quán)衡,既要保持深度學(xué)習(xí)特征學(xué)習(xí)的優(yōu)勢(shì),同時(shí)也要兼顧跟蹤的高實(shí)時(shí)性要求.同時(shí),如卷積神經(jīng)網(wǎng)絡(luò)中的降采樣等損失空間信息的操作都是應(yīng)用于跟蹤任務(wù)的障礙,因此要進(jìn)行必要改進(jìn),才能使深度網(wǎng)絡(luò)真正適用于跟蹤問題.
3)跟蹤數(shù)據(jù)平臺(tái)的創(chuàng)建.目前建立大型的訓(xùn)練與測(cè)試數(shù)據(jù)平臺(tái)并舉行定期的比賽,已經(jīng)成為圖像與視頻研究的流行趨勢(shì).因此如何根據(jù)視頻目標(biāo)跟蹤研究的特點(diǎn),建立起大規(guī)模、具有代表性、測(cè)試方法嚴(yán)謹(jǐn)、適合深度網(wǎng)絡(luò)訓(xùn)練、測(cè)試的跟蹤視頻數(shù)據(jù)平臺(tái),仍然是一個(gè)值得研究的課題.
4)遞歸神經(jīng)網(wǎng)絡(luò)的應(yīng)用.盡管應(yīng)用于一般性目標(biāo)及開放環(huán)境的視頻目標(biāo)跟蹤問題困難較大,但作為對(duì)于時(shí)間序列建模的重要深度模型,遞歸神經(jīng)網(wǎng)絡(luò)仍然可以在跟蹤中有所作為.可以預(yù)見,在特定目標(biāo)、固定鏡頭等限定情況下,應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)可以幫助跟蹤系統(tǒng)更好地進(jìn)行軌跡預(yù)測(cè),從記憶角度來防止漂移發(fā)生.這方面有很大探索空間.
本文在對(duì)視頻目標(biāo)跟蹤的研究框架進(jìn)行說明的基礎(chǔ)上,首先介紹了跟蹤算法評(píng)測(cè)數(shù)據(jù)平臺(tái)與方法的最新發(fā)展.而后作為核心,本文重點(diǎn)介紹了目前在多媒體領(lǐng)域發(fā)展迅猛的深度學(xué)習(xí)方法在視頻目標(biāo)跟蹤領(lǐng)域的應(yīng)用情況.在已有工作的基礎(chǔ)上,對(duì)深度學(xué)習(xí)方法應(yīng)用于跟蹤時(shí)的特點(diǎn)、問題及難點(diǎn)進(jìn)行了深入分析和總結(jié).文章最后對(duì)未來深度學(xué)習(xí)方法在跟蹤中的進(jìn)一步應(yīng)用進(jìn)行了展望,相信對(duì)相關(guān)領(lǐng)域的研究人員會(huì)有較好的參考價(jià)值.
References
1 Comaniciu D,Ramesh V,Meer P.Real-time tracking of nonrigid objects using mean shift.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.Hilton Head Island,SC:IEEE,2000.142-149
2 Risfic B,Arulampalam S,Gordon N.Beyond the Kalman filter-book review.IEEE Aerospace and Electronic Systems Magazine,2004,19(7):37-38
3 Viola P,Jones M.Rapid object detection using a boosted cascade of simple features.In:Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Hawaii,USA:IEEE,2001.I-511-I-518
4 P′erez P,Hue C,Vermaak J,Gangnet M.Color-based probabilistic tracking.In:Proceedings of the 7th European Conference on Computer Vision.Copenhagen,Denmark:Springer,2002.661-675
5 Possegger H,Mauthner T,Bischof H.In defense of colorbased model-free tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA,USA:IEEE,2015.2113-2120
6 Danelljan M,Khan F S,F(xiàn)elsberg M,van de Weijer J.Adaptive color attributes for real-time visual tracking.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014. 1090-1097
7 Ojala T,Pietikainen M,Harwood D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions.In:Proceedings of the 12th IAPR International Conference on Pattern Processing. Jerusalem:IEEE,1994.582-585
8 Zhou H Y,Yuan Y,Shi C M.Object tracking using SIFT features and mean shift.Computer Vision and Image Understanding,2009,113(3):345-352
9 Miao Q,Wang G J,Shi C B,Lin X G,Ruan Z W.A new framework for on-line object tracking based on SURF.Pattern Recognition,2011,32(13):1564-1571
10 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886-893
11 Lucas B D,Kanade T.An iterative image registration technique with an application to stereo vision.In:Proceedings of the 7th International Joint Conference on Artificial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1981.674-679
12 Horn B K P,Schunck B G.Determining optical flow.Artificial Intelligence,1981,17(2):185-203
13 KalalZ,MikolajczykK,MatasJ.Tracking-learningdetection.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409-1422
14 Kalal Z,Mikolajczyk K,Matas J.Forward-backward error:automatic detection of tracking failures.In:Proceedings of the 20th IEEE International Conference on Pattern Recognition.Istanbul:IEEE,2010.2756-2759
15 Li X,Hu W M,Shen C H,Zhang Z F,Dick A,van den Hengel A.A survey of appearance models in visual object tracking.ACM Transactions on Intelligent Systems and Technology,2013,4(4):Article No.58
16 Zhang Huan-Long,Hu Shi-Qiang,Yang Guo-Sheng.Video object tracking based on appearance models learning.Journal of Computer Research and Development,2015,52(1):177-190(張煥龍,胡士強(qiáng),楊國勝.基于外觀模型學(xué)習(xí)的視頻目標(biāo)跟蹤方法綜述.計(jì)算機(jī)研究與發(fā)展,2015,52(1):177-190)
17 Hou Zhi-Qiang,Han Chong-Zhao.A survey of visual tracking.Acta Automatica Sinica,2006,32(4):603-617(侯志強(qiáng),韓崇昭.視覺跟蹤技術(shù)綜述.自動(dòng)化學(xué)報(bào),2006,32(4):603-617)
18 Adam A,Rivlin E,Shimshoni I.Robust fragments-based tracking using the integral histogram.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York,NY,USA:IEEE,2006.798-805
19 Alt N,Hinterstoisser S,Navab N.Rapid selection of reliable templates for visual tracking.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.1355-1362
20 He S F,Yang Q X,Lau R W H,Wang J,Yang M H.Visual tracking via locality sensitive histograms.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2427-2434
21 Black M J,Jepson A D.EigenTracking:robust matching and tracking of articulated objects using a view-based representation.International Journal of Computer Vision,1998,26(1):63-84
22 Ross D A,Lim J,Lin R S,Yang M H.Incremental learning for robust visual tracking.International Journal of Computer Vision,2008,77(1-3):125-141
23 Zhang T Z,Liu S,Xu C S,Yan S C,Ghanem B,Ahuja N,Yang M H.Structural sparse tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.150-158
24 Jia X,Lu H C,Yang M H.Visual tracking via adaptive structural local sparse appearance model.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.1822-1829
25 Zhang T Z,Ghanem B,Liu S,Ahuja N.Robust visual tracking via multi-task sparse learning.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.2042-2049
26 Zhang S P,Yao H X,Sun X,Lu X S.Sparse coding based visual tracking:review and experimental comparison.Pattern Recognition,2013,46(7):1772-1788
27 Wright J,Ma Y,Mairal J,Sapiro G,Huang T S,Yan S C. Sparse representation for computer vision and pattern recognition.Proceedings of the IEEE,2010,98(6):1031-1044
28 Mei X,Ling H B.Robust visual tracking using L1minimization.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto:IEEE,2009.1436-1443
29 Hare S,Saffari A,Torr P H S.Struck:structured output tracking with kernels.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona:IEEE,2011.263-270
30 Avidan S.Support vector tracking.IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(8):1064-1072
31 Bai Y C,Tang M.Robust tracking via weakly supervised ranking SVM.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.1854-1861
32 Grabner H,Grabner M,Bischof H.Real-time tracking via on-line boosting.In:Proceedings of the British Machine Vision Conference.Edinburgh,UK:BMVA Press,2006.47-56
33 Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking.In:Proceedings of the 10th European Conference on Computer Vision.Marseille,F(xiàn)rance:Springer,2008.234-247
34 Stalder S,Grabner H,van Gool L.Beyond semi-supervised tracking:tracking should be as simple as detection,but not simpler than recognition.In:Proceedings of the 12th IEEE International Conference on Computer Vision Workshops. Kyoto:IEEE,2009.1409-1416
35 Babenko B,Yang M H,Belongie S.Visual tracking with online multiple instance learning.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,F(xiàn)L,USA:IEEE,2009.983-990
36 Henriques J F,Caseiro R,Martins P,Batista J.Exploiting the circulant structure of tracking-by-detection with kernels. In:Proceedings of the 12th European Conference on Computer Vision.Florence,Italy:Springer,2012.702-715
37 Henriques J F,Caseiro R,Martins P,Batista J.High-speed tracking with kernelized correlation filters.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596
38 Zhang K H,Zhang L,Yang M H.Real-time compressive tracking.In:Proceedings of 12th European Conference on Computer Vision.Florence,Italy:Springer,2012.864-877
39 Huang Kai-Qi,Ren Wei-Qiang,Tan Tie-Niu.A review on image object classification and detection.Chinese Journal of Computers,2014,37(6):1225-1240(黃凱奇,任偉強(qiáng),譚鐵牛.圖像物體分類與檢測(cè)算法綜述.計(jì)算機(jī)學(xué)報(bào),2014,37(6):1225-1240)
40 Deng J,Dong W,Socher R,Li J J,Li K,Li F F.ImageNet:a large-scale hierarchical image database.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,F(xiàn)L,USA:IEEE,2009.248-255
41 Everingham M,Van Gool L,Williams C K I,Winn J,Zisserman A.The PASCAL visual object classes(VOC)challenge.International Journal of Computer Vision,2010,88(2):303-338
42 Smeaton A F,Over P,Kraaij W.Evaluation campaigns and TRECVid.In:Proceedings of the 8th ACM International Workshop on Multimedia Information Retrieval.Santa Barbara,CA,USA:ACM,2006.321-330
43 Wu Y,Lim J,Yang M H.Online object tracking:a benchmark.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2411-2418
44 Wu Y,Lim J,Yang M H.Object tracking benchmark.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1834-1848
45 Kristan M,Matas J,Leonardis A,F(xiàn)elsberg M,Cehovin L,F(xiàn)ern′andez G,Voj′?r T,H¨ager G,Nebehay G,Pflugfelder R.The visual object tracking VOT2015 challenge results. In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshops.Santiago:IEEE,2015. 564-586
46 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
47 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
48 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A R,Jaitly N,Senior A,Vanhoucke V,Nguyen P,Sainath T N,Kingsbury B.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82-97
49 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceeding of Advances in Neural Information Processing Systems. Nevada,USA:MIT Press,2012.1097-1105
50 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.580-587
51 Ren S Q,He K M,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.In:Proceeding of Advances in Neural Information Processing Systems.Montr′eal,Canada:MIT Press,2015. 91-99
52 Karpathy A,Toderici G,Shetty S,Leung T,Sukthankar R,Li F F.Large-scale video classification with convolutional neural networks.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.1725-1732
53 Ji S W,Xu W,Yang M,Yu K.3D convolutional neural networks for human action recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231
54 Lee T S,Mumford D,Romero R,Lamme V A F.The role of the primary visual cortex in higher level vision.Vision Research,1998,38(15-16):2429-2454
55 Lee T S,Mumford D.Hierarchical Bayesian inference in the visual cortex.Journal of the Optical Society of America A:Optics Image Science and Vision,2003,20(7):1434-1448
56 Jia Y Q,Shelhamer E,Donahue J,Karayev S,Long J,Girshick R,Guadarrama S,Darrell T.Caffe:convolutional architecture for fast feature embedding.In:Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,F(xiàn)L,USA:ACM,2014.675-678
57 Bergstra J,Bastien F,Breuleux O,Lamblin P,Pascanu R,Delalleau O,Desjardins G,Warde-Farley D,Goodfellow I J,Bergeron A,Bengio Y.Theano:deep learning on GPUS with python.In:Advances in Neural Information Processing Systems Workshops.Granada,Spain:MIT Press,2011. 1-4
58 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527-1554
59 Vincent P,Larochelle H,Bengio Y,Manzagol P A.Extracting and composing robust features with denoising autoencoders.In:Proceedings of the 25th International Conference on Machine Learning.Helsinki,F(xiàn)inland:ACM,2008. 1096-1103
60 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324
61 Jozefowicz R,Zaremba W,Sutskever I.An empirical exploration of recurrent network architectures.In:Proceedings of the 32nd International Conference on Machine Learning. Lille,F(xiàn)rance:JMLR,2015.2342-2350
62 Hochreiter S,Schmidhuber J.Long short-term memory. Neural Computation,1997,9(8):1735-1780
63 Gers F A,Schraudolph N N,Schmidhuber J.Learning precise timing with LSTM recurrent networks.The Journal of Machine Learning Research,2003,3:115-143
64 Graves A,Liwicki M,F(xiàn)ern′andez S,Bertolami R,Bunke H,Schmidhuber J.A novel connectionist system for unconstrained handwriting recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(5):855-868
65 Wang N Y,Yeung D Y.Learning a deep compact image representation for visual tracking.In:Proceeding of Advances in Neural Information Processing Systems.Nevada,USA:MIT Press,2013.809-817
66 Torralba A,F(xiàn)ergus R,F(xiàn)reeman W T.80 million tiny images:a large data set for nonparametric object and scene recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11):1958-1970
67 Zhou X Z,Xie L,Zhang P,Zhang Y N.An ensemble of deep neural networks for object tracking.In:Proceedings of the 2014 IEEE International Conference on Image Processing. Paris,F(xiàn)rance:IEEE,2014.843-847
68 Kuen J,Lim K M,Lee C P.Self-taught learning of a deep invariant representation for visual tracking via temporal slowness principle.Pattern Recognition,2015,48(10):2964-2982
69 Ding J W,Huang Y Z,Liu W,Huang K Q.Severely blurred object tracking by learning deep image representations.IEEE Transactions on Circuits and Systems for Video Technology,2016,26(2):319-331
70 Dai L,Zhu Y S,Luo G B,He C.A low-complexity visual tracking approach with single hidden layer neural networks. In:Proceedings of the 13th IEEE International Conference on Control Automation Robotics and Vision.Singapore:IEEE,2014.810-814
71 Hubel D H,Wiesel T N.Receptive fields,binocular interaction and functional architecture in the cat′s visual cortex. Journal of Physiology,1962,160(1):106-154
72 Fukushima K.Neocognitron:a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position.Biological Cybernetics,1980,36(4):193-202
73 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-551
74 LeCun Y,Kavukcuoglu K,F(xiàn)arabet C.Convolutional networks and applications in vision.In:Proceedings of 2010 IEEE International Symposium on Circuits and Systems. Paris,F(xiàn)rance:IEEE,2010.253-256
75 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.1-9
76 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556,2014.
77 Jin J,Dundar A,Bates J,F(xiàn)arabet C,Culurciello E.Tracking with deep neural networks.In:Proceedings of the 47th Annual Conference on Information Sciences and Systems (CISS).Baltimore,MD,USA:IEEE,2013.1-5
78 Wang L,Liu T,Wang G,Chan K L,Yang Q X.Video tracking using learned hierarchical features.IEEE Transactions on Image Processing,2015,24(4):1424-1435
79 Wang N Y,Li S Y,Gupta A,Yeung D Y.Transferring rich feature hierarchies for robust visual tracking.arXiv:1501.04587,2015.
80 Hong S,You T,Kwak S,Han B.Online tracking by learning discriminative saliency map with convolutional neural network.In:Proceedings of the 32th International Conference on Machine Learning.Lille,F(xiàn)rance:JMLR,2015.597-606
81 Wang L J,Ouyang W L,Wang X G,Lu H C.Visual tracking with fully convolutional networks.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago:IEEE,2015.3119-3127
82 Ma C,Huang J B,Yang X K,Yang M H.Hierarchical convolutional features for visual tracking.In:Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015.3074-3082
83 Li H X,Li Y,Porikli F.DeepTrack:learning discriminative feature representations online for robust visual tracking.IEEE Transactions on Image Processing,2016,25(4):1834-1848
84 Li H X,Li Y,Porikli F.Robust online visual tracking with a single convolutional neural network.In:Proceedings of the 12th Asian Conference on Computer Vision.Singapore:Springer,2015.194-209
85 He Y,Dong Z,Yang M,Chen L,Pei M T,Jia Y D.Visual tracking using multi-stage random simple features.In:Proceedings of the 22nd International Conference on Pattern Recognition.Stockholm:IEEE,2014.4104-4109
86 Danelljan M,H¨ager G,Khan F S,F(xiàn)elsberg M.Convolutional features for correlation filter based visual tracking.In:Proceedings of the 2015 IEEE International Conference on Computer Vision Workshop.Santiago:IEEE,2015.621-629
87 Wang N Y,Shi J P,Yeung D Y,Jia J Y.Understanding and diagnosing visual tracking systems.In:Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago:IEEE,2015.3101-3109
88 Hong Z B,Chen Z,Wang C H,Mei X,Prokhorov D,Tao D C.MUlti-Store tracker(MUSTer):a cognitive psychology inspired approach to object tracking.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA:IEEE,2015.749-758
管 皓復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院博士研究生.主要研究方向?yàn)槎嗝襟w內(nèi)容分析,深度學(xué)習(xí).本文通信作者.
E-mail:guanh13@fudan.edu.cn
(GUAN HaoPh.D.candidate at the School of Computer Science,F(xiàn)udan University.His research interest covers video analysis and deep learning.Corresponding author of this paper.)
薛向陽復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授.主要研究方向?yàn)橐曨l大數(shù)據(jù)分析,計(jì)算機(jī)視覺,深度學(xué)習(xí).
E-mail:xyxue@fudan.edu.cn
(XUE Xiang-YangProfessor at the School of Computer Science,F(xiàn)udan University.His research interest covers big video data analysis,computer vision,and deep learning.)
安志勇復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院博士后.2008年獲得西安電子科技大學(xué)博士學(xué)位.主要研究方向?yàn)閳D像與視頻內(nèi)容分析、檢索.
E-mail:azytyut@163.com
(AN Zhi-YongPostdoctor at the School of Computer Science,F(xiàn)udan University.He received his Ph.D.degree from Xidian University in 2008.His research interest covers image and video content analysis and retrieval.)
Advances on Application of Deep Learning for Video Object Tracking
GUAN Hao1XUE Xiang-Yang1AN Zhi-Yong1
Video object tracking is an important research topic of computer vision with numerous applications including surveillance,robotics,human-computer interface,etc.The coming of big data era and the rise of deep learning methods have offered new opportunities for the research of tracking.Firstly,we present the general framework for video object tracking research.Then,we introduce new arisen datasets and evaluation methodology.We highlight the application of the rapid-developing deep-learning methods including stacked autoencoder and convolutional neural network on video object tracking.Finally,we have a discussion and provide insights for future.
Object tracking,video analysis,online learning,deep learning,big data
10.16383/j.aas.2016.c150705
Guan Hao,Xue Xiang-Yang,An Zhi-Yong.Advances on application of deep learning for video object tracking. Acta Automatica Sinica,2016,42(6):834-847
2015-10-26錄用日期2016-05-03
Manuscript received October 26,2015;accepted May 3,2016
國家自然科學(xué)基金 (61572138),上海市科技創(chuàng)新行動(dòng)計(jì)劃項(xiàng)目(15511104402)資助
Supported by National Natural Science Foundation of China (61572138)and Science and Technology Commission of Shanghai Municipality(15511104402)
本文責(zé)任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室上海201203
1.Shanghai Key Laboratory of Intelligent Information Processing,School of Computer Science,F(xiàn)udan University,Shanghai 201203