景 平 董 娜 景雪寧
(蘭州理工大學(xué) 蘭州 730050)
運(yùn)動(dòng)目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的一個(gè)重要的研究?jī)?nèi)容,它在交通監(jiān)控、視頻交互、行為分析等一些領(lǐng)域有著廣泛的應(yīng)用。目標(biāo)跟蹤技術(shù)主要由三個(gè)部分組成:1)目標(biāo)的特征提取,如何從目標(biāo)的圖片信息中提取出能夠顯著性表達(dá)目標(biāo)特點(diǎn)的信息特征;2)外觀模型,外觀模型的作用是在當(dāng)前幀中判決候選圖像區(qū)域是被跟蹤目標(biāo)的可能性;3)目標(biāo)運(yùn)動(dòng)位置預(yù)測(cè),其通過(guò)描述幀與幀目標(biāo)運(yùn)動(dòng)狀態(tài)之間的關(guān)系,預(yù)測(cè)出下一幀的目標(biāo)所處位置的可能區(qū)域[1]。
起初人們采用全局直方圖來(lái)表示目標(biāo)特征信息,利用直方圖之間的巴氏距離來(lái)判斷圖像塊的匹配關(guān)系,但是用直方圖來(lái)表示圖像特征只能描述特征元素在整幅圖像特征中所占的比例關(guān)系,忽略了特征元素所處的空間位置,因此該特征模型不能完整反映目標(biāo)的信息。為了應(yīng)對(duì)上述問(wèn)題,學(xué)者們?cè)跇?gòu)建外觀模型時(shí)加入了分塊-聯(lián)合機(jī)制[2~3]。在應(yīng)對(duì)復(fù)雜背景下的目標(biāo)跟蹤問(wèn)題,人們又利用判別分類(lèi)法去描述目標(biāo)外觀,例如Helmut在文獻(xiàn)[4]中提到的Boosting算法,該算法基本思想為:針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器),但是采用該分類(lèi)器處理跟蹤問(wèn)題時(shí)運(yùn)行幀率不能滿足實(shí)時(shí)性需求。為了解決計(jì)算復(fù)雜度大的問(wèn)題,Zhang在文獻(xiàn)[5]中提出了快速壓縮跟蹤算法。該算法是通過(guò)對(duì)圖像信息降維處理方式來(lái)提取目標(biāo)特征信息,進(jìn)而實(shí)現(xiàn)高效的跟蹤,但是經(jīng)過(guò)這樣處理會(huì)使得所構(gòu)建的外觀模型不能精確地描述目標(biāo)細(xì)節(jié)信息,容易在處理背景雜波干擾的跟蹤問(wèn)題就會(huì)出現(xiàn)錯(cuò)誤匹配現(xiàn)象。隨后,有學(xué)者[6]將稀疏矩陣模型用在跟蹤領(lǐng)域,該模型利用目標(biāo)模板和瑣碎模板來(lái)構(gòu)建目標(biāo)外觀模型,與此同時(shí)還有人提出多實(shí)例學(xué)習(xí)算法[7]和TLD算法[8],這些算法相較于之前有著很大的進(jìn)步,但還需進(jìn)一步的完善和改進(jìn)。最近神經(jīng)網(wǎng)絡(luò)[9~11]在跟蹤領(lǐng)域引來(lái)廣泛的關(guān)注,該方法借鑒人類(lèi)視覺(jué)神經(jīng)的層級(jí)結(jié)構(gòu)作為訓(xùn)練模型,通過(guò)一層層的組合優(yōu)化來(lái)反映圖像的分布特征,然而該方式用于處理數(shù)據(jù)信息需要消耗大量的時(shí)間資源,不能滿足跟蹤的實(shí)時(shí)性要求。文獻(xiàn)[12~15]應(yīng)用到極限學(xué)習(xí)機(jī)算法來(lái)處理視頻的跟蹤問(wèn)題,該算法是Huang在文獻(xiàn)[16]中提出的一種前饋神經(jīng)網(wǎng)絡(luò)算法,由于其隱層參數(shù)是隨機(jī)給定,隱藏層到輸出層的權(quán)值通過(guò)最小二乘法求解得到,因此該方法有較高的計(jì)算效率。在線極端學(xué)習(xí)機(jī)是一種基于極端學(xué)習(xí)機(jī)的增量學(xué)習(xí)方法,它不需將所有計(jì)數(shù)據(jù)代入計(jì)算,只需在原有數(shù)據(jù)的基礎(chǔ)上增量學(xué)習(xí)當(dāng)前幀的數(shù)據(jù),因此在線更新過(guò)程沒(méi)有太大的計(jì)算負(fù)擔(dān)。
關(guān)于目標(biāo)位置預(yù)測(cè),滑動(dòng)窗口算法[17]采用的是窮盡式搜索方法,它需用不同尺寸的窗口多次遍歷整個(gè)圖像區(qū)域,采用該方式進(jìn)行搜索定位會(huì)搜集到大量含有背景雜波的候選目標(biāo)樣本,這將會(huì)大大增加檢測(cè)失敗的概率。Meanshift算法[18~20]是通過(guò)概率密度的梯度爬升尋求局部最優(yōu)的方式來(lái)實(shí)現(xiàn)目標(biāo)位置的預(yù)測(cè),然而其在目標(biāo)的搜索定位過(guò)程容易陷入局部最優(yōu),導(dǎo)致目標(biāo)位置預(yù)測(cè)失敗。為了應(yīng)對(duì)復(fù)雜環(huán)境下的目標(biāo)跟蹤問(wèn)題,后來(lái)人們將卡爾曼濾波算法[21~22]應(yīng)用于目標(biāo)位置預(yù)測(cè),卡爾曼濾波算法是kalman于1960年提出,其通過(guò)已有物體位置的觀察序列(可能有偏差)預(yù)測(cè)出物體的位置的坐標(biāo)及速度。因?yàn)榭柭鼮V波算法較適合帶有高斯噪聲的線性系統(tǒng),所以,該算法對(duì)于復(fù)雜環(huán)境下的非線性系統(tǒng)的搜索定位問(wèn)題不能很好的解決。為了應(yīng)對(duì)該問(wèn)題,后面人們將粒子濾波算法[23~24]引入到目標(biāo)跟蹤領(lǐng)域。該算法是采用蒙特卡洛方法來(lái)近似狀態(tài)空間模型,即利用有限的粒子近似的運(yùn)動(dòng)狀態(tài)空間。雖然該算法對(duì)于運(yùn)動(dòng)狀態(tài)變化較慢的目標(biāo)能夠較好的應(yīng)對(duì),但是對(duì)于運(yùn)動(dòng)狀態(tài)變化迅速的目標(biāo)定位問(wèn)題存在很大的滯后性。
基于上述理論,本文從特征信息提取、運(yùn)動(dòng)模型構(gòu)建、外觀模型更新三個(gè)方面著手來(lái)提高視頻運(yùn)動(dòng)目標(biāo)的跟蹤精度。為了減少計(jì)算量同時(shí)還能提取出圖片中價(jià)值容量大的信息,提出了梯度稀疏矩陣來(lái)提取圖片的顏色特征信息,該方式利用一定閾值來(lái)精分各像素處的梯度幅值,然后將大于閾值處的九鄰域內(nèi)的零矩陣置一來(lái)獲得梯度稀疏矩陣。然后針對(duì)復(fù)雜環(huán)境下存在大量的背景雜波問(wèn)題和目標(biāo)運(yùn)動(dòng)狀態(tài)多變問(wèn)題,本文采用改進(jìn)煙花算法對(duì)目標(biāo)運(yùn)動(dòng)位置進(jìn)行更精確的預(yù)測(cè),該算法不同于傳統(tǒng)煙花算法采用固定的爆炸半徑參量,而是在此基礎(chǔ)上考慮了目標(biāo)運(yùn)動(dòng)多變的情況,將目標(biāo)的運(yùn)動(dòng)速率量加入到煙花爆炸半徑參數(shù)中,進(jìn)而使得煙花的爆炸半徑能夠隨著目標(biāo)的運(yùn)動(dòng)速度變化情況動(dòng)態(tài)的進(jìn)行調(diào)整,同時(shí)為了防止煙花多樣性問(wèn)題造成的煙花種群收斂于與目標(biāo)具有相似外觀的雜波信息處,該算法利用煙花的置信度方差特征來(lái)調(diào)節(jié)煙花的變異概率,進(jìn)而將煙花的多樣性控制在合理范圍內(nèi),提高位置的預(yù)測(cè)精度。為了應(yīng)對(duì)目標(biāo)形變問(wèn)題,本文提出了動(dòng)態(tài)更新機(jī)制,該方式是利用相鄰幀間目標(biāo)的置信度變化率來(lái)調(diào)整更新樣本的數(shù)目,然后利用在線極限學(xué)習(xí)機(jī)算法來(lái)增量學(xué)習(xí)相應(yīng)數(shù)目的樣本信息。為了驗(yàn)證該跟蹤技術(shù)的可行性,本文將該跟蹤器在公共數(shù)據(jù)集OTB上進(jìn)行測(cè)試,通過(guò)實(shí)驗(yàn)表明本文算法不僅兼顧跟蹤的實(shí)時(shí)性而且擁有較高的跟蹤精度。
為了使得提取到的圖片特征信息保留了顏色的空間特征,同時(shí)還能夠降低數(shù)據(jù)的計(jì)算維度,本文提出了一種利用梯度稀疏矩陣的方式提取顏色信息。其實(shí)現(xiàn)原理為:通過(guò)將梯度突變處(梯度幅值大于設(shè)定閾值的矩陣位置)九鄰域內(nèi)的零矩陣置1的方式來(lái)生成梯度稀疏矩陣,然后利用邊緣稀疏矩陣來(lái)提取圖片的特征信息,得到顏色梯度矩陣。具體的實(shí)現(xiàn)步驟如下所示。
1)計(jì)算稀疏梯度矩陣
首先,對(duì)圖片進(jìn)行伽馬校正,解決光線分布不均的問(wèn)題,同時(shí)提取H通道的顏色矩陣。
然后,計(jì)算每個(gè)像素的水平和垂直梯度值,進(jìn)而得到每個(gè)像素的梯度幅值,具體的計(jì)算公式如式(1)、(2)、(3)所示:
上式中Gx(x,y),Gy(x,y)表示顏色矩陣(x,y)處的水平和垂直方向的梯度值,f(x-1,y),f(x+1,y),f(x,y-1)f(x,y+1)表 示 圖 片(x-1,y),(x+1,y),(x,y-1),(x,y+1)處的像素值,G(x,y)表示像素(x,y)處的梯度幅值。
之后利用每個(gè)像素的梯度幅值來(lái)判斷圖片中物體的邊緣輪廓分布,將邊緣輪廓處九鄰域內(nèi)數(shù)值置1,進(jìn)而得到梯度稀疏矩陣,具體的實(shí)現(xiàn)公式見(jiàn)式(4):
上式中Im,n為m行n列的零矩陣,該矩陣的維數(shù)與顏色矩陣相同,δ表示精分梯度幅值的閾值。上式通過(guò)將梯度幅值大于閾值δ處像素的9領(lǐng)域內(nèi)零矩陣數(shù)值置1來(lái)獲得梯度稀疏矩陣。
2)提取特征信息
計(jì)算得到梯度稀疏矩陣后,利用稀疏矩得到兼具邊緣輪廓信息的顏色梯度矩陣,如下式所示:
當(dāng):
A表示在圖片提取到的基于HSV空間的H通道的顏色矩陣,B表示利用梯度稀疏矩陣提取的顏色梯度矩陣。為了使得提取的圖片信息對(duì)小范圍光線變化和微小形變具有一定魯棒性,本文學(xué)習(xí)借鑒了提取HOG特征的處理方式,將圖片矩陣進(jìn)行局部區(qū)域標(biāo)準(zhǔn)化。
首先將顏色梯度矩陣劃分為若干個(gè)不重疊的4*4像素的cell,提取每個(gè)cell的顏色梯度向量;然后將局部cell放入block中依據(jù)對(duì)比度大小進(jìn)行歸一化,此處的block大小為2×2個(gè)cell,block與block之間有重疊,且block的移動(dòng)步長(zhǎng)為8個(gè)像素,標(biāo)準(zhǔn)化后得到每個(gè)block的顏色梯度向量;最后為了得到整個(gè)矩陣的顏色梯度向量,將一個(gè)個(gè)block向量連接起來(lái)。
1)極端學(xué)習(xí)機(jī)構(gòu)建初始幀外觀模型
通過(guò)前面的處理已獲得正負(fù)樣本的特征向量[Xp1,Xp2,…,Xpn,XN1,XN2,…,XNk]T及其 對(duì)應(yīng) 的觀測(cè)值[YP1,YP2,…,YPn,YN1,YN2,…,YNk],根據(jù)極限學(xué)習(xí)機(jī)的訓(xùn)練公式可以計(jì)算得到輸出權(quán)重矩陣β,具體表示如式(6)、(7)、(8)所示:
其中:
其中:
其中wi,bi表示輸入層和隱層之間的權(quán)重向量和偏置向量,它是隨機(jī)生成的。G(.)表示激活函數(shù),H表示隱層的輸出矩陣,H?為H的廣義轉(zhuǎn)置。
2)動(dòng)態(tài)在線極限學(xué)習(xí)機(jī)更新分類(lèi)器
動(dòng)態(tài)在線極限學(xué)習(xí)機(jī)包括兩個(gè)部分:動(dòng)態(tài)更新機(jī)制和在線極限學(xué)習(xí)機(jī)。動(dòng)態(tài)更新機(jī)制用于確定更新目標(biāo)外觀模型的正樣本的數(shù)目,通過(guò)這種方式不僅能夠滿足外觀模型中納入更多目標(biāo)的實(shí)時(shí)信息,同時(shí)還能免得造成由更新不足或納入太多錯(cuò)誤信息引起的分類(lèi)精度降低的情況。在確定更新樣本的數(shù)目后,利用在線極限學(xué)習(xí)機(jī)對(duì)這些樣本進(jìn)行增量學(xué)習(xí),完成對(duì)分類(lèi)器的更新。
在第t幀中用來(lái)更新外觀模型的正樣本數(shù)目Ntp(其中包含10個(gè)靜態(tài)樣本,該樣本是從初始幀隨機(jī)抽取的10個(gè)正樣本),隨著目標(biāo)的置信度值的改變而動(dòng)態(tài)調(diào)整,具體表現(xiàn)為:
MaxPt(Xi)代表在第t幀候選目標(biāo)圖像塊中最大的置信度值,其反映的是第t幀外觀模型對(duì)目標(biāo)外觀的模擬能力。目標(biāo)的置信度值變化率越大說(shuō)明目標(biāo)外觀模型的更新不能適應(yīng)目標(biāo)的外觀變化,因此需增加正樣本的數(shù)目,使得分類(lèi)器的更新速度和目標(biāo)的外觀變化持平。并且通過(guò)試驗(yàn)得到相鄰兩幀的目標(biāo)函數(shù)差值比率小于0.05時(shí),目標(biāo)的外觀變化與相鄰兩幀目標(biāo)的函數(shù)差值比率呈正相關(guān)。而當(dāng)其差值比率大于0.05,目標(biāo)跟蹤失敗的概率較大,因此為防止在外觀模型中引入太多錯(cuò)誤信息,需要將正樣本的采集數(shù)目減少為20。
提取到目標(biāo)的正負(fù)樣本后,利用2.1節(jié)所述方法來(lái)獲得每個(gè)樣本的顏色梯度向量[Xp1,Xp2,…,XNtp,XN1,XN2,…,XNk]T及各訓(xùn)練樣本所對(duì)應(yīng)的期望值矩陣,根據(jù)在線極限學(xué)習(xí)機(jī)的更新原理可以得到其更新后的輸出權(quán)重矩陣如下:
其中:
這里增量學(xué)習(xí)樣本的隱層輸出矩陣Ht通過(guò)公式(15)計(jì)算得到。
對(duì)運(yùn)動(dòng)狀態(tài)多變的運(yùn)動(dòng)物體的搜索定位不僅需要有較高的收斂能力,同時(shí)還要兼顧全局的搜索能力,使得當(dāng)物體保持有規(guī)律的狀態(tài)運(yùn)動(dòng)時(shí),能夠收斂于一定區(qū)域內(nèi),降低匹配識(shí)別的壓力,而當(dāng)物體發(fā)生突變時(shí),能夠擴(kuò)大搜索范圍來(lái)搜尋目標(biāo)的位置,基于此本文利用煙花爆炸算法[25]的可控的爆炸搜索模式來(lái)預(yù)測(cè)目標(biāo)的位置。為了使得該搜索定位方式能夠較好的解決目標(biāo)跟蹤問(wèn)題,本文對(duì)煙花算法的爆炸算子和變異策略進(jìn)行改進(jìn),具體措施如下。
1)爆炸算子
由于傳統(tǒng)的煙花算法的爆炸半徑參數(shù)為固定不變的常量,其不能較好地應(yīng)對(duì)運(yùn)動(dòng)目標(biāo)狀態(tài)突變的情況,因此需要加入目標(biāo)的運(yùn)動(dòng)速率參數(shù)來(lái)調(diào)整每幀中爆炸半徑大小。同時(shí)傳統(tǒng)煙花算法的爆炸算子的計(jì)算方式不太適應(yīng)跟蹤問(wèn)題的解決,本文采用粒子濾波算法的權(quán)值思想將適應(yīng)度值的差值差異化運(yùn)算改成權(quán)值比例運(yùn)算,其具體的實(shí)現(xiàn)方式如下。
爆炸半徑:煙花的爆炸半徑由目標(biāo)運(yùn)動(dòng)速率以及煙花置信度值權(quán)重共同決定。其計(jì)算方式如式(16)所示:
其中:
其中Ai為第i個(gè)煙花的爆炸半徑,為目標(biāo)運(yùn)動(dòng)速率,其中(xt,yt),(xt-1,yt-1)為相鄰兩幀間目標(biāo)的中心坐標(biāo),k為調(diào)整半徑大小的常量參數(shù)。Pt(Xi)為第t幀第i個(gè)煙花的置信度值。
爆炸火花數(shù):煙花的爆炸火花數(shù)與該煙花的適應(yīng)度值在煙花種群中所占權(quán)重成正比。其計(jì)算方式如式(17)所示:
其中Si為第i個(gè)煙花生成預(yù)測(cè)煙火的數(shù)目,M為調(diào)整預(yù)測(cè)煙火數(shù)目大小的常量參數(shù),Pt(Xi)為第t幀第i個(gè)煙花的置信度值。
2)煙花選擇策略
根據(jù)目標(biāo)運(yùn)動(dòng)的連續(xù)性,相鄰幀之間的目標(biāo)的位移較小。因此為了提高搜索精度,我們應(yīng)該預(yù)留50%*Q個(gè)置信度較優(yōu)的煙火作為預(yù)留煙火,以保證目標(biāo)附近擁有足夠的煙花火種。其余的50%*Q個(gè)預(yù)留煙火通過(guò)輪盤(pán)賭法來(lái)在煙花種群里獲得,來(lái)增加煙花多樣性,防止目標(biāo)狀態(tài)突然改變或目標(biāo)運(yùn)動(dòng)過(guò)快,導(dǎo)致漏搜現(xiàn)象。
3)煙花變異策略
為了增加煙花的多樣性,跳出持續(xù)跟蹤錯(cuò)誤物體的死循環(huán),本文應(yīng)用變異策略來(lái)解決該現(xiàn)象。其通過(guò)判斷候選目標(biāo)置信度值的方差值來(lái)確定每個(gè)煙火變異的概率,方差值越小說(shuō)明候選樣本間的區(qū)分度較小,煙花的多樣性不足,因此需要提高煙火多樣性,因此給于較大的概率來(lái)生成變異火花;反之亦然。具體表現(xiàn)為
當(dāng):
獲得變異的概率后,選定要變異的煙火進(jìn)行變異操作,具體實(shí)現(xiàn)見(jiàn)下式:
式(21)中xF,yF表示煙火矩形框的中心坐標(biāo),k表示常量參數(shù),g表示高斯噪聲,g~N(1,1)表示g服從均值為1,方差為1的高斯分布。
4)搜索框的尺度調(diào)整
為了提高的匹配精度,搜索矩形框的尺度應(yīng)隨著目標(biāo)的大小的變化進(jìn)行調(diào)整。其調(diào)整方式為
式(23)中Rectt.h eight,Rectt.width表示第t幀第i個(gè)煙火的跟蹤矩形框的高度和寬度,scale表示尺度調(diào)節(jié)參數(shù),scale服從-0.2~0.2的均勻分布。
算法:OSELM-FWA跟蹤算法
輸入:帶有初始狀態(tài)s0的視頻圖像f0,f1,...,fn
3.按照2.2節(jié)所述,計(jì)算ELM網(wǎng)絡(luò)輸出層的初始輸出權(quán)重形成初始ELM分類(lèi)器。
4.初始化M個(gè)位置圖像塊為煙花種群。
for每幀fi,i=2,3...n
1.獲取M個(gè)位置的候選樣本并根據(jù)2.1節(jié)所示提取特征。
2.根據(jù)公式Y(jié)=Hβ和置信度計(jì)算公式計(jì)算出每個(gè)候選樣本的置信度值Pt(Xi)。
3.對(duì)每個(gè)候選樣本按置信度值進(jìn)行排序,置信度值最大的即為目標(biāo)。
4.根據(jù)2.3節(jié)所述方法來(lái)更新煙花種群。
5.根據(jù)式(16)、(17)計(jì)算爆炸半徑和爆炸火花數(shù)目,通過(guò)爆炸搜索獲得個(gè)位置,并獲得其對(duì)應(yīng)位置的候選目標(biāo)樣本。
6.在目標(biāo)周?chē)杉?fù)樣本來(lái)更新外觀模型,具體更新方式如2.2小節(jié)介紹。
輸出:標(biāo)識(shí)出視頻中要跟蹤的目標(biāo)。
本部分首先展示本文算法與其他8個(gè)較優(yōu)算法的跟蹤效果圖,隨后利用評(píng)價(jià)方法來(lái)評(píng)估本文算法和其他算法的跟蹤精度,并展示這9個(gè)算法的跟蹤精度圖。進(jìn)行對(duì)比試驗(yàn)的8個(gè)算法包括CT算法、TLD算法、IVT算法、DFT算法、ASLA算法、L1APG算法、ORIA算法、MTT算法。
試驗(yàn)是在引入OpenCV2.4.9庫(kù)文件的Visual C++2010上進(jìn)行編程實(shí)現(xiàn)的,電腦硬件配置為Intel(R)3.4GHz CPU,4 GB RAM,Win7×86系統(tǒng),本文的跟蹤結(jié)果測(cè)試是在OTB數(shù)據(jù)集上進(jìn)行。
單個(gè)視頻試驗(yàn)很難全面地說(shuō)明算法的有效性,因此本文為了評(píng)估算法能否應(yīng)對(duì)視頻目標(biāo)跟蹤中的常見(jiàn)關(guān)鍵性難題,如背景雜波問(wèn)題、運(yùn)動(dòng)模糊問(wèn)題、部分遮擋問(wèn)題、姿態(tài)變化問(wèn)題等,我們對(duì)8個(gè)包含不同場(chǎng)景的視頻進(jìn)行跟蹤試驗(yàn)。本文次實(shí)驗(yàn)的視頻資源和數(shù)據(jù)資源都來(lái)自于OTB標(biāo)準(zhǔn)數(shù)據(jù)集。表1展示的是本文所用視頻信息的基本資料和存在的跟蹤試驗(yàn)關(guān)鍵難題。下述8個(gè)視頻包含視頻目標(biāo)跟蹤中的常見(jiàn)關(guān)鍵難題,因此通過(guò)跟蹤處理該視頻圖像能夠全面評(píng)估算法的有效性。
表1 視頻屬性表格
參數(shù)設(shè)定也是影響算法實(shí)現(xiàn)目標(biāo)跟蹤關(guān)鍵因素,因此下面給出通過(guò)實(shí)驗(yàn)得到的合理參數(shù):各視頻第一幀目標(biāo)的初始位置是來(lái)自于數(shù)據(jù)集OTB中的初始狀態(tài)數(shù)據(jù),初始分類(lèi)器建立需要搜集250個(gè)正樣本、280個(gè)負(fù)樣形成訓(xùn)練數(shù)據(jù)集,并且初始幀還需初始化100個(gè)位置的圖像塊為煙火集,后續(xù)幀中我們每幀保留的預(yù)留煙火數(shù)目為20。在搜索定位中爆炸半徑的計(jì)算用到的參數(shù)A=150,爆炸火花數(shù)目計(jì)算參數(shù)M=150。并且確定煙火變異概率時(shí)所用到的閾值δ=0.008,α=0.003,為了兼顧跟蹤精度和跟蹤效率,本章神經(jīng)節(jié)點(diǎn)的個(gè)數(shù)取L=150。在提取特征時(shí),我們將候選目標(biāo)樣本調(diào)整為32×32像素的圖像,每個(gè)cell大小為4×4,其中2×2個(gè)cell組成一個(gè)block。
圖1顯示的是各算法對(duì)singer1、Soccer、Dog1、Shaking、Boy、Car4、Bolt、Trellis這8個(gè)視頻的部分跟蹤效果圖。其中ASLA算法的跟蹤效果圖,通過(guò)singer1、Shaking、Trellis三個(gè)視頻跟蹤表現(xiàn)顯示ASLA算法在處理光線變化問(wèn)題時(shí)在有著明顯的優(yōu)勢(shì)。通過(guò)Soccer視頻的第155幀的跟蹤結(jié)果顯示該算法在處理背景雜波和部分遮擋時(shí)不能精確的跟蹤目標(biāo),并且該算法在跟蹤Bolt和Boy視頻中的目標(biāo)時(shí),其在后面的視頻幀中出現(xiàn)完全跟丟目標(biāo)的現(xiàn)象,說(shuō)明該算法在應(yīng)對(duì)快速運(yùn)動(dòng)和大的形變問(wèn)題時(shí),存在較大的缺陷。圖中ORIA算法的跟蹤結(jié)果,通過(guò)其對(duì)視頻Singer1、Dog1的跟蹤結(jié)果顯示,該算法能夠應(yīng)對(duì)單存的光線變化和尺度變化問(wèn)題,當(dāng)出現(xiàn)目標(biāo)的大尺度形變和快速運(yùn)動(dòng)問(wèn)題時(shí),其就會(huì)出現(xiàn)偏移目標(biāo)的現(xiàn)象,如Bolt和Boy視頻的跟蹤結(jié)果截圖顯示。盡管CT和TLD應(yīng)用了一些在線更新機(jī)制去學(xué)習(xí)目標(biāo)的外觀,但是在遇到較大的姿態(tài)變化(Bolt)問(wèn)題或者遮擋問(wèn)題(e.g Soccer)時(shí),依然存在跟丟現(xiàn)象。IVT算法通過(guò)對(duì)Singer1、Dog1、Boy、Car4和Trellis視頻的跟蹤效果顯示,其能夠從始至終精確的定位目標(biāo),說(shuō)明該算法能夠處理尺度變化、較小形變、快速運(yùn)動(dòng)及光線變化問(wèn)題,但是當(dāng)存在如視頻Soccer較大面積的部分遮擋和雜波問(wèn)題和大尺度的形變問(wèn)題(e.g Bolt、Shaking)就出現(xiàn)丟失目標(biāo)的現(xiàn)象。DFT算法能夠很好地定位快速運(yùn)動(dòng)的(e.g Boy)目標(biāo)及存在較小光線變化場(chǎng)景下的運(yùn)動(dòng)物體,然而在處理尺度變化(e.g Singer 1)、大區(qū)域的遮擋(e.g Soccer)、較大形變(e.g Bolt)問(wèn)題時(shí)表現(xiàn)較差。MTT算法在跟蹤視頻Shaking時(shí)能夠穩(wěn)定的跟蹤目標(biāo),而對(duì)于形變較大(e.g Bolt)和移動(dòng)過(guò)快(Bolt)的運(yùn)動(dòng)目標(biāo),存在魯棒性差的特點(diǎn)。L1APG算法能夠?qū)σ曨lTellis、Singer1和Dog1自始至終進(jìn)行定位跟蹤,對(duì)于其他的視頻就會(huì)存在很大的偏移現(xiàn)象。
圖1 基于8個(gè)視頻的跟蹤效果圖
通過(guò)比較能夠看出本文算法相較與其他8個(gè)算法在應(yīng)對(duì)光線變化、姿態(tài)變化、部分遮擋、移動(dòng)模糊等關(guān)鍵難題時(shí)有著明顯的優(yōu)勢(shì),本文算法表現(xiàn)良好的原因主要?dú)w因于以下三方面:1)從特征提取方面,本文算法的特征提取方式是采用梯度稀疏矩陣來(lái)提取圖片信息,使提取的特征信息不僅包含顏色信息而且還兼顧圖片的輪廓分布特點(diǎn);因此,該特征能夠顯著的表達(dá)圖片的信息,并且在提取特征時(shí),我們采用分區(qū)域提取,能夠一定程度上解決區(qū)域光線變化、較小變形等問(wèn)題。2)從分類(lèi)器構(gòu)建與更新方面,本文采用動(dòng)態(tài)更新策略來(lái)更新分類(lèi)器,使得分類(lèi)器不僅能夠隨著目標(biāo)外觀變化進(jìn)行實(shí)時(shí)更新,而且還能防止在外觀模型分類(lèi)器模型里引入太多非目標(biāo)信息,基于此構(gòu)建的分類(lèi)器才能較好的分類(lèi)出目標(biāo)和背景信息。3)在運(yùn)動(dòng)模型構(gòu)建方面,采用改進(jìn)煙花算法進(jìn)行搜索定位。該運(yùn)動(dòng)模型在搜索定位時(shí),考慮了運(yùn)動(dòng)狀態(tài)的變化情況利用運(yùn)動(dòng)速率量來(lái)調(diào)整爆炸半徑參數(shù),進(jìn)而能夠保證煙花種群能夠較好地收斂于目標(biāo)所在區(qū)域,并且本文還通過(guò)預(yù)測(cè)煙火置信度的方差值來(lái)調(diào)節(jié)預(yù)測(cè)煙火的變異的概率,來(lái)保持煙花的多樣性,避免出現(xiàn)漏搜現(xiàn)象。
為了更好地評(píng)價(jià)各算法的跟蹤質(zhì)量,本文采用了重疊率(VOR)來(lái)對(duì)跟蹤結(jié)果進(jìn)行評(píng)價(jià),該方法能夠很好的評(píng)估跟蹤的整體性能。式(24)為顯示的是重疊率計(jì)算公式:
這里的RT代表跟蹤結(jié)果矩形框,RG指相應(yīng)的標(biāo)準(zhǔn)標(biāo)定框。當(dāng)VOR大于指定的閾值時(shí),表示本幀跟蹤成功。假定有跟蹤視頻,其視頻幀數(shù)用length表示,并且定義該視頻第t幀的跟蹤VOR值用Q(t)表示,設(shè)定成功率為S(τ),τ為重疊率閾值,則該視頻的成功率計(jì)算公式如下:
單獨(dú)的重疊率來(lái)評(píng)價(jià)跟蹤結(jié)果不能全面反映各算法表現(xiàn),因此下面我們用中心偏差值來(lái)評(píng)價(jià)各算法跟蹤精度。該方法是通過(guò)判斷跟蹤結(jié)果矩形框的中心坐標(biāo)與標(biāo)準(zhǔn)標(biāo)定框的中心坐標(biāo)之間的距離,其計(jì)算公式如式(26)所示:
上式中D(t)表示第t幀跟蹤結(jié)果矩形框中心坐標(biāo)與標(biāo)準(zhǔn)標(biāo)定矩形框的中心坐標(biāo)之間的距離,xt,yt表示該幀跟蹤框中心坐標(biāo)的橫縱坐標(biāo),xg_t,yg_t表示標(biāo)準(zhǔn)標(biāo)定框的中心坐標(biāo)的橫縱坐標(biāo)。當(dāng)D(t)小于指定閾值時(shí)表示本幀跟蹤成功。則其計(jì)算公式如式(27)所示:
本文根據(jù)上述評(píng)價(jià)方法來(lái)生成各算法的跟蹤成功率對(duì)比圖和跟蹤精度對(duì)比圖,如下圖所示。左圖Success plots of OPE為跟蹤的成功率評(píng)價(jià)圖,圖中橫軸表示重疊率閾值,縱軸對(duì)應(yīng)該重疊率閾值的成功率值;右圖Precision plots of OPE為跟蹤精度評(píng)價(jià)圖,圖中橫軸表示中心偏差閾值,縱軸對(duì)應(yīng)該閾值的成功率值。圖2是我們繪制出的8個(gè)視頻的總的成功率圖和精度圖,本文算法OSELM_FWA用紅色曲線表示,可以看出本文算法無(wú)論是采用重疊率的評(píng)價(jià)方式還是中心偏差的評(píng)價(jià)方式,其綜合跟蹤精度表現(xiàn)良好。圖3~圖9為該評(píng)價(jià)方法基于單個(gè)跟蹤難題的跟蹤效果評(píng)價(jià)圖,從圖中能夠看出本文跟蹤算法在應(yīng)對(duì)背景雜波、平面內(nèi)外旋轉(zhuǎn)、光線變化、部分遮擋、快速運(yùn)動(dòng)和運(yùn)動(dòng)模糊問(wèn)題時(shí)其跟蹤成功率在一定范圍內(nèi)(評(píng)價(jià)指標(biāo)在設(shè)定的閾值范圍內(nèi))趨近于1,相較于幾種傳統(tǒng)算法有一定優(yōu)勢(shì)。
圖2 總體成功率圖和精度圖
圖3 基于背景雜波單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
圖9 基于運(yùn)動(dòng)模糊單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
圖4 基于平面內(nèi)旋轉(zhuǎn)單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
圖5 基于平面外旋轉(zhuǎn)單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
圖6 基于光線變化單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
圖7 基于部分遮擋單項(xiàng)問(wèn)題的跟蹤效果評(píng)價(jià)圖
圖8 基于快速運(yùn)動(dòng)單項(xiàng)問(wèn)題跟蹤效果評(píng)價(jià)圖
跟蹤精度和跟蹤效率是驗(yàn)證跟蹤算法可行的兩個(gè)關(guān)鍵因素,前面圖表已經(jīng)詳細(xì)說(shuō)明算法的跟蹤效果和精度,下面需要說(shuō)明本文算法的跟蹤效率。表2展示各算法的處理幀率,其中本文算法OSELM-FWA的幀率為22,其跟蹤效率不如CT算法的幀率36和IVT算法的幀率26,但是優(yōu)于多數(shù)的對(duì)比算法的效率。因此,本文算法的處理效率還是在可接受的范圍。
表2 算法跟蹤速度對(duì)比表平均FPS幀/s
為了解決復(fù)雜背景下的視頻目標(biāo)跟蹤問(wèn)題,本文提出一種融合極限學(xué)習(xí)機(jī)算法和改進(jìn)煙花算法的混合式目標(biāo)跟蹤技術(shù)。在特征提取方面,該算法利用梯度稀疏矩陣來(lái)獲得圖片特征,并應(yīng)用分區(qū)域的信息提取方式來(lái)提取完整的圖片信息。在分類(lèi)構(gòu)建與更新方面,初始幀利用極限學(xué)習(xí)機(jī)來(lái)構(gòu)建初始分類(lèi)器,后續(xù)幀中利用動(dòng)態(tài)在線極端學(xué)習(xí)機(jī)來(lái)動(dòng)態(tài)更新分類(lèi)器。在運(yùn)動(dòng)模型方面,利用改進(jìn)煙花算法的爆炸搜索方式來(lái)生成獲選目標(biāo)圖像塊。實(shí)驗(yàn)表明,本文算法相較于其他跟蹤算法不僅擁有較高的跟蹤精度,而且還能兼顧跟蹤效率。