高智勇,喬姝函
(山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院,山東 泰安 271018)
隨著互聯(lián)網(wǎng)的普及和智能時代的到來,視覺傳達技術(shù)得到了飛速發(fā)展,逐漸占據(jù)了視頻圖像處理領(lǐng)域的主導(dǎo)地位,并被廣泛應(yīng)用在影視傳媒和視頻動畫等方面[1]。后繼幀視頻圖像是網(wǎng)絡(luò)視頻活動影像的重要組成部分,對后繼幀網(wǎng)絡(luò)視頻圖像進行多目標跟蹤是視頻制作中的重要環(huán)節(jié)。因此,如何利用視覺傳感技術(shù),對網(wǎng)絡(luò)視頻進行多目標跟蹤成為了該領(lǐng)域的重點研究問題。網(wǎng)絡(luò)視頻中包括多種目標元素,利用視覺傳感技術(shù)對網(wǎng)絡(luò)視頻的運動目標元素的狀態(tài)進行跟蹤,并對其狀態(tài)進行估計[2]。但是當(dāng)網(wǎng)絡(luò)視頻圖像的多目標元素信息較為復(fù)雜時,傳統(tǒng)的視覺傳感技術(shù)獲取的網(wǎng)絡(luò)視頻目標元素較為單一,得到的樣本量較少無法實現(xiàn)對其狀態(tài)的估計,還會受到周遭復(fù)雜環(huán)境的影響,很難保證采集的多目標元素樣本信息的準確度,直接影響網(wǎng)絡(luò)視頻多目標跟蹤結(jié)果的精度[3]。因此對網(wǎng)絡(luò)視頻多目標跟蹤進行仿真,有效提高對網(wǎng)絡(luò)視頻多目標元素跟蹤的精度,這對該領(lǐng)域的發(fā)展具有深遠的現(xiàn)實意義。
陳國軍等人[4]提出了一種基于深度學(xué)習(xí)的水下機器人多目標跟蹤方法。首先利用水下機器人采集水下環(huán)境視頻中的圖像信息,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次,處理了采集的圖像信息,對圖像的深度信息進行精細計算,仿真結(jié)果顯示,該方法可以更準確地獲得水下機器人采集的圖像信息,提高了多目標跟蹤的精度,但是跟蹤效果較差。張明月等人[5]提出了一種基于線性分析和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)視頻多目標跟蹤算法。在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對已經(jīng)采集的圖像樣本進行優(yōu)化改進,利用利用線性網(wǎng)絡(luò)對網(wǎng)絡(luò)視頻跟蹤獲取的目標進行特征表達,采用深度學(xué)習(xí)方法對其進行迭代計算,實現(xiàn)對不同跟蹤區(qū)域的樣本數(shù)據(jù)之間的去冗處理,在與傳統(tǒng)的方法對比表明,改進的算法可以有效提高網(wǎng)絡(luò)視頻多目標跟蹤的準確度。
基于以上研究背景,本文設(shè)計一種網(wǎng)絡(luò)視頻多目標跟蹤方法,從而提高網(wǎng)絡(luò)視頻多目標跟蹤的性能和效果。
假設(shè),在時刻t內(nèi),網(wǎng)絡(luò)視頻圖像(x,y)的像素值為I(x,y,t),那么在t+1時刻,像素值為I(x,y,t+1),利用式(1)給出,時刻t與時刻t+1之間網(wǎng)絡(luò)視頻圖像的像素值差值
ΔI(x,y)={I(x,y,t+1)-I(x,y,t)}
(1)
對上述的式(1)進行歸一化處理,獲得網(wǎng)絡(luò)視頻圖像的權(quán)值T,利用映射原理[6],獲得網(wǎng)絡(luò)視頻圖像多目標可能存在的區(qū)域為
(2)
利用智能算法對網(wǎng)絡(luò)視頻圖像目標的運動信息進行迭代處理[7],得到網(wǎng)絡(luò)視頻圖像的像素點(x,y)在時刻t的屬性信息為I(x,y,t),此時,利用下式給出網(wǎng)絡(luò)視頻圖像的差分方程
uIx+vIy+It=0
(3)
上式中,網(wǎng)絡(luò)視頻圖像的屬性信息I(x,y,t)在x、y、t方向上的微分分別為Ix、Iy、It,u和v表示微分系數(shù)。
利用卷積神經(jīng)網(wǎng)絡(luò)[8],獲取網(wǎng)絡(luò)視頻的多目標跟蹤信息
(4)
(5)
通過上述式(4)和(5),實現(xiàn)對網(wǎng)絡(luò)視頻圖像多目標跟蹤信息的分割
Energyd(Ii,Cj)=((u)2+(v)2)1/2
(6)
結(jié)合形態(tài)學(xué)分析法,有效降低聚類分析區(qū)域的非跟蹤目標數(shù)量,消除非必要跟蹤區(qū)域[9],得到有效識別的網(wǎng)絡(luò)視頻圖像多目標區(qū)域
j=min{j/d(Ii,Cj)}≤θ1
(7)
式中,θ1表示網(wǎng)絡(luò)視頻圖像中兩個像素點之間的最大距離,Ii表示網(wǎng)絡(luò)視頻中的非零像素,Cj表示網(wǎng)絡(luò)視頻中的零像素。
根據(jù)以上過程,獲取網(wǎng)絡(luò)視頻圖像多目標區(qū)域。
智能全景視覺傳感技術(shù)被越來越廣泛地應(yīng)用在獲取網(wǎng)絡(luò)視頻中的目標信息上,雖然目前的智能全景視覺傳感技術(shù)可以實現(xiàn)對網(wǎng)絡(luò)視頻多目標信息的分析和處理,但是還沒有實現(xiàn)網(wǎng)絡(luò)視頻圖像的自主目標跟蹤?;谌耙曈X傳感技術(shù),采集網(wǎng)絡(luò)視頻的多目標特征,對網(wǎng)絡(luò)視頻圖像多目標特征選擇的過程如下式
(8)
式中,A∈K×(m+n)表示多幀網(wǎng)絡(luò)視頻圖像的轉(zhuǎn)換圖像。根據(jù)深度學(xué)習(xí),構(gòu)造其校驗字典。m和n分別代表網(wǎng)絡(luò)視頻圖像的采集樣本個數(shù),網(wǎng)絡(luò)視頻圖像的特征信息用K表示,s為網(wǎng)絡(luò)視頻圖像的特征向量,a代表加權(quán)系數(shù),λ1為網(wǎng)絡(luò)視頻圖像的屬性信息。p∈m+n代表網(wǎng)絡(luò)視頻圖像中每個原子的屬性信息,則得到網(wǎng)絡(luò)視頻圖像的投影矩陣表達式為
(9)
上式(9)中,si1表示網(wǎng)絡(luò)視頻圖像特征向量s內(nèi)的第i1個特征因子,利用深度學(xué)習(xí)字典完成對網(wǎng)絡(luò)視頻目標特征的采集[10],網(wǎng)絡(luò)視頻圖像降維后,得到的字典A′和多目標特征狀態(tài)x′的關(guān)系表達式如下
A′=SA,x′=Sx
(10)
根據(jù)上述的式(10)可以得到K維網(wǎng)絡(luò)視頻圖像的目標特征識別結(jié)果,通過對網(wǎng)絡(luò)視頻圖像目標特征的估計,得到估計值為O1:t={o1,o2,…,ot},用來表示當(dāng)前網(wǎng)絡(luò)視頻圖像中多目標特征的狀態(tài),利用下式(11)完成對多網(wǎng)絡(luò)視頻多目標狀態(tài)xt的核驗
(11)
式中,p(xt∣xt-1)表示網(wǎng)絡(luò)視頻圖像中兩個相鄰運動目標之間的關(guān)系,p(xt-1∣O1:t-1)表示在t-1時刻下網(wǎng)絡(luò)視頻目標特征狀態(tài)xt的核驗概率,p(ot∣xt)表示的是關(guān)聯(lián)函數(shù),代表網(wǎng)絡(luò)視頻采集樣本圖像信息與目標特征之間的關(guān)聯(lián)關(guān)系。利用高斯分布,構(gòu)建網(wǎng)絡(luò)視頻的多目標運動模型[11],表達式如下
p(xt∣xi-1)=N(xt,xt-1,ψ)
(12)
其中,N(·)表示高斯分布,ψ表示協(xié)方差矩陣,xt-1表示網(wǎng)絡(luò)視頻多目標在第j個候選狀態(tài)下的特征函數(shù)表達如下
(13)
(14)
對上述公式進行歸一化處理[13],得到
(15)
(16)
(17)
通過上述的計算,得到網(wǎng)絡(luò)視頻多目標跟蹤信息的最優(yōu)預(yù)測值,通過網(wǎng)絡(luò)視頻中每個目標的跟蹤信息,獲得整個網(wǎng)絡(luò)視頻多目標跟蹤信息,將得到的粒子波最優(yōu)值與上述得到的網(wǎng)絡(luò)視頻多目標跟蹤信息進行關(guān)聯(lián)修正[15],實現(xiàn)對網(wǎng)絡(luò)視頻多目標軌跡的跟蹤,計算公式如下
(18)
綜上所述,將傳感網(wǎng)絡(luò)視頻多目標特征作為狀態(tài)向量,計算并歸一化處理狀態(tài)向量的權(quán)值,通過智能全景視覺傳感網(wǎng)絡(luò)中每個視頻對應(yīng)的圖像,檢測出多目標元素,對狀態(tài)向量權(quán)值和目標位置關(guān)聯(lián),設(shè)計了網(wǎng)絡(luò)視頻多目標跟蹤算法,實現(xiàn)了網(wǎng)絡(luò)視頻的多目標跟蹤。
為了驗證文中多目標跟蹤方法在實際應(yīng)用中的性能和效果,選取網(wǎng)絡(luò)視頻不同幀的屬性信息作為實驗樣本,如表1所示。
表1 實驗樣本的屬性信息
在智能全景視覺傳感網(wǎng)絡(luò)中,視頻多目標跟蹤實驗分兩個階段進行,先利用成功率和正確率指標衡量網(wǎng)絡(luò)視頻多目標跟蹤的性能,計算公式為
(19)
(20)
其中,ROS為成功率指標,?表示視頻圖像特征的正確匹配數(shù),?1,2表示相鄰兩個視頻圖像的正確匹配數(shù),QZ表示跟蹤正確率指標,PS表示正確跟蹤的網(wǎng)絡(luò)視頻圖像幀數(shù),ZS表示跟蹤到的網(wǎng)絡(luò)視頻圖像總幀數(shù)。
接著利用網(wǎng)絡(luò)視頻圖像的跟蹤速度指標衡量網(wǎng)絡(luò)視頻多目標跟蹤的效果,計算公式為
(21)
其中,VS表示跟蹤速度指標,TS表示跟蹤時間。
仿真過程中,引入基于深度學(xué)習(xí)的多目標跟蹤方法和基于卷積神經(jīng)網(wǎng)絡(luò)的多目標跟蹤方法作對比,測試了三種跟蹤方法的性能和效果,結(jié)果如下。
三種方法的多目標跟蹤成功率測試結(jié)果如圖1所示。
從圖1的結(jié)果可以看出,在多目標跟蹤成功率方面,文中跟蹤方法明顯高于其它兩種跟蹤方法,測試得到的跟蹤成功率在85%以上,而其它兩種方法測試得到的成功率指標最高只有70%和80%,說明文中方法在多目標跟蹤成功率方面具有更好的性能。
圖1 多目標跟蹤成功率測試結(jié)果
三種方法的多目標跟蹤正確率測試結(jié)果如圖2所示。
從圖2的結(jié)果可以看出,在多目標跟蹤正確率方面,文中方法的多目標跟蹤正確率都超過了90%,最大跟蹤成功率達到了99.5%,然而基于深度學(xué)習(xí)的多目標跟蹤方法得到的結(jié)果在50%~63%之間,采用基于卷積神經(jīng)網(wǎng)絡(luò)的多目標跟蹤方法時,多目標跟蹤的最大成功率為85%,說明文中跟蹤方法在多目標跟蹤正確率方面同樣具有更好的性能。
圖2 多目標跟蹤正確率測試結(jié)果
三種方法的多目標跟蹤速度測試結(jié)果如圖3所示。
從圖3的結(jié)果可以看出,文中方法在多目標跟蹤速度方面表現(xiàn)出良好的跟蹤效果,在實驗初期,多目標跟蹤速度在40個/s左右,隨后增加到45個/s以上,而其它兩種多目標跟蹤方法得到的跟蹤速度比較低,都在40個/s以下,因此說明文中方法在多目標跟蹤速度方面具有較好的跟蹤效果。
圖3 多目標跟蹤速度測試結(jié)果
本文提出了智能全景視覺傳感網(wǎng)絡(luò)視頻多目標跟蹤方法,經(jīng)測試發(fā)現(xiàn),該跟蹤方法不僅具有更高的跟蹤性能,跟蹤效果也得到了進一步提升。但是本文的研究還存在很多不足,在今后的研究中,希望可以在本文的基礎(chǔ)上,縮短多目標跟蹤時間,從而提高跟蹤效率。