李強(qiáng)軍,李啟南
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
視頻作為信息的一種載體,普遍化程度越來(lái)越高,在各個(gè)領(lǐng)域的應(yīng)用也越來(lái)越廣泛,同時(shí)也伴隨著非法盜版,不健康,暴力等視頻數(shù)據(jù)在網(wǎng)絡(luò)上的肆意流竄。面對(duì)海量視頻數(shù)據(jù),如何快速、有效、準(zhǔn)確地查找出需要的視頻資源,已然成為一個(gè)迫切需要解決的問(wèn)題。在視頻分析處理過(guò)程中,首先是對(duì)鏡頭進(jìn)行分割,然后進(jìn)行視頻幀的分析、提取、檢索等處理。然而后續(xù)處理的效果很大程度上都受鏡頭分割情況的影響,好的鏡頭分割對(duì)于內(nèi)容幀的分析處理是極其重要的。正因?yàn)槿绱?,視頻鏡頭的分析算法受到了越來(lái)越多的關(guān)注和研究[1]。
近年來(lái),研究人員提出了許多鏡頭分割方法。Yeo等[2]提出一種通過(guò)MPEG壓縮視頻的DC序列對(duì)視頻鏡頭邊界進(jìn)行檢測(cè)的算法,但是算法本身的應(yīng)用范圍相對(duì)較窄,對(duì)視頻的變化要求較高。韓冰等[3]提出用粗糙集和模糊聚類的方法檢測(cè)視頻鏡頭邊界,雖然加入了聚類的方法在一定程度上可以提高檢測(cè)效率,但是具體的算法優(yōu)化空間不大。巢娟等[4]提出了基于多閾值檢測(cè)的算法,通過(guò)設(shè)定一個(gè)高閾值和一個(gè)低閾值,將較高的閾值用于切變檢測(cè),較低的閾值用于漸變檢測(cè),該算法復(fù)雜度較低,但是對(duì)噪聲、光線的劇烈變化以及鏡頭或物體的運(yùn)動(dòng)非常敏感。劉嘉琦等[5]利用基于多模態(tài)特征融合的分割算法,對(duì)視頻中的音頻、畫面、主題、文本等進(jìn)行綜合考慮并結(jié)合視頻的結(jié)構(gòu)特征進(jìn)行鏡頭分割,該算法準(zhǔn)確率較高,但是高的準(zhǔn)確率依賴于聲音、圖像、文本等各個(gè)方面的綜合分析,實(shí)現(xiàn)起來(lái)比較復(fù)雜,并且運(yùn)算量大。Mohanta等[6]提出利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)來(lái)獲得鏡頭邊界檢測(cè)模型的算法,但是神經(jīng)網(wǎng)絡(luò)算法本身復(fù)雜度較高,而且神經(jīng)網(wǎng)絡(luò)算法需要的訓(xùn)練集本身要求也較大,對(duì)于短鏡頭的視頻非常容易造成過(guò)學(xué)習(xí)。
視頻由許多連續(xù)顯示的鏡頭構(gòu)成,而鏡頭的連續(xù)顯示主要是通過(guò)連續(xù)切換的方式實(shí)現(xiàn),切換可分為突變切換和漸變切換兩種形式。突變切換在視頻鏡頭的切換過(guò)程中,表現(xiàn)為一個(gè)鏡頭的最后一幀結(jié)束以后直接切換到下一個(gè)鏡頭的第一幀,這種切換方式的相鄰兩個(gè)鏡頭不存在交叉問(wèn)題,并且它們的幀間差比較大,沒(méi)有時(shí)間上的延遲,切換速度快,鏡頭變化明顯;漸變切換相對(duì)來(lái)說(shuō)比較復(fù)雜,在進(jìn)行相鄰鏡頭間的切換時(shí),尾部出現(xiàn)內(nèi)容的淡化變換,存在局部的交叉,通過(guò)時(shí)間上的延遲,漸變到下一個(gè)鏡頭,漸變類型常見(jiàn)的有淡入、淡出、溶解、掃換等方式[7]。
文中提出一種基于自回歸模型和互信息量的鏡頭分割方法,即選用HSV直方圖特征向量,首先在HSV直方圖的基礎(chǔ)上計(jì)算兩幀的互信息量并轉(zhuǎn)換成相似度值,然后通過(guò)計(jì)算的相似度值建立自回歸模型求取判異決策值,從而獲得自適應(yīng)閾值,最后結(jié)合產(chǎn)生的閾值和設(shè)定的幀時(shí)間窗口確定鏡頭的邊界分割。
文中采用文獻(xiàn)[8]中的非均勻分塊加權(quán)HSV直方圖法。按照黃金分割比將整個(gè)視頻的幀T的長(zhǎng)和寬劃分成3×3的不等小子塊,然后計(jì)算每塊小子塊的信息量,再給每塊小子塊賦予不同的權(quán)值,最終對(duì)幀中的所有小塊采取加權(quán)平均,從而計(jì)算出一幀的信息量。加權(quán)矩陣如式1:
(1)
一般對(duì)于兩個(gè)隨機(jī)變量,可以通過(guò)計(jì)算它們的信息量,比對(duì)信息量的相似性來(lái)衡量它們的相似度。在圖像中,信息點(diǎn)被定義為圖像中的像素點(diǎn),信息量則通過(guò)信息點(diǎn)計(jì)算得出,計(jì)算兩幀相似度時(shí),通過(guò)兩幀相互包含對(duì)方信息點(diǎn)的多少,求取相互包含的信息量就可以進(jìn)行幀間差的度量。當(dāng)兩幀圖像的幀差較大時(shí),兩幀圖像內(nèi)容改變比較大,對(duì)應(yīng)的互信息量則較??;當(dāng)兩幀圖像的幀差較小時(shí),兩幀圖像內(nèi)容比較相似,對(duì)應(yīng)的互信息量則較大[9]。設(shè)視頻中兩幀為fa、fa+1,式2定義了幀fa、fa+1在T子塊的互信息量。
(2)
通過(guò)式2的計(jì)算,統(tǒng)計(jì)9個(gè)子塊的互信息量,用式3計(jì)算幀fa、fa+1之間的分塊加權(quán)平均互信息量。
(3)
通過(guò)上面的計(jì)算,得到Ia,a+1,即幀fa、fa+1的互信息量。接著使用上面的結(jié)果計(jì)算出幀fa、fa+1的相似度值,利用文獻(xiàn)[10]中的定義計(jì)算出兩幀fa、fa+1的相似度值,表示為:
(4)
其中,Difa,a+1是幀fa、fa+1的非均勻分塊HSV顏色直方圖的特征差。
自回歸模型(autoregressive model)是用自身做回歸變量的過(guò)程,即利用前期若干時(shí)刻的隨機(jī)變量的線性組合來(lái)描述以后某時(shí)刻隨機(jī)變量的線性回歸過(guò)程,它是時(shí)間序列中的一種常見(jiàn)形式,一般表示為:
Xi=βi-1Xi-1+βi-2Xi-2+…+βi-pXi-p+εi
(5)
其中,Xi為模型變量;βi-1,βi-2,…,βi-p為回歸系數(shù);εi為隨機(jī)誤差;p為階數(shù)。
在視頻幀序列的變化過(guò)程中,鏡頭切換除了突變過(guò)程,其余的可以看作是時(shí)間序列幀的一種漸變過(guò)程。盡管相鄰幀相似度值序列從整體上進(jìn)行觀察時(shí)是不平穩(wěn)的,但在局部上可以看作是統(tǒng)計(jì)學(xué)上近似平穩(wěn)[11]。
文中把這個(gè)近似平穩(wěn)的局部作為滑動(dòng)窗口,選取當(dāng)前鏡頭內(nèi)按時(shí)間順序排列的鄰幀相似度值,作為序列樣本觀測(cè)值S1,S2,…,Sn,階數(shù)為p的自回歸模型如下所示:
(6)
(7)
則有:
Y=Xβ+ε
(8)
由最小二乘法估計(jì)回歸系數(shù),用式9表示為:
(9)
(10)
令
(11)
其中,χ1,χ2,…,χn+1是零均值化后的序列,χn+1為滑動(dòng)窗口后續(xù)的零均值化后的相似度值。
由文獻(xiàn)[12]得,時(shí)間順序排列的鄰幀相似度值序列樣本二階自回歸模型表示為:
χi=β1χi-1+β2χi-2+ei
(12)
(13)
計(jì)算判異決策值λ,表示為:
(14)
最后確定閾值。如果統(tǒng)計(jì)量λ大于或等于閾值,則說(shuō)明鏡頭未進(jìn)行突變切換,反之則出現(xiàn)了突變切換。對(duì)于由計(jì)算得到的統(tǒng)計(jì)量序列{λi},計(jì)算正統(tǒng)計(jì)量的平均值及標(biāo)準(zhǔn)差。
(15)
(16)
鏡頭突變?cè)谝曨l切換中比較特殊,由于前后內(nèi)容未發(fā)生交叉,如圖1的突變給人的主觀感受就像是一種畫面的跳變,它在切換過(guò)程中不存在時(shí)間上的延遲,對(duì)比切換前后,變化非常明確,檢測(cè)也比較容易。
計(jì)算鏡頭內(nèi)的自適應(yīng)閾值k和第i+n、i+n+1幀的相似度值S(fi+n,fi+n+1),將其與k進(jìn)行比較。如果S(fi+n,fi+n+1) 圖1 突 變 淡入和淡出作為漸變的主要形式都有一個(gè)共同特點(diǎn),就是在其變化過(guò)程中,都存在一個(gè)畫面淡化的過(guò)程,因此,可以通過(guò)對(duì)視頻幀相似度值的緩慢變化特性來(lái)檢測(cè)漸變切換的位置[13]。圖2淡入時(shí)視頻段幀間相似度值緩慢增大,圖3淡出時(shí)視頻段幀間相似度值緩慢減小。溶解時(shí)視頻段幀間相似度的變化為圖2和圖3的綜合,表現(xiàn)為幀間相似度先減小后增大或者先增大后減小。 圖2 淡 入 圖3 淡 出 鏡頭漸變切換檢測(cè)的方法如下描述: 計(jì)算鏡頭內(nèi)的自適應(yīng)閾值k和第i+n、i+n+1幀的相似度值S(fi+n,fi+n+1),如果總有S(fi+n,fi+n+1)≥k, 則設(shè)置時(shí)間窗口增加步長(zhǎng)i,并計(jì)算幀fn+1與f2i+n+1的相似度值。這個(gè)過(guò)程中跨過(guò)了漸變幀的連續(xù)變換時(shí)出現(xiàn)的符合閾值的緩慢變化,當(dāng)存在S(fn+1,f2i+n+1) (1)計(jì)算fn+1到f2i+n+1相鄰幀的相似度值集合{S(fn+1,fi+n+1)},接著計(jì)算其均值u。 (17) (2)計(jì)算相似度值的方差σ2。 (18) (4)計(jì)算幀fn+1與f2i+n+1相似度值S(fn+1,fi+n+1)距離k偏移最大的值,并求得偏離最大值的位置為j+n+1處,則認(rèn)為j+n+1處發(fā)生了一次漸變切換,可認(rèn)為j+n+1處為該鏡頭的邊界。 文中采用對(duì)媒體信息檢索的通用指標(biāo)-查全率和準(zhǔn)確率[14]來(lái)評(píng)估視頻鏡頭分割的效果。查全率為正確檢出數(shù)與視頻實(shí)際鏡頭總數(shù)的比值,查準(zhǔn)率為正確檢出數(shù)與檢出的鏡頭總數(shù)之間的比值。實(shí)驗(yàn)開(kāi)發(fā)平臺(tái)為(Java Development Kit)和Eclipse,選用文獻(xiàn)[15-16]的算法驗(yàn)證文中改進(jìn)算法的有效性。實(shí)驗(yàn)視頻均來(lái)自優(yōu)酷網(wǎng)上隨機(jī)抽取下載,抽取的視頻均為不同題材類型,視頻的幀數(shù)也不相同。實(shí)驗(yàn)結(jié)果如表1~3所示。 表1 文中算法結(jié)果 表2 文獻(xiàn)[15]算法(規(guī)范化灰度分布幀差)結(jié)果 表3 文獻(xiàn)[16]算法(基于直方圖的切變鏡頭自動(dòng)檢測(cè))結(jié)果 對(duì)比表1~3可以看出,在查全率上文中方法的表現(xiàn)更為優(yōu)異,對(duì)于不同類型的視頻都具有較好的穩(wěn)定性。類似于“Dota2簡(jiǎn)介視頻”中的內(nèi)容運(yùn)動(dòng)較劇烈,同時(shí)存在閃光燈的影響和許多的淡變切換,使其檢測(cè)過(guò)程中存在一些誤檢,干擾相對(duì)比較大??傮w來(lái)說(shuō),文中方法在視頻鏡頭邊界檢測(cè)過(guò)程的檢測(cè)效果比較明顯,具有一定的有效性。 通過(guò)視頻幀的HSV直方圖互信息量計(jì)算出的相似度值,計(jì)算出鏡頭內(nèi)的自適應(yīng)閾值并結(jié)合時(shí)間窗口,在剔除了閃光燈的影響下,進(jìn)行鏡頭的突變檢測(cè)和漸變檢測(cè)。其中閾值是采用自回歸模型計(jì)算而來(lái),體現(xiàn)了自適應(yīng)性。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)鏡頭邊界檢測(cè)具有良好的檢測(cè)能力。3 漸變檢測(cè)
4 實(shí)驗(yàn)結(jié)果及分析
5 結(jié)束語(yǔ)