王紅霞,晏杉杉
(沈陽理工大學 信息科學與工程學院,沈陽 110159)
近年來,隨著網絡的飛速發(fā)展和多媒體技術的普及,大量日益增長的視頻數(shù)據(jù)不斷進入日常的生活。從海量視頻中尋找所需要的視頻,成為關注的熱點問題。傳統(tǒng)的視頻檢索是基于文本檢索,不僅費時費力,還存在由于人的主觀性標注造成檢索效率低下的問題?;趦热莸囊曨l檢索根據(jù)視頻的低層特征解決了基于文本檢索方法存在的檢索效率不高的問題,相對提高了視頻檢索的查準率和查全率,但依然可以進一步改進。視頻檢索,對視頻進行鏡頭分割是第一步。對視頻進行邊界檢測,將視頻從檢測到的邊界處依次分割開,形成一個個獨立鏡頭的過程即為鏡頭分割。
鏡頭的轉換方式分為突變鏡頭和漸變鏡頭兩種。突變鏡頭算法包括:基于直方圖的鏡頭切變檢測方法、基于像素比較的鏡頭邊界檢測方法、基于邊緣檢測的鏡頭邊界檢測方法和基于壓縮視頻的鏡頭邊界檢測方法。漸變鏡頭算法包括:雙閾值法[1]、模型法、聚類和模糊聚類法。文獻[2]提出了基于多特征的視頻鏡頭檢測方法,降低了閃光序列和字幕邊緣等因素的影響,增強了算法的通用性和魯棒性,但存在自適應閾值難確定的不足。文獻[3]提出基于累積幀的自適應雙閾值鏡頭邊界檢測算法,利用塊匹配補償物體運動,減少了物體運動對鏡頭分割的影響,但存在由于閃光造成的誤差缺陷。文獻[4]提出了基于顏色直方圖的視頻突變鏡頭邊界檢測方法,該方法能有效的檢測突變和漸變,但當運動速度較快時,存在大運動對檢測的影響,導致漏檢和誤檢。針對已有算法存在的不足,本文提出一種基于HSV(Hue、Saturation、Value)和互信息量的視頻鏡頭邊界檢測算法,來提高鏡頭檢測的正確率。
首先選取HSV顏色空間來提取視頻幀的顏色特征。一般情況下,每幀圖像的4個角及4條邊的內容相對中心內容而言,不是非常重要,且?guī)瑘D像底部的字幕或右上角的時間會降低鏡頭邊界檢測的準確性,因此利用分塊加權得到的HSV顏色直方圖通過歐式距離計算相鄰視頻幀間的距離,把大于設定閾值的幀放入鏡頭邊界集合中。由于HSV顏色直方圖具有在背景顏色相似的情況下,無法獲取正確特征和對閃光、平移、旋轉敏感的缺點,因此會導致漏檢或錯檢的情況,影響查全率和查準率。所以,選取信息學特征互信息量來進行二次鏡頭邊界檢測。其次,利用信息熵作為視頻幀間的相似度度量來對通過HSV顏色直方圖法得到的鏡頭邊界集合做二次檢測,計算視頻幀間的相似度,這樣可去除錯檢的鏡頭邊界,得到一組新的鏡頭邊界集合。最后,由于雙閾值法既能檢測鏡頭的突變又能檢測鏡頭的漸變,所以,定義一個較大和一個較小的閾值來分別檢測視頻幀鏡頭的突變和漸變。
顏色信息是圖像的一種重要的視覺特征,且是任何一幅圖像都具有的特征,所以,可以采用顏色特征對視頻進行鏡頭檢測,這需要用到顏色空間模型[5]。常見的顏色空間模型有RGB、CMY/CMYK、HSV和YUV/YIQ/YCrCb模型。通過比較可知,HSV顏色空間更適合比較彩色圖像的相似程度,因此本文選取HSV顏色空間模型,其具有與人類描述色彩方式的一致性和允許對色調、飽和度及強度值的獨立控制等優(yōu)點。
HSV模型是一個由人類感知來描述顏色的均勻顏色空間,利用線性的標尺,彩色之間的距離同HSV模型坐標上點的歐幾里德距離成正比。HSV顏色空間中,H(Hue)表示色調;S(Saturation)表示飽和度;V(Value)表示亮度。色調是指紅、綠、藍、紫等基本色;飽和度是指顏色的純度,鮮紅色飽和度高,粉紅色飽和度低;亮度就是光的強度。
在HSV顏色空間模型中,每種顏色和其補色都相差180°。模型的頂面是V=1,其包含著RGB模型中的R=1、G=1、B=1所對應的三個面。HSV空間的坐標系統(tǒng)可采用六棱錐來表示,如圖1所示。0°對應的是紅色,120°對應的是綠色,240°對應的是藍色。在六棱錐的頂點處,V為0;H與S沒有定義,表示的是黑色。
一般情況下,將視頻進行解壓縮,得到一系列RGB模式的幀圖像,RGB值可直接從幀圖像中得到,通過公式(1)把RGB值轉換為HSV值。
當B≤G時,
當B>G時,
(1)
把HSV顏色空間非等間隔量化為7、2、2個等級,量化公式見式(2)。
K=9H+3S+V
(2)
圖1 HSV顏色空間坐標系圖
如果只是簡單的提取圖像幀的顏色特征,難免會忽略顏色在不同位置的分布情況。一般情況下,圖像幀的主要內容都放在鏡頭中央,無太大意義且無實質影響的部分,則放在四個角落或四邊的邊緣位置。為突出視頻幀的主要內容,減少無關信息對于圖像幀整體特征的影響,可將視頻幀圖像在水平和垂直兩個方向以文獻[6]按1∶6∶1的比例分割成3×3的子塊。此按比例分塊的方法考慮了像素的位置信息,但忽略了每一個分塊的重要性。在很多視頻中,由于鏡頭晃動使圖像幀四周的內容略微改變,但并不出現(xiàn)鏡頭切換,所以,由每一個分塊的重要程度為相應位置以文獻[7]按1∶2∶1、2∶4∶2、1∶2∶1的比例賦予不同權重,權重W可表示為式(3)。
(3)
相鄰幀之間的幀間差值可用對應分塊間的直方圖距離的加權和表示,每對應分塊間的距離見式(4)[8]。
(4)
計算出相鄰兩幀對應分塊間的直方圖差值,分別記為D1、D2、…、D9。則相鄰兩幀間差值Dij由加權系數(shù)和區(qū)間直方圖差值計算得到,見式(5)。
(5)
隨著信息論在視頻檢索領域越來越廣泛的應用,用互信息量[9]MI(Mutual Information)來進行鏡頭檢測的方法越來越普遍?;バ畔⒘渴切畔⒄摾锏囊环N有用的信息度量,可以看成一個隨機變量中包含另一個隨機變量的信息量?;バ畔⑹墙y(tǒng)計兩個隨機變量相關性的測度,具有非負性、獨立性和對稱性?;バ畔⒘恐笍膬蓚€事件中獲得信息量去表現(xiàn)兩個事件的相關性,分析前后兩幀的某種特征的信息量變化來判斷鏡頭變換與否,通過相鄰幀的互信息量的差異比較相似度的指標來檢測鏡頭,這一特性使得其可以很方便的運用到鏡頭分割中。如果兩個關鍵幀的相似性很大,則兩個關鍵幀之間的MI值也很大,反之,MI值較小。
目前,作為圖像配準的一個準則,用互信息量來測量兩個隨機變量,統(tǒng)計相關性。假設X是一個離散型的隨機變量,其n個取值分別為a1、a2、…、an。各個取值出現(xiàn)的概率分別為p1=p(a1)、p2=p(a2)、…、pn=p(an)且p1到pn的概率求和為1,見式(6)。
(6)
隨機變量的出現(xiàn)是不確定的,且出現(xiàn)的概率大小不同,但存在一個概率分布的函數(shù)f(p1,p2,…,pn),在滿足連續(xù)性、等概率時為單調函數(shù)和可加性三個條件時,函數(shù)形式確定,見式(7)。
(7)
通常把式(7)稱為熵,用Hs表示,其可對隨機變量的不確定程度進行度量,用式(8)表示。
(8)
若設定圖像A和B,其互信息量MI可定義為式(9)。
MI(A,B)=Hs(A)+Hs(B)-Hs(A,B)
(9)
式中,Hs(A)和Hs(B)分別為圖像A和B的熵;Hs(A,B)為二者的聯(lián)合熵。
隨機變量X和Y的平均互信息和聯(lián)合熵的關系可表示為式(10)。
I(X,Y)=Hs(X)+Hs(Y)-Hs(XY)
(10)
式中Hs(X)和Hs(Y)分別為X、Y的邊界熵。
平均互信息可通過其信息量和條件熵來定義,見式(11)。
I(X,Y)=Hs(X)+Hs(X|Y)
(11)
將互信息量推廣到二維空間,可求出兩幅圖像之間的互信息量。視頻相鄰兩幀圖像相似性較大,則互信息量較大;相似性較小,互信息量則較小。分別計算相鄰兩幀圖像對應位置HSV的互信息量,見式(12)。
(12)
算法的具體流程如圖2所示。
圖2 算法的具體流程圖
算法步驟如下:
(1)啟動算法,計算所有相鄰視頻幀的幀間差值,求出均值和方差分別為m和σ,T代表閾值,T=m+S×σ,經過大量實驗,S設定為1和7,得到小的最佳閾值為3,大的最佳閾值為6,分別用來檢測漸變和突變。
(2)對視頻幀分塊,加權求和后得到顏色直方圖,用歐式距離得到的幀間差值與較小的閾值3做比較,若幀間差值大于3,則認為鏡頭發(fā)生了變化。
(3)對上述得到的變化鏡頭幀序列進行基于互信息量的二次檢測,若兩幀之間的相似度大于上述得到的幀的平均相似度,則認為此幀為錯檢的幀。
(4)突變檢測,二次檢測后得到的幀序列,若存在第一次檢測時幀間差值大于6的視頻幀,則直接判斷此處為鏡頭切變的位置。
(5)漸變檢測,二次檢測后得到的幀序列中,把第一次檢測到的第一個幀間差值大于3且小于6的幀,判斷可能是漸變鏡頭的起始位置;下一幀幀間差值同樣大于3小于6,以此類推,直到小于3為止,判斷該幀為漸變鏡頭的結束幀;把這一段視頻幀序列作為鏡頭漸變的位置。
本文采用查準率和查全率兩個性能評價指標[10]。根據(jù)式(13)、式(14)對查準率和查全率的定義來衡量算法的性能。
查準率=
(13)
查全率=
(14)
用Matlab做實驗,較小的最佳閾值為3,較大的最佳閾值為6。在確定了最佳閾值后,先對突變鏡頭進行檢測,再對漸變鏡頭進行檢測。在對突變鏡頭進行檢測時,先利用HSV顏色直方圖檢測發(fā)生突變鏡頭的位置,再利用互信息量進行二次檢測,對顏色直方圖得到的結果進行更新。在對漸變變鏡頭進行檢測時,綜合利用兩種特征,進行漸變檢測。
選取10組AVI格式,其中包含淡入、淡出、造化、疊化等編輯手法的不同視頻序列,利用本文提出的算法,來檢測視頻中對突變鏡頭邊界和漸變鏡頭邊界,同時,對手工標注的鏡頭數(shù)得到的查準率和查全率進行比較,驗證本文方法的可行性和準確性,檢測效果如表1所示。
表1 不同視頻段查準率和查全率
從表1實驗數(shù)據(jù)來看,本文提出的鏡頭分割算法對于每一段視頻都得到了較高的查準率和查全率,方法可行。
選取不同方法,對于以上提供的視頻序列求其平均查準率和平均查全率,與本文方法的結果進行比較,結果如表2所示。
表2 不同方法平均查準率和查全率
由表2數(shù)據(jù)可知,本文方法的平均查準率和查全率分別為82.7%和88.5%,本文方法較其它幾種方法,查準率和查全率有一定程度的提高,由此可以得出,本文方法對于鏡頭邊界檢測有較好的適用性。
本文所提出的基于HSV和互信息量的鏡頭邊界檢測算法對于查準和查全都有較好的數(shù)據(jù)顯示;提高了分割鏡頭準確率,對漏檢鏡頭情況有所補充;對于移速較高、光照影響較大的鏡頭存在的錯檢有所改進,為后續(xù)提取關鍵幀的查準率和查全率有一定的借鑒作用。