王疏華+巨志勇+彭彥妮
摘 要:為了能快速識別視頻內(nèi)容并解決現(xiàn)有視頻識別中關(guān)鍵幀冗余問題,提出了一種利用熵值進(jìn)行關(guān)鍵幀提取的新方法。該方法先利用全局圖像熵值對鏡頭進(jìn)行分類,從每個類中選擇具有代表性的關(guān)鍵幀,然后再使用圖像局部特征的熵值剔除已選擇的冗余幀。對幾個不同類別視頻的關(guān)鍵幀提取實(shí)驗(yàn)顯示,提出的算法在關(guān)鍵幀準(zhǔn)確率、冗余幀等指標(biāo)上有很大改善,很大程度上解決了提出的問題。該算法能以更快的方式處理大量的視頻數(shù)據(jù),使電腦能自動提取視頻關(guān)鍵幀,從而識別視頻內(nèi)容。
關(guān)鍵詞:關(guān)鍵幀提?。蝗謭D像熵;局部圖像熵
DOIDOI:10.11907/rjdk.172485
中圖分類號:TP317.4
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)002-0213-03
0 引言
隨著視頻采集和制作設(shè)備的普及,視頻出現(xiàn)了爆炸式增長,急需一種方法對視頻內(nèi)容進(jìn)行分析、分類,使視頻搜索和檢索過程更快。當(dāng)前視頻圖像處理研究集中在視頻內(nèi)容管理的自動化方面,以克服需要人參與的人機(jī)交互系統(tǒng)的缺陷。
視頻分割和關(guān)鍵幀提取是視頻分析和內(nèi)容視頻檢索的基礎(chǔ)。關(guān)鍵幀提取是視頻分析和管理的重要組成部分,為視頻索引、瀏覽和檢索提供合適的視頻摘要。關(guān)鍵幀的使用減少了視頻索引所需的數(shù)據(jù)量,為處理視頻內(nèi)容提供了支撐。
視頻可以定義為數(shù)據(jù)的可視化表示。原始視頻是由多個場景按順序組成,場景又由多個鏡頭按順序組成,鏡頭又是一張張的幀按順序排列表示?,F(xiàn)在大多數(shù)的研究工作都利用了這個視頻結(jié)構(gòu)來進(jìn)行鏡頭分割和關(guān)鍵幀提取[1]。關(guān)鍵幀是可以代表鏡頭突出內(nèi)容和信息的一幀。提取的關(guān)鍵幀必須涵蓋視頻的特征,通過所有按順序提取的關(guān)鍵幀能夠反應(yīng)視頻的內(nèi)容軌跡。對于關(guān)鍵幀的選擇,有許多針對特殊應(yīng)用場景的方法[2]。在檢索視頻的應(yīng)用中,先將視頻按順序細(xì)分為一組較短的片段,每個片段包含相似的內(nèi)容[3]。然后利用這些片段中具有代表性的關(guān)鍵幀來表示這些片段,這大大減少了搜索的數(shù)據(jù)量[4]。然而,按此方法選取的關(guān)鍵幀并不能完全描述片段內(nèi)對象的動作和運(yùn)動。按照場景選擇關(guān)鍵幀可捕捉到大部分內(nèi)容的變化,同時排除多余的幀,但它的結(jié)果可能不是場景中所有幀的最佳匹配[5]。
1 相關(guān)理論
關(guān)鍵幀選擇的基本規(guī)則是,關(guān)鍵幀選擇寧可多選也不能漏掉重要信息幀。因此,在確定關(guān)鍵幀時,有必要丟棄已經(jīng)選擇的重復(fù)或冗余的信息幀[6]。目前的分割和關(guān)鍵幀提取算法可以分類為基于時間的分割,也稱為基于鏡頭的分割和基于對象的分割。
1.1 基于鏡頭的視頻分割
基于鏡頭的視頻分割可以看作是一個數(shù)據(jù)信息提取的過程,通常涉及到時間分割和關(guān)鍵幀提取[7]。時間分割利用一個或多個明顯的特征幀,例如顏色布局、圖像熵值[8]等,將一個視頻序列分類為一組視頻序列。它通常被建模成典型的類別進(jìn)行處理。將一個視頻分為多個類別,并選擇類別中心作為關(guān)鍵幀。還有使用k-means方法[2]提取每個鏡頭的關(guān)鍵幀。在文獻(xiàn)[9]中,使用高斯混合模型(GMM)用于模擬RGB顏色空間中顏色直方圖的時變變化,根據(jù)其特征,將照片中的幀分為幾個類別。對于每個類別,最接近類別圖心的一幀被選擇為一個關(guān)鍵幀,類別的數(shù)量可以由貝葉斯信息標(biāo)準(zhǔn)確定。這種方法的主要缺點(diǎn)是無法自動確定類別的數(shù)量,因此無法自動調(diào)整類別到視頻內(nèi)容。
1.2 基于對象的視頻分割
基于對象的視頻分割通常依賴于應(yīng)用程序,將一個視頻分解成對象和背景。與基于鏡頭的視頻分割不同,基于對象的視頻分割有一個幀作為基本單元,可以在更高語義級別上表示出原始視頻的對象。
基于對象的視頻分割將一個視頻序列分為幾個對象,每個對象都看作視頻中一個模式,由時間或空間表示?;趯ο蟮囊曨l分割方法分為3種:空間優(yōu)先級分割、時間優(yōu)先級分割、空間和時間分割。由于人類視覺的本質(zhì)是在空間和時間域上共同識別出顯著的視頻結(jié)構(gòu),所以目前的研究熱點(diǎn)集中在空間和時間結(jié)合的視頻分割上[10]。因此,空間和時間的像素化特征被提取出來,為對象分割構(gòu)造一個多維特征空間[11]。與利用幀的特征提取關(guān)鍵幀相比,利用顏色直方圖提取關(guān)鍵幀的方法通常計算量更大[12]。
2 混合方法關(guān)鍵幀提取
本文提出的方法是基于全局的圖像熵值,將幀進(jìn)行分類,并從每個類中選擇一個幀作為具有代表性的關(guān)鍵幀。然后利用局部圖像熵值,消除已選擇的冗余幀。系統(tǒng)模型如圖1所示,它由3部分組成:①將視頻分割成鏡頭;②基于熵值的關(guān)鍵幀提?。虎墼谔崛〉膸刑蕹愃频年P(guān)鍵幀。
2.1 視頻分割成鏡頭
將視頻分割為鏡頭是基于對鏡頭邊界的檢測,而對鏡頭邊界檢測又基于快速變換切口檢測。切割是在一個鏡頭和下面一個鏡頭之間的快速過渡,通常對應(yīng)于兩個連續(xù)圖像的顏色和亮度的突然變化。原理是,一個鏡頭中的兩個連續(xù)幀,其背景和對象內(nèi)容不會發(fā)生顯著變化,它們的整體顏色和亮度分布不太一樣。如果有一個場景,在背景顏色和照明顏色發(fā)生戲劇性變化時,會對圖像的顏色等級產(chǎn)生影響,這意味著照片的對象和背景的變化。
基于切口檢測可以將視頻切割成鏡頭,而切口檢修又可以采用直方圖差異、模板匹配、邊緣變化比等多種方法來實(shí)現(xiàn)。利用模板匹配算法對視頻進(jìn)行分段,在此方法中,對兩個連續(xù)幀進(jìn)行像素比對,計算兩個幀之間的相互關(guān)系因子,如果相互關(guān)系因子小于臨界值,則視頻中有一個切割的片段,視頻被分割為鏡頭。
2.2 基于圖像熵值的關(guān)鍵幀提取
本文提出一種基于圖像熵值的關(guān)鍵幀提取方法。算法將幀分成不同類別,每個類別包含一組相似的對象和背景。在這個算法中,幀的內(nèi)容特性的熵值作為一個全局特性。每個類別的中心幀被選為其中一個鏡頭的關(guān)鍵幀。少于二十幀的類別將被忽略,以避免冗余幀。
熵值:從視頻序列中考慮一個典型的幀,其中灰色的數(shù)量被量化為256。hf(k)表示f幀灰度值為k的灰度直方圖的值,按此方法可以將圖像的量化水平表示,其中0
某幀的圖像熵可以定義為出現(xiàn)的灰度值概率和其概率的逆概率對數(shù)的乘積的總和
為了增加類別之間熵值的距離,根據(jù)不同的熵值可以更明顯地將每個幀進(jìn)行分類,將得到的熵值進(jìn)行三次方,
定義為改變后的熵值
Enmf是根據(jù)幀f對應(yīng)的熵值Ennf改變后的熵值。算法(1)的關(guān)鍵幀提取通過計算每一幀修改后的熵值進(jìn)行分類。新的熵值會改變原有的分類,形成新的分類。
2.3 剔除相似的關(guān)鍵幀
通過實(shí)驗(yàn)觀察到,很多時候經(jīng)過關(guān)鍵幀提取后,會得到一些物體和背景重復(fù)不同的視頻片段,例如新聞讀者講述新聞故事,這會導(dǎo)致一個或多個冗余關(guān)鍵幀。為了消除這些冗余的關(guān)鍵幀,將執(zhí)行一個過濾步驟,將其中的每個關(guān)鍵幀與其它剩余的關(guān)鍵幀進(jìn)行比較,查找相同或相似的幀。為了找到兩個相似的關(guān)鍵幀,應(yīng)用局部熵技術(shù)。
在局部熵技術(shù)中,每個幀被劃分為64個單獨(dú)的部分,計算每個獨(dú)立部分的熵值,熵被用作局部特征去除冗余幀。通過這種方法,兩幀之間的變化可以是與整個幀的圖像熵相比較得出,也可以是在局部進(jìn)行對應(yīng)比較得出,從而得到更精確的關(guān)鍵幀。
為了衡量兩個幀的不同之處,要計算兩幀不同部分的熵值標(biāo)準(zhǔn)偏離。如果標(biāo)準(zhǔn)偏離數(shù)值接近零,則這兩幀會被看作相似,這里的第二幀會被當(dāng)作相同幀去除。
兩幀M和N都被分成等分的64份,對每一部分進(jìn)行熵值計算,每個局部的熵值計算也是使用公式(1)。
幀M和N的每個部分(s1,s2、s3…s64)之間的熵值計算如下:
標(biāo)準(zhǔn)的熵值偏離程度代表兩幀非相關(guān)性,計算如下:
3 實(shí)驗(yàn)結(jié)果
將該算法在opencv工作空間中與熵差算法[3]進(jìn)行比較,熵差算法又與5種不同的關(guān)鍵幀提取技術(shù)進(jìn)行關(guān)鍵幀提取比較,如pair-wise像素(P)、x2測試(X T)、似然比(L)、直方圖比較(H C)和連續(xù)的幀差(Cf),實(shí)驗(yàn)結(jié)果見文獻(xiàn)[3]。本文實(shí)驗(yàn)視頻流是AVI格式,幀速率從23幀/秒變化到30幀幀/秒。為了驗(yàn)證算法的有效性,使用來自新聞和電影的測試視頻。視頻片段包括行動(《指環(huán)王》,《星際迷航》)、對話(新聞視頻)插入圖形(新聞視頻),視頻剪輯長度從1分鐘到4分鐘不等。測試的所有視頻片段都進(jìn)行了手動的關(guān)鍵幀提取。以這些手動提取的關(guān)鍵幀作為標(biāo)準(zhǔn),將兩種不同的算法進(jìn)行比較,看提取的百分比精度。表1顯示了不同算法從視頻序列中提取出來的關(guān)鍵幀數(shù)目,圖2顯示了不同算法偏離標(biāo)準(zhǔn)的偏差折線,表2顯示偏離幀數(shù),可以看出本文提出的算法得到的冗余幀數(shù)和熵差算法相對來說比較低,而且能夠檢測到瞬態(tài)變化的存在。在視頻中插入的圖形顯示了算法是在關(guān)鍵幀中顯示的低冗余幀,識別比其它視頻序列要高。
4 結(jié)語
本文提出了一種新的自動關(guān)鍵幀提取方法。該算法對圖像背景和對象可區(qū)分時或鏡頭間變化很明顯時表現(xiàn)很好,當(dāng)視頻序列包含的內(nèi)容是持續(xù)變化或者有插入圖形時,表現(xiàn)有待提高。本文提出的算法優(yōu)勢在于關(guān)鍵幀提取過程中數(shù)據(jù)信息丟失很少(缺少幀的數(shù)量),以及高的緊密性(識別的關(guān)鍵幀數(shù)/視頻中出現(xiàn)的總幀數(shù)),這是關(guān)鍵幀提取的兩大原則,所以本文提出的算法能很好的解決大部分視頻的關(guān)鍵幀提取問題。
參考文獻(xiàn):
[1] GUOZHU LIU, JUNMING ZHAO. Key frame extraction from MPEG video stream, information processing (ISIP)[J]. Third International Symposium,2010(10):423-427.
[2] DAMIAN BORTH, ADRIAN ULGES, CHRISTIAN SCHULZE, et al. Breuel, keyframe extraction for video tagging and summarization[C]. Proceedings of Informatiktage,2008.
[3] MARKOS MENTZELOPOULOS, ALEXANDRA PSARROU. Key-frame extraction algorithm using entropy difference[C]. Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval,2004.
[4] T LIU, H J ZHANG, F QI. A novel video key-frame-extraction algorithm based on perceived motion energy model[C]. IEEE Trans. Circuits Syst. Video Technol,2003:1006-1013.
[5] R HAMMOUD, R MOHR. Probabilistic framework of selecting effective key frames for video browsing and indexing[C]. In International workshop on Real-Time Image Sequence Analysis,2000.
[6] XIAOMU SONG, GUOLIANG FAN. Joint key-frame extraction and object-based video segmentation[C]. Wacv-motion, IEEE Workshop on Motion and Video Computing (WACV/MOTION' 05),2005.
[7] 朱映映,周洞汝.一種基于視頻聚類的關(guān)鍵幀提取方法[J].計算機(jī)工程,2004(4):12-121.
[8] 王方石,須德,吳偉鑫.基于自適應(yīng)閾值的自動提取關(guān)鍵幀的聚類算法[J].計算機(jī)研究與發(fā)展,2005(10):109-114.
[9] 印勇,蔣海娜.優(yōu)化初始聚類中心的關(guān)鍵幀提取[J].計算機(jī)工程與應(yīng)用,2007(21):165-167.
[10] 孫淑敏,張建明,孫春梅.基于改進(jìn)K-means算法的關(guān)鍵幀提取[J].計算機(jī)工程,2012(23):169-172.
[11] 周祥東,李國輝,涂丹,等.一種新的視頻鏡頭分割算法[J].計算機(jī)工程與科學(xué),2004,25(6):5-8.
[12] LO C, WANG S J. A histogram-based moment-preserving clustering algorithm for video segmentation[M]. Pattern recognition,2008.endprint