基于圖像熵的全局和局部混合方法的關(guān)鍵幀提取

2018-03-10 07:45王疏華巨志勇彭彥妮

軟件導(dǎo)刊 2018年2期

王疏華+巨志勇+彭彥妮

摘要：為了能快速識別視頻內(nèi)容并解決現(xiàn)有視頻識別中關(guān)鍵幀冗余問題，提出了一種利用熵值進(jìn)行關(guān)鍵幀提取的新方法。該方法先利用全局圖像熵值對鏡頭進(jìn)行分類，從每個類中選擇具有代表性的關(guān)鍵幀，然后再使用圖像局部特征的熵值剔除已選擇的冗余幀。對幾個不同類別視頻的關(guān)鍵幀提取實(shí)驗(yàn)顯示，提出的算法在關(guān)鍵幀準(zhǔn)確率、冗余幀等指標(biāo)上有很大改善，很大程度上解決了提出的問題。該算法能以更快的方式處理大量的視頻數(shù)據(jù)，使電腦能自動提取視頻關(guān)鍵幀，從而識別視頻內(nèi)容。

關(guān)鍵詞：關(guān)鍵幀提?。蝗謭D像熵；局部圖像熵

DOIDOI：10.11907/rjdk.172485

中圖分類號：TP317.4

文獻(xiàn)標(biāo)識碼：A 文章編號：1672-7800（2018）002-0213-03

0 引言

隨著視頻采集和制作設(shè)備的普及，視頻出現(xiàn)了爆炸式增長，急需一種方法對視頻內(nèi)容進(jìn)行分析、分類，使視頻搜索和檢索過程更快。當(dāng)前視頻圖像處理研究集中在視頻內(nèi)容管理的自動化方面，以克服需要人參與的人機(jī)交互系統(tǒng)的缺陷。

視頻分割和關(guān)鍵幀提取是視頻分析和內(nèi)容視頻檢索的基礎(chǔ)。關(guān)鍵幀提取是視頻分析和管理的重要組成部分，為視頻索引、瀏覽和檢索提供合適的視頻摘要。關(guān)鍵幀的使用減少了視頻索引所需的數(shù)據(jù)量，為處理視頻內(nèi)容提供了支撐。

視頻可以定義為數(shù)據(jù)的可視化表示。原始視頻是由多個場景按順序組成，場景又由多個鏡頭按順序組成，鏡頭又是一張張的幀按順序排列表示?，F(xiàn)在大多數(shù)的研究工作都利用了這個視頻結(jié)構(gòu)來進(jìn)行鏡頭分割和關(guān)鍵幀提取[1]。關(guān)鍵幀是可以代表鏡頭突出內(nèi)容和信息的一幀。提取的關(guān)鍵幀必須涵蓋視頻的特征，通過所有按順序提取的關(guān)鍵幀能夠反應(yīng)視頻的內(nèi)容軌跡。對于關(guān)鍵幀的選擇，有許多針對特殊應(yīng)用場景的方法[2]。在檢索視頻的應(yīng)用中，先將視頻按順序細(xì)分為一組較短的片段，每個片段包含相似的內(nèi)容[3]。然后利用這些片段中具有代表性的關(guān)鍵幀來表示這些片段，這大大減少了搜索的數(shù)據(jù)量[4]。然而，按此方法選取的關(guān)鍵幀并不能完全描述片段內(nèi)對象的動作和運(yùn)動。按照場景選擇關(guān)鍵幀可捕捉到大部分內(nèi)容的變化，同時排除多余的幀，但它的結(jié)果可能不是場景中所有幀的最佳匹配[5]。

1 相關(guān)理論

關(guān)鍵幀選擇的基本規(guī)則是，關(guān)鍵幀選擇寧可多選也不能漏掉重要信息幀。因此，在確定關(guān)鍵幀時，有必要丟棄已經(jīng)選擇的重復(fù)或冗余的信息幀[6]。目前的分割和關(guān)鍵幀提取算法可以分類為基于時間的分割，也稱為基于鏡頭的分割和基于對象的分割。

1.1 基于鏡頭的視頻分割

基于鏡頭的視頻分割可以看作是一個數(shù)據(jù)信息提取的過程，通常涉及到時間分割和關(guān)鍵幀提取[7]。時間分割利用一個或多個明顯的特征幀，例如顏色布局、圖像熵值[8]等，將一個視頻序列分類為一組視頻序列。它通常被建模成典型的類別進(jìn)行處理。將一個視頻分為多個類別，并選擇類別中心作為關(guān)鍵幀。還有使用k-means方法[2]提取每個鏡頭的關(guān)鍵幀。在文獻(xiàn)[9]中，使用高斯混合模型（GMM）用于模擬RGB顏色空間中顏色直方圖的時變變化，根據(jù)其特征，將照片中的幀分為幾個類別。對于每個類別，最接近類別圖心的一幀被選擇為一個關(guān)鍵幀，類別的數(shù)量可以由貝葉斯信息標(biāo)準(zhǔn)確定。這種方法的主要缺點(diǎn)是無法自動確定類別的數(shù)量，因此無法自動調(diào)整類別到視頻內(nèi)容。

1.2 基于對象的視頻分割

基于對象的視頻分割通常依賴于應(yīng)用程序，將一個視頻分解成對象和背景。與基于鏡頭的視頻分割不同，基于對象的視頻分割有一個幀作為基本單元，可以在更高語義級別上表示出原始視頻的對象。

基于對象的視頻分割將一個視頻序列分為幾個對象，每個對象都看作視頻中一個模式，由時間或空間表示?；趯ο蟮囊曨l分割方法分為3種：空間優(yōu)先級分割、時間優(yōu)先級分割、空間和時間分割。由于人類視覺的本質(zhì)是在空間和時間域上共同識別出顯著的視頻結(jié)構(gòu)，所以目前的研究熱點(diǎn)集中在空間和時間結(jié)合的視頻分割上[10]。因此，空間和時間的像素化特征被提取出來，為對象分割構(gòu)造一個多維特征空間[11]。與利用幀的特征提取關(guān)鍵幀相比，利用顏色直方圖提取關(guān)鍵幀的方法通常計算量更大[12]。

2 混合方法關(guān)鍵幀提取

本文提出的方法是基于全局的圖像熵值，將幀進(jìn)行分類，并從每個類中選擇一個幀作為具有代表性的關(guān)鍵幀。然后利用局部圖像熵值，消除已選擇的冗余幀。系統(tǒng)模型如圖1所示，它由3部分組成：①將視頻分割成鏡頭；②基于熵值的關(guān)鍵幀提?。虎墼谔崛〉膸刑蕹愃频年P(guān)鍵幀。

2.1 視頻分割成鏡頭

將視頻分割為鏡頭是基于對鏡頭邊界的檢測，而對鏡頭邊界檢測又基于快速變換切口檢測。切割是在一個鏡頭和下面一個鏡頭之間的快速過渡，通常對應(yīng)于兩個連續(xù)圖像的顏色和亮度的突然變化。原理是，一個鏡頭中的兩個連續(xù)幀，其背景和對象內(nèi)容不會發(fā)生顯著變化，它們的整體顏色和亮度分布不太一樣。如果有一個場景，在背景顏色和照明顏色發(fā)生戲劇性變化時，會對圖像的顏色等級產(chǎn)生影響，這意味著照片的對象和背景的變化。

基于切口檢測可以將視頻切割成鏡頭，而切口檢修又可以采用直方圖差異、模板匹配、邊緣變化比等多種方法來實(shí)現(xiàn)。利用模板匹配算法對視頻進(jìn)行分段，在此方法中，對兩個連續(xù)幀進(jìn)行像素比對，計算兩個幀之間的相互關(guān)系因子，如果相互關(guān)系因子小于臨界值，則視頻中有一個切割的片段，視頻被分割為鏡頭。

2.2 基于圖像熵值的關(guān)鍵幀提取

本文提出一種基于圖像熵值的關(guān)鍵幀提取方法。算法將幀分成不同類別，每個類別包含一組相似的對象和背景。在這個算法中，幀的內(nèi)容特性的熵值作為一個全局特性。每個類別的中心幀被選為其中一個鏡頭的關(guān)鍵幀。少于二十幀的類別將被忽略，以避免冗余幀。

熵值：從視頻序列中考慮一個典型的幀，其中灰色的數(shù)量被量化為256。hf（k）表示f幀灰度值為k的灰度直方圖的值，按此方法可以將圖像的量化水平表示，其中0

某幀的圖像熵可以定義為出現(xiàn)的灰度值概率和其概率的逆概率對數(shù)的乘積的總和

為了增加類別之間熵值的距離，根據(jù)不同的熵值可以更明顯地將每個幀進(jìn)行分類，將得到的熵值進(jìn)行三次方，

定義為改變后的熵值

Enmf是根據(jù)幀f對應(yīng)的熵值Ennf改變后的熵值。算法（1）的關(guān)鍵幀提取通過計算每一幀修改后的熵值進(jìn)行分類。新的熵值會改變原有的分類，形成新的分類。

2.3 剔除相似的關(guān)鍵幀

通過實(shí)驗(yàn)觀察到，很多時候經(jīng)過關(guān)鍵幀提取后，會得到一些物體和背景重復(fù)不同的視頻片段，例如新聞讀者講述新聞故事，這會導(dǎo)致一個或多個冗余關(guān)鍵幀。為了消除這些冗余的關(guān)鍵幀，將執(zhí)行一個過濾步驟，將其中的每個關(guān)鍵幀與其它剩余的關(guān)鍵幀進(jìn)行比較，查找相同或相似的幀。為了找到兩個相似的關(guān)鍵幀，應(yīng)用局部熵技術(shù)。

在局部熵技術(shù)中，每個幀被劃分為64個單獨(dú)的部分，計算每個獨(dú)立部分的熵值，熵被用作局部特征去除冗余幀。通過這種方法，兩幀之間的變化可以是與整個幀的圖像熵相比較得出，也可以是在局部進(jìn)行對應(yīng)比較得出，從而得到更精確的關(guān)鍵幀。

為了衡量兩個幀的不同之處，要計算兩幀不同部分的熵值標(biāo)準(zhǔn)偏離。如果標(biāo)準(zhǔn)偏離數(shù)值接近零，則這兩幀會被看作相似，這里的第二幀會被當(dāng)作相同幀去除。

兩幀M和N都被分成等分的64份，對每一部分進(jìn)行熵值計算，每個局部的熵值計算也是使用公式（1）。

幀M和N的每個部分（s1，s2、s3…s64）之間的熵值計算如下：

標(biāo)準(zhǔn)的熵值偏離程度代表兩幀非相關(guān)性，計算如下：

3 實(shí)驗(yàn)結(jié)果

將該算法在opencv工作空間中與熵差算法[3]進(jìn)行比較，熵差算法又與5種不同的關(guān)鍵幀提取技術(shù)進(jìn)行關(guān)鍵幀提取比較，如pair-wise像素（P）、x2測試（X T）、似然比（L）、直方圖比較（H C）和連續(xù)的幀差（Cf），實(shí)驗(yàn)結(jié)果見文獻(xiàn)[3]。本文實(shí)驗(yàn)視頻流是AVI格式，幀速率從23幀/秒變化到30幀幀/秒。為了驗(yàn)證算法的有效性，使用來自新聞和電影的測試視頻。視頻片段包括行動（《指環(huán)王》，《星際迷航》）、對話（新聞視頻）插入圖形（新聞視頻），視頻剪輯長度從1分鐘到4分鐘不等。測試的所有視頻片段都進(jìn)行了手動的關(guān)鍵幀提取。以這些手動提取的關(guān)鍵幀作為標(biāo)準(zhǔn)，將兩種不同的算法進(jìn)行比較，看提取的百分比精度。表1顯示了不同算法從視頻序列中提取出來的關(guān)鍵幀數(shù)目，圖2顯示了不同算法偏離標(biāo)準(zhǔn)的偏差折線，表2顯示偏離幀數(shù)，可以看出本文提出的算法得到的冗余幀數(shù)和熵差算法相對來說比較低，而且能夠檢測到瞬態(tài)變化的存在。在視頻中插入的圖形顯示了算法是在關(guān)鍵幀中顯示的低冗余幀，識別比其它視頻序列要高。

4 結(jié)語

本文提出了一種新的自動關(guān)鍵幀提取方法。該算法對圖像背景和對象可區(qū)分時或鏡頭間變化很明顯時表現(xiàn)很好，當(dāng)視頻序列包含的內(nèi)容是持續(xù)變化或者有插入圖形時，表現(xiàn)有待提高。本文提出的算法優(yōu)勢在于關(guān)鍵幀提取過程中數(shù)據(jù)信息丟失很少（缺少幀的數(shù)量），以及高的緊密性（識別的關(guān)鍵幀數(shù)/視頻中出現(xiàn)的總幀數(shù)），這是關(guān)鍵幀提取的兩大原則，所以本文提出的算法能很好的解決大部分視頻的關(guān)鍵幀提取問題。

參考文獻(xiàn)：

[1] GUOZHU LIU， JUNMING ZHAO. Key frame extraction from MPEG video stream， information processing （ISIP）[J]. Third International Symposium，2010（10）：423-427.

[2] DAMIAN BORTH， ADRIAN ULGES， CHRISTIAN SCHULZE， et al. Breuel， keyframe extraction for video tagging and summarization[C]. Proceedings of Informatiktage，2008.

[3] MARKOS MENTZELOPOULOS， ALEXANDRA PSARROU. Key-frame extraction algorithm using entropy difference[C]. Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval，2004.

[4] T LIU， H J ZHANG， F QI. A novel video key-frame-extraction algorithm based on perceived motion energy model[C]. IEEE Trans. Circuits Syst. Video Technol，2003：1006-1013.

[5] R HAMMOUD， R MOHR. Probabilistic framework of selecting effective key frames for video browsing and indexing[C]. In International workshop on Real-Time Image Sequence Analysis，2000.

[6] XIAOMU SONG， GUOLIANG FAN. Joint key-frame extraction and object-based video segmentation[C]. Wacv-motion， IEEE Workshop on Motion and Video Computing （WACV/MOTION' 05），2005.

[7] 朱映映，周洞汝.一種基于視頻聚類的關(guān)鍵幀提取方法[J].計算機(jī)工程，2004（4）：12-121.

[8] 王方石，須德，吳偉鑫.基于自適應(yīng)閾值的自動提取關(guān)鍵幀的聚類算法[J].計算機(jī)研究與發(fā)展，2005（10）：109-114.

[9] 印勇，蔣海娜.優(yōu)化初始聚類中心的關(guān)鍵幀提取[J].計算機(jī)工程與應(yīng)用，2007（21）：165-167.

[10] 孫淑敏，張建明，孫春梅.基于改進(jìn)K-means算法的關(guān)鍵幀提取[J].計算機(jī)工程，2012（23）：169-172.

[11] 周祥東，李國輝，涂丹，等.一種新的視頻鏡頭分割算法[J].計算機(jī)工程與科學(xué)，2004，25（6）：5-8.

[12] LO C， WANG S J. A histogram-based moment-preserving clustering algorithm for video segmentation[M]. Pattern recognition，2008.endprint

軟件導(dǎo)刊2018年2期

軟件導(dǎo)刊的其它文章: 語音識別在旅游領(lǐng)域問句識別中的應(yīng)用; 改進(jìn)的PCA人臉識別算法研究; 數(shù)據(jù)倉庫下基于學(xué)習(xí)的并行實(shí)體解析算法研究; 基于混沌時間序列的模糊神經(jīng)網(wǎng)絡(luò)預(yù)測研究; 基于Kinect傳感器和HOG特征的靜態(tài)手勢識別; 基于用戶模糊聚類的個性化推薦研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于圖像熵的全局和局部混合方法的關(guān)鍵幀提取