夏玉華鞏海梅
(1.山東大學(xué)圖書館,濟南 250100;2.山東建筑大學(xué)圖書館,濟南 250101)
基于字幕文本提取的講座視頻快速瀏覽技術(shù)探討*
夏玉華1鞏海梅2
(1.山東大學(xué)圖書館,濟南 250100;2.山東建筑大學(xué)圖書館,濟南 250101)
圖書館中的視頻資源越來越豐富,為使讀者能夠快速地從海量的視頻資料中找出想要的視頻,并且準確地從視頻中定位到想要的段落,文章根據(jù)講座視頻字幕位置相對固定的特點,采用幀差法提取字幕文本,通過對字幕文本的識別,將檢索詞與視頻內(nèi)容聯(lián)系起來,進而實現(xiàn)讀者快速瀏覽并定位視頻段落的目的。
講座視頻;快速瀏覽;字幕文本提取
近年來,隨著計算機技術(shù)、多媒體技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,學(xué)術(shù)講座越來越普及,講座視頻也應(yīng)運而生。講座視頻不僅是讀者開拓視野、了解學(xué)科前沿、提升綜合素質(zhì)的資源,而且給讀者提供了學(xué)習(xí)時間和空間上的自由度,可以隨時隨地重復(fù)觀看。在山東大學(xué)圖書館多媒體資源中,愛迪科森“網(wǎng)上報告廳”和超星學(xué)術(shù)視頻都收錄了大量的講座視頻。這些視頻中每個視頻包含的內(nèi)容豐富,時長比較長,對于只關(guān)注其中的幾個興趣點的讀者來說,如何快速準確地定位所關(guān)注的視頻內(nèi)容就成為了高效利用視頻資源的關(guān)鍵。雖然現(xiàn)在優(yōu)酷、搜狐等一些大型視頻網(wǎng)站提供了關(guān)鍵幀呈現(xiàn)視頻內(nèi)容的功能,但對于場景相對簡單的講座視頻來說,都不能很好地解決問題。目前,山東大學(xué)圖書館對講座視頻的介紹僅限于專題名、主講人、主講人單位等,如此簡單的介紹遠不能滿足讀者對講座視頻內(nèi)容的檢索需求。因此,讀者如何快速檢索到所需內(nèi)容的視頻實現(xiàn)快速瀏覽成為亟待解決的問題。
字幕文本是對講座視頻內(nèi)容準確的描述,通過對字幕文本的提取和解析,可以實現(xiàn)對視頻內(nèi)容貼切的關(guān)鍵詞描述。目前,視頻的字幕提取算法是國內(nèi)外多媒體技術(shù)領(lǐng)域的研究熱點之一。國內(nèi)主要有基于多示例學(xué)習(xí)的視頻字幕提取算法[1];基于邊緣強度的視頻圖像字幕提取算法[2];基于行顏色梯度分析的視頻字幕區(qū)提取算法[3];基于邊緣和灰度的視頻文字提取方法[4];基于筆畫特征的多方法綜合視頻文本提取算法[5]等。國外主要有基于多層次特征優(yōu)先級的文本提取算法[6];基于分層區(qū)域的圖像模型字幕提取算法[7];利用圖論聚類的視頻字幕提取算法[8]等。
目前,基于文本檢索的技術(shù)已經(jīng)非常成熟。讀者在檢索圖書、期刊、學(xué)位論文、會議論文、專利等文獻時,可通過題名、摘要、關(guān)鍵詞、全文等字段檢索所需文獻。但在檢索視頻時,由于在視頻幀的低級特征,如顏色、紋理、形狀等與其語義特征之間建立準確的對應(yīng)關(guān)系非常困難,因而,往往采取視頻標注的方式。比如北京大學(xué)圖書館對講座視頻的揭示有題名、主要責(zé)任者、內(nèi)容描述、主題關(guān)鍵詞、語種等。其中,“內(nèi)容描述”是編輯人員對視頻內(nèi)容的一個描述,容易引入個人見解,也就是說不同的人對同一視頻的認識和理解可能是不一樣的,那么給出來的描述就不一樣,這會影響對視頻最本質(zhì)的描述。視頻的字幕文本是一類特殊的文本,它是視頻內(nèi)容的文字呈現(xiàn),是源于視頻本身的不帶有任何人主觀因素的描述。從這個角度來說,該文本信息可以對視頻內(nèi)容進行可信的有效描述。此外,這種描述由于能準確記錄視頻內(nèi)容,可以完成低級特征不能表述的語義表達任務(wù),從而有效建立視頻低層特征與高級意義之間的橋梁。同時,字幕在視頻中位置相對固定,文字比較突出,技術(shù)上實現(xiàn)的難度相對小一些。
2.1 講座視頻字幕文本特征分析
視頻文本有兩種:場景文本和字幕文本[9]。場景文本就是視頻中景物上出現(xiàn)的文字,比如講座視頻中的課件、體育視頻中的比分牌等都是在場景內(nèi)出現(xiàn)并由視頻攝制設(shè)備記錄下來的文本。雖然場景文本在一定程度上反映了視頻的內(nèi)容,但字幕文本才是視頻內(nèi)容的準確表述,不但可以作為視頻內(nèi)容的標注,而且可以據(jù)此實現(xiàn)基于內(nèi)容的檢索,定位視頻段落。通過對比分析大量的講座視頻,發(fā)現(xiàn)其字幕文本具有以下特征。
(1)位置相對固定
字幕文本位置通常在視頻幀底部1/4處,且在連續(xù)的多幀圖像中重復(fù)顯示,一般只有顯示和消失兩種變化狀態(tài)。
(2)字符尺寸、間距均勻且相對固定
為滿足講座視頻規(guī)范化的要求,字符大小一致,間距均勻無粘連,易于識別。
(3)顏色、亮度與其背景對比明顯
講座視頻的字幕文本與背景之間一般保持較高的顏色對比度,如文本通常為白色,亮度較高,其背景通常以藍色、深紅色為主,顏色較深,亮度較低。
總之,講座視頻字幕文本的位置、字符尺寸、顏色、亮度及其運動方向都有很好的穩(wěn)定性。
2.2 基于幀差的講座視頻字幕文本提取算法
通過對講座視頻字幕文本的特征分析,提出以下三種字幕文本提取算法,以實現(xiàn)基于內(nèi)容的講座視頻快速瀏覽。
2.2.1 逐幀字幕文本提取算法
逐幀提取字幕文本算法可以做到對講座視頻內(nèi)容的完全揭示,是最簡單實用的算法。但字幕文本是連續(xù)顯示的,字數(shù)多時,顯示的幀數(shù)可達到30~40幀;字數(shù)少時,顯示的幀數(shù)也在5~10幀。此外,由于話語停頓,場景轉(zhuǎn)換等原因,字幕幀之間還有無字幕幀。可見,該算法雖然簡單但重復(fù)計算量大。
2.2.2 等幀數(shù)間隔字幕文本提取算法
由于在講座視頻中,相同的字幕文本是連續(xù)多幀重復(fù)顯示的,因而采取每隔固定數(shù)量的視頻幀提取一幀進行灰度變換、邊緣檢測、二值化一系列處理之后提取字幕文本的方法,即等幀數(shù)間隔字幕文本提取算法。
圖1(a)中的“不可能”,在6幀圖像中重復(fù),圖4-1(b)中的“國際交往中不易隨便探討對方”在30幀圖像中重復(fù),圖1(c)無字幕幀在10幀中重復(fù)。如圖1所示,若間隔幀數(shù)為2幀,則圖1(a)、(b)、(c)中都有視頻幀被重復(fù)提取,若間隔幀數(shù)為28幀,則會漏掉圖1(a)文本幀。可見,幀數(shù)間隔大小難以確定。此外,由于鏡頭切換、話語停頓、場景變換等因素也會影響間隔幀數(shù)的選擇。
2.2.3 基于幀差的字幕文本提取算法
圖1 字幕文本字數(shù)不同的有字幕幀和無字幕幀[10]
圖2 基于幀差的字幕文本提取算法流程圖
根據(jù)講座視頻字幕文本特征分析和對等幀數(shù)間隔字幕文本提取算法、逐幀字幕文本提取算法的比較,提出基于幀差的字幕文本提取算法,如圖2所示。
(1) 灰度變換
視頻幀的灰度變換就是把彩色視頻幀轉(zhuǎn)化為黑白顏色圖像的過程。讀取視頻幀底部1/4,按加權(quán)平均值法進行灰度變換。
當(dāng)R=G=B=L時,
其中,L(x,y)—像素點(x,y)的灰度值;
R(x,y)—像素點RGB顏色的紅色分量;
G(x,y)—像素點RGB顏色的綠色分量;
B(x,y)—像素點RGB顏色的藍色分量。
(2) 幀差運算
通過對逐幀字幕文本提取算法和等幀數(shù)間隔字幕文本提取算法的分析發(fā)現(xiàn),關(guān)鍵是如何過濾掉視頻中的重復(fù)幀。本文采用幀差法,如圖3所示。
圖3 幀差運算
幀差法的基本原理是采用基于像素的時間差分在圖像序列相鄰兩幀通過閉值化來提取圖像中的運動區(qū)域。講座視頻的字幕文本均在視頻幀的底部約1/4范圍內(nèi),此處環(huán)境相對穩(wěn)定。設(shè)定閾值為0.5,那么,如幀差值大于0.5,則把讀入視頻幀作為參考幀,同時該幀進入邊緣檢測處理程序。反之,如果幀差值小于0.5,則認為該幀與參考幀相同,刪除該幀,如此循環(huán)處理。
(3) 邊緣檢測
圖像邊緣是圖像最基本的特征,如何提取對整個視頻場景的識別與理解尤為重要。如圖4所示的Sobel算子,(a)、(b)兩個卷積核形成了Sobel算子。其中,(a)用于提取水平方向上的邊緣,(b)用于提取垂直方向上的邊緣。視頻幀中的每個像素點都用這兩個核做卷積,兩卷積核的最大值就是該像素點的輸出位。這符合講座視頻字幕文本的空間分布和字符本身的特征,因而可以采用Sobel算子進行圖像的邊緣檢測。
此外,Prewitt算子對灰度漸變和噪聲敏感度不高,因此,采用Prewitt算子進行邊緣檢測也是較佳選擇之一。Prewitt算子用卷積模板描述如下:
圖4 Sobel算子
其中,(i,j)為點G(i,j)的像素輸出;
視頻幀中的每個像素點都用Px,Py模板做卷積,其最大值就是該像素點的輸出G(i,j)。
采用Sobel算子和Prewitt算子的邊緣檢測結(jié)果如圖5所示。
(4) 二值化
由于OCR識別軟件通常只能識別黑色或者白色背景下的字符,因此還要對邊緣圖像二值化處理。根據(jù)字符和背景在各區(qū)域內(nèi)灰度特性上具有某種均勻性,選定一個閾值來判斷哪些像素點是屬于字符內(nèi)部的點,哪些像素點是屬于背景的點。二值化圖像的質(zhì)量將直接影響到字幕文本提取的準確度。
本文選用直方圖雙峰法計算閾值,并對圖5中的邊緣檢測圖像進行二值化,結(jié)果如圖6(b)所示。對于圖5,閾值為0.22,若某像素的灰度值小于0.22,則其像素值為0,屬于字符內(nèi)部的點,反之,若某像素的灰度值大于0.22,則其像素值為255,是背景像素點??梢?,二值化的關(guān)鍵是閾值的計算。
圖5 Sobel算子和Prewitt算子邊緣檢測結(jié)果比較
圖6 二值化結(jié)果
2.3 仿真實驗
利用MATLAB8.0軟件實現(xiàn)了基于幀差的字幕文本提取算法。在山東大學(xué)圖書館電子資源的愛迪克森“網(wǎng)上報告廳”中任選50個講座視頻中的200段,截取視頻段長度為15秒~35秒,總時間約90分鐘。圖7只展示其中6段視頻的實驗結(jié)果,實驗結(jié)果見表1。
圖7 實驗視頻
定義評價指標—準確率如式(3)表示。
其中, —準確率;m—OCR軟件正確識別的字幕文本幀數(shù);n—視頻段總幀數(shù)。
從表1可以看出該算法的準確率都在90%以上,滿足了講座視頻基于內(nèi)容建立索引的需要,為實現(xiàn)基于內(nèi)容的視頻快速瀏覽提供了技術(shù)基礎(chǔ)。在驗證該算法的實驗過程中,講座視頻不同,閾值計算方法不同。一方面因為文本背景復(fù)雜,另一方面文本的淡入和淡出也造成了閾值的不穩(wěn)定??梢?,需要在閾值計算時選擇適應(yīng)性更好的方法,同時加入字符檢測的方法,而不僅僅是二值化。
表1 基于幀差的字幕文本提取算法實驗結(jié)果
在對圖書館講座視頻結(jié)構(gòu)特征分析的基礎(chǔ)上,充分利用現(xiàn)有的灰度變換、邊緣檢測、二值化以及閾值計算方法,以幀差的方式提取講座視頻中的字幕文本,通過字幕文本對視頻內(nèi)容進行快速定位。該方法具有實現(xiàn)簡單、計算量小、準確率高等優(yōu)點。對圖書館建立基于內(nèi)容的講座視頻索引,方便讀者根據(jù)內(nèi)容檢索所需視頻并定位視頻段落,實現(xiàn)基于內(nèi)容的視頻快速瀏覽具有現(xiàn)實意義。
[1]周長建.基于多示例學(xué)習(xí)的視頻字幕提取算法研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[2]曹喜信,劉京,楊旭東,等.一種新的視頻字幕提取算法(英文)[J].北京大學(xué)學(xué)報(自然科學(xué)),2013(2):197-202.
[3]李瓊.基于行顏色梯度分析的視頻字幕區(qū)提取算法研究[J].三門峽職業(yè)技術(shù)學(xué)院學(xué)報,2013(2):115-118.
[4]高華.基于邊緣和灰度的視頻文字提取方法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2011.
[5]吳智愷.基于筆畫特征的多方法綜合視頻文本提取算法研究[D].上海:上海交通大學(xué),2010.
[6]CHITRAKALA G, MANJULA D. Multi Level Feature Priority algorithm based text extraction from heterogeneous and hybrid textual image [J]. International Journal of Signal and Imaging Systems Engineering, 2009, 2(4): 183-95.
[7]LEON M, VILAPLANA V, GASULL A, et al. Caption text extraction for indexing purposes using a hierarchical regionbased image model [C]// Proceedings of the 2009 16th IEEE International Conference on Image Processing (ICIP 2009), Cairo, Egypt. USA: IEEE, 2009: 1869-72.
[8]CHUN B T, HAN K, LEE J. Caption extraction in videos using graph-theoretic clustering [C]// CALLAOS N, HERNANDEZENCINAS L, YETIM F. 6th World Multiconference on Systemics, Cybernetics and Informatics. Proceedings, Orlando, FL, USA. USA: Int. Inst. Inf. &Syst., 2002: 57-60.
[9]劉曼曼.基于支持向量機的新聞視頻主題式字幕提取[D].天津:天津大學(xué),2007.
[10]夏玉華.基于高校圖書館學(xué)術(shù)講座視頻的快速瀏覽技術(shù)研究[D].濟南:山東大學(xué),2010.
作者簡介
夏玉華,女,1972年生,山東大學(xué)圖書館館員,研究方向:信息與信號處理、學(xué)科評價。E-mail:377801915@qq.com。
Quick Browsing Approaches to Lecture Videos Based on Caption Text Extraction Algorithms
XIA YuHua1GONG HaiMei2
(1. Library, Shandong University, Ji'nan 250100, China; 2. Library, Shandong Jianzhu University, Ji'nan 250101, China)
With the enrichment of videos in library, in order to help readers to fi nd the exact video from huge number of videos and locate the required segments in the video is essential. In this paper, we propose a scheme, which utilizes the algorithm of frame difference to extract caption text based on the characteristics of its stationary position and bridge the index words to video content via the extracted caption text. Simulations show that the proposed scheme can help readers to locate the required video segments quickly and effectively.
Lecture Videos; Quick Browsing; Caption Text Extraction
G250.76
10.3772/j.issn.1673—2286.2014.04.006
2014-02-06)
*本研究得到國家自然科學(xué)基金項目“基于感知哈希和流形降維的視頻復(fù)制檢測技術(shù)研究”(編號:61001180)資助。