郭旦萍
摘要:在視頻和圖像的語義分析中,字幕信息起著重要的作用。該文提出了一種基于角點(diǎn)響應(yīng)的字幕檢測和定位算法,它能有效處理背景復(fù)雜的視頻和圖像中的字幕信息。相對于非字幕區(qū)域而言,在字幕區(qū)域中,經(jīng)常存在密集的邊緣和角點(diǎn),因此,我們可以從字幕區(qū)域獲取相對強(qiáng)的角點(diǎn),而從非字幕區(qū)域,得到相對弱的角點(diǎn)。這些角點(diǎn)給我們的圖像字幕檢測和定位提供了非常有用的信息。然后,利用簡單的閾值機(jī)制,就可以得出字幕候選區(qū)域。再結(jié)合其他的特征,如顏色,連通區(qū)域的大小等,對這些候選區(qū)域進(jìn)行進(jìn)一步的確認(rèn)。最后,借助于角點(diǎn)響應(yīng)對字幕行進(jìn)行精確定位。實(shí)驗(yàn)結(jié)果顯示出我們所提出方法是非常有效的。
關(guān)鍵詞:字幕檢測;字幕定位;角點(diǎn)響應(yīng)
中圖分類號:TN919 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2015)12-0179-03
很多年前,研究者們就已經(jīng)開始關(guān)注視頻和圖像中的字幕檢測。字幕可以提供更多直觀的信息,并且這些信息往往是和視頻內(nèi)容緊密相關(guān)的。因此,利用字幕信息對視頻進(jìn)行語義分析既方便又準(zhǔn)確。但是,只有在精確和有效的檢測出字幕的基礎(chǔ)上,上述這些工作才可能進(jìn)行。
對字幕檢測方面研究方面,現(xiàn)有的方法通??梢苑譃橐韵氯悾?/p>
1)通過設(shè)定一些限制條件,來連接字幕區(qū)域,比如要滿足顏色均勻,一定尺寸大小和空間分布等條件。Jain和Yu結(jié)合了顏色和尺寸范圍兩個(gè)特征來確定視頻幀中的字幕連通區(qū)域[2,3]。這類方法的主要問題是不能普遍應(yīng)用于所有圖像。因?yàn)轭伾叽缫约白煮w形狀在不同的圖像中可能會(huì)有很大的差別。
2)在假設(shè)背景比字幕區(qū)域光滑的前提下,通過邊緣特征或是紋理密度特征就可能區(qū)分開字幕區(qū)域和非字幕區(qū)域。但是,如何減少復(fù)雜背景中的噪聲一直是這類方法的一個(gè)疑難問題。Lyu et al.提出了一種檢測多國語言和多分辨率字幕的方法[4]。他們利用Sobel邊緣圖特征,并采用一個(gè)特定的局部閾值來定位字幕候選區(qū)域。Li et al.提出了一種基于圖像塊中心矩的方法[1]。他們證明可以利用這個(gè)特征來檢測不同大小的字幕。
3)基于機(jī)器學(xué)習(xí)的思想,從字幕區(qū)域和非字幕區(qū)域分別提取出一些特征,來訓(xùn)練支持向量機(jī)(SVM)或神經(jīng)網(wǎng)絡(luò),從而將字幕檢測轉(zhuǎn)化為分類問題。Hu et al.提出了一個(gè)基于范例的自適應(yīng)SVM,是利用最大梯度差和其他連通組件特征對SVM進(jìn)行訓(xùn)練[6]。這種方法的誤檢率相對比較低。基于機(jī)器學(xué)習(xí)方法的不足之處在于,它需要大量不同種類的訓(xùn)練樣本。
本論文提出了一種基于角點(diǎn)響應(yīng)的新字幕檢測和定位方法。通過特殊濾波器提取出圖像中的灰度值角點(diǎn),這個(gè)濾波器的輸出結(jié)果就是角點(diǎn)響應(yīng)。角點(diǎn)響應(yīng)的局部最大值就是著名的Harris角點(diǎn)。雖然角點(diǎn)響應(yīng)不包含角點(diǎn)的精確位置信息,但是它反映了該像素作為一個(gè)拐角點(diǎn)的概率。同時(shí),我們發(fā)現(xiàn)它是一個(gè)非常適用于字幕檢測的特征。它同樣能很好地運(yùn)用于不同的分辨率,因此,也有可能檢測出不同尺寸的字幕。同時(shí),再結(jié)合顏色均勻和連通區(qū)域尺寸兩個(gè)特征,便能達(dá)到很好的檢測結(jié)果。
對比之前的研究工作,我們的研究主要具有以下三方面的優(yōu)點(diǎn):
1)比其他利用邊緣或紋理的方法更魯棒。因?yàn)榻屈c(diǎn)響應(yīng)更有效,并且它在特征提取階段就已經(jīng)減少了噪聲。即使是背景復(fù)雜的圖像,我們也能從中檢測出字幕。
2)它能檢測出大字體字幕,角點(diǎn)響應(yīng)特征無論是在高分辨率還是低分辨率圖像中都能很好地工作。
3)與文獻(xiàn)[5]和[7]中的方法相比,我們的方法更有效。因?yàn)榻屈c(diǎn)響應(yīng)非常容易計(jì)算,并且我們無須知道角點(diǎn)的具體位置。
本論文的架構(gòu)如下:在第2部分,我們提出一種基于角點(diǎn)響應(yīng)的字幕檢測和定位方法;第3部分,主要呈現(xiàn)實(shí)驗(yàn)結(jié)果,并討論;第4部分是最終結(jié)論。
1 檢測和定位字幕區(qū)域
這一部分主要是介紹如何利用角點(diǎn)響應(yīng)找出字幕區(qū)域。主要分為3步:1)在多尺度空間中計(jì)算出角點(diǎn)響應(yīng),并且對這些響應(yīng)進(jìn)行閾值分割,以得到字幕候選區(qū)域。2)結(jié)合顏色和區(qū)域尺寸兩個(gè)特征,對字幕候選區(qū)域進(jìn)行確認(rèn)。3)利用邊界框?qū)ψ帜恍羞M(jìn)行定位。圖1列出了我們整個(gè)方案的總流程圖。
1.1 計(jì)算多尺度角點(diǎn)響應(yīng)
角點(diǎn)是一個(gè)兩維的空間特征點(diǎn),它在區(qū)域邊緣具有高曲率,可以通過尋找局部最大角點(diǎn)響應(yīng)找出區(qū)域邊緣。在參考文獻(xiàn)[7]中,連通區(qū)域就是通過視頻幀中的角點(diǎn)得到的,但是他們利用角點(diǎn)的數(shù)量,而不是角點(diǎn)響應(yīng),來區(qū)分字幕區(qū)域和非字幕區(qū)域。用角點(diǎn)響應(yīng)代替角點(diǎn)數(shù)量,可以帶來以下兩方面的改進(jìn):第一,我們沒必要知道角點(diǎn)的精確坐標(biāo)信息,只需知道圖像的哪部分可能會(huì)有角點(diǎn)。角點(diǎn)響應(yīng)恰是這樣一個(gè)描述角點(diǎn)可能性的特征。第二,每個(gè)像素都可以得到一個(gè)連續(xù)的角點(diǎn)響應(yīng)值,這點(diǎn)非常有利于我們的后續(xù)處理。
在這,我們簡明介紹下角點(diǎn)響應(yīng)的計(jì)算,至于更多的細(xì)節(jié)信息,請參閱文獻(xiàn)[8]。已知圖像[I(x,y)],則計(jì)算角點(diǎn)響應(yīng)的基本等式,如(1)所示。
[CR(x,y)=u,vW(u,v)[I(x+u,y+v)-I(x,y)]2] (1)
其中,[W(u,v)]是窗口函數(shù)。當(dāng)然,角點(diǎn)響應(yīng)也可由下列(2)式近似算出。
[CR(x,y)=A(x,y)B(x,y)-(C(x,y))2-weight*(A(x,y)+B(x,y))2] (2)
其中,[A(x,y)],[B(x,y)]和[C(x,y)]的計(jì)算如下所示:
[A(x,y)=W(u,v)*(?xI(x,y))2] (3)
[B(x,y)=W(u,v)*(?yI(x,y))2] (4)
[C(x,y)=W(u,v)*?xI(x,y)*?yI(x,y)] (5)
上式中,[?xI(x,y)]和[?yI(x,y)]分別是沿x軸和y軸方向的邊緣幅度,可由sobel算子得出。[W(u,v)]是一個(gè)高斯平滑模板,公式如下所示:
[W(u,v)=exp-(u2+v2)/2σ] (6)
其中,[σ]值和模板的尺寸可由我們自己選擇。
圖2 原圖和二值化后的角點(diǎn)響應(yīng)值
圖2中,列出了圖像和它們的相應(yīng)角點(diǎn)響應(yīng)值(如圖b,黑色表示角點(diǎn)響應(yīng)值)。從圖中我們可以看出,字幕區(qū)域可以和背景區(qū)域區(qū)分開,當(dāng)然,復(fù)雜背景也可能會(huì)檢測出來,但是,這些復(fù)雜背景可以通過后續(xù)步驟去除掉。
1.2 篩選字幕候選區(qū)域
基于角點(diǎn)響應(yīng)值得出字幕候選區(qū)域。首先,將圖像分成小塊,在我們的實(shí)驗(yàn)中,選擇塊的大小為[8×8]。然后,計(jì)算出每個(gè)小塊的角點(diǎn)響應(yīng)平均強(qiáng)度值[Mblk]。如果[Mblk]滿足以下等式,則認(rèn)為當(dāng)前塊為字幕候選塊。
[Mblk>Tblk] (7)
式中,[Tblk]是針對于[Mblk]的一個(gè)閾值,其計(jì)算公式如下所示:
[Tblk=1H×Wx=0,y=0H,WCR(x,y)] (8)
這里使用的閾值相對比較低,因?yàn)樵谠S多像素中角點(diǎn)響應(yīng)值為0。這是合理的,我們不希望丟失確實(shí)包含字幕的圖像塊,而由背景產(chǎn)生的噪聲圖像塊可以在后續(xù)步驟中去除。圖3中展示出了字幕候選區(qū)域的篩選結(jié)果。
(a) (b)
1.3 利用顏色特征確認(rèn)字幕區(qū)域
一般圖像中的字幕顏色都一致,同時(shí)它又與背景顏色有區(qū)別。因此,相對于背景來說,字幕間的灰度值偏差較小,并且,字幕與背景的灰度值相差比較大。我們利用這一特性去除噪聲圖像塊。
按下面等式,在每個(gè)候選圖像塊中,將所有像素的角點(diǎn)響應(yīng)值與閾值[TCR]比較,以獲取圖像塊中點(diǎn)[Rt]和[Rb]的一個(gè)集合。
[CR(x,y)≥TCR,(x,y)∈Rt] (9)
[CR(x,y)
然后,按下面等式計(jì)算出[Dev]和[Dis]。式中[g(x,y)]是像素的灰度值。
[Dev=1Nt(x,y) in Rt(g(x,y)-Mt)2] (11)
[Dis=Mt-Mb] (12)
[Mt]和[Mb]分別是集合[Rt]和[Rb]中像素的灰度平均值。
最后,我們確認(rèn)下面條件是否滿足。
[Dis>Tdis Dev
如果滿足,則我們認(rèn)為當(dāng)前圖像塊為字幕圖像塊。圖3(c)和圖3(d)展示出了字幕區(qū)域確認(rèn)后的結(jié)果。雖然存在一些小的噪聲區(qū)域,但只要利用面積和高度之比非常容易就可以去除這些噪聲[3]。
1.4 定位字幕行
經(jīng)過確認(rèn)后,我們已經(jīng)獲得了字幕區(qū)域,但是,該區(qū)域的形狀仍然是不規(guī)則的,仍需要將這些區(qū)域連接成矩形區(qū)域。在視頻中,字幕區(qū)域一般是水平或是垂直排列,我們采用文獻(xiàn)[9,10]提出的方案,利用角點(diǎn)響應(yīng)值對字幕行進(jìn)行精確定位。其具體做法如下:首先,在每個(gè)連通區(qū)域中,找出分別處于最邊緣的四個(gè)像素,并延長成為一個(gè)矩形。然后,利用矩形框?qū)ψ帜恍羞M(jìn)行定位。對矩形框中的每一行和列,分別計(jì)算它們的角點(diǎn)響應(yīng)強(qiáng)度之和,這樣就得出相應(yīng)曲線,利用此進(jìn)行行的劃分。因?yàn)樽帜恢g存在空隙,必須對曲線進(jìn)行平滑,因此,我們采用高斯濾波器對曲線進(jìn)行平滑。最后,利用閾值對矩形框進(jìn)行修訂,精確定位出字幕行。具有的定位結(jié)果如圖4所示。我們發(fā)現(xiàn),如果設(shè)定閾值為峰值的30%時(shí),最后的實(shí)驗(yàn)結(jié)果比較好。
2 實(shí)驗(yàn)結(jié)果
我們所提出的字幕檢測和定位算法針對大量視頻進(jìn)行了測試,包括電視新聞和電影片段等等。這些視頻中的字幕為英語或是中文,分辨率為[320×240]或是[352×288]。
在這里,我們采用了三種最廣泛使用的量化評估指標(biāo):召回率,精度和速度。召回率指的是能正確檢測出真實(shí)字幕的百分比。精度指的是所檢測出的字幕區(qū)域百分之多少是正確的。正確的字幕檢測指的是所檢測出的區(qū)域與該字幕真實(shí)區(qū)域至少有90%的重疊。我們用處理一幅圖像的平均時(shí)間來評估速度。
表1列出了具體的實(shí)驗(yàn)結(jié)果,可以看出,相對于文獻(xiàn)[4]和[5]的研究,在召回率近似的前提下,我們的方法可以達(dá)到更好的精度。原因可以歸納為以下兩方面:首先,角點(diǎn)響應(yīng)相對于其他特征,自身包含更少的噪聲,也就是說,角點(diǎn)響應(yīng)比其他特征更適用于字幕檢測。其次,我們同時(shí)結(jié)合其他特征,比如顏色和區(qū)域大小等,來剔除錯(cuò)誤檢測。相比于文獻(xiàn)[7]中的研究,我們的方法更快,更有效。針對同一幅含有字幕的圖像,我們的方法僅花費(fèi)了30ms來計(jì)算角點(diǎn)響應(yīng),字幕區(qū)域的確認(rèn)和定位也只花了40ms。而文獻(xiàn)[7]的方法,僅僅獲取Harris角點(diǎn)的位置信息就花費(fèi)了75ms,還得至少再花費(fèi)30ms來定位字幕。上述所有的測試是在同一臺(tái)計(jì)算機(jī)上進(jìn)行的,用的也是同一款計(jì)算機(jī)視覺軟件Hdevelop。
3 結(jié)束語
本論文提出了一種基于圖像角點(diǎn)響應(yīng)的字幕檢測和定位方法。我們的方法分為以下3個(gè)基本步驟:第一,根據(jù)圖像塊的角點(diǎn)響應(yīng)平均值對字幕區(qū)域進(jìn)行候選;第二,結(jié)合其他特征對字幕候選區(qū)域進(jìn)行確認(rèn);第三,利用角點(diǎn)響應(yīng)值對字幕行進(jìn)行精確定位。實(shí)驗(yàn)結(jié)果證明了我們所提出的字幕檢測和定位方法是非常有效的。
參考文獻(xiàn):
[1] Li H,Doermann D, Kia O. Automatic text detection and tracking in digital video[J]. IEEE Trans. Image Processing, 2001, 9(1): 147-156.
[2] Yu B ,Jain A. A generic system for form dropout[J]. IEEE Trans. Pattern Analysis And Machine Intelligence, vol. 18, pp. 1127–1134, 1996.
[3] Jain A K, Yu B. Automatic text location in images and video frames[J]. Pattern Recognition, 1998, 31(12): 2055–2076.
[4] Lyu M R, Song J Q A comprehensive method for multilingual video text detection, localization, and extraction[J]. IEEE Trans. Circuits and System for Video Technology, 2005, 15(2): 243–255.
[5] Li Xiaojun, Wang Weiqiang, Shuqiang Jiang, Qingming Huang, and Wen Gao, “Fast and effective text detection[C]// Proc. of the IEEE International Conference on Image Processing (ICIP), 2008.
[6] Hu Shiyan, Chen Minya. Adaptive fre/spl acute/chet kernel based support vector machine for text detection[C]// Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2005.
[7] Xian sheng Hua, Xiang rong Chen, Liu Wenyin, et al. Automatic location of text in video frames[C]// Proceeding of ACM Multimedia 2001 Workshops: Multimedia Information Retrieval (MIR2001), 2005.
[8] Harris C G , Stephens M J. A combined corner andedge detector[C]. Proceeding of the 4th Alvey Vision Conference, 1988: 147-152.
[9] Rainer Lienhart, Axel Wernicke. Localizing and segmenting text in images and videos[J]. IEEE Trans.Circuits and System for Video Technology, 2002,12: 256-267.
[10] Xueming Qian, Guizhong Liu, Huan Wang, and Rui Su, “Text detection, localization, and tracking in compressed video[J]. Signal Processing: Image Communication,2007.22(P):752-768.
[11] 李欽瑞, 呂學(xué)強(qiáng), 李卓 等. 視頻中滾動(dòng)字幕的檢測與跟蹤[J]. 小型微型計(jì)算機(jī)系統(tǒng) ,2015(3):631-636.
[12] 孫波. 數(shù)字圖像角點(diǎn)檢測算法的研究[D]. 合肥: 合肥工業(yè)大學(xué), 2013.
[13] 張洋, 朱明. 基于角點(diǎn)檢測和自適應(yīng)閾值的新聞字幕檢測[J]. 計(jì)算機(jī)工程, 2009(13): 186-187,210.