基于過渡像素的視頻圖像文本檢測(cè)與定位＊

2011-03-06 03:00楊高波張兆揚(yáng)朱寧波

湖南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2011年6期

關(guān)鍵詞：灰度背景像素

楊高波，吳瀟，張兆揚(yáng)，朱寧波

（1.湖南大學(xué)信息科學(xué)與工程學(xué)院，湖南長(zhǎng)沙 410082；

2.上海大學(xué)新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室，上海 200072）

基于過渡像素的視頻圖像文本檢測(cè)與定位＊

楊高波1?，吳瀟1，張兆揚(yáng)2，朱寧波1

（1.湖南大學(xué)信息科學(xué)與工程學(xué)院，湖南長(zhǎng)沙 410082；

2.上海大學(xué)新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室，上海 200072）

提出一種基于過渡像素的視頻流人工文本檢測(cè)與定位算法.該算法在水平和垂直方向上提取過渡像素點(diǎn)，生成過渡圖.通過塊濾波器抑制背景的過渡像素，采用基于密度的快速區(qū)域生長(zhǎng)算法形成候選文本區(qū)域；再利用改進(jìn)的局部二進(jìn)制模型（LBP）驗(yàn)證候選文本區(qū).仿真實(shí)驗(yàn)結(jié)果表明，本文的改進(jìn)算法相對(duì)于Kim算法，字符定位的準(zhǔn)確率更高.

文本處理；視頻流；視頻文本檢測(cè)；過渡圖；區(qū)域生長(zhǎng)；局部二進(jìn)制模型

隨著視頻編輯技術(shù)的發(fā)展，越來越多的視頻在后期制作過程中嵌入文本字符，以幫助觀眾理解［1］.通常，將出現(xiàn)在視頻中的文本分為2類：場(chǎng)景文本和人工文本.視頻文本檢測(cè)和定位是進(jìn)行視頻文本識(shí)別、視頻內(nèi)容自動(dòng)標(biāo)注和基于內(nèi)容視頻檢索的關(guān)鍵.然而，由于視頻場(chǎng)景的背景復(fù)雜，文本顏色不確定以及字體大小多樣等因素，自動(dòng)文本檢測(cè)和定位仍然是有待解決的難題.

目前，視頻文本檢測(cè)的方法可以歸納為3類主流技術(shù)：基于連通域、基于邊緣梯度和基于紋理的方法.基于連通域的方法利用文本區(qū)域字符顏色相似性以及字符筆畫相互連通的特征.Jiang等［2］采用Niblack聚類算法把一幅輸入圖像分解成多尺度聯(lián)通分量，然后所有的聯(lián)通分量通過cascade分類器以及支持向量機(jī)（SVM）進(jìn)行分類與驗(yàn)證.該方法的通用性不夠，因?yàn)橐恍╅撝敌枰鶕?jù)經(jīng)驗(yàn)確定.基于紋理的方法認(rèn)為視頻幀的文本具有特殊的結(jié)構(gòu)且表現(xiàn)出不同的紋理特性.在利用Gabor濾波器［3］、DCT紋理能量［4］或者小波變換［5］計(jì)算圖像紋理特征的基礎(chǔ)上，再通過神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)等分類器劃分文本區(qū)和非文本區(qū).此類方法對(duì)于字體比較小，或者對(duì)比度比較低的文本時(shí)，定位效果不是很理想，而且比較耗時(shí).基于邊緣梯度的方法則利用文本和背景之間具有較高對(duì)比度的特點(diǎn)進(jìn)行文本定位.Wang等［6］提出在鏡頭分割的基礎(chǔ)上，每個(gè)鏡頭內(nèi)每隔30幀進(jìn)行一次文本定位操作.它在文本定位前還結(jié)合進(jìn)行多幀合成得到合成圖像，以提高整幅圖像的質(zhì)量.但是對(duì)于背景比較復(fù)雜，存在較多強(qiáng)邊緣的視頻圖像定位效果不是很理想.文獻(xiàn)［7］對(duì)復(fù)雜視頻場(chǎng)景下的疊加文本，提出了一種提取過渡圖進(jìn)行文本檢測(cè)和定位的方法.相對(duì)于其他方法，該方法可以適應(yīng)不同對(duì)比度的視頻圖像以及不同國(guó)家的文字，同時(shí)對(duì)嵌入在復(fù)雜背景中的文本能夠進(jìn)行更準(zhǔn)確的定位.但從實(shí)驗(yàn)結(jié)果看該方法在獲得過渡像素時(shí)文本區(qū)域像素稀疏，同時(shí)背景區(qū)也會(huì)產(chǎn)生比較多的噪點(diǎn)，給后續(xù)的處理操作增加難度.另外，該方法在形成候選文本區(qū)域時(shí)使用近似形態(tài)學(xué)操作的方法，使得許多非文本區(qū)域也形成連通區(qū)域.

本文針對(duì)文獻(xiàn)［7］的缺陷，提出一種改進(jìn)的文本檢測(cè)和定位算法.它的主要依據(jù)是通過觀察發(fā)現(xiàn)在人工文本和相鄰的背景像素之間存在著過渡像素，可以輔助進(jìn)行文本檢測(cè)和定位.在提取視頻幀過渡圖的基礎(chǔ)上，通過基于密度的區(qū)域生長(zhǎng)算法得到候選文本區(qū)域，結(jié)合連通域分析以及改進(jìn)的LBP模型對(duì)文本區(qū)進(jìn)行判定，再使用過渡圖的水平和垂直映射精確地定位文本區(qū)域.

1 文本定位算法

如圖1所示，通過觀察可以發(fā)現(xiàn)字符和相鄰的背景之間存在過渡像素.而且由于人工文本是后期制作工程中嵌入視頻中去的，所以字符區(qū)域一般具有較高的飽和度.

圖1 字符與背景間的過渡像素Fig.1 Transition pixels between texts and background

1.1 過渡圖生成

由圖1可知，當(dāng)文本區(qū)域的背景比較暗時(shí)，文本亮度一般比較高.這樣，字符和相鄰的背景之間存在像素?fù)p溢，使得字符和相鄰的背景之間產(chǎn)生了過渡像素，而且，相鄰的背景像素、過渡像素和字符像素的灰度值一般呈現(xiàn)出對(duì)數(shù)變化關(guān)系.

當(dāng)視頻圖像對(duì)比度比較低時(shí)，字符邊緣和背景之間的灰度變化比較小.為了能夠有效地檢測(cè)字符和背景間的過渡像素，采用計(jì)算像素飽和度的方法.

文獻(xiàn)［7］在計(jì)算像素灰度變化和飽和度變化時(shí)，只考慮了像素水平方向上的變化.缺點(diǎn)體現(xiàn)在：首先，會(huì)漏掉許多垂直方向的過渡像素，造成候選文本區(qū)過渡點(diǎn)稀疏；其次，當(dāng)文本區(qū)域包含諸“一、二”等水平筆畫較多的中文字符時(shí)無法檢測(cè).此外，文獻(xiàn)［7］要對(duì)每個(gè)像素計(jì)算灰度和飽和度的變化，以判別是否為過渡像素，因此非常耗時(shí).考慮到大多數(shù)視頻圖像的背景區(qū)域灰度變化并不像文本區(qū)域那樣明顯，因此沒有必要逐像素進(jìn)行類似處理.為此，本文在文獻(xiàn)［7］基本思想的基礎(chǔ)上進(jìn)行如下改進(jìn)：

當(dāng)Blocki，（j）為1時(shí)，表示該塊可能含有過渡像素.由于同時(shí)考慮了文本區(qū)域的水平和垂直2個(gè)方向，雖然文本區(qū)域的像素密度增加了，但是背景區(qū)域的過渡點(diǎn)也會(huì)得到加強(qiáng)（如圖2（c）所示）.它既可以提高算法的處理速度，也可以有效地抑制一些對(duì)比度較低的背景過渡點(diǎn).

2）判別過渡像素I（x，y）的方向?yàn)椋?/p>

因?yàn)樽址袼?、過渡像素和背景像素之間灰度以及飽和度的變化呈一種近似指數(shù)的變化關(guān)系，這種變化關(guān)系可以簡(jiǎn)單描述為DH和DL之間有一個(gè)大小為TH的梯度變化.如果像素I（x，y）滿足式（12）的指數(shù)變化約束條件，那么該像素被認(rèn)為是過渡像素.

使用一幅復(fù)雜背景的視頻圖像進(jìn)行實(shí)驗(yàn)比較，結(jié)果如圖2所示.由圖2可知，本文方法得到的過渡圖一方面背景過渡像素減少，同時(shí)文本區(qū)域邊緣更加清晰，從而可以有效地減少背景過渡像素對(duì)文本定位的干擾.

1.2 基于密度的區(qū)域生長(zhǎng)算法

為了把過渡像素形成候選文本區(qū)域，文獻(xiàn)［7］采用了近似形態(tài)學(xué)操作方法.如果過渡圖中2個(gè)非零像素之間的間隙小于圖像寬度的5%，那么這些像素值為1.但是這樣的操作，使得相互靠近的像素不管是文本還是背景都會(huì)連接起來.

圖2 復(fù)雜視頻場(chǎng)景的過渡圖Fig.2 Transition map of complex video

文本區(qū)域是由許多筆畫組成的，在生成過渡圖時(shí)文本區(qū)域必然存在許多過渡像素.也就是說，文本區(qū)域具有很高的密度.因此，本文采用基于密度的區(qū)域生長(zhǎng)算法，得到候選文本區(qū)域.如果一個(gè)像素P（x，y）在它的領(lǐng)域內(nèi)候選像素密度Dens（x，y）超過閾值TD，那么該像素就作為種子像素.本文中，根據(jù)經(jīng)驗(yàn)TD取值為0.25，鄰域大小為11×15.具體算法描述如下：

1）如果像素P（x，y）的密度Dens（x，y）大于閾值TD，則該像素標(biāo)記為種子點(diǎn)；

2）以此種子點(diǎn)為中心，將其大小為7×11領(lǐng)域內(nèi)的像素點(diǎn)標(biāo)記為同一區(qū)域；

3）如果還存在未檢測(cè)的像素，則繼續(xù)尋找下一像素，并轉(zhuǎn)到步驟1）.

不同方法得到的侯選文本區(qū)域的實(shí)驗(yàn)效果如圖3所示.

圖3 候選文本區(qū)比較Fig.3 Comparison of candidate text region

1.3 候選文本區(qū)域提取與判定

連通域的四個(gè)角點(diǎn)（min＿x，min＿y），（max＿x，min＿y），（min＿x，max＿y）和（max＿x，max＿y）可以形成優(yōu)化的候選文本區(qū).接下來，采用一些規(guī)則去除一些虛檢的文本區(qū).當(dāng)連通域面積、長(zhǎng)度或者寬度過小時(shí)被認(rèn)為是虛假文本區(qū)；閾值的選擇通過觀察人工文本的最小尺寸，根據(jù)經(jīng)驗(yàn)選擇.但是對(duì)于背景比較復(fù)雜的視頻圖像就需要一個(gè)更優(yōu)的算法來減少虛檢發(fā)生的概率.我們發(fā)現(xiàn)，由于文本區(qū)域結(jié)構(gòu)復(fù)雜，在過渡像素周圍的灰度變化比較劇烈，文獻(xiàn)［7－8］采用了局部二進(jìn)制模型（LBP）算法描述過渡像素的這種紋理特征.本文在文獻(xiàn)［7］方法的基礎(chǔ)上對(duì)LBP算法進(jìn)行了改進(jìn).傳統(tǒng)的LBP算法是通過比較當(dāng)前像素和周圍像素的大小關(guān)系得到一個(gè)二進(jìn)制模型，即當(dāng)周圍像素的灰度大于當(dāng)前像素時(shí)則賦值為1，當(dāng)小于當(dāng)前像素灰度則賦值為0.但是傳統(tǒng)的算法僅僅考慮大小的方向，卻忽視了大小的程度.傳統(tǒng)的LBP算法如圖4所示.從圖中可以發(fā)現(xiàn)圖4（a）圓周像素和圓心像素之間的差值一般比較大，這就意味著其對(duì)應(yīng)背景邊緣信息比較豐富.而圖4（b）圓周上的像素和圓心像素差值比較小，意味著該像素所在區(qū)域相對(duì)比較平滑.但是圖4（a）LBP值卻小于圖4（b）的LBP值.

本文對(duì)傳統(tǒng)的LBP算法做2點(diǎn)改進(jìn).1）假定當(dāng)前像素灰度值為gc，圓周上某像素灰度為gi.當(dāng)｜gi－gc｜／gc小于閾值T時(shí)，則該像素的二進(jìn)制值就賦為0，否則就賦為1.2）傳統(tǒng)的LBP算法是從圓周上一點(diǎn)開始逆時(shí)針方向旋轉(zhuǎn)，把“0”“1”按照出現(xiàn)的順序排列得到一個(gè)二進(jìn)制模型.假定通過上面方法得到2個(gè)二進(jìn)制“011011”和“100000”，顯然“011011”小于“100000”，但是“011011”所對(duì)應(yīng)的區(qū)域灰度變化顯然又比“100000”所對(duì)應(yīng)的區(qū)域強(qiáng)烈.為了克服上述缺點(diǎn)，本文不再按照“0”和“1”在圓周上出現(xiàn)的順序排列，而是對(duì)得到的二進(jìn)制模型重新排列組合.把所有“0”放在二進(jìn)制的前面，而“1”放在后面.將上述2個(gè)二進(jìn)制重新排列后得到的二進(jìn)制分別為“001111”和“000001”，然后再通過式（14）轉(zhuǎn)化為十進(jìn)制.

圖4 LBP算法流程圖Fig.4 Flowchart of LBP algorithm

計(jì)算人工文本區(qū)域的概率（POT）：1）對(duì)候選文本區(qū)內(nèi)的每一個(gè)過渡像素進(jìn)行LBP操作；2）計(jì)算所有過渡像素具有的不同LBP值的數(shù)量；3）當(dāng)一個(gè)LBP值所對(duì)應(yīng)的過渡像素?cái)?shù)目過少時(shí)，我們認(rèn)為這是噪聲引起的，應(yīng)將總的數(shù)量減1，并且從該區(qū)域中去除這部分過渡像素；4）wi為過渡像素密度，可以通過候選文本區(qū)域過渡像素?cái)?shù)量除以候選區(qū)域面積得到.POT的計(jì)算為：

式中：N為候選文本區(qū)數(shù)量；NOLi為歸一化以后的不同LBP值的過渡像素?cái)?shù)目.若候選文本區(qū)的POT值大于一個(gè)預(yù)先設(shè)定的閾值，則相應(yīng)的候選文本區(qū)就被判定為文本區(qū).這個(gè)閾值根據(jù)大量實(shí)驗(yàn)數(shù)據(jù)設(shè)為0.05.

2 實(shí)驗(yàn)結(jié)果和分析

為了驗(yàn)證本文提出的方法效果，實(shí)驗(yàn)所需的數(shù)據(jù)來自不同類型以及不同背景復(fù)雜度的視頻.視頻大小從320×240到880×480不等，視頻格式為AVI格式.

將本文方法生成的過渡圖和文獻(xiàn)［7］提出方法的過渡圖進(jìn)行比較.從圖2可以清楚地發(fā)現(xiàn)，本文提出方法生成的過渡圖在文本區(qū)域含有豐富的過渡像素，同時(shí)背景區(qū)域檢測(cè)的過渡像素在很大程度上減少很多，故本文提出的方法在檢測(cè)文本區(qū)域時(shí)具有更高的效率.為了測(cè)量2種方法的優(yōu)劣，本文采用查全率（Recall）和查準(zhǔn)率（Precision）2個(gè)指標(biāo)來衡量：

式中：P為使用每一種方法檢測(cè)到的過渡像素集合；T為屬于文本像素的數(shù)量.具體實(shí)驗(yàn)數(shù)據(jù)如表1所示.從表1可以看出，本文方法所生成的過渡圖精確度更高.這樣為后續(xù)的步驟比如基于密度的區(qū)域生長(zhǎng)和采用LBP算法判別候選文本區(qū)等打下了一個(gè)良好的基礎(chǔ)，同時(shí)在處理速度上也得到很大程度的改善，滿足了實(shí)時(shí)性的要求.

表1 2種方法得到的過渡圖數(shù)據(jù)比較Tab.1 Data comparison of two different algorithms

對(duì)本文提出的改進(jìn)LBP算法進(jìn)行評(píng)測(cè).本文改進(jìn)的算法可以保證文本區(qū)域具有較高的LBP值，而背景區(qū)域的LBP值比較低.兩者之間的距離可以用均值差來描述，若均值差越大則意味著文本和背景之間用LBP描述的紋理特征區(qū)別越明顯.

圖5給出了4組圖像，每一組都分別包含一幅文本圖像和一幅背景圖像.對(duì)4組圖像分別求其LBP均值以及差值.背景和文本區(qū)域的均值可以通過加總該區(qū)域內(nèi)的所有像素點(diǎn)的LBP值，然后再除以該區(qū)域面積獲得.本文以第1組圖像為例，給出實(shí)驗(yàn)數(shù)據(jù)如表2所示.

圖5 測(cè)試圖片F(xiàn)ig.5 Test images

表2 LBP均值比較Tab.2 Comparison of LBP-mean

從表2可以看出，改進(jìn)的LBP算法文本區(qū)和背景區(qū)均值之間的差值更大.圖6給出了4組圖像采用2種方法時(shí)的性能比較.從圖6中可以看出，本文算法得到的均值差明顯大于傳統(tǒng)方法獲得的均值差，故本文改進(jìn)的LBP算法更能描述文本和背景的紋理特征.

對(duì)人工文本檢測(cè)結(jié)果進(jìn)行測(cè)評(píng)，來自于不同復(fù)雜視頻場(chǎng)景的人工文本檢測(cè)結(jié)果如圖7所示.從圖7中可以看出，對(duì)于中英文字符的不同字體大小、尺寸、位置以及顏色都能夠很成功地實(shí)現(xiàn)定位.

圖6 2種LBP算法比較Fig.6 Comparison of two different LBP algorithms

圖7 文本檢測(cè)效果Fig.7 The results of text detection

3 結(jié) 語(yǔ)

本文的檢測(cè)方法是基于發(fā)現(xiàn)在人工文本和相鄰的背景之間存在著過渡顏色，在字符、過渡像素以及背景之間像素的灰度和飽和度滿足對(duì)數(shù)變化關(guān)系，從而得到過渡圖.基于密度區(qū)域生長(zhǎng)算法生成候選文本區(qū)，并進(jìn)行邊緣平滑處理，改進(jìn)的LBP算法對(duì)得到的候選區(qū)域進(jìn)行判別.從實(shí)驗(yàn)結(jié)果可以看出，本文方法具有更好的魯棒性.

［1］ SNOEK C G M，WORRING M.Time interval maximum entropy based event indexing in soccer video［C］／／International Conference on Multimedia and Expo，Baltimore：IEEE Press，2003，3：481－484.

［2］ JIANG Ren-jie，QI Fei-hu，Li Xu，etal.A learning-based method to detect and segment text from scene images［J］.Journal of Zhejiang University Science，2007，8（4）：568－574.

［3］ CHEN Xi-lin，YANG Jie，ZHANG Jing，etal.Automatic detection and recognition of signs from natural scenes［J］.IEEE Transactions on Image Processing，2004，13（1）：87－99.

［4］ XU Jiang-bo，JIANG Xiu-hua，WANG Yu-xi.Caption text extraction using dct feature in MPEG compressed video［C］／／WRI World Congress on Computer Science and Information Engineering.Los Angeles：IEEE Press，2009，6：431－434.

［5］李念永，梁艷梅，張舒，等.基于BP神經(jīng)網(wǎng)絡(luò)的復(fù)雜彩色圖像文本定位［J］.光子學(xué)報(bào)，2009，38（10）：431－434.

LI Nian-yong，LIANG Yan-mei，ZHANG Shu，etal.Text location in complex color images based on BP neural network［J］.Acta Photonica Sinica，2009，38（10）：431－434.（In Chinese）

［6］ WANG Rong-rong，JIN Wanjun，WU Li-de.A novel video caption detection approach using multi-frame integration［C］／／Proceedings of the 17th International Conference on Pattern Recognition.Cambridge：IEEE CS Press，2004，1：449－452.

［7］ KIM W，KIM C.A new approach for overlay text detection and extraction from complex video scene［J］.IEEE Transactions on Image Processing，2009，18（2）：401－411.

［8］ OJALA T，PIERIKAINEN M，MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24（7）：971－987.

A Transition Pixels Based Text Detection and Localization for Video Images

YANG Gao-bo1?，WU Xiao1，ZHANG Zhao-yang2，ZHU Ning-bo1

（1.College of Information Science and Engineering，Hunan Univ，Changsha，Hunan 410082，China；

2.Key Lab of Advanced Display and System Applications，Ministry of Education，Shanghai Univ，Shanghai 200072，China）

A transition pixel based detection and localization algorithm was proposed for the artificial texts in the video frame.The transition map was generated by extracting transition pixels in both horizontal and vertical directions.The transition pixels in the background were suppressed by block filtering，and candidate text regions were obtained by intensity based region growing.Finally，the candidate text regions were verified by improved local binary pattern（LBP）.Experiment results have shown that，compared with Kim＇s work，the proposed approach can achieve more accurate text detection and localization.

text processing；video streaming；video character detection；transition map；region growing；local binary model

TP391

1674-2974（2011）06-0069-06＊

2010-09-02

計(jì)算機(jī)信息處理江蘇省重點(diǎn)實(shí)驗(yàn)室開放課題（KJS0921）；圖像處理與圖像通信江蘇省重點(diǎn)實(shí)驗(yàn)室開放課題（ZK207006）；新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目（P200801）；湖南省青年骨干教師培養(yǎng)對(duì)象資助項(xiàng)目

楊高波（1974－），男，湖南岳陽(yáng)人，湖南大學(xué)教授，博士

?通訊聯(lián)系人，E-mail：jt＿gbyang＠hnu.cn

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于過渡像素的視頻圖像文本檢測(cè)與定位＊

1 文本定位算法

1.1 過渡圖生成

1.2 基于密度的區(qū)域生長(zhǎng)算法

1.3 候選文本區(qū)域提取與判定

2 實(shí)驗(yàn)結(jié)果和分析

3 結(jié) 語(yǔ)