劉 楊
(中國(guó)礦業(yè)大學(xué) 信息與電氣工程學(xué)院,江蘇 徐州 221116)
?
復(fù)雜場(chǎng)景下基于Radon校正與MSER的文本定位算法研究
劉 楊
(中國(guó)礦業(yè)大學(xué) 信息與電氣工程學(xué)院,江蘇 徐州 221116)
針對(duì)復(fù)雜場(chǎng)景下,由于文字背景復(fù)雜性而帶來的文字定位不準(zhǔn)確的問題,提出了一種Radon傾斜校正與MSER(最大穩(wěn)定極值區(qū)域)結(jié)合的算法,基于該算法識(shí)別出文字在所處復(fù)雜背景中的位置。首先,對(duì)圖像進(jìn)行預(yù)處理,采用Canny算子對(duì)圖像進(jìn)行邊緣檢測(cè),并利用Radon變換對(duì)傾斜圖像進(jìn)行校正。然后通過二進(jìn)小波變換對(duì)圖像進(jìn)行增強(qiáng)處理,去除噪聲。最后提取MSER,經(jīng)過粗處理、細(xì)處理后,檢測(cè)出文本所處位置。實(shí)驗(yàn)結(jié)果表明,基于Radon傾斜校正與MSER結(jié)合的方法,能夠有效提高文本定位的準(zhǔn)確率。
Radon傾斜校正;Canny算子;二進(jìn)小波變換;最大極值區(qū)域;文本定位
對(duì)于簡(jiǎn)單背景中的文字(如文檔圖像),其布局設(shè)計(jì)是相對(duì)固定的,方便讀者閱讀,降低了文本區(qū)域分割的難度[1]。
復(fù)雜場(chǎng)景中,存在著各種豐富的信息,如車牌號(hào)、指示牌等。因此獲取復(fù)雜場(chǎng)景下的文本區(qū)域位置,有利于有效信息的提取。然而,由于光照、拍攝角度、背景過于復(fù)雜等原因,復(fù)雜場(chǎng)景下的文本定位與文字識(shí)別,相對(duì)于簡(jiǎn)單的背景,實(shí)現(xiàn)的難度更高,且識(shí)別的準(zhǔn)確度較低。
文本定位算法,主要包括基于連通域的定位方法、基于紋理特征的定位方法和基于邊緣特征的定位方法。基于上述方法,人們做了大量的研究與應(yīng)用[2-8]。然而上述方法在復(fù)雜場(chǎng)景中,存在文本定位精度不高、算法運(yùn)行較慢等缺點(diǎn)。正是基于上述分析,提出了本文的定位算法。
2.1 算法設(shè)計(jì)
采用Radon傾斜校正與連通域分析相結(jié)合的算法對(duì)復(fù)雜場(chǎng)景中的文字進(jìn)行定位。文字定位算法流程圖如圖1所示。
圖1 算法流程圖
本文算法的文字闡述如下:首先對(duì)圖像進(jìn)行預(yù)處理。由于拍攝角度的問題,所獲得的圖像或多或少會(huì)有一定的傾斜,所以利用Radon傾斜校正,檢測(cè)水平邊和垂直邊,得到校正后的圖像。
預(yù)處理之后得到的仍為彩色圖像,且Radon傾斜校正中利用了Canny邊緣檢測(cè)算子,產(chǎn)生了噪聲,造成圖像部分信息的丟失。所以需要對(duì)圖像進(jìn)行增強(qiáng)處理,即利用二進(jìn)小波變換處理圖像。圖像增強(qiáng)處理之后,需要對(duì)圖像進(jìn)行MSER提取,然后再進(jìn)行粗處理、細(xì)處理,最后通過連通域分析,得到文本區(qū)域在圖像中所處的位置。
2.2 Radon傾斜校正
Radon傾斜校正對(duì)幾何旋轉(zhuǎn)、JPEG壓縮、濾波等有較好的魯棒性[9]。本文采用Canny算子先對(duì)灰度化處理后的圖像進(jìn)行水平和垂直兩個(gè)方向上的邊緣檢測(cè)[10]。經(jīng)過預(yù)處理后,進(jìn)行Radon傾斜校正。
2.3 基于二進(jìn)小波變換的圖像增強(qiáng)算法
經(jīng)過圖像傾斜校正處理后,圖像不可避免地出現(xiàn)了噪聲。為了增加文本區(qū)域定位的準(zhǔn)確率,采用二進(jìn)小波變換算法對(duì)圖像進(jìn)行增強(qiáng)處理[11]。每層的小波分解需要將待分解圖像分解為:水平、垂直方向均是低頻分量,水平低頻、垂直高頻,水平高頻、垂直低頻,水平與垂直均是高頻分量的4個(gè)子帶圖像。并將這4個(gè)子帶圖像分別記為:LL、LH、HL、HH。
二維二進(jìn)小波變換的重構(gòu)公式:
(1)
在圖像處理過程中,增強(qiáng)系數(shù)可以由圖像的噪聲水平與感興趣細(xì)節(jié)所在的尺度來進(jìn)行選擇。設(shè)增強(qiáng)系數(shù)為Wj,i,加入該系數(shù)后,重構(gòu)公式變換為:
(2)
其中,j為尺度系數(shù),i表示LH、HL、HH三個(gè)圖像,可取值為1,2,3。
利用二進(jìn)小波對(duì)圖像進(jìn)行增加處理的主要步驟有:
(1)基于a′trous算法,對(duì)圖像進(jìn)行小波分解。
(2)引入增強(qiáng)系數(shù)Wj,i,得到每層的二進(jìn)小波系數(shù),然后按如下公式變換:
Wi2jf=Wj,i·Wi2jf
(3)
(3)將得到的小波系數(shù)進(jìn)行逆二進(jìn)小波變換,獲得增強(qiáng)處理后的圖像。
2.4 基于MSER(最大極值穩(wěn)定區(qū)域)算法進(jìn)行文本定位
通過二進(jìn)小波,圖像質(zhì)量有了明顯改善。在這之后,通過MSER算法對(duì)圖像中的文本區(qū)域進(jìn)行定位。
2.4.1 MSER提取
MSER算法包括MSER+和MSER-兩個(gè)區(qū)域。添加新增像素點(diǎn)時(shí),判斷其屬于哪個(gè)區(qū)域,并將其合并到該區(qū)域中。當(dāng)像素點(diǎn)越來越多時(shí),區(qū)域不斷增大并彼此合并,然后根據(jù)最大穩(wěn)定條件來判斷該區(qū)域是否為最大極值穩(wěn)定區(qū)域[12]。
2.4.2 粗處理
通過對(duì)MSER的提取,圖像中出現(xiàn)多個(gè)MSER。計(jì)算出每一個(gè)MSER的外界矩形的位置及其高度,同時(shí)分別將這些MSER歸類于對(duì)應(yīng)的MSER+、MSER-。由于復(fù)雜場(chǎng)景中,字符分布同樣符合水平連續(xù)間隔的特性,所以這里采用參考文獻(xiàn)[13]中的粗處理方法。
先分析出每?jī)蓚€(gè)MSER的位置關(guān)系,設(shè)提取到的MSER個(gè)數(shù)為N,則可以得到N×N的矩陣。若第i個(gè)MSER到第j個(gè)MSER間的中心距離滿足條件:
(4)
(5)
則將M[i][j]和M[j][i]的值設(shè)為1。
其中,verticalDistance和horizontalDistance分別表示垂直距離和水平距離。maxPlateWidth和maxPlateHeight分別表示文本區(qū)域可能的最大寬高。
根據(jù)上述分析,所求的候選區(qū)域即為N×N矩陣右上角所有的四領(lǐng)域連通點(diǎn)對(duì)應(yīng)的MSER。
2.4.3 細(xì)處理
對(duì)得到的結(jié)果進(jìn)行連通域分析。圖像中有多個(gè)矩形候選區(qū)域,由先驗(yàn)知識(shí)設(shè)定以下限制:
(1)由于現(xiàn)實(shí)中字符數(shù)都比較多,字符數(shù)小于等于2個(gè)時(shí),認(rèn)定為非文本區(qū)域,將其剔除;
(2)將前景點(diǎn)像素個(gè)數(shù)與候選區(qū)中像素點(diǎn)個(gè)數(shù)之比大于50%的,判斷為非文本區(qū)域,同樣將其剔除;
利用MATLAB仿真平臺(tái),對(duì)本文提出的算法進(jìn)行仿真。圖像經(jīng)過本文算法處理的每一步過程如圖2~圖7所示。
圖2 原圖
圖3 Canny邊緣檢測(cè)
圖4 Radon傾斜校正結(jié)果
圖5 二進(jìn)小波變換
圖6 MSER提取
圖7 文本區(qū)域定位結(jié)果
針對(duì)復(fù)雜場(chǎng)景下文本區(qū)域定位精度不夠的情況,本文提出了基于Radon傾斜校正與MSER相結(jié)合的算法,能降低因拍攝角度不同而對(duì)定位精度造成的影響,采用二進(jìn)小波變換算法對(duì)圖像進(jìn)行增強(qiáng)處理,進(jìn)一步消除噪聲影響,最后利用MSER算法,快速有效地定位出了文本所在區(qū)域。文本區(qū)域的高效定位,有利于后續(xù)文本識(shí)別準(zhǔn)確度的提高。
[1] 賈文靜,曾超,敖永霞,等.室外場(chǎng)景中標(biāo)識(shí)牌文字的檢測(cè)與提取技術(shù)綜述[J].云南民族大學(xué)學(xué)報(bào)(自然學(xué)科版),2010,19(3): 157-161.
[2] 王靜,田洋洋,皇甫海燕.基于連通域閾值的自然場(chǎng)景文本圖像分割技術(shù)[J].新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(1):12-15.
[3] MATAS J, CHUM O, URBAN M, et al. Robust wide-baseline stereo from maximally stable external regions[C].Proceedings of the British Machine Vision Conference, Cardiff, UK, 2002:384-393.
[4] 莫會(huì)宇,王祝萍.一種結(jié)合MSER與SIFT算子的特征檢測(cè)方法[J]. 東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,37(5):624-628.
[5] BAI Y P. BP network based on handwritten digital image feature extraction[J]. Advances in Applied Mathematics, 2014, 3(2):104-111.
[6] 王建,周源華.一種基于紋理能量的JPEG圖像文本定位算法[J].上海交通大學(xué)學(xué)報(bào),2004,38(9):1492-1495.
[7] 何立強(qiáng),劉浩,陳永.邊緣與灰度檢測(cè)相結(jié)合的場(chǎng)景圖像文本定位[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(2):1601-1609.
[8] 賈冬勤,王洪元,程起才.基于自適應(yīng)閾值Canny算子的視頻文本定位方法[J].常州大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,26(1):47-52.[9] 何冰, 王晅, 趙杰. 基于Radon變換的抗旋轉(zhuǎn)攻擊零水印算法[J]. 計(jì)算機(jī)工程, 2009, 35(16):128-129.
[10] 陳宏希.基于邊緣保持平滑濾波的Canny算子邊緣檢測(cè)[J].蘭州交通大學(xué)學(xué)報(bào),2006,25(1):86-90.
[11] 吐爾洪江,艾斯卡爾,吾吉買買提,等. 基于二進(jìn)小波變換的增強(qiáng)技術(shù)[J].新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,25(4):6-13.
[12] 肖誠(chéng)求,吉立新,高超,等.基于樹修剪和多特征融合的場(chǎng)景文本檢測(cè)[J].信息工程大學(xué)學(xué)報(bào),2015,16(5):590-595.
[13] 肖意,姜軍.基于最大穩(wěn)定極值區(qū)域的車牌定位與字符分割[J].計(jì)算機(jī)與數(shù)字工程,2015,43(12):2272-2274.
Research of text localization algorithm based on Radon tilt correction and MSER in complex scenes
Liu Yang
(School of Information and Electrical Engineering, China University of Mining and Technology, Xuzhou 221116, China)
For complex scenes, due to the complexity of the background of text, text positioning is not that accurate. So the Radon tilt correction algorithm combined with the MSER (Maximally Stable Extremal Region) was proposed. Based on the algorithm, text location in complex background can be identified. Firstly, the image pretreatment was carried out, the Canny operator was used to detect the image edge, and the Radon transformation was performed to do the image tilt correction. And then the image was enhanced and noise was removed through dyadic wavelet transformation. Finally MSER should be extracted, and after the processing of coarse and fine processing, the character position will be detected. The experimental results show that the method based on Radon tilt correction and MSER can effectively improve the accuracy of text positioning.
Radon tilt correction; Canny operator; dyadic wavelet transformation; Maximally Stable Extremal Region (MSER);text positioning
TP391.41
A
10.19358/j.issn.1674- 7720.2016.21.013
劉楊. 復(fù)雜場(chǎng)景下基于Radon校正與MSER的文本定位算法研究[J].微型機(jī)與應(yīng)用,2016,35(21):42-44,48.
2016-07-14)
劉楊(1993-),男,本科生,CCF會(huì)員,主要研究方向:圖像處理、網(wǎng)絡(luò)編程、數(shù)據(jù)挖掘。