劉晟橋 牛連強(qiáng) 馮庸
摘要:文本圖像二值化是文本圖像識(shí)別的重要步驟,由于光照不均或文檔水漬等原因?qū)е挛谋緢D像退化,增加了文本圖像識(shí)別的難度。本文對(duì)一種局部閾值算法進(jìn)行了改進(jìn),首先對(duì)圖像進(jìn)行水平投影,根據(jù)直方圖的極小點(diǎn)對(duì)版面進(jìn)行簡(jiǎn)單劃分,再利用全局閾值法估算出更為準(zhǔn)確的各區(qū)域字符筆畫寬度,從而自適應(yīng)地得到適當(dāng)?shù)拇翱诔叽?,再利用?duì)比圖和局部閾值進(jìn)行圖像二值化,并結(jié)合OTSU圖像消除原算法產(chǎn)生的偽輪廓。實(shí)驗(yàn)與分析表明,改進(jìn)后的方法能夠明顯消除因筆畫粗細(xì)不均、字符大小不同而產(chǎn)生的前景像素誤識(shí)問題。
關(guān)鍵詞:文本圖像;二值化;局部閾值;退化圖像
[中圖分類號(hào)]TP391 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]
Abstract: Document image binarization is an important procedure for the document image recognition. Degraded document images with uneven illumination or stains often make document recognition hard. In this paper, a local thresholding binarization technique is improved: the image is firstly horizontally projected to segment the image primarily according to the minimum points of histogram. Then more precise text stroke width of different sections is estimated by using global thresholding method, and this makes proper window sizes to be gained adaptively. Finally, the false contour is eliminated by combining with the optimized OTSU image. Experiments and analyses show that the misclassification rate of the foreground pixels caused by uneven text stroke width and different-sized characters is able to be reduced significantly by our approach.
Key Words: document image; binarization; local threshold; degraded images
文本圖像二值化是光學(xué)字符識(shí)別(OCR)等任務(wù)中的一個(gè)重要而基本的處理過程,目的是準(zhǔn)確地分割出圖像中的前景和背景。盡管此問題已經(jīng)過了長(zhǎng)期研究,也提出了許多實(shí)用算法,但由于文本圖像的多樣性,尤其是存在著筆畫不均、光照不均、污染以及因采集自古籍而使對(duì)比度變差等多種原因,迄今尚未找到一種普適的算法。鑒于問題的重要性,自2007年始,國(guó)際上連續(xù)舉辦了多屆專門的文本圖像二值化競(jìng)賽,以推動(dòng)高質(zhì)量的二值化算法研究[1-2]。
根據(jù)閾值的選擇不同,二值化方法主要分為全局閾值法和局部閾值法兩類,甚至還存在個(gè)別混合方法。其中,全局閾值僅用一個(gè)閾值將圖像的前景與背景分割開,典型代表是OTSU(大津)法[3]。通常,在低對(duì)比度和光照不均的條件下,全局閾值法的抗噪能力表現(xiàn)較差。而對(duì)于退化的、質(zhì)量較低的圖像,局部閾值法則更為適用,根本原因在于可以通過當(dāng)前像素點(diǎn)的局部鄰域窗口動(dòng)態(tài)計(jì)算合適的局部閾值。時(shí)下,存在諸多頗具實(shí)用性的局部閾值法,如Bernsen法[4]、Niblack法和Sauvola法等[5],這些算法分別采用鄰域像素的最大值和最小值、鄰域局部均值和局部標(biāo)準(zhǔn)差來計(jì)算閾值,尤其是Sauvola法考慮了前景像素的灰度值接近0而背景像素的灰度值接近255的特點(diǎn)。在近期的幾次國(guó)際競(jìng)賽中,更有研究者提出了一些卓具實(shí)效的處理退化圖像的局部閾值二值化方法[6-14]。諸如,Bolan Su、Shijian Lu等提出了基于背景估計(jì)和筆劃寬度估計(jì)的二值化方法[6-7],Howe 提出了一種通過優(yōu)化兩個(gè)關(guān)鍵參數(shù)來改進(jìn)二值化方法的技術(shù)[8],而Mesquita 等人則有針對(duì)性地提出了對(duì)一些算法進(jìn)行融合和自動(dòng)調(diào)節(jié)上述參數(shù)的有效可行方法[9]。這些算法在國(guó)際競(jìng)賽上提供的測(cè)試圖像集上取得了良好效果,呈現(xiàn)了顯著突出優(yōu)勢(shì)。通常,局部閾值法較全局閾值法要消耗更多的時(shí)間。
本文主要工作是對(duì)Bolan Su方法的改進(jìn),包括3個(gè)方面。其一是利用OTSU法的二值化圖像替代原文中利用原圖結(jié)合筆畫邊界圖估計(jì)最佳筆畫寬度,以降低算法復(fù)雜性及非筆畫邊界像素的影響,使筆畫寬度更準(zhǔn)確。其次,對(duì)目標(biāo)圖像進(jìn)行簡(jiǎn)單版面分割,對(duì)不同區(qū)域采取不同的寬度,以適應(yīng)字符尺寸和筆畫粗細(xì)的變換。最后,利用大津法重新校正二值化圖像,以消除原方法中的偽輪廓。簡(jiǎn)言之,改進(jìn)后的算法能夠自適應(yīng)地采取更為精當(dāng)?shù)墓P畫寬度,有效地消除在筆畫粗細(xì)不均、文字尺寸變化較大時(shí)存在的筆畫中心像素不能被正確識(shí)別為前景,以及窗口寬度不當(dāng)引起的噪聲等問題。
1 相關(guān)工作
與一般的局部閾值方法不同,Bolan Su算法[6]是一種基于對(duì)比圖和筆畫寬度估計(jì)的二值化算法。通常,退化圖像中常存在噪聲多、不均勻光線照射、透背等現(xiàn)象,致使圖像中的筆畫邊緣模糊。為此,算法首先使用圖像梯度來更加精確地確定邊緣:
其中,Emean和Estd分別是在一個(gè)鄰域窗口中筆畫邊緣像素點(diǎn)的灰度的平均值和標(biāo)準(zhǔn)差。
分析和實(shí)驗(yàn)發(fā)現(xiàn),此算法對(duì)筆畫寬度相當(dāng)敏感,因?yàn)楣P畫寬度關(guān)系著鄰域窗口的寬度,而鄰域窗口是否能包含邊緣像素則決定了算法的正確性。但是,算法對(duì)筆畫寬度的估計(jì)本身的準(zhǔn)確性不夠,作者在文中建議要適當(dāng)增加,更重要的是,即便筆畫寬度的估計(jì)值是準(zhǔn)確的,當(dāng)筆畫粗細(xì)不均、字符大小變化較多時(shí),仍會(huì)存在鄰域窗口不能覆蓋邊緣像素的情況,致使筆畫中間的像素被誤識(shí)為背景。
2 利用OTSU法估計(jì)筆畫寬度
在Bolan Su算法中,為了保證能夠裝入筆畫邊緣像素點(diǎn),鄰域窗口至少就要比區(qū)域筆畫寬度更大。所以鄰域窗口的尺寸要基于退化文本圖像的區(qū)域筆畫寬度來確定設(shè)置,但卻并不需要一個(gè)精確的筆畫寬度。不過,如果窗口寬度過大,即會(huì)造成二值化后的圖像噪聲增多,為后續(xù)處理帶來困難。
原文采用邊緣圖像計(jì)算筆畫寬度,但這種圖像是由像素梯度變換而來,在真實(shí)筆畫內(nèi)外均包含大量的離散點(diǎn)及噪聲,致使算法復(fù)雜且計(jì)算準(zhǔn)確性差。為此,本文首先對(duì)原圖像使用OTSU法,獲得相應(yīng)的二值圖像。其次,對(duì)二值圖像進(jìn)行中值濾波,消除噪聲。最后,遍歷圖像,計(jì)算水平前景線段寬度并構(gòu)造直方圖,取最大值為筆畫寬度。算法1描述了筆畫寬度估計(jì)方法。
算法1 筆畫寬度估計(jì)
實(shí)驗(yàn)說明,對(duì)于P02和P03這類字符尺寸相差較大的文本圖像,改進(jìn)后的算法能夠自動(dòng)適應(yīng)筆畫粗細(xì)的變化,基本不存在將前景點(diǎn)誤識(shí)為背景點(diǎn)的現(xiàn)象,而原算法關(guān)于此點(diǎn)卻有明顯不足。由于這種誤識(shí)的點(diǎn)一般都包含在筆畫內(nèi),與真實(shí)的空洞難以區(qū)分,如圖11。因此,原算法很難經(jīng)過后處理來實(shí)現(xiàn)正確填充,而改進(jìn)后的算法可以消除此過程。另外,由于此類圖像退化不嚴(yán)重,相比于局部閾值法,全局閾值法如OTSU有著較好的實(shí)驗(yàn)效果。
對(duì)于H04和H05等退化較顯著的文本圖像,由于污漬面積較大、透背現(xiàn)象嚴(yán)重,導(dǎo)致圖像許多部分的背景顏色與筆畫顏色相近,對(duì)二值化工作帶來較大影響。此時(shí),單一閾值已無(wú)法將前景與背景合理分開,相比之下,原方法與改進(jìn)方法幾乎都可以將污漬去除,且噪聲較少,可以增加一個(gè)后處理過程進(jìn)行簡(jiǎn)單去除。
對(duì)于二值化算法表現(xiàn)的定量評(píng)估,一般采用的方法是將二值化處理結(jié)果圖像與官方給出的GT圖像進(jìn)行比較,并按式(6)~(8)計(jì)算相應(yīng)的FM(F-measure)指標(biāo):
其中,TP表示同時(shí)出現(xiàn)在結(jié)果圖像與GT圖像的像素點(diǎn)的數(shù)量,F(xiàn)P表示僅出現(xiàn)在結(jié)果圖像沒有出現(xiàn)在GT圖像的像素點(diǎn)的數(shù)量,F(xiàn)N表示僅出現(xiàn)在GT圖像沒有出現(xiàn)在結(jié)果圖像的像素點(diǎn)的數(shù)量。RC為召回率,PR是準(zhǔn)確率。表1~表3給出了3種算法二值化P02、P03和H05圖像的FM值。
相比原算法,在處理文字、筆畫大小不均的圖像時(shí),改進(jìn)后方法的FM值有較大幅度提升,這說明算法可以保留原圖像前景文本的更多細(xì)節(jié)。而對(duì)文字大小和筆畫較均勻的圖像,基本上維持原算法的水平。
5結(jié)束語(yǔ)
基于筆畫寬度決定鄰域窗口進(jìn)而實(shí)現(xiàn)局部閾值化是處理退化文本圖像的一種重要手段,也因此產(chǎn)生了一些客觀有效的關(guān)鍵算法。本文的改進(jìn)研究保留了局部閾值方法的優(yōu)勢(shì),且通過與OTSU算法結(jié)合、并對(duì)圖像進(jìn)行區(qū)域劃分以得到不同區(qū)域、不同字符的筆畫寬度,從而實(shí)現(xiàn)了更準(zhǔn)確的自適應(yīng)窗口尺寸估計(jì)。同時(shí)對(duì)于原方法中出現(xiàn)的偽輪廓現(xiàn)象進(jìn)行了對(duì)比消除,提升了對(duì)退化文本圖像的處理效果。
參考文獻(xiàn)
[1] PRATIKAKIS I, GATOS B, NTIROGIANNIS K. ICDAR 2013 document image binarization contest (DIBCO 2013)[C]//Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC, USA:IEEE, 2013: 1471-1476.
[2] GATOS B, NTIROGIANNIS K, PRATIKAKIS I. ICDAR 2009 document image binarization contest (DIBCO 2009)[C]//2009 10th International conference on document analysis and recognition. Barcelona:IEEE, 2009: 1375-1382.
[3] OTSU N. A threshold selection method from gray-level histograms[J]. Automatica, 1975, 11(285-296): 23-27.
[4] BERNSEN J. Dynamic thresholding of grey-level images[C]//International conference on pattern recognition. Paris, France:dblp,1986: 1251-1255.
[5] SAUVOLA J, PIETIKINEN M. Adaptive document image binarization [J]. Pattern Recognition, 2000, 33(2): 225-236.
[6] SU B, LU S, TAN C L. Robust document image binarization technique for degraded document images[J]. Image Processing, IEEE Transactions on, 2013, 22(4): 1408-1417.
[7] LU S, TAN C L. Binarization of badly illuminated document images through shading estimation and compensation [J]. Internal Journal of Document Analyses Recognition, 2010, 13(4): 303-314.
[8] HOWE N. Document Binarization with Automatic Parameter Tuning [J]. Internal Journal of Document Analyses Recognition, 2013, 16(3): 247-258.
[9] MESQUITA R G, SILVA R M A, MELLO C A B, et al. Parameter tuning for document image binarization using a racing algorithm [J]. Expert System with Applications, 2015, 42(5): 2593-2603
[10] 童立靖, 張艷, 舒巍,等. 幾種文本圖像二值化方法的對(duì)比分析[J]. 北方工業(yè)大學(xué)學(xué)報(bào), 2011, 23(1):25-33.
[11] 陳丹, 張峰, 賀貴明. 一種改進(jìn)的文本圖像二值化算法[J]. 計(jì)算機(jī)工程, 2003, 29(13):85-86.
[12] 潘梅森, 張奮. 一種新的圖像二值化方法[J]. 湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版), 2007, 19(1):72-74,80.
[13] 張偉, 劉志剛. 一種針對(duì)較厚書籍掃描圖像的二值化方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(5):1998-2000.
[14] 馮炎. 基于背景估計(jì)和對(duì)比度補(bǔ)償?shù)耐嘶偶畧D像二值化算法[J]. 科學(xué)技術(shù)與工程, 2015, 15(34): 105-109.
[15] CANNY J. A computational approach to edge detection [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 1986 (6): 679-698.