国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本行重構(gòu)的扭曲文檔快速校正方法

2014-12-23 01:26曾凡鋒吳飛飛
計算機工程與設(shè)計 2014年2期
關(guān)鍵詞:游程識別率文檔

曾凡鋒,王 曉,吳飛飛

(北方工業(yè)大學(xué) 信息工程學(xué)院,北京100144)

0 引 言

OCR 在識別扭曲的文本圖像時,常常會因為自身版面分析算法的局限性而導(dǎo)致文字無法識別或者識別率很差,亂碼很多,在一些對識別率要求高的應(yīng)用中 (例如啟視助視儀)使用受限,因而需要在OCR 識別之前將扭曲的圖像校正,以提高其識別率。

為提高OCR 對扭曲文本圖像的識別率,國外對英文扭曲文檔校正做了很多研究,而國內(nèi)對中文扭曲文檔的研究很少。目前針英文扭曲文檔圖像的校正技術(shù)可分為3 類:①基于3D 技術(shù)的校正方法[1,2]。該類方法能很好的恢復(fù)扭曲的文檔頁面,但需要特殊的輔助設(shè)備,對于面向市場的各種閱讀產(chǎn)品來說實用性不大。②基于模型的校正方法[3]。該類方法能對含有圖表等非文本元素的文檔圖像進行校正,但其校正方法較為粗糙,檢測與校正結(jié)果欠佳。③基于連通域的方法[4-6]。此方法在英文扭曲文檔的研究很多,效果也很顯著,文獻 [5,6]采用了連通域的方法來處理中文扭曲文檔,但是增加了很多限制規(guī)則,無疑增加了算法的復(fù)雜度,而且其采用的圖像必須是特殊定制的,稍微改變扭曲圖像,此方法便不再適用。中文字體有其自身的復(fù)雜性,分為上下結(jié)構(gòu)和左右結(jié)構(gòu),單純的移植處理英文扭曲文檔的方法是無法校正中文扭曲文檔的。文獻 [7]提出了利用文本線校正中文文檔的思想但沒有給出實際的可行方案,文獻 [8]采用了此種方法,使用的是機器人閱讀設(shè)備,但是其使用前提是紙張大小必須固定,頁面扭曲必須一致,對于在自然情況下采集的文本圖像,由于書頁本身的扭曲就不統(tǒng)一,利用此方法校正圖像后的識別效果很差。

通過以上的分析總結(jié),提出了一種新的扭曲中文文本圖像校正方法,用于校正自然扭曲的圖像,圖像的大小不小于32開,字體大小不小于6號。首先將圖像處理為二值圖像,利用形態(tài)學(xué)膨脹的方法獲取文本行輪廓,游程平滑來填補文本行輪廓內(nèi)的空洞,然后提取每行的文本中心線,估計文本行的上下邊緣,利用提出的模型和重構(gòu)算法針對每一文本行進行校正。

1 基本概念介紹

1.1 二值膨脹

二值膨脹是形態(tài)學(xué)處理圖像的基本操作,具有模糊圖像細節(jié)和擴張圖形的功能,適當(dāng)結(jié)構(gòu)元素的選取可以填平圖形內(nèi)部和邊緣的不規(guī)則結(jié)構(gòu),采用二值膨脹能達到更好的處理效果。其定義如下

一副文本圖像中往往存在漢字、數(shù)字、字母、標(biāo)點這4項基本內(nèi)容,這些字符的共同點是比劃之間都存在大量細小的空洞,通過二值膨脹可以有效的填補這些細小空洞,而文字行與行之間的間隔相對來說是很大的,在對文字行進行二值膨脹的過程中對文字行之間的影響是很小的。因此,為減小誤差、提高擬合曲線的精度,合適的結(jié)構(gòu)元素b的選取十分重要,既要消除各行文字之間的差異,填補空洞,又要注意不能使行與行連通在一起,從而實驗中采取2×5的結(jié)構(gòu)元素使文字橫向盡量延伸,縱向略微延伸,并重復(fù)3次以盡量突出各行輪廓和消除文字內(nèi)的空洞,膨脹的局部效果圖如圖1所示,左側(cè)大黑塊和底部窄黑條都是噪聲。

圖1 膨脹效果局部

1.2 游程平滑處理

該算法的基本思想是將圖像中水平或垂直長度小于設(shè)定的閾值T 的連續(xù)白像素轉(zhuǎn)化為黑像素。經(jīng)過二值膨脹后的文字行內(nèi)依然會存在很多細小的空洞,利用游程平滑算法可以有效地填補這些細小空洞。假設(shè)圖像中垂直方向有一段游程R= (L1,L2,…,Li,Li+1,…,Lj,…,Ln),R1= (L1,L2,…Li-1)和R3= (Lj,…,Ln)都是黑游程,R2= (Li+1,…,Lj-1)是白游程,當(dāng)R2的長度值ji-1小于門限值T 時,就將黑游程R1和R3連通在一起即把白游程R2全部平滑為黑。圖2所示的平滑過程中T=5,平滑前右側(cè)兩個1-游程之間的0-游程長度為4,按照以上的原理被平滑為1-游程,從而得到連通起來的1-游程為9,而對于中間的0-游程長度為5,等于T,則不做處理。

圖2 游程平滑過程

為確保準(zhǔn)確的提取文本行中心線,利用此方法垂直遍歷圖像,連接膨脹處理遺漏的文本行空洞。

2 提出的方法

為了提高自然扭曲中文文本圖像的OCR 識別率,校正是針對每一文本行進行的,這就面臨兩個基本問題,一是如何獲取各行的文本線,二是如何將各行扭曲文本還原到正常的位置。針對這兩個問題,提出的方法如圖3所示。

圖3 扭曲文檔校正流程

2.1 圖像預(yù)處理

首先將圖像處理為灰度圖像,對于一個三分量為R,G,B的彩色圖像,灰度值的計算采用如下公式

然后進行圖像的二值化處理,本文采用文檔圖像前景色為黑色 (0),背景色為白色 (255),由于研究的重點是如何校正扭曲中文圖像故采用OTSU 算法[9]而沒有采用Niblack算法,OTSU 算法快速但沒有Niblack算法效果優(yōu),但大津算法在光照均勻的條件下能很好的區(qū)分出前景和背景,即使二值化效果不理想,通過第三步的文本線樣值提取算法可以很好的消除這種影響。

2.2 計算行高

行高值是一個關(guān)鍵值,后面文本線的細化,文本線樣值提取和最終的校正都需要行高作為參照,而且利用行高可以有效地排除噪聲。采用游程平滑的方法計算,由于圖像中間部分的噪聲比較少,影響游程平滑的因子少,故選取圖像寬度的1/3,1/2,2/3 處的列進行遍歷,取3 列是為了取平均值計算更精確的行高。具體的檢測規(guī)則如下:

規(guī)則1:如果p(CheckPos)=0,則其相應(yīng)的統(tǒng)計值count加1;如果p(CheckPos)=255,則先判斷count是否為0,如果不為0,將count 值保存在鏈表LinkedList 中后置0。按此方法直到遍歷結(jié)束。

記p(CheckPos)為當(dāng)前檢索位置CheckPos 處的像素值,count為黑像素統(tǒng)計個數(shù),LinkedList 用于存儲count。之后計算出LinkedList的平均值A(chǔ)verLineHeight。為消除圖像中細微噪聲和圖片的影響,需要刪除滿足式 (3)的值

AverLineHeight*4是一個保守值,既是消除了大圖片,也防止了標(biāo)題字體被誤刪,如圖6所示的標(biāo)題字體就比正文字體三倍。

重新計算LinkedList的平均值,保存在AverLineHeight中,此時的AverLineHeight才是精確的行高。

2.3 細化文本線

為得到圖像每行文本的實際中心線,遍歷平滑后圖像的每一列,分別得到各個聯(lián)通黑像素的個數(shù),記為Count,若Count滿足式 (4),則在新圖像的對應(yīng)位置處置黑,否則將Count置0

此范圍是防止文字行高度過低和噪聲區(qū)域膨脹過大。此時便得到了各行文本線,如圖4 所示。利用此方法圖1所示的大噪聲都已全部被消除。

圖4 細化文本線局部

2.4 文本線樣值提取

由于二值圖像邊界處噪聲多,對于起始點很難判斷出其屬于哪一條文本線,如果具體分析的話會費時費力,而圖像中心處噪聲少,即使噪聲多,利用模板提取的方法和后期的二乘擬合完全可以忽略這些影響,所以為避開從兩頭開始提取樣值時的困難,并且考慮到紙張大小和文字大小的影響,故選擇AverLineHeight*AverLineHeight 大小的模板,基于行高的搜索模板可以很好的自動適應(yīng)不同樣張,利用該模板從圖像的中心向兩邊提取中心線樣值,如果在該方向的模板內(nèi)發(fā)現(xiàn)目標(biāo)像素,則以此像素為起點繼續(xù)利用該模板在該方向檢索,直到模板內(nèi)無目標(biāo)像素為止,此時需要的樣值就是各個模板內(nèi)的目標(biāo)像素。在實際的實驗過程中,利用這種方法提取的樣本值擬合后的曲線經(jīng)常與原曲線相差很大,這是因為原文本線的長度短,樣本個數(shù)不足以保證還原為原曲線,經(jīng)常發(fā)生在一段結(jié)束的最后一行,文字太少,所以在提取文本線樣值的過程中需遵循以下規(guī)則。

規(guī)則2:檢索完一條線之后,若采集的樣值數(shù)量大于imgWidth/3,保存這些樣值,并為這些樣值標(biāo)號i(i=1,2,3,… ),否則刪除這些樣值。對于這種太短的文本線,本算法會將其刪除掉。

規(guī)則3:檢索完一條線之后,若采集的樣值數(shù)量大于imgWidth/3,小于imgWidth*2/3,則復(fù)制向右搜索的最后一個樣本值來延長這條曲線。這種文本線的樣值擬合后的曲線往往出現(xiàn)甩尾的現(xiàn)象,影響上下行邊界處文字的校正。

檢索完所有曲線樣值后,獲取不同標(biāo)號i的樣值的左端點,連同i 一起記錄在鏈表Point中,以備最后校正使用。

2.5 最小二乘擬合

文本線樣值提取之后需要用曲線來擬合這些文本行,本文采用最小二乘擬合[10],利用式 (5)

式中,a0,a1,a2,…,an——待 得 到 的 曲 線 系 數(shù),n——曲線的冪值,此處取正整數(shù)4,基本能達到復(fù)原曲線的效果,而對于冪值能達到5以上的曲線,拍攝到的原圖像已經(jīng)是不完整的了,沒有進行校正的必要。

2.6 圖像重構(gòu)

由于以上得到的文本線都是文本中心線,對整行文字的重構(gòu)需要知道文字行的高度,雖然已得到文字行的平均高度AverLineHeight,但文本文檔中字體的大小也有不同,例如標(biāo)題比正文文字要大很多,如果單純的依賴AverLineHeight來估計文本行的上下位置的話,對于字體大小不統(tǒng)一的文本圖像,校正的中心會脫離文本行,校正后的圖像識別率也會大打折扣。本文采用的估計行高的方法為如式 (6)

CurrentYpoint 為當(dāng)前曲線的左端點垂直坐標(biāo)值,NextYpoint為下一條曲線的左端點垂直坐標(biāo)值,即記錄在Point中的縱坐標(biāo)值。采用的校正模型如圖5所示。

圖5 文本行重構(gòu)模型

圖5中1號線為擬合后的文本中心線,2,3號線是根據(jù)1號線加減deviation 得到的文本行上下邊界線,(X0,Y0)和(Xn,Yn)為中心線的起點和終點,擬在將圖5中2,3包絡(luò)的扭曲文本行區(qū)域重構(gòu)為圖5下半部分的矩形區(qū)域。文本行的重構(gòu)體現(xiàn)在垂直方向的像素如何正確的分布在所示的矩形區(qū)域內(nèi),因而采用式 (7)

式中,CurrentHeight——新圖像中預(yù)重構(gòu)像素的垂直位置,AutoReviseHeight——原圖像對應(yīng)CurrentHeight 應(yīng)取像素的垂直位置,OriginalHeight——圖5中2,3包絡(luò)的垂直位置,計算式如下

式中:i——文本行 區(qū) 域 的 橫 坐 標(biāo),a3,a2,a1,a0——擬合曲線的系數(shù)。

式中:X——矩形區(qū)域內(nèi)橫坐標(biāo),a3,a2,a1,a0——擬合曲線的系數(shù)。

在矩形區(qū)域內(nèi),按照式 (10)在包絡(luò)區(qū)域內(nèi)查找此處應(yīng)取的像素點,便可很好地校正文本行

其中,F(xiàn)(X,Y)為新圖像中X =i處的像素值,f(i,j)為原圖像中(i,j)處的像素值,此處令X =i。deviation 和AutoReviseHeight為動態(tài)可變的,可以根據(jù)后期圖像處理的需要制定新的規(guī)則作出改變。

3 算法測試和分析

3.1 測試環(huán)境

VS2005環(huán)境下采用C++語言實現(xiàn),測試環(huán)境為:Inter(R)Core(TM)2Duo CPU E7400@2.80GHz;內(nèi)存2GB;操作系統(tǒng)Windows XP。實驗采用的書籍為486 頁,采集圖像的設(shè)備為數(shù)碼相機,OCR 采用漢王OCR2.0 版本,圖像版面內(nèi)容為純文本,采集的圖像為正對書面垂直拍攝自然扭曲書頁。采集到的圖像大小均為1000*1667像素,測試的樣張數(shù)為80張。

3.2 校正效果圖對比

觀察圖6內(nèi)各圖可見,對于扭曲不統(tǒng)一的圖像,文獻[8]的校正效果差強人意,按最優(yōu)曲線校正只校正了其中幾行文字,有些位置反而更加扭曲,該種方法只能在限定條件的情況下才可達到理想效果,而本文的算法在實驗中的有很好的適應(yīng)性,在所有的測試樣張中只有4張校正效果不理想,也只是發(fā)生在局部校正錯誤,對純文本自然扭曲圖像的校正成功率能達到95%,由此可見本方法更優(yōu)。

圖6 校正效果對比

3.3 校正速度和OCR 識別效果

實驗利用采集的80張樣張進行測試,總結(jié)的實驗數(shù)據(jù)見表1。

表1 校正時間和OCR 識別率

平均識別率未達到95%以上,是由于采集的圖像自然,很多圖像出現(xiàn)了光照不均的現(xiàn)象;還有些圖像中書脊處的文字本身就未拍照完全,OCR 根本無法識別;再加上OTSU 算法的沒有廣泛的適應(yīng)性,這都很大程度上影響了OCR 識別率。對于那些光照均勻,書脊處拍照清晰的圖像,校正后識別率能夠達到95%以上。

本算法在時間上相比其它算法速度提高很多,對于1000*1667像素的圖像,平均校正時間只需430ms。文獻[11]提出的快速校正算法校正600*800像素的圖像所需時間大于2s,如果用于校正本實驗的樣張,所需時間必大于4s。相比于文獻 [4-6,11]的基于連通域的方法,本方法更是大幅提高了校正速度,連通域本身就是一個復(fù)雜的搜索方法,在原二值圖像各像素被標(biāo)記完之后一般會用到遞歸的方法進行分析等價對,這無疑是最耗費時間的過程,而本文算法只是利用了各行文本中心線的少量樣值而已,處理的數(shù)據(jù)量大大減少,而且中文不同于英文,連通域搜索需要更多的規(guī)則進行分析,而本文算法中英文通用。圖像的獲取比較自然,不依賴于特殊設(shè)備,適合實時性的需求。

4 結(jié)束語

本文為解決OCR 識別扭曲文檔圖像識別率低的問題,提出了基于文本行重構(gòu)圖像的方法。首先運用形態(tài)學(xué)膨脹的原理獲取圖像行的輪廓,而后估計出文本行上下輪廓曲線,利用給出的模型進行圖像重構(gòu),并針對各行分別進行校正。該算法已經(jīng)可以保證在500ms之內(nèi)校正1000*1667像素的圖像,極大地提高了運行效率,而且校正效果良好,OCR 識別率顯著提高,相信經(jīng)過后續(xù)的改進,該算法校正圖像的OCR 平均識別率會達到95%。該算法的適應(yīng)性廣,經(jīng)過進一步的測試,對扭曲英文文檔同樣具有良好的適應(yīng)性,對于含有圖片的簡單版式扭曲文檔同樣可以無誤校正。

由于OCR 進行圖像識別時,內(nèi)部也是首先進行了二值化,故下一階段的目標(biāo)是在灰度圖像上實現(xiàn)校正,以避免與OCR 進行重復(fù)的二值化操作。

[1]Lilienblum Erik,Michaelis Bernd.Book scanner dewarping with weak 3d measurements and a simplified surface model[G].LNCS 4992:Discrete Geometry for Computer Imagery.Berlin:Springer Berlin Heidelberg,2008:529-540.

[2]Lilienblum Erik,Niese Robert,Al-Hamadi Ayoub,et al.A stereo vision system for top view book scanners[J].International Journal of Computer Science,2010,5 (1):32-37.

[3]Fu Bin,Wu Minghui,Li Rongfeng,et al.A model-based book dewarping method using text line detection [C]//Proc of the 2nd International Workshop on Camera-based Document Analysis and Recognition,2007:421-425.

[4]Gatos B,Pratikakis I,Ntirogiannis I.Segmentation based recovery of arbitrarily warped document images [C]//International Conference on Document Analysis and Recognition,2007:989-993.

[5]Hong Liu,Ye Lu.A method to restore Chinese warped document images based on binding characters and building curved lines[C]//IEEE International Conference on Systems,Man,and Cybernetics,2009:984-988.

[6]Hong Liu,Runwei Ding.Restoring Chinese documents images based on text boundary lines [C]//IEEE International Conference on Systems,Man,and Cybernetics,2009:571-575.

[7]TIAN Xuedong,MA Xingjie,HAN Lei,et al.Geometric rectification for camera-captured document images [J].Computer Applications,2007,27 (12):3045-3047 (in Chinese).[田學(xué)東,馬興杰,韓磊,等.視覺文檔圖像的幾何校正[J].計算機應(yīng)用,2007,27 (12):3045-3047.]

[8]ZHANG Weiye,ZHAO Qunfei.The layout analysis and document image preprocessing algorithm of reading robot[J].Microcomputer Applications,2011,27 (1):58-61 (in Chinese).[張偉業(yè),趙群飛.讀書機器人的版面分析及文字圖像預(yù)處理算法 [J].微型電腦應(yīng)用,2011,27 (1):58-61.]

[9]Xue JingHao,Titterington D Michael.T-Tests,F(xiàn)-Tests and Otsu's methods for image thresholding [J].IEEE Transactions on Image Processing,2011,20 (8):2392-2396.

[10]LONG Huiping,XI Shengfeng,HOU Xinhua.The algorithm and analysis from experiment data by means of minimum double mutilplication [J].Computing Technology and Automation,2008,27 (3):20-23 (in Chinese).[龍輝平,習(xí)勝豐,侯新華.實驗數(shù)據(jù)的最小二乘擬合算法與分析 [J].計算技術(shù)與自動化,2008,27 (3):20-23.]

[11]SONG Lili,WU Yadong.New document image distortion correction method [J].Journal of Computer Applications,2010,30 (12):3317-3320 (in Chinese). [宋麗麗,吳亞東.文檔圖像幾何畸變快速校正的新方法 [J].計算機應(yīng)用,2010,30 (12):3317-3320.]

猜你喜歡
游程識別率文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個文檔
中國羽毛球組合鄭思維/黃雅瓊連續(xù)得失分規(guī)律研究
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
改進型相對游程長度編碼方法
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
提升高速公路MTC二次抓拍車牌識別率方案研究
基于RI碼計算的Word復(fù)制文檔鑒別
RPT方法在多元游程檢驗中的應(yīng)用
高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用