曾凡鋒,郭正東,王戰(zhàn)東
(北方工業(yè)大學(xué) 信息工程學(xué)院,北京100144)
近年來,圖像的扭曲校正技術(shù)獲得迅速發(fā)展,主要分為:①基于3D 的模型重建技術(shù)校正[1-3],這類方法都能獲得較好的校正效果,但是由于需要特定外設(shè)及特殊實驗參數(shù)才能完成,難以將其產(chǎn)品化推廣。②基于2D 圖像校正,該方向又分為:基于連通域處理[4-6],這類方法具有邏輯清晰,校正粒度小等特點,一直以來都是該研究領(lǐng)域主流,不過由于處理較為細致,也導(dǎo)致了其速度亟待提高;基于文本線處理[7,8],這類方法的主要優(yōu)勢在于較大的校正粒度提高了處理速度,但因為是以行為最小校正單位進行處理,所以對校正效果的精準(zhǔn)度有一定損減;基于區(qū)域信息校正[9],這類方法能夠達到快速而且較好的校正效果,只是通常對原始圖像拍攝方式有特殊要求,適用范圍受限。
通過上述分析,目前基于2D 的扭曲校正方法各有優(yōu)缺點。然而許多成熟的2D 校正方法是針對英文文本圖像的,應(yīng)用到中文圖像上不易獲得理想效果,難以照搬套用。主要原因在于字符組合式的英文單詞能夠通過迭代地橫向合并相鄰連通域切分出來,而漢字結(jié)構(gòu)復(fù)雜多樣,使得切分文字的難度大大提高。另外,由于相機拍攝的圖像不能像掃描圖像一樣可以利用圖像僅一側(cè)存在扭曲的特點通過水平投影直方圖分析提取出文本行,因此需要研究適應(yīng)性更強的方法。本文針對拍攝圖像提出了一種基于連通域的扭曲校正方法,實現(xiàn)了快速精準(zhǔn)的文字切分算法,并針對拍攝圖像提出了一種就近聚合文字的方法定位文本行,最后基于文字逐行校正獲得最終圖像,該方法克服了傳統(tǒng)連通域校正方法耗時長的問題,并保證了高精度校正的效果。
由于書本被拍攝時的擺放和相機位置都可能使得獲得圖像出現(xiàn)扭曲,如圖1所示。
圖1 圖像扭曲
圖像扭曲一般分兩種:文本行扭曲和文字變形。從識別的角度來看,扭曲文檔識別率主要受前者影響。從校正效率的角度看,文本行扭曲校正作用范圍更大,其效率明顯高于變形文字的校正效率,而對變形文字的校正范圍較小,單位面積校正耗費的代價更大,并且有些變形嚴(yán)重的文字校正后依然不能識別,變形較弱的文字不進行校正也能被識別,所以對識別率的提升不如扭曲文本行校正效果明顯。因此,多數(shù)校正文獻都是對文本行扭曲進行校正,本文也將沿用這種校正思想。
針對中文文本圖像的扭曲校正重點在于文字切分,本文就此提出一種基于連通域的校正方法,流程如圖2所示。
二值化是圖像處理的一個重要步驟,處理效果直接關(guān)系到后續(xù)步驟的順利完成,特別是文字切分部分就對二值化效果要求較高。
圖2 本文算法流程
圖像二值化方法很多,傳統(tǒng)的方法有雙峰法、大津法、最優(yōu)迭代法、Niblack法等,然而由于文本圖像比較注重二值化后文字細節(jié)信息的保留,且連通域?qū)P畫連接比較敏感,本文采用的是一種改進的迭代法,即先對統(tǒng)計圖像的灰度概率分布F [0…255],按式 (1)計算圖像的全局灰度期望作為初始閾值T0
傳統(tǒng)的迭代法是不斷計算閾值兩邊 (即前景和背景)的灰度平均值ZL和ZR,然后求其平均值TN,直到TN恒定不變?yōu)橹?,本方法將其改為計算閾值左右部分的灰度?biāo)定量E 均值作為新的閾值TN
同樣當(dāng)TN=TN-1時,以此恒定閾值來對圖像二值化。實驗結(jié)果表明該方法耗時較少,并且能夠很好地保留文字的筆畫,如圖3所示。
圖3 二值化效果
連通域搜索的方法有很多,根據(jù)掃描方法分為像素掃描即點標(biāo)記法和線段掃描即線標(biāo)記法,各算法都能準(zhǔn)確標(biāo)記目標(biāo)連通域,主要區(qū)別在于對等價標(biāo)號的處理。本文方法參考的是一種優(yōu)化的快速連通域標(biāo)記法[10],具體算法:基于4鄰域進行搜索,首先用一個二維數(shù)組merge記錄各像素連通域標(biāo)號,由于無法一次正確標(biāo)記所有連通域,還要設(shè)置一個共同連通域標(biāo)號數(shù)組common,按下標(biāo)記錄各等價連通域標(biāo)號所屬的連通域。遍歷結(jié)束后,common 數(shù)組中存在下標(biāo)與值不一致的等價標(biāo)號,而且實際連通域標(biāo)號不是連續(xù)的,因此需要設(shè)置temp 數(shù)組做出調(diào)整,再次遍歷merge數(shù)組,統(tǒng)一各連通域標(biāo)號,完成連通域搜索。
文字切分一直以來都是中文圖像識別技術(shù)研究的難點,由于漢字的多樣性結(jié)構(gòu),包括左右、上下、包圍、半包圍和獨立結(jié)構(gòu)等,使得漢字的切分不能像英文那樣只需橫向合并連通域。在中文圖像中存在著標(biāo)點符號、英文字母和數(shù)字等元素同樣增加了漢字分割的難度。大部分關(guān)于文字切分文獻的方法中,有些方法[4,6]沒能提供絕對的切分參數(shù)說明該方法的通用性,也有方法[11]能夠獲得較高的切分正確率,但多數(shù)耗時較長。本文結(jié)合以上方法提出了一種優(yōu)化的快速切分方法,先為標(biāo)記的連通域添加包圍邊框,然后按給出規(guī)則合并邊框,從而切分文字。
2.3.1 添加基本連通域包圍邊框
創(chuàng)建連通域邊框數(shù)組R,上下左右值初始化為-1,遍歷連通域標(biāo)號數(shù)組merge,比較同一連通域各點坐標(biāo) (記為p.x 和p.y)和R[merge[x,y]]的上、下、左、右4個屬性值 (記為R[p].l,同理于t,r,b),按下列公式更新rectFrame數(shù)組取值,即
要注意的是,計算邊框時是根據(jù)視圖的窗口坐標(biāo),原點在左上角,而圖像的數(shù)據(jù)起點是從圖片的左下角,因此需要如式 (3)進行變換。另外,由遍歷順序可知,邊框下界R[p].b不可能出現(xiàn)更大值,初始賦值為 (height-p.y)即可,其中height代表圖片的高度。對于獨立結(jié)構(gòu)的文字,即不含偏旁部首的文字 (如工、女、王等),和結(jié)構(gòu)緊湊的文字 (如左、器、暑等)都包含于一個連通域中,所以到此處理階段多數(shù)文字已能正確劃分。
2.3.2 合并邊框
合并邊框是本文算法的難點部分,也是本次課題研究的主要創(chuàng)新點之一。因為非獨立結(jié)構(gòu)文字和分布不緊湊的文字一般是由多個連通域組成 (如三、非、晶等),為了將同一文字的各結(jié)構(gòu)歸并到同一連通域當(dāng)中,這里用到了重疊合并和近鄰合并兩種方法連續(xù)處理,算法如下:
(1)統(tǒng)計連通域邊框的寬高。
(2)計算圖像中字體的標(biāo)準(zhǔn)寬高。先從高度統(tǒng)計數(shù)組中尋找概率最大的高度Hm,因為多數(shù)文字已經(jīng)被正確分割出來,且一般的印刷設(shè)計版面中大部分的文字高度相差無幾,所以可將Hm作為標(biāo)準(zhǔn)高度HS,考慮到字體變化和英文字母等干擾因素,標(biāo)準(zhǔn)高度的估計從最大高度的1/3處開始尋找更加準(zhǔn)確。標(biāo)準(zhǔn)寬度的確定不能照用確定HS的方法,因為文檔中英文單詞、標(biāo)點符號、數(shù)字等非漢字元素的寬度變化較大,另外,當(dāng)前處理的是扭曲圖像,扭曲部分文字的寬度也會縮小,這些原因?qū)е铝藢挾确植紡?fù)雜。觀察發(fā)現(xiàn),利用印刷版面的特征發(fā)現(xiàn),通常具有固定的寬高比例標(biāo)準(zhǔn),通過標(biāo)準(zhǔn)高度來計算標(biāo)準(zhǔn)寬度WS。
(3)將合并范圍窗口化。為了提高算法的速度,在遍歷各連通域時作兩次優(yōu)化,其一,每次僅處理寬高相加大于2的連通域,此做法有一定的邏輯去噪作用,其二,參照局部閾值二值化的思想,為待處理的連通域Ci設(shè)置一個合并窗口,僅考慮合并窗口內(nèi)的連通域。窗口的設(shè)置規(guī)則是當(dāng)前連通域邊框中心左右擴展WS,向上擴展HS,因為遍歷順序是從圖片的下方向上遍歷,故沒有向下擴展。
(4)遍歷窗口內(nèi)像素點,如果發(fā)現(xiàn)不同標(biāo)號的連通域Cj,首先判斷是否與當(dāng)前連通域Ci發(fā)生重疊,定義下列標(biāo)記:
連通域的外接矩形坐標(biāo):(Ci_l,Ci_t)和(Ci_r,Ci_b);
連通域的寬和高:Wi和Hi按式 (6)、式 (7)計算兩個連通域合并寬度Wcom和合并高度Hcom。然后根據(jù)式 (8)判斷是否合并
若重疊則進行合并,否則,將其編號Cj記錄到相鄰連通域集合S 中,待下一步處理。
(5)遍歷完窗口后,如果相鄰連通域集合S 不為空,則遍歷S 中所有連通域,逐一進行重疊判斷,若重疊就與Ci合并,并從S 中刪除Cj。連通域Ci可能因第一輪重疊合并而擴大區(qū)域,與之前并不重疊的連通域開始發(fā)生重疊。
(6)如果相鄰連通域集合S 還不為空,則進行近鄰合并,當(dāng)兩個連通域Ci和Cj滿足式 (9)、式 (10)
ρ是限定合并條件的重要參數(shù),若ρ過大會導(dǎo)致合并不完整使得同一個文字的偏旁部首不能并入同一個連通域,ρ過小則又可能導(dǎo)致合并過度,使得多個文字或標(biāo)點符號等非文字元素被并入一個連通域中。經(jīng)過多次實驗測試,當(dāng)ρ1=0.845 和ρ2=0.28 時有很好的文字切分效果,如圖4所示。
根據(jù)統(tǒng)計,在正常光照下拍攝的扭曲圖像中,文字切分正確率達90.3%左右,其中非扭曲區(qū)域的文字切分正確率達到95.6%左右。
圖4 文字切分效果
文本行搜索是本課題研究的另一創(chuàng)新點,由于拍攝圖像扭曲文本線的走向隨意,不宜采用水平投影分析來判斷文本行,本文采用的是基于文獻 [5]提出的就近聚合文字的方法定位文本行,具體算法如下:
(1)計算各個文字的中心坐標(biāo) (Cm_x,Cm_y);
(2)就近連接左右鄰居。依據(jù)中心坐標(biāo),計算Ci與左右兩側(cè)文字的中心間距,并分左右兩邊的各取一個間距最小的文字Ci_l和Ci_r,從印刷版面分析可以發(fā)現(xiàn)各字塊(包含文字和如標(biāo)點符號、字母和數(shù)字等獨立字符)與左右字塊的間距最小,因此,Ci_l和Ci_r,為Ci的左右鄰居字塊。為提高效率,通過公式計算中還跳過明顯不在一行的字塊,對Ci和Cj而言,Ci的上邊界小于Cj的下邊界,或Ci的下邊界大于Cj的上邊界時,認(rèn)為Ci和Cj不在同一行。
(3)將文字聚合成行。先通過遍歷各個連通域,尋找出各行的行首文字,沒有左鄰居的就是行首文字。再從行首文字開始,迭代查找右鄰居直至找到?jīng)]有右鄰居的文字完成一行。
實驗效果如圖5所示,通過連接各行文字的中心來驗證文本行定位的正確性。
圖5 文本行定位
許多文獻的方法里需要將單詞旋轉(zhuǎn)位移或者重構(gòu)整個文本行區(qū)域來進行校正,這樣的處理一般方法是曲線擬合文本行,再進行幾何變換采樣點的位置。本文利用已確定的文本行和文字位置信息,僅移動單個文字即可完成校正,相比完全的文本行重構(gòu)很好地減少了運算量。
前面已經(jīng)確定了各行之間及行內(nèi)文字之間的邏輯位置,并獲得了各文字的實際坐標(biāo)區(qū)間,由于各個漢字的所占面積相接近,那么按行將所有文字移到合理位置即可達到扭曲校正的目的。具體操作是:對圖像由上到下逐行遍歷,以第i行Li(i>0)為例,先尋找Li上沿最高的文字作為標(biāo)記文字Cm,然后遍歷其它文字Cn(n>0),按式 (11)計算校正位移d
最后將Cn按校正位移d 對文字垂直移動,值得注意的是d 的正負(fù)值對應(yīng)于上移和下移,從而使得各行文字保持在同一水平線上,完成扭曲文檔圖像的文本行扭曲校正。效果如圖6所示。
圖6 校正效果
實驗條件:圖像樣張取自16開普通中文書本,共拍攝了200張。攝像頭是500 w 像素,主機配置中CPU 是Pentium(R)D 頻率2.80GHz,內(nèi)存2 G,本方法是通過VC++實現(xiàn),使用漢王OCR 文字識別軟件進行文字識別。為了檢驗效果,同時選取了兩種近年來2D 扭曲校正方向有一定成果的方法進行對比。實驗結(jié)果見表1。
表1 各算法實驗結(jié)果比較分析
實驗結(jié)果分析,通過比較3種方法的校正耗時和不同扭曲程度樣張的校正后識別率作為評判依據(jù),并根據(jù)校正前樣張的識別率將樣張扭曲程度分為3類作為比較??梢缘玫?,從耗時角度上看,本文方法大大縮短了校正時間。從校正效果上看,對于扭曲程度較高即識別率不足50%的圖像,文獻 [4]方法提取文本行時局限于假設(shè)了頁邊區(qū)域文本行水平進行處理,因而提取文本行不準(zhǔn)確導(dǎo)致識別率偏低,但其它情況都有較好的校正效果,而本文的校正效果能夠得到穩(wěn)定的保證。
以上分析結(jié)果表明,本文方法對文字處理細致,速度更快且仍能保證較高的識別率。
本文針對中文文本扭曲圖像進行研究,提出的基于連通域的校正算法,通過分析漢字結(jié)構(gòu)特點提出了精準(zhǔn)的文字切分算法,在其基礎(chǔ)上提出了一種就近聚合文字的方法快速定位文本行,最后按行逐字進行校正,簡化了傳統(tǒng)的按行處理方法。通過實驗數(shù)據(jù)可看出,該方法對嚴(yán)重扭曲的中文文本圖像也能取得較好的校正效果,校正后的圖像OCR 識別率有比較明顯的提高,并且耗時較少,適合推廣到實時的文字圖像識別系統(tǒng)中進行應(yīng)用。
[1]HE Yuan,PAN Pan,XIE Shufu,et al.A book dewarping system by boundary-based 3D surface reconstruction [C]//12th International Conference on Document Analysis and Recognition,2013:403-407.
[2]LI Zhang,Andy M Yip,Michael S Brown,et al.A unified framework for document restoration using inpainting and shapefrom-shading [J].Pattern Recognit J,2009,42 (11):2961-2978.
[3]MENG Gaofeng,PAN Chunhong,XIANG Shiming,et al.Metric rectification of curved document images [J].Pattern Analysis and Machine Intelligence,2012,34 (4):707-722.
[4]LIU Hong,YE Lu.A method to restore Chinese warped document images based on binding characters and building curved lines[C]//International Conference on Systems,Man and Cybernetics,2009:984-990.
[5]Gatos B,Pratikakis I,Ntirogiannis K.Segmentation based recovery of arbitrarily warped document images[C]//9th International Conference on Document Analysis and Recognition,2007:989-993.
[6]SONG Lili,WU Yadong,SUN Bo.Improved document image distortion correction method [J].Computer Engineering,2011,37 (1):204-206 (in Chinese).[宋麗麗,吳亞東,孫波.改進的文檔圖像扭曲校正方法 [J].計算機工程,2011,37 (1):204-206.]
[7]ZHANG Weiye,ZHAO Qunfei.Algorithm for layout analysis and document image preprocessing of reading robot [J].Microcomputer Applications,2011,27 (1):58-61 (in Chinese).[張偉業(yè),趙群飛.讀書機器人的版面分析及文字圖像預(yù)處理算法 [J].微型電腦應(yīng)用,2011,27 (1):58-61.]
[8]LIU Hong,DING Runwei.Restoring Chinese warped document images based on text boundary lines[C]//International Conference on Systems,Man and Cybernetics,2009:571-576.
[9]TONG Lijing,ZHAN Guoliang,PENG Quanyao,et al.Warped document image mosaicing method based on inflection point detection and registration[C]//International Conference on Multimedia Information Networking and Security,2012:306-310.
[10]LUO Zhizao,ZHOU Yingwu,ZHENG Zhongkai.An optimized algorithm of binary image connected component labeling[J].Journal of Anqing Teachers College (Natural Science Edition),2010,16 (4):34-39 (in Chinese). [羅志灶,周贏武,鄭忠楷.二值圖像連通域標(biāo)記優(yōu)化算法 [J].安慶師范學(xué)院院報 (自然科學(xué)版),2010,16 (4):34-39.]
[11]FU Lujing,QIAN Junhao,ZHONG Yunfei.Printed image layout segmentation method based on Chinese character connected component[J/OL].Computer Engineering and Applications,2013.http://www.cnki.net/kcms/detail/11.2127.TP.20130731.1817.001.html(in Chinese).[付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J/OL].計算機工程與應(yīng)用,2013.http://www.cnki.net/kcms/detail/11.2127.TP.20130731.1817.001.html.]