李志明
摘 要:通過(guò)光學(xué)字符識(shí)別技術(shù)可將紙質(zhì)文檔內(nèi)容快速轉(zhuǎn)換為可編輯電子文檔,該技術(shù)識(shí)別的準(zhǔn)確率與掃描文檔圖像質(zhì)量的好壞緊密相關(guān)。對(duì)紙質(zhì)文檔掃描或拍照時(shí)不可避免的會(huì)產(chǎn)生文檔圖像傾斜的現(xiàn)象,為了保證光學(xué)字符識(shí)別技術(shù)識(shí)別的準(zhǔn)確度,對(duì)文檔圖像進(jìn)行傾斜校正是非常有必要的。文中針對(duì)傳統(tǒng)文檔圖像傾斜校正算法對(duì)文檔圖像中存在圖片區(qū)域干擾時(shí)校正精度低的問(wèn)題,提出了一種基于Radon變換的改進(jìn)算法。該算法首先將預(yù)處理后的文檔圖像進(jìn)行分塊,并利用Radon變換計(jì)算各子塊圖像的傾斜角所對(duì)應(yīng)的Radon曲線;其次,結(jié)合文本行子塊與圖片子塊的Radon曲線的周期性差異,再利用傅里葉變換求功率譜密度將圖片子塊檢測(cè)出來(lái)并排除;最后,利用Radon對(duì)已排除圖片區(qū)域干擾的文檔圖像進(jìn)行傾斜角檢測(cè)并校正。實(shí)驗(yàn)結(jié)果表明,該改進(jìn)算法能將傾斜文檔圖像中的絕大多數(shù)圖片干擾排除,從而使傾斜校正精度得到提高。
關(guān)鍵詞:文檔圖像處理;傾斜校正;傅里葉變換;Radon變換
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2016)07-00-04
0 引 言
文檔圖像處理通過(guò)光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)對(duì)文檔圖像進(jìn)行相應(yīng)處理,以達(dá)到對(duì)文檔圖像中的文字、圖片和圖表等信息進(jìn)行分析和識(shí)別的目的。然而,在利用數(shù)碼相機(jī)或掃描儀等圖像獲取設(shè)備將紙質(zhì)文檔轉(zhuǎn)換為數(shù)字圖像的過(guò)程中,因掃描設(shè)備機(jī)械缺陷或人為因素不可避免的會(huì)使文檔圖像發(fā)生傾斜。為提高OCR技術(shù)識(shí)別的準(zhǔn)確率,對(duì)傾斜的文檔圖像進(jìn)行校正很有必要。由于文檔圖像版面結(jié)構(gòu)的復(fù)雜性,建立一種通用的傾斜文檔圖像校正算法非常困難。如何高效、準(zhǔn)確地檢測(cè)出文檔圖像的傾斜角是成功實(shí)現(xiàn)傾斜校正的關(guān)鍵。當(dāng)前,科研人員已開(kāi)發(fā)了多種不同的文檔傾斜校正算法,包括基于Hough變換的校正算法[1-3]、基于Fourier變換的校正法[4]、基于特征點(diǎn)最小距離擬合的文檔圖像傾斜檢測(cè)[5]、基于交叉關(guān)聯(lián)校正算法[6]、基于投影的文檔圖像傾斜校正方法[7]以及k-最近鄰簇校正法[8,9]等。其中,Hough變換校正算法的思想是將圖像空間變換到參數(shù)空間,使得圖像空間中的直線被映射到參數(shù)空間的一點(diǎn),而圖像空間中的一點(diǎn)則對(duì)應(yīng)參數(shù)空間的一條正弦曲線;圖像空間中的任意兩點(diǎn)所對(duì)應(yīng)的正弦曲線在參數(shù)空間中相交于一點(diǎn),通過(guò)上述兩點(diǎn)所在直線的點(diǎn)對(duì)應(yīng)的正弦曲線在參數(shù)空間中都相交于該交點(diǎn)。利用上述特性可將圖像空間中直線檢測(cè)問(wèn)題轉(zhuǎn)換為求參數(shù)空間中局部最大值的問(wèn)題。基于Fourier變換的校正算法利用文檔頁(yè)面傾斜角與Fourier空間密度最大值的對(duì)應(yīng)特性實(shí)現(xiàn)檢測(cè)計(jì)算,由于對(duì)文檔圖像中的全部像素進(jìn)行計(jì)算,運(yùn)算量非常大,因此目前使用較少。交叉關(guān)聯(lián)算法是基于等距離豎直(水平)平行線上像素點(diǎn)相關(guān)性設(shè)計(jì)的,該算法先以平行線上像素點(diǎn)來(lái)建立相關(guān)矩陣,然后對(duì)相關(guān)矩陣在豎直方向上進(jìn)行投影,投影圖的全局最大值與文檔圖像的傾斜角對(duì)應(yīng);由于相關(guān)矩陣的計(jì)算量非常大,且要確定全局最大值,某些情況下還需回溯計(jì)算相關(guān)矩陣和投影,進(jìn)一步增加了計(jì)算量。k-最近鄰簇校正法通過(guò)計(jì)算所有連通區(qū)域的中心點(diǎn)的k個(gè)最近鄰確定出每對(duì)近鄰點(diǎn)的矢量方向,并統(tǒng)計(jì)生成直方圖,直方圖的峰值就對(duì)應(yīng)于整個(gè)文檔圖像的傾角。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),利用以上算法對(duì)純文本行圖像進(jìn)行處理時(shí),算法檢測(cè)精度較高,當(dāng)文檔中存在圖片區(qū)域時(shí),圖片區(qū)域的干擾導(dǎo)致算法精度降低。此外,從算法設(shè)計(jì)原理可以看出,上述算法都存在計(jì)算量大的問(wèn)題。
針對(duì)傳統(tǒng)傾斜文檔圖像校正算法處理包含圖片區(qū)域的文檔圖像時(shí)檢測(cè)精度低的問(wèn)題,提出了一種基于Radon變換的改進(jìn)算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法對(duì)圖片區(qū)域干擾的排除效果以及算法檢測(cè)精度。
1 算法原理
1.1 基于Radon變換的傳統(tǒng)校正算法
Radon變換利用投影積分的思想,沿著某條特定直線求積分,并將積分值投影到Radon變換平面上,該積分結(jié)果又被稱(chēng)為Radon曲線,由該直線與圖像坐標(biāo)系原點(diǎn)的距離和傾斜角共同確定,Radon變換示意圖如圖1所示。文檔圖像沿θ方向的Radon曲線可表示為:
其中,f(x,y)為初始文檔圖像,g(s,θ)為Radon曲線。
基于Radon變換原理實(shí)現(xiàn)傾斜文檔校正的一般思路如下:
(1)圖像預(yù)處理:通過(guò)圖像二值化、邊緣檢測(cè)等手段提取同一行文本的邊框;
(2)傾斜角檢測(cè):對(duì)步驟(1)中的結(jié)果進(jìn)行Radon變換,求出文檔圖像對(duì)應(yīng)的傾斜角;
(3)傾斜校正:將原始文檔旋轉(zhuǎn)相應(yīng)角度,完成傾斜校正。然而,同其它傾斜校正算法類(lèi)似,此算法對(duì)文檔中包含大量純文本行時(shí)檢測(cè)精度較高,當(dāng)文檔圖像中存在圖片區(qū)域時(shí),Radon曲線將由文本行和圖片區(qū)域像素點(diǎn)積分累積獲得;當(dāng)圖片區(qū)域所占像素點(diǎn)較多時(shí),會(huì)導(dǎo)致Radon曲線峰值所對(duì)應(yīng)的投影角度較大地偏離文檔圖像的真實(shí)傾斜角,從而導(dǎo)致校正算法失效。因此,開(kāi)發(fā)一種對(duì)文檔圖像中的圖片區(qū)域干擾免疫效果更強(qiáng)的檢測(cè)算法很有必要。
1.2 改進(jìn)算法
將文檔的先驗(yàn)知識(shí)與Radon變換檢測(cè)算法相結(jié)合,從Radon變換出發(fā),結(jié)合文檔圖像內(nèi)容特征對(duì)傳統(tǒng)的Radon變換校正算法進(jìn)行改進(jìn),以提高算法的精度。對(duì)包含圖片區(qū)域的傾斜文檔圖像進(jìn)行分析:
對(duì)純文本行區(qū)域而言,每行文字的大小和間距是確定的,故沿著垂直于文字行的方向來(lái)看,文本區(qū)域呈現(xiàn)周期性特征;對(duì)圖片區(qū)域而言,通常圖片中各像素點(diǎn)的信息分布不具有周期性,是隨機(jī)的。根據(jù)文本行區(qū)域的周期特征和圖片區(qū)域的隨機(jī)特征,可利用數(shù)字信號(hào)處理技術(shù)將圖片區(qū)域識(shí)別出來(lái)并排除,再利用Radon變換對(duì)消除圖片干擾的文檔圖像進(jìn)行檢測(cè)和校正[10,11]。算法具體實(shí)現(xiàn)步驟如下:
(1)圖像預(yù)處理
因受外界因素的干擾,獲取的文檔圖像中通常包含噪聲,故在對(duì)傾斜文檔圖像進(jìn)行處理前需要對(duì)其進(jìn)行預(yù)處理,包括圖像平滑、二值化及邊緣檢測(cè)等步驟。圖像平滑可消除圖像采集過(guò)程中的高頻噪聲,主要有鄰域平均法、中值濾波法和選擇式掩膜平滑法等。二值化圖像可反映圖像的整體和局部特征,選擇合適的閾值方能將文檔圖像較好地轉(zhuǎn)化為二值圖像。常用的二值化方法有全局閾值法、自適應(yīng)閾值法和局部自適應(yīng)閾值法等。邊緣檢測(cè)的實(shí)質(zhì)是提取圖像中對(duì)象與背景的交界線,可采用差分、梯度、拉普拉斯算子及高通濾波等方法對(duì)圖像進(jìn)行邊緣檢測(cè),常用的檢測(cè)算子有梯度算子、拉普拉斯算子、Sobel算子和Canny算子[12]等。
(2)圖像分塊
結(jié)合被處理文檔圖像中文本行區(qū)域和圖片區(qū)域的分布特征,將被處理文檔圖像分成M×N個(gè)子塊,如8×8。圖像分塊時(shí)應(yīng)確保絕大多數(shù)圖片區(qū)域?yàn)閱为?dú)子塊,以確保后續(xù)算法能將這些僅包含圖片區(qū)域的子塊盡可能地排除。
(3)計(jì)算各子塊傾斜角所對(duì)應(yīng)的Radon曲線
利用Radon變換分別對(duì)所有子塊圖像進(jìn)行處理,求出各子塊圖像的傾斜角及其對(duì)應(yīng)的Radon曲線。若子塊圖像為純文本行,其傾斜角對(duì)應(yīng)的Radon變換投影方向正交于文本行方向,Radon曲線呈周期性分布;若子塊為圖片區(qū)域,對(duì)應(yīng)的Radon曲線將是非周期的;若子塊為空白區(qū)域,對(duì)應(yīng)的Radon曲線為一條直線。
(4)排除圖片區(qū)域子塊
從上文分析可知,純文本行子塊所對(duì)應(yīng)的Radon曲線是周期信號(hào),圖片子塊所對(duì)應(yīng)的Radon曲線是隨機(jī)變換的。因此,可將純文本行子塊和圖片子塊的識(shí)別問(wèn)題轉(zhuǎn)換為周期信號(hào)和非周期信號(hào)處理的問(wèn)題。從數(shù)字信號(hào)處理角度入手,對(duì)周期信號(hào)進(jìn)行傅里葉變換求其功率譜密度(周期-功率),可提取出信號(hào)周期[13,14]。利用此原理,對(duì)所有子塊圖像對(duì)應(yīng)的Radon曲線進(jìn)行傅里葉變換求其功率譜密度,周期-功率曲線中的最大峰值對(duì)應(yīng)的橫坐標(biāo)即為信號(hào)周期。利用統(tǒng)計(jì)學(xué)分析手段,對(duì)所有子塊的“周期值”進(jìn)行分析,獲得文本行子塊的周期,從而達(dá)到識(shí)別文本行子塊和圖片子塊的目的。在此基礎(chǔ)上,將識(shí)別出的圖片子塊所有像素點(diǎn)置零,以消除圖片區(qū)域?qū)z測(cè)算法的干擾。特別地,部分子塊同時(shí)包含文本行區(qū)域和圖片區(qū)域,此時(shí)若文本行區(qū)域占比較大,則該子塊將會(huì)保留,若圖片區(qū)域占比較大則會(huì)被排除。通過(guò)上述方法可將文檔中的絕大多數(shù)圖片區(qū)域排除,僅剩余的少許圖片邊界將不會(huì)對(duì)后續(xù)檢測(cè)結(jié)果產(chǎn)生明顯干擾。
(5)子塊圖像合并與補(bǔ)零
排除圖片子塊干擾后,將所有子塊圖像按照分割序號(hào)重新合并。此外,因子塊圖像劃分時(shí)部分外圍空白邊界區(qū)域被截?cái)嗌崛?,需將合并后的子塊外圍所對(duì)應(yīng)的截?cái)鄥^(qū)域進(jìn)行補(bǔ)零,確保合并圖像與原始文檔圖像大小相同。
(6)傾斜校正
利用Radon變換對(duì)合并圖像進(jìn)行處理,求出其對(duì)應(yīng)的傾斜角,并對(duì)其進(jìn)行旋轉(zhuǎn)校正。圖2所示為改進(jìn)算法的流程示意圖。
2 實(shí)驗(yàn)結(jié)果與分析
選取一幀沒(méi)有傾斜且包含圖片的文檔圖像,并旋轉(zhuǎn)不同角度得到傾斜圖像,利用這些傾斜文檔圖像對(duì)提出的算法進(jìn)行驗(yàn)證。驗(yàn)證實(shí)驗(yàn)基于Matlab 2009a平臺(tái)展開(kāi),計(jì)算機(jī)配置為主頻3.1 GHz的Intel雙核CPU、4 GB RAM。圖3所示為傾斜15度的樣本圖像及其預(yù)處理結(jié)果。圖3(a)~(d)分別為傾斜文檔圖像、二值化圖像、邊緣檢測(cè)結(jié)果以及劃分子塊結(jié)果。其中,圖像二值化閾值計(jì)算采用最大類(lèi)間方差法,邊緣檢測(cè)采用canny算子。為確保盡可能多的圖片區(qū)域被消除,將該文檔圖像劃分為64個(gè)子塊。
圖4所示為四種不同特征子塊區(qū)域,其功率譜密度如圖5所示。圖4(a)代表空白子塊,其功率譜密度曲線如圖5(a)所示,為一條直線;圖4(b)所示為純文本行子塊,故所對(duì)應(yīng)的Radon曲線是周期信號(hào),圖5(b)所示的功率譜密度曲線中最大峰值的橫坐標(biāo)即為該信號(hào)周期;圖4(c)所示為圖片子塊,與之對(duì)應(yīng)的Radon變換曲線是非周期信號(hào),其功率譜密度曲線如圖5(c)所示,可以看出,圖片子塊的Radon曲線功率譜密度中不存在周期特征峰;圖4(d)所示子塊同時(shí)包含文本行區(qū)域和圖片區(qū)域,因圖片邊界方向與文本行同向,故從圖5(d)所示的功率譜密度曲線中仍能準(zhǔn)確求出信號(hào)周期。因此,可采用上述手段將所有子塊中的圖片子塊找出并排除。
圖6(a)所示為排除圖片子塊干擾后將所有子塊合并的結(jié)果,可以看出,文檔中的絕大多數(shù)圖片區(qū)域已被排除,部分圖片因其邊界與文本行同向而不能被徹底排除,但是不會(huì)對(duì)后續(xù)檢測(cè)結(jié)果產(chǎn)生明顯干擾。圖6(b)所示為傾斜校正后的文檔圖像。
此外,為進(jìn)一步驗(yàn)證提出算法的檢測(cè)精度,將提出的算法與Hough變換算法及傳統(tǒng)Radon變換算法進(jìn)行比較,其結(jié)果如表1所列。從表1可以看出,因文檔中存在圖片干擾,Hough變換算法和傳統(tǒng)Radon變換算法的檢測(cè)誤差遠(yuǎn)大于提出的算法。提出算法的最大絕對(duì)誤差為0.07°,最小絕對(duì)誤差為0.01°,多組測(cè)試結(jié)果對(duì)應(yīng)的標(biāo)準(zhǔn)誤差為0.024°。實(shí)驗(yàn)證明,提出的算法能較好地排除文檔圖像中的圖片干擾,算法檢測(cè)精度較高。此外,提出的算法因兩次進(jìn)行Radon變換計(jì)算,運(yùn)算量相對(duì)于傳統(tǒng)Radon變換算法翻倍,這在一定程度上增加了時(shí)間成本。
3 結(jié) 語(yǔ)
文中提出了一種基于Radon變換的文檔圖像傾斜校正改進(jìn)算法,利用圖像分塊和傅里葉變換求功率譜密度等手段,可將文檔中的圖片區(qū)域干擾盡可能地排除。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)文檔圖像中的圖片區(qū)域干擾免疫能力強(qiáng),檢測(cè)精度高,為文檔圖像后續(xù)階段的處理奠定了良好的基礎(chǔ)。
參考文獻(xiàn)
[1]周冠瑋,平西建,程娟.基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J].計(jì)算機(jī)應(yīng)用,2007,27(7):1813-1816.
[2] Nandini N,Srikanta M K,Kumar G H.Estimation of skew angle inbinary document images using hough transform[Z].World Academy of Science,Engineering and Technology,2008.
[3] Chandan Singh,Nitin Bhatia,Amandeep Raur.Hough transform based fast skew detection and accurate skew correction methods[J]. Pattern Recognition,2008,41:3528-3546.
[4]蔣海波.掃描圖像的傾斜校正、分割與壓縮[D].濟(jì)南:山東大學(xué),2012.
[5]吳一全,謝靜.基于特征點(diǎn)最小距離擬合的文檔圖像傾斜檢測(cè)[J].光學(xué)技術(shù),2009,35(1):152-155.
[6]吳飛飛.文本圖像傾斜校正算法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2014.
[7]張順利,李衛(wèi)斌,吉軍.基于投影的文檔圖像傾斜校正方法[J].計(jì)算機(jī)工程與應(yīng)用,2010(3):166-168.
[8] L.J. Tong,Y.Zhang,H.Q. Zhao.A Warped Document Image Mosaicing Method Based on Registration and TRS Transform[C].2011 IEEE/ACIS 10th International Conference on Computer and Information Science (ICIS) ,2011.
[9] KUMAR V,BANSAL A.Sparse document image coding for restoration[C].12th International Conference on Document Analysis and Recognition (ICDAR),2013.
[10] Gaofeng Meng,Chunhong Pan,Nanning Zheng,et al.Skew estimation of document images using bagging[J].IEEE Transactions on Image Processing,2010,19(7):1837-1846.
[11] L.G. Miao,Y.J. Yue.Automatic document image mosaicing algorithm with hand-held camera[C].2011 2nd International Conference on Intelligent Control and Information Processing (ICICIP),2011.
[12]馬歌.基于Canny算子和Radon變換的證件圖像傾斜校正[J].中國(guó)新技術(shù)新產(chǎn)品,2014(15):14-15.
[13] Manjunath Aradhya V N,Hemantha Kumar G,Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform[J].international journal of information technology,2007(3).
[14] Doermann D,Liang Jian,Li Huiping.Progress in camera-based document image analysis[C].Proc of the 7thInter-national Conference on Document Analysis and Recognition ,2003.