一種基于Radon變換的文檔圖像傾斜校正改進(jìn)算法

2016-07-29 12:08李志明

物聯(lián)網(wǎng)技術(shù) 2016年7期

李志明

摘要：通過(guò)光學(xué)字符識(shí)別技術(shù)可將紙質(zhì)文檔內(nèi)容快速轉(zhuǎn)換為可編輯電子文檔，該技術(shù)識(shí)別的準(zhǔn)確率與掃描文檔圖像質(zhì)量的好壞緊密相關(guān)。對(duì)紙質(zhì)文檔掃描或拍照時(shí)不可避免的會(huì)產(chǎn)生文檔圖像傾斜的現(xiàn)象，為了保證光學(xué)字符識(shí)別技術(shù)識(shí)別的準(zhǔn)確度，對(duì)文檔圖像進(jìn)行傾斜校正是非常有必要的。文中針對(duì)傳統(tǒng)文檔圖像傾斜校正算法對(duì)文檔圖像中存在圖片區(qū)域干擾時(shí)校正精度低的問(wèn)題，提出了一種基于Radon變換的改進(jìn)算法。該算法首先將預(yù)處理后的文檔圖像進(jìn)行分塊，并利用Radon變換計(jì)算各子塊圖像的傾斜角所對(duì)應(yīng)的Radon曲線；其次，結(jié)合文本行子塊與圖片子塊的Radon曲線的周期性差異，再利用傅里葉變換求功率譜密度將圖片子塊檢測(cè)出來(lái)并排除；最后，利用Radon對(duì)已排除圖片區(qū)域干擾的文檔圖像進(jìn)行傾斜角檢測(cè)并校正。實(shí)驗(yàn)結(jié)果表明，該改進(jìn)算法能將傾斜文檔圖像中的絕大多數(shù)圖片干擾排除，從而使傾斜校正精度得到提高。

關(guān)鍵詞：文檔圖像處理；傾斜校正；傅里葉變換；Radon變換

中圖分類(lèi)號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2016）07-00-04

0 引言

文檔圖像處理通過(guò)光學(xué)字符識(shí)別技術(shù)（Optical Character Recognition，OCR）對(duì)文檔圖像進(jìn)行相應(yīng)處理，以達(dá)到對(duì)文檔圖像中的文字、圖片和圖表等信息進(jìn)行分析和識(shí)別的目的。然而，在利用數(shù)碼相機(jī)或掃描儀等圖像獲取設(shè)備將紙質(zhì)文檔轉(zhuǎn)換為數(shù)字圖像的過(guò)程中，因掃描設(shè)備機(jī)械缺陷或人為因素不可避免的會(huì)使文檔圖像發(fā)生傾斜。為提高OCR技術(shù)識(shí)別的準(zhǔn)確率，對(duì)傾斜的文檔圖像進(jìn)行校正很有必要。由于文檔圖像版面結(jié)構(gòu)的復(fù)雜性，建立一種通用的傾斜文檔圖像校正算法非常困難。如何高效、準(zhǔn)確地檢測(cè)出文檔圖像的傾斜角是成功實(shí)現(xiàn)傾斜校正的關(guān)鍵。當(dāng)前，科研人員已開(kāi)發(fā)了多種不同的文檔傾斜校正算法，包括基于Hough變換的校正算法[1-3]、基于Fourier變換的校正法[4]、基于特征點(diǎn)最小距離擬合的文檔圖像傾斜檢測(cè)[5]、基于交叉關(guān)聯(lián)校正算法[6]、基于投影的文檔圖像傾斜校正方法[7]以及k-最近鄰簇校正法[8，9]等。其中，Hough變換校正算法的思想是將圖像空間變換到參數(shù)空間，使得圖像空間中的直線被映射到參數(shù)空間的一點(diǎn)，而圖像空間中的一點(diǎn)則對(duì)應(yīng)參數(shù)空間的一條正弦曲線；圖像空間中的任意兩點(diǎn)所對(duì)應(yīng)的正弦曲線在參數(shù)空間中相交于一點(diǎn)，通過(guò)上述兩點(diǎn)所在直線的點(diǎn)對(duì)應(yīng)的正弦曲線在參數(shù)空間中都相交于該交點(diǎn)。利用上述特性可將圖像空間中直線檢測(cè)問(wèn)題轉(zhuǎn)換為求參數(shù)空間中局部最大值的問(wèn)題。基于Fourier變換的校正算法利用文檔頁(yè)面傾斜角與Fourier空間密度最大值的對(duì)應(yīng)特性實(shí)現(xiàn)檢測(cè)計(jì)算，由于對(duì)文檔圖像中的全部像素進(jìn)行計(jì)算，運(yùn)算量非常大，因此目前使用較少。交叉關(guān)聯(lián)算法是基于等距離豎直（水平）平行線上像素點(diǎn)相關(guān)性設(shè)計(jì)的，該算法先以平行線上像素點(diǎn)來(lái)建立相關(guān)矩陣，然后對(duì)相關(guān)矩陣在豎直方向上進(jìn)行投影，投影圖的全局最大值與文檔圖像的傾斜角對(duì)應(yīng)；由于相關(guān)矩陣的計(jì)算量非常大，且要確定全局最大值，某些情況下還需回溯計(jì)算相關(guān)矩陣和投影，進(jìn)一步增加了計(jì)算量。k-最近鄰簇校正法通過(guò)計(jì)算所有連通區(qū)域的中心點(diǎn)的k個(gè)最近鄰確定出每對(duì)近鄰點(diǎn)的矢量方向，并統(tǒng)計(jì)生成直方圖，直方圖的峰值就對(duì)應(yīng)于整個(gè)文檔圖像的傾角。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn)，利用以上算法對(duì)純文本行圖像進(jìn)行處理時(shí)，算法檢測(cè)精度較高，當(dāng)文檔中存在圖片區(qū)域時(shí)，圖片區(qū)域的干擾導(dǎo)致算法精度降低。此外，從算法設(shè)計(jì)原理可以看出，上述算法都存在計(jì)算量大的問(wèn)題。

針對(duì)傳統(tǒng)傾斜文檔圖像校正算法處理包含圖片區(qū)域的文檔圖像時(shí)檢測(cè)精度低的問(wèn)題，提出了一種基于Radon變換的改進(jìn)算法，并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法對(duì)圖片區(qū)域干擾的排除效果以及算法檢測(cè)精度。

1 算法原理

1.1 基于Radon變換的傳統(tǒng)校正算法

Radon變換利用投影積分的思想，沿著某條特定直線求積分，并將積分值投影到Radon變換平面上，該積分結(jié)果又被稱(chēng)為Radon曲線，由該直線與圖像坐標(biāo)系原點(diǎn)的距離和傾斜角共同確定，Radon變換示意圖如圖1所示。文檔圖像沿θ方向的Radon曲線可表示為：

其中，f（x，y）為初始文檔圖像，g（s，θ）為Radon曲線。

基于Radon變換原理實(shí)現(xiàn)傾斜文檔校正的一般思路如下：

（1）圖像預(yù)處理：通過(guò)圖像二值化、邊緣檢測(cè)等手段提取同一行文本的邊框；

（2）傾斜角檢測(cè)：對(duì)步驟（1）中的結(jié)果進(jìn)行Radon變換，求出文檔圖像對(duì)應(yīng)的傾斜角；

（3）傾斜校正：將原始文檔旋轉(zhuǎn)相應(yīng)角度，完成傾斜校正。然而，同其它傾斜校正算法類(lèi)似，此算法對(duì)文檔中包含大量純文本行時(shí)檢測(cè)精度較高，當(dāng)文檔圖像中存在圖片區(qū)域時(shí)，Radon曲線將由文本行和圖片區(qū)域像素點(diǎn)積分累積獲得；當(dāng)圖片區(qū)域所占像素點(diǎn)較多時(shí)，會(huì)導(dǎo)致Radon曲線峰值所對(duì)應(yīng)的投影角度較大地偏離文檔圖像的真實(shí)傾斜角，從而導(dǎo)致校正算法失效。因此，開(kāi)發(fā)一種對(duì)文檔圖像中的圖片區(qū)域干擾免疫效果更強(qiáng)的檢測(cè)算法很有必要。

1.2 改進(jìn)算法

將文檔的先驗(yàn)知識(shí)與Radon變換檢測(cè)算法相結(jié)合，從Radon變換出發(fā)，結(jié)合文檔圖像內(nèi)容特征對(duì)傳統(tǒng)的Radon變換校正算法進(jìn)行改進(jìn)，以提高算法的精度。對(duì)包含圖片區(qū)域的傾斜文檔圖像進(jìn)行分析：

對(duì)純文本行區(qū)域而言，每行文字的大小和間距是確定的，故沿著垂直于文字行的方向來(lái)看，文本區(qū)域呈現(xiàn)周期性特征；對(duì)圖片區(qū)域而言，通常圖片中各像素點(diǎn)的信息分布不具有周期性，是隨機(jī)的。根據(jù)文本行區(qū)域的周期特征和圖片區(qū)域的隨機(jī)特征，可利用數(shù)字信號(hào)處理技術(shù)將圖片區(qū)域識(shí)別出來(lái)并排除，再利用Radon變換對(duì)消除圖片干擾的文檔圖像進(jìn)行檢測(cè)和校正[10，11]。算法具體實(shí)現(xiàn)步驟如下：

（1）圖像預(yù)處理

因受外界因素的干擾，獲取的文檔圖像中通常包含噪聲，故在對(duì)傾斜文檔圖像進(jìn)行處理前需要對(duì)其進(jìn)行預(yù)處理，包括圖像平滑、二值化及邊緣檢測(cè)等步驟。圖像平滑可消除圖像采集過(guò)程中的高頻噪聲，主要有鄰域平均法、中值濾波法和選擇式掩膜平滑法等。二值化圖像可反映圖像的整體和局部特征，選擇合適的閾值方能將文檔圖像較好地轉(zhuǎn)化為二值圖像。常用的二值化方法有全局閾值法、自適應(yīng)閾值法和局部自適應(yīng)閾值法等。邊緣檢測(cè)的實(shí)質(zhì)是提取圖像中對(duì)象與背景的交界線，可采用差分、梯度、拉普拉斯算子及高通濾波等方法對(duì)圖像進(jìn)行邊緣檢測(cè)，常用的檢測(cè)算子有梯度算子、拉普拉斯算子、Sobel算子和Canny算子[12]等。

（2）圖像分塊

結(jié)合被處理文檔圖像中文本行區(qū)域和圖片區(qū)域的分布特征，將被處理文檔圖像分成M×N個(gè)子塊，如8×8。圖像分塊時(shí)應(yīng)確保絕大多數(shù)圖片區(qū)域?yàn)閱为?dú)子塊，以確保后續(xù)算法能將這些僅包含圖片區(qū)域的子塊盡可能地排除。

（3）計(jì)算各子塊傾斜角所對(duì)應(yīng)的Radon曲線

利用Radon變換分別對(duì)所有子塊圖像進(jìn)行處理，求出各子塊圖像的傾斜角及其對(duì)應(yīng)的Radon曲線。若子塊圖像為純文本行，其傾斜角對(duì)應(yīng)的Radon變換投影方向正交于文本行方向，Radon曲線呈周期性分布；若子塊為圖片區(qū)域，對(duì)應(yīng)的Radon曲線將是非周期的；若子塊為空白區(qū)域，對(duì)應(yīng)的Radon曲線為一條直線。

（4）排除圖片區(qū)域子塊

從上文分析可知，純文本行子塊所對(duì)應(yīng)的Radon曲線是周期信號(hào)，圖片子塊所對(duì)應(yīng)的Radon曲線是隨機(jī)變換的。因此，可將純文本行子塊和圖片子塊的識(shí)別問(wèn)題轉(zhuǎn)換為周期信號(hào)和非周期信號(hào)處理的問(wèn)題。從數(shù)字信號(hào)處理角度入手，對(duì)周期信號(hào)進(jìn)行傅里葉變換求其功率譜密度（周期-功率），可提取出信號(hào)周期[13，14]。利用此原理，對(duì)所有子塊圖像對(duì)應(yīng)的Radon曲線進(jìn)行傅里葉變換求其功率譜密度，周期-功率曲線中的最大峰值對(duì)應(yīng)的橫坐標(biāo)即為信號(hào)周期。利用統(tǒng)計(jì)學(xué)分析手段，對(duì)所有子塊的“周期值”進(jìn)行分析，獲得文本行子塊的周期，從而達(dá)到識(shí)別文本行子塊和圖片子塊的目的。在此基礎(chǔ)上，將識(shí)別出的圖片子塊所有像素點(diǎn)置零，以消除圖片區(qū)域?qū)z測(cè)算法的干擾。特別地，部分子塊同時(shí)包含文本行區(qū)域和圖片區(qū)域，此時(shí)若文本行區(qū)域占比較大，則該子塊將會(huì)保留，若圖片區(qū)域占比較大則會(huì)被排除。通過(guò)上述方法可將文檔中的絕大多數(shù)圖片區(qū)域排除，僅剩余的少許圖片邊界將不會(huì)對(duì)后續(xù)檢測(cè)結(jié)果產(chǎn)生明顯干擾。

（5）子塊圖像合并與補(bǔ)零

排除圖片子塊干擾后，將所有子塊圖像按照分割序號(hào)重新合并。此外，因子塊圖像劃分時(shí)部分外圍空白邊界區(qū)域被截?cái)嗌崛?，需將合并后的子塊外圍所對(duì)應(yīng)的截?cái)鄥^(qū)域進(jìn)行補(bǔ)零，確保合并圖像與原始文檔圖像大小相同。

（6）傾斜校正

利用Radon變換對(duì)合并圖像進(jìn)行處理，求出其對(duì)應(yīng)的傾斜角，并對(duì)其進(jìn)行旋轉(zhuǎn)校正。圖2所示為改進(jìn)算法的流程示意圖。

2 實(shí)驗(yàn)結(jié)果與分析

選取一幀沒(méi)有傾斜且包含圖片的文檔圖像，并旋轉(zhuǎn)不同角度得到傾斜圖像，利用這些傾斜文檔圖像對(duì)提出的算法進(jìn)行驗(yàn)證。驗(yàn)證實(shí)驗(yàn)基于Matlab 2009a平臺(tái)展開(kāi)，計(jì)算機(jī)配置為主頻3.1 GHz的Intel雙核CPU、4 GB RAM。圖3所示為傾斜15度的樣本圖像及其預(yù)處理結(jié)果。圖3（a）～（d）分別為傾斜文檔圖像、二值化圖像、邊緣檢測(cè)結(jié)果以及劃分子塊結(jié)果。其中，圖像二值化閾值計(jì)算采用最大類(lèi)間方差法，邊緣檢測(cè)采用canny算子。為確保盡可能多的圖片區(qū)域被消除，將該文檔圖像劃分為64個(gè)子塊。

圖4所示為四種不同特征子塊區(qū)域，其功率譜密度如圖5所示。圖4（a）代表空白子塊，其功率譜密度曲線如圖5（a）所示，為一條直線；圖4（b）所示為純文本行子塊，故所對(duì)應(yīng)的Radon曲線是周期信號(hào)，圖5（b）所示的功率譜密度曲線中最大峰值的橫坐標(biāo)即為該信號(hào)周期；圖4（c）所示為圖片子塊，與之對(duì)應(yīng)的Radon變換曲線是非周期信號(hào)，其功率譜密度曲線如圖5（c）所示，可以看出，圖片子塊的Radon曲線功率譜密度中不存在周期特征峰；圖4（d）所示子塊同時(shí)包含文本行區(qū)域和圖片區(qū)域，因圖片邊界方向與文本行同向，故從圖5（d）所示的功率譜密度曲線中仍能準(zhǔn)確求出信號(hào)周期。因此，可采用上述手段將所有子塊中的圖片子塊找出并排除。

圖6（a）所示為排除圖片子塊干擾后將所有子塊合并的結(jié)果，可以看出，文檔中的絕大多數(shù)圖片區(qū)域已被排除，部分圖片因其邊界與文本行同向而不能被徹底排除，但是不會(huì)對(duì)后續(xù)檢測(cè)結(jié)果產(chǎn)生明顯干擾。圖6（b）所示為傾斜校正后的文檔圖像。

此外，為進(jìn)一步驗(yàn)證提出算法的檢測(cè)精度，將提出的算法與Hough變換算法及傳統(tǒng)Radon變換算法進(jìn)行比較，其結(jié)果如表1所列。從表1可以看出，因文檔中存在圖片干擾，Hough變換算法和傳統(tǒng)Radon變換算法的檢測(cè)誤差遠(yuǎn)大于提出的算法。提出算法的最大絕對(duì)誤差為0.07°，最小絕對(duì)誤差為0.01°，多組測(cè)試結(jié)果對(duì)應(yīng)的標(biāo)準(zhǔn)誤差為0.024°。實(shí)驗(yàn)證明，提出的算法能較好地排除文檔圖像中的圖片干擾，算法檢測(cè)精度較高。此外，提出的算法因兩次進(jìn)行Radon變換計(jì)算，運(yùn)算量相對(duì)于傳統(tǒng)Radon變換算法翻倍，這在一定程度上增加了時(shí)間成本。

3 結(jié) 語(yǔ)

文中提出了一種基于Radon變換的文檔圖像傾斜校正改進(jìn)算法，利用圖像分塊和傅里葉變換求功率譜密度等手段，可將文檔中的圖片區(qū)域干擾盡可能地排除。實(shí)驗(yàn)結(jié)果表明，該算法對(duì)文檔圖像中的圖片區(qū)域干擾免疫能力強(qiáng)，檢測(cè)精度高，為文檔圖像后續(xù)階段的處理奠定了良好的基礎(chǔ)。

參考文獻(xiàn)

[1]周冠瑋，平西建，程娟.基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J].計(jì)算機(jī)應(yīng)用，2007，27（7）：1813-1816.

[2] Nandini N，Srikanta M K，Kumar G H.Estimation of skew angle inbinary document images using hough transform[Z].World Academy of Science，Engineering and Technology，2008.

[3] Chandan Singh，Nitin Bhatia，Amandeep Raur.Hough transform based fast skew detection and accurate skew correction methods[J]. Pattern Recognition，2008，41：3528-3546.

[4]蔣海波.掃描圖像的傾斜校正、分割與壓縮[D].濟(jì)南：山東大學(xué)，2012.

[5]吳一全，謝靜.基于特征點(diǎn)最小距離擬合的文檔圖像傾斜檢測(cè)[J].光學(xué)技術(shù)，2009，35（1）：152-155.

[6]吳飛飛.文本圖像傾斜校正算法的研究與應(yīng)用[D].北京：北方工業(yè)大學(xué)，2014.

[7]張順利，李衛(wèi)斌，吉軍.基于投影的文檔圖像傾斜校正方法[J].計(jì)算機(jī)工程與應(yīng)用，2010（3）：166-168.

[8] L.J. Tong，Y.Zhang，H.Q. Zhao.A Warped Document Image Mosaicing Method Based on Registration and TRS Transform[C].2011 IEEE/ACIS 10th International Conference on Computer and Information Science （ICIS），2011.

[9] KUMAR V，BANSAL A.Sparse document image coding for restoration[C].12th International Conference on Document Analysis and Recognition （ICDAR），2013.

[10] Gaofeng Meng，Chunhong Pan，Nanning Zheng，et al.Skew estimation of document images using bagging[J].IEEE Transactions on Image Processing，2010，19（7）：1837-1846.

[11] L.G. Miao，Y.J. Yue.Automatic document image mosaicing algorithm with hand-held camera[C].2011 2nd International Conference on Intelligent Control and Information Processing （ICICIP），2011.

[12]馬歌.基于Canny算子和Radon變換的證件圖像傾斜校正[J].中國(guó)新技術(shù)新產(chǎn)品，2014（15）：14-15.

[13] Manjunath Aradhya V N，Hemantha Kumar G，Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform[J].international journal of information technology，2007（3）.

[14] Doermann D，Liang Jian，Li Huiping.Progress in camera-based document image analysis[C].Proc of the 7thInter-national Conference on Document Analysis and Recognition ，2003.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于Radon變換的文檔圖像傾斜校正改進(jìn)算法