国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種實(shí)用的金融票據(jù)框線去除算法

2016-11-02 23:22:16卜飛宇胡奇光汪彥
電腦知識(shí)與技術(shù) 2016年23期
關(guān)鍵詞:字符識(shí)別色差

卜飛宇 胡奇光 汪彥

摘要:字線交疊嚴(yán)重干擾對(duì)字符的切分與識(shí)別。基于二值圖像的表格框線去除算法,只能在一定程度上排除表格框線對(duì)字符識(shí)別的干擾。隨著計(jì)算機(jī)運(yùn)算速度和存儲(chǔ)容量的迅速提高,表格識(shí)別系統(tǒng)的掃描輸入圖像開始采用灰度圖像和彩色圖像。該文提出了一種基于彩色圖像的表格框線去除算法,由于利用了圖像中的彩色和灰度信息,能更好地排除表格框線對(duì)字符識(shí)別的干擾。該方法目前已成功地應(yīng)用于銀行票據(jù)識(shí)別系統(tǒng)中。

關(guān)鍵詞:字符識(shí)別; 金融票據(jù); 框線去除; 色差

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)23-0148-03

Abstract: Characters often overlap form frame lines. Such overlapping seriously deteriorates the recognition of characters. Almost all form frame line removal algorithms based on binary image, and these algorithms have some limitations. A new form frame line removal algorithm based on color images is presented in this paper. Because of using color and gray information of images, this method can avoid the effect of overlapping better. The effectiveness of this method is proved by application of financial document recognition system.

Key words: Financial Document; Frame Line Removal; OCR; Color Aberration

隨著票據(jù)處理任務(wù)日趨繁重,銀行、稅務(wù)、工商、財(cái)政等部門開始借助OCR系統(tǒng)來進(jìn)行票據(jù)錄入。但目前一些票據(jù)自動(dòng)識(shí)別系統(tǒng)識(shí)別率尚不能很好地滿足應(yīng)用需求。造成識(shí)別率較低的一個(gè)最主要原因,就是字線交疊。在去除檢測(cè)到的表格框線時(shí)完整保留字符筆畫,一直是表格自動(dòng)識(shí)別的一個(gè)重要環(huán)節(jié)。

1 傳統(tǒng)的表格框線去除算法簡介

1.1 二值圖像上的表格框線去除

字線交疊分為三種情況(圖1):粘連,相交,重合 [1]。粘連時(shí)直接抹去框線,不會(huì)影響字符的識(shí)別。而對(duì)相交和重合的情況,則必須做進(jìn)一步的圖像分析。

現(xiàn)有的框線去除算法分成兩類:第一類先抹去框線,再根據(jù)框線附近字符筆畫的局部特性將缺損筆畫補(bǔ)齊。如YU B[2]等利用被框線截?cái)嗟墓P畫的兩個(gè)殘留游程進(jìn)行線性內(nèi)插將斷裂部分補(bǔ)齊。劉長松[3]等則通過框線檢測(cè)時(shí)得到的有向單連通鏈信息,對(duì)筆畫與框線的相交角度進(jìn)行分析,在去除框線后再對(duì)字符筆畫進(jìn)行相應(yīng)修整。

第二類算法,對(duì)字線交疊處的局部區(qū)域做分析,只抹去屬于框線的像素,保留屬于筆畫的像素。如CHUNG Y[4]將交疊區(qū)域分成三類:需恢復(fù)部分,不恢復(fù)部分和無法判斷部分。對(duì)于需恢復(fù)部分做字符修整,不恢復(fù)部分作為字符筆畫保留,而對(duì)無法判斷部分,由識(shí)別核心判斷是否應(yīng)該去除。文獻(xiàn)[5]的算法則是在不提取表格框線的前提下,采用圖像分塊和連通域分析,實(shí)現(xiàn)字線分離。

1.2 灰度圖像上的表格框線去除

WANG YANG[6]用像素的鄰域灰度均值和方差作為一對(duì)參數(shù)來描述其鄰域特性,鄰域特性相似的像素點(diǎn)聚類成一連通域。利用兩個(gè)相交連通域交匯點(diǎn)處的相關(guān)參數(shù)對(duì)的特征差別來進(jìn)行字線分離。YE X[7]提出一種基于數(shù)學(xué)形態(tài)學(xué)的表格框線去除算法,先提取并去除表格框線,再對(duì)字符作形態(tài)學(xué)修復(fù)。張艷[8]等人則采用一種連通鏈結(jié)構(gòu)描述疊加后的框線區(qū)域,然后對(duì)交疊進(jìn)行判斷和標(biāo)記,根據(jù)標(biāo)記保留字符筆劃去除框線干擾。

以上框線去除算法,都有其局限性。尤其是對(duì)字符筆畫與表格框線重合的情況,不能取得滿意的去線效果。

2 彩色票據(jù)圖像表格框線去除

2.1 彩色增透方法的局限性

彩色增透原理:設(shè)圖像上某像素的紅、綠、藍(lán)分量值分別為r、g、b,以紅色增透為例。當(dāng)[r>g]且[r>b]時(shí),令[p=3×r-g-b],若[p>255],則令[r=g=b=255];否則令[r=g=b=p]。

對(duì)印刷質(zhì)量較好且無顏色失真的票據(jù)圖像,采用彩色增透能有效地去除表格框線,完整的保留待識(shí)別字符。但由于印刷不規(guī)范及掃描后壓縮,常造成彩色票據(jù)圖像顏色失真。對(duì)這樣的圖像,彩色增透技術(shù)就無法有效的去除表格框線,或在去除框線時(shí)會(huì)導(dǎo)致與框線重疊的字符殘缺斷裂(圖2b),這會(huì)導(dǎo)致字符切分與識(shí)別錯(cuò)誤。

2.2 彩色票據(jù)的特點(diǎn)及框線去除整體思路

經(jīng)分析,彩色票據(jù)圖像有如下幾個(gè)特點(diǎn):

1)票據(jù)上打印字符和手寫字符為灰黑色,在票據(jù)上不同的區(qū)域,打印字符的灰度有時(shí)會(huì)不一致。手寫字符與打印字符的灰度區(qū)別往往較明顯。2)往往有字符打印在框線上(字線交疊),也存在少量打印字符與印章重疊(圖2a)。3)在同一條表格線的不同像素行上,顏色的深淺也有不同,但同一像素行顏色的一致性較好。

據(jù)此,提出彩色票據(jù)表格框線去除算法的整體思路:

1)檢測(cè)出票據(jù)圖像上的表格框線。2)尋找票據(jù)上的待識(shí)別字符區(qū)域,包括打印字符和手寫字符。3)找出有哪些待識(shí)別字符區(qū)域與檢測(cè)出的表格框線相交,并求出字線交疊區(qū)域。4)對(duì)每個(gè)字線交疊區(qū)域,結(jié)合彩色信息和灰度信息來去除表格框線,完整地保留字符。

本方法的關(guān)鍵:一是正確找出每個(gè)待識(shí)別字符區(qū)域及字線交疊區(qū)域,二是在字線交疊區(qū)域中去除框線時(shí)根據(jù)什么原則來保留同時(shí)屬于框線和筆畫的像素。

2.3 表格框線檢測(cè)

表格框線的檢測(cè),采用的是基于“有向單連通鏈”的自底向上的表格框線檢測(cè)算法[3]。為避免字線交疊對(duì)框線檢測(cè)的干擾,可先濾除填寫域的灰黑色字符。例如票據(jù)印刷部分為紅色,則只保留偏紅色的像素,就能濾去填寫域字符。然后在其二值圖像上再檢測(cè)表格框線時(shí),就能排除因字線交疊導(dǎo)致的表格框線漏檢,準(zhǔn)確而完整地檢測(cè)出所有表格框線。

2.4 待識(shí)別字符區(qū)域的搜尋

先對(duì)票據(jù)圖像濾色再二值化,然后通過進(jìn)行連通域分析來尋找待識(shí)別字符區(qū)域。具體過程分如下三步:

2.4.1 對(duì)整個(gè)票據(jù)圖像進(jìn)行濾色

則保持該像素三顏色分量值不變,否則將該像素置成白色。濾色處理可能導(dǎo)致字符殘缺斷裂(圖3),為避免此種情況影響到提取完整的字符連通域,將在后面的字符連通域合并時(shí)再采取補(bǔ)救措施。

2.4.2 對(duì)整個(gè)票據(jù)圖像進(jìn)行二值化

因字符在票據(jù)上占一定比例(大于1%小于20%),我們?cè)谶@里采取一種取字符平均灰度和背景平均灰度兩者平均值作閥值的快速二值化方法。

將濾色后的票據(jù)圖像灰度化后,去掉25%灰度值最大的像素。對(duì)剩下的像素,取1%灰度值最小的像素的灰度平均值作為字符平均灰度,再取25%灰度值最大的像素的灰度平均值作為背景平均灰度,最后取字符平均灰度和背景平均灰度兩者的平均值作為二值化閥值。

2.4.3 提取字符連通域并合并鄰近的連通域

我們只需得到每個(gè)字符連通域的外接矩形(包圍盒),因此采用一種改進(jìn)的種子點(diǎn)生長算法。設(shè)(x ,y)為字符連通域C上的任意一點(diǎn),定義連通域C的“外接矩形”為以下四個(gè)邊界坐標(biāo)構(gòu)成的矩形:

對(duì)一個(gè)種子點(diǎn),先記錄一個(gè)長、寬均為零的初始外接矩形,該外接矩形的四條邊均通過種子點(diǎn)。由種子點(diǎn)開始向上、下、左、右四個(gè)方向生長,若新生長的點(diǎn)超過原來記錄的外接矩形的范圍,則修正外接矩形的四條邊的位置,以保證所有生長出來的點(diǎn)仍然在外接矩形內(nèi)。當(dāng)一個(gè)字符連通域生長完成后,就得到了它的外接矩形。

得到所有的字符連通域外接矩形后,再將鄰近的字符連通域合并到一起??紤]到2.4.1中濾色造成的字符斷裂,而票據(jù)中的表格框線的寬度一般不超過8個(gè)像素,我們將得到的每個(gè)字符連通域的外接矩形向四周各擴(kuò)充4至5個(gè)像素,然后合并相交的外接矩形。這樣,就將斷裂或上下、左右相鄰較近的字符連通域合并到了同一個(gè)區(qū)域里,從而得到若干個(gè)相對(duì)獨(dú)立的待識(shí)別字符區(qū)域,每個(gè)區(qū)域包含一個(gè)或多個(gè)字符(圖4)。

2.5 表格框線去除

對(duì)上面搜尋到的每個(gè)待識(shí)別字符區(qū)域,依次判別該區(qū)域是否與檢測(cè)出的表格框線相交,若相交,求出相應(yīng)的字線交疊區(qū)域(圖5)。

字線交疊區(qū)域中,每一個(gè)像素均位于表格框線上。因此,只需判斷哪些像素沒有位于字符筆畫上,將其濾除,即可去除表格框線,而完整地保留下筆畫。下面以紅色水平框線為例,采用一種簡便快速的基于色差的平均值統(tǒng)計(jì)方法來去除表格框線。

對(duì)于一個(gè)字線交疊區(qū)域,考慮到表格線上同一像素行顏色一致性較好的特點(diǎn),我們以像素行為單位來進(jìn)行處理。先統(tǒng)計(jì)出該行內(nèi)所有像素的紅色分量的平均值A(chǔ)verRed及灰度平均值A(chǔ)verGray,然后再依次檢查每個(gè)像素,設(shè)像素的紅色分量值為r,灰度值為p,若有:[p

2.6 去除印章干擾

若一個(gè)待識(shí)別字符區(qū)域中還存在著紅色印章,則統(tǒng)計(jì)其中所有紅色像素的紅色分量平均值A(chǔ)verRed及灰度平均值A(chǔ)verGray。對(duì)每個(gè)紅色像素,若其紅色分量值小于AverRed且灰度值小于AverGray,則保留該像素,否則將其置成白色。

3 實(shí)驗(yàn)結(jié)果分析

選擇了400張待識(shí)別字符與表格框線重疊的彩色銀行票據(jù)作測(cè)試樣本,其中162張有待識(shí)字符和印章重疊。下面列出了用幾種不同的方法對(duì)這些票據(jù)圖像去除框線后再進(jìn)行識(shí)別的結(jié)果。其中二值圖像上的去線算法采用的是文獻(xiàn)[3]中的算法。因目前的識(shí)別核心仍是基于二值圖像的,因此送入識(shí)別核心的圖像,為去線后再二值化或二值化后再去線的圖像。若一張票據(jù)的所有待識(shí)別字符區(qū)域都識(shí)別成功,稱為整張識(shí)別通過。

從表1可以看出,對(duì)存在字線交疊和字印交疊的票據(jù),不去線直接二值化后進(jìn)行識(shí)別,則整張識(shí)別通過率極低。彩色增透去線再二值化后進(jìn)行識(shí)別,也無法達(dá)到實(shí)用要求,且其整張識(shí)別通過率比二值圖像上去線后再識(shí)別的還低,這是因?yàn)椴噬鐾笇?duì)顏色失真的票據(jù)圖像無法取得好的效果。用本方法去線后并二值化,再進(jìn)行識(shí)別時(shí),整張識(shí)別通過率有明顯提高。

4 結(jié)束語

本文提出了一種基于色差的彩色票據(jù)圖像表格框線去除算法,根據(jù)檢測(cè)到的表格框線和搜索到的待識(shí)別字符區(qū)域找出所有字線交疊區(qū)域,然后對(duì)找到的每個(gè)字線交疊區(qū)域依次進(jìn)行去線處理。通過在局部區(qū)域上利用彩色和灰度信息對(duì)圖像進(jìn)行分析,本方法能有效地去除表格框線的干擾,是一種更能滿足實(shí)用需求的方法。

參考文獻(xiàn):

[1] Satoshi N, Yabuki M, Asakawa A, et al. Global interpolation in the segmentation of handwritten characters overlapping a border[J]. IEICE transactions on Information and Systems, 1995, 78(7): 909-916.

[2] Yu B, Jain A K. A generic system for form dropout[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(11): 1127-1134.

[3] 劉長松, 潘世言, 鄭冶楓, 等. 一種表格框線檢測(cè)和字線分離算法[J]. 電子與信息學(xué)報(bào), 2002, 24(9):1190-1196.

[4] Chung Y, Lee K, Paik J, et al. Extraction and Restoration of Digits Touching or Overlapping Lines[J]. Journal of Molecular Biology, 1996, 3(4):541-552.

[5] 劉為, 平西建, 郭戈. 基于字線分離的表格識(shí)別預(yù)處理算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì). 2008,(19):5066-5068.

[6] Wang Y, Bhattacharya P. On parameter-dependent connected components of gray images[J]. Pattern Recognition, 1996, 29(8): 1359-1368.

[7] Ye X, Cheriet M, Suen C Y, et al. Extraction Of Bankcheck Items By Mathematical Morphology[J]. Document Analysis & Recognition, 2004, 2(2-3):53-66.

[8] 張艷, 郁生陽, 張重陽, 等. 表格型票據(jù)中框線檢測(cè)與去除算法[J]. 計(jì)算機(jī)研究與發(fā)展,2008(5):909-914.

猜你喜歡
字符識(shí)別色差
基于CIEDE2000的紡織品色差檢測(cè)與檢速匹配
CIEDE2000色差公式在彩涂板色差檢測(cè)上的應(yīng)用研究
彩涂板色差標(biāo)準(zhǔn)板管理方法的探討
上海涂料(2019年3期)2019-06-19 11:52:22
涂裝色差控制工藝分析
一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
色差
基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
儀表字符識(shí)別中的圖像處理算法研究
基于數(shù)據(jù)挖掘技術(shù)的圖片字符檢測(cè)與識(shí)別
基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識(shí)別
司法| 阿鲁科尔沁旗| 佳木斯市| 全椒县| 七台河市| 鄂托克旗| 九龙城区| 瑞安市| 青川县| 会昌县| 留坝县| 嫩江县| 东源县| 图木舒克市| 库伦旗| 德安县| 惠东县| 白朗县| 安岳县| 昌乐县| 潜江市| 清流县| 临江市| 左权县| 正宁县| 湘乡市| 定州市| 会理县| 安远县| 板桥市| 仪征市| 璧山县| 大埔区| 桦南县| 德安县| 武胜县| 武功县| 丽江市| 井研县| 罗平县| 双流县|