項 陽,潘 新
(內蒙古農業(yè)大學 計算機與信息工程學院,內蒙古 呼和浩特 010010)
印鑒圖像預處理方法研究
項 陽,潘 新
(內蒙古農業(yè)大學 計算機與信息工程學院,內蒙古 呼和浩特 010010)
為了提高印鑒識別的準確性,在識別前需要對印鑒圖像進行預處理。針對印鑒常與銀行票據(jù)要素混雜的實際情況,基于RGB彩色模型,將影響印鑒提取的兩個干擾源——字體和書寫線分別進行處理。首先通過選取合適的閾值二值化圖像,利用Canny算子和Hough變換提取字體和書寫線邊緣,然后與原二值圖像做“與”運算,求出需要填充的印鑒缺失信息輪廓,并對該輪廓進行閉運算、中值濾波,最后填充缺失部分,得出完整的印鑒圖像。實驗結果顯示,用此方法處理后的印鑒圖像質量較高,能夠滿足后期識別的需要。
圖像預處理;RGB彩色模型;Canny算子;Hough變換;圖像邊緣
印鑒是指印章印面在紙張等文件載體上蓋印出來的印跡,是印章印面結構特點的形象反映[1]。我國《票據(jù)法》明確規(guī)定將簽章(簽名或蓋章)作為票據(jù)的絕對必要記載事項之一[2],因此印鑒成為銀行重點審核的對象。但近年來隨著票據(jù)業(yè)務逐年增多,傳統(tǒng)的手工折角核對的方式速度慢、主要靠個人經驗的弊端越發(fā)明顯。隨著信息技術的發(fā)展,使用計算機圖像處理相關技術替代人工,對印鑒進行識別成為了新的檢驗印鑒真?zhèn)蔚耐緩健?/p>
圖1 銀行票據(jù)圖像
相比于其他圖像,銀行票據(jù)的印鑒圖像有其特殊性:一是票據(jù)本身的特殊性。一張?zhí)顚懞玫耐暾睋?jù)(圖1),除了印鑒以外,還有印刷字體、手寫字體、行標、人民幣大寫書寫線等一系列要素,復雜的背景情況會對圖像處理產生不利影響;二是印鑒的特殊性。票據(jù)上的簽章應為該單位公章或財務專用章并加蓋法定代表人或授權代理人的簽章[2],而我國僅對機關團體、企事業(yè)單位、社會團體的公章的規(guī)格等做出了規(guī)定[3],對其他專用章、名章等規(guī)格樣式未做說明,因此從印鑒規(guī)格來看,圓形、橢圓形、方形等均是符合要求的,內部字體大小、排列方式也是較為隨意的。另外,印鑒在票據(jù)上的位置并非固定,法律中沒有明確要求,人們慣例會蓋在中間紅色書寫線下,如圖1所示,實際情況中,印鑒一部分位于書寫線上也是合規(guī)的。
許多學者都對不同領域的圖像預處理進行過研究,比如氣象云圖[4]、車牌[5]等,解決了各自的一些問題,但對于在銀行票據(jù)上的印鑒預處理研究相對較少,也存在很多局限性。首先對于印鑒的載體,如文件紙張[6]、發(fā)票[7]等,其表面要素的復雜程度遠不及銀行票據(jù)。其次有些研究只針對某一種形狀的印鑒,如圓形[8]、方形[9]等,通用性較差。針對以上不足,結合實際,本文以銀行票據(jù)為背景,提出了一套印鑒圖像預處理方法。
首先通過掃描儀提取票據(jù)圖像,分辨率為600 dpi,如圖1,采集到的圖像為RGB圖像,票面要素可以分為三類:綠色的票據(jù)背景;紅色的印鑒、行標、書寫線,黑色書寫字體和印刷部分。印鑒圖像為紅色,對紅色(R)、綠色(G)、藍色(B)分量可以分別設立閾值(T)提取印鑒??紤]到印鑒圖像的紅色分量遠大于其他分量,可以先采用分量之間的相對差值[10]來進行灰度化(如圖2)。
圖2 gray1
gray1=(R-G)+(R-B)(0≤R≤255,0≤G≤255,0≤B≤255)
(1)
再對式(1)確定閾值T,使灰度圖像二值化,gray1的直方圖呈現(xiàn)單峰特征,在確定閾值T時所遵循的標準為:在保證印鑒圖像清晰完整的前提下,盡可能減少噪聲并消除票據(jù)其他要素的影響。經多次實驗,取T=70,并采用3×3方形窗口的中值濾波消除孤立噪聲,結果如圖3所示。
圖3 二值化結果(干擾區(qū)域)
由圖3可知,印鑒的干擾源來自兩個方面:一是票據(jù)上紅色書寫線,因為與印鑒顏色相近,故在前面處理中并未清除;二是原來黑色的書寫字體造成印鑒上方邊框及印鑒字體的缺失,因此需要修復印鑒圖像??紤]到書寫線未破壞印鑒完整性,首先處理書寫字體造成的印鑒缺失。
從票據(jù)上看,書寫字體呈黑色,可知其灰度值較低,通過對整個票據(jù)灰度化,選取相應閾值二值化,再取反,就可以得到字體圖像。彩色圖像灰度化方法有很多種,常用的有最大值法、平均值法和加權平均法。相比來說,加權平均法得到的圖像最理想。經驗公式為:
gray2=0.299×R+0.587×G+0.114×B
(2)
同樣的,需要對gray2取閾值再進行二值化,這里閾值T取180,為了與圖2印鑒圖像像素值保持一致,還應該按位取反,最后得出字體(如圖4)。
圖4 字體圖像
接下來,需要將字體圖像的相應部分也就是造成印鑒圖像缺失的部分進行提取。Canny算子[11]是基于信噪比、定位精度、單邊緣響應三個準則設計的邊緣檢測算子,其原理是先用高斯濾波器平滑圖像,再計算圖像每個點中梯度的幅值和邊緣方向,比較每一點與沿梯度方向上相鄰兩點的梯度幅值大小,如果前者小于后者,則舍棄該點,保留其余點。對其余點像素的幅值設立兩個閾值T1、T2,低于T1判定不是邊緣點,高于T2判定一定是邊緣點,在T1和T2之間判斷該點鄰接點中是否有梯度幅值高于T2的點,如果有,則算作邊緣點;否則舍棄。經多次實驗,確定高斯濾波器標準差為1.5,閾值T1=0.04,T2=0.10。
用檢測出的邊緣和字體圖像做“與”運算,得出所要填充缺失的范圍(圖5),基于該范圍再進行結構元素為20×20方形結構的閉運算,處理后的結果如圖6所示。將圖6與圖3做“或”運算,即可填充字體缺失(圖7)。
圖5 造成印鑒缺失的字體邊緣
圖6 字體填充
圖7 字體處理結果
觀察圖1,紅色書寫線一共10條,平行排列,經進一步分析,得知在分辨率600 dpi下,書寫線線寬為10像素,線與線之間的空隙寬也為10像素,考慮用Hough變換[12]找出平行線,再判斷若干平行線是否為同一書寫線上,根據(jù)不同情況分別進行下一步處理。
一般的直線方程可以表示為:
y=kx+b
(3)
k、b分別為直線的斜率和y軸截距,x、y分別為直線上某一點的橫、豎坐標。由于式(3)不能表示k無窮大時的直線,故用下面極坐標形式表示直線:
ρ=xcosθ+ysinθ
(4)
ρ表示圖像坐標原點到該直線的距離,θ表示ρ與x軸夾角。
Hough變換將圖像空間X-Y變換到參數(shù)空間θ-ρ,對于直線來說,圖像空間上每一點都對應參數(shù)空間一條曲線。具體來說,參數(shù)空間先按θ、ρ精度劃分若干原始值為0的累加器單元,然后圖像空間直角坐標系上的點通過式(4)計算生成橫豎坐標分別為θ、ρ的參數(shù)空間曲線,曲線經過的累加器單元值加1,因為經過同一累加器單元的曲線所對應的點近乎共線,所以所有的點計算完成后,圖像空間直線上共線的點會形成在參數(shù)空間曲線的交點,而使某些累加器單元的值呈現(xiàn)局部極大值,通過確定閾值參數(shù),檢測出高于閾值的局部極大值,求出對應θ、ρ的值,即可提取相應直線。
但在實踐中,在圖像中直接使用Hough變換求直線的結果并不理想,除了需要計算整個圖像的像素點而導致的計算量偏大的因素,還有票據(jù)上受其他因素干擾,比如與書寫線交織在一起的印鑒圖像、字體圖像等,這些影響會造成提取書寫線直線不準確。綜合這兩點,考慮在Hough變換前用邊緣檢測算子對圖像進行邊緣檢測。首先將圖7用前面提到的Canny算子求出邊緣,再利用Hough變換,以所有累加器單元的最大值的一半作為閾值提取極大值, 將該值1×1鄰域內單元置0以清理極大值,然后在Hough變換參數(shù)空間(圖8)中確定這些極大值累加器的對應坐標θ、ρ(圖8中用方格標出),從坐標θ可以看出,檢出的直線集中在原票據(jù)圖像中與x軸垂直的方向。對應地,在圖7中通過上述θ、ρ選定直線(圖9中用橫線標出),共提取出43條直線。
圖8 Hough變換累加器單元分布
圖9 選定的直線
根據(jù)線寬以及線與線之間的距離均為10像素的特點,按ρ從小到大,判斷這43條線兩兩之間的間距,如果間距大于10像素,則可判斷兩線屬于不同的兩條書寫線像素內;如果小于等于10,則兩線必屬同一條書寫線像素。重建一張與圖9相同大小的空白圖像,將同線間的像素置為1。生成與原票據(jù)圖像對應的10條書寫線,而在原圖9選定的兩線間置0。
與字體處理方法類似,用參數(shù)相同的Canny算子將置0處理后的圖9與置1的10條書寫線圖像兩者分別提取邊緣,隨后對兩邊緣進行“與”運算,得出應填充的書寫線缺失的輪廓,再利用以半徑為10像素的圓盤形為結構元素的閉運算,可求出缺失部分像素(圖10),與圖9做“或”運算,用中值濾波消除噪聲,得到完整清晰的印鑒圖像(圖11)。
圖10 書寫線填充
圖11 處理后圖像
需要提取的是圖11中帶有“計算機應用技術”字樣的試驗專用章和帶有名字的名章,從票據(jù)上的要素來看,整個試驗專用章是票據(jù)上最大的單連通區(qū)域,而名章則是第二大的單連通區(qū)域,那么利用這一特征,重設一張與圖11相同的圖像,填充其中所有單連通區(qū)域,通過MATLAB中regionprops函數(shù)計算各個單連通區(qū)域的面積,取面積最大的兩個區(qū)域[13],根據(jù)該函數(shù)中‘BoundingBox’字符串所顯示的值確定這兩個區(qū)域邊框,考慮到印鑒的多樣性,在各個邊框外留出10個像素的額外空間,最后得出試驗專用章(圖12)、名章(圖13)兩個印鑒圖像。
圖12 試驗專用章圖像
圖13 名章圖像
本文介紹了一種印鑒圖像預處理的方法,針對造成印鑒缺失的兩個干擾源——字體和書寫線分別進行處理,首先在處理字體時,用Canny算子提取二值化的原圖像和字體圖像的邊緣做“與”運算,得出需要填充的邊框,再用閉運算得出填充結果。然后在處理書寫線時,用Hough變換提取書寫線,與字體處理相似,也采取缺失圖像和書寫線圖像提取邊緣做“與”運算和閉運算的方法,填充后用MATLAB中regionprops函數(shù)確定印鑒方位,得出印鑒圖像。
此方法應用于背景為銀行票據(jù)的印鑒,對其需要處理的部位進行定位處理,可以最大限度地保證印鑒圖像的完整。又因該方法不是依據(jù)判斷可能出現(xiàn)印鑒的具體形狀特征分別處理圖像,所以也具有一定通用性,最終結果能夠滿足后期印鑒識別的需要。對于更為復雜的情況,比如印鑒與票據(jù)其他更多要素摻雜時處理的效果,有待進一步驗證。
[1] 許愛東.印章印文鑒定理論與實務研究[M].北京:法律出版社,2015.
[2] 國務院法制辦公室.中華人民共和國票據(jù)法注釋與配套[M].北京:中國法制出版社,2008.
[3] 中華人民共和國國務院.關于國家行政機關和企事業(yè)單位社會團體印章管理的規(guī)定[EB/OL].(1999-10-31)[2010-11-15].http://www.gov.cn/xxgk/pub/govpublic/mrlm/201011/t20101115_62739.html.
[4] 孫彥子,范紅,陳靜,等.靜止氣象衛(wèi)星多光譜圖像的預處理方法研究[J].微型機與應用,2016,35(17):45-48.
[5] 李文鋒,張紅英.基于紋理特征的車牌定位方法[J].微型機與應用,2014,33(3):41-43.
[6] 張學東,潘曉紅,李端端,等.基于最小二乘法的印鑒缺損輪廓修補法[J].計算機工程與設計,2009,30(20):4693-4696.
[7] 鄭曉曦,寧科桐.一種提取印鑒方法的研究[J].數(shù)字技術與應用,2012(11):121-124.
[8] 劉鐵根,鄧集杰,張忠傳,等.基于平滑卷積定位的圓形印鑒提取方法研究[J].光電工程,2009,36(4):1-6.
[9] 何瑾,劉鐵根,張昊,等.應用形態(tài)學top-hat變換的支票方形印鑒自適應分割[J].光學精密工程,2009,17(10):2576-2585.
[10] 孫明.數(shù)字圖像處理與分析基礎——MATLAB和VC++實現(xiàn)[M].北京:電子工業(yè)出版社,2013.
[11] JOHN C.A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[12] HOUGH P V C. Method and means for recognizing comPlex patterns[P].U.S.Patent:3069654,1962.
[13] 彭燁.銀行票據(jù)印鑒自動識別[D].江門:五邑大學,2013.
Study on image preprocessing method of seal imprint
Xiang Yang, Pan Xin
(College of Computer and Information Engineering,Inner Mongolia Agricultural University, Hohhot 010010, China)
In order to improve the accuracy of seal identification,the image preprocessing of seal imprint is needed before identification process. According to realities that the seal imprint often mixes with bank note elements ,based on the RGB color mode, two sources of interference which are characters and writing lines are processed separately.First of all, selecting a appropriate threshold to get binary image and take edges of characters and writing lines by using Canny operator and Hough transform, and then among the edges and original binary image do “and operation” to seek outlines of missing information.Secondly,using closed operation and median filtering for the outlines. Finally, filling the missing information of the image, so a complete image of seal imprint is presented.The experimental results show the image which is processed by this method has a character of high quality and can satisfy the requirements for the succeeding verification work.
image preprocessing; RGB color model; Canny operator; Hough transform; image edges
TP391.41
A
10.19358/j.issn.1674- 7720.2017.15.012
項陽,潘新.印鑒圖像預處理方法研究[J].微型機與應用,2017,36(15):41-44.
2017-02-14)
項陽(1986-),男,碩士研究生,主要研究方向:圖像處理與模式識別。
潘新(1974-),通信作者,女,博士,副教授,碩士生導師,主要研究方向:圖像處理與模式識別。E-mail:pxffyfx@126.com。