羅 毅, 李 鶯, 王 鍇, 李 斌
(1.四川理工學(xué)院 自動(dòng)化與電子信息學(xué)院,四川 自貢 643000;2.四川理工學(xué)院 計(jì)算機(jī)學(xué)院,四川 自貢 643000)
字符識(shí)別是模式識(shí)別技術(shù)的一個(gè)重要研究方向,屬于圖像模式識(shí)別的范疇。目前,隨著計(jì)算技術(shù)的不斷發(fā)展,越來(lái)越多的信息都要實(shí)現(xiàn)數(shù)字化存儲(chǔ)與處理,尤其是海量的、具有重要價(jià)值的文字信息都要利用現(xiàn)有的技術(shù)手段實(shí)現(xiàn)數(shù)字化存儲(chǔ),才能夠不斷的傳承下去,同時(shí)隨著節(jié)能環(huán)保理念的不斷的深入人心和推進(jìn),也要求各種文檔要由紙質(zhì)向電子文檔轉(zhuǎn)變,這些過(guò)程中都不可避免的要利用到字符識(shí)別技術(shù),尤其是字符的結(jié)構(gòu)復(fù)雜,相似字符眾多的中文字符的識(shí)別,本文的研究的對(duì)象就是中文字符的識(shí)別問(wèn)題。
中文字符識(shí)別的一個(gè)難題就是對(duì)于復(fù)雜結(jié)構(gòu)的漢字的特征的提取,由于漢字的結(jié)構(gòu)復(fù)雜,字體眾多,如何選擇合適的特征映射來(lái)描述一個(gè)漢字能夠直接決定最終漢字識(shí)別的結(jié)果,目前常用的特征提取方法有統(tǒng)計(jì)特征提取、結(jié)構(gòu)(句法)特征提取[1-2]和基于神經(jīng)網(wǎng)絡(luò)的方法[3]。統(tǒng)計(jì)特征方法由于是對(duì)字符圖像的每一個(gè)點(diǎn)進(jìn)行統(tǒng)計(jì)形成一定的統(tǒng)計(jì)特征,所以也就決定了它對(duì)于圖像中的噪聲不敏感,但是對(duì)字符的細(xì)節(jié)區(qū)分性較差;結(jié)構(gòu)特征提取的方法能夠?qū)π谓鼭h字較好的區(qū)分,但是對(duì)字符圖像的噪聲非常敏感,影響識(shí)別結(jié)果;近年來(lái)新興的人工神經(jīng)網(wǎng)絡(luò)理論具有一定的并行處理和自學(xué)習(xí)能力,但是在學(xué)習(xí)過(guò)程中容易陷入局部最小值,也就是泛化能力非常差的情況,所以上述的字符特征提取方法都存在一些急需解決的問(wèn)題。筆者在研究現(xiàn)有的中文字符特征提取方法基礎(chǔ)上,提出了一種基于Gabor變換的特征提取方法,利用Gabor變換對(duì)圖像的紋理方向敏感性獲取漢字筆畫(huà)方向特征,實(shí)驗(yàn)結(jié)果表明這種特征提取方法能夠較好的獲取中文字符的特征,對(duì)識(shí)別系統(tǒng)具有較好的支持作用。
Gabor變換是Gabor在1946年的論文”Theory of communication”中提出的以一個(gè)高斯函數(shù)為平移窗口做短時(shí)傅立葉變換的方法,作為時(shí)-頻域分析的工具后人命名為Gabor變換[4-5]。Gabor變換就是通過(guò)信號(hào)進(jìn)行加窗函數(shù)Fourier變換來(lái)實(shí)現(xiàn)將非平穩(wěn)的信號(hào)分解成一系列的短時(shí)間內(nèi)平穩(wěn)的信號(hào)組合,定義如下:
式中的ga(t)是用于對(duì)信號(hào)進(jìn)行窗口操作的窗口函數(shù),一般選用高斯函數(shù),因?yàn)楦咚购瘮?shù)和其傅立葉變換都是高斯函數(shù)的形式,也就能夠?qū)崿F(xiàn)時(shí)域和頻域的局部化分析。常數(shù)b確定窗函數(shù)的中心位置,a的大小決定窗函數(shù)的寬度。a選較小的數(shù)值,也就是高斯函數(shù)的方差很大,其窗口也就越窄,在時(shí)間域的劃分就越細(xì)致,時(shí)域分辨率也就越高,但頻域的分辨率就會(huì)降低。如果a的值越大,則其窗口也就越寬,時(shí)域分辨率低,而頻域分辨率高。
將Gabor變換應(yīng)用到圖像的特征提取就是設(shè)計(jì)相應(yīng)的Gabor濾波器對(duì)需要提取特征的圖像進(jìn)行濾波處理,這是因?yàn)橛缮厦娴模?)式可以看出Gabor變換就是利用一定的Gabor核函數(shù)與信號(hào)進(jìn)行時(shí)域的卷積運(yùn)算,也就是頻域的相乘,所以利用一個(gè)Gabor濾波器對(duì)圖像進(jìn)行濾波操作就能夠計(jì)算相應(yīng)的Gabor特征向量[6]。
2D-Gabor濾波器是一種方向?yàn)V波器,對(duì)于圖像中的方向紋理具有很好的檢測(cè)效果,本文中采用二維高斯變換調(diào)制的一個(gè)復(fù)正弦波作為Gabor核函數(shù),其形式如下所示。
對(duì)Gabor核函數(shù)的傅立葉變換,如式(4)。
式中 σu=πσx/2,σv=πσy/2,σx和 σy是 gabor核函數(shù)在兩個(gè)空間維度x、y方向上的標(biāo)準(zhǔn)差,決定著窗函數(shù)的窗口寬度,也就是對(duì)圖像的觀察尺度,尺度越大,頻域中局部分辨率也就越低,反之越高;θ是窗口函數(shù)的方向角,一般取0~180°,對(duì)不同方向的紋理特征進(jìn)行觀察。
首先,將獲取的灰度字體圖像進(jìn)行二值化處理。利用一定的閾值分割的算法確定灰度閾值T,對(duì)圖像中的每一個(gè)像素點(diǎn)進(jìn)行灰度值判決,大于閾值T的設(shè)置為255,反之,小于閾值T的設(shè)置為0,從而實(shí)現(xiàn)字符圖像分黑白二值化處理。
其次,對(duì)二值化處理得到的字符圖像進(jìn)行歸一化處理。歸一化處理是為了對(duì)字符圖像的尺寸進(jìn)行統(tǒng)一,使得提取的特征能有相同的維數(shù)。一般采用雙線性插值的方式進(jìn)行縮放,實(shí)現(xiàn)歸一化。
對(duì)一幅輸入的圖像提取Gabor特征就是對(duì)圖像使用以(0,0)為中心的Gabor濾波器進(jìn)行濾波,濾波響應(yīng)即為輸入圖像的 Gabor特征。 如果 Gabor濾波器的時(shí)域表示為 g(x,y,σx,σy,f,θ),圖像的表示為 I(x,y),那么圖像的 Gabor特征也就可以表示為圖像和Gabor濾波器的卷積,即:
Gabor濾波響應(yīng)其實(shí)是一個(gè)復(fù)數(shù),包含了實(shí)、虛兩部分,實(shí)部偏重于圖像的內(nèi)部紋理特征,虛部重點(diǎn)突出圖像的邊緣信息。文中的漢字識(shí)別以G(x,y)的幅值做為特征,選取 σx=σy=2,f=4,0°、45°、90°、135°4 個(gè)方向?qū)ψ址麍D像進(jìn)行特征提取,下面是“社”、“會(huì)”兩字的2個(gè)方向的Gabor變換示意。
圖1 Gabor特征示意Fig.1 Example of gabor feature
根據(jù)上圖可以發(fā)現(xiàn)0°的Gabor特征是獲取字體的豎直方向的筆畫(huà),45°是獲取筆畫(huà)中和“丿”近似方向的筆畫(huà),90°是獲取橫向的筆畫(huà),135°獲取的是漢字的 “”近似方向的筆畫(huà)特征。對(duì)于16×16大小的字符圖像,獲取了256維的4個(gè)方向的一共4組Gabor特征做為字符識(shí)別分類(lèi)器的輸入,實(shí)現(xiàn)字符的識(shí)別。
本文為了對(duì)比利用Gabor濾波器獲取的字符特征與傳統(tǒng)的統(tǒng)計(jì)結(jié)構(gòu)特征與結(jié)構(gòu)特征對(duì)字符識(shí)別系統(tǒng)識(shí)別率的影響,選取了100個(gè)常用漢字的3種字體(宋體、黑體、楷體)作為樣本,其中80個(gè)漢字的不同字體作為分類(lèi)器的訓(xùn)練樣本,20個(gè)漢字作為測(cè)試集,分別利用Gabor濾波的方式和黑像素統(tǒng)計(jì)特征以及對(duì)字符的不同方向貫穿交點(diǎn)次數(shù)特征作為分類(lèi)器的輸入,得到各自的識(shí)別率,各自的識(shí)別結(jié)果如表1所示。
表1 不同特征提取方法的識(shí)別率Tab.1 Recognition rate based on dfferent
實(shí)驗(yàn)結(jié)果表明在同樣的分類(lèi)器條件下,Gabor特征提取方式具有更高的識(shí)別率。
根據(jù)人類(lèi)的視覺(jué)特征,結(jié)合中文字符中筆畫(huà)具有不同的方向特征,本文提出了一種基于Gabor濾波器的漢字特征提取方法,與傳統(tǒng)的漢字特征提取方法相比具有較高的識(shí)別率。當(dāng)然,如果Gabor核函數(shù)選擇得更佳,效果會(huì)更好。
[1]趙繼印,鄭蕊蕊,吳寶春,等.脫機(jī)手寫(xiě)體漢字識(shí)別綜述[J].電子學(xué)報(bào),2010(2):405-415.
ZHAO Ji-yin,ZHENG Rui-rui,WU Bao-chu,et al.A review of off-line handwritten chinese character recognition[J].Acta Electronica Sinica,2010(2):405-415.
[2]涂巖愷,陳慶虎,黃亮.手寫(xiě)漢字識(shí)別的偽二維彈性網(wǎng)格方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(11):37-40.
TU Yan-kai,CHEN Qing-hu,HUANG Liang.Pseudo twodimension elastic mesh method for recognizing Chinese characters written by hand[J].J.Huazhong Univ.of Sci.&Tech:Natural Science Edition,2010,38(11):37-40.
[3]居琰,汪同慶,彭建,等.特征融合用于手寫(xiě)體漢字識(shí)別研究[J].電子科技大學(xué)學(xué)報(bào),2007,31(3):229-233.
JU Yan,WANG Tong-qing,PENG Jian,et al.Research onhandwritten chinese characterrecognition using feature fusion andmodular RBF classifier[J].Journal of UEST of China,2007,31(3):229-233.
[4]冉啟文.小波變換與分?jǐn)?shù)傅立葉變換理論及應(yīng)用[M].哈爾濱:哈爾濱工業(yè)出版社,2001.
[5]王林.基于Gabor變換的木材表面缺陷識(shí)別方法的研究[D].哈爾濱:東北林業(yè)大學(xué),2010.
[6]康俊芳.基于Gabor變換的圖像特征提取方法研究[D].昆明:云南大學(xué),2010.