梁 方
南通大學(xué)現(xiàn)代教育技術(shù)中心,江蘇 南通 226001
筆跡鑒別就是通過筆跡特征來判斷書寫者的身份,它是利用書寫的習(xí)慣特征來鑒別身份的一種生物學(xué)身份鑒定方法。它主要可以分為兩大類:在線(online)方式和離線(offline)方式。在線方式需要特殊的輸入設(shè)備這一條件限制了它的使用范圍。離線方式獲取方式靈活,應(yīng)用范圍更加廣泛。離線筆跡識別在近幾年獲得了長足的進(jìn)步,Bulacu等[1]提出了一系列用角度和微結(jié)構(gòu)統(tǒng)計的統(tǒng)計特性鑒別筆跡的方法,Schlapbach等[2]提出用隱馬爾可夫模型來提取筆跡特征,唐遠(yuǎn)炎等[3]將隱馬爾可夫模型應(yīng)用到中文字符上。
本文借鑒概論分布的思想,提取了筆劃在一定范圍內(nèi)的分布概率,這些概率包含了一個人的書寫習(xí)慣特征,從而能夠有效識別筆跡的書寫者。該方法簡單易行,而且方便靈活,實驗證明其在手寫體漢字識別方面有較好的識別效果。
筆跡原圖包含了很多有用的信息,同時也包含了較多的冗余信息,從筆跡鑒別角度看,提取出最能夠代表筆跡的特征才能更好的進(jìn)行鑒別。從筆跡的邊緣可以完全恢復(fù)出筆跡的原有形態(tài),而且邊緣的提取相對是一件比較容易的任務(wù),因此,本文預(yù)處理部分選擇了提取筆跡邊緣。如圖1所示,(a)是原圖的效果,(b)是從(a)的獲得的邊緣。
圖1 文字輪廓
筆劃的方向、長短等特征是筆跡鑒別的重要依據(jù)。為了統(tǒng)計筆畫的分布特性,在筆跡的邊緣上截取一個小的窗口以獲得局部的筆劃方向、長短等信息(如圖1(c))。為了盡可能去除不相關(guān)點的影響,在以當(dāng)前像素為中心的窗口中,我們只取與當(dāng)前像素連通的邊緣像素。
遍歷所有邊緣點為中心得窗口,將所得到的窗口疊加,可以得到全局的筆劃點的分布情況。在此時的特征矩陣中,中心點反映了邊緣點的數(shù)目。若以中心點數(shù)目歸一化,則得到特征矩陣的最終形式,它去除邊緣點數(shù)目的影響,反映了周圍點屬于邊緣的概率。因此特征矩陣反映的是當(dāng)前筆劃的一個趨勢:從哪個方向過來,有多長,到哪個方向去。從這個意義上說整個矩陣反映了筆跡的筆劃特征。假設(shè)取移動窗口為11×11,則得到的特征為一個11行11列的矩陣,它反映了筆劃的統(tǒng)計特性,對于由筆劃組成的漢字鑒別是比較合適的。由于只取了和當(dāng)前點連通的邊緣,在一定程度上消除了筆劃粗細(xì)的影響。
本文的方法在時間上消耗較小。如果圖像中有M個邊緣點,窗口大小為n×n,則運算復(fù)雜度為O(M×n2)。實際上,由于本文方法只是簡單的累加,因此計算的開銷較少。另外,本文的窗口大小的改變是比較容易的,只需要在原窗口的外圍再添加一圈就可以。因此,提出的方法具有較好的時間效率和靈活性。
本文使用了自建的筆跡鑒別數(shù)據(jù)庫測試了提出方法的性能。我們?nèi)×?段內(nèi)容不同的文本,讓15人書寫,因此數(shù)據(jù)庫總共包含45幅圖像的筆跡數(shù)據(jù)。其中15個人書寫的相同內(nèi)容的筆跡,其內(nèi)容是高度相關(guān)的,而每個人所寫的3幅筆跡,其內(nèi)容是不相關(guān)的。我們最終得到表1的實驗結(jié)果。
表1 不相關(guān)文本的筆跡鑒別結(jié)果
從結(jié)果中可以看出當(dāng)使用一個參考樣本時,提出的方法已經(jīng)能夠比較有效地辨別筆跡特征。另外,當(dāng)參考樣本增加時,可以極大提高識別正確率。從實驗結(jié)果可以看到本文提出的鑒別方法還是比較有效的。
本文的筆跡特征提取的是筆劃的結(jié)構(gòu)的統(tǒng)計特征,能夠全面反映筆劃的特征;另一方面提出的特征在統(tǒng)計時只是簡單的累加,因此計算復(fù)雜度低。提出的方法不需要字符的切分和歸一化操作,加快了運算的速度。對于字體和訓(xùn)練樣本差距過大的檢測圖像,可以考慮對整體進(jìn)行縮放操作,該操作的速度比較快;對于字符傾斜的圖像,可以進(jìn)行相應(yīng)的校正操作。本文未對筆劃分類統(tǒng)計,在一定程度上增加了距離度量的難度。在后繼研究中可以考慮進(jìn)一步細(xì)化該方法,獲得更好的鑒別正確率。
[1]M. Bulacu, L. Schomaker. Text-independent writer identification and verification using textural and allographic features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(4): 701-717.
[2]A. Schlapbach, H. Bunke. A writer identification and verification system using HMM based recognizers. Pattern Analysis and Applications, 2007, 10(1): 33-43.
[3]Z. Y. He, X. G. You, Y. Y. Tang. Writer identification of Chinese handwriting documents using hidden Markov tree model. Pattern Recognition, 2008, 41(4):1295-1307.