摘 要:中國漢字博大精深,擁有著數(shù)千年的文化背景與歷史積淀,是世界上使用人數(shù)最多的文字。漢字與其他文字不同,它具有自己的拼音化系統(tǒng)和獨立文字結構,所以在目前以計算機信息技術化為主體的社會里,對印刷體漢字信息的處理也就成了信息化發(fā)展的關鍵。印刷體漢字識別后處理技術OCR的出現(xiàn)就解決了現(xiàn)如今海量文字信息所帶來的處理難題,它提高了印刷體文字的處理效率,也推動了信息社會的不斷發(fā)展。
關鍵詞:漢字識別;OCR;后處理;語言模型;信息社會
中圖分類號:TP391.43
由于中文漢字系統(tǒng)比較復雜,涉及到幾百種漢字輸入編碼方法和語言模型。所以中國人在處理漢字輸入和識別方面面臨多種難題,比如音碼或字碼重碼率過高、輸入效率低、學習識別困難、形碼不好掌握等等。而對于一些沒有標準鍵盤的通信設備來說,由于漢字信息錄入速度慢,更是影響了正常的工作效率。所以為了能夠彌補這些不足,漢字識別技術應運而生。
1 印刷體漢字的識別原理
漢字識別也是模式識別領域中所研究的科學。漢字識別技術包羅萬象,它涵蓋了模式識別、圖像處理、人工智能、模糊數(shù)學、組合數(shù)學和心理學等等學科,是一門綜合性很強的信息處理技術。漢字識別技術簡單說就是為文字的識別、分類和讀取而存在的,傳統(tǒng)的漢字識別技術靠對漢字文字的特征識別和匹配來得以實現(xiàn),但是由于漢字結構復雜且組合較多,所以會存在一定的辨識困難。在大量文字需要識別輸入的情況下,還可能出現(xiàn)漏字的現(xiàn)象,而重新檢查也是很麻煩的。
目前的漢字識別技術依照漢字輸出形式的不同主要分為兩類:印刷體漢字識別與手寫體漢字識別。其中印刷體漢字識別又可分為單體印刷體漢字識別和多體印刷體漢字識別。
印刷體漢字識別的原理就是將印刷在紙張上的漢字,利用掃描儀或者數(shù)碼相機等光學拍攝手段輸入并得到二值圖像和灰度圖像,將這些圖像通過識別模式計算方法對圖像中的漢字進行圖像處理分析,從而提取漢字的特征,再將這些提取出來的字體特征與標準漢字進行匹配和判定,最終識別漢字。具體來說,印刷體漢字的識別技術主要分為三個流程。
1.1 預處理。預處理是指利用光學設備作為漢字的輸入設備。但是由于光學設備在拍照時容易受到周圍環(huán)境光的影響,所以拍攝出來的圖像可能在明暗程度和色彩上出現(xiàn)偏差,不利于接下來的漢字識別。為了解決這個困擾,在識別處理原始漢字圖像之前,應該盡量避免周圍環(huán)境因素的干擾,這就需要對原始圖像進行預處理。預處理的主要手段有二值化、降噪、傾斜校正、平滑、歸一化等等。以上都是能提高光學設備對原始圖像輸出質量的有效方法。
1.2 識別。印刷體漢字的識別過程是整個技術的核心部分。它利用自己獨有的計算系統(tǒng)對原始漢字圖像進行計算。在經(jīng)過預處理后,我們會得到原始圖像的二值圖像。識別的對象就是二值圖像,在對二值圖像進行計算分析和漢字特征提取后再與標準漢字特征進行匹配,印刷體漢字的識別就基本完成了。
1.3 后處理。為了進一步提高檢出漢字的識別率和適應性,降低系統(tǒng)失誤率。后處理技術就是對識別后的文章進行再檢查處理。通過文章的上下文,系統(tǒng)會識別出一些識別過程中遺漏的誤識字和拒識字。最后保證高正確率。
2 后處理
2.1 后處理概述。本文主要分析的就是印刷體漢字識別流程的最后一項——后處理技術。簡單講,后處理技術就是對識別后的漢字文本進行進一步的再處理,最后檢索并糾正誤識字和拒識字。后處理解決了傳統(tǒng)識別系統(tǒng)對文字進行逐一修改識別的繁雜工序,也可以說后處理是傳統(tǒng)識別技術的一種進化與完善。
漢字的后處理方法主要可以分為手工處理、計算機自動處理和交互式處理。其中手工處理較為傳統(tǒng),它是依靠人自身對文本的再編輯工作,將文本中出現(xiàn)的誤識字進行糾正;交互式處理稍微先進一些,它是將識別后所形成的文本交由處理程序進行再識別,處理程序為文本提供一些候選方案,通過用戶與計算機的交互過程而進行的文字識別糾錯工作;計算機自動處理最為先進,它僅通過一個設計好的自動處理程序,就能對文本中可能出現(xiàn)的錯誤進行自動的識別和糾正。
2.2 具體的后處理方法。(1)詞匹配。后處理方法從簡單的詞匹配開始,它是利用文本中上下文的匹配關系和詞的使用頻率來進行識別糾錯的一種方式。一旦處理程序檢索到文中的拒識字,就會為它提供一個候選字以便進行調整糾正。后處理能夠做到這些,是因為在它的系統(tǒng)程序中有一個漢語詞條的數(shù)據(jù)庫。在這個數(shù)據(jù)庫中具有完善的詞條存儲和維護功能,它能夠應對和反映文本中詞語文字的不同使用頻率,以最快的速度來進行反應從而為文本調出需要的詞條,這大大提高了漢字后處理的工作效率。(2)語義分析匹配。漢語不同于其他語言,它的語義深奧且語言法則復雜。每個人對一句話可能都有不同的理解。所以為了能夠盡可能的理解文本中語言的內涵,后處理有一套內容量龐大的語言組合法則信息庫,它主要為文本的語義和句法的識別糾正給出建議,利用詞法和語法的分析來進行適合的匹配工作。目前依靠語法及語義的分析來識別漢字的系統(tǒng)是相對比較智能的,它進一步的提高了文本糾正的精度,更加人性化。(3)人工神經(jīng)元網(wǎng)絡。人工神經(jīng)元網(wǎng)絡是美國在上世紀40年代提出的一種較為智能化的漢字識別后處理技術,在80年代發(fā)明了相關語言模型,是一種非線性的文字識別網(wǎng)絡系統(tǒng)。人工神經(jīng)元網(wǎng)絡為漢字的識別后處理提供了兩種方案:第一種就是將識別過程和后處理過程剝離開來,也就是雙層糾錯。首先通過網(wǎng)絡輸入即時糾正一些初級錯誤,再由網(wǎng)絡后處理來糾正一些前期不能確定的漢字或拒識字;相比于分開處理,另一種方法是前期初識別與后期網(wǎng)絡識別相結合的綜合性處理,初期在發(fā)現(xiàn)待識別字時就立刻通過網(wǎng)絡進行檢索和識別,以雙線并行的方式快速找出符合漢語語法和語義的相關答案,最終確定待識別的漢字。這種方法更加高效率和實用。
3 OCR
OCR(Optical Character Recognition)簡單地說,對其進行簡單定義,即為光學字符自動識別技術。隨著我國經(jīng)濟水平的不斷進步,我國各行各業(yè)都得到了飛速發(fā)展,傳媒行業(yè)的發(fā)展推動了印刷識別技術的進步。就目前而言,OCR技術被廣泛的應用于我國傳媒印刷事業(yè),在此之余,對于稅務票據(jù)、金融票據(jù)等等各方面也應用到這種技術。OCR能夠最大程度的確保文字的準確性,能夠使其信息傳達更加精準。OCR技術中的中心環(huán)節(jié)即為N-gram語言模型。
3.1 N-gram語言模型。N-gram語言模型在OCR技術應用當中起到至關重要的作用,能夠對其后期處理與計算進行整理。N-gram語言模型的本身是一種語言文字處理,其能夠對語句中的文字、詞組并且還有比較重要的語句進行相應的處理。
目前,一般的統(tǒng)計語言模型都會將文本語句中的概率分解化,將其基本單位的各項條件概率進行乘法計算。
P(s)=P(w1,w2,…Wn)=P(w1|w1,w2,…wi-1)
在此公式中,n是串長度,s是字符串,wi代表模型的基本單位,這些基本單位多為文本中的字和詞。
N-gram模型就是利用Markov的假設法,它為了能夠進一步解析文本的上下文關系,認為每一個被預測的基本單位的長度為n-1。
P(wi|w1,w2,…wi-1)=P(wi|wi(n-1),wi(n-2)…wi-1)
n是模型階數(shù)。在文本處理過程中,N-gram模型是基于語料集而建立的,它所采用的是最大似然估計法。似然估計法會對文本中的誤識字進行條件概率的估計。n的數(shù)值越大,則模型的精度就越高。
3.2 基于字節(jié)的語言模型。針對于一般性的漢字編碼,通常兩個編碼能夠組成一個漢字,但是通過對其不斷的深入研究分析發(fā)現(xiàn),如果將語言模型單位一個單位編碼來進行表示,其能夠最大程度的將語言模型簡易化,減少其復雜程度。針對這一問題的探究,人們將一個單位編碼作為語言模型的基本單位。
如果將漢字字串設定為S1。由于每兩個字節(jié)構成一個漢字,那么它對應的單位編碼串就是S2。這樣就可以建立基于基本編碼的長度為2和3的模型。
再根據(jù)漢字的編碼規(guī)律,去掉漢字編碼的“無效”漢字標識位,則基于字詞的模型空間稀疏問題就會大幅降低。
3.3 具體試驗。本次試驗主要是針對常用詞來進行后期處理與統(tǒng)計評估工作。其工作的主要內容為,將常用詞本身的漢字等置于語言模型中,對其進行后期處理,進行文本評估識別工作,確保其準確性。通過對關鍵詞進行OCR技術的系統(tǒng)識別工作之后,其后期處理的識別率得到了較大幅度的提高,具體數(shù)值為96.67%以上。
4 結束語
印刷體漢字識別技術是一項極為復雜的信息文本處理技術,特別是后處理技術難度更大。本文分析了一般性的漢字識別過程以及以OCR為背景的N-gram模型,該方法降低了數(shù)據(jù)處理的復雜程度、提高了數(shù)據(jù)處理速度,并通過實驗驗證了該方法的良好性能。
參考文獻:
[1]張宏濤,龍翀,朱小燕等.印刷體漢字識別后處理方法的研究[J].中文信息學報,2009(06).
[2]聶玖星.印刷體漢字識別系統(tǒng)的特征提取和匹配識別研究[D].大連理工大學,2008.
[3]李元祥,劉長松,丁曉青等.一種利用校對信息的漢字識別自適應后處理方法[J].中文信息學報,2001(01).
[4]梁瑩,肖健,李玥.多引擎印刷體漢字識別系統(tǒng)研發(fā)[A].廣西計算機學會25周年紀念會暨2011年學術年會論文集[C],2011.
[5]萬金娥,袁保社.基于字符歸一化雙投影互相關性匹配識別算法[J].計算機應用,2013(03).
[6]朱程輝,曹敏,王建平. 基于過程神經(jīng)網(wǎng)絡的漢字特征提取方法的研究[J].合肥工業(yè)大學學報(自然科學版),2013(10).
[7]訾興建,王建平.手寫體漢字八形態(tài)編碼識別方法的研究[J].淮北師范大學學報(自然科學版),2012(02).
[8]金連文,徐秉錚.基于多級神經(jīng)網(wǎng)絡結構的手寫體漢字識別[J].通信學報,1997(05).
[9]王國胤,施鴻寶.漢字識別的并行神經(jīng)網(wǎng)絡方法[J].模式識別與人工智能,1996(01).
[10]王建平,金鐵江,邵威.基于過程神經(jīng)網(wǎng)絡的手寫體漢字識別方法研究[J].計算機應用,2009(02).
作者簡介:柴晨陽(1975.12-),講師,研究生,碩士學位,研究方向:智能信息處理、會計信息化。
作者單位:江西財經(jīng)大學會計學院,南昌 330013
基金項目:江西省教育廳青年科學基金項目(項目編號:GJJ10121)。