劉慶祥
摘 要:本文在研究漢字識別理論的基礎(chǔ)上,介紹了手寫漢字識別系統(tǒng)研究的意義及其在實(shí)際中應(yīng)用,并對當(dāng)前手寫漢字識別的現(xiàn)狀及存在的問題進(jìn)行了分析,提出了限定性脫機(jī)手寫漢字識別的研究方向。
關(guān)鍵詞:限定性;脫機(jī)手寫漢字;模式識別;人工神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
一、引言
以計(jì)算機(jī)為基礎(chǔ)的現(xiàn)代信息處理技術(shù)已成為信息社會的重要標(biāo)志,隨著信息時(shí)代的到來,如何用計(jì)算機(jī)對漢語信息進(jìn)行處理已發(fā)展成為一門綜合性的交叉學(xué)科——中文信息處理。漢字信息的計(jì)算機(jī)處理技術(shù)對我國乃至世界信息事業(yè)的發(fā)展具有重要的意義,在以微電子與計(jì)算機(jī)技術(shù)為先導(dǎo)的信息化浪潮中,成為我國高新技術(shù)的一個(gè)熱點(diǎn)。
漢字信息的計(jì)算機(jī)處理技術(shù)包括漢字信息的輸入、處理和輸出。漢字是一種象形文字,它不像西方拼音文字那樣可以直接方便地輸入到計(jì)算機(jī)中,雖然現(xiàn)在已有數(shù)百種的漢字輸入編碼方案,但它們不是速度慢就是過于復(fù)雜不便學(xué)習(xí),難以適應(yīng)高速發(fā)展的中文信息處理技術(shù)的需要。漢字輸入問題成為漢字信息處理的“瓶頸”,影響了計(jì)算機(jī)在我國的推廣使用,成為我國乃至世界信息化進(jìn)程的障礙。研究高速自動(dòng)的漢字輸入方法是中文信息處理技術(shù)領(lǐng)域的一個(gè)重大課題。漢字自動(dòng)錄入的關(guān)鍵是漢字的計(jì)算機(jī)自動(dòng)識別問題。
二、漢字識別及其研究的領(lǐng)域
漢字識別是指讓計(jì)算機(jī)對經(jīng)由某些特定輸入設(shè)備得到的漢字圖象進(jìn)行自動(dòng)識別,從而得到相應(yīng)的計(jì)算機(jī)內(nèi)碼表示的漢字文本的一種技術(shù)。它是智能計(jì)算機(jī)接口的一個(gè)重要組成部分,也是漢字高速、自動(dòng)輸入計(jì)算機(jī)的重要手段。漢字識別系統(tǒng)有時(shí)也稱為“光學(xué)字符閱讀機(jī)”,簡記為OCR(Optical Character Reader)。
形象地來講,漢字識別就是在漢字圖象(或筆畫序列)與漢字的計(jì)算機(jī)內(nèi)碼之間建立一種關(guān)系,使得計(jì)算機(jī)能夠自動(dòng)地將漢字圖象轉(zhuǎn)換為漢字內(nèi)碼。設(shè)G為漢字圖象的集合,C為漢字集合,則漢字識別問題可以看作一個(gè)映射(如公示一所示):
公式一: f:G → C 或 c = f ( g )
其中g(shù) ∈ G為一個(gè)漢字圖象,c ∈ C為其所對應(yīng)的漢字內(nèi)碼。
但在現(xiàn)有的識別系統(tǒng)中,這種映射還不是一一對應(yīng)的關(guān)系。其原因在于就現(xiàn)有的機(jī)器識別技術(shù),還不能作到對識別結(jié)果的完全確定,存在誤識和拒識問題。
為了評價(jià)一個(gè)識別系統(tǒng)的性能,通常引入識別率、誤識率、拒識率和識別結(jié)果可信度的概念。
識別率指漢字識別系統(tǒng)能夠正確識別的字?jǐn)?shù)與待識別的總字?jǐn)?shù)的比率;
誤識率指漢字識別系統(tǒng)錯(cuò)誤識別的字?jǐn)?shù)與待識別的總字?jǐn)?shù)的比率;
拒識率指漢字識別系統(tǒng)不能夠識別的字?jǐn)?shù)與待識別的總字?jǐn)?shù)的比率;
識別結(jié)果的可信度是指識別器輸出漢字C時(shí)的可信程度。若被識別器識別漢字C的總字?jǐn)?shù)是Mc,對應(yīng)Mc中輸入漢字C的個(gè)數(shù)為Nc,則C的可信度Bc用公式二表示。
公式二: Bc=(Nc/Mc)×100%
為了減小研究難度,集中研究精力,人們對漢字識別研究領(lǐng)域進(jìn)行細(xì)致的劃分。依照待識別漢字的形成方式,漢字識別可分為印刷體漢字識別和手寫體漢字識別兩大類。手寫體漢字識別又可根據(jù)識別的實(shí)時(shí)性分為聯(lián)機(jī)手寫體漢字識別和脫機(jī)手寫體漢字識別。對脫機(jī)手寫體漢字識別又分為特定人非限定性脫機(jī)手寫體漢字識別、非特定人限定性脫機(jī)手寫體漢字識別和非特定人隨意性脫機(jī)手寫體漢字識別。
聯(lián)機(jī)識別指手寫體識別時(shí),用光電書寫板邊輸入邊識別,各筆跡點(diǎn)的坐標(biāo)被順序地輸入計(jì)算機(jī)內(nèi),原始信號為一維序列;而脫機(jī)識別研究的對象是書寫在紙上經(jīng)由掃描儀輸入的點(diǎn)陣字符,原始信號為二維圖象。因此從識別的角度看,聯(lián)機(jī)手寫識別要比脫機(jī)手寫識別簡單,因?yàn)樵诼?lián)機(jī)識別中容易抽取筆劃和筆順信息。
所謂“限定性”是指手寫印刷體識別時(shí),要求人們工整書寫,例如書寫時(shí)要求橫平豎直;而“非限定性”是指人們在實(shí)際生活中那樣可以連筆地自由書寫。
目前印刷體漢字識別和聯(lián)機(jī)手寫體漢字識別己逐步實(shí)用化,而脫機(jī)手寫體漢字識別,因其自身的復(fù)雜性被視為漢字識別領(lǐng)域中“最難征服的領(lǐng)域”,成為國內(nèi)外學(xué)者研究的熱點(diǎn)。本文研究的對象是脫機(jī)手寫體識別中的非特定人限定性脫機(jī)手寫體漢字識別(以下簡稱脫機(jī)手寫體漢字識別)。
漢字識別在學(xué)科上屬于模式識別中的文字識別分支,是模式識別領(lǐng)域中的一個(gè)重要研究課題,漢字識別的研究涉及人工智能、模糊數(shù)學(xué)、人工神經(jīng)網(wǎng)絡(luò)、圖象識別、計(jì)算機(jī)科學(xué)、心理學(xué)、語言學(xué)等學(xué)科。
三、手寫體漢字識別研究的理論價(jià)值及應(yīng)用前景
手寫體漢字識別研究的理論價(jià)值是多方面的。
(一)手寫體漢字識別的理論研究是為了認(rèn)識高難度模式識別的一般規(guī)律,發(fā)展機(jī)器自動(dòng)識別技術(shù)。傳統(tǒng)的模式識別理論和方法在手寫體漢字識別中有很大的局限性,手寫體漢字識別的研究有助于發(fā)展新的模式識別理論。
(二)漢字識別技術(shù)的研究是揭示人類智能奧秘的一個(gè)理想窗口,也是實(shí)現(xiàn)人工智能的良好平臺和環(huán)境。模式識別能力在人類智能行為中屬于較低層,相對獨(dú)立,對其研究需要的背景知識較少。但它也因?yàn)樘幱谝庾R覺察的范圍之外,人類對其工作過程難以進(jìn)行有意識的描述,所以迄今為止人類的基本模式識別能力中,仍然有許多待解之謎。而漢字由于其獨(dú)特的復(fù)雜結(jié)構(gòu),考察人認(rèn)識漢字的過程成為研究人類認(rèn)識能力的一個(gè)良好手段。這是因?yàn)槿藢哂胸S富結(jié)構(gòu)特征的漢字進(jìn)行辯識時(shí),不僅要應(yīng)用模式識別能力,還要應(yīng)用推理判斷能力。這樣人對漢字識別的過程既包括高層的以符號推理為主的“深思熟慮”型的智能,又包括底層的非推理的“本能反應(yīng)”型的智能,使得它處于人類高層智能與低層智能的結(jié)合部,能夠部分為意識所覺察和描述。
(三)人類的習(xí)字與識字的過程是一個(gè)典型的學(xué)習(xí)訓(xùn)練過程,對于機(jī)器學(xué)習(xí)算法的研究很有意義。
(四)由于手寫體漢字識別是一個(gè)涉及多學(xué)科的復(fù)雜性問題,各個(gè)學(xué)科從自身角度探索手寫體漢字識別問題,出現(xiàn)了大量新思想和新方法,促進(jìn)了相關(guān)學(xué)科的深入發(fā)展,因此手寫體漢字識別在相關(guān)學(xué)科研究中,具有很高的理論探索價(jià)值和啟發(fā)創(chuàng)造作用。
手寫體漢字識別不僅具有重要的理論研究價(jià)值,而且具有廣闊的應(yīng)用前景。手寫體漢字識別技術(shù)的應(yīng)用是多方面的,它能使習(xí)慣漢語的計(jì)算機(jī)用戶保持傳統(tǒng)的書寫方式,又享受到計(jì)算機(jī)給人們帶來的快捷和便利,該技術(shù)的應(yīng)用和發(fā)展必將徹底改變?nèi)藱C(jī)界面的傳統(tǒng)模式,加速計(jì)算機(jī)在使用漢語的國家和地區(qū)的普及。手寫體漢字識別技術(shù)有著很強(qiáng)的應(yīng)用前景,綜合起來,主要有以下幾個(gè)方面:
(1)智能計(jì)算機(jī)
人能夠以自然的方式與計(jì)算機(jī)進(jìn)行交互,是智能計(jì)算機(jī)的一個(gè)重要標(biāo)志。漢字作為人類常用的主要交流方式之一,必將在未來的計(jì)算機(jī)人機(jī)接口中占有重要的地位,智能計(jì)算機(jī)必須能夠接收以各種形式提供的漢字信息。
(2)文獻(xiàn)檢索
資料庫的建立是文獻(xiàn)檢索的首要條件,漢字識別技術(shù)為資料庫提供了有效的方法。
(3)辦公自動(dòng)化
在自動(dòng)化辦公過程中,每天都要輸入大量的信息,雖然已經(jīng)有很多種編碼方案可以實(shí)現(xiàn)漢字的鍵盤輸入,但手寫輸入是最自然、最易被人接受的方式之一。
(4)筆記本計(jì)算機(jī)
對超小型筆記本式計(jì)算機(jī),因體積的限制,不可能采用通常的鍵盤輸入,手寫輸入是其唯一可選的輸入方式。
(5)票據(jù)、表格錄入
在許多場合下,由于各種條件的限制,計(jì)算機(jī)要處理的信息必須首先書寫在紙張上,然后再輸入到計(jì)算機(jī)中處理。例如:財(cái)務(wù)單據(jù),制度規(guī)定必須有手寫底單存檔:人口普查、工農(nóng)業(yè)普查等,因條件的限制,只能先填寫在紙上:還有其它的稅務(wù)報(bào)表、保險(xiǎn)單據(jù)等。漢字識別(包括數(shù)字識別)技術(shù)的應(yīng)用,可以極大地提高這些領(lǐng)域的工作效率。
(6)機(jī)器翻譯
漢字識別可以作為機(jī)器翻譯系統(tǒng)的一個(gè)組成部分提供給用戶,實(shí)現(xiàn)漢字的自動(dòng)錄入。
(7)盲人閱讀機(jī)
與語音合成技術(shù)結(jié)合在一起,實(shí)現(xiàn)語音閱讀機(jī),或者與相關(guān)的機(jī)械設(shè)備相結(jié)合,實(shí)現(xiàn)普通文字到盲文的自動(dòng)轉(zhuǎn)換(翻譯)。
(8)郵政自動(dòng)分揀系統(tǒng)
早期的郵政分揀系統(tǒng)只能對數(shù)字的郵政編碼進(jìn)行識別,目前國外的分揀系統(tǒng)可以識別城市名、州名等。識別的手寫體可以是手寫印刷體、自由手寫體以及兩種字體的混合使用。地址的識別結(jié)合了自然語言理解中的上下文相關(guān)技術(shù),這一技術(shù)多用于文字識別的后處理, 目前在文字識別過程中也有采用。國內(nèi)有些大型郵政系統(tǒng)也采用了郵政編碼的分揀系統(tǒng)。
4 手寫體漢字識別研究存在的主要問題和難點(diǎn)
從1990年開始,我國專家組對漢字OCR已經(jīng)先后組織了五次評測,有力地推動(dòng)了手寫體漢字識別技術(shù)的發(fā)展。評測表明,漢字識別技術(shù)已經(jīng)基本成熟,表現(xiàn)為識別率較高,簡繁印刷體漢字識別率都可以達(dá)到96—98%以上,手寫體單字識別率也可以達(dá)到90%左右,聯(lián)機(jī)識別率則在91-94%左右。目前的識別系統(tǒng)存在的主要問題是:
(1)識別結(jié)果受圖象質(zhì)量影響較大;
(2)前、后處理在系統(tǒng)中的作用還需要不斷加強(qiáng);
(3)對于自由書寫漢字的識別仍然不能令人滿意;
(4)學(xué)習(xí)能力普遍較弱,難以適應(yīng)不同字型的變換。
從目前情況看,手寫體漢字識別的研究距實(shí)用還有一定差距,究其原因,漢字獨(dú)特的結(jié)構(gòu)給計(jì)算機(jī)的自動(dòng)識別造成了巨大的困難和障礙:
(1)第一個(gè)難點(diǎn)在于漢字的字量大,漢字類別多。國標(biāo)一級漢字3755個(gè),二級漢字3008個(gè),兩級共計(jì)6763個(gè),比西文字符高出兩個(gè)數(shù)量級,從而使得許多行之有效的模式識別方法難于直接應(yīng)用。
(2)第二個(gè)難點(diǎn)在于漢字字形結(jié)構(gòu)復(fù)雜,筆劃繁多。
(3)第三個(gè)難點(diǎn)在于漢字集合中相似字較多,手寫時(shí)變形的存在,產(chǎn)生較印刷體更多的相似字。
(4)第四個(gè)難點(diǎn)在于手寫體漢字的變形因人而異,差別很大,具體表現(xiàn)在以下方面:
基本筆劃變化多,橫不平,豎不直,直筆變彎,折筆的拐角變成圓弧等;
筆劃模糊,不規(guī)范,該連的不連,不該連的卻相連;
筆劃與筆劃之間、部位與部位之間的位置發(fā)生變化;
筆劃的傾斜角、筆劃的長短、部位的大小發(fā)生變化;
對于脫機(jī)手寫漢字,不同人使用不同的書寫筆可能造成筆劃的粗細(xì)變化。
這四個(gè)難點(diǎn)中,手寫漢字字形的變化是最難解決的問題。
就識別技術(shù)看,主要困難在于:手寫體漢字識別是涉及多學(xué)科的綜合技術(shù),各個(gè)學(xué)科交叉領(lǐng)域的研究還是一個(gè)薄弱環(huán)節(jié),特別是在心理學(xué)和生理學(xué)中人們對大腦認(rèn)字原理的研究還不夠深入,使得手寫體漢字機(jī)器識別的研究缺乏相關(guān)理論的指導(dǎo),具有很大的盲目性。因此,綜合運(yùn)用相關(guān)學(xué)科的最新成果,如人工神經(jīng)網(wǎng)絡(luò)、模糊數(shù)學(xué)等理論,采取現(xiàn)有識別技術(shù)綜合集成的策略,是手寫體漢字識別研究的一個(gè)重要方向。
5 結(jié)論
通過綜合分析手寫體漢字識別研究的現(xiàn)狀,筆者認(rèn)為對手寫體漢字識別的研究應(yīng)該從下幾個(gè)方面進(jìn)行突破:
針對手寫體漢字類別多,相似字難以識別的突出問題,應(yīng)找出機(jī)器識別中相似字識別率低的原因,在相似字以及相似字集簇的概念的基礎(chǔ)上,研究在GB2312—80一級漢字范圍內(nèi)獲取相似字集簇的有效方法;
將人工神經(jīng)網(wǎng)絡(luò)理論引入手寫體漢字識別系統(tǒng),采取系統(tǒng)集成策略,研究基于統(tǒng)計(jì)與人工神經(jīng)元網(wǎng)絡(luò)方法相結(jié)合的非特定人脫機(jī)手寫體漢字識別方法,以解決脫機(jī)手寫體漢字識別中相似字識別率低的問題;
用人工神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)小集合手寫體相似漢字的分類識別,對網(wǎng)絡(luò)參數(shù)以及隱含層節(jié)點(diǎn)數(shù)目的選取進(jìn)行研究。
參考文獻(xiàn):
[1] 金連文,徐秉錚.基于多神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的手寫體漢字識別[J].通信學(xué)報(bào),2012(8).
[2] 聞新,周露,王丹力.神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì)[J].科學(xué)出版社,2012(6).
(本文審稿 肖潔)