DBN融合模型對脫機手寫漢字識別

2018-01-09 23:16劉露孫巍巍丁博

哈爾濱理工大學學報 2017年6期

劉露+孫巍巍+丁博

摘要：針對脫機手寫漢字識別問題，提出一種新的分類器級聯(lián)識別模型。新模型將修正的二次判別函數(shù)（modified quadratic discriminant function，MQDF）與深度置信網(wǎng)絡（deep belief network，DBN）相融合，利用MQDF先進行識別并得出結(jié)果，同時計算一個該識別結(jié)果的可信度，通過這個可信度對識別結(jié)果進行判別，若可信度符合要求，則MQDF的識別結(jié)果可作為最終結(jié)果直接輸出，否則再與DBN結(jié)合進行二次識別，得到最終的識別結(jié)果。實驗結(jié)果表明，在ETL9B手寫漢字數(shù)據(jù)集上進行的脫機手寫漢字識別任務中，使用MQDF與DBN融合模型，可以取得比單獨使用MQDF和DBN更好的準確率。

關鍵詞：脫機手寫字；二次判別函數(shù)；深度置信網(wǎng)；漢字識別

DOI：10.15938/j.jhust.2017.06.016

中圖分類號： TP391.412

文獻標志碼： A

文章編號： 1007-2683（2017）06-0082-05

Abstract：The requirement of the recognition result is also increasing in practical applications. In this paper， a new classifier cascade recognition model is proposed for the problem of offline handwritten Chinese character recognition. New model is the fusion of modified quadratic discriminant function （MQDF） and deep belief network （DBN）. First to recognize and get result using MQDF， and calculate the reliability of the recognition result. If the reliability can meet the requirement， MQDF recognition result can be as the final result directly output. Otherwise using the DBN to make recognition again and getting the final recognition result. Experiments show that the MQDF and DBN fusion model proposed in this paper can achieve better accuracy than the single use of MQDF and DBN in the offline handwritten Chinese character recognition task， which is performed on the ETL9B handwritten Chinese character dataset.

Keywords：offline handwritten character； quadratic discriminant function； deep belief network； Chinese character recognition

0 引言

文字識別作為模式識別中的一個重要領域，一直受到研究人員的廣為關注。對于手寫數(shù)字，手寫英文字符已經(jīng)取得了較好的識別結(jié)果，但是在手寫漢字的識別任務當中仍然存在著不小的挑戰(zhàn)。由于漢字在中國傳統(tǒng)文化發(fā)展中的重要地位，對于漢字識別的研究自然具有非常重要的意義和價值[1]。最早的漢字識別研究始于IBM的Casey等對印刷漢字的識別。到了20世紀80年代，手寫漢字識別成為研究的重點并發(fā)展至今，許多方法相繼被提出，并且取得了不錯的效果。手寫漢字識別主要分為聯(lián)機和脫機兩種，聯(lián)機手寫漢字通過手機或者其它電子設備人工輸入手寫字，因此可直接得到漢字的筆畫順序、書寫方向以及提筆、落筆等信息，更容易獲得漢字的結(jié)構(gòu)。而脫機手寫漢字是通過掃描技術將手寫字掃描入計算機，得到掃描圖像，再對圖像進行識別的過程，其特點是數(shù)據(jù)量大、結(jié)構(gòu)復雜，不同的人具有不同的書寫風格，并且在不同的環(huán)境中手寫字會不同程度的發(fā)生形變，所以脫機手寫字識別難度遠遠大于聯(lián)機手寫漢字。

目前，對于手寫漢字識別，研究人員提出了許多種方法，并且都取得了不錯的識別效果。文[2]提出了一種代價敏感的修正二次判別函數(shù)（CMQDF）分類器，主要針對手寫中文地址進行識別；文[3]提出了級聯(lián)修正二次判別函數(shù)分類器來進行手寫漢字識別，其是一種基于串行結(jié)構(gòu)的分類器集成算法，在度量的層次上將分類結(jié)果進行結(jié)合，但是對于手寫圖像的扭曲變形等復雜情況識別效果不是很理想。文[4]利用MQDF與支持向量機（support vector machine， SVM）結(jié)合的方式對相似手寫漢字進行識別，該方法相比之前的方式無需提取額外特征，并利用分類混淆矩陣自動得到相似漢字特征集。文[5]引入深度學習技術，將卷積神經(jīng)網(wǎng)絡（convolutional neural network， CNN）融入到手寫漢字識別中，并與MQDF相結(jié)合，取得了不錯的識別結(jié)果。文[6]提出自適應判別局部對齊方法（adaptive discriminative locality alignment， ADLA），很大程度上改進了不同群體間的最優(yōu)參數(shù)選擇問題，進而提升了對相似漢字識別的準確率。文[7]在當今大數(shù)據(jù)情況下，采用深度神經(jīng)網(wǎng)絡（DNN）對相似手寫漢字進行識別，對大樣本取得了好的識別效果。本文針對脫機手寫漢字識別問題，提出了一種新的融合模型，該模型將MQDF和DBN相融合，通過定義可信度來協(xié)調(diào)兩個分類器在識別任務中的具體分工情況，從而達到理想的識別效果。通過實驗證明，所提出的融合模型在識別任務中，取得了比兩種分類器模型單獨使用時更好的識別準確率。endprint

1 修正的二次判別函數(shù)

MQDF基于統(tǒng)計方法，通過用常量代替小的特征值，補償了有限樣本的估計誤差。其次，由于只需要輸入特征向量進行計算，簡化了復雜度。由于結(jié)構(gòu)簡單、便于多類問題的分類、易于實現(xiàn)以及準確率高等優(yōu)點，被廣泛應用于手寫文字識別中。但是，在對于有些稍微復雜的手寫字圖像時，識別能力仍非常有限。

2 深度置信網(wǎng)

深度置信網(wǎng) （deep belief network， DBN）是Hinton等在2006年提出的一個具有層次特征的概率生成模型[9]，通過訓練神經(jīng)元之間的權(quán)重，可以讓整個神經(jīng)網(wǎng)絡按照最大概率來生成訓練數(shù)據(jù)。同時DBN是一種深層神經(jīng)網(wǎng)絡，采用自底向上的傳遞，底層的神經(jīng)元接收原始的特征向量，不斷向更高層次抽象，頂層的神經(jīng)網(wǎng)絡形成易于組合的特征向量。通過增加層次就能夠使特征向量更高的抽象化，而且，每一層的網(wǎng)絡會弱化上一層的錯誤信息和次要信息，以確保深層網(wǎng)絡的精度。DBN結(jié)構(gòu)如圖1所示。其是由一系列疊加的受限玻爾茲曼機（restricted boltzmann machine， RBM）[10]和頂層的反向傳播（back propagation， BP）網(wǎng)絡[11]構(gòu)成。自提出以來受到了越來越多的關注，并陸續(xù)應用于計算機視覺、語音識別、自然語言處理等領域，有著廣闊的發(fā)展和應用空間。

DBN的訓練包含預訓練和微調(diào)兩個步驟。首先，預訓練階段利用大量無類標信息數(shù)據(jù)，無監(jiān)督地訓練每層RBM，將下層 RBM的隱層輸出作為上一層RBM可示層的輸人。微調(diào)階段則采用有監(jiān)督學習方式對頂層的BP網(wǎng)絡進行訓練，將實際輸出與預期輸出的誤差逐層反向傳播，目的是調(diào)整網(wǎng)絡的權(quán)值。DBN這樣做克服了BP網(wǎng)絡因隨機初始化權(quán)值而導致的局部最優(yōu)問題。

2.1 受限玻爾茲曼機介紹

受限玻爾茲曼機（RBM）由隱層v和可示層h兩種神經(jīng)元節(jié)點構(gòu)成?？墒緦拥淖饔檬禽斎霐?shù)據(jù)，隱層的作用是特征檢測。區(qū)別于玻爾茲曼機，RBM的特點是可示層和隱層之間采用全連接的方式，而在可示層內(nèi)神經(jīng)元之間和隱層內(nèi)各神經(jīng)元之間是無連接的，以二分圖的形式存在，這樣相比玻爾茲曼機更為高效。

2.2 BP網(wǎng)絡

BP網(wǎng)絡主要是對RBM預訓練階段所得特征向量分類，依據(jù)分類結(jié)果微調(diào)DBN每層參數(shù)。訓練BP網(wǎng)絡包括前向和后向兩個過程。將特征向量向前傳播，由輸出層得到分類結(jié)果，將該分類結(jié)果與預期結(jié)果相比較得到誤差值[13]。后向傳播是將所得誤差值逐層回傳，從而調(diào)整DBN參數(shù)。傳播過程中每層需計算一個靈敏度δ，然后將δ向下傳遞調(diào)整網(wǎng)絡權(quán)值。

3 MQDF與DBN融合模型

修正的二次判別函數(shù)MQDF應用于脫機手寫漢字識別任務中，通?？梢宰R別出大部分漢字圖像，但對一些較復雜漢字圖像識別率有所下降。針對這類漢字圖像，使用深度模型DBN進行再次識別，即為本文提出的MQDFDBN融合模型。

MQDFDBN整體分成訓練、識別和融合三部分，如圖2所示。先將漢字圖像經(jīng)過預處理，歸一化到統(tǒng)一分辨率，此外還包括去噪、二值化等相關操作，再利用訓練數(shù)據(jù)同時對MQDF和DBN同時訓練。在訓練階段，MQDF提取梯度特征，DBN按照之前所介紹方法進行訓練。

4 實驗與結(jié)果分析

為了驗證本文提出方法，選擇ETL9B手寫漢字數(shù)據(jù)集進行實驗。ETL9B數(shù)據(jù)集由日本電子技術實驗室建立的，其中包括120萬個數(shù)字以及日文、中文、拉丁文的印刷體和手寫體樣本，其中漢字類別2965個，每個類別包含160或200個樣本，部分樣本如圖3所示。實驗選用1500個類別，每個類別包含200個樣本，前20個和后20個用來測試，剩余160個用來訓練。DBN選擇Theano深度學習工具包實現(xiàn)。實驗環(huán)境為Intel i5 3.2GHz處理器，8GB內(nèi)存。

在實驗過程中，將漢字圖像線性歸一化到64*64，訓練MQDF時，提取588維的梯度特征。深度置信網(wǎng)設置為兩層RBM結(jié)構(gòu)，中間隱層點數(shù)350個，迭代次數(shù)設置為10。實驗整體分成兩部分。首先通過實驗確定最優(yōu)的閥值T和加權(quán)系數(shù)α；然后把識別率作為評價標準，將DBN的識別效果與不同截斷參數(shù)k下的MQDF和MQDFDBN的識別效果進行比較。

在ETL9B數(shù)據(jù)集中，應用實驗所選的漢字圖像樣本，在不同的閥值T和加權(quán)系數(shù)α情況下對MQDFDBN模型進行實驗，記錄兩個值不同組合情況下的識別準確率信息。設置T值分為0.08，0.10，0.12，0.15，0.20，0.30，1.00，然后在α值由0.1到0.9時記錄識別準確率，實驗結(jié)果如圖4所示?？梢钥闯鯩QDFDBN融合模型在T值和α值不同時，識別效果有明顯不同，當T值在0.20跟0.30之間，α落在[0.4，0.6]區(qū)間中時識別效果最好。

表1給出了在實驗所用數(shù)據(jù)集下DBN分類器的識別準確率，以及截斷參數(shù)不同時，單獨的MQDF分類器，和融合分類器MQDFDBN的識別表現(xiàn)。從實驗結(jié)果可以看出，隨著截斷參數(shù)k值的增加，MQDF和MQDFDBN的識別準確率都有所提高，而后者要明顯高于前者，同樣MQDFDBN的識別準確率也高于DBN單獨使用時的識別準確率。

5 結(jié) 語

本文針對脫機手寫漢字識別問題，提出了一種修正二次判別函數(shù)和深度置信網(wǎng)融合模型，為該方面研究提供了新的思路。二次修正判別函數(shù)分類器識別較簡單的漢字圖像，而較為復雜的漢字圖像則交給深度模型DBN來處理識別，并且在得出最后結(jié)果時結(jié)合了MQDF的中間識別結(jié)果。最后的實驗表明，兩種模型結(jié)合使用能很好地形成互補，取得了不錯的識別效果。在接下來的工作中，我們會將工作重心放在實際應用價值更大的相似手寫漢字識別研究當中，探索并改進MQDFDBN模型，力求取得新的突破。

參考文獻：

[1] 丁曉青. 漢字識別研究的回顧[J]. 電子學報， 2002， 30（9）： 1364-1368.endprint

[2] LU S， WEI X， LU Y. Costsensitive MQDF Classifier for Handwritten Chinese Address Recognition. ICDAR[C]// 2015 13th International Conference on. IEEE， 2015： 76-80.

[3] 付強，丁曉青，劉長松. 用于手寫漢字識別的級聯(lián) MQDF 分類器[J]. 清華大學學報（自然科學版）， 2008， 48（10）： 1609-1612.

[4] 姚超，盧朝陽，李靜，等. 一種分類器級聯(lián)的手寫相似漢字識別方法[J]. 西安電子科技大學學報， 2015， 42（5）： 26-32.

[5] WANG Y， LI X， LIU C， et al. An MQDFCNN Hybrid Model for Offline Handwritten Chinese Character Recognition. Frontiers in Handwriting Recognition. （ICFHR）[C]// 2014 14th International Conference on. IEEE， 2014： 246-249.

[6] QU X， XU N， WANG W， et al. Similar Handwritten Chinese Character Recognition Based on Adaptive Discriminative Locality Alignment. Machine Vision Applications （MVA）[C]// 2015 14th IAPR International Conference on. IEEE， 2015： 130-133.

[7] 楊釗，陶大鵬，張樹業(yè)，等. 大數(shù)據(jù)下的基于深度神經(jīng)網(wǎng)的相似漢字識別[J]. 通信學報， 2014， 35（9）： 184-189.

[8] 周明輝，劉輝，曹剛. 基于 MQDF 的車牌字符識別[J]. 信息技術， 2013 （7）： 121-123.

[9] HINTON G. E.， OSINDERO， S.， Teh， Y.A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation， 2006（18）： 1527-1554.

[10]SALAKHUTDINOV R， MNIH A， HINTON G. Restricted Boltzmann Machines for Collaborative Filtering[C]// Proceedings of the 24th international conference on Machine learning. ACM， 2007： 791-798.

[11]王洋，曾雪琴，范劍英. 汽車牌照字符識別系統(tǒng)設計[J]. 哈爾濱理工大學學報， 2012， 17（1）： 90-95.

[12]HINTON G E.Training products of experts by minimizing contrastive divergence[J]. Neural Computation， 2002， 14（8）： 1771-1800.

[13]何春香，劉泊. 小波與 BP 神經(jīng)網(wǎng)絡在零件識別應用中的研究[J]. 哈爾濱理工大學學報， 2008， 13（5）： 50-53.

[14]LIU C.L.， MASAKI N. Precise Candidate Selection for Large Character Set Recognition by Confidence Evaluation[C]// IEEE Trans. on Pattern Analysis and Machine Intelligence， 2000： 636-642.

[15]HUANG Y.S.， SUEN C.Y. A Method of Combining Multiple Experts for the Recognition of Unconstrained Handwritten Numerals[J]. IEEE Trans Pattern Recognition and Machine Intelligence， 1995（17）： 90-94.

（編輯：關毅）endprint

哈爾濱理工大學學報2017年6期

哈爾濱理工大學學報的其它文章: 開放式數(shù)控軟PLC系統(tǒng)的研究; 鋼球全表面展開機構(gòu)的設計及仿真; 有效載荷快速更換模式及其振動特性研究; 基于動網(wǎng)格方法的不同油膜厚度下靜壓軸承承載特性分析; 大型雞舍機械通風溫度模擬與優(yōu)化; 基于場路結(jié)合法的三相感應電動機單相短路分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

DBN融合模型對脫機手寫漢字識別