石佳鈺, 殷雁君, 刁明皓, 智 敏
(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
我國是一個統(tǒng)一的多民族國家,有著豐富的民族語言資源。蒙古語,是我國少數(shù)民族語言之一,有著廣泛影響力,除內(nèi)蒙古自治區(qū)外,很多蒙古族聚集的省市也在使用蒙古文文字。近年來,隨著社會信息化的發(fā)展,大量蒙古文古籍、資料需要用計(jì)算機(jī)進(jìn)行處理和保存。人工錄入方法消耗大量人力和物力,而且錄入過程中不可避免地出現(xiàn)因誤錄而導(dǎo)致的錯誤。鑒于此,研究能夠自動且高效識別海量蒙古文資料的蒙古文文字識別技術(shù),對于促進(jìn)蒙古族語言知識的共享和傳播、推進(jìn)蒙古族地區(qū)經(jīng)濟(jì)文化繁榮和發(fā)展有重要的現(xiàn)實(shí)意義。
目前,圖像文字識別的主流算法是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。最初的卷積神經(jīng)網(wǎng)絡(luò)是LeCun[1]提出的LeNet-5網(wǎng)絡(luò)模型,該模型在手寫數(shù)字識別問題中取得了較高的識準(zhǔn)率。在此基礎(chǔ)上,Goodfellow等[2]提出基于多數(shù)字識別的卷積神經(jīng)網(wǎng)絡(luò)模型,為英文圖像文字識別提供新的思路。隨后,Jaderberg等[3]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到自然場景下的圖像文字識別,提出一次性識別整個英文單詞的方法。為了能夠識別圖像中具有序列性的對象,Shi等[4]在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出端到端可以識別任意長度序列的卷積遞歸神經(jīng)網(wǎng)絡(luò)模型(convolutional recurrent neural network,CRNN)。
英文圖像文字識別發(fā)展較早,目前技術(shù)較為成熟。中文文字識別過程中也借鑒了許多成功的英文圖像文字識別技術(shù)。例如,基于并行神經(jīng)網(wǎng)絡(luò),于秀云[5]提出漢字匹配的印刷體漢字識別方法。在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,Zhong等[6]提出增加多層卷積方法,用以解決印刷體漢字識別中多字體識別問題。孟彩霞等[7]采用深度殘差網(wǎng)絡(luò)模型解決漢字識別的網(wǎng)絡(luò)模型較為復(fù)雜且不易簡化問題。王建平[8]提出利用過程神經(jīng)網(wǎng)絡(luò)對手寫漢字提取筆段特征進(jìn)行手寫漢字識別。針對在手寫體漢字識別中數(shù)據(jù)不足問題,Yang等[9]通過對手寫字體進(jìn)行形變、非線性歸一化等方法增加數(shù)據(jù)的多樣性,提出基于指定特征的卷積神經(jīng)網(wǎng)絡(luò)手寫漢字識別。
近幾年,無論是印刷體還是手寫體的漢字圖像文字識別技術(shù)都取得了一定的研究進(jìn)展,但蒙古文圖像文字識別研究則相對滯后。蒙古文是一種拼音文字,在書寫、閱讀上與中英文有很大區(qū)別,其書寫是以詞為單位豎寫,詞與詞之間用空格分隔。最初,蒙古文圖像文字識別是將蒙古文字元切分后進(jìn)行識別。例如,李偉等[10]在行切分和單詞切分的基礎(chǔ)上提出了印刷體蒙古文字元切分方法。李振宏等[11]提出采用綜合統(tǒng)計(jì)識別與結(jié)構(gòu)識別的網(wǎng)格特征作為分類依據(jù)進(jìn)行蒙古文字元識別。目前,蒙古文圖像文字識別主流方法是文字檢測后進(jìn)行識別。例如,魏宏喜[12]提出基于最小二乘法的蒙古文文本圖像檢測方法。劉聰[13]提出基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)與連接時序分類器相結(jié)合的手寫蒙古文整詞識別。李敏[14]提出針對蒙古文手寫識別數(shù)據(jù)的預(yù)處理提出了距離夾角方法和坐標(biāo)標(biāo)準(zhǔn)化方法。范道爾吉[15]結(jié)合切分后識別的方法,提出以字素碼為蒙古文單詞為分割單位的蒙古文大詞匯量手寫識別方法。
VGG-Net是2014年由牛津大學(xué)和Google Deep Mind公司研究人員研發(fā)的深層卷積神經(jīng)網(wǎng)絡(luò)[14]。VGG-Net以較深的網(wǎng)絡(luò)結(jié)構(gòu),較小的卷積核和池化采樣域,使其能夠獲得更多圖像特征的同時控制參數(shù)個數(shù),避免過多計(jì)算量以及過于復(fù)雜的結(jié)構(gòu)。VGG-Net通過反復(fù)地疊加卷積層和最大池化層,最終發(fā)現(xiàn)16層至19層深的網(wǎng)絡(luò)模型性能較強(qiáng)。但是因?yàn)闃?biāo)準(zhǔn)的VGG-Net應(yīng)用的數(shù)據(jù)集與蒙古文字元數(shù)據(jù)集差異很大,直接應(yīng)用會造成運(yùn)算時間和運(yùn)算空間的浪費(fèi),所以改進(jìn)標(biāo)準(zhǔn)VGG-Net模型使其能夠更好地完成蒙古文字元識別的任務(wù),提高分類識別任務(wù)效率和準(zhǔn)確率,同時節(jié)省運(yùn)算空間。
VGG-Net共有A、B、C、D、E六種結(jié)構(gòu)配置,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。深度從11層到19層不等,應(yīng)用最廣泛的是VGG-16和VGG-19。VGG-Net將六種結(jié)構(gòu)配置都分為五部分,每部分都由卷積層和池化層疊加而成,之后連接三個全連接層和一個softmax層。
圖1 VGG-Net網(wǎng)絡(luò)結(jié)構(gòu)圖[16]Fig.1 VGG-Net network structure diagram[16]
VGG-Net整個神經(jīng)網(wǎng)絡(luò)中卷積層的卷積核都采用3×3的小型卷積核,2×2的最大池化層。相比卷積核為5×5的一個卷積層,卷積核大小為3×3的兩個卷積層不僅加深了網(wǎng)絡(luò)深度、減少參數(shù)個數(shù),同時加強(qiáng)了圖像特征的提取能力。同理,相比大小為7×7的卷積核,三個3×3的小型卷積核效果會更好。
正如BP算法經(jīng)典的2層算法一樣,當(dāng)網(wǎng)絡(luò)增加至3層效果提升甚微,增加至4層、5層效果比2層差。神經(jīng)網(wǎng)絡(luò)的深度同樣會影響識別蒙古文字元的效果。隨著隱層數(shù)量增加,激活函數(shù)使用不當(dāng)時會使得誤差從輸出層開始呈指數(shù)衰減,由于梯度消失導(dǎo)致深度結(jié)構(gòu)的較低層甚至無法訓(xùn)練,而較高層卻容易訓(xùn)練。較低層由于無法訓(xùn)練,容易把原始輸入圖像不經(jīng)過任何非線性變換,或者錯誤變換送入高層,使得高層提取特征壓力過大。如果特征無法提取,強(qiáng)制性的誤差監(jiān)督訓(xùn)練會使模型對輸入數(shù)據(jù)直接做擬合,從而出現(xiàn)過擬合現(xiàn)象,故而神經(jīng)網(wǎng)絡(luò)深度需要根據(jù)任務(wù)進(jìn)行調(diào)整。標(biāo)準(zhǔn)的VGG-16模型處理圖像的尺寸為224×224×3,蒙古文字元圖像的尺寸僅為32×32×1,遠(yuǎn)小于VGG-16的輸入圖像尺寸。VGG-16網(wǎng)絡(luò)隱層較多,參數(shù)量大,在訓(xùn)練時會消耗較多計(jì)算資源,而蒙古文字元的分類無需復(fù)雜的隱層,反而復(fù)雜隱層可能造成運(yùn)算空間浪費(fèi)和出現(xiàn)過擬合。
本文提出基于VGG-16的改進(jìn)模型,改進(jìn)的VGG-Net模型結(jié)構(gòu)如圖2所示。改進(jìn)的VGG-Net層級結(jié)構(gòu)主要由數(shù)據(jù)輸入層、卷積層、激活層、池化層和全連接層構(gòu)成。改進(jìn)的VGG-Net是將蒙古文字元圖像進(jìn)到2層的卷積層和最大池化層,再進(jìn)到3層的卷積層和最大池化層,最后送入兩層全連接。
圖2 改進(jìn)的VGG-Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Improved VGG-Net network structure diagram
數(shù)據(jù)輸入層主要是對蒙古文字元數(shù)據(jù)進(jìn)行歸一化和灰度化的預(yù)處理操作。卷積層用于提取蒙古文字元特征信息,核心參數(shù)包括卷積核(感受野)的尺寸大小、步長和填充,三者決定了輸出特征圖的尺寸大小。卷積核尺寸大小可以指定為小于輸入圖像尺寸的任意數(shù)值,本文將延續(xù)VGG-16網(wǎng)絡(luò)的卷積核尺寸標(biāo)準(zhǔn),使用的卷積核尺寸大小為3×3、步長為1、填充的屬性是“same”。激活層是將卷積層的輸出進(jìn)行非線性的映射計(jì)算,本文統(tǒng)一采用Relu激活函數(shù),并在Relu激活函數(shù)后銜接BN正則化層。池化層可以有效地縮小特征矩陣減少參數(shù),降低過擬合的風(fēng)險(xiǎn)。本文采用最大池化,尺寸為2×2,步長為2。例如,在蒙古文字元的32×32×64特征圖進(jìn)過第一層最大池化層處理數(shù)據(jù)壓縮為16×16×64。全連接兩層,第一層共有128個神經(jīng)元,第二層23個神經(jīng)元。
改進(jìn)的VGG-Net與VGG-16的區(qū)別在于將VGG-16的13層卷積層縮減為5層,最大池化層的5層減少至2層,全連接層由3層變?yōu)?層,改進(jìn)的VGG-Net網(wǎng)絡(luò)各層參數(shù)如表1所示。改進(jìn)的VGG-Net網(wǎng)絡(luò)節(jié)省了運(yùn)算空間,提高了運(yùn)算速度,并大幅度提升了識別率,更適用于蒙古文字元識別任務(wù)。
表1 網(wǎng)絡(luò)模型各層參數(shù)示意表Tab.1 Schematic table of parameters of each layer of the network model
本文的實(shí)驗(yàn)環(huán)境: 操作系統(tǒng)處理器為Intel(R) Core(TM) i7-8750HCPU@2.20GHz,內(nèi)存為8GB,編程語言為python 2.7,使用的深度學(xué)習(xí)框架為Keras 2.2.4。
開展食葵機(jī)械化收獲技術(shù)研究,有助于進(jìn)一步提升食用向日葵的機(jī)械化收獲水平,減輕了農(nóng)民的體力勞動,將更多地勞動力從土地中解放出來,創(chuàng)造更多地經(jīng)濟(jì)價值[2]。
表2 手寫蒙古文字元數(shù)據(jù)集
初始數(shù)據(jù)集為RGB蒙古文字元手寫體圖像,如表2所示,由內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院采集。初始數(shù)據(jù)集中包含6 670張圖像,每張圖像包含一個蒙古文字元樣本。蒙古文字元表中共包含23個字元,其中5個表示元音,18個表示輔音。
初始數(shù)據(jù)集圖像進(jìn)行預(yù)處理,處理后為32×32×1的灰度圖像。6 670張圖像以28∶1的比例分為訓(xùn)練集與測試集,訓(xùn)練集每類圖像280張,共6 440張; 測試集每類圖像10張,共230張。
圖片預(yù)處理: 將圖片壓縮成與mnist數(shù)據(jù)集格式相同的數(shù)據(jù)集。首先生成測試集標(biāo)簽test-labels,將第1至第4個字節(jié)存放文件頭魔數(shù)(magic number); 第5至第8個字節(jié)存放蒙古文字元圖像數(shù)據(jù)的標(biāo)簽個數(shù),即230; 第9字節(jié)開始每個字節(jié)存儲一個圖片的標(biāo)簽信息,即數(shù)字0-23中的一個。其次生成測試集test-images,第1至第4個字節(jié)存放文件頭魔數(shù); 第5至第8個字節(jié)存放蒙古文字元圖像數(shù)據(jù)個數(shù),即230; 第9至第16個字節(jié)存放蒙古文字元圖像數(shù)據(jù)的寬度和高度,即32; 從第17個字節(jié)開始,每個字節(jié)存放一個像素值,每32×32個字節(jié)大小存放一幅圖像數(shù)據(jù)。以相同的方法,生成訓(xùn)練集的標(biāo)簽(train-labels)和訓(xùn)練集數(shù)據(jù)(train-images)。
本文以實(shí)驗(yàn)的損失值、識別準(zhǔn)確率和F1值作為評價指標(biāo),探究迭代次數(shù)和學(xué)習(xí)率對蒙古文字元識別準(zhǔn)確率的影響,改進(jìn)的VGG-Net由正態(tài)分布隨機(jī)初始化開始訓(xùn)練,采用隨機(jī)梯度下降的方法來優(yōu)化網(wǎng)絡(luò)。
損失值是通過學(xué)習(xí)得出的分類特征值與真實(shí)樣本的特征值之間做多分類交叉熵函數(shù)計(jì)算得出,損失值越小表示模型分類能力越強(qiáng),檢驗(yàn)結(jié)果越準(zhǔn)確。對于樣本點(diǎn)(x,y)來說,y是真實(shí)標(biāo)簽。在多分類問題中,其取值只可能為標(biāo)簽集合labels。有K個標(biāo)簽值(K為23),且第i個樣本預(yù)測為第k個標(biāo)簽值的概率為pi,k。有N個樣本,損失函數(shù)如下:
(1)
準(zhǔn)確率(Accuracy)是最為直觀的評價指標(biāo)之一,可通過分類正確的樣本數(shù)與所有樣本數(shù)的比值計(jì)算得出:
(2)
精確率(Precision)衡量真正樣本占被預(yù)測為正樣本的比例:
(3)
召回率(Recall)衡量真正樣本占所有實(shí)際為正樣本的比例:
(4)
F1值需綜合考慮精確率和召回率:
(5)
其中:Tp(true positive)表示真正例,預(yù)測為正、實(shí)際也為正;Fp(false positive)表示假正例,預(yù)測為正、實(shí)際為負(fù);Fn(false negative)表示假反例,預(yù)測為負(fù)、實(shí)際為正;Tn(true negative)表示真反例,預(yù)測為負(fù)、實(shí)際也為負(fù)。
本次實(shí)驗(yàn)選取6 440張32×32的蒙古文字元圖片作為訓(xùn)練數(shù)據(jù)集和230張蒙古文字元圖片作為測試數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.01。迭代次數(shù)初始值設(shè)置10次、步長設(shè)置為10,設(shè)計(jì)九組實(shí)驗(yàn)分析不同迭代次數(shù)對蒙古文字元識別性能產(chǎn)生的影響。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 隨迭代次數(shù)變化實(shí)驗(yàn)結(jié)果匯總圖Fig.3 Summary of experimental results with the number of iterations
從圖3中得出,訓(xùn)練集和測試集都隨著迭代次數(shù)的增多,準(zhǔn)確率提升到最大值95.94%,飽和之后開始下降,損失值和F1值同樣增加到最大值然后下降。與迭代10次的結(jié)果相比,迭代40次的測試準(zhǔn)確率由90.26%提升為95.94%,損失值由0.351 4降至0.216 1,F1值也由0.889 1提升至0.956 8。從實(shí)驗(yàn)中可以得出: 選擇40次迭代次數(shù)最為合適,蒙古文字元識別的準(zhǔn)確率和F1值最高,損失值最低。
本實(shí)驗(yàn)選取6 440張32×32的蒙古文字元圖片作為訓(xùn)練數(shù)據(jù)集和230張蒙古文字元圖片作為測試數(shù)據(jù)集,迭代次數(shù)設(shè)置40。改變學(xué)習(xí)率,分別設(shè)置0.1、0.05、0.01、0.005、0.001共五組實(shí)驗(yàn),實(shí)驗(yàn)得到的損失值、準(zhǔn)確率和F1值如圖4所示。
圖4 隨學(xué)習(xí)率變化實(shí)驗(yàn)結(jié)果匯總意圖Fig.4 Summary of experimental results with learning rate changes
從圖4中得出,訓(xùn)練集和測試集都隨著學(xué)習(xí)率的減小,準(zhǔn)確率提升到最大飽和值后下降,損失值和F1值的變化相同。與學(xué)習(xí)率為0.1時相比,0.01時準(zhǔn)確率由93.34%提高到峰值的95.94%,損失值為由0.969 8降至0.216 1,F1值也由0.921 2提高到0.956 8。當(dāng)學(xué)習(xí)率降低為0.001時,準(zhǔn)確率為91.07%,損失值為0.257 8,F1值為0.908 7。本次實(shí)驗(yàn)表明學(xué)習(xí)率取0.01最為合適。
基于上述實(shí)驗(yàn)結(jié)果,選取6 440張32×32的蒙古文字元圖片作為訓(xùn)練數(shù)據(jù)集和230張蒙古文字元圖片作為測試數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.01,迭代次數(shù)設(shè)置40次,同時使用標(biāo)準(zhǔn)的VGG-16模型與改進(jìn)的VGG-Net 模型進(jìn)行蒙古文字元識別。實(shí)驗(yàn)得到的損失值、準(zhǔn)確率實(shí)驗(yàn)耗時和F1值如表3所示。
表3 不同模型的實(shí)驗(yàn)數(shù)據(jù)匯總Tab.3 Summary of experimental data of different models
從表3可知,在蒙古文字元手寫數(shù)據(jù)集中,VGG-16模型經(jīng)過40次學(xué)習(xí),準(zhǔn)確率為90.58%,損失值為1.819 3,F1值為0.902 9,耗時1.616 2 h,而改進(jìn)的VGG-Net模型經(jīng)過40次學(xué)習(xí),準(zhǔn)確率為95.94%高于標(biāo)準(zhǔn)VGG-16模型,F1值為0.956 8大于VGG-16模型的0.902 9,損失為0.378 3也小于VGG-16模型的1.819 3,且只需要0.530 3 h就可以完成訓(xùn)練。本次對比試驗(yàn)表明本文提出的改進(jìn)的VGG-Net模型在手寫蒙古文字元數(shù)據(jù)集上識別效果遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)的VGG-16卷積神經(jīng)網(wǎng)絡(luò)。
本文針對蒙古文字元識別的具體問題改進(jìn)VGG-Net并應(yīng)用于手寫蒙古文字元識別,設(shè)計(jì)了由VGG-16模型的改進(jìn)的VGG-Net網(wǎng)絡(luò)模型用于手寫蒙古文字元的識別,實(shí)驗(yàn)結(jié)果表明在學(xué)習(xí)率為0.01、迭代40次、以7 440張蒙古文字元圖像作為訓(xùn)練樣本的條件下,訓(xùn)練得到改進(jìn)的VGG-Net模型對230張字元圖像進(jìn)行檢測,能得到96.83%的準(zhǔn)確率,F1值為0.961 2,證明了使用改進(jìn)的VGG-Net對手寫蒙古文字元的識別分類效果良好。
與VGG-16模型相對比,本文的網(wǎng)絡(luò)模型在減少參數(shù)的同時提升了識別準(zhǔn)確率,蒙古文字元識別訓(xùn)練更快、消耗運(yùn)算空間更少、更加靈活,而且便于應(yīng)用到其他配置較低的設(shè)備,從而使得應(yīng)用范圍更加廣闊。
手寫蒙古文數(shù)據(jù)集較小可能是導(dǎo)致網(wǎng)絡(luò)模型效果無法進(jìn)一步提升的主要原因,后續(xù)將從數(shù)據(jù)增強(qiáng)的方面深入研究,進(jìn)一步提高蒙古文字元的識別效果。