二值化神經(jīng)網(wǎng)絡(luò)的英文手寫(xiě)體文章識(shí)別算法

2021-03-19 01:17沈陽(yáng)理工大學(xué)夏彩鳳

電子世界 2021年3期

沈陽(yáng)理工大學(xué) 周越夏彩鳳

針對(duì)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在英文手寫(xiě)體文章識(shí)別問(wèn)題中的諸多固有問(wèn)題，采用卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)相融合的方式將圖像的特征進(jìn)行充分提取、融合，然后結(jié)合上下文的語(yǔ)義信息，并將卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行二值化處理，內(nèi)存占用量大幅降低，顯著提高了檢測(cè)算法的精度與速度。

現(xiàn)階段卷積神經(jīng)網(wǎng)絡(luò)(CNN)因?yàn)槠渥吭降男阅?，已成為機(jī)器視覺(jué)領(lǐng)域領(lǐng)頭羊。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)（Pollack J B.Recursive distributed representations）是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一種變形，通過(guò)時(shí)延反饋連接而具有“記憶”功能。對(duì)于一個(gè)遠(yuǎn)非簡(jiǎn)單的分類(lèi)問(wèn)題，英文手寫(xiě)體文章識(shí)別（Plamondon R.On-line and off-line handwriting recognition）是一個(gè)具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問(wèn)題。本文開(kāi)發(fā)了一種將權(quán)重值和激活函數(shù)二值化的英文手寫(xiě)體文章識(shí)別算法，與優(yōu)化前相比，在準(zhǔn)確率提升的同時(shí)，減少了內(nèi)存消耗并加快了模型的收斂速度。

1 深度神經(jīng)網(wǎng)絡(luò)模型

圖1 二值化的卷積神經(jīng)網(wǎng)絡(luò)模型

圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖

二值化的卷積神經(jīng)網(wǎng)絡(luò)模型分為6個(gè)步驟，如圖1所示。首先對(duì)輸入的數(shù)據(jù)集進(jìn)行預(yù)處理，然后與二值化的卷積核進(jìn)行卷積運(yùn)算，接著進(jìn)行批歸一化處理，再通過(guò)二值化的激活函數(shù)，之后經(jīng)過(guò)最大池化處理，獲得提取到的特征圖，最后將特征圖的空間形狀進(jìn)行重新排列，送入LSTM網(wǎng)絡(luò)中。

LSTM神經(jīng)網(wǎng)絡(luò)（張英,鄭秋生.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本情感要素抽?。┦荝NN的一種，適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

其中，Xt表示t時(shí)刻的輸入，ht表示時(shí)刻的輸出。LSTM的結(jié)構(gòu)一般分為三個(gè)部分：遺忘門(mén)、輸入門(mén)和輸出門(mén)。遺忘門(mén)如式(1)所示：

其中，Wf、Vf為權(quán)重矩陣，bf為偏置矩陣，σ為sigmoid激活函數(shù)，h(t-1)為上一序列的隱藏狀態(tài)，xt為本序列輸入數(shù)據(jù)。

輸入門(mén)負(fù)責(zé)處理當(dāng)前序列位置的輸入，輸入門(mén)由兩部分組成，如式(2)、式(3)所示：

其中Wi、Vi、Wc、Vc為權(quán)重矩陣，bi、bc為偏置矩陣。前面的遺忘門(mén)和輸入門(mén)的結(jié)果都會(huì)作用于單元

狀態(tài)Ct。Ct由兩部分組成，如式(4)所示：

2 英文手寫(xiě)體文章識(shí)別實(shí)驗(yàn)與結(jié)果分析

本文采用公開(kāi)數(shù)據(jù)集IAM Handwriting Database（Marti U V,Bunke H.The IAM-database），輸入數(shù)據(jù)主要是高考英語(yǔ)作文掃描版，數(shù)據(jù)的標(biāo)簽為圖片所對(duì)應(yīng)的txt文本形式，數(shù)據(jù)集樣本示例如圖3所示。

圖3 數(shù)據(jù)集樣本示例

圖4 數(shù)據(jù)集増廣效果圖

圖5 圖像傾斜校正效果

圖6 文本區(qū)域定位效果

圖7 (a) 準(zhǔn)確率對(duì)比

圖7 (b) 損失值對(duì)比

數(shù)據(jù)集圖片數(shù)量有限，為了擁有更多的數(shù)據(jù)集，提升模型性能，經(jīng)過(guò)數(shù)據(jù)集増廣操作，可將數(shù)據(jù)集擴(kuò)展多倍。數(shù)據(jù)集増廣效果如圖4所示。

由于掃描版或拍攝的圖片往往會(huì)存在圖像傾斜的情況，將大大降低識(shí)別效果，因此需要對(duì)圖像進(jìn)行傾斜校正預(yù)處理，效果如圖5所示。

在輸入神經(jīng)網(wǎng)絡(luò)模型前需要做文本區(qū)域定位，本文實(shí)驗(yàn)采用基于MSER算法進(jìn)行改進(jìn)，效果如圖6所示。

使用二值化的神經(jīng)網(wǎng)絡(luò)與原模型的準(zhǔn)確率、損失值變化如圖7(a)、圖7(b)所示。

在圖7(a)、圖7(b)中，紅色曲線代表二值化模型，藍(lán)色曲線代表原模型，橫坐標(biāo)表示訓(xùn)練步數(shù)，共迭代訓(xùn)練100步，縱坐標(biāo)表示模型識(shí)別的準(zhǔn)確率。原模型最終的準(zhǔn)確率為84.63%，二值化模型準(zhǔn)確率為89.79%，原模型在60步時(shí)基本收斂，二值化模型在30步時(shí)基本收斂，且最終的準(zhǔn)確率與損失值均優(yōu)于原模型，且在訓(xùn)練時(shí)間與內(nèi)存占用上二值化模型卻比原模型明顯減少，若繼續(xù)訓(xùn)練，二值化模型與原模型最終準(zhǔn)確率會(huì)基本相等。

結(jié)論：本文提出了一種基于二值化神經(jīng)網(wǎng)絡(luò)的英文手寫(xiě)體文章識(shí)別新算法，采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，采用二值化的權(quán)重值與激活函數(shù)，在提高準(zhǔn)確率的同時(shí)，大幅減少了訓(xùn)練所需的時(shí)間和內(nèi)存，使網(wǎng)絡(luò)訓(xùn)練更加高效。實(shí)驗(yàn)結(jié)果表明，較其它算法，本文提出的網(wǎng)絡(luò)模型在英文手寫(xiě)識(shí)別任務(wù)中的識(shí)別準(zhǔn)確率、內(nèi)存占用和訓(xùn)練時(shí)間上有顯著優(yōu)勢(shì)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

二值化神經(jīng)網(wǎng)絡(luò)的英文手寫(xiě)體文章識(shí)別算法

1 深度神經(jīng)網(wǎng)絡(luò)模型

2 英文手寫(xiě)體文章識(shí)別實(shí)驗(yàn)與結(jié)果分析