程若然,周浩軍,劉露露,賀 炎
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
文字是人類社會最重要的交流載體之一,隨著互聯(lián)網(wǎng)與人類社會的聯(lián)系越發(fā)緊密,手寫漢字識別在人們生活中起到越來越大的作用。手寫文字識別主要分為聯(lián)機手寫漢字識別和脫機手寫漢字識別。前者使用相關(guān)設(shè)備記錄書寫軌跡的各項數(shù)據(jù),利用筆順信息來進行文字識別;后者則使用圖像采集設(shè)備獲取手寫文字圖像,通過學(xué)習(xí)圖像與漢字字符編碼之間的映射來識別文字。
手寫漢字識別從上世紀(jì)80年代起不斷發(fā)展,傳統(tǒng)方法逐漸形成“預(yù)處理、特征提取、分類”的流程來進行手寫漢字識別,并獲得了不錯的識別效果。但在實際應(yīng)用中,更復(fù)雜的手寫風(fēng)格和識別模式使得文字識別率下降,用戶難以獲得最佳的性能體驗。近年來,一些研究人員開始利用深度學(xué)習(xí)方法進行手寫漢字識別。2013年的ICDAR手寫漢字識別競賽的優(yōu)勝者,利用深度學(xué)習(xí)方法獲得了遠超傳統(tǒng)方法的識別率,展現(xiàn)了深度學(xué)習(xí)在文字識別領(lǐng)域的極大潛能。
目前,基于深度學(xué)習(xí)的手寫漢字識別方法存在訓(xùn)練時間長、高資源消耗的問題。為此,本文利用MobileNetV3作為主干網(wǎng)絡(luò)進行脫機手寫漢字識別,融合多尺度空間特征,提高了訓(xùn)練速度。
MobileNetV3是2019年Google研 發(fā) 的MobileNet系列的新作。MobileNet系列網(wǎng)絡(luò)模型是為了能在移動端設(shè)備(如在手機上)運行而設(shè)計的輕量型網(wǎng)絡(luò),且繼承了V1版本的深度可分離卷積(Depthwise Separable Convolution)和V2版本的逆殘差(Inverted Residuals)和線性瓶頸(Linear Bottlenecks)結(jié)構(gòu)。為了進一步提升分類準(zhǔn)確率,V3版本引入了SE(Squeeze-and-excitation)結(jié)構(gòu),并對網(wǎng)絡(luò)進一步剪枝以減少計算量,加快訓(xùn)練速度。
如圖1所示,標(biāo)準(zhǔn)卷積是每個卷積核與輸入特征圖的所有通道按位進行卷積計算,參數(shù)量為k×k×C×C、計算量是k×k×C×C×W×H。
圖1 標(biāo)準(zhǔn)卷積與深度可分離卷積Fig.1 Standard convolution and depth separable convolution
其中,是卷積核大??;C、C是輸入通道數(shù)(輸入特征圖的通道數(shù)以及卷積核通道數(shù))和輸出通道數(shù)(即卷積核個數(shù));和是輸出特征圖的寬和高。
深度可分離卷積分為深度卷積和點卷積兩步完成:深度卷積是用C個大小為、通道數(shù)為1的卷積核,對輸入特征圖的C個通道分別進行卷積計算,參數(shù)量為1×C、計算量為1×C×W×H;點卷積是使用C個通道大小為11、通道數(shù)為C的卷積核,對深度卷積的輸出進行標(biāo)準(zhǔn)卷積操作,參數(shù)量為11×C×C,計算量為11×C×C×W×H。因此,深度可分離卷積在參數(shù)量上減少為標(biāo)準(zhǔn)卷積的1/C+1(k×k×C),在計算量上減少為標(biāo)準(zhǔn)卷積的1/C+1()。當(dāng)使用33大小的卷積核時,理論上深度可分離卷積的計算速度應(yīng)是標(biāo)準(zhǔn)卷積的89倍,而精度只與標(biāo)準(zhǔn)卷積相差1。
逆殘差結(jié)構(gòu)是依據(jù)ResNet的殘差結(jié)構(gòu)改進而得。殘差結(jié)構(gòu)先用1×1卷積核壓縮輸入特征圖的通道數(shù),再用3×3卷積核進行特征提取,最后用1×1卷積核擴張回原本的通道數(shù),整體流程為“壓縮-特征提取-擴張”,特征圖通道數(shù)量先減小后增大。逆殘差結(jié)構(gòu)先用1×1卷積核擴張輸入特征圖的通道數(shù),再用3×3卷積核進行深度卷積,最后用1×1卷積核壓縮回原本的通道數(shù),整體流程為“擴張-特征提?。瓑嚎s”,特征圖通道數(shù)量先增大后減小。二者結(jié)構(gòu)如圖2所示。
圖2 殘差結(jié)構(gòu)與倒殘差結(jié)構(gòu)Fig.2 Residual structure and inverted residual structure
由于低維分布嵌入到高維空間之后,再使用RELU激活函數(shù)由高維空間投影回低維空間,將會造成信息損失。針對該問題,MobileNet V2引入了線性瓶頸,即將逆殘差模塊最后一層的RELU改為激活函數(shù)。
MobileNet V3在前代版本的基礎(chǔ)上,首先調(diào)整了網(wǎng)絡(luò)的輸入輸出層,減少了輸入輸出層的卷積操作,以降低計算機資源消耗,提升了15%的運算速度;其次去除了函數(shù)的計算,改用計算消耗更小的函數(shù);在逆殘差模塊中3×3深度可分離卷積之后引入SE模塊,結(jié)構(gòu)如圖3所示。
圖3 MobileNet V3-SE模塊Fig.3 MobileNet V3-SE module
MobileNet V3-SE的基本實現(xiàn)過程為:先進行全局池化壓縮(Squeeze)獲得一個1×1×的向量;然后經(jīng)過兩次“全連接層-激活(Excitation)”操作(為減少計算時間將第一次“全連接層-激活”操作的輸出通道數(shù)壓縮為原來的1/4),輸出1×1×的向量;最后將得到的向量與深度可分離卷積的結(jié)果按位相乘,以調(diào)整每個通道的權(quán)值,從而提升網(wǎng)絡(luò)精度。V3總體網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計中,首先通過NAS算法,對網(wǎng)絡(luò)結(jié)構(gòu)進行搜索優(yōu)化(如網(wǎng)絡(luò)中Block的排列和結(jié)構(gòu)),得到大體的網(wǎng)絡(luò)構(gòu)成,最后使用NetAdapt算法來確定每個filter的channel數(shù)量。
本文研究目標(biāo)是脫機手寫漢字的識別,主要面臨兩個問題:
(1)漢字?jǐn)?shù)量多,相當(dāng)于數(shù)千級別的分類問題。如此大數(shù)量的分類網(wǎng)絡(luò),需要更豐富的特征信息。
(2)形近字的識別容易得到錯誤結(jié)果(如“巳”和“已”)。
針對上述問題,本文以MobileNetV3為主干網(wǎng)絡(luò),設(shè)計了一種多尺度特征提取方案,并使用一種新的注意力機制進行特征融合,改進后的MobileNetV3能夠更好地適應(yīng)脫機手寫漢字識別任務(wù)。
本文在輸入圖像進行多次特征提取之后,加入一個特征提取模塊來豐富特征信息。該模塊包含兩個支路:使用多尺度大小的卷積核來獲取原始輸入圖像上不同范圍大小的感受野,并利用注意力機制融合這兩個分支的特征信息。優(yōu)化后的網(wǎng)絡(luò)模型如圖4所示,其中虛線框所指模塊即為本文的改進之處,MS-CAM是多尺度通道注意力模塊。
圖4 改進的MobileNetV3Fig.4 Improved MobileNetV3
在卷積神經(jīng)網(wǎng)絡(luò)中,感受野是一個非常重要的概念,指的是每個網(wǎng)絡(luò)層輸出的特征圖像上,每個神經(jīng)元所能“看見”的原始輸入圖像上對應(yīng)區(qū)域的范圍大小。如圖5所示,每一層的卷積核大小都為3×3,卷積步長為1,填充大小為0。下一層特征圖的每個神經(jīng)元能看到上一層特征圖3×3大小的區(qū)域,進而能看到再上一層5×5大小的區(qū)域。也就是說,越深的網(wǎng)絡(luò)層越能看到原始輸入圖像上更多的內(nèi)容。
圖5 感受野示意圖Fig.5 Receptive field diagram
網(wǎng)絡(luò)中不同大小的感受野會帶來不一樣的性能表現(xiàn),而感受野的大小則受到各參數(shù)的影響(如卷積核大小、卷積步長、填充大小等)。為了能夠從原始輸入圖像獲得更豐富的特征信息,本文網(wǎng)絡(luò)使用3×3和5×5多尺度大小的卷積核,來獲取原始輸入圖像上不同范圍大小的感受野。
特征融合是來自不同層或分支特征的組合,是卷積神經(jīng)網(wǎng)絡(luò)中常見的操作內(nèi)容,通常通過簡單線性的操作(如:求和或拼接)來實現(xiàn)。文獻[8]中認(rèn)為,這樣的特征融合方式并不是最佳選擇,因此提出了一種新的基于注意力的特征融合方法。本文利用該方法中提出的多尺度通道注意力模塊(MS-CAM),通過不同特征的通道注意力來賦予兩個分支不同的權(quán)重,從而完成其融合,其結(jié)構(gòu)如圖6所示。
圖6 MS-CAM結(jié)構(gòu)圖Fig.6 Structure of MS-CAM
MS-CAM除了進行池化,還有一個分支使用逐點卷積來進行特征提取,并將兩個特征進行融合。前者更關(guān)注全局尺度上的大型對象,而后者更關(guān)注通道注意力不同尺度上下文的特征信息。SE的計算方式非常容易丟失原始圖像上的細節(jié)信息,而MS-CAM利用多尺度特征提取方式,更好地捕獲局部特征信息。
本文使用CASIA-HWDB脫機單字符數(shù)據(jù)庫中的HWDB 1.1數(shù)據(jù)集進行實驗。該數(shù)據(jù)集由中國科學(xué)院自動化研究所模式識別國家實驗室建設(shè)。脫機單字符數(shù)據(jù)庫包括3個字符集,其統(tǒng)計數(shù)據(jù)見表1。其中,HWDB 1.0數(shù)據(jù)集的3 866個漢字包含GB2312-80字符集3 755個一級漢字中的3 740個漢字;HWDB 1.1數(shù)據(jù)集的3 755個漢字即為GB2312-80字符集一級漢字全集;HWDB 1.2數(shù)據(jù)集的3 319個漢字與GB2312-80字符集一級漢字集不相交。
表1 脫機單字符數(shù)據(jù)庫Tab.1 Database of offline single character
由于樣本尺寸不一致,在輸入網(wǎng)絡(luò)之前均將其處理成224×224大小。訓(xùn)練、測試、驗證集隨機劃分成8∶1∶1。數(shù)據(jù)集內(nèi)部分樣本示例如圖7所示。
圖7 部分樣本示例Fig.7 Part of samples
實驗使用準(zhǔn)確率()作為評價指標(biāo),當(dāng)進行二分類時,其計算公式如下:
其中,、、、屬于混淆矩陣的概念,其含義見表2。
表2 混淆矩陣及其含義Tab.2 Confusion matrix
準(zhǔn)確率的含義就是被正確分類的樣本數(shù)量與總樣本數(shù)的比值。本文的目標(biāo)任務(wù)是一個多分類(類別數(shù)3 755)問題,將二分類擴展為多分類,在計算第個類別的準(zhǔn)確率ACC時,應(yīng)將第類視為正類,其它類別視為負(fù)類,計算完所有類別的準(zhǔn)確率后計算平均值。因此準(zhǔn)確率的計算公式如下:
本文所有的實驗均在Ubantu 18.04系統(tǒng)上使用CUDA并行計算架構(gòu),并在Cudnn加速計算庫的基礎(chǔ)上搭建PyTorch框架,然后進行加速計算。實驗所用顯卡為NVIDIA GEForce GTX3090(24 G),內(nèi)存為32.0 GB,CPU為Intel(R)Core(TM)i7-6950X CPU@3.00 GHZ。迭代次數(shù)Epoch為100,優(yōu)化器選擇Adam,優(yōu)化參數(shù)選擇默認(rèn)。迭代學(xué)習(xí)率為0.000 1,權(quán)值衰減率為1e-5,批大小為80。無預(yù)訓(xùn)練和其他前置任務(wù),每個Epoch后進行一次訓(xùn)練和一次測試,測試時不更新參數(shù)。將結(jié)果最好的模型參數(shù)保存,最后在驗證集上進行驗證。
本文將VGG19、ResNet18、MobileNetV2、MobileNetV3與改進網(wǎng)絡(luò)進行對比實驗。圖8展示了5種網(wǎng)絡(luò)使用同一數(shù)據(jù)集訓(xùn)練的準(zhǔn)確率曲線,可以看出本文所提方法的準(zhǔn)確率最高。
圖8 各網(wǎng)絡(luò)準(zhǔn)確率曲線對比Fig.8 Comparison of accuracy curves of all networks
表3顯示了各網(wǎng)絡(luò)模型的準(zhǔn)確率和參數(shù)量對比結(jié)果,其中本文所提方法不但有最好的識別準(zhǔn)確率,而且沒有因為進行3 755類漢字的分類而增加過多的參數(shù)量。
表3 各網(wǎng)絡(luò)模型的對比結(jié)果Tab.3 Comparison results of various network models
本文針對目前手寫識別網(wǎng)絡(luò)訓(xùn)練時間長、高資源消耗的問題,提出了一種基于MobileNetV3的脫機手寫漢字識別網(wǎng)絡(luò)模型,在不降低識別率的基礎(chǔ)上減少計算機資源消耗,加快訓(xùn)練速度。本文的主要改進工作:
(1)使用多尺度卷積核獲取不同大小的感受野,豐富特征信息。
(2)采用多尺度通道注意力特征融合將多分支網(wǎng)絡(luò)提取的特征進行全局和局部的特征融合,以提高網(wǎng)絡(luò)性能。實驗結(jié)果表明,本文提出的的改進網(wǎng)絡(luò)獲得了更好的識別結(jié)果。