陳炳權(quán),汪政陽,夏蓉,陳明
(1.吉首大學(xué) 通信與電子工程學(xué)院,湖南 吉首,416000;2.湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長沙,410082)
文字識別是計(jì)算機(jī)視覺研究領(lǐng)域的分支之一,歸屬于模式識別和人工智能,是計(jì)算機(jī)科學(xué)的重要組成部分。圖像文字識別技術(shù)[1]是計(jì)算機(jī)視覺領(lǐng)域的主要研究內(nèi)容。手寫體字符識別(handwritten character recognition)算法[2]是當(dāng)前的熱點(diǎn)研究方向,現(xiàn)階段主要集中于對自然場景下或掃描件印刷體的現(xiàn)代中英文文字進(jìn)行識別,但針對手寫體古漢字字符識別的研究相對較少。由于古漢字字形發(fā)展年代久遠(yuǎn),以及人為手寫體差異性的存在,傳統(tǒng)方法在對古文字圖像進(jìn)行識別時(shí)存在數(shù)字化讀取困難和識別準(zhǔn)確率較低的現(xiàn)象。因此利用圖像文字識別技術(shù)構(gòu)建古籍類手寫體文字圖像的識別模型,最大程度地節(jié)省人力、物力在圖像識別過程中消耗的同時(shí)提高識別準(zhǔn)確率具有重要研究意義。
目前采用深度學(xué)習(xí)算法進(jìn)行手寫體字符識別的研究已經(jīng)成為圖像文字識別技術(shù)科研領(lǐng)域的主流[3],提出的一系列深度學(xué)習(xí)算法,如VGG[4]、DenseNet[5]、 Res2Net[6]、 Vision Transformer[7]和Swin Transformer[8]等均被應(yīng)用于圖像文字識別領(lǐng)域,并取得了很好的效果。然而上述深度學(xué)習(xí)算法在對文字圖像進(jìn)行特征提取時(shí),存在著文字特征性信息提取不精確導(dǎo)致最終識別準(zhǔn)確率較低的問題[9]。秦簡文字其本身具有古籍類文字共性存在的字體結(jié)構(gòu)多樣、字形變化多端等特點(diǎn),且個(gè)人書法習(xí)慣不一,加以文字圖像采集過程中出現(xiàn)字跡磨損等現(xiàn)象,導(dǎo)致特征信息提取不精確,這都給秦簡文字圖像識別帶來了挑戰(zhàn)。因此,結(jié)合秦簡文字字形特征與手寫體差異性等因素探究有效識別秦簡文字圖像的深度學(xué)習(xí)模型,以提高手寫秦簡字符識別準(zhǔn)確率,具有重要的理論與實(shí)際意義。
學(xué)者針對深度學(xué)習(xí)模型提出了大量的改善算法,并在不同場景下進(jìn)行了驗(yàn)證。ZHANG等[10]提出了一種基于小樣本量的滿文文本識別技術(shù),利用深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本識別,使用滑動窗口代替人工分割,滿文文本的識別準(zhǔn)確率達(dá)到98.84%。仁青東主等[11]利用CRNN+CTC 算法實(shí)現(xiàn)了對自然場景下的藏文字符識別,提升了藏文字符的識別效果,識別準(zhǔn)確率達(dá)93.24%。RAHMATI等[12]提出了一種基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的波斯語文字識別算法,通過對模型參數(shù)優(yōu)化調(diào)整,在字母級的文字識別準(zhǔn)確率平均值達(dá)99.69%。AlexNet網(wǎng)絡(luò)模型由于能解決過擬合問題,并且可以利用多GPU 加速計(jì)算,因此,在目標(biāo)分類識別領(lǐng)域也得到了應(yīng)用。李江等[13]針對彈道椎體目標(biāo)分類問題,提出了AlexNet網(wǎng)絡(luò)融合長短期記憶網(wǎng)絡(luò)的模型結(jié)構(gòu),實(shí)現(xiàn)了對于彈道椎體目標(biāo)的微動時(shí)頻圖智能分類;郭敏鋼等[14]對AlexNet網(wǎng)絡(luò)的歸一化、優(yōu)化器和激活函數(shù)3個(gè)方面進(jìn)行改進(jìn),提升了AlexNet模型的訓(xùn)練收斂速度和識別準(zhǔn)確率,在MNIST 數(shù)據(jù)集上的識別準(zhǔn)確率達(dá)到了98.78%;ZHANG等[15]針對于訓(xùn)練樣本量不足的問題,提出一種基于AlexNet網(wǎng)絡(luò)的自動調(diào)制分類方法,實(shí)現(xiàn)了對于星座樣本數(shù)據(jù)的擴(kuò)充,并將分類準(zhǔn)確率提高到90.5%;鐘桂鳳等[16]通過在AlexNet-2 網(wǎng)絡(luò)中融入注意力機(jī)制,并使用Word2Vec 對文本詞特征進(jìn)行嵌入表示和詞向量訓(xùn)練,提升了文本分類的性能和運(yùn)行效率,其在20NG 數(shù)據(jù)集上的微觀F1測度與宏觀F1測度分別達(dá)到了85.1%和83.2%。然而,傳統(tǒng)的AlexNet網(wǎng)絡(luò)模型架構(gòu)較為復(fù)雜以及參數(shù)量過多過大,導(dǎo)致無法在樣本量較少的小型數(shù)據(jù)集上取得滿意的性能評估結(jié)果。因此,在提升文字識別準(zhǔn)確率的同時(shí),應(yīng)探究AlexNet模型的輕量化改進(jìn)方法,使其能夠在小型數(shù)據(jù)集上的性能較好。
在秦簡文字研究方面,陶珩等[17]針對湘西里耶古鎮(zhèn)出土的秦簡文字進(jìn)行了文字檢測方面研究,通過計(jì)算最穩(wěn)定極值區(qū)域以及非極大值抑制操作,實(shí)現(xiàn)了對秦簡圖像的文本區(qū)域檢測,但并未對秦簡文字識別方面進(jìn)行深入研究。吳崢[18]采用K-最近鄰(K-nearest neighbor,KNN)分類算法實(shí)現(xiàn)了秦簡文字圖像識別,識別準(zhǔn)確率達(dá)到了70.53%。為了提高秦簡文字識別準(zhǔn)確率,本文將在AlexNet網(wǎng)絡(luò)模型的基礎(chǔ)之上進(jìn)行系列改進(jìn),提出一種融合Inception V3 模塊的秦簡文字圖像識別方法,該方法與傳統(tǒng)深度學(xué)習(xí)方法相比較,能有效提升對手寫體古文字符的識別性能,并在自建的秦簡單字?jǐn)?shù)據(jù)集(Qin bamboo slips text dataset,QBS text dataset)上進(jìn)行文字圖像識別時(shí),取得了較好的效果,平均識別準(zhǔn)確率達(dá)99.89%,為后續(xù)秦簡文字識別研究提供了思路與方法,豐富了手寫體古文字符識別的研究領(lǐng)域。
AlexNet 是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的深度學(xué)習(xí)模型。其最大優(yōu)勢體現(xiàn)在將模型部署在GPU 上進(jìn)行訓(xùn)練,對比用CPU 進(jìn)行訓(xùn)練時(shí)提升了模型的加速訓(xùn)練能力,由于采用計(jì)算復(fù)雜度更低的ReLU函數(shù)作為模型的激活函數(shù),并在全連接層添加Dropout層隨機(jī)移除神經(jīng)網(wǎng)絡(luò)訓(xùn)練元,消除了因模型參數(shù)過大而訓(xùn)練樣本較少時(shí)出現(xiàn)的過擬合現(xiàn)象。另外,該網(wǎng)絡(luò)由于構(gòu)建了批量標(biāo)準(zhǔn)化層,減少了奇異訓(xùn)練樣本造成的模型梯度彌散問題,大大提升了網(wǎng)絡(luò)的泛化能力,從而實(shí)現(xiàn)了輸入數(shù)據(jù)的分類識別功能。
傳統(tǒng)的AlexNet 網(wǎng)絡(luò)模型包括1 個(gè)輸入層、5個(gè)卷積層、3 個(gè)池化層、2 個(gè)全連接層與1 個(gè)輸出層,模型結(jié)構(gòu)如圖1所示,其中,s為卷積的步長,采用的卷積方式統(tǒng)一為same卷積。AlexNet模型在對文字進(jìn)行識別通過多個(gè)卷積層的“卷積—激活—池化—?dú)w一化”操作,提取到文本區(qū)域的特征圖,進(jìn)而送入全連接層并調(diào)用分類器,計(jì)算輸入圖像屬于某字符類別的概率,最終實(shí)現(xiàn)文字圖像識別。
圖1 傳統(tǒng)AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)與參數(shù)Fig.1 Traditional AlexNet network model structure and parameters
Inception模塊[19]的核心思想是將輸入的圖像特征分配在多個(gè)不同卷積層進(jìn)行卷積,并將多個(gè)卷積結(jié)果合并。通過多個(gè)卷積層并行卷積操作,然后將得到的特征提取結(jié)果連接起來,形成一個(gè)深層次的矩陣。在保持原模型結(jié)構(gòu)稀疏性的同時(shí),又利用密集矩陣的高計(jì)算性能,提升了模型識別準(zhǔn)確率的同時(shí)避免了過擬合現(xiàn)象。
Inception V3 模塊創(chuàng)新性地引入了分解卷積的概念,替換了在卷積層中一層接一層的傳統(tǒng)特征提取操作,把大卷積因式分解成小卷積和非對稱卷積,在保持感受野不變的條件下,減少整體模型中參數(shù)的計(jì)算量。此外,在最大池化下采樣的過程中計(jì)算輸入值的卷積結(jié)果和池化結(jié)果,并將兩者用concat( )方式進(jìn)行數(shù)組合并,在減少計(jì)算量的同時(shí)降低了信息特征提取的損失量。
Inception V3 模塊共有6 種網(wǎng)絡(luò)結(jié)構(gòu)分支,為符合改進(jìn)后的AlexNet網(wǎng)絡(luò)模型屬于輕量級網(wǎng)絡(luò)的要求,本文根據(jù)輸入的秦簡文字圖像尺寸以及輸入輸出通道數(shù)等參數(shù),選用InceptionA 與InceptionC 這2 種輕量級模塊作為模型改進(jìn)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)(見圖2和圖3)。
圖2 InceptionA網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of InceptionA network
圖3 InceptionC網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of InceptionC network
秦簡單文字圖像相較于文本區(qū)域內(nèi)多文字的圖像,其文本特征較易提取,但傳統(tǒng)的AlexNet網(wǎng)絡(luò)模型復(fù)雜度較高,難免提高了非必要的訓(xùn)練成本。因此,本文作者根據(jù)秦簡文字圖像特征,將原始AlexNet模型的5層卷積層簡化為4層卷積層,通過減少深度以降低模型復(fù)雜度,并添加1層池化層,設(shè)計(jì)成4 層卷積層與4 個(gè)池化層的順序連接。在參數(shù)調(diào)整上,將輸入圖像設(shè)置為224 像素×224像素×1像素,第1個(gè)卷積層設(shè)計(jì)了11像素×11像素的卷積核,在第2卷積層設(shè)計(jì)了5像素×5像素的卷積核,在第3、4 個(gè)卷積層設(shè)計(jì)了3 像素×3 像素的卷積核來提取局部圖像特征,將池化層的池化設(shè)置為2 像素×2 像素,并根據(jù)獲得的神經(jīng)元數(shù)量添加了一層全連接層,最終實(shí)現(xiàn)輕量級網(wǎng)絡(luò)的搭建。圖4所示為本文改進(jìn)過后的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)。
圖4 改進(jìn)后的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of improved AlexNet network
Inception V3 共有6 種網(wǎng)絡(luò)結(jié)構(gòu)分支,本文的秦簡文字識別模型在卷積層融入其中的2種分支結(jié)構(gòu),在前2 層卷積層分別融入InceptionA 和InceptionC結(jié)構(gòu),以分解卷積的形式代替?zhèn)鹘y(tǒng)卷積進(jìn)行特征提取,減少網(wǎng)絡(luò)計(jì)算成本,提升模型識別準(zhǔn)確率。
結(jié)合秦簡圖像文本區(qū)域內(nèi)文字為單個(gè)文字,進(jìn)而筆劃特征較易提取的特點(diǎn),在InceptionA結(jié)構(gòu)中,本文分別選用5 像素×5 像素、3 像素×3 像素、1像素×1像素,3種不同尺度的卷積核代替初始的11 像素×11 像素的卷積核進(jìn)行多通道的特征提取,并計(jì)算輸入值的池化結(jié)果,最后將各通道進(jìn)行融合。其模塊的參數(shù)量及計(jì)算量變化如表1所示。其中,C為特征圖的輸入通道數(shù),W為特征圖的寬度,H為特征圖的高度。使用1 個(gè)5 像素×5 像素、2 個(gè)3 像素×3 像素和3 個(gè)1 像素×1 像素的卷積核代替11 像素×1 像素1 的卷積核作為分解卷積,可使參數(shù)量和計(jì)算量從121 個(gè)單元下降至46 個(gè)單元。其具體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)圖如表2所示。輸出通道數(shù)cout的計(jì)算公式如下:
表1 IncepionA結(jié)構(gòu)的參數(shù)及計(jì)算量變化Table 1 Variation of parameters and computation of InceptionA structure
表2 InceptionA網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 2 InceptionA network structure parameters
式中:cin為輸入的特征圖像素;p為特征圖的填充圈數(shù);f×f為每層所使用的卷積核尺寸。
在InceptionC 結(jié)構(gòu)中,保持底層3 個(gè)1 像素×1像素卷積核不變的基礎(chǔ)上,使用3組1像素×7像素和7 像素×1 像素的卷積核進(jìn)行分解卷積,并且根據(jù)新輸入層的特征圖數(shù)量,將結(jié)構(gòu)內(nèi)的通道數(shù)增加至96,其模塊的參數(shù)量及計(jì)算量變化如表3所示。
表3 IncepionC結(jié)構(gòu)的參數(shù)及計(jì)算量變化Table 3 Variation of parameters and computation of InceptionC structure
由表3可知:使用3組1像素×7像素和7像素×1像素的卷積核代替5像素×5像素卷積核進(jìn)行分解卷積時(shí),可使參數(shù)量和計(jì)算量從25 個(gè)單元下降至21個(gè)單元。其具體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表4所示。結(jié)果表明采用融合Inception V3 模塊策略可以有效降低模型復(fù)雜度。
表4 InceptionC網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 4 InceptionC network structure parameters
秦簡文字圖像識別算法模型結(jié)構(gòu)與參數(shù)調(diào)整分別如圖5 與表5所示,以AlexNet 模型為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),通過在卷積層融合Inception V3 模塊實(shí)現(xiàn)秦簡文字圖像識別。具體步驟如下:
表5 秦簡文字圖像識別網(wǎng)絡(luò)模型參數(shù)Table 5 Qin bamboo slips text image recognition network model parameters
圖5 秦簡文字圖像識別網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of Qin bamboo slips text image recognition network
1)對使用的數(shù)據(jù)集中的秦簡文字圖像進(jìn)行預(yù)處理操作,包括尺寸歸一化、增強(qiáng)去噪、二值化和編碼轉(zhuǎn)換等,得到1幅224像素×224像素的單通道二值化圖像,以此作為原始圖像的輸入。
2)對AlexNet 網(wǎng)絡(luò)模型進(jìn)行改進(jìn),構(gòu)造4 層卷積層與池化層的順序連接,并根據(jù)獲取的神經(jīng)元數(shù)量添加1層全連接層,構(gòu)建3層全連接層將特征空間更好映射到樣本標(biāo)記空間。
3)在前2層卷積層進(jìn)行特征提取時(shí),分別融入Inception V3 模塊中的InceptionA 與InceptionC 結(jié)構(gòu),以分解卷積的形式代替?zhèn)鹘y(tǒng)卷積形式,降低模型權(quán)重和提高模型識別精度,以降低識別誤差率,并通過池化層降低維度來提升模型容錯(cuò)率。
4)將經(jīng)過特征提取處理過的特征圖像送入全連接層,調(diào)用Softmax分類器,計(jì)算輸入圖像屬于某字符類別的概率,最終實(shí)現(xiàn)秦簡文字圖像識別。
國內(nèi)外目前尚未有標(biāo)準(zhǔn)統(tǒng)一的秦簡文字圖像訓(xùn)練與測試數(shù)據(jù)集,本文參考文獻(xiàn)[20]中對于西夏文字單字符樣本數(shù)據(jù)集的設(shè)計(jì)方案,完成了對秦簡文字單字符樣本數(shù)據(jù)集的制作。秦簡圖像數(shù)據(jù)主要來源于《里耶秦簡壹》《里耶秦簡貳》以及《秦簡牘合集》,具體制作方法如下。
1)截取圖片。將書籍中秦簡圖片進(jìn)行掃描制作成電子文檔,對掃描圖像中的文字區(qū)域進(jìn)行單個(gè)截取。
2)按測試要求分類。根據(jù)清晰度與測試需求分為模糊圖像樣本庫、低信噪比圖像樣本庫與高信噪比圖像樣本庫。圖片分類標(biāo)準(zhǔn)參照信噪比(RSN)參數(shù)值設(shè)置,RSN<30 dB 歸為模糊樣本,30 dB≤RSN<50 dB歸為低信噪比樣本,RSN≥50 dB歸為高信噪比樣本。最終取得模糊樣本圖18 057幅,低信噪比樣本圖34 569幅,高信噪比樣本圖11 434幅。本文根據(jù)測試需求,選取高信噪比樣本庫中圖像進(jìn)行實(shí)驗(yàn)。
3)建立圖像-文釋對照關(guān)系。該對照關(guān)系可以準(zhǔn)確地檢索到圖像所對應(yīng)的書籍出處位置,在圖像文件的命名規(guī)則上采取了歸一化處理,格式統(tǒng)一為:“Unearthed landN_page_Num_num.jpg”,其中Unearthed landN 代表該秦簡書籍上所標(biāo)注的出土地來源,該書籍的頁編號用page_Num表示,在該頁上所截取的字符編號用num 表示。統(tǒng)一了圖像與文釋對照關(guān)系后,就可以建立每幅文字圖像與書籍出處的聯(lián)系,再按照歸一化后的文件命名便可以迅速、準(zhǔn)確地找到圖像來源。
4)劃分測試集和訓(xùn)練集。在整理的高信噪比秦簡文字圖像中,共有1 131個(gè)字符類別,本實(shí)驗(yàn)選取其中可釋義且樣本數(shù)量相對較多的50 個(gè)類別的字符進(jìn)行測試,每個(gè)類別訓(xùn)練集和測試集的劃分比例為4∶1。
本文采用自制的秦簡文字圖像數(shù)據(jù)集(QBS text dataset)作為秦簡文字識別算法的訓(xùn)練和測試數(shù)據(jù),其中所有圖像均設(shè)置為224 像素×224 像素×3 像素,batch size 為100。本次實(shí)驗(yàn)中使用的編譯語言為Python3.7,網(wǎng)絡(luò)模型基于Pytorch 深度學(xué)習(xí)框架建立,并將網(wǎng)絡(luò)模型加載至GPU 上進(jìn)行,服務(wù)器顯卡型號為RTX3070。
對選取的50 個(gè)類別的字符樣本數(shù)量進(jìn)行歸一化處理,將較少的字符樣本做數(shù)據(jù)增廣,包括隨機(jī)翻轉(zhuǎn)、等比例縮放和HSV 變換等,使最終的樣本量總數(shù)達(dá)到149 713。按照4∶1的比例劃分出訓(xùn)練集和測試集,訓(xùn)練集有119 770個(gè)樣本,測試集有29 943個(gè)樣本。所有圖像經(jīng)過標(biāo)準(zhǔn)化處理,縮放范圍為[-1,1],實(shí)現(xiàn)字符樣本分類識別。
在本文構(gòu)建的秦簡文字圖像識別模型中,在4層卷積層中分別選取11像素×11像素、5像素×5像素、3像素×3像素和3像素×3像素的卷積核,最大池化層的池化尺寸設(shè)置為2 像素×2 像素,激活函數(shù)采用ReLU函數(shù)。初始學(xué)習(xí)率設(shè)置為0.01,每隔10 輪訓(xùn)練其學(xué)習(xí)率調(diào)整為原先的0.5,“batch size”設(shè)置為100,“epoch”設(shè)置為50,并在全連接層使用Dropout層防止出現(xiàn)過擬合現(xiàn)象,對應(yīng)參數(shù)設(shè)置為0.5。
實(shí)驗(yàn)主要包括2 個(gè)部分:其一測試在AlexNet模型當(dāng)中使用Inception V3 模塊與不使用時(shí)的仿真結(jié)果對比;其二測試改進(jìn)后的AlexNet模型與其他圖像識別算法對于秦簡文字圖像的識別效果。
模型采用softmax 層作為訓(xùn)練的分類器,因此選用softmax 函數(shù)的多分類交叉熵作為模型的計(jì)算識別損失函數(shù)可以保證模型的內(nèi)聚性,進(jìn)而判定模型預(yù)測值與真實(shí)值的偏差程度。原始的交叉熵?fù)p失函數(shù)公式如下:
式中:L為訓(xùn)練損失;k為批量訓(xùn)練樣本大小;n為樣本類別數(shù);yi,j為第i個(gè)樣本在第j類上的真實(shí)值;pi,j為第i個(gè)樣本對第j類的預(yù)測值。本文構(gòu)建的秦簡識別模型為多分類模型,因此,交叉熵可以簡化為它們的求和平均,公式如下:
式中:Y(i)為第i個(gè)樣本所屬的類別;pi,Y(i)為第i個(gè)樣本在所屬類別上的預(yù)測概率。使用softmax 函數(shù)將識別模型全連接層的輸出結(jié)果控制在[0,1]的概率范圍內(nèi),softmax函數(shù)如下:
式中:pi,j為第i個(gè)樣本對第j類的預(yù)測概率;li,j為全連接層對第i個(gè)樣本在第j類的輸出結(jié)果。因此,最終本文的秦簡文字識別模型所使用的softmax loss整理后公式如下:
式中:li,Y(i)為全連接層對第i個(gè)樣本在所屬類別上的預(yù)測結(jié)果。
本文選取4種評估圖像識別算法模型優(yōu)劣的性能指標(biāo),分別為準(zhǔn)確率(RAccuracy)、精確率(RPrecision)、召回率(RRecall)和F,計(jì)算公式如下:
式中:Tp、Fp、FN和TN分別為真實(shí)的正值、錯(cuò)誤的正值、錯(cuò)誤的負(fù)值和真實(shí)的負(fù)值。準(zhǔn)確率是評估分類正確樣本數(shù)量占總樣本數(shù)量的比例,精確率是評估被模型正確分類到某個(gè)類別中的比例,召回率是評估屬于某類別的查全比例,F(xiàn)為精確率和召回率的加權(quán)調(diào)和平均值。為了減小某些異常實(shí)驗(yàn)的影響,整個(gè)實(shí)驗(yàn)結(jié)果為50 次圖像識別結(jié)果的平均值。同時(shí)為測試模型的輕量化效果,對模型的平均識別耗時(shí)、參數(shù)量以及模型大小同時(shí)進(jìn)行測試。
本文首先對在AlexNet 模型的前2 層卷積層中融合的Inception V3 模塊做消融實(shí)驗(yàn)測試,前2 層卷積層中感受野分別設(shè)置為9 像素×9 像素與5 像素×5 像素,在此條件下分別測試了R1(不含Inception V3 模塊)、R2(只融合InceptionA 結(jié)構(gòu))、R3( 只融合InceptionC 結(jié)構(gòu))和R4( 同時(shí)融合InceptionA與InceptionC結(jié)構(gòu))的識別準(zhǔn)確率與損失值。圖6 和圖7所示分別為驗(yàn)證集上4 個(gè)消融實(shí)驗(yàn)的仿真對比。R4實(shí)驗(yàn)下秦簡文字圖像的識別效果如圖8所示,實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表6所示。
表6 不同Inception V3模塊在驗(yàn)證集上測試結(jié)果的均值Table 6 Mean values of test results on validation sets for different Inception V3 modules
圖6 消融條件下的損失值對比Fig.6 Comparison of loss values at ablation conditions
圖7 消融條件下的識別準(zhǔn)確率對比Fig.7 Comparison of recognition accuracy at ablationconditions
圖8 R4模型下的秦簡文字圖像識別效果Fig.8 Recognition effect of Qin bamboo slips text image based on R4 model
由仿真對比結(jié)果可知,在沒有融入Inception V3模塊的R1模型中,在50 次迭代訓(xùn)練中訓(xùn)練集和測試集的損失值收斂性效果不佳,并且在30 次迭代后準(zhǔn)確率才達(dá)到較好的效果,測試集中準(zhǔn)確率最高時(shí)為99.12%;在R2模型中,第20次迭代訓(xùn)練時(shí)模型的損失值和準(zhǔn)確率已取得較好的收斂性效果,準(zhǔn)確率最高時(shí)為99.68%,但訓(xùn)練集上最初的損失值比R1模型的略高;R3模型與R2模型的仿真結(jié)果相似,均在第20 次迭代訓(xùn)練時(shí)便達(dá)到較好的收斂效果,但相較于R2模型,其初始的損失值明顯降低,準(zhǔn)確率最高時(shí)為99.80%;在R4模型中,第10次迭代訓(xùn)練時(shí)便取得了理想的收斂效果,且最高時(shí)的準(zhǔn)確率達(dá)到了99.89%,相較于前3種對比模型,分別提高了0.77%、0.21%與0.08%,最優(yōu)時(shí)的損失值分別降低了0.026 6、0.011 1與0.004 6。同時(shí)在R4模型下進(jìn)行測試的50 幅秦簡文字圖像中,有49 幅圖像的預(yù)測字符類別值與真實(shí)值相符。在驗(yàn)證模型的輕量化效果上,R4模型的平均識別耗時(shí)為635 ms,較于最長耗時(shí)的R1模型提升了24 ms,但受模塊數(shù)影響,耗時(shí)仍比R2與R3模型分別高9 ms 和7 ms,不過識別準(zhǔn)確率仍為四者中最優(yōu);參數(shù)量與模型大小方面,R4模型相較R1模型均有大幅度的下降,但為保證達(dá)到最優(yōu)識別準(zhǔn)確率,并未做進(jìn)一步輕量化處理,因此,相較R2與R3模型,R4模型的權(quán)重和復(fù)雜度略高。
為了進(jìn)一步評估本文改進(jìn)后AlexNet模型的性能,因此選取文獻(xiàn)[4-8]、[21-25]共10種經(jīng)典識別網(wǎng)絡(luò)模型算法與本文算法進(jìn)行對比。為了減少某些異常實(shí)驗(yàn)的影響,整個(gè)實(shí)驗(yàn)結(jié)果為50 次圖像識別結(jié)果的平均值。圖9所示為各個(gè)模型之間損失函數(shù)值的對比,表7所示為各個(gè)算法之間評估指標(biāo)的對比結(jié)果。
表7 不同模型下文字識別網(wǎng)絡(luò)評估指標(biāo)結(jié)果對比Table 7 Comparison of evaluation index results of word recognition network under different models
圖9 不同模型的損失函數(shù)值結(jié)果對比Fig.9 Comparison of loss function values of differentmodels
由圖9可知:本文方法在損失函數(shù)值上達(dá)到了10 種對比模型的最優(yōu)值,相較于次優(yōu)的文獻(xiàn)[5]方法中的損失值降低了0.245 5。由表7可知:在4項(xiàng)識別評估指標(biāo)對比中,本文方法的3項(xiàng)指標(biāo)達(dá)到了最優(yōu)。在準(zhǔn)確率、精確率和F上相較于次優(yōu)的文獻(xiàn)[23]方法分別提升了0.03%、0.08%和0.02%,在召回率上相較于最優(yōu)的文獻(xiàn)[22]方法相差0.03%。相比于文獻(xiàn)[4,21,23,25],本文方法的各項(xiàng)識別指標(biāo)均有較大提升。綜合考慮,本文方法在對高信噪比的秦簡文字圖像進(jìn)行識別時(shí)相較于其他對比模型可以取得較好的仿真效果。
1)自建秦簡文字圖像數(shù)據(jù)集(qbs text dataset)。
2)以高信噪比秦簡文字圖像為研究對象,對AlexNet 網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了一種基于輕量級AlexNet網(wǎng)絡(luò)的秦簡文字識別算法。
3)模型在具備輕量化特點(diǎn)的同時(shí)達(dá)到對高信噪比文字圖像的高識別準(zhǔn)確率,驗(yàn)證了本文方法的有效性。
4)模型對于低信噪比及模糊的秦簡文字樣本圖像識別效果不佳,其泛化能力一般,具體表現(xiàn)在模型在對模糊秦簡文字樣圖像進(jìn)行特征提取時(shí),獲取到的特征圖質(zhì)量較差,因此,最終預(yù)測值與真實(shí)值的偏差較大。
5)研究相應(yīng)特征提取方法以進(jìn)一步優(yōu)化模型,提高其泛化能力,這將是下一步擬研究的方向與內(nèi)容。