向本華,王 徽
(遼寧工程技術(shù)大學(xué),遼寧 葫蘆島 125105)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的重要算法之一,在深度學(xué)習(xí)中起著重要作用。CNN 模型主要包括輸入層、卷積層、池化層、全連接層和輸出層。為了提取的特征更加豐富,網(wǎng)絡(luò)模型通常由一個(gè)或多個(gè)卷積層、池化層以及全連接層構(gòu)成。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型 有LeNet-5、AlexNet、VGG、GoogleNet、ResNet以及DenseNet 等,但每個(gè)模型都有獨(dú)特的優(yōu)點(diǎn)與缺點(diǎn)[1]。隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類問題比基于傳統(tǒng)的“預(yù)處理+特征提取+分類器”的方法識(shí)別效果更加良好,得到了廣泛應(yīng)用[2]。在計(jì)算機(jī)視覺、自然語言處理、醫(yī)療圖像處理、人臉識(shí)別、物體檢測以及手寫體文字識(shí)別等領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)取得了突破性進(jìn)展[3],并在手寫體識(shí)別應(yīng)用中更為突出,主要應(yīng)用于手寫體數(shù)字識(shí)別[4-6]、手寫體漢字識(shí)別[7-9]以及手寫體字母識(shí)別[10],同時(shí)在識(shí)別少數(shù)民族語言中獲得了良好的應(yīng)用。周毛克等人提出的基于卷積神經(jīng)網(wǎng)絡(luò)的藏文手寫數(shù)字和字母識(shí)別研究[11],取得了良好的識(shí)別效果。閆茹等人提出的基于CNN 與有限狀態(tài)自動(dòng)機(jī)的手寫體大寫金額識(shí)別[12],解決了手寫票據(jù)的識(shí)別問題;柳霄羽等人提出的基于CNN 手寫識(shí)別技術(shù)的智能作業(yè)批閱軟件的設(shè)計(jì)與開發(fā)[13],將卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于作業(yè)的批閱,解決了智能化作業(yè)批閱的問題。在這些方面,卷積神經(jīng)網(wǎng)絡(luò)都取得了良好的應(yīng)用效果,而在手寫希臘字母識(shí)別方面還未發(fā)現(xiàn)相關(guān)的應(yīng)用研究。在手寫體識(shí)別中,由于數(shù)據(jù)采集方式不同,可分為脫機(jī)手寫體希臘字母識(shí)別和聯(lián)機(jī)手寫體希臘字母識(shí)別。因識(shí)別對(duì)象不同,所采用的識(shí)別方法也不相同。一般來說,脫機(jī)手寫體識(shí)別比聯(lián)機(jī)手寫體識(shí)別更加困難。本文主要研究脫機(jī)手寫體識(shí)別。
希臘字母被廣泛用于數(shù)學(xué)、物理、科學(xué)、工程學(xué)和其他方面,通常被用為數(shù)學(xué)公式中的變量。希臘字母手寫體可分為數(shù)學(xué)體與希臘體。數(shù)學(xué)體指用于數(shù)學(xué)等學(xué)科中的希臘字母。希臘體指在希臘語中書寫的字母形式。該兩種手寫體形式通常都不一樣。由于數(shù)學(xué)等學(xué)科中的希臘字母一般是單獨(dú)存在的,而在希臘語中書寫的希臘字母是多個(gè)相連,且兩種手寫體中希臘字母的字形也有很大區(qū)別。因此,為了解決實(shí)際問題,本文主要研究識(shí)別數(shù)學(xué)等學(xué)科中的手寫希臘字母。
本文組織結(jié)構(gòu)如下:第1 章節(jié)說明數(shù)據(jù)采集的過程及其預(yù)處理;第2 章節(jié)介紹AlexNet 模型;第3 章節(jié)進(jìn)行實(shí)驗(yàn)和結(jié)果分析;第4 章節(jié)總結(jié)全文,并對(duì)未來研究進(jìn)行展望。
在數(shù)據(jù)集采集和制作過程中,為了保證采集到的樣本有效,采用白紙來分別書寫大寫和小寫希臘字母。為了保證數(shù)據(jù)的多樣性,收集由60 余名學(xué)生書寫的樣本數(shù)據(jù)共170 余例,經(jīng)篩選后得150 余例有效數(shù)據(jù),并將其裁剪后進(jìn)行數(shù)據(jù)標(biāo)注,分別得到24 個(gè)大寫希臘字母和24 個(gè)小寫希臘字母。部分?jǐn)?shù)據(jù)樣本示例如圖1 所示。由于希臘字母中有一些大寫和小寫希臘字母的手寫體相似度極高,如Θ和θ、Κ 和κ、P 和ρ等,為了獲得更好的識(shí)別效果,將其分為兩個(gè)24 類分別進(jìn)行訓(xùn)練和測試。
圖1 數(shù)據(jù)樣本示例
由于卷積神經(jīng)網(wǎng)絡(luò)涉及大量參數(shù),需要大量的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)模型。為了防止訓(xùn)練的模型發(fā)生過擬合,能夠更好地提取特征,提高模型的泛化能力和魯棒性,得到最佳模型,需要更加豐富的數(shù)據(jù)集。所以,采取數(shù)據(jù)增強(qiáng)的方法來擴(kuò)充數(shù)據(jù)集。數(shù)據(jù)增強(qiáng)的方法包括對(duì)圖像進(jìn)行幾何變換(平移、翻轉(zhuǎn)、旋轉(zhuǎn)、縮放)、調(diào)整亮度、調(diào)整對(duì)比度以及調(diào)整銳度等??紤]到手寫體希臘字母的特點(diǎn),本文采取亮度增強(qiáng)、對(duì)比度增強(qiáng)、增加銳度以及調(diào)整色度4 種方法來擴(kuò)充數(shù)據(jù)集,將大小寫希臘字母每一類數(shù)據(jù)都擴(kuò)充到625 例,再將其按8:2 隨機(jī)劃分為訓(xùn)練集和測試集。大寫和小寫數(shù)據(jù)集數(shù)量信息都相同,詳見表1。
針對(duì)希臘字母的手寫形式多變且較為復(fù)雜的情況,本文采用AlexNet 來對(duì)手寫希臘字母進(jìn)行識(shí)別研究。AlexNet 模型在2012 年被提出,是卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型之一,也是LeNet 的一種更深更寬的改進(jìn)模型。網(wǎng)絡(luò)結(jié)構(gòu)共分為8 層,前5 層是卷積層,后3 層是全連接層,如圖2 所示,具體層結(jié)構(gòu)如圖3 所示。AlexNet 的提出對(duì)卷積神經(jīng)網(wǎng)絡(luò)有著重大意義,具有以下優(yōu)點(diǎn)。首先,它使用了ReLU 函數(shù)作為CNN 的非線性激活函數(shù),代替了Sigmoid 和tanh 函數(shù),不僅加快了梯度下降,也減小了梯度消失和梯度爆炸的問題。其次,在全連接層中增加了Dropout 層,避免了模型的過擬合,提高了模型的泛化能力。再次,使用重疊最大池化,使得池化層單元網(wǎng)格之間有重疊區(qū)域,提高了特征精度,一定程度上也避免了過擬合問題。最后,使用局部響應(yīng)歸一化層,使得神經(jīng)元之間產(chǎn)生競爭關(guān)系并產(chǎn)生正反饋,從而響應(yīng)值較大的變得更大,響應(yīng)值較小的變得更小,同時(shí)增強(qiáng)了模型的泛化能力。
表1 大小寫希臘字母數(shù)據(jù)集
圖2 AlexNet 模型網(wǎng)絡(luò)結(jié)構(gòu)
圖3 層結(jié)構(gòu)示意
卷積層的主要作用是進(jìn)行特征提取。卷積層內(nèi)每個(gè)神經(jīng)元都與前一層中鄰近區(qū)域的幾個(gè)神經(jīng)元相連,將該區(qū)域與過濾器進(jìn)行卷積運(yùn)算,然后按步長移動(dòng)到下一個(gè)區(qū)域繼續(xù)卷積運(yùn)算。重復(fù)此過程,最后得到卷積后的結(jié)果。區(qū)域的大小由卷積核的大小決定。該模型各卷積核的大小如圖3 所示。
由卷積核的相關(guān)運(yùn)算可知,隨著卷積操作增多,特征圖的尺寸會(huì)逐步減小。為了避免圖像變得很小,在卷積操作之前可以使用填充,并因此將卷積分為valid 卷積(即無填充)和same 卷積(即填充后輸出的圖像大小和輸入的大小一樣)。AlexNet 模型第一層卷積層使用valid 卷積,后4 層卷積層都使用same 卷積。單層卷積具體特征映射[4]如下:
式中:ajL表示L層卷積后第j個(gè)神經(jīng)元的輸出;ωijL表示卷積核;bjL表示偏置。f(·)為神經(jīng)元激活函數(shù),這里采用ReLU 函數(shù),即:
池化層的主要作用是減小模型的尺寸,提高計(jì)算速度,同時(shí)提高模型的魯棒性。池化層可分為最大池化層和平均池化層。該模型采用最大池化,即取區(qū)域中值最大的像素點(diǎn)代表整個(gè)區(qū)域。池化層通常跟隨在卷積層之后,將卷積后的輸出作為輸入,根據(jù)池化的大小和步長,對(duì)區(qū)域里的像素點(diǎn)進(jìn)行最大池化,最后得到輸出結(jié)果傳給下一層。池化層選取區(qū)域的方式與卷積層一樣,由池化大小和步長共同決定。該模型池化層大小和步長如圖3 所示。
全連接層起到了分類器的作用。它的每個(gè)神經(jīng)元都與前一層中的全部神經(jīng)元完全相連,因此通常參數(shù)最多。全連接層可以將卷積層或池化層的局部信息整合起來,避免因特征所在位置的不同而導(dǎo)致對(duì)分類結(jié)果產(chǎn)生影響。
基于AlexNet 的手寫希臘字母識(shí)別過程的主要步驟如下。
步驟1:將采集到的數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)增強(qiáng);
步驟2:將數(shù)據(jù)集按8:2 隨機(jī)分別劃分為訓(xùn)練集和測試集;
步驟3:將訓(xùn)練集圖片進(jìn)行歸一化處理后送入AlexNet 進(jìn)行特征提?。?/p>
步驟4:模型訓(xùn)練完成后,將測試集傳入訓(xùn)練好的模型進(jìn)行預(yù)測,得到識(shí)別準(zhǔn)確率。
將學(xué)習(xí)率設(shè)置為0.000 1,迭代次數(shù)初始值設(shè)置為200,然后將大小寫手寫希臘字母分別進(jìn)行模型訓(xùn)練。在模型訓(xùn)練中,當(dāng)損失函數(shù)收斂后,停止模型訓(xùn)練過程。此時(shí),迭代次數(shù)為20,得到訓(xùn)練準(zhǔn)確率和損失值與迭代次數(shù)的關(guān)系曲線分別如圖4 和圖5 所示。由圖4 和圖5 可知,兩個(gè)網(wǎng)絡(luò)模型收斂速度幾乎相同且較快,訓(xùn)練出的模型良好。
圖4 大寫字母訓(xùn)練準(zhǔn)確率和損失值曲線
圖5 小寫字母訓(xùn)練準(zhǔn)確率和損失值曲線
將大小寫希臘字母的測試集分別對(duì)訓(xùn)練好的兩個(gè)模型進(jìn)行測試,總的測試效果如表2 所示。實(shí)驗(yàn)結(jié)果顯示,針對(duì)大寫希臘字母和小寫希臘字母的識(shí)別準(zhǔn)確率分別達(dá)到98.27%和96.07%,說明將AlexNet 應(yīng)用于手寫希臘字母的識(shí)別效果顯著,能夠非常有效地提取到手寫希臘字母的特征,證明了卷積神經(jīng)網(wǎng)絡(luò)在文字識(shí)別中的重要地位,具有一定的現(xiàn)實(shí)意義。
表2 手寫希臘字母識(shí)別測試結(jié)果統(tǒng)計(jì)表
由于希臘字母的書寫復(fù)雜程度不同,識(shí)別的準(zhǔn)確率也有所區(qū)別。為了更加詳細(xì)地說明識(shí)別的準(zhǔn)確率,分別對(duì)24 個(gè)大寫字母和小寫字母的每一類進(jìn)行測試和分析,測試結(jié)果分別如圖6 和圖7 所示。
圖6 大寫希臘字母識(shí)別準(zhǔn)確率
圖7 小寫希臘字母識(shí)別準(zhǔn)確率
根據(jù)結(jié)果顯示,各類希臘字母的識(shí)別效果有好有差。在大寫希臘字母中,類別9、21(Ι、Φ)的識(shí)別準(zhǔn)確率偏低,分別為0.872、0.912,其對(duì)應(yīng)錯(cuò)誤識(shí)別字母(占比)集合分別為{Γ(12.5%)、Κ(12.5%)、Ε(75%)}和{Ζ(45.45%)、Ο(54.55%)}。在小寫希臘字母識(shí)別中,類別6、13、23(ζ、ν、ψ)的準(zhǔn)確率較低,分別為0.872、0.792、0.800,其對(duì)應(yīng)錯(cuò)誤識(shí)別字母(占比)集合分別為{λ(6.25%)、ξ(6.25%)、χ(25%)、τ(62.5%)}和{θ(3.85%)、υ(96.15%)}和{φ(4%)、υ(4%)、ν(12%)、χ(80%)}。錯(cuò)誤識(shí)別信息見表3。由結(jié)果顯示得,有些希臘字母的手寫體極為相似(如ψ和χ、ν和υ),或因書寫難度較大(如ζ、ξ)而導(dǎo)致書寫不準(zhǔn)確,或因書寫不當(dāng)而導(dǎo)致某些希臘字母識(shí)別效果較低。相似度大或書寫較難的數(shù)據(jù)樣本,如圖8 所示。因本文采用的數(shù)據(jù)集來源于自己采集,所以樣本數(shù)據(jù)的噪聲較少,樣本的多樣性還有待提高,需進(jìn)一步改進(jìn)數(shù)據(jù)集來訓(xùn)練更好的網(wǎng)絡(luò)模型。
表3 錯(cuò)誤識(shí)別信息
圖8 相似度大或書寫難數(shù)據(jù)樣本
本文提出使用AlexNet 來對(duì)手寫希臘字母進(jìn)行識(shí)別,結(jié)果顯示識(shí)別準(zhǔn)確率較高,在研究領(lǐng)域具有深入研究的潛在價(jià)值。卷積神經(jīng)網(wǎng)絡(luò)在文字識(shí)別領(lǐng)域中已經(jīng)越來越重要,并取得了很好的成果。為了達(dá)到更好的識(shí)別效果,在后續(xù)研究中可以采集更加多樣化的數(shù)據(jù)來訓(xùn)練更優(yōu)的模型,或者對(duì)模型進(jìn)行優(yōu)化和改進(jìn)對(duì)數(shù)據(jù)的預(yù)處理方式來提升識(shí)別效果。為了解決卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測試的時(shí)間消耗較長的問題,可以與其他方法結(jié)合,進(jìn)一步提高識(shí)別的性能。