劉國柱,趙鵬程,于 超,王曉甜
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島266061)
卷積神經(jīng)網(wǎng)絡(luò)是一種典型的多層前饋人工神經(jīng)網(wǎng)絡(luò)。激活函數(shù)則是人工神經(jīng)網(wǎng)絡(luò)模型中不可缺少的重要組成部分。通常在大多數(shù)人工神經(jīng)網(wǎng)絡(luò)中所使用的激活函數(shù)多為Sigmoid、Ramp(ReLU)、Tanh等單調(diào)、非周期性的非線性函數(shù)。并且在多層卷積神經(jīng)網(wǎng)絡(luò)中,通常都會(huì)使用同一種激活函數(shù),而幾乎不會(huì)同時(shí)使用多種激活函數(shù)。大多數(shù)人并不認(rèn)可Sinusoid函數(shù)作為神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的能力,因?yàn)樗⒉粏握{(diào)。而早 在1987 年,LAPEDES 與FARBER 首 先 成 功地建立了使用Sinusoid函數(shù)作為激活函數(shù)的具有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)[1]。他們將此解釋為廣義的傅里葉分解。最近的一個(gè)研究工作中,GASHLER 和ASH MORE 在深度神經(jīng)網(wǎng)絡(luò)中使用了Sinusoid,Linear和ReLU 函數(shù)作為激活函數(shù)用于預(yù)測(cè)時(shí)間序列數(shù)據(jù)[2]。ALEXANDER、MAXIMILIAN 和ALEXANDER 在簡單進(jìn)化網(wǎng)絡(luò)(evolving parsimonious networks)中使用了混合激活函數(shù)[3]。而在卷積神經(jīng)網(wǎng)絡(luò)中使用Sinusoid函數(shù)作為激活函數(shù)進(jìn)行圖像分類任務(wù)以及在卷積神經(jīng)網(wǎng)絡(luò)中使用混合激活函數(shù)的有關(guān)工作尚缺乏。
本研究將Sinusoid(Sin)函數(shù)作為激活函數(shù)引入到多層卷積神經(jīng)網(wǎng)絡(luò)中,建立了一個(gè)使用混合激活函數(shù)的多層卷積神經(jīng)網(wǎng)絡(luò)模型,并在圖像分類任務(wù)中對(duì)其收斂速度和識(shí)別效果進(jìn)行了研究。另外,也將該模型同其他研究者所使用的一些圖像分類算法在分類效果上進(jìn)行了對(duì)比。
提出一個(gè)使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型。作為對(duì)照,在保持神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)不變的情況下,分別將每個(gè)神經(jīng)網(wǎng)絡(luò)中各單元所使用的激活函數(shù)替換為其他4種激活函數(shù)中的同一種函數(shù),建立其他4個(gè)神經(jīng)網(wǎng)絡(luò)模型。
對(duì)于使用任意有界、連續(xù)的非常數(shù)函數(shù)作為激活函數(shù)的標(biāo)準(zhǔn)多層前饋神經(jīng)網(wǎng)絡(luò)而言,HORNIK 的研究表明通用逼近理論[4]仍然適用。只要在輸出有界的情況下,這類網(wǎng)絡(luò)能夠以任意精度逼近任何實(shí)值連續(xù)函數(shù)[5-6]。
因此激活函數(shù)的具體選取,理論上不會(huì)影響神經(jīng)網(wǎng)絡(luò)的表達(dá)能力。
函數(shù)Sinusoid:f(x)=sin(x)為在實(shí)數(shù)域上連續(xù)有界的非常數(shù)函數(shù)。在多層卷積神網(wǎng)絡(luò)中使用Sinusoid激活函數(shù)是可行的。
基于相關(guān)工作和理論基礎(chǔ)[1-6],在構(gòu)建的5 個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中使用了4種激活函數(shù),如圖1所示,分別為Sinusoid:f(x)=Sin(x),Ramp:。
圖1 神經(jīng)網(wǎng)絡(luò)所使用的4種激活函數(shù):Sinusoid,Ramp,Sigmoid,TanhFig.1 Four activation functions used in neural networks:Sinusoid,Ramp,Sigmoid,Tanh
由LECUN 等[7]提出的Le Net-5是一種已經(jīng)被廣泛使用的經(jīng)典多層卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)原始結(jié)構(gòu)如圖2所示,不包括輸入層其總共有7層,其輸入數(shù)據(jù)為大小32×32×3的圖像。其第1層為卷積層,卷積核大小為5×5;第2層為池化層,采樣區(qū)域大小為2×2;第3層為卷積層,卷積核大小為5×5;第4層為池化層,采樣區(qū)域的大小為2×2;其他層為全連接層。該網(wǎng)絡(luò)在第1層與第2層之間、第3層與第4層之間和第5層與第6層之間全部使用Sigmoid激活函數(shù)。
S-S-R LeNet-5:以原始LeNet-5 為基本結(jié)構(gòu),如圖2所示,將其中第4、第9節(jié)點(diǎn)所使用激活替換為Sinusoid函數(shù),將第15節(jié)點(diǎn)替換為Ramp函數(shù)。
Ramp LeNet-5:以LeNet-5 為基本結(jié)構(gòu),將第4、第9和第15節(jié)點(diǎn)全部替換為Ramp函數(shù)。
Sinusoid LeNet-5:以Le Net-5 為基本結(jié)構(gòu),將第4、第9和第15節(jié)點(diǎn)全部替換為Sinusoid函數(shù)。
Tanh Le Net-5:以LeNet-5 為基本結(jié)構(gòu),將第4、第9和第15節(jié)點(diǎn)全部替換為Tanh函數(shù)。它們的網(wǎng)絡(luò)層次結(jié)構(gòu)依次如圖3所示。
圖2 LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 LeNet-5 network structure
圖3 S-S-R LeNet-5,Ramp LeNet-5,Sinusoid LeNet-5,Tanh LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 S-S-R LeNet-5,Ramp LeNet-5,Sinusoid LeNet-5,Tanh LeNet-5 network structure
本研究中所使用的數(shù)據(jù)集為CIFAR-10[8]數(shù)據(jù)集和MNIST 數(shù)據(jù)集。
其中,CIFAR-10數(shù)據(jù)集在圖像分類任務(wù)中被廣泛使用。它包括了10類共60 000張大小為32*32的彩色圖片,每個(gè)類有6 000張圖片。其中訓(xùn)練集包括50 000張圖片,測(cè)試集有10 000張圖片。該數(shù)據(jù)集中所包含的圖片分為Airplane、Automobile、Bird、Cat、Deer、Dog、Frog、Horse、Ship、Truck 共十類。
MNIST 數(shù)據(jù)集是一個(gè)公開的手寫數(shù)字?jǐn)?shù)據(jù)集,該數(shù)據(jù)集由一個(gè)具有60 000個(gè)樣本的訓(xùn)練集和一個(gè)具有10 000個(gè)樣本的測(cè)試集組成。樣本的標(biāo)簽值為0到9的10個(gè)數(shù)字,共10類。該數(shù)據(jù)集中每一個(gè)樣本均為大小為28*28的灰階圖片。
實(shí)驗(yàn)設(shè)備所使用的中央處理器為Intel(R)Core(TM)i7-7700 HQ@2.80 GHz;內(nèi)存大小為8 GB;圖形處理器為NVIDIA GeForce GTX 1050Ti;實(shí)驗(yàn)設(shè)備使用的操作系統(tǒng)為Windows 10專業(yè)版操作系統(tǒng)。
以S-S-R LeNet-5混合激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)為實(shí)驗(yàn)?zāi)P?用其他4個(gè)模型作對(duì)照。對(duì)于上述的每一個(gè)模型,均使用ADAM[9]優(yōu)化算法來訓(xùn)練,5個(gè)神經(jīng)網(wǎng)絡(luò)模型全部采用隨機(jī)初始化方法進(jìn)行權(quán)重初始化。
在驗(yàn)證圖像分類任務(wù)中混合激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)S-S-R Le Net-5模型的分類精度和收斂速度優(yōu)勢(shì)的實(shí)驗(yàn)中,將使用CIFAR-10數(shù)據(jù)集來訓(xùn)練5個(gè)模型,訓(xùn)練模型時(shí),將使用CIFAR-10數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)集的所有圖片樣本,批處理大小均設(shè)為64,總訓(xùn)練次數(shù)為6次。底層使用MXnet深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和評(píng)估。
在驗(yàn)證圖像分類任務(wù)中混合激活函數(shù)卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型的分類精度同其他研究者的分類算法相比具有競爭力的實(shí)驗(yàn)中,將使用MNIST 數(shù)據(jù)集中訓(xùn)練集的所有60 000個(gè)樣本來訓(xùn)練S-S-R LeNet-5模型。本實(shí)驗(yàn)使用的優(yōu)化算法同上一個(gè)實(shí)驗(yàn)保持一致,總訓(xùn)練次數(shù)修改為35次。由于MNIST 數(shù)據(jù)集中的訓(xùn)練樣本數(shù)量比CIFAR-10數(shù)據(jù)集中的訓(xùn)練樣本數(shù)量多10倍,為了提高模型的訓(xùn)練速度,本實(shí)驗(yàn)將批處理大小修改為5 000,以加速模型的訓(xùn)練過程。
為了比較使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型和使用單一激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型在圖像分類任務(wù)中識(shí)別準(zhǔn)確率以及收斂速度的表現(xiàn),實(shí)驗(yàn)設(shè)置了Sigmoid LeNet-5、Tanh LeNet-5、Ramp LeNet-5、Sinusoid Le Net-5共4種使用單一激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型作為對(duì)照模型。表1展示了上述5種神經(jīng)網(wǎng)絡(luò)模型在CIFAR-10數(shù)據(jù)集中測(cè)試集上的識(shí)別準(zhǔn)確率。
表1 各模型在CIFAR-10測(cè)試集上的分類精度Table 1 Classification accuracy of each model on the CIFAR-10 test set
表1中的數(shù)據(jù)可以表明,同Ramp LeNet-5模型和Tanh LeNet-5模型相比較,S-S-R LeNet-5模型的識(shí)別準(zhǔn)確率分別提高了1.52%和1.78%,而與Sigmoid LeNet-5模型相比,其分類準(zhǔn)確率要高14.44%。同其他4種模型相比,S-S-R LeNet-5模型的識(shí)別準(zhǔn)確率指標(biāo)均有顯著提高,且S-S-R LeNet-5模型具有最高的圖像識(shí)別準(zhǔn)確率,達(dá)到了68.04%。
上述實(shí)驗(yàn)結(jié)果和分析表明了使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型在圖像分類任務(wù)中的識(shí)別準(zhǔn)確率具有明顯的提升。同時(shí)該實(shí)驗(yàn)從另一個(gè)方面表明,激活函數(shù)的類型是神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中識(shí)別準(zhǔn)確率指標(biāo)的重要影響因素,在保持神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)不變的條件下,僅通過改變激活函數(shù)的組合,使用混合激活函數(shù)即取得了更高的識(shí)別準(zhǔn)確率。
另外為了比較上述5種模型的收斂速度表現(xiàn),驗(yàn)證使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型具有更快的收斂速度,對(duì)5種模型在CIFAR-10數(shù)據(jù)集上的訓(xùn)練過程進(jìn)行了統(tǒng)計(jì)和分析。
對(duì)于深度神經(jīng)網(wǎng)絡(luò)模型而言,模型在訓(xùn)練階段的學(xué)習(xí)曲線(包括訓(xùn)練識(shí)別錯(cuò)誤率學(xué)習(xí)曲線、訓(xùn)練損失學(xué)習(xí)曲線兩種)表現(xiàn)了在訓(xùn)練過程中相應(yīng)模型的收斂速度。本實(shí)驗(yàn)中5種模型的訓(xùn)練識(shí)別錯(cuò)誤率學(xué)習(xí)曲線和訓(xùn)練損失學(xué)習(xí)曲線結(jié)果分別如圖4和圖5所示。此外,統(tǒng)計(jì)了5種神經(jīng)網(wǎng)絡(luò)模型的總訓(xùn)練時(shí)間、最終訓(xùn)練損失和最終訓(xùn)練準(zhǔn)率,結(jié)果如表2所示。
圖4 5種網(wǎng)絡(luò)分類錯(cuò)誤率隨著訓(xùn)練次數(shù)的改變情況Fig.4 Five networks classification error rates change with the number of training times
圖5 5種網(wǎng)絡(luò)訓(xùn)練損失隨著訓(xùn)練次數(shù)的改變情況Fig.5 Five networks training cost change with the number of training times
表2中的數(shù)據(jù)表明:在相等的27 s總訓(xùn)練時(shí)間里,5種模型中使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型所取得的最終訓(xùn)練損失最低,達(dá)到了0.372 7;取得的最終訓(xùn)練準(zhǔn)確率最高,達(dá)到了92.54%。另外結(jié)合圖4與圖5所示的兩種學(xué)習(xí)曲線進(jìn)行分析可知,使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型在5種模型的訓(xùn)練過程中具有最快的收斂速度。相比于其他4種使用單一激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型,其訓(xùn)練過程中的收斂速度具有較大提升。
表2 各模型的總訓(xùn)練時(shí)間、最終訓(xùn)練損失和最終訓(xùn)練準(zhǔn)確率Table 2 Classification accuracy of each model on the CIFAR-10 test set
值得注意的是,從上述兩個(gè)實(shí)驗(yàn)的結(jié)果中可以發(fā)現(xiàn),使用Sinusoid LeNet-5模型在圖像分類任務(wù)中的識(shí)別準(zhǔn)確率和訓(xùn)練收斂速度方面,同其他使用經(jīng)典激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型相比,取得了較為優(yōu)秀的表現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了Sinusoid函數(shù)作為神經(jīng)網(wǎng)絡(luò)激活函數(shù)使用的可行性。
最后,為了驗(yàn)證S-S-R LeNet-5 模型在其他圖像分類數(shù)據(jù)集上同樣有有效,且在識(shí)別準(zhǔn)確度指標(biāo)上同其他研究者的分類算法相比具有競爭力,在MNIST 數(shù)據(jù)集上重新初始化并訓(xùn)練了S-S-R LeNet-5模型。在MNIST 數(shù)據(jù)集上進(jìn)行圖像分類的算法有許多種,選取了反條紋支持向量機(jī)(IFSVM)[10]、多層感知機(jī)(MLP)[11]、一種著名的深度卷積神經(jīng)網(wǎng)絡(luò)(Alex Net)[12]、模糊受限玻爾茲曼機(jī)(FRBM)[13]4種算法在MNIST 測(cè)試數(shù)據(jù)集上同SS-R LeNet-5模型就分類準(zhǔn)確率指標(biāo)進(jìn)行對(duì)比,其中IFSVM 算法的分類結(jié)果來自參考文獻(xiàn)[13],其他3種對(duì)比算法的分類結(jié)果來自參考文獻(xiàn)[14]。上述各算法在MNIST 測(cè)試數(shù)據(jù)集上的分類準(zhǔn)確率如表3所示。
表3 各模型在MNIST測(cè)試集上的分類精度Table 3 Classification accuracy of each model on the MNIST test set
通過分析表3中的有關(guān)數(shù)據(jù),使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)S-S-R LeNet-5模型在MNIST測(cè)試數(shù)據(jù)集上達(dá)到了99.20%的分類準(zhǔn)確率,高于其他4種對(duì)比算法。該實(shí)驗(yàn)驗(yàn)證了S-S-R LeNet-5模型同樣適用于其他圖像分類數(shù)據(jù)集,且相比于其他研究者的算法,本模型在圖像分類準(zhǔn)確率指標(biāo)方面具有競爭力。
使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型S-S-R LeNet-5模型在圖像分類任務(wù)中的識(shí)別準(zhǔn)確率達(dá)到了68.08%,明顯高于其他4種使用單一激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型;使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型S-S-R LeNet-5 具有更快的收斂速度,在訓(xùn)練集上取得了更高的識(shí)別準(zhǔn)確率;圖像分類實(shí)驗(yàn)初步驗(yàn)證了在多層卷積神經(jīng)網(wǎng)絡(luò)中使用Sinusoid函數(shù)作為激活函數(shù)的可行性,實(shí)驗(yàn)數(shù)據(jù)表明Sinusoid LeNet-5模型相較于使用傳統(tǒng)激活函數(shù)的Sigmoid LeNet-5模型,在圖像分類任務(wù)方面具有更高的準(zhǔn)確率;同其他研究者的工作進(jìn)行對(duì)比,雖然使用混合激活函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型初步展現(xiàn)出有競爭力的精度優(yōu)勢(shì),但在其他任務(wù)中該類模型的性能表現(xiàn)有待進(jìn)一步研究,未來的工作方向可探索此類模型在回歸任務(wù)上的表現(xiàn)。