薛晨興,張 軍,邢家源
(天津職業(yè)技術(shù)師范大學(xué) 電子工程學(xué)院,天津 300222)
隨著計(jì)算機(jī)領(lǐng)域的迅速發(fā)展,機(jī)器學(xué)習(xí)在實(shí)際應(yīng)用和理論探討2個(gè)方面都取得了巨大進(jìn)步[1-3]。為了保證分類模型的訓(xùn)練結(jié)果具有可信的分類效果,傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般假設(shè)數(shù)據(jù)的特征結(jié)構(gòu)不隨環(huán)境改變[4],即要求源域的數(shù)據(jù)和目標(biāo)域的數(shù)據(jù)具有相同的分布。然而在實(shí)際應(yīng)用領(lǐng)域中,如交通、人機(jī)交互、生物信息和自動(dòng)控制等,這一假設(shè)通常由于嚴(yán)格的機(jī)制而不成立。遷移學(xué)習(xí)(Transfer Learning,TL)[5-8]的出現(xiàn)打破了這一局限,只要源領(lǐng)域和目標(biāo)領(lǐng)域之間有一定相關(guān)性,分類模型訓(xùn)練時(shí)就可以借助從源領(lǐng)域的數(shù)據(jù)中提取的特征知識,實(shí)現(xiàn)已學(xué)習(xí)知識在相似或相關(guān)領(lǐng)域間的復(fù)用和遷移,使傳統(tǒng)的從零開始學(xué)習(xí)變成可積累學(xué)習(xí),不僅可以縮減訓(xùn)練模型的成本,而且可以高效地實(shí)現(xiàn)目標(biāo)分類。本文主要基于Inception V3參數(shù)的遷移學(xué)習(xí)對圖像分類,通過TensorFlow框架對Inception V3遷移學(xué)習(xí)的過程和結(jié)果分析
1986年,反向傳播算法(BP)算法[9]提出,幾年后LeCun利用BP算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)識別手寫郵政代碼,成為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的開山之作,1998年LeNet5模型提出,CNN面世。2012年,AlexNet模型在ImageNet比賽中,取得第一的成績,在此之后更多更深的CNN模型提出。2014年,GoogLeNet模型在2014年圖像網(wǎng)絡(luò)大型視覺識別比賽(ILSVRC)獲得冠軍,成為CNN 分類器發(fā)展史上的一個(gè)重要里程碑。本文主要基于此模型系列的Inception V3進(jìn)行遷移學(xué)習(xí) 。
GoogLeNet的核心思想在于增加網(wǎng)絡(luò)深度和寬度,來提高CNN網(wǎng)絡(luò)性能。在增加神經(jīng)網(wǎng)絡(luò)寬度方面主要采用深度卷積網(wǎng)Inception,如圖1所示,這一特色網(wǎng)絡(luò)結(jié)構(gòu)即保持網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性,又利用了密集矩陣的高計(jì)算性能。
圖1 Inception 結(jié)構(gòu)圖Fig.1 Structure diagram of Inception
Inception V1是Inception網(wǎng)絡(luò)的第一個(gè)版本,作者提出的這深度卷積神經(jīng)網(wǎng)絡(luò)Inception,該架構(gòu)的主要特點(diǎn)是更好地利用網(wǎng)絡(luò)內(nèi)部的計(jì)算資源,此外該設(shè)計(jì)允許增加網(wǎng)絡(luò)的深度和寬度,同時(shí)保持計(jì)算預(yù)算不變。為了優(yōu)化質(zhì)量,架構(gòu)決策基于赫布原則和多尺度處理[10]。
2015年作者通過一系列能增加準(zhǔn)確度和減少計(jì)算復(fù)雜度的修正方法,在論文[11]提出了Inception V2 和 Inception V3。其中inception V2將5*5的卷積分解為2個(gè)3*3卷積運(yùn)算提升計(jì)算速度,如圖2所示。
圖2 Inception2 結(jié)構(gòu)圖Fig.2 Structure diagram of Inception2
此外作者將n*n卷積核尺寸分解為1*n和n*1兩個(gè)卷積,使濾波器的組變得更寬,已解決表征性瓶頸。
Inception V3整合了inception V2的所有優(yōu)勢,與V2對比,其最主要的不同就是提出了Batch Normalization,目的主要在于加快訓(xùn)練速度。Inception V3使用了RMSProp優(yōu)化器,此優(yōu)化器是Geoff Hinton 提出的一種自適應(yīng)學(xué)習(xí)率的方法,參數(shù)更新方式如下所示,其中學(xué)習(xí)率η一般設(shè)為0.001。
梯度更新規(guī)則:
(1)
式中,E的計(jì)算公式為:
(2)
在文獻(xiàn)[12]中,pan等人準(zhǔn)確的定義遷移學(xué)習(xí),如下:
本文主要是在Inception V3的模型上進(jìn)行參數(shù)遷移學(xué)習(xí),其模型如圖3所示,其中mixed模塊就是Inception網(wǎng)絡(luò)的結(jié)構(gòu)。
本次實(shí)驗(yàn)基于Inception V3 的參數(shù)偏移學(xué)習(xí)是只替換訓(xùn)練分類層而保留源模型的全部特征提取能力。由于圖像的底層紋理特征通用的特點(diǎn),在進(jìn)行遷移學(xué)習(xí)時(shí)可以相對保留卷積模塊的參數(shù)與結(jié)構(gòu),并設(shè)置一些深度卷積層或者全連接層可訓(xùn)練狀態(tài)。將數(shù)據(jù)放入目標(biāo)域中的重構(gòu)模型中進(jìn)行再次訓(xùn)練時(shí),由于可訓(xùn)練參數(shù)繼承自源模型,因此模型在微調(diào)時(shí)并不是從隨機(jī)初始值開始梯度下降,通常模型經(jīng)過小幅度的步伐調(diào)整后就可以達(dá)到適用于重構(gòu)模型的最優(yōu)值,使重構(gòu)模型可針對目標(biāo)樣本自適應(yīng)地調(diào)整高層的參數(shù)從而提高目標(biāo)檢測能力[14]。
圖3 Inception3 結(jié)構(gòu)圖Fig.3 Structure diagram of Inception3
為了擴(kuò)展網(wǎng)適用性,如圖4所示。
圖4 模型修改圖Fig.4 Modified map of the model
本文加入了一個(gè)新的網(wǎng)絡(luò)模型替換了原來的分類模塊,這個(gè)新模型由前向傳播和反向傳播兩部分組成。前向傳播主要是將通過遷移學(xué)習(xí)的策略保留了pool_3及以下的卷積層和池化層參數(shù)等提取的特征傳遞給輸入層,隨后分類的值與標(biāo)簽(Label)差值求loss值,而反向傳播主要是為了更新全連接層的參數(shù),盡量減少loss值。其中本次模型將交叉熵代價(jià)函數(shù)[15]作為損失函數(shù)loss,其公式為:
(3)
式中,C為代價(jià)函數(shù);x為樣本;y為實(shí)際值,a為輸出值;n為樣本總數(shù)。在圖像分類時(shí),Softmax函數(shù)表示將圖片識別為特定類的概率,其公式如下:
(4)
整體模型如圖5所示,首先將數(shù)據(jù)喂入特征提取模塊,該模塊使用的是經(jīng)過大量數(shù)據(jù)訓(xùn)練好的參數(shù),隨后將提取特征模塊輸送到分類層(重建網(wǎng)絡(luò)模塊),僅僅需要更新全連接層的參數(shù)進(jìn)行分類。圖5上半部分可壓縮高度,下半部分那兩行方框可左右對齊,這樣圖字就不擠了。
圖5 整體流程圖Fig.5 Overall flow chart
本文所有實(shí)驗(yàn)均在TensorFlow框架上實(shí)現(xiàn),硬件平臺為 Intel(R) Core(TM) i3-4010 cpu,主頻為1.7 GHz,內(nèi)存為6 GB。
本文是在TensorFlow框架上實(shí)現(xiàn)基于Inception V3的參數(shù)遷移學(xué)習(xí),實(shí)驗(yàn)所用數(shù)據(jù)集為飛機(jī)、狗、貓和吉他,其數(shù)量為每類各300張圖片。選用RuLu作為激活函數(shù),RMSProp作為模型優(yōu)化器,初始學(xué)習(xí)率為0.001。
由于實(shí)驗(yàn)數(shù)據(jù)較小且采用遷移學(xué)習(xí)策略,模型整體收斂較快,且在本實(shí)驗(yàn)的硬件配置下訓(xùn)練,說明不需要大算力的支持。模型參數(shù)評估圖如6所示,圖6中x軸為迭代步數(shù),y軸為函數(shù)值,展示了訓(xùn)練過程中準(zhǔn)確率和交叉熵?fù)p失函數(shù)隨網(wǎng)絡(luò)的迭代步數(shù)變化的趨勢,可以看出,迭代次數(shù)還較小的時(shí)候,準(zhǔn)確率已經(jīng)達(dá)到了0.9以上,其loss值也是在前200次迭代過程中呈指數(shù)下降,最終loss值也是達(dá)到了0.080。此外,我們隨機(jī)從網(wǎng)上找了一些圖片來驗(yàn)證模型,部分結(jié)果如圖7所示,每張圖都有這四類的判斷概率,我們的模型能夠準(zhǔn)確地分類,并有較高的識別率。
圖6 模型參數(shù)評估圖Fig.6 Model parameter evaluation diagram
圖7 部分結(jié)果展示Fig.7 Partial results show
本文引入了遷移學(xué)習(xí)策略,以Inception V3 為基礎(chǔ)框架,驗(yàn)證了遷移學(xué)習(xí)的優(yōu)勢。在實(shí)驗(yàn)中,實(shí)驗(yàn)硬件較差,訓(xùn)練數(shù)據(jù)集較小,訓(xùn)練次數(shù)僅為1 000,此模型就能快速地收斂。所以,對模型的遷移學(xué)習(xí)可以更快更好地幫助目標(biāo)領(lǐng)域?qū)W習(xí)。隨著深度學(xué)習(xí)的快速發(fā)展,各式各樣的模型層出不窮,而針對這一現(xiàn)狀,遷移學(xué)習(xí)作為一個(gè)新興領(lǐng)域也必將成為未來研究的主題之一[16]。通過上述實(shí)驗(yàn),分析了Inception V3的結(jié)構(gòu)和遷移學(xué)習(xí)的優(yōu)點(diǎn),對于Inception V3遷移學(xué)習(xí)的模型實(shí)際應(yīng)用是下一步研究的重點(diǎn)。