国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種卷積神經(jīng)網(wǎng)絡(luò)的稀疏性Dropout正則化方法

2018-09-07 01:23:18周安眾
小型微型計算機系統(tǒng) 2018年8期
關(guān)鍵詞:正則卷積神經(jīng)網(wǎng)絡(luò)

周安眾,羅 可

(長沙理工大學(xué) 計算機與通信工程學(xué)院,長沙 410114) E-mail:sprite4@163.com

1 引 言

卷積神經(jīng)網(wǎng)絡(luò)模型擁有大量的可訓(xùn)練參數(shù),使其具有強大的特征提取能力,在機器學(xué)習(xí)領(lǐng)域表現(xiàn)優(yōu)異[1].并且通過增加網(wǎng)絡(luò)層數(shù)和卷積核數(shù)量可以進一步提升其性能[2].然而隨著層數(shù)和卷積核數(shù)的增加,模型變得更加復(fù)雜,大量參數(shù)的學(xué)習(xí)受限于訓(xùn)練數(shù)據(jù)的規(guī)模,當(dāng)訓(xùn)練數(shù)據(jù)不足時,常常出現(xiàn)過擬合現(xiàn)象,導(dǎo)致模型泛化能力變差.怎樣減小過擬合問題的影響就成為了近年來在卷積神經(jīng)網(wǎng)絡(luò)中急需解決的一個問題.

在實際應(yīng)用中,組合多個模型幾乎總可以獲得比單一模型更好的結(jié)果.但是對于越來越復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練多個模型變得越來越困難.為了降低模型的復(fù)雜度,又不影響特征表達能力,常用的方法是對參數(shù)施加額外限制,間接減少自由變量的參數(shù)數(shù)量,稱為正則化方法[3].L2正則化[4]是其中一種簡單且有效的方法,在權(quán)值優(yōu)化過程中使模型傾向于選擇較小的參數(shù),避免過大參數(shù)的影響.Hinton等[5]提出的Dropout是另外一種正則化方法,在網(wǎng)絡(luò)對不同的樣本進行訓(xùn)練時以一定概率隨機將部分節(jié)點的輸出值置0,相當(dāng)于將此節(jié)點從網(wǎng)絡(luò)中刪除,每個樣本只訓(xùn)練原網(wǎng)絡(luò)的一部分,測試時再組合所有部分形成完整的網(wǎng)絡(luò).該方法在機器學(xué)習(xí)的許多問題中都取得了不錯的效果.DropConnect[6]采用類似的方法,通過隨機刪除部分連接權(quán)值可以從原網(wǎng)絡(luò)中得到更多的局部結(jié)構(gòu),最后通過組合所有部分取得了更好的結(jié)果.

Dropout用固定的概率隨機從原網(wǎng)絡(luò)中刪除部分節(jié)點,由于每個節(jié)點被刪除的概率相等,保留下的網(wǎng)絡(luò)結(jié)構(gòu)對所有樣本服從統(tǒng)一分布,沒有對不同樣本進行區(qū)分,都具有同等的特征提取能力.基于這種想法,本文希望局部結(jié)構(gòu)對樣本的特征是敏感的,根據(jù)文獻[7],神經(jīng)網(wǎng)絡(luò)對不同的刺激是有選擇性激活的,如顏色、材質(zhì)、邊緣等,只提取自己感興趣的部分,相當(dāng)于從原始的稠密數(shù)據(jù)中分離出關(guān)鍵特征數(shù)據(jù).這個特點使神經(jīng)網(wǎng)絡(luò)表現(xiàn)出稀疏性,對特征感興趣的節(jié)點有較大的激活值,不感興趣的節(jié)點激活值為0或者接近于0.因此,需要保留對特征感興趣的節(jié)點以提高模型的判別性.

基于以上討論,本文提出一種稀疏性Dropout(Sparse Dropout,S-Dropout)正則化方法,其基本思想是更改局部結(jié)構(gòu)對樣本的統(tǒng)一分布,尋找對特征感興趣的節(jié)點.為此,在Dropout的基礎(chǔ)上增加稀疏性限制,訓(xùn)練時以更大的概率刪除激活值較低的節(jié)點.通過該方法訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)不僅組合了多個局部結(jié)構(gòu),同時利用稀疏性提高了每個局部結(jié)構(gòu)的特征提取能力,使模型的泛化能力得到提升.

2 相關(guān)基礎(chǔ)

2.1 Dropout正則化方法

2012年文獻[5]提出了Dropout正則化方法,在神經(jīng)網(wǎng)絡(luò)中得到了廣泛應(yīng)用,能有效防止模型過擬合問題.該方法在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段,前向傳播時以概率P=0.5隨機刪除掉部分節(jié)點,這樣網(wǎng)絡(luò)在傳播時只會通過保留下的節(jié)點,如圖1所示,相當(dāng)于從原網(wǎng)絡(luò)中隨機選出一個局部結(jié)構(gòu).

圖1 使用Dropout正則化訓(xùn)練時的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Use dropout to regularize the structure of the network during training

訓(xùn)練過程中刪除節(jié)點的方法是強制將此節(jié)點的激活值置0,此時節(jié)點在網(wǎng)絡(luò)中沒有任何貢獻,誤差也不會經(jīng)過輸出值為0的節(jié)點反向傳播.節(jié)點激活值的計算如公式(1)所示:

r=m·f(wx+b)
mj~Bernoulli(p)

(1)

公式(1)中x是輸入,f是激活函數(shù),m是一個二值掩膜矩陣,m中的元素mj以伯努利概率P隨機取值0或1.每個節(jié)點激活后乘以m中對應(yīng)元素得到最后的輸出值r,mj為1的對應(yīng)節(jié)點輸出值保留下來,mj為0的對應(yīng)節(jié)點輸出值為0.

在測試階段,將刪除的節(jié)點恢復(fù)以組合所有的局部網(wǎng)絡(luò),此時網(wǎng)絡(luò)結(jié)構(gòu)的改變使總的輸出值發(fā)生改變,如圖2所示,為了保證輸出值不變,測試階段的節(jié)點激活值需要乘以一個比例系數(shù),即節(jié)點被刪除的概率P,相當(dāng)于對所有局部網(wǎng)絡(luò)取平均值.

圖2 訓(xùn)練階段與測試階段節(jié)點的輸出值Fig.2 Output value of the training phase and the test phase node

此方法的優(yōu)點是隨機產(chǎn)生的局部網(wǎng)絡(luò)擁有比原網(wǎng)絡(luò)更少的參數(shù),不容易過擬合,而且每次產(chǎn)生的局部網(wǎng)絡(luò)的參數(shù)共享自原網(wǎng)絡(luò)的一部分,雖然總的網(wǎng)絡(luò)個數(shù)增加了,但是參數(shù)沒有增加,在沒有提升訓(xùn)練難度的情況下可以得到多個網(wǎng)絡(luò)的訓(xùn)練結(jié)果,測試時再組合這些局部網(wǎng)絡(luò),使泛化性得到提升.另一方面,神經(jīng)網(wǎng)絡(luò)的節(jié)點之間有相互合作能力,這種合作能力很容易擬合到一些噪聲,隨機的選擇節(jié)點打破了合作表達的聯(lián)系,能有效防止模型的過擬合問題.

2.2 神經(jīng)網(wǎng)絡(luò)的稀疏性

自從Olshausen等[8]發(fā)現(xiàn)自然圖像具有稀疏結(jié)構(gòu),大量研究關(guān)注于稀疏編碼和稀疏特征表示[9,10],用于解決機器學(xué)習(xí)中的各項任務(wù).當(dāng)前深度學(xué)習(xí)中一個明確的目標(biāo)是從數(shù)據(jù)中提取出關(guān)鍵特征.大量的訓(xùn)練樣本富含稠密的信息,其中可能包含著大小不同的關(guān)鍵特征,假如神經(jīng)網(wǎng)絡(luò)具有稀疏性,可以將稠密特征轉(zhuǎn)換為稀疏特征,就具有更強的魯棒性.Bouthillier等[11]通過分析Dropout正則化方法,指出局部空間特征有更好的區(qū)分性,將數(shù)據(jù)映射為特征后,特征之間的重疊度越低越好,而降低重疊度的主要方法就是使特征產(chǎn)生稀疏性,稀疏特征有更大可能線性可分,或者對非線性映射機制有更小的依賴.Wan等[6]將神經(jīng)網(wǎng)絡(luò)激活值二值化后也能得到不錯的效果,不僅說明了稀疏性的正確性,同時表明激活值不是最重要的,重要的是節(jié)點是否被激活,當(dāng)一個節(jié)點被激活時,表示該特征存在于一個子空間中,模型重點關(guān)注子空間中的特征.線性修正單元激活函數(shù)(Rectified Linear Units,ReLU)[12]正是利用了稀疏性的特點,將小于0的激活值置0,在深度神經(jīng)網(wǎng)絡(luò)中被大量采用.

3 稀疏性Dropout正則化方法

為了利用Dropout組合多個模型的能力,同時使模型對局部關(guān)鍵特征有更好的表達能力,本文受稀疏自編碼器的啟發(fā),對節(jié)點激活值增加稀疏性限制,提出S-Dropout正則化方法.根據(jù)激活值的大小選擇節(jié)點,使更多激活值較低的節(jié)點輸出值為0,相當(dāng)于將這部分節(jié)點從網(wǎng)絡(luò)中刪除,而不再采用Dropout中所有節(jié)點都以相等的概率被刪除的方式.對模型中的某一層施加稀疏性限制時,取這一層所有節(jié)點激活值的中值,大于中值的定義為高激活值節(jié)點,小于中值的定義為低激活值節(jié)點.高激活值的節(jié)點代表網(wǎng)絡(luò)對樣本感興趣的部分,對分類結(jié)果起到關(guān)鍵作用,是主要保留的節(jié)點.然而對于激活值小的那部分節(jié)點并不是完全沒有作用.Ngiam等[13]的研究發(fā)現(xiàn),在樣本空間不足的情況下,需要通過全局訓(xùn)練樣本的共同作用才足以表達出測試樣本.Sun等[14]依據(jù)節(jié)點之間的相關(guān)性對網(wǎng)絡(luò)進行裁剪,指出相關(guān)性接近0的弱相關(guān)節(jié)點對相關(guān)性高的節(jié)點有補充作用,可以提高分類結(jié)果.基于此,為了進一步提升模型的表達能力,增加一個隨機因素,保留一部分低激活值節(jié)點.首先考慮S-Dropout在全連接層上的應(yīng)用,如圖3所示,模型隨機保留大部分高激活值的節(jié)點,同時隨機選擇小部分低激活值節(jié)點保留,稀疏化的模型使得分類能力提高,而隨機性的加入使模型有更強的魯棒性[15].

圖3 使用稀疏性Dropout訓(xùn)練時的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Use sparse dropout to regularize the structure of the network during training

根據(jù)上述討論,S-Dropout正則化方法定義了兩個參數(shù)需要優(yōu)化,稀疏度S和隨機因素λ,S(0

S|r|=(1-λ)S|rm+|+λS|rm-|

(2)

|r|代表一層中節(jié)點的數(shù)量,|rm+|和|rm-|分別代表高激活值節(jié)點和低激活值節(jié)點數(shù)量.本文中S取0.5,λ取0.7,實驗部分分析取值原因.于是在訓(xùn)練階段全連接層將刪除50%的節(jié)點,其中的70%為低激活值節(jié)點,30%為高激活值節(jié)點.節(jié)點的激活值計算公式同公式(1),不同的是掩膜矩陣的表示,如公式(3)所示.

r=m·f(wx+b)
mj~Bernoulli[(1-λ)S],r=rm+
mj~Bernoulli(λS),r=rm-

(3)

由于每個節(jié)點被刪除的概率不再相等,測試階段組合所有局部網(wǎng)絡(luò)時,不能簡單地采用2.1節(jié)Dropout的方法乘以概率P.此時,為了達到類似Dropout平均局部網(wǎng)絡(luò)的目的,測試階段激活值需要乘以一個比例系數(shù)α,使得測試階段激活值總和與訓(xùn)練階段激活值的期望相等,計算方法如公式(4)、公式(5)所示.

(4)

(5)

公式(4)中E[r]是訓(xùn)練時S-Dropout層激活值的期望,由高激活值節(jié)點和低激活值節(jié)點的期望相加得到,然后根據(jù)公式(5)計算期望與激活值總和的比值α,最后測試階段的節(jié)點激活值乘以α得到輸出值.

將稀疏性限制應(yīng)用在卷積層時與全連接層遵循一樣的流程,不同的是計算各項參數(shù)時不再是針對整個層的節(jié)點,而是根據(jù)每一個卷積層的各個特征圖分別計算.對于一個特征圖,首先找到特征圖中所有節(jié)點激活值的中值,然后根據(jù)中值找出特征圖中的高激活值節(jié)點和低激活值節(jié)點,最后,同樣根據(jù)公式(4)、公式(5)計算訓(xùn)練階段和測試階段的激活值.圖4給出了整個算法的流程.

圖4 稀疏性Dropout正則化的計算流程
Fig.4 Calculation process of sparse dropout regularization

通過對Dropout增加稀疏性限制,卷積神經(jīng)網(wǎng)絡(luò)每次迭代訓(xùn)練時的結(jié)構(gòu)都不相同,而每次結(jié)構(gòu)的改變都使部分節(jié)點有選擇地激活,相當(dāng)于產(chǎn)生了不同的激活路徑,路徑上的節(jié)點只對特定樣本敏感,去除了不相關(guān)因素的干擾,使得卷積神經(jīng)網(wǎng)絡(luò)成為一個大小可變的容器,處理不同的樣本變得更加靈活.另一方面,對于難以求得的全局最優(yōu)解,從多個容易求得的局部解去逼近,這也是正則化思想的體現(xiàn),可以更好地從有效的數(shù)據(jù)維度上,學(xué)習(xí)到相對稀疏的特征,起到自動提取關(guān)鍵特征的效果.

4 實驗結(jié)果與分析

為了對比本文方法在卷積神經(jīng)網(wǎng)絡(luò)上的效果,使用L2、Dropout、S-Dropout正則化方法分別在MNIST[16],CIFAR-10/100[17]數(shù)據(jù)集上進行比較.根據(jù)不同的數(shù)據(jù)集,實驗使用的卷積神經(jīng)網(wǎng)絡(luò)略有不同,以下幾點是共同使用的相同策略:

1)訓(xùn)練采用隨機梯度下降算法,每個樣本都進行了預(yù)處理,減去所有樣本的均值.

2)所有卷積層和全連接層都使用ReLU激活函數(shù),且卷積層后都有池化層進行降采樣.

3)訓(xùn)練使用標(biāo)準(zhǔn)數(shù)據(jù)集中的數(shù)據(jù),沒有進行數(shù)據(jù)擴充.

4)權(quán)值參數(shù)采用均值為0,方差為1的高斯分布隨機初始化,由于Dropout和S-Dropout方法具有隨機性,對這兩種方法,實驗都訓(xùn)練了5個模型,結(jié)果取其平均值.

5)實驗對比了Dropout與S-Dropout分別應(yīng)用在全連接層和卷積層的效果,參數(shù)P和S在全連接層設(shè)為0.5,卷積層為0.2,λ在所有層的取值都為0.7.

4.1 MNIST數(shù)據(jù)集上的實驗結(jié)果

MNIST由大小為28×28 的手寫數(shù)字圖片組成,數(shù)據(jù)集中包含60000 張訓(xùn)練圖片和10000 張測試圖片.LeNet[16]模型在數(shù)字分類任務(wù)中取得了非常好的效果,本文采用的模型基于LeNet改進,將原來的激活函數(shù)sigmoid替換為ReLU,并增加了卷積核的數(shù)量,第1個卷積層20個卷積核,第2個卷積層50個卷積核,第3個卷積層500個卷積核,初始學(xué)習(xí)率0.05,實驗共迭代50次.采用不同的正則化方法時,結(jié)果如表1所示.

實驗對比了Dropout和S-Dropout方法分別在不同層上的效果.訓(xùn)練過程中,L2正則化已經(jīng)完全擬合了訓(xùn)練數(shù)據(jù),預(yù)測誤差卻相對較大,已產(chǎn)生過擬合現(xiàn)象.Dropout和S-Dropout方法有效緩解了過擬合,這與模型組合了多個局部結(jié)構(gòu)的特性相關(guān).S-Dropout因為稀疏性限制的引入,進一步降低了預(yù)測誤差.當(dāng)所有層都應(yīng)用S-Dropout正則化時,結(jié)果達到最好,可見S-Dropout正則化無論在全連接層還是卷積層都有不錯的效果.由于MNIST數(shù)據(jù)集本身不是很大,在卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力下,結(jié)果幾乎已經(jīng)接近最優(yōu),正則化方法的提升幅度都不是很大,但S-Dropout仍然取得了最好的效果.

4.2 CIFAR-10數(shù)據(jù)集上的實驗結(jié)果

CIFAR-10包含6萬張32×32的RGB圖片,共分為10個類別.訓(xùn)練數(shù)據(jù)50000張圖片( 每類5000張),測試數(shù)據(jù)10000張圖片.為了測試S-Dropout正則化方法在不同規(guī)模的網(wǎng)絡(luò)中的表現(xiàn),設(shè)計了兩種卷積神經(jīng)網(wǎng)絡(luò)模型.網(wǎng)絡(luò)A基于文獻[5]提出的Dropout模型的改進,是一種簡化的模型,主要為了達到快速訓(xùn)練的目的.該網(wǎng)絡(luò)包含3 個卷積層,前兩個卷積層由64 個5×5 的卷積核構(gòu)成,第三個卷積層采用128個3×3的卷積核,池化層選擇大小為3的池化區(qū)域,以步長2 實施池化操作,第一個池化層為最大池化,后兩個池化層為平均池化.倒數(shù)第二層是128個節(jié)點的全連接層,最后的softmax層輸出整個網(wǎng)絡(luò)的分類預(yù)測結(jié)果.網(wǎng)絡(luò)B采用文獻[18]介紹的NiN(Network in Network)網(wǎng)絡(luò),共有三個模塊,每個模塊包含一個卷積層和一個由1×1卷積核組成的多層感知器(MultiLayer Perceptron,MLP),卷積層有192個卷積核,后面接一個MLP,迭代次數(shù)為100次.MLP能有效的提高模型的表達能力,同時由于大量1×1卷積核的加入,參數(shù)數(shù)量和訓(xùn)練時間也會增加.實驗分別在MLP和所有層上應(yīng)用Dropout和S-Dropout方法,表2所示為在兩種模型下的結(jié)果.

由表2可以看出,網(wǎng)絡(luò)A在第一層應(yīng)用S-Dropout可以使效果得到進一步提升,而在所有層應(yīng)用S-Dropout反而使結(jié)果下降.這是因為網(wǎng)絡(luò)A是簡化的模型,本身參數(shù)不多,而卷積層需要對樣本進行特征提取,特征的信息含量尤為重要,又由于參數(shù)共享使卷積層本身參數(shù)較少,刪除過多節(jié)點造成信息損失,所以在多個卷積層上刪除部分節(jié)點會使誤差增大.另一方面,只在第一層卷積層上使用具有較小稀疏度值的S-Dropout相當(dāng)于對樣本加入部分輸入噪聲,類似于降噪自編碼器[19]的效果,可以使網(wǎng)絡(luò)學(xué)習(xí)到一定的降噪能力,可以更好的防止過擬合現(xiàn)象.而Dropout方法只在網(wǎng)絡(luò)A中的全連接層有效.可見本文方法在簡單的模型上適用的層數(shù)更多.網(wǎng)絡(luò)B由于擁有大量參數(shù),使預(yù)測誤差大大降低,而且無論是Dropout還是S-Dropout方法,都能應(yīng)用在網(wǎng)絡(luò)B的所有層上.

4.3 CIFAR-100數(shù)據(jù)集上的實驗結(jié)果

CIFAR-100數(shù)據(jù)集與CIFAR-10類似,不同之處在于它增加了圖片類別數(shù)到100類,包含50000 張訓(xùn)練數(shù)據(jù)( 每類500張)及10000 張測試數(shù)據(jù).相較于CIFAR-10,CIFAR-100的訓(xùn)練數(shù)據(jù)相當(dāng)有限,需要更復(fù)雜的模型擬合訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)A不足以達到可觀的精度,所以只使用網(wǎng)絡(luò)B進行實驗,且各層參數(shù)保持不變.結(jié)果如表3所示,在CIFAR-100有限的訓(xùn)練數(shù)據(jù)下傳統(tǒng)的正則化方法并沒有很好的泛化能力,而S-Dropout避免過度擬合訓(xùn)練數(shù)據(jù)的同時降低了預(yù)測誤差,整體趨勢與CIFAR-10相一致,可見在訓(xùn)練數(shù)據(jù)不足的情況下,本文方法效果提升明顯.

表3 不同正則化方法在CIFAR-100數(shù)據(jù)集上的結(jié)果Table 3 Results of different regularization methods on the CIFAR-100 dataset

4.4 樣本數(shù)量的影響

正則化方法使具有大量參數(shù)的模型在面對小樣本訓(xùn)練集時不容易產(chǎn)生過擬合,為了測試本文方法在小樣本上的效果,隨機的從MNIST數(shù)據(jù)集中選擇大小為100、500、1000、5000、10000和50000的樣本來比較L2、Dropout和S-Dropout正則化的效果,使用4.1節(jié)中介紹的改進LeNet模型和參數(shù)設(shè)置,不同的是迭代次數(shù)根據(jù)樣本集的大小會有所改變,樣本數(shù)量較小時模型收斂速度變慢,相應(yīng)的迭代次數(shù)就需要增加,訓(xùn)練時如果連續(xù)10次迭代誤差不再減小時就停止.訓(xùn)練完成后,在測試集上的預(yù)測誤差如圖5所示.

圖5 樣本數(shù)量對預(yù)測誤差的影響Fig.5 Effect of the number of samples on predictive errors

對于樣本數(shù)量小于1000的極端情況,Dropout和S-Dropout都沒有改進預(yù)測誤差,原因是此時的訓(xùn)練樣本太小,模型有足夠的參數(shù)擬合訓(xùn)練集,甚至是刪除部分節(jié)點所產(chǎn)生的噪聲數(shù)據(jù)也進行了擬合.而隨著訓(xùn)練樣本數(shù)量的增加,S-Dropout的效果開始提升,總的預(yù)測誤差也不斷減小,圖5中所示,在樣本數(shù)量達到5000時S-Dropout的誤差已經(jīng)低于L2,可見在樣本數(shù)量達到一個比較小的閾值時,本文方法就體現(xiàn)出較好的效果,且樣本越多誤差越低.

4.5 稀疏度的選擇

S-Dropout具有兩個可調(diào)節(jié)的參數(shù)S和λ,其中參數(shù)S稱為稀疏度,代表模型中刪除的節(jié)點所占的比率,取值為0到1之間,值越大刪除的節(jié)點數(shù)越多,稀疏度越高.本節(jié)通過調(diào)節(jié)參數(shù)S驗證不同的稀疏度帶來的效果變化情況.選擇4.1節(jié)中改進的LeNet模型,分別在全連接層和卷積層上進行驗證,使S的取值從0到0.9變化,每間隔0.1訓(xùn)練一個模型,并將Dropout方法中節(jié)點被刪除的概率P取同樣的值進行對比.

如圖6所示是S在全連接層上的變化對預(yù)測誤差的影響.S在0.4到0.7之間取值時,曲線趨于平滑且預(yù)測誤差達到最低,當(dāng)S為0時,沒有節(jié)點被刪除,相當(dāng)于使用原網(wǎng)絡(luò)進行訓(xùn)練,S過大時被刪除的節(jié)點過多,模型的表達能力會降低.可見在全連接層上選擇適中的稀疏度使模型達到最優(yōu),而同樣的取值下本文方法比Dropout更優(yōu),比較理想的取值為0.5.

圖6 全連接層上稀疏度的變化對預(yù)測誤差的影響Fig.6 Effect of the change of sparsity on the prediction error of the full connection layer

如圖7所示是參數(shù)S在卷積層上的變化對預(yù)測誤差的影響,在取值0.2和0.3附近時預(yù)測誤差達到最小.當(dāng)卷積層上的S取值過大時,預(yù)測誤差上升很明顯,這是因為卷積層用于特征提取,刪除過多的節(jié)點造成信息損失,符合4.2節(jié)中在CIFAR-10上的實驗結(jié)果及推論,所以本文在卷積層上的稀疏度選擇較小的值0.2,保留了足夠的特征量,同時又達到了稀疏化的效果.且參數(shù)S在同樣的取值下,本文方法的結(jié)果優(yōu)于Dropout.

圖7 卷積層上稀疏度的變化對預(yù)測誤差的影響Fig.7 Effect of the change of sparsity on the prediction error of the convolutional layer

4.6 隨機因素的選擇

S-Dropout中的參數(shù)λ稱為隨機因素,用來確定高激活節(jié)點與低激活節(jié)點分別被刪除的比率.根據(jù)激活值大小選擇節(jié)點使模型具有更強的特征提取能力,同時通過一定的隨機性增強模型的魯棒性,參數(shù)λ正是確定這種隨機性的因素.為了找到隨機因素的最優(yōu)取值,在S取不同值的情況下,使λ從0.5到1變化,間隔為0.05,利用LeNet模型,在MNIST數(shù)據(jù)集上進行對比驗證.

如圖8所示,當(dāng)λ取值為1的時候,刪除的節(jié)點全部從低激活值中選擇,此時模型保留所有高激活值部分,相當(dāng)于失去了隨機性,節(jié)點是否被刪除完全依賴于激活值大小,但泛化性能并不理想,可見保留部分低激活值的節(jié)點是能夠提升最終結(jié)果的.當(dāng)λ取0.5時,隨機性達到最大,節(jié)點是否被刪除完全隨機決定,在理想情況下與Dropout具有相等的效果,但也沒有得到最低的預(yù)測誤差.而根據(jù)圖8中的曲線,在所有S的不同取值下,λ在0.7附近的變化都達到了較理想的結(jié)果,這也是本文選擇的取值.可見模型的某一層在選擇了理想的稀疏度后,通過調(diào)節(jié)λ到合適的值,可以進一步降低預(yù)測誤差.

圖8 稀疏度取不同值時隨機因素對預(yù)測誤差的影響Fig.8 Effect of random factors on prediction error with different values of sparsity

4.7 特征的稀疏性

從以上已經(jīng)看到,具有稀疏結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)在防止模型過擬合方面具有更好的效果,從稠密的樣本空間中提取的稀疏特征向量具有更好的可區(qū)分性.為了驗證模型是否提取了稀疏的特征向量,將5000個測試樣本通過改進的LeNet模型提取特征向量,特征向量是從模型的全連接層獲得的輸出值,每個向量500維.圖9所示是特征向量輸出值的統(tǒng)計直方圖,左邊是每張測試樣本激活的節(jié)點數(shù)量,右邊是被激活的節(jié)點對應(yīng)的圖片數(shù)量,即有多少張樣本可以激活此節(jié)點,根據(jù)圖9的結(jié)果可知,使用S-Dropout正則化后,無論是被激活的節(jié)點數(shù)還是激活節(jié)點的圖片數(shù)都取得了更小的值(直方圖往左移動),模型確實提取到了更稀疏的特征向量,在圖像分類任務(wù)中可以達到更優(yōu)的泛化性能.

圖9 特征向量輸出值的統(tǒng)計直方圖Fig.9 Statistical histogram of eigenvector output values

5 結(jié)束語

本文提出一種稀疏性Dropout正則化方法,并將其應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),不僅具有組合多個模型結(jié)果的優(yōu)點,防止過擬合現(xiàn)象的產(chǎn)生,而且對激活值增加稀疏性限制后,能針對不同的樣本產(chǎn)生特定的對樣本敏感的局部結(jié)構(gòu),有效提升了模型的泛化能力.刪除部分節(jié)點減少了模型參數(shù),稀疏性限制保留高激活值節(jié)點,增強了模型的特征提取能力,隨機因素的加入又一定程度上提高了模型的魯棒性.然而,通過節(jié)點激活值大小進行稀疏性限制略顯簡單,后續(xù)可以通過節(jié)點間相關(guān)性的大小增加限制,從而得到更理想的效果.

猜你喜歡
正則卷積神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
有限秩的可解群的正則自同構(gòu)
平乐县| 犍为县| 荔波县| 阿瓦提县| 枞阳县| 台州市| 将乐县| 虎林市| 崇礼县| 南郑县| 安达市| 芒康县| 汾阳市| 碌曲县| 定南县| 沙田区| 大余县| 太和县| 赣州市| 井研县| 宾川县| 大化| 杂多县| 邯郸县| 二手房| 和龙市| 农安县| 红桥区| 武宣县| 萝北县| 大渡口区| 金沙县| 新建县| 中宁县| 桃源县| 衡水市| 南宁市| 岐山县| 盖州市| 定州市| 榆社县|