国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

代價敏感正則化有限記憶多隱層在線序列極限學(xué)習(xí)機(jī)及圖像識別應(yīng)用

2018-06-01 02:09:15宋坤駿丁建明
鐵路計算機(jī)應(yīng)用 2018年5期
關(guān)鍵詞:隱層學(xué)習(xí)機(jī)正則

宋坤駿,丁建明

(西南交通大學(xué) 牽引動力國家重點實驗室,成都 610031)

如今,深度學(xué)習(xí)在圖像識別領(lǐng)域[1-3]的正確率已經(jīng)接近或超過人類,但深度學(xué)習(xí)算法的高額運行開銷使得它在實用化方面還面臨一些困難。例如,百度自主開發(fā)的Deep Image圖像識別系統(tǒng)就需要運行在其自行研發(fā)的Minwa超級計算機(jī)上。為了在移動或嵌入式設(shè)備上更快更好地運行深度學(xué)習(xí)模型,需要在降低模型的開銷上進(jìn)一步努力。降低開銷的思路是:(1)從根本上避免神經(jīng)網(wǎng)絡(luò)中用到的梯度下降等迭代步驟;(2)采用在線增量式訓(xùn)練算法代替離線批量式算法。將這兩種思路結(jié)合,本文提出代價敏感正則化有限記憶多隱層在線序列極限學(xué)習(xí)機(jī)(CSR-FMML-OSELM)算法。

極限學(xué)習(xí)機(jī)(ELM)[4]是一種新型的單隱層前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法,近年來針對該算法進(jìn)行了不少研究和拓展。Yang等人[5]提出了一種雙端增量型極限學(xué)習(xí)機(jī),這是一種通過網(wǎng)絡(luò)余差反向傳遞的方式直接計算部分隱層神經(jīng)元參數(shù)的算法,擺脫了隱層神經(jīng)元完全隨機(jī)選取的任意性對算法性能造成的不利影響。Cao等人[6]借鑒Learn++思想提出了一種基于投票機(jī)制的集成ELM算法,也屬于一種ELM隱層參數(shù)選取隨機(jī)性的解決思路。Liu等人[7]證明了有L個無限可微隱層節(jié)點的ELM網(wǎng)絡(luò)的VC維數(shù)等于L。Yu和Deng[8]提出了將反向傳播算法作用于網(wǎng)絡(luò)的隱層參數(shù)上以壓縮ELM網(wǎng)絡(luò)的尺寸的思想,他們的方法將網(wǎng)絡(luò)的模型尺寸壓縮到了原先的1/16。張弦等人提出的限定記憶極端學(xué)習(xí)機(jī)(FM-ELM)是一種固定樣本數(shù)量的在線序列極限學(xué)習(xí)算法,該算法每添加一個新訓(xùn)練樣本的同時會丟棄一個距當(dāng)前時刻最遠(yuǎn)的舊訓(xùn)練樣本,以消除舊訓(xùn)練樣本對于當(dāng)前模型的不利影響[9]。

本文提出的CSR-FM-ML-OSELM算法相比張弦等人提出的算法,創(chuàng)新之處如下:(1)為了體現(xiàn)類別之間的不平衡性,在算法中加入了類別的權(quán)重因子,此即代價敏感性(CS);(2)將多隱層(ML)極限學(xué)習(xí)機(jī)[10]納入在線學(xué)習(xí)的框架中;(3)為了進(jìn)一步提升算法的性能,使用深度學(xué)習(xí)理論中常用的softplus激活函數(shù)代替ELM理論中的sigmoid激活函數(shù);(4)為了提升穩(wěn)定性和泛化性能,采用吉洪諾夫的正則化方法(R)。

1 代價敏感正則化有限記憶單隱層在線序列極限學(xué)習(xí)機(jī)

1.1 極限學(xué)習(xí)機(jī)簡介

極限學(xué)習(xí)機(jī)其實是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)的特殊訓(xùn)練算法,該算法最大特點在于極大地減少了需要迭代計算求解的權(quán)值和偏置個數(shù),將原兩層權(quán)值的迭代求解問題轉(zhuǎn)換為通過最小二乘法求解最后一層的輸出權(quán)值。因而不僅大大加快了訓(xùn)練速度,而且非但沒有喪失泛化能力反而有所提升。設(shè)單隱層前饋網(wǎng)絡(luò)的輸出層和隱層神經(jīng)元數(shù)分別為 m和L,則關(guān)于輸入特征向量x∈Rd的第j維輸出表達(dá)式為:

h(x)=[h1(x), h2(x), …, hL(x)]和 βj=[βj1, βj2, …, βjL]T依次是隱層激活函數(shù)向量和連接第j個輸出層節(jié)點和各隱層節(jié)點的輸出權(quán)值向量。非線性激活函數(shù)h(x)可以是 sigmoid,tanh,sin 等函數(shù)。ai=[ai1, ai2, …, aid]和bi則分別為連接輸入層各節(jié)點和隱層第i個節(jié)點的輸入權(quán)值及第i個隱層節(jié)點的偏置,輸出權(quán)值矩陣βj=[β1, β2, …, βm]由式(2)經(jīng)驗風(fēng)險最小化問題求出:

式(2)中的目標(biāo)函數(shù)稱為ELM算法的損失函數(shù),容易看出,上述最優(yōu)化問題可以用最小二乘法求解。Bartlett曾證明[13]:單隱層前饋神經(jīng)網(wǎng)絡(luò)的泛化能力與回歸系數(shù)向量的范數(shù)大小呈負(fù)相關(guān)關(guān)系,因此滿足權(quán)值最小的Moore-Penorse最小二乘解同時也是所有最小二乘解中泛化能力最好的,其回歸系數(shù)向量(即輸出層權(quán)重)的表達(dá)式為:

式(3)中,關(guān)于N個輸入樣本[x1, x2, …, xN]的隱層輸出矩陣H定義為:

其中,L是隱層神經(jīng)元數(shù),N是輸入樣本數(shù),而關(guān)于N個輸入樣本的訓(xùn)練數(shù)據(jù)目標(biāo)矩陣則由式(5)定義:

其中,m是輸出維數(shù)。

廣義逆矩陣H?的定義如下:當(dāng)H?H為非奇異矩陣時,H?=(HTH)–1HT,而當(dāng) HHT為非奇異矩陣時,H?=HT(HHT)–1。由以上公式可以得出ELM算法的訓(xùn)練流程如圖1所示。

圖1 極限學(xué)習(xí)機(jī)訓(xùn)練流程

1.2 代價敏感正則化有限記憶單隱層在線序列極限學(xué)習(xí)機(jī)

為了體現(xiàn)不同類別故障誤診的代價差異性,對不同類別的樣本引入不同的權(quán)重系數(shù)。假設(shè)第k類樣本誤診的代價乘數(shù)是W(k),k=1, 2,…,Nc,這里,Nc是預(yù)先已知的類別總數(shù),通常為了消除類別間數(shù)量上的不平衡,可以取W(k)=nk–1,即每一類樣本數(shù)的倒數(shù)。下面用加權(quán)最小二乘法體現(xiàn)代價敏感性,而用增量式學(xué)習(xí)算法應(yīng)對流式到來的故障數(shù)據(jù)。

加權(quán)最小二乘問題的表述是:設(shè)要求一組系數(shù)βj,使損失函數(shù)(Z–Hβ)取最小值,那么令偏導(dǎo) αJ/?β=–2HTWZ+2HTWHβ=0可以得到系數(shù)的加權(quán)最小二乘估計:β*=(HTWH)–1HTWZ。這里,H矩陣第i行第j列元素為第j個基函數(shù)hj(x)在第i個采樣點xi的取值,W是各個權(quán)值組成的對角矩陣diag(W1, W2, …,WN),諸Wi從諸W(k)中取值,Z是輸出目標(biāo)值向量,xi=[x1i,x2i,…,xni]T是輸入層向量(1≤i≤N) 。加權(quán)最小二乘法的損失函數(shù)為最小的充分條件是?2J/?β2=HTWH>0,即HTWH是正定矩陣。為了提高解的穩(wěn)定性和泛化性能,通常在損失函數(shù)J中再加上一項正比于輸出權(quán)值模平方的項1/2C(||β||2),對應(yīng)于上述解中再增加一項正則化項I/C,得到:

下面給出上述代價敏感正則化極限學(xué)習(xí)機(jī)的在線遞推形式。每步遞推可分成兩個子步驟:(1)加入N1個新樣本;(2)刪去距當(dāng)前時刻最遠(yuǎn)的N2個舊樣本。有限記憶性由(2)體現(xiàn)。

假設(shè)新增的數(shù)據(jù)對應(yīng)的矩陣塊是ΔH(1),ΔW(1)和ΔZ(1),刪除的數(shù)據(jù)對應(yīng)的矩陣塊是 ΔH(2),ΔW(2)和ΔZ(2),則由分塊矩陣的運算知:

這里,角標(biāo)(1)和(2)分別代表新增數(shù)據(jù)后和刪除舊數(shù)據(jù)后的各個矩陣,由于

其中,K=(I/C+HTWH)。則由式(8)和式(9)以及Woodbury公式[11]經(jīng)過簡單推演可得如下輸出層權(quán)值遞推公式:

其中,P=K–1, P(1)=K(1)–1, P(2)=K(2)–1。每當(dāng)有新數(shù)據(jù)到來時,據(jù)式(11)求解新增數(shù)據(jù)后的權(quán)值β(1),再據(jù)式(13)求解刪除一定量舊數(shù)據(jù)后的權(quán)值β(2)作為反映最新數(shù)據(jù)的當(dāng)前權(quán)值。

由公式的推導(dǎo)過程可見,每次有數(shù)據(jù)到來時新增數(shù)據(jù)量N1和刪除的舊數(shù)據(jù)量N2不一定相等,兩者間可以是任意的比例關(guān)系N2/N1,但需要在合理的范圍內(nèi)以保證任何時候都有N+N1–N2>0。

2 代價敏感正則化有限記憶多隱層在線序列極限學(xué)習(xí)機(jī)

作為多隱層在線序列極限學(xué)習(xí)機(jī)的基礎(chǔ),首先給出單隱層極限學(xué)習(xí)自編碼器的訓(xùn)練流程:單隱層極限學(xué)習(xí)自編碼器采用無監(jiān)督的訓(xùn)練算法,無需給出訓(xùn)練類標(biāo)簽,其類標(biāo)簽就等于輸入向量,除此之外,其訓(xùn)練算法同極限學(xué)習(xí)機(jī)的訓(xùn)練算法是類同的,均由式(6)給出,只是在式(6)中輸出向量Z等于輸入向量X,并且輸入層的權(quán)值和偏置在隨機(jī)選取后便按照J(rèn)ohnson-Lindenstrauss引理[12]予以正交化。

本節(jié)的多隱層在線序列極限學(xué)習(xí)機(jī)同上一小節(jié)中單隱層在線序列極限學(xué)習(xí)機(jī)之間的關(guān)系正如深度學(xué)習(xí)中堆棧自編碼器同各層自動編碼器(AE)之間的堆疊關(guān)系。多隱層的作用在于通過逐層遞進(jìn)的無監(jiān)督學(xué)習(xí)自動提取特征。本節(jié)將沿用上節(jié)單隱層網(wǎng)絡(luò)的遞推算法給出多隱層網(wǎng)絡(luò)的遞推算法:在任何時刻t=k+1,用單隱層網(wǎng)絡(luò)的遞推公式求出第1隱層的輸出層權(quán)值而后每一隱層的隱層輸出矩陣可通過前一隱層的隱層輸出矩陣用前向傳播算法求出,其偽代碼描述如下。

(1)初始化階段

初始數(shù)據(jù)集{xi, ti}, xi∈d , ti∈m, i=1, 2,…, N0

For s=1 to p s為隱層數(shù)目

其中,由式(9)計算

End for

(2)在線學(xué)習(xí)階段

For k=0 to tmax k為時間步數(shù)

For s=1 to p

H由式(1 3)計算

End for

3 實驗研究

為了研究本文所提出算法的效果,分別在CIFAR-10物體圖片庫,MNIST手寫數(shù)字庫和ORL人臉庫上進(jìn)行對比實驗。計算所用操作系統(tǒng)為Windows 7 64 bit旗艦版,CPU為Intel(R) Core(TM)i7-3520M@ 2.90 GHz,內(nèi)存為8 GB,所用計算軟件為Matlab R2016a。

CIFAR-10物體圖片庫包含60 000張像素為32×32的彩色照片,分成10類,每類中含有6 000張照片,共50 000張訓(xùn)練圖片,10 000張測試圖片。

圖2給出了每類中10張示例圖片。

圖2 CIFAR-10示例圖片

MNIST手寫數(shù)字庫中0-9每個數(shù)字有6 000張訓(xùn)練圖片,1 000張測試圖片,圖片像素為28×28。

ORL人臉庫包含40個人的共400張人臉照,每個人10張照片,每張像素為64×64。實驗時每個人選擇6張作為訓(xùn)練圖片,4張作為測試圖片。

實驗時ELM網(wǎng)絡(luò)的輸入節(jié)點數(shù)取為圖片的像素點數(shù),對3類圖片庫分別為32×32,28×28和64×64;輸出節(jié)點數(shù)取為已知類別總數(shù),對3類圖片庫分別為10,10和40。3類數(shù)據(jù)庫初始圖片張數(shù)分別為15 000,15 000,200;每一時間步內(nèi)進(jìn)入的圖片張數(shù)分別取為500,500,5。有限記憶性要求的每一時間步內(nèi)刪除的圖片張數(shù)取為等于每一時間步內(nèi)進(jìn)入的圖片張數(shù)。

圖3~圖5是在3組圖片數(shù)據(jù)集上三隱層CSRFM-ML-OSELM和原始OSELM的測試集分類準(zhǔn)確率隨著其隱層單元數(shù)的變化關(guān)系圖(三隱層是指中間隱層單元數(shù)),即3幅圖中橫軸是隱層神經(jīng)元數(shù),縱軸是測試集分類準(zhǔn)確率。由圖3~圖5可見,不論是單隱層還是多隱層的極限學(xué)習(xí)機(jī),測試集的識別準(zhǔn)確率均有隨著隱層神經(jīng)元數(shù)增多而增多并漸趨飽和的趨勢。根據(jù)這一趨勢可以選擇最優(yōu)的隱層節(jié)點數(shù)以兼顧計算復(fù)雜度和分類準(zhǔn)確率。由圖4和圖5可見,當(dāng)隱層節(jié)點數(shù)較多時,本文提出的CSR-FM-MLOSELM算法對于手寫數(shù)字辨識和人臉識別均達(dá)到了較好的準(zhǔn)確率,最高都超過了95%,表明OSELM算法加入多隱層特性分類準(zhǔn)確率有明顯的提升。多層隱藏層確實能夠?qū)W習(xí)到一些單隱層無法提取的高階特征。

圖3 CIFAR-10圖片庫2種算法分類準(zhǔn)確率隨隱層節(jié)點數(shù)變化

由于ELM隱層節(jié)點參數(shù)是隨機(jī)選取的,所以為了避免分類準(zhǔn)確率結(jié)果的不穩(wěn)定性,在每組圖片數(shù)據(jù)集上進(jìn)行了10組實驗,取各組實驗識別率的平均值,記錄下10組數(shù)據(jù)的標(biāo)準(zhǔn)差以跟蹤2種算法的穩(wěn)定性表現(xiàn)。2種ELM算法在3組圖片數(shù)據(jù)集上的測試集準(zhǔn)確率的標(biāo)準(zhǔn)差和平均訓(xùn)練時間如表1所示,其中,每組數(shù)據(jù)集左邊一列是原始OSELM算法的數(shù)據(jù),而右邊一列是本文提出的CSR-FM-ML-OSELM算法的數(shù)據(jù)。

圖4 MNIST圖片庫2種算法分類準(zhǔn)確率隨隱層節(jié)點數(shù)變化

圖5 ORL人臉庫2種算法分類準(zhǔn)確率隨隱層節(jié)點數(shù)變化

由表1可見,在由測試集準(zhǔn)確率標(biāo)準(zhǔn)差體現(xiàn)的算法穩(wěn)定性方面,本文提出的CSR-FM-ML-OSELM算法勝過原始的OSELM算法。同時,本文算法的訓(xùn)練時間顯著低于現(xiàn)有的深度學(xué)習(xí)算法,且多隱層特性加入在線序列極限學(xué)習(xí)機(jī)后,相比單隱層的在線序列極限學(xué)習(xí)機(jī)而言,訓(xùn)練時間提升幅度并不大。

表1 本文算法和原始OSELM算法在3組圖片庫數(shù)據(jù)集上測試集準(zhǔn)確率標(biāo)準(zhǔn)差和平均訓(xùn)練時間

表2 所示為在不同的正則化參數(shù)C和權(quán)重W(k)取值下CSR-FM-ML-OSELM和CSR- OSELM人臉識別的平均準(zhǔn)確率。表2中,每個C值下的左右兩列分別代表權(quán)重W(k)=nk–1和W(k)=1兩種情況,其中,W(k)=1,C=1030的CSR-OSELM算法就相當(dāng)于原始的OSELM算法。從中可看出,原始OSELM算法的測試集準(zhǔn)確率91.9%要顯著低于最高的準(zhǔn)確率97.5%,帶有多隱層和有限記憶性質(zhì)的CSR-FM-MLOSELM算法的準(zhǔn)確率要高于同樣參數(shù)的不帶這些性質(zhì)的CSR-OSELM算法的準(zhǔn)確率,并且隨著參數(shù)C的增加,也即正則化項作用的減弱,準(zhǔn)確率有下降趨勢。同時,左列帶了加權(quán)處理情形的準(zhǔn)確率要高于右列不帶加權(quán)情形的。說明多隱層、有限記憶性、正則化和代價敏感性這些性質(zhì)對于提升泛化性能都是有一定作用的。

4 結(jié)束語

本文將代價敏感性(CS)、有限記憶性(FM)和多隱層特性(ML)添加到了在線序列極限學(xué)習(xí)算法中,提出代價敏感正則化有限記憶多隱層在線序列極限學(xué)習(xí)機(jī)(CSR-FM-ML-OSELM)算法。實驗結(jié)果表明,多隱層特性有效地模仿了深度神經(jīng)網(wǎng)絡(luò)的特點,提升了圖像識別的準(zhǔn)確率,在MNIST手寫數(shù)字庫和OCL人臉庫上取得了同深度學(xué)習(xí)可比的結(jié)果,并且模型的訓(xùn)練速度大大快于深度神經(jīng)網(wǎng)絡(luò)。同時,在線多隱層極限學(xué)習(xí)算法除了在泛化性能上較在線單隱層極限學(xué)習(xí)算法有較大提升外,在泛化性能的穩(wěn)定性上也有所改善。

[1]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]// Computer Vision and Pattern Recognition.IEEE, 2016:770-778.

表2 CSR-FM-ML-OSELM和CSR-OSELM算法的平均人臉測試集準(zhǔn)確率

[2]Panda P, Sengupta A, Roy K. Energy-Efficient and Improved Image Recognition with Conditional Deep Learning[J]. Acm Journal on Emerging Technologies in Computing Systems,2017, 13(3):1-21.

[3]Miyazono T, Saitoh T. FishSpecies Recognition Based on CNN Using Annotated Image[C]// International Conference on Information Theoretic Security. Springer, Singapore, 2017:156-163.

[4]Huang, G.B., Zhu, Q Y., Siew, C.K. Extreme learning machine:theory and Applications[J]. Neurocomputing, 2006, 70(1):489–501.

[5]Yang Y, Wang Y, Yuan X. Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness[J]. IEEE Transactions on Neural Networks &Learning Systems, 2012, 23(9):1498-1505.

[6]Cao J, Lin Z, Huang G B, et al. Voting based extreme learning machine[J]. Information Sciences, 2012, 185(1): 66-77.

[7]Liu X, Gao C, Li P. A comparative analysis of support vector machines and extreme learning machines [J]. Neural Networks,2012, 33(9): 58.

[8]Yu, D., Deng, L. Efficient and effective algorithms for training single hidden-layer neural networks [J]. Pattern Recognition Letters,2012, 33(5): 554–558

[9]張 弦,王宏力. 限定記憶極端學(xué)習(xí)機(jī)及其應(yīng)用[J]. 控制與決策,2012,27(8):1206-1210.

[10]Tang J, Deng C, Huang G B. Extreme Learning Machine for Multilayer Perceptron[J]. IEEE Transactions on Neural Networks & Learning Systems, 2017, 27(4):809-821.

[11]Deng C Y. A generalization of the Sherman–Morrison–Woodbury formula[J]. Applied Mathematics Letters, 2011,24(9):1561-1564.

[12]Blocki J, Blum A, Datta A, et al. The Johnson-Lindenstrauss Transform Itself Preserves Differential Privacy[C]// IEEE,Symposium on Foundations of Computer Science. IEEE Computer Society, 2012:410-419.

[13]Bartlett P. The sample complexity of pattern classification with neural networks: the size of theweights is more important than the size of the network [J]. IEEE Transactions on InformationTheory. 1998, 44 (2): 525–536.

猜你喜歡
隱層學(xué)習(xí)機(jī)正則
基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
人民珠江(2019年4期)2019-04-20 02:32:00
剩余有限Minimax可解群的4階正則自同構(gòu)
極限學(xué)習(xí)機(jī)綜述
類似于VNL環(huán)的環(huán)
基于極限學(xué)習(xí)機(jī)參數(shù)遷移的域適應(yīng)算法
分層極限學(xué)習(xí)機(jī)在滾動軸承故障診斷中的應(yīng)用
有限秩的可解群的正則自同構(gòu)
基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點數(shù)優(yōu)化
最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
一種基于AdaBoost的極限學(xué)習(xí)機(jī)分類方法
龙胜| 新龙县| 霍林郭勒市| 竹溪县| 青冈县| 岳普湖县| 贵阳市| 兴和县| 天等县| 庄浪县| 密山市| 松原市| 辽源市| 应城市| 罗田县| 洪江市| 当阳市| 保康县| 太康县| 普宁市| 兴山县| 南陵县| 永清县| 西和县| 南江县| 扬中市| 顺义区| 阿图什市| 临泉县| 龙陵县| 衡南县| 上杭县| 区。| 永修县| 绵阳市| 于田县| 淮安市| 榆树市| 建湖县| 罗城| 安顺市|