李 霞,劉建平,王力麗
(河北科技師范學(xué)院數(shù)學(xué)與信息科技學(xué)院,河北 秦皇島,066004)
?
基于改進平方根法的增量式正則極速學(xué)習(xí)機及在回歸中的應(yīng)用
李 霞,劉建平,王力麗
(河北科技師范學(xué)院數(shù)學(xué)與信息科技學(xué)院,河北 秦皇島,066004)
提出了一種基于改進平方根法的增量式正則極速學(xué)習(xí)機(ISR-RELM),該方法在求解正則極速學(xué)習(xí)機(RELM)輸出權(quán)值時有效減少了隱層神經(jīng)元遞增過程中的計算量。9個基準回歸數(shù)據(jù)集預(yù)測表明,ISR-RELM不僅預(yù)測精度高,而且所用的訓(xùn)練時間比文獻中的3種方法(ISR-RELM,LD-RELM和CF-RELM)都少。因此ISR-RELM是解決數(shù)據(jù)回歸問題的一種新穎且高效的方法。
正則極速學(xué)習(xí)機;回歸問題;改進平方根法
隨著回歸問題研究的不斷深入及其在函數(shù)逼近、時間序列預(yù)測、機器學(xué)習(xí)、復(fù)雜系統(tǒng)建模等領(lǐng)域中的廣泛應(yīng)用,回歸問題已經(jīng)成為一個重要的研究方向。而人工神經(jīng)網(wǎng)絡(luò)由于具有很好的逼近能力,泛化性能和魯棒性,被許多學(xué)者應(yīng)用到回歸數(shù)據(jù)的預(yù)測中。作為人工神經(jīng)網(wǎng)絡(luò)的一個重要分支,2006年,Huang G B等[1]提出了極速學(xué)習(xí)機(ELM)。ELM是一種新穎的單隱藏層前饋神經(jīng)網(wǎng)絡(luò),它將傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練的迭代過程轉(zhuǎn)化為求解線性方程組,設(shè)置合適的隱藏層結(jié)點數(shù),為輸入層和隱藏層閾值隨機賦值,然后通過最小二乘法得到輸出層權(quán)值,整個過程無需迭代。但是ELM是基于經(jīng)驗風(fēng)險最小化理論,可能會導(dǎo)致過度擬合問題,因此鄧萬宇等[2]考慮了這2種風(fēng)險,提出了正則極速學(xué)習(xí)機(RELM)。
RELM建立的數(shù)學(xué)模型最終轉(zhuǎn)化為求解系數(shù)矩陣為對稱正定的線性方程組。當線性方程組的系數(shù)矩陣是對稱正定時,常用的解方程組的方法有平方根法和改進的平方根法[3~6],但是平方根法在計算過程中需要開平方,而改進的平方根法回避了開平方運算,只需要四則運算就能完成,非常簡單有效。因此為實現(xiàn)對回歸問題RELM網(wǎng)絡(luò)結(jié)構(gòu)的輸出權(quán)值的快速求解,筆者提出了一種基于改進平方根法的增量式求解輸出權(quán)值的快速方法(ISR-RELM),并通過9種基準回歸數(shù)據(jù)集驗證了該方法的有效性。
其中αi=[αi1,…,αin]為連接第i個隱層神經(jīng)元的輸入權(quán)值;ci是第i個隱藏層結(jié)點的閾值;βL=[β1,…,βL]T,βi為連接第i個隱層神經(jīng)元的輸出權(quán)值;ε=[ε1,…,εN]T,εi是回歸誤差。為求解上述優(yōu)化問題,建立拉格朗日函數(shù)為
其中T=[t1,…,tN]T為輸出向量,ω=[ω1,…,ωN]為拉格朗日權(quán)值。
是隱層矩陣,對拉格朗日函數(shù)各變量求偏導(dǎo)并令偏導(dǎo)數(shù)為零可得
(1)
式中IL為單位矩陣,利用式(1)求出βL則可建立RELM回歸數(shù)據(jù)集預(yù)測模型
(2)
式中x為模型輸入,t為模型輸出。
2.1ISR-RELM的輸出權(quán)值求解
因為AL是對稱正定的,則AL可分解為
(3)
式中SL是一個單位下三角矩陣,DL為對角線元為正的對角矩陣。通過公式(3)可以得到計算sij和di的計算公式:對于i=1,…,L
(4)
令SLFL=bL,則可以得出FL的元素fi的計算公式為
(5)
(6)
由上述過程可知,只用簡單的四則運算就可以求得輸出權(quán)值βi,而且當ISR-RELM的隱層神經(jīng)元數(shù)量從L個增加到L+1個時,神經(jīng)元矩陣變化為
HL+1=[HL?hL+1]=[h1…h(huán)L?hL+1]
(7)
式中hi=[f(αi·x1+ci)…f(αi·xN+ci)]T,i=1,…,L+1。此時
(8)
因此從公式(5)所示的FL的計算方式可知
可見,只需計算出fL+1即可獲得FL+1,而不需要重新計算f1至fL?;诟倪M平方根法的βL+1求解方法充分利用了計算βL所儲存的信息,使得SL+1,DL+1,F(xiàn)L+1可分別在SL,DL,F(xiàn)L的基礎(chǔ)上獲得,因此計算βL+1可在計算βL的基礎(chǔ)上進行。
2.2ISR-RELM的學(xué)習(xí)過程
有研究表明[3],隱層神經(jīng)元的數(shù)量與RELM的測試精度有很大關(guān)系,同時也是在設(shè)計RELM網(wǎng)絡(luò)結(jié)構(gòu)時必須事先考慮的關(guān)鍵因素,到目前為止還沒有選擇神經(jīng)元個數(shù)的有效理論方法,一般可以根據(jù)人為經(jīng)驗或者實驗確定。ISR-RELM的學(xué)習(xí)過程為:
步驟1 設(shè)置最大神經(jīng)元數(shù)量L;
步驟2 令L=1,計算這時的AL和bL;
步驟3 根據(jù)公式(4)求出SL和DL,然后利用SL和bL根據(jù)公式(5)得到FL;
步驟5 令L=L+1,在SL-1,DL-1,FL-1的基礎(chǔ)上,計算SL,DL,F(xiàn)L,然后轉(zhuǎn)至步驟4,當L最大時結(jié)束。
為了評估ISR-RELM的性能,在此將其應(yīng)用到9個常見的基準回歸數(shù)據(jù)集,并且與其它3種算法比較。本次研究所有程序是在CPUi5-3210M,2.50 GHz,內(nèi)存2.00 GB,Matlab 2009環(huán)境下運行。隱藏激勵函數(shù)選為Sigmoid函數(shù)g(x)=1/(1+e-x),參數(shù)γ=108。在所有的實驗中,數(shù)據(jù)的輸入和輸出向量分別歸一到[-1,1]和[0,1]。每個試驗運行了30次,用30次的均方根誤差(RMSE)代表該算法的精度,用30次標準差的平均值(S.D.)代表該算法的穩(wěn)定性,用30次訓(xùn)練時間的平均值(t(s))作為該算法的訓(xùn)練時間。
表1 評估ISR-RELM性能選取的基準回歸數(shù)據(jù)集信息
3.1 基準回歸數(shù)據(jù)集
本次研究選取了9個常見的基準回歸數(shù)據(jù)集[8],每個數(shù)據(jù)集隨機分為訓(xùn)練樣本和測試樣本,詳細情況見表1。
3.2 ISR-RELM神經(jīng)元數(shù)量的選擇
圖1~圖2為ISR-RELM在L遞增條件下應(yīng)用于2個不同數(shù)據(jù)集上(其他數(shù)據(jù)集圖形類似)的訓(xùn)練誤差和測試誤差。從圖中可以看出,它們均隨隱層神經(jīng)元個數(shù)L的增加而表現(xiàn)出逐漸減小的變化趨勢,由于初始的ISR-RELM只有1個神經(jīng)元,其學(xué)習(xí)精度與泛化能力都有限,誤差較大,但是隨著L的增加,訓(xùn)練誤差和測試誤差都逐漸減小,說明通過增加神經(jīng)元的個數(shù)可以有效提高ISR-RELM的學(xué)習(xí)能力和泛化能力。從圖1~圖2可以看到,當神經(jīng)元到達一定數(shù)量時,訓(xùn)練精度和測試精度變化不太明顯,如果再增加神經(jīng)單元,測試精度提高不太明顯,反而增加ISR-RELM的網(wǎng)絡(luò)結(jié)構(gòu),耗費大量的計算時間。因此,本次研究最大神經(jīng)元數(shù)量設(shè)置為50個。另外,根據(jù)所有神經(jīng)元對應(yīng)的測試精度,由測試誤差最小原則,可以找到最佳的神經(jīng)元數(shù)量。
3.3 ISR-RELM與其它3種算法的比較
圖1 附加10%噪聲Elevators的訓(xùn)練誤差和測試誤差的變化曲線 圖2 附加20%噪聲California的訓(xùn)練誤差和測試誤差的變化曲線
基于改進平方根法的增量式RELM逐漸遞增地計算網(wǎng)絡(luò)輸出權(quán)值,有效減小了隱層神經(jīng)元遞增過程中所帶來的計算代價,減少了計算時間。為了驗證該方法的有效性,把其應(yīng)用于9種基準回歸數(shù)據(jù)集。實驗結(jié)果表明,該方法無論對于噪聲數(shù)據(jù)還是無噪聲數(shù)據(jù)都具有較高的預(yù)測精度和較快的計算速度,適用于回歸數(shù)據(jù)集的預(yù)測。
[1]HuangGB,ZhuQY,SiewCK.Extremelearningmachine:theoryandapplication[J].Neurocomputting,2006,70(1-3):489-501.
[2] 鄧萬宇,鄭慶華,陳琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計算機學(xué)報,2010,33(2):279-287.
[3] 李慶揚,王能超,易大義.數(shù)值分析[M].北京:清華大學(xué)出版社,2008.
[4] 郭麗杰,周碩,秦萬廣.對稱矩陣的改進Cholesky分解在特征值問題中的應(yīng)用[J].東北電力學(xué)院學(xué)報,2003,23(2):50-52.
[5] 王艷天.數(shù)學(xué)教學(xué)中線性方程組的特殊解法:平方根法[J].中國科教創(chuàng)新導(dǎo)刊,2008(26):139.
[6] 蘇爾.關(guān)于正定矩陣平方根分解性質(zhì)的討論及正定矩陣某個特征的證明[J].吉林師范大學(xué)學(xué)報:自然科學(xué)版,2012(2):54-58.
[7] 張弦,王宏力.基于Cholesky分解的增量式RELM及其在時間序列預(yù)測中的應(yīng)用[J].物理學(xué)報,2011,60(11):110201-1-110201-6.
[8]AAsuncion,DNewman.UCImachinelearningrepository[DB/OL].(2007)[2015-03-31].http://www.ics.uci.edu/~mlearn/ML.Repository.html.
[9]HuangGuang-bin,ZhouHong-ming,DingXiao-juan,etal.Extremelearningmachineforregressionandmulticlassclassification[J].IEEETransactionsonSystemsManandCybernetics,2012,42(2):513-529.
表2 4種算法在無噪聲數(shù)據(jù)集上性能的比較
表3 4種算法在附加有10%噪聲的數(shù)據(jù)集上性能的比較
表4 4種算法在附加有20%噪聲的數(shù)據(jù)集上性能的比較
(責(zé)任編輯:朱寶昌)
Incremental Regularized Extreme Learning Machine Based on Improved Square Root Method and Its Application to Regression Problems
LI Xia,LIU Jian-ping,WANG Li-li
(School of Mathematics and Information Science & Technology,Hebei Normal University of Science & Technology,Qinhuangdao Hebei,066004,China)
This paper puts forward an incremental regularized extreme learning machine based on improved square root method (ISR-RELM). The method effectively reduces the amount of calculation for solving output weights in the process of increasing the hidden layer neurons. The experiment results of the nine benchmark data show that ISR-RELM not only has the advantage of high accuracy, but also uses less running time than three algorithms(ISR-RELM , LD-RELM and CF-RELM)in the literatures. Therefore, ISR-RELM is a novel and effective algorithm for regression problems.
regularized extreme learning machine; regression problems;improved square root method
10.3969/J.ISSN.1672-7983.2015.02.008
2015-03-31; 修改稿收到日期: 2015-06-25
O234
A
1672-7983(2015)02-0036-07
李霞(1980- ),女,在讀博士,講師。主要研究方向:人工智能算法。