熊勝華,周翠英
(中山大學(xué)工學(xué)院,廣東 廣州 510275)
混沌時(shí)間序列的建模與預(yù)測(cè)是當(dāng)今混沌理論研究的重要方向之一,而基于統(tǒng)計(jì)學(xué)習(xí)理論的最小二乘支持向量機(jī)(Least Squares Support Vector Machines,簡(jiǎn)稱(chēng)LSSVM),由于其采用結(jié)構(gòu)風(fēng)險(xiǎn)最小原則能最大程度地提高泛化能力和較好地解決非線性、高維數(shù)和局部極小值等實(shí)際問(wèn)題,因此在混沌時(shí)間序列預(yù)測(cè)方面也具有較好的應(yīng)用前景[1]。與傳統(tǒng)的支持向量機(jī)(Support Vector Machines,即SVM)相比[2-3],LSSVM把最優(yōu)化問(wèn)題中的求解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程組問(wèn)題,提高了算法的計(jì)算速度。但針對(duì)混沌時(shí)間序列的大樣本學(xué)習(xí),LSSVM法與SVM法一樣,具有內(nèi)存開(kāi)銷(xiāo)大、訓(xùn)練速度慢等缺點(diǎn)。因此,為了解決大樣本學(xué)習(xí)的問(wèn)題,許多學(xué)者對(duì)此開(kāi)展了研究,主要研究可以概述為二類(lèi):
一類(lèi)是利用某種縮減算法從整個(gè)大樣本集的學(xué)習(xí)序列中找出少量的有效的支持向量集,去除大量的對(duì)樣本學(xué)習(xí)貢獻(xiàn)較少的非支持向量集,縮短支持向量機(jī)的訓(xùn)練時(shí)間。如:羅瑜等[4]提出了一種利用類(lèi)別質(zhì)心去除非支持向量對(duì)應(yīng)的樣本,縮小樣本集的方法,該方法在不損失分類(lèi)正確率的情況下具有更快的收數(shù)速度;楊曉偉等[5]針對(duì)最小二乘支持向量機(jī)喪失稀疏性的問(wèn)題,提出了一種高效的剪枝算法,在訓(xùn)練的過(guò)程中,根據(jù)一些特定的剪枝條件利用塊增量學(xué)習(xí)和逆學(xué)習(xí)交替進(jìn)行的方法自動(dòng)形成一個(gè)小的支持向量集,并利用此集合構(gòu)造最終的分類(lèi)器;駱世廣等[6]考慮到SMO(Sequential Minimal Optimization,序貫最小優(yōu)化)算法對(duì)大樣本數(shù)據(jù)訓(xùn)練速度比較慢的問(wèn)題,根據(jù)在SVM的優(yōu)化過(guò)程中并不是所有樣本都影響優(yōu)化進(jìn)展的思路,提出了兩種刪除樣本的策略,一種是基于距離,另一種是基于拉格朗日乘子的值,從而大大縮短SMO的訓(xùn)練時(shí)間;另外還有田新梅等[7]、李紅蓮等[8]也做出過(guò)相應(yīng)的研究。
另一類(lèi)是利用某種分組算法將大樣本的訓(xùn)練集進(jìn)行細(xì)分,從而減少支持向量機(jī)每一次的存儲(chǔ)空間和計(jì)算時(shí)間,再利用帶有記憶功能的塊增量學(xué)習(xí)法進(jìn)行整體學(xué)習(xí),從而達(dá)到縮短支持向量機(jī)的整體訓(xùn)練時(shí)間的目的。如:張浩然等[9]根據(jù)分塊矩陣計(jì)算公式和核函數(shù)矩陣本身的特點(diǎn)設(shè)計(jì)了支持向量機(jī)的增量式學(xué)習(xí)算法和在線學(xué)習(xí)算法,該算法能充分利用歷史的訓(xùn)練結(jié)果,減少存儲(chǔ)空間和計(jì)算時(shí)間;張永等[10]基于數(shù)據(jù)分割和鄰近對(duì)策略,利用c-均值聚類(lèi)分別對(duì)數(shù)據(jù)集中的正負(fù)類(lèi)進(jìn)行聚類(lèi),把大數(shù)據(jù)集分割成互不相交的子集合,然后來(lái)自正負(fù)類(lèi)的子集合兩兩組合形成多個(gè)二分類(lèi)問(wèn)題,并用SMO算法求解,最后用鄰近對(duì)策略對(duì)未知數(shù)據(jù)進(jìn)行識(shí)別;Boser B等[11]提出了一種選塊算法解決大樣本數(shù)據(jù)下SVM的訓(xùn)練速度問(wèn)題,利用若干任意樣本構(gòu)成小規(guī)模訓(xùn)練集求解二次規(guī)劃問(wèn)題,得到一組支持向量,再將這些支持向量并入其它若干樣本中再次訓(xùn)練,又得到一組支持向量,循環(huán)這個(gè)過(guò)程,直到所有樣本都計(jì)算完畢。
綜上所述,無(wú)論采用哪一類(lèi)方法都可以達(dá)到減少大樣本訓(xùn)練時(shí)間的目的,但也都存在一些不足:第一類(lèi)方法的訓(xùn)練精度過(guò)分依賴于有效的支持向量集的選擇,如果縮減算法選擇不當(dāng),所選擇的支持向量集并不能概括大樣本訓(xùn)練集的重要發(fā)展規(guī)律,從而影響支持向量機(jī)的訓(xùn)練精度;第二類(lèi)方法精度在于分組算法的選擇,如果選擇不當(dāng),同樣對(duì)支持向量機(jī)的訓(xùn)練精度產(chǎn)生較大的影響。因此為了結(jié)合兩類(lèi)大樣本的支持向量機(jī)快速算法的優(yōu)點(diǎn),同時(shí)為了克服它們的不足,本文提出一種針對(duì)混沌時(shí)間序列的基于新的縮減策略的LSSVM預(yù)測(cè)模型:該模型利用混沌時(shí)間序列的平均周期將大樣本數(shù)據(jù)分解成不同的子集,將最后一個(gè)子集之外的其他子集利用拉格朗日乘子的值縮減一部分非支持向量,并將縮減后樣本與最后一子集進(jìn)行合并,利用相關(guān)系數(shù)縮減法縮減合并后的樣本集,并利用最小二乘支持向量機(jī)方法進(jìn)行回歸預(yù)測(cè)。
設(shè)樣本訓(xùn)練集,(x1,y1),...,(xi,yi),...(xn,yn),其中xi∈Rm,yi∈R,i=1,...,n,xi為輸入向量,yi為輸出向量。
混沌時(shí)間序列的預(yù)測(cè)問(wèn)題主要是解決函數(shù)回歸估計(jì)問(wèn)題,它是通過(guò)對(duì)訓(xùn)練集訓(xùn)練后找到一個(gè)函數(shù)f,使得對(duì)訓(xùn)練集以外的任一測(cè)試樣本xd,能夠找到與其對(duì)應(yīng)的yd=f(xd),并使yd與其真值y的偏差最小。
在回歸估計(jì)問(wèn)題方面,LSSVM方法在非線性、高維數(shù)和局部極小值等實(shí)際問(wèn)題具有明顯的優(yōu)點(diǎn)。在LSSVM原理中,它采用如下形式的函數(shù)對(duì)未知函數(shù)進(jìn)行估計(jì)[12-14]:
y(x)=wTΦ(x)+b
(1)
其中Φ:Rm→H,Φ稱(chēng)為特征映射,H稱(chēng)為特征空間,w這空間H中的權(quán)向量,b∈R為偏置。為了有效地解決上述回歸估計(jì)問(wèn)題,LSSVM通過(guò)引入損失函數(shù)將回歸估計(jì)問(wèn)題轉(zhuǎn)化為損失函數(shù)的風(fēng)險(xiǎn)最小化問(wèn)題,同時(shí)采用結(jié)構(gòu)化風(fēng)險(xiǎn)最小原則進(jìn)行風(fēng)險(xiǎn)最小化分析,得出如下優(yōu)化問(wèn)題[12-14]:
(2)
約束條件:
yk=wTΦ(xk)+b+ekk=1,2,…,n
(3)
式中,γ為可調(diào)正則化參數(shù),ek為誤差變量。
由于直接求解(2)比較困難,因此采用對(duì)偶理論求解并建立Lagrange方程:
(4)
其中αi為L(zhǎng)agrange乘子,優(yōu)化條件為[7]
(5)
為了求解(5)式,在LSSVM原理中,根據(jù)Mercer條件認(rèn)為存在核函數(shù)K(xk,xl),使得
K(xk,xl)=ΦT(xk)Φ(xl)
(6)
求解優(yōu)化條件式(5),消去w與ei,并將K(xk,xl)替換ΦT(xk)Φ(xl),最終將優(yōu)化問(wèn)題轉(zhuǎn)化為求解一個(gè)線性方程組:
(7)
其中為αi為拉格朗日(Lagrange)乘子,如果拉格朗日乘子的絕對(duì)值非常小,則對(duì)模型的回歸貢獻(xiàn)非常少,其對(duì)應(yīng)的樣本稱(chēng)為非支持向量,其他情況下拉格朗日乘子所對(duì)應(yīng)的樣本稱(chēng)為支持向量。
LSSVM算法采用最小二乘法求解式(7)表示的線性方程組,避免了標(biāo)準(zhǔn)支持向量機(jī)算法中求解凸二次規(guī)劃問(wèn)題,比傳統(tǒng)的支持向量機(jī)方法具有更快的訓(xùn)練速度和更優(yōu)的預(yù)測(cè)性能。因此,在求解混沌時(shí)間序列問(wèn)題時(shí)采用LSSVM算法解決非線性回歸問(wèn)題。
本文通過(guò)對(duì)大樣本混沌序列數(shù)據(jù)特性的分析,根據(jù)樣本集分割與樣本相關(guān)性的思想,建立了混沌時(shí)間序列的LSSVM預(yù)測(cè)模型,其構(gòu)建方法表述如下:
1) 重構(gòu)相空間,建立混沌時(shí)間序列的學(xué)習(xí)樣本集及測(cè)試樣本集:重構(gòu)相空間是混沌時(shí)間序列的基礎(chǔ),其關(guān)鍵是求出混沌時(shí)間序列的嵌入維數(shù)m以及時(shí)延τ。目前來(lái)說(shuō),單獨(dú)求時(shí)延方法有自相關(guān)法[15]、互信息法等[16],單獨(dú)求嵌入維的G-P 算法或FNN(Flase Nearest Neighbors)法等[17-18];同時(shí)求時(shí)延與嵌入維的方法有嵌入窗法[19]、C-C 方法等[20]。本文采用C-C法同時(shí)求嵌入維與時(shí)延。假設(shè)混沌時(shí)間序列表示為{x1,x2,x3,…,xn},其中,xi為混沌時(shí)間序列的實(shí)際值。求得的嵌入維數(shù)為m以及時(shí)延為τ,則重構(gòu)相空間后得到的樣本集如式(8)所示:
(8)
2) 利用快速傅立葉變換求解混沌時(shí)間序列的平均周期T,利用平均周期將大樣本學(xué)習(xí)數(shù)據(jù)集分解成多個(gè)不同的樣本子集,樣本子集個(gè)數(shù)為n,每個(gè)樣本子集的個(gè)數(shù)最大為T(mén)/m的取整數(shù);
3) 初始選取正則化參數(shù)C及核參數(shù)δ,也可以通過(guò)多次組合比較預(yù)測(cè)結(jié)果來(lái)選取合適的正則化參數(shù)C及核參數(shù)δ;
4) 對(duì)子集序號(hào)為1到n-1的樣本子集建立不同的LSSVM模型,利用拉格朗日乘子|αi|<θ1時(shí)對(duì)模型的回歸貢獻(xiàn)非常少的原理,從對(duì)應(yīng)的樣本子集中縮減其對(duì)應(yīng)的非支持向量;并將縮減后的樣本子集與最后一個(gè)樣本子集合并構(gòu)成新的學(xué)習(xí)樣本集X′;
(9)
(10)
7)利用相關(guān)系數(shù)縮減法縮減相關(guān)距離|di′| <θ2的對(duì)應(yīng)學(xué)習(xí)樣本,將余下樣本組成新的學(xué)習(xí)樣本集Xend;
8) 利用初始選取的正則化參數(shù)C及核參數(shù)δ對(duì)學(xué)習(xí)樣本集Xend建立LSSVM回歸模型,對(duì)測(cè)試樣本集進(jìn)行非線性回歸分析,最終輸出相應(yīng)的預(yù)測(cè)結(jié)果。
9) 為了衡量算法的預(yù)測(cè)精度,對(duì)測(cè)試數(shù)據(jù)采用均方誤差MSE作為評(píng)價(jià)標(biāo)準(zhǔn):
(11)
實(shí)驗(yàn)一:采用典型的混沌時(shí)間序列Lorenz方程驗(yàn)證本模型[21]:
σ=16r=45.92b=4
(12)
取初始值為(-1,0,1),積分步長(zhǎng)為0.01,利用四階Runge-Kutta算法求出Lorenz方程的數(shù)值解,為了從其數(shù)值解中取出具有明顯混沌特性的數(shù)據(jù)點(diǎn),本文正是從8 000個(gè)數(shù)據(jù)點(diǎn)后取出5 000個(gè)數(shù)據(jù)點(diǎn)進(jìn)行仿真實(shí)驗(yàn)。
將取出的5 000個(gè)數(shù)據(jù)點(diǎn)的x分量進(jìn)行預(yù)測(cè)分析,其中前4 000個(gè)數(shù)據(jù)點(diǎn)的x分量作為訓(xùn)練數(shù)據(jù),后 1 000個(gè)數(shù)據(jù)點(diǎn)的x分量作為測(cè)試數(shù)據(jù)。其混沌時(shí)間序列的LSSVM預(yù)測(cè)模型的建立過(guò)程可描述如下:
圖1 Lorenz函數(shù)的混沌時(shí)間序列的預(yù)測(cè)圖
將標(biāo)準(zhǔn)LSSVM模型對(duì)本文數(shù)據(jù)進(jìn)行同樣的預(yù)測(cè),其模型的初始化正則化參數(shù)C=100及核參數(shù)δ=10,將其預(yù)測(cè)結(jié)果與本文模型進(jìn)行比較,比較結(jié)果如表1所示。
表1 Lorenz函數(shù)的混沌時(shí)間序列預(yù)測(cè)結(jié)果對(duì)照表
實(shí)驗(yàn)二:具有混沌特性的Mackey-Glass時(shí)滯微分方程定義為[21]
a=0.2,τ=17,b=0.1
(13)
本文取初始值為1.2,步長(zhǎng)取0.1,通過(guò)四階龍格-庫(kù)塔方法求解產(chǎn)生混沌時(shí)間序列,從2 000個(gè)數(shù)據(jù)點(diǎn)后取出5 000個(gè)數(shù)據(jù)點(diǎn)進(jìn)行仿真實(shí)驗(yàn)。
將取出的5 000個(gè)數(shù)據(jù)點(diǎn)的x分量進(jìn)行預(yù)測(cè)分析,其中前4 000個(gè)數(shù)據(jù)點(diǎn)的x分量作為訓(xùn)練數(shù)據(jù),后1 000個(gè)數(shù)據(jù)點(diǎn)的x分量作為測(cè)試數(shù)據(jù)。其混沌時(shí)間序列的LSSVM預(yù)測(cè)模型的建模過(guò)程與實(shí)驗(yàn)一類(lèi)似,其預(yù)測(cè)結(jié)果圖如圖2所示。
圖2 Mackey-Glass函數(shù)的混沌時(shí)間序列的預(yù)測(cè)圖
將標(biāo)準(zhǔn)LSSVM模型對(duì)本文數(shù)據(jù)進(jìn)行同樣的預(yù)測(cè),其模型的初始化正則化參數(shù)C=100及核參數(shù)δ=10,將其預(yù)測(cè)結(jié)果與本文模型進(jìn)行比較,比較結(jié)果如表2所示。
表2 Mackey-Glass函數(shù)的混沌時(shí)間序列預(yù)測(cè)結(jié)果對(duì)照表
從兩個(gè)不同實(shí)驗(yàn)的混沌時(shí)間序列預(yù)測(cè)結(jié)果對(duì)照表可以看出,與標(biāo)準(zhǔn)的LSSVM預(yù)測(cè)模型相比,本文模型在選擇合適的臨界參數(shù)θ1、θ2后,大大縮減了原始的學(xué)習(xí)樣本,使模型學(xué)習(xí)速度得到大大提高,同時(shí)保證了預(yù)測(cè)精度基本不損失,有時(shí)會(huì)反而更好。這為混沌時(shí)間序列的預(yù)測(cè)提供了一種新的快速途徑。
最小二乘支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小原則,具有較強(qiáng)的泛化能力的機(jī)器學(xué)習(xí)方法,在混沌時(shí)間序列預(yù)測(cè)方面具有較好的應(yīng)用前景。但針對(duì)大樣本數(shù)據(jù)的學(xué)習(xí),最小二乘支持向量機(jī)方法具有內(nèi)存開(kāi)銷(xiāo)大、訓(xùn)練速度慢等缺點(diǎn)。因此,本文通過(guò)對(duì)大樣本混沌序列數(shù)據(jù)特性的分析,根據(jù)樣本集分割與樣本相關(guān)性的思想,建立了基于縮減策略下的混沌時(shí)間序列的LSSVM模型,通過(guò)相應(yīng)的仿真實(shí)驗(yàn)驗(yàn)證了本模型可以在預(yù)測(cè)精度基本不損失的基礎(chǔ)上具有較快的計(jì)算速度,為大樣本的混沌時(shí)間序列的問(wèn)題研究與預(yù)測(cè)提供了一種新的途徑。通過(guò)研究得到以下兩點(diǎn)認(rèn)識(shí):
1)混沌時(shí)間序列的預(yù)測(cè)問(wèn)題,只要預(yù)測(cè)方法選擇合適,預(yù)測(cè)參數(shù)選擇合理,可以同時(shí)得到較好的預(yù)測(cè)效果和較快的計(jì)算速度;
2)本文模型充分利用了最小二乘向量機(jī)具有較強(qiáng)的推廣預(yù)測(cè)能力和較好的預(yù)測(cè)精度的特點(diǎn),且采用了樣本集分割與樣本相關(guān)性的思想,使其在基本不損失預(yù)測(cè)精度的基礎(chǔ)上大大提高了其計(jì)算速度,通過(guò)實(shí)例證明本模型的實(shí)用性。
參考文獻(xiàn):
[1] 江田漢, 束炯. 基于LSSVM的混沌時(shí)間序列的多步預(yù)測(cè)[J]. 控制與決策, 2006, 21(1):77-80.
[2] 劉德地, 陳曉宏. 基于偏最小二乘回歸與支持向量機(jī)耦合的咸潮預(yù)報(bào)模型[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版, 2007,46 (4): 89-92.
[3] 陳振洲, 李磊, 姚正安. 基于SVM的特征加權(quán)KNN算法[J]. 中山大學(xué)學(xué)報(bào):自然科學(xué)版, 2005,44 (1): 17-20.
[4] 羅瑜, 易文德, 王丹珠,等. 大規(guī)模數(shù)據(jù)集下支持向量機(jī)訓(xùn)練樣本的縮減策略[J]. 計(jì)算機(jī)科學(xué), 2007, 34(10): 211-213.
[5] 楊曉偉, 路節(jié), 張廣全. 一種高效的最小二乘支持向量機(jī)分類(lèi)器剪枝算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2007, 44(7): 1128-1136.
[6] 駱世廣, 駱昌日. 加快SMO算法訓(xùn)練速度的策略研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43(13):184-187.
[7] 田新梅, 吳秀清, 劉莉. 大樣本情況下的一種新的SVM迭代算法[J]. 計(jì)算機(jī)工程, 2007, 33(8): 205-207.
[8] 李紅蓮, 王春花, 袁保宗. 一種改進(jìn)的支持向量機(jī)NN-SVM[J]. 計(jì)算機(jī)學(xué)報(bào), 2003, 26(8): 1015-1020.
[9] 張浩然, 汪曉東. 回歸最小二乘支持向量機(jī)的增量和在線式學(xué)習(xí)算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2006, 29(3): 400-406.
[10] 張永, 楊曉偉. 基于數(shù)據(jù)分割和近鄰對(duì)的快速SVM分類(lèi)算法[J]. 科學(xué)技術(shù)與工程, 2007, 7(21): 5563-5566.
[11] BOSER B, GUYON I, VAPNIK V. A training algorithm for optimal margin classifiers[C]∥Haussler D. Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory. ACM Press, 1992.
[12] 董瑤, 潘國(guó)峰, 夏克文,等. 一種改進(jìn)的LS-SVM算法及其應(yīng)用[J]. 石油地球物理勘探, 2007, 42(6): 673-677.
[13] 夏克文, 董瑤, 杜紅斌. 基于改進(jìn)PSO算法的LS-SVM油層識(shí)別模型[J]. 控制與決策, 2007, 22(12): 1385-1389.
[14] 王旭輝, 黃圣國(guó), 曹力, 等. 基于LS-SVM的航空發(fā)動(dòng)機(jī)氣路參數(shù)趨勢(shì)在線預(yù)測(cè)[J]. 吉林大學(xué)學(xué)報(bào):工學(xué)版, 2008, 38(1): 239-244.
[15] KANTZ H,SCHREIBER T. Nonlinear time series analysis[M]. Cambridge: Cambridge University Press, 1997.
[16] FRASER A M,SWINNEY H L. Independent coordinates for strange attractors form time series[J]. Phys Rev A,1986, 33: 1134-1140.
[17] GRASSBERGER P,PROCACCIA I. Measuring the strangeness of strange attractors[J]. Physica D, 1983, 9: 189-208.
[18] KENNEL M B,BROWN R,ABARBANEL H D I. Determining embedding dimension for phase-space reconstruction using a geometrical construction[J]. Phys Rev A, 1992, 45: 3403.
[19] KUGIURMTZIS D. State space reconstruction parameters in the analysis of chaotic times series-the role of the time window length[J]. Physica D, 1996, 95: 13-28.
[20] KIM H S,EYKHOLT R,SALAS J D. Nonlinear dynamics delay times and embedding windows[J]. Physica D, 1999, 127: 48-60.
[21] 王永生, 范洪達(dá), 尚崇偉, 等. 混沌時(shí)間序列的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)研究[J]. 海軍航空工程學(xué)院學(xué)報(bào), 2008, 23(1): 21-25, 32.
中山大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文)2011年1期