李榮雨,王立明
(南京工業(yè)大學(xué)電子與信息工程學(xué)院,江蘇南京 211816)
?
改進(jìn)遞推最小二乘支持向量機(jī)及在過(guò)程建模中的應(yīng)用
李榮雨,王立明
(南京工業(yè)大學(xué)電子與信息工程學(xué)院,江蘇南京 211816)
針對(duì)流程工業(yè)存在多變量、非線性和數(shù)據(jù)動(dòng)態(tài)性等問(wèn)題,提出一種改進(jìn)遞推最小二乘支持向量機(jī)。該算法首先利用K均值算法(Kmeans)將訓(xùn)練樣本分類,然后針對(duì)各聚類用人工魚(yú)群算法(Artificial Fish Swarm Algorithm,AFSA)對(duì)最小二乘支持向量機(jī)參數(shù)進(jìn)行優(yōu)化,以避免人為選擇最小二乘支持向量機(jī)參數(shù)的盲目性,最后在各聚類基礎(chǔ)上建立相應(yīng)在線遞推最小二乘支持向量機(jī)模型。在加氫裂化反應(yīng)過(guò)程蒸餾塔航煤干點(diǎn)的軟測(cè)量建模研究中,表明所提出算法的有效性和優(yōu)越性。
聚類分析;人工魚(yú)群算法;最小二乘支持向量;在線遞推;軟測(cè)量
非線性以及在線過(guò)程辨識(shí)始終是自動(dòng)化控制領(lǐng)域的研究熱點(diǎn)[1-2]。近年來(lái)軟測(cè)量技術(shù)在工業(yè)過(guò)程中獲得了廣泛的發(fā)展和應(yīng)用,最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)由于具有良好的有限樣本建模能力,且僅需求解線性方程組,因此成為眾多學(xué)者研究的熱點(diǎn)[3-4]。離線建立的模型由于工業(yè)過(guò)程的時(shí)變特性已不能滿足要求,在線更新模型成為了現(xiàn)階段研究的熱點(diǎn)[5]。
針對(duì)工業(yè)過(guò)程的非線性和時(shí)變性, 一個(gè)模型很難至始至終通過(guò)自適應(yīng)改變參數(shù)來(lái)保證準(zhǔn)確運(yùn)行,而且建立一個(gè)模型要想包含所有的樣本特征必然導(dǎo)致樣本空間偏大,帶來(lái)計(jì)算上的時(shí)間消耗,同時(shí)削弱在線更新階段對(duì)模型的修正。本文在離線建立模型階段提出用Kmeans聚類分析算法先對(duì)訓(xùn)練樣本進(jìn)行聚類分析,得出幾個(gè)不同的聚類, 然后在各個(gè)聚類中分別用相應(yīng)的數(shù)據(jù)進(jìn)行建模,以此來(lái)提高訓(xùn)練樣本的代表性。同時(shí)針對(duì)LSSVM不同的參數(shù)對(duì)預(yù)測(cè)結(jié)果有很大影響,本文提出運(yùn)用人工魚(yú)群算法尋找最優(yōu)的LSSVM參數(shù)。最后針對(duì)滑動(dòng)時(shí)間窗[5-7]存在諸如:隨窗口滑動(dòng)增/刪個(gè)別數(shù)據(jù),只能適應(yīng)緩慢變化的工業(yè)過(guò)程;數(shù)據(jù)窗口長(zhǎng)度的選取沒(méi)有一個(gè)規(guī)范等缺點(diǎn),本文提出當(dāng)預(yù)報(bào)誤差偏大時(shí)向相應(yīng)聚類樣本集加入新特征樣本,作為在線更新的前向?qū)W習(xí)。而在線更新的后向?qū)W習(xí)時(shí)采用樣本間的距離和角度信息來(lái)選擇性刪除樣本。文中的仿真部分把該模型運(yùn)用到加氫裂化第一分餾塔航煤干點(diǎn)的預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明該模型有較好的泛化能力和較高的學(xué)習(xí)效率,具有較高的預(yù)報(bào)性能。
1.1 離線LSSVM建模方法
傳統(tǒng)支持向量回歸[8]是求解一個(gè)受約束的二次型規(guī)劃問(wèn)題,計(jì)算復(fù)雜性較大,Suykens[9]提出了LSSVM,它把支持向量機(jī)的學(xué)習(xí)問(wèn)題轉(zhuǎn)化為解線性方程組問(wèn)題,定義如下優(yōu)化問(wèn)題:
(1)
式中:x∈R;y∈R;非線性核函數(shù)φ(x)將輸入空間映射為高維特征空間;λ是懲罰系數(shù),用于控制模型解的光滑度,其值大小代表對(duì)誤差的懲罰力度。
用拉格朗日乘子法求解這個(gè)優(yōu)化問(wèn)題,得到拉格朗日函數(shù)如下:
(2)
式中:ak∈R,是拉格朗日乘子。
對(duì)拉格朗日函數(shù)各參數(shù)求導(dǎo)得到式(3)
(3)
定義核函數(shù)K(xi,xj)=φ(xi,xj)。消去式(3)中的w以及ek, 優(yōu)化問(wèn)題可以轉(zhuǎn)化為求解線性方程組(4)
(4)
最后得到非線性模型
(5)
由式(5)知,LSSVM模型的建立在于參數(shù)ak(k=1,…,N)和b的確定。離線LSSVM由一組訓(xùn)練樣本計(jì)算出模型的參數(shù),然后用這個(gè)模型對(duì)檢驗(yàn)樣本進(jìn)行預(yù)測(cè),在整個(gè)預(yù)測(cè)過(guò)程中模型的參數(shù)保持不變。
文中核函數(shù)選取徑向基函數(shù),其表達(dá)式如式(6)所示
(6)
式中σ是徑向基函數(shù)的核寬度。
1.2 在線遞推LSSVM建模方法
在線學(xué)習(xí)算法的核心是必須在采樣周期內(nèi)完成一次完整的運(yùn)算,因而必須降低算法的計(jì)算復(fù)雜度。
將式(4)進(jìn)行轉(zhuǎn)化,得到式(7)
(7)
(8)
式中:N表示當(dāng)前模型依靠前N個(gè)數(shù)據(jù)。
當(dāng)?shù)贜+1個(gè)數(shù)據(jù)到來(lái)時(shí),將新樣本(xN+1,yN+1)加入到模型中,可得式(9)
(9)
根據(jù)分塊矩陣求逆公式[9],可得:
(10)
代入式(9)可以得到更新后的LSSVM模型參數(shù)。
(11)
由式(8)~式(11)看出,LSSVM模型的參數(shù)能夠以遞推的方式更新,而且不需要重復(fù)矩陣求逆的運(yùn)算,運(yùn)算量明顯降低。
2.1 Kmeans 聚類算法介紹
MacQueen提出了Kmeans算法,算法核心思想是將樣本數(shù)據(jù)集分為k個(gè)簇,各簇內(nèi)樣本保持較高的相似性, 而各簇間的樣本相似程度較低[10],具體方法如下:
(12)
(4)更新各簇的中心,更新方法如下:
(13)
(5)計(jì)算數(shù)據(jù)集D中所有點(diǎn)的平方誤差Ej,并與前一次的Ej-1比較。其中
式中n為每一個(gè)聚類的樣本數(shù)目。
若|Ej-Ej-1|<δ,算法結(jié)束,這里的δ為設(shè)定的平方誤差限。否則轉(zhuǎn)入(2)再次迭代;
(6)輸出各聚類的中心以及分類后各聚類包含的樣本。
2.2 人工魚(yú)群算法優(yōu)化LSSVM模型參數(shù)
對(duì)LSSVM建模過(guò)程分析可知,LSSVM的學(xué)習(xí)性能主要取決于懲罰系數(shù)λ和核函數(shù)寬度σ,當(dāng)前常用的LSSVM參數(shù)優(yōu)化算法為[11]:遺傳算法和粒子群優(yōu)化算法等,然而這些算法耗時(shí)長(zhǎng)、易陷入局部極值。人工魚(yú)群算法[12]具有并行性、收斂速度快、能快速跳出局部極值等優(yōu)點(diǎn),本文采用AFSA來(lái)優(yōu)化LSSVM的參數(shù)。
(1)覓食行為。設(shè)人工魚(yú)i當(dāng)前狀態(tài)為Xi,在其視野范圍(Visual)內(nèi)隨意選擇一個(gè)人工魚(yú)j:
Xj=Xi+Visual×rand()
(14)
若Xj狀態(tài)的解優(yōu)于Xi,則人工魚(yú)i向著人工魚(yú)j前進(jìn)一步,設(shè)Step為移動(dòng)步長(zhǎng),可以得到:
(15)
(16)
(4)隨機(jī)行為。人工魚(yú)隨機(jī)選擇視野范圍內(nèi)一個(gè)狀態(tài),向該方向移動(dòng):
(17)
在AFSA優(yōu)化LSSVM參數(shù)中,各人工魚(yú)的狀態(tài)Xi分別為一組λ與σ的值,而各人工魚(yú)狀態(tài)的解是將預(yù)測(cè)樣本代入LSSVM得到的預(yù)測(cè)值(Ypredict)與真實(shí)值(Ytrue)偏差的平方,如式(18)所示:
(18)
2.3 改進(jìn)遞推LSSVM建模方法
首先將訓(xùn)練數(shù)據(jù)利用Kmeans聚類算法進(jìn)行分類,得出各聚類中心以及各樣本所屬的聚類,再初始化LSSVM模型參數(shù)(λ,σ )的范圍,以聚類為單位,針對(duì)各個(gè)聚類,分別用人工魚(yú)群算法計(jì)算出最優(yōu)的LSSVM參數(shù)λ和σ。
模型在線遞推階段,當(dāng)過(guò)程的實(shí)際值(Ytrue)和預(yù)測(cè)值(Ypredict)的誤差超出范圍時(shí),即:
e=|Ytrue-Ypredict|>δ
(19)
把(Xk,Yk)作為新的關(guān)鍵節(jié)點(diǎn)加入模型,并采用式(9)、式(10)遞推更新模型,提高LSSVM模型的稀疏性和泛化能力。當(dāng)樣本集增長(zhǎng)到一定程度時(shí),傳統(tǒng)的滑動(dòng)時(shí)間窗[13]方法是去掉最舊的樣本,但這無(wú)法保證去掉的樣本給原有模型造成的損失最小。本文提出了一種采用樣本間的距離和角度信息來(lái)描述樣本間的相似度的方法, 即當(dāng)前待預(yù)報(bào)新樣本Xtest與樣本集中樣本Xi的相似程度可表示為:
Stesti=ρ‖Xi-Xtest‖+(1-ρ)cos(θtesti)
(20)
式中ρ為權(quán)系數(shù)。
獲得相似度后,進(jìn)行排序,剔除相似性最小的樣本,采用式(11)更新模型參數(shù)以限制LSSVM模型的樣本規(guī)模,降低計(jì)算復(fù)雜度。
整個(gè)在線遞推最小二乘支持向量機(jī)方法流程圖如圖1所示。
圖1 在線遞推最小二乘支持向量機(jī)建模步驟
常壓塔是煉油企業(yè)常減壓蒸餾過(guò)程中的重要裝置, 其主要餾分有航空煤油。其中干點(diǎn)是衡量航煤質(zhì)量的指標(biāo), 目前有兩種方法獲得: 一是采樣化驗(yàn)法,時(shí)滯性比較嚴(yán)重;二是工業(yè)色譜儀分析法,但費(fèi)用高、維護(hù)困難。因此采用軟測(cè)量模型來(lái)預(yù)測(cè)航煤干點(diǎn)。以某石化公司的加氫裂化裝置為研究背景,加氫裂化第一分餾塔示意圖如圖2所示。
圖2 加氫裂化分餾塔示意圖
將上圖13個(gè)變量作為模型的輸入變量,以分餾塔的航煤干點(diǎn)作為輸出變量,可以建立軟測(cè)量模型,具體如式(21)所示:
Y=f(Th,Fh,Tj,Fj,Tr,Fr,Ttop,Ptop,Tin,F(xiàn)in,Tb,F(xiàn)b,FL)
(21)
對(duì)現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行采集,并剔除病態(tài)數(shù)據(jù),共采集了200組數(shù)據(jù)。將其中的150組作為訓(xùn)練數(shù)據(jù),剩下的50組作為測(cè)試數(shù)據(jù)。
離線建模階段先將150組訓(xùn)練數(shù)據(jù)利用Kmeans聚類算法進(jìn)行分析,其中聚類數(shù)目的確定是建立在對(duì)歷史數(shù)據(jù)分析以及結(jié)合現(xiàn)場(chǎng)工況的基礎(chǔ)之上,本文確定聚類數(shù)目為3(Cluster1、Cluster2、Cluster3),得出各聚類的樣本數(shù)見(jiàn)表1。
表1 各聚類樣本數(shù)目
以聚類為單位,初始化LSSVM模型的參數(shù)(λ,σ)的范圍:λ=[0,100],σ=[0,20]。各聚類LSSVM模型的參數(shù)λ和σ經(jīng)AFSA尋優(yōu)后結(jié)果如表2所示。
表2 經(jīng)AFSA計(jì)算出各聚類LSSVM模型的參數(shù)
若將整個(gè)150組訓(xùn)練樣本作為一個(gè)模型的輸入樣本,同樣用人工魚(yú)群算法優(yōu)化其參數(shù),則得到LSSVM模型的參數(shù)λ=500,σ=2.25。
以分類后屬于某一聚類的測(cè)試樣本為例,進(jìn)行加氫裂化第二分餾塔航煤干點(diǎn)的預(yù)測(cè),圖3為單模型LSSVM與Kmeans+LSSVM多模型仿真結(jié)果對(duì)比圖。
圖3 單模型與Kmeans+LSSVM多模型仿真結(jié)果
從圖3可以看出,利用Kmeans劃分聚類,然后分塊建模可以提高樣本的代表性,從而提高航煤干點(diǎn)預(yù)測(cè)的準(zhǔn)確度。
針對(duì)模型的在線遞推更新,本文提出當(dāng)過(guò)程的實(shí)際值Ytrue和預(yù)測(cè)值Ypredict的誤差超出一定范圍時(shí),將(Xk,Yk)作為新的關(guān)鍵節(jié)點(diǎn)加入模型。同時(shí)當(dāng)各聚類樣本數(shù)超過(guò)設(shè)定數(shù)目時(shí),根據(jù)樣本間的距離和角度信息選擇性剔除樣本,使樣本規(guī)模保持在合理范圍。利用50組測(cè)試樣本對(duì)模型進(jìn)行測(cè)試,模型仿真結(jié)果如圖4所示。
圖4 改進(jìn)LSSVM模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比
圖5為離線LSSVM模型以及基于時(shí)間窗的遞推LSSVM軟測(cè)量模型預(yù)測(cè)結(jié)果與實(shí)際值對(duì)比圖。
圖5 離線LSSVM以及基于時(shí)間窗的LSSVM模型預(yù)測(cè)結(jié)果
為了評(píng)價(jià)模型預(yù)測(cè)性能,分別使用預(yù)測(cè)均方誤差(RMSE)和命中率HR(誤差為±0.5 ℃)對(duì)模型準(zhǔn)確性進(jìn)行分析。表3列出了具體各方法對(duì)應(yīng)的模型性能指標(biāo)。
表3 各模型性能指標(biāo)對(duì)比統(tǒng)計(jì)
從表3和圖4、圖5可以看出,本文提出的在線遞推LSSVM模型與離線LSSVM模型以及基于時(shí)間窗的LSSVM模型相比,均方誤差更小,命中率更高,更好地反映了航煤干點(diǎn)的變化趨勢(shì)。在50組檢驗(yàn)樣本中,采用本文提出的改進(jìn)LSSVM模型的均方差為0.42 ℃,顯示出更高的擬合精度和泛化能力。
工業(yè)過(guò)程原料隨批次的波動(dòng)大,配方和工藝變換頻繁,非線性、時(shí)變性和不確定性嚴(yán)重,且只能得到有限的質(zhì)檢結(jié)果,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和多變量回歸等方法難以準(zhǔn)確預(yù)報(bào)。本文提出通過(guò)聚類分析劃聚類,再針對(duì)各聚類分別建立LSSVM模型,并且提出新的在線遞推更新LSSVM模型的策略,最后將該模型應(yīng)用到加氫裂化第一分餾塔航煤干點(diǎn)的預(yù)測(cè)。和傳統(tǒng)的離線LSSVM以及基于時(shí)間窗的遞推LSSVM模型對(duì)比可以發(fā)現(xiàn),本文提出的算法命中率更高,更好地反映了航煤干點(diǎn)的變化趨勢(shì),具有更好的泛化能力和學(xué)習(xí)效率,適合工業(yè)過(guò)程質(zhì)量的在線預(yù)報(bào)。
[1] LJUNG L,HJALMARSSIN H,OHLSSON H. Four encounters with system identification.European Journal of Control,2011,17(5):449-471.
[2] HIMMELBLAU D M.Accounts of experiences in the application of artificial neural networks in chemical engineering.Industrial and Engineering Chemistry Research,2008,47(16):5782-5796.
[3] CHEN K, J J, WANG H,et al. Adaptive local kernel -based learning for soft sensor modeling of nonlinear processes.Chemical Engineering Research and Design,2011,89(10):2117-2124.
[4] SUYKENS J A K,VAN GESTEL T,DE BRABANTER J,et al.Least Squares Support Vector Machines.Singapore:World Scientific,2002,2(11):285-288.
[5] KADLEC P,GRBIC R,GABRYS B.Review of adaptation mechanisms for data-driven soft sensors.Computers & chemical Engineering,2011,35(1):1-24.
[6] LIU Y ,WANG H Q,YU J,et al.Selective recursive kernel learning for online identification of nonlinear systems with NARX form.Journal of Process Control,2010,20(2):181-194.
[7] FORTUNA L,GRAZIANI S,RIZZO A,et al.Soft sensors for monitoring and control of industrial processes.Springer,Berlin,2010.
[8] TAYLOR J, CRISTIANINI N. Kernel methods for pattern analysis.Cambridge,UK: Cambridge University Press,2004.
[9] SUYKENS,VANDEWALE J.Least squares support vector machine classifiers.Neural Processing Letters, 1999,9(3):293-300.
[10] 毛國(guó)君.數(shù)據(jù)挖掘原理與算法.北京:清華大學(xué)出版社,2005.
[11] 黃磊,張書畢,王亮亮,等.粒子群最小二乘支持向量機(jī)在GPS高程擬合中的應(yīng)用.測(cè)繪科學(xué),2010,35(5):190-192.
[12] 李曉磊.一種新型的智能優(yōu)化方法—人工魚(yú)群算法:[學(xué)位論文].杭州:浙江大學(xué),2003.
[13] TANG H S,XUE S T,CHEN R.Online weighted LS-SVM for hysteretic structural system identification.Engineering Structures,2006,28(12):1728-1735.
Improved Recursive Least Squares Support Vector Machine and Its Applications in Process Modeling
LI Rong-yu, WANG Li-ming
(College of Electronics and Information Engineering, Nanjing Tech University, Nanjing 211816, China)
Considering the problem of multivariable, nonlinear and dynamic date in industry process, an improved recursive least squares support vector machine was proposed. First, the algorithm used Kmeans to divide the training sample into several clusters. Then, for each cluster, this paper separately used artificial fish algorithm to calculate the optimal parameters of least squares support vector machine, avoiding the blindness of selecting the parameters of least squares support vector machine. Finally, online recursive least squares support vector machine model in each cluster was set up. In distillation tower of hydro cracking reaction, the soft measurement modeling of Jet fuel obtained highly precise and effective prediction.
cluster analysis; artificial fish algorithm; least squares support vector; online recursive; soft sensor
2014-10-17 收修改稿日期:2015-06-10
TP273;TP301.6
A
1002-1841(2015)09-0091-04
李榮雨(1977—),副教授,研究方向:工業(yè)系統(tǒng)的監(jiān)控與先進(jìn)控制。 王立明(1989—),碩士,研究方向:復(fù)雜過(guò)程的先進(jìn)控制, E-mail: wlm890522@163.com