戎 舟,李佳慶
(南京郵電大學(xué)自動化學(xué)院,江蘇南京 210003)
?
稀疏LSSVM在4-CBA軟測量建模中的應(yīng)用
戎 舟,李佳慶
(南京郵電大學(xué)自動化學(xué)院,江蘇南京 210003)
針對最小二乘支持向量機(LSSVM)缺失稀疏性問題,采用遺傳算法對其模型進行稀疏化。算法思想如下:對LSSVM初始模型的核函數(shù)項進行二進制編碼,采用遺傳算法對二進制串進行尋優(yōu),將求得的最優(yōu)個體解碼,“1”代表選取該位置對應(yīng)樣本,“0”代表舍去該位置對應(yīng)的樣本,解碼求得的樣本集再次建模,重復(fù)上述稀疏過程,以每次測試樣本相對誤差的標準差為依據(jù),當偏差率超過10%,則不再稀疏。將該算法應(yīng)用于4-CBA(4-羥基苯甲醛)軟測量建模過程,結(jié)果表明,采用遺傳算法進行稀疏化的LSSVM模型,支持向量能稀疏70%左右,在保證預(yù)測精度的同時,大大提升了模型的效率。
LSSVM;稀疏化;遺傳算法;軟測量
軟測量技術(shù)[1-2]源于20世紀70年代Brosilow等提出的推斷控制思想,發(fā)展至今,由于采用的理論工具和所針對的實際對象的不同,已形成多種軟測量方法[3]。支持向量機[4](support vector machine,SVM)是20世紀90年代由Vapnik等提出的一種基于統(tǒng)計學(xué)習(xí)理論的學(xué)習(xí)方法,它采用結(jié)構(gòu)風險最小化原則,具有小樣本學(xué)習(xí)能力強、模型泛化性能好、能夠處理高維數(shù)據(jù)的優(yōu)點。最小二乘支持向量機[5](Least Squares Support Vector Machine,LSSVM)則是基于SVM的一種改進算法。與一般SVM不同的是,LSSVM采用最小二乘線性系統(tǒng)作為損失函數(shù),將傳統(tǒng)的SVM直接采用二次規(guī)劃方法解決分類和函數(shù)估計問題轉(zhuǎn)化為求解線性方程問題,降低了計算復(fù)雜性,提升了運算速度。作為SVM方法的一個改進型,LSSVM繼承了SVM方法的許多優(yōu)點,但同時也失去了稀疏性。
針對LSSVM的稀疏性問題,文獻[6]提出通過修剪支持向量來實現(xiàn)對最小二乘支持向量的稀疏,但該方法必須先求出非稀疏解,解一系列線性方程組的根,增加了算法的復(fù)雜性。文獻[7]提出了一種基于特征提取的方法,該方法是將分布在原有特征中的分類信息集中到較少數(shù)量的特征中,以達到降低樣本維數(shù),實現(xiàn)稀疏化的過程,然而,該方法過分依賴于訓(xùn)練樣本集的選取,若所選子集并不能代表原始樣本數(shù)據(jù)的特性,將會影響最終預(yù)測的效果。文獻[8]提出通過在特征空間中尋找樣本的最大無關(guān)組來解決解的稀疏性問題。該方法對LSSVM參數(shù)的選取有著較高的要求,選取不當,將會影響最大無關(guān)向量的數(shù)目,從而對函數(shù)的擬合能力造成影響。
針對上述問題,本文采用遺傳算法(genetic algorithm,GA)來實現(xiàn)對LSSVM的稀疏化處理。算法在運行時,采用最優(yōu)個體保存策略,以保護每代優(yōu)良個體遺傳到下一代時不被破壞[9]。
1.1 遺傳算法簡介
遺傳算法(Genetic Algorithm,GA)的思想最早是20世紀60年代由美國Michigan大學(xué)的Holland教授提出的[10]。基本遺傳算法包括選擇、交叉、變異三種遺傳操作[11]。選擇操作常用的方法是輪盤賭法,該方法核心思想是個體被選擇概率與其適應(yīng)度值成正比,個體在群體環(huán)境中的適應(yīng)度值越大,則被選中的概率越大,其遺傳基因就越容易在種群中擴大;交叉操作是遺傳算法的核心,對兩個不同個體相同位置上的基因進行交換,從而產(chǎn)生新的個體,交叉操作概率一般選在0.4~0.9之間,過小會讓算法變得遲緩,過大則有可能會破壞優(yōu)良個體;變異操作是讓染色體上的某些基因按一定的變異概率發(fā)生變化,產(chǎn)生新的個體,變異概率一般選在0.001~0.1之間。
1.2 最小二乘支持向量機
(1)
將拉格朗日法引入上述優(yōu)化問題的求解,上述優(yōu)化問題則可轉(zhuǎn)化為如下的二次規(guī)劃問題:
(2)
根據(jù)KKT條件可得:
(3)
根據(jù)推導(dǎo)方程(3),消去其中的w和e可得如下方程:
(4)
定義核函數(shù)K(xi,xj)=φ(xi)·φ(xj),本文采用的核函數(shù)是徑向基核函數(shù)K(xi,xj)=exp{-||xi-xj||2/σ2},其中σ為核參數(shù)。根據(jù)上式方程,優(yōu)化問題可轉(zhuǎn)化為求解如下矩陣方程:
(5)
解上述矩陣方程,求得系數(shù)a與b,即可得如下LSSVM模型:
(6)
1.3 基于遺傳算法的LSSVM稀疏優(yōu)化過程
通過對GA算法以及對LSSVM稀疏性的分析,本文采用GA算法用于對LSSVM的多次稀疏化過程。對LSSVM模型中的核函數(shù)項進行二進制編碼,通過選擇、交叉、變異操作對種群中個體進行篩選,多次迭代后產(chǎn)生最佳個體,解碼得出對應(yīng)的支持向量,將此支持向量作為新的訓(xùn)練樣本集,再次建立LSSVM模型。重復(fù)上述稀疏過程,直至測試樣本相對誤差標準差的偏差率超過10%。
單次稀疏過程是將當前訓(xùn)練樣本建立LSSVM模型,對其預(yù)測模型中的核函數(shù)項進行隨機二進制編碼,產(chǎn)生初代種群,種群中的任一個個體即為一組核函數(shù)項K(x,xk)的隨機組合,其中,“1”代表選取該位置對應(yīng)樣本,“0”代表舍棄。采用遺傳算法對種群進行尋優(yōu),取測試樣本誤差平方和的倒數(shù)作為適應(yīng)度函數(shù),將求得的最優(yōu)個體解碼,取得新的訓(xùn)練樣本集。將新的訓(xùn)練樣本集再次進行LSSVM建模,算取測試樣本相對誤差的標準差,判斷是否再次稀疏。
LSSVM模型有兩個參數(shù):正則化參數(shù)c和核參數(shù)σ,它們的選取對模型有著極大的影響,因此在每次產(chǎn)生新的支持向量后都要對其進行尋優(yōu)處理。本文采用的是網(wǎng)格搜索算法[13],首先,c和σ在[2-7,29]范圍上以步進為1進行粗搜,采用K-fold交叉驗證方法評價各網(wǎng)點的性能,得到性能最好的兩個參數(shù)組合bestc0和bestσ0;然后c和σ分別在[bestc0/2,bestc0×2]及[bestσ0/2,bestσ0×2]范圍上以步進為0.1再進行細搜,最終最佳參數(shù)組合[bestc,bestσ]。
GA-LSSVM算法實現(xiàn)的具體步驟如下:
(1)采集所需樣本數(shù)據(jù),確定訓(xùn)練樣本集和測試樣本集;
(2)調(diào)用尋優(yōu)算法對正則化參數(shù)c和核參數(shù)σ進行參數(shù)尋優(yōu);
(3)將訓(xùn)練樣本集進行LSSVM建模,求出測試樣本相對誤差的標準差;
(4)對模型中的核函數(shù)項K(x,xk)進行二進制編碼,產(chǎn)生初始種群,采用GA算法,通過選擇、交叉、變異操作對種群中個體進行篩選,多次迭代后得出最優(yōu)個體;
(5)將(4)中得到的最優(yōu)個體對照原訓(xùn)練樣本解碼,選取位置為“1”所對應(yīng)樣本,組成新的訓(xùn)練樣本;
(6)將新的訓(xùn)練樣本調(diào)用尋優(yōu)算法進行參數(shù)尋優(yōu),然后對其再次建模得到新模型,用此模型對測試樣本集進行預(yù)測,算出相對誤差的標準差;
(7)求取相對誤差標準差的偏差率。若偏差率超過10%,稀疏過程終止,取上一次稀疏結(jié)果作為最終的LSSVM模型;否則返回步驟(4);
(8)用最終稀疏后的LSSVM模型對新樣本進行預(yù)測和分析。
本文以某化纖廠PTA生產(chǎn)工藝為研究對象,對其中間產(chǎn)物4-CBA(4-羥基苯甲醛)的濃度建立LSSVM預(yù)測模型。4-CBA是PTA生產(chǎn)工藝中的主要有色副產(chǎn)物,也是PTA產(chǎn)品的重要質(zhì)量指標。根據(jù)文獻[14]對PTA生產(chǎn)工藝的研究,4-CBA含量過低會增加PX(對二甲苯)的單耗,因此,為了節(jié)約能耗,必須保證其含量在某一特定范圍內(nèi)。但在實際的生產(chǎn)過程中,由于4-CBA無法在線實時分析,離線分析存在滯后時間,無法滿足控制要求,因此,需要對4-CBA的濃度建立較精確的軟測量預(yù)測模型。
本文根據(jù)現(xiàn)場經(jīng)驗和過程機理選擇4-CBA軟測量建模的輸入變量分別為:反應(yīng)器液位、反應(yīng)器溫度、反應(yīng)器尾氧含量、反應(yīng)生成的CO2含量、反應(yīng)生成的CO含量、混合罐進料流量、反應(yīng)氧化器進料流量、催化劑濃度、第一結(jié)晶器溫度約束、第一結(jié)晶器的尾氧含量、第三冷凝器排出水量、第四冷凝器排出水量。
樣本的采集時間從2002年的9月到12月,選擇其中的200組數(shù)據(jù)作為初始樣本數(shù)據(jù)。將其中的前100組作為訓(xùn)練樣本,后100組作為測試樣本。采集2003年的100組數(shù)據(jù),用于最終稀疏后模型的分析。遺傳算法中的參數(shù)設(shè)置如下,其中,進化的代數(shù)maxgen=20,種群的規(guī)模sizepop=100,交叉概率pcross=0.4,變異概率pmutation=0.1。
首先對100組初始訓(xùn)練樣本集建立LSSVM模型,采用徑向基核函數(shù),通過網(wǎng)格搜索算法[15]確定最優(yōu)的模型參數(shù)為c=256,σ=12.125 7。然后通過matlab編程對訓(xùn)練樣本集和測試樣本集分別進行擬合和預(yù)測的仿真,擬合和預(yù)測圖如圖1所示。
圖1 原始樣本的真實值與輸出值之間比較
下面對初始模型的核函數(shù)項采用遺傳算法進行稀疏處理。以每次稀疏后測試樣本預(yù)測相對誤差標準差的偏差率為判定依據(jù),來確定模型稀疏的次數(shù)。
第一次稀疏優(yōu)化得到的最優(yōu)個體bestchrom=[1011101101111010001010000110111101011111001101111011100011001001011001010101011110001011100001110111],其中,“0”項有42項,占原核函數(shù)項的42%。第二次稀疏優(yōu)化后得到的最優(yōu)個體bestchrom=[110110010010010000001110111010001001111111001111011000101],其中,“0”項有28項,占核函數(shù)項的48.3%。第三次稀疏優(yōu)化后得到的最優(yōu)個體bestchrom=[001010011011100000001010100000],其中,“0”項有20項,占核函數(shù)項的66.7%,由于第三次稀疏后,測試樣本估計值相對誤差的標準差的偏差率超過10%,算法終止,為了保證模型的預(yù)測精度,稀疏次數(shù)選取為兩次,這樣原來的100項初始訓(xùn)練樣本最終可以優(yōu)化為30項,稀疏率為70%。算法優(yōu)化過程中,每次稀疏后測試樣本估計值相對誤差的標準差變化趨勢圖如圖2所示。
圖2 測試樣本相對誤差標準差的變化趨勢
算法優(yōu)化過程中,將每次稀疏后測試樣本預(yù)測結(jié)果的參數(shù)值統(tǒng)計,如表1所示。
表1 稀疏過程測試樣本預(yù)測結(jié)果的參數(shù)值比較
稀疏情況稀疏率/%均方誤差平均相對誤差相對誤差標準差稀疏前 00.17910.03720.0460第一次稀疏420.17780.03640.0461第二次稀疏700.19250.03850.0488第三次稀疏900.27420.05960.08386
從表1可以看出,和稀疏前相比較,不管是均方誤差、平均相對誤差,還是相對誤差標準差,第三次稀疏后的結(jié)果變化都很大,而前兩次變化不大,預(yù)測效果效果也較好。因此,綜合考慮,為了保證預(yù)測的精度,稀疏次數(shù)選取為2次,稀疏率為70%。
選取2003年的100組數(shù)據(jù)作為新樣本,用稀疏化后的新模型對其進行預(yù)測分析,并與原始模型比較。通過matlab編程分別用原始模型和優(yōu)化后的模型對新樣本進行預(yù)測仿真,預(yù)測圖如圖3所示。
圖3 分別針對原始模型和新模型的預(yù)測
從圖3可以看出,分別針對初始樣本點的原始模型和30個樣本點的新模型對新樣本點的預(yù)測都達到了很好的預(yù)測效果,而且兩次模型的預(yù)測結(jié)果很接近,均方誤差和平均相對誤差都很小。上述實驗結(jié)果表明,采用遺傳算法進行稀疏化的最小二乘支持向量機模型,在保證預(yù)測精度的同時,支持向量能稀疏70%左右,可以大大提升模型的效率,且稀疏后的模型對新樣本點的預(yù)測效果很好。因此,GA-LSSVM稀疏算法是可行的。
本文針對LSSVM缺失稀疏性的問題,使用了一種基于最優(yōu)個體保存策略的遺傳算法。首先詳細地介紹了GA-LSSVM算法實現(xiàn)的原理,然后通過實際應(yīng)用驗證和分析了該算法的可行性。實驗結(jié)果表明,該算法對LSSVM支持向量的稀疏率可以達到70%左右,優(yōu)化后的模型對新樣本點的預(yù)測效果很好。為了同時兼顧稀疏率和預(yù)測效果,適應(yīng)度函數(shù)可以同時將這兩個因素加進去,本文只考慮了預(yù)測精度,這也是今后要研究的方向。
[1] 劉瑞蘭,戎舟.工業(yè)PX氧化過程4-CBA含量的軟測量.信息與控制,2014,43(3):339-343.
[2] PENG X J,WANG Y F.A geometric method for model selection in support vector machine.Expert Systems With Applications,2008 (3).
[3] 王昕.軟測量技術(shù)及其在工業(yè)聚丙烯生產(chǎn)過程中的應(yīng)用:[學(xué)位論文].杭州:浙江大學(xué),2006.
[4] 馬勇,黃德先,金以慧.基于支持向量機的軟測量建模方法.信息與控制,2004,33(4):417-421.
[5] SUYKENS J A K,VANDEWALLE J.Least squares support vector machine classifiers.Neural Processing Letters,1999(3):293-300.
[6] SUYKENS J A K,LUKAS L,VANDEWALLE J.Sparse approximation using least squares support vector machines.Geneva,2000:11757-11760.
[7] 吳德會.LS-SVM的非線性特征提取新方法及與PCA的關(guān)系研究.小型微型計算機系統(tǒng),2008,29(7):1296-1300.
[8] 甘良志,孫宗海,孫優(yōu)賢.稀疏最小二乘支持向量機.浙江大學(xué)學(xué)報(工學(xué)版),2007,41(2):245-248.
[9] 孟麗,許峰.基于基因庫的最優(yōu)個體保存遺傳算法.軟件導(dǎo)刊,2009,8 (7):45-47.
[10] 陳根社,陳新海.遺傳算法的研究與進展.信息與控制,1994,23(4):215-222.
[11] 吳寧川.遺傳算法和神經(jīng)網(wǎng)絡(luò)在常減壓蒸餾裝置監(jiān)控中的應(yīng)用:[學(xué)位論文].北京:北京化工大學(xué),2002.
[12] 閻威武,朱宏棟,助惠鶴.基于最小二乘SVM的軟測量建模.系統(tǒng)仿真學(xué)報,2003:1494-1496.
[13] 王健峰.基于改進網(wǎng)格搜索法SVM參數(shù)優(yōu)化的說話人識別研究:[學(xué)位論文].哈爾濱:哈爾濱工程大學(xué),2012.
[14] 王麗軍,張宏建,李希.PTA生產(chǎn)中4-CBA濃度的影響因素分析和軟測量.合成纖維工業(yè),2005(6):1-4.
[15] 劉瑞蘭.軟測量技術(shù)的若干問題的研究及工業(yè)應(yīng)用:[學(xué)位論文].杭州:浙江大學(xué),2004.
Application of Sparse LSSVM in Soft Sensor Modeling of 4-CBA
RONG Zhou,LI Jia-qing
(College of Automation, Nanjing University of Posts and Telecommunications, Nanjing 210023,China)
For the least squares support vector machine (LSSVM) missing sparsity problem, the genetic algorithm (GA) was used for sparse model. Idea was as follows: use binary coding method to code the kernals of initial LSSVM model. Then, GA was used to screen the binary strings. Decode the best individual. “1” represents selecting corresponding position’s sample and "0"represents truncating. Model again by the new sample. Repeat the above process . The algorithm is based on the standard of testing sample’s relative error. When deviation rate of that is more than 10%, sparse operations end. The algorithm can be applied in soft sensor modeling of 4-CBA. The actual application result indicates that the sparse rate of support vectors of LSSVM model can reach about 70 percents. The algorithm improves the efficiency of model greatly without lowering the prediction precision.
LSSVM; sparse; GA; soft sensor
國家自然科學(xué)基金資助項目(61203213,11202107)
2015-02-11 收修改稿日期:2015-07-05
TP18
A
1002-1841(2015)12-0088-04
戎舟(1970—),副教授,碩士生導(dǎo)師,研究領(lǐng)域為無線傳感器網(wǎng)絡(luò),虛擬儀器及網(wǎng)絡(luò)化測控技術(shù)、通信協(xié)議一致性測試技術(shù)等。