尹博文,張亞娟,王曉芳,張素琪
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.天津商業(yè)大學(xué) 信息工程學(xué)院,天津 300134)
城市PM2.5濃度反映地區(qū)的空氣污染程度,其含義是某地區(qū)空氣中細(xì)顆粒物含量,影響其變化的因素主要包括風(fēng)速、濕度及NO2、SO2濃度等。2012年,中國開始按照新的《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》開展PM2.5監(jiān)測(cè)并發(fā)布數(shù)據(jù)。通過科學(xué)的手段對(duì)PM2.5值進(jìn)行準(zhǔn)確預(yù)測(cè)可以指導(dǎo)人們生產(chǎn)生活,更能提醒環(huán)保部門及時(shí)進(jìn)行污染防治[1]。
2009 年Wang 等[2]通過自回歸綜合移動(dòng)平均值(ARIMA)線性模型方法對(duì)洛杉磯市PM2.5進(jìn)行了有效預(yù)測(cè);2010年陳俏等[3]將支持向量回歸與其他機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,說明了支持向量回歸(SVR)在城市PM2.5預(yù)測(cè)中的優(yōu)勢(shì),同時(shí)通過對(duì)簡單核函數(shù)以及模型參數(shù)分析,得出不同核函數(shù)和參數(shù)直接影響預(yù)測(cè)準(zhǔn)確度的結(jié)論;2012年Yao等[4]利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了多源PM2.5的估計(jì),結(jié)果表明該方法較多元回歸方法顯著提高了預(yù)測(cè)準(zhǔn)確度,但是在PM2.5值較高時(shí),預(yù)測(cè)誤差出現(xiàn)明顯的上升;2013年白鶴鳴等[5]利用BP神經(jīng)網(wǎng)絡(luò)有效預(yù)測(cè)北京市區(qū)空氣污染指數(shù),但是該模型呈現(xiàn)出訓(xùn)練時(shí)間相對(duì)較長、結(jié)構(gòu)較為簡單難以應(yīng)對(duì)復(fù)雜變化等問題。2015年Zou等[6]利用粒子群算法優(yōu)化的SVR對(duì)儀器故障進(jìn)行了回歸預(yù)測(cè),較優(yōu)化前模型獲得了更好的結(jié)果;2016年遲恩楠等[7]利用小波和乘法混合核函數(shù)的支持向量回歸方法成功的對(duì)空間風(fēng)壓進(jìn)行了預(yù)測(cè);同年Zhu等[8]將ARMA時(shí)間序列與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到了更好的PM2.5預(yù)測(cè)結(jié)果,較使用單一方法進(jìn)行預(yù)測(cè)提高了預(yù)測(cè)準(zhǔn)確度,但是實(shí)驗(yàn)中仍缺少與其他方法的結(jié)果對(duì)比。2017 年Ye 等[9]利用ARIMASVR的方法對(duì)股票價(jià)格進(jìn)行了較為準(zhǔn)確的預(yù)測(cè),該結(jié)果證明了將時(shí)間序列作為研究目標(biāo)的方法可以顯著降低原本模型的預(yù)測(cè)誤差;2019年Song等[10]提出一種基于長短期記憶和卡爾曼濾波的預(yù)測(cè)模型,其結(jié)果較使用單一的LSTM提高了對(duì)空氣中污染氣體的預(yù)測(cè)準(zhǔn)確率。
為了建立更加準(zhǔn)確的城市PM2.5濃度預(yù)測(cè)模型,提出一種將支持向量回歸與長短期記憶相結(jié)合的方法。首先使用Morlet小波核函數(shù)代替?zhèn)鹘y(tǒng)支持向量回歸中應(yīng)用較多的徑向基核函數(shù)(RBF),解決了RBF非完全正交基的問題;然后使用改進(jìn)的粒子群算法對(duì)該Morlet核函數(shù)進(jìn)行參數(shù)優(yōu)化,不但極大程度避免了算法陷入局部最優(yōu)解,同時(shí)可在良好的時(shí)間復(fù)雜度內(nèi)獲得更優(yōu)的預(yù)測(cè)結(jié)果;最后考慮到時(shí)間序列對(duì)城市PM2.5濃度的影響,將包含時(shí)間序列的LSTM預(yù)測(cè)結(jié)果與SVR預(yù)測(cè)結(jié)果進(jìn)行非線性疊加,得到最終的預(yù)測(cè)結(jié)果。在實(shí)驗(yàn)部分進(jìn)行了多組對(duì)比,結(jié)果均較ARMA時(shí)間序列、SVR與LSTM等較大地提高了預(yù)測(cè)準(zhǔn)確度。
支持向量回歸[11-12]是由支持向量機(jī)的概念發(fā)展而來,用于非線性條件下的預(yù)測(cè)等多種場(chǎng)景。支持向量回歸問題可以描述為尋求非線性空間的映射關(guān)系表示如式(1)所示:
式中:xi表示的是訓(xùn)練集中各維度的值;i表示各維度變量;ω表示變量系數(shù);b表示偏置量。
對(duì)于樣本中的(x,y),所求得到一個(gè)預(yù)測(cè)模型f使得預(yù)測(cè)結(jié)果與真實(shí)值最為接近。假設(shè)該回歸模型幾乎可以完全表達(dá)真實(shí)值,只存在可以忽略不計(jì)的誤差ε,SVR問題可以轉(zhuǎn)化成式(2):
式中:C為正則化常數(shù);?ε為不敏感損失函數(shù),?ε的表達(dá)式如式(3)所示:
將式(5)代入到原式中,并且該過程需要滿足Karush-Kuhn-Tucker(KKT)條件,即需要滿足如式(6)所示:
支持向量回歸的解的形式,可以表示為如式(7)所示。
支持向量回歸中核函數(shù)的作用是將低維線性不可分的情況映射到高維使之線性可分,此時(shí)引入合適的核函數(shù)如式(8)所示。
支持向量回歸的核函數(shù)一般選擇高斯核函數(shù),然而高斯核函數(shù)并非完全正交基,考慮到小波函數(shù)可以通過伸縮以及平移的手段建立完全正交基,使SVR模型泛化能力更強(qiáng)[13-14]。小波函數(shù)可以作為支持向量回歸核函數(shù)的條件是該基函數(shù)滿足Mercer定理,構(gòu)造支持向量回歸的核函數(shù)的平移不變小波核函數(shù)形式,如式(9)所示:
該平移不變小波核函數(shù)需要滿足傅里葉變換公式,如式(10)所示:
式中:Rd代表的是x的取值范圍;d維的實(shí)數(shù)空間。
Morlet小波函數(shù)的實(shí)數(shù)表達(dá)如式(11)所示:
滿足上述條件的實(shí)驗(yàn)所應(yīng)用到Morlet小波核函數(shù)如式(12)所示:
式中:m表示空間維度;ai表示伸縮因子。
支持向量回歸核函數(shù)中存在未知參數(shù),分別是懲罰因子C與參數(shù)sigma,未知參數(shù)的取值直接影響模型泛化效果[15]。通常解決最優(yōu)值搜索問題可以采用的方法有遺傳算法、粒子群算法、蟻群算法等??紤]到粒子群算法模型簡單、收斂性能好、搜索效率高等優(yōu)勢(shì),同時(shí)需要盡量避免算法搜索過程陷入局部最優(yōu)解,提出了改進(jìn)粒子群算法對(duì)模型核函數(shù)參數(shù)進(jìn)行最優(yōu)值搜索。方法中粒子速度與位移更新公式如式(13)所示。
式中:vi(k)表示k時(shí)刻時(shí)的粒子的速度;xi表示粒子的位置;r1,r2分別為隨機(jī)均勻概率值,并且取值范圍是[0,1];c1,c2表示學(xué)習(xí)因子;pbesti表示局部最優(yōu)位置;gbesti表示全局最優(yōu)位置。式中存在未確定的參數(shù)W,表示粒子移動(dòng)的慣性系數(shù),具體意義是當(dāng)該值較大時(shí),該粒子將在原方向上有較大的移動(dòng)能力,當(dāng)值較小時(shí),粒子在周圍方向具有較高的搜索能力。該值一般采用線性函數(shù)取值如式(14)所示,也因此造成了局部最優(yōu)解的情況。為了盡可能地避免粒子群算法由此產(chǎn)生的性能問題,同時(shí)保證搜索算法較低的時(shí)間復(fù)雜度,W值的選取采用非線性自適應(yīng)算法,如式(15)所示:
式中:Wmax與Wmin分別表示實(shí)驗(yàn)預(yù)先設(shè)定的最大及最小的慣性系數(shù);Imax表示最大的迭代次數(shù);k表示已迭代次數(shù);引入一個(gè)概念值δk,表示速度趨向基數(shù),該值依賴于之前兩個(gè)時(shí)刻的速度變化比例。該值的不斷變化,實(shí)現(xiàn)了W的自適應(yīng)變化。這里值是非線性的,降低了線性函數(shù)情況下陷入局部最優(yōu)解的可能。改進(jìn)粒子群算法應(yīng)用到Morlet-SVR的參數(shù)優(yōu)化中,具體流程如算法1所示。
算法1 改進(jìn)粒子群算法參數(shù)優(yōu)化
輸入 實(shí)驗(yàn)訓(xùn)練集數(shù)據(jù),Morlet核函數(shù)表達(dá)式,粒子群最大進(jìn)化次數(shù),調(diào)優(yōu)參數(shù)精度范圍accuracy,粒子慣性公式,粒子群最大速度,粒子種群數(shù)量
輸出Morlet核函數(shù)的最優(yōu)參數(shù)sigma 與支持向量回歸最佳參數(shù)C
長短期記憶網(wǎng)絡(luò)(LSTM)是一種改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò),通過設(shè)置隱藏層間的相關(guān)權(quán)重,解決RNN無法處理長距離依賴的問題[16-18],在諸多時(shí)間序列預(yù)測(cè)的場(chǎng)景下廣泛應(yīng)用。PM2.5這一與時(shí)間密切相關(guān)的復(fù)雜變量需要融合時(shí)間序列進(jìn)行分析,從而提高預(yù)測(cè)的準(zhǔn)確性。在LSTM中包含三個(gè)重要的門:更新門、遺忘門、輸出門,其模型圖如圖1所示。
圖1 LSTM 模型示意圖Fig.1 Schematic diagram of LSTM model
LSTM單元的方程組如式(16)所示:
式中:ft其中是關(guān)于遺忘門的遺忘閾值;ot表示輸出門的輸出閾值;ht表示當(dāng)前細(xì)胞輸出。在更新門ut(圖中Update)中存在參數(shù)權(quán)重Wu與偏差bu,其作用是確定sigmoid激活函數(shù)更新細(xì)胞單元的時(shí)機(jī),當(dāng)sigmoid函數(shù)取值接近1時(shí),將更新該單元,接近0則忽略。表示部分輸出tanh,影響該值變化的因素包括權(quán)重WC與偏差bC;Ct-1表示t-1時(shí)刻的細(xì)胞狀態(tài),以及ut共同影響最終的結(jié)果Ct。
支持向量回歸方法在解決有限規(guī)模樣本、非線性等問題體現(xiàn)出良好的性能,較深度學(xué)習(xí)方法預(yù)測(cè)更迅速,經(jīng)驗(yàn)風(fēng)險(xiǎn)更??;LSTM能夠發(fā)掘時(shí)間序列對(duì)PM2.5的影響??紤]到2種方法在不同場(chǎng)景下的優(yōu)勢(shì),文章的研究目標(biāo)需要同時(shí)考慮預(yù)測(cè)性能、經(jīng)驗(yàn)風(fēng)險(xiǎn)等,將上述2種方法的預(yù)測(cè)結(jié)果按照表達(dá)式(17)所示,構(gòu)成最終的預(yù)測(cè)結(jié)果。
式中:y1i、y2i分別表示SVR、LSTM這2種方法在第i次實(shí)驗(yàn)中的預(yù)測(cè)結(jié)果;xi表示一維向量;φ與φ表示不同的函數(shù)。根據(jù)式(18)所示進(jìn)行結(jié)果計(jì)算,得到最終的預(yù)測(cè)結(jié)果,式中:α表示時(shí)間關(guān)聯(lián)系數(shù),該值的取值范圍是[0,1],與預(yù)測(cè)的時(shí)間間隔正相關(guān),間隔越久該值的取值越大;M表示|y1i-y2i|的最大值。
基于支持向量回歸與LSTM 的城市PM2.5預(yù)測(cè)模型圖如圖2所示。
圖2 基于支持向量回歸與LSTM 的預(yù)測(cè)模型圖Fig.2 Prediction model graph based on support vector regression and LSTM
在實(shí)驗(yàn)預(yù)處理方面,采用KNN-Kmeans 的方法進(jìn)行不完全數(shù)據(jù)集的填充;采取分別歸一化的方式處理訓(xùn)練集與預(yù)測(cè)集數(shù)據(jù),實(shí)驗(yàn)過程的流程如圖3 所示。在結(jié)果分析中首先分別對(duì)比ARMA、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)以及支持向量回歸方法預(yù)測(cè)結(jié)果;然后對(duì)比Morlet小波核函數(shù)以及RBF核函數(shù)支持向量回歸的預(yù)測(cè)結(jié)果;接下來通過改進(jìn)粒子慣性函數(shù)的方式應(yīng)用粒子群算法對(duì)Morlet 核函數(shù)中的參數(shù)進(jìn)行尋優(yōu),并將尋優(yōu)前后的結(jié)果進(jìn)行對(duì)比;最后針對(duì)城市PM2.5這一與時(shí)間序列密切相關(guān)的研究變量,將支持向量回歸結(jié)果與LSTM 結(jié)果進(jìn)行非線性疊加計(jì)算,將最終預(yù)測(cè)結(jié)果與其他方法的結(jié)果進(jìn)行對(duì)比。
圖3 實(shí)驗(yàn)過程流程圖Fig.3 Flow chart of experiment process
實(shí)驗(yàn)中所用到的數(shù)據(jù),均來源于某市3 處監(jiān)測(cè)點(diǎn)的真實(shí)觀測(cè)數(shù)據(jù)。首先選取連續(xù)的720 h 的氣象數(shù)據(jù)(濕度、風(fēng)速、氣壓)與環(huán)境污染數(shù)據(jù)(PM2.5、PM10、SO2、NO2),并按照前648個(gè)作為實(shí)驗(yàn)訓(xùn)練集,剩余后72個(gè)作為測(cè)試集進(jìn)行劃分。由于選取的列數(shù)據(jù)中出現(xiàn)少量數(shù)據(jù)缺失,采用KNN-Kmeans方法進(jìn)行數(shù)據(jù)填充,綜合了2種聚類方法實(shí)現(xiàn)了更符合本數(shù)據(jù)集原始特征的填充方法:選定時(shí)間間隔為5 h,當(dāng)時(shí)間間隔內(nèi)的數(shù)據(jù)超過半數(shù),即3 個(gè)或3 個(gè)以上為某一值時(shí),認(rèn)為在該時(shí)間間隔內(nèi)的大氣狀況相對(duì)穩(wěn)定不變,此時(shí)實(shí)驗(yàn)將該值作為填充值;若不存在上述情況,則按照K均值的計(jì)算方法進(jìn)行填充,選擇時(shí)間間隔內(nèi)所有數(shù)據(jù)的平均值進(jìn)行填充。實(shí)驗(yàn)數(shù)據(jù)填充中的時(shí)間間隔根據(jù)實(shí)驗(yàn)需要和原始數(shù)據(jù)集的特征設(shè)定。
為獲得量綱統(tǒng)一的數(shù)據(jù)集,避免由于個(gè)別因素的比例尺過大帶來的實(shí)驗(yàn)預(yù)測(cè)影響,同時(shí)提升模型的收斂速度和運(yùn)算精度,采用對(duì)訓(xùn)練集和預(yù)測(cè)集分別歸一化處理的方法,排除了因數(shù)據(jù)集隨機(jī)劃分造成的誤差,歸一化公式如式(19)所示,結(jié)果表示歸一化后的向量:
SVR訓(xùn)練平臺(tái)為WINDOWS 10操作系統(tǒng),8 G內(nèi)存,2.7 GHz CPU環(huán)境并應(yīng)用libSVM程序庫進(jìn)行Matlab 編程。在粒子群優(yōu)化實(shí)驗(yàn)前根據(jù)實(shí)驗(yàn)需要,預(yù)先設(shè)置種群的最大進(jìn)化數(shù)量maxgen 及初始數(shù)量sizepop取值分別為15和1 000;設(shè)置最大最小變化結(jié)果值,使所求參量在可控范圍內(nèi)變化,防止產(chǎn)生過高的時(shí)間冗余。將popCmax 的初始值設(shè)為1 000,表示SVR 模型參數(shù)C的變化的最大值,popCmin 的初始設(shè)為0.05;popsigmamax 的初始為1 000,表示SVR參數(shù)sigma 變化的最大值,popsigmamin 設(shè)置為0.01;設(shè)置粒子的初始速度VC與Vsigma均為5。
LSTM 預(yù)測(cè)部分利用tensorflow 機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái),選取的數(shù)據(jù)集包括時(shí)間序列以及預(yù)處理后的數(shù)據(jù)集;設(shè)置輸入維度input_size 數(shù)值為7,輸出維度output_size 為1,隱藏層單元rnn_unit 數(shù)值10,以及學(xué)習(xí)率lr為1,時(shí)間步time_step 的值為12,每批訓(xùn)練樣本數(shù)batch_size 數(shù)值40,重復(fù)訓(xùn)練次數(shù)numbers 數(shù)值5 000。
3.2.1 監(jiān)測(cè)點(diǎn)PM2.5 基本情況與算法分析
實(shí)驗(yàn)中對(duì)研究的3 個(gè)國控監(jiān)測(cè)點(diǎn)的720 個(gè)PM2.5的值進(jìn)行了初步分析,通過直觀觀察可以方便建立數(shù)學(xué)模型。各個(gè)監(jiān)測(cè)點(diǎn)的PM2.5值數(shù)據(jù)變化均較為明顯,呈現(xiàn)出非線性變化規(guī)律,不同時(shí)間間隔的極值不同,平均PM2.5水平在90 μg/cm3;3個(gè)監(jiān)測(cè)點(diǎn)PM2.5反映出的圖形較為相似,其污染與氣象差異相對(duì)較小,如圖4所式。針對(duì)圖像呈現(xiàn)的復(fù)雜變化規(guī)律,支持向量回歸恰能夠在小規(guī)模樣本數(shù)據(jù)下體現(xiàn)其良好的自適應(yīng)性。均方誤差MSE 是評(píng)價(jià)預(yù)測(cè)模型的重要指標(biāo),客觀反映了預(yù)測(cè)模型的誤差大小,誤差越小預(yù)測(cè)準(zhǔn)確度越高;最大誤差是預(yù)測(cè)值與實(shí)際值之差的絕對(duì)值最大值,反映了極端個(gè)體與真實(shí)值的偏離程度。表1為對(duì)比不同機(jī)器學(xué)習(xí)方法的均方誤差與最大誤差,SVR體現(xiàn)了一定的優(yōu)勢(shì)。
圖4 監(jiān)測(cè)點(diǎn)PM2.5隨時(shí)間變化Fig.4 Monitoring point PM2.5 changes with time
表1 不同方法預(yù)測(cè)結(jié)果對(duì)比Tab.1 Error comparison of prediction results under different methods
3.2.2 Morlet 小波核SVR 預(yù)測(cè)結(jié)果
分別使用Morlet 小波核與RBF核支持向量回歸進(jìn)行建模,并與預(yù)測(cè)集真實(shí)值的數(shù)值進(jìn)行對(duì)比結(jié)果如圖5所示。
圖5 Morlet 小波核與RBF 核SVR 預(yù)測(cè)結(jié)果對(duì)比Fig.5 Comparison of SVR prediction results between Morlet wavelet kernel and RBF kernel
表2所示對(duì)比不同核函數(shù)SVR的模型預(yù)測(cè)均方誤差、最大誤差。由此得出實(shí)驗(yàn)結(jié)論:Morlet 小波核SVR 在城市PM2.5預(yù)測(cè)建模上較其他核函數(shù)精度更高,體現(xiàn)了該應(yīng)用的合理有效性。
表2 不同核函數(shù)預(yù)測(cè)結(jié)果對(duì)比Tab.2 Comparison of prediction results of different kernel functions
3.2.3 改進(jìn)粒子群算法參數(shù)優(yōu)化結(jié)果與預(yù)測(cè)對(duì)比
改進(jìn)的粒子群優(yōu)化算法的目的是獲取模型最優(yōu)參數(shù)C以及sigma,實(shí)驗(yàn)結(jié)果如圖6所示獲得到了最優(yōu)參數(shù)。
圖6 改進(jìn)粒子群算法最優(yōu)參數(shù)搜索結(jié)果Fig.6 Search results of optimal parameters of improved particle swarm optimization
根據(jù)搜索結(jié)果,確定了Morlet-SVR 最佳參數(shù)值,并均將參數(shù)代入實(shí)驗(yàn)中,如圖7中顯示了參數(shù)優(yōu)化前后預(yù)測(cè)結(jié)果與測(cè)試集實(shí)際值對(duì)比。
據(jù)圖7 分析,粒子群算法優(yōu)化前當(dāng)時(shí)間間隔為45 h,預(yù)測(cè)結(jié)果與實(shí)際結(jié)果開始出現(xiàn)明顯偏差,優(yōu)化后則是在時(shí)間間隔大于55 h,出現(xiàn)小范圍偏差,大于65 h出現(xiàn)較大偏差。由此得出結(jié)論:改進(jìn)粒子群算法可以提高準(zhǔn)確預(yù)測(cè)的時(shí)間長度,能夠提高模型的預(yù)測(cè)精度。然而由于訓(xùn)練數(shù)據(jù)集規(guī)模有限,且模型本身具有一定的局限性,當(dāng)時(shí)間間隔較大時(shí),預(yù)測(cè)結(jié)果依舊存在著與實(shí)際值的偏差。
3.2.4 基于SVR 與LSTM 的模型預(yù)測(cè)結(jié)果
基于多變量時(shí)間序列的LSTM 可以有效解決長距離依賴問題,同時(shí)發(fā)掘時(shí)間序列對(duì)PM2.5濃度變化的影響。如圖8所示為基于該方法的預(yù)測(cè)結(jié)果。
圖8中顯示預(yù)測(cè)數(shù)據(jù)在45~70 h基本與實(shí)際數(shù)據(jù)一致,較支持向量回歸方法不同,LSTM預(yù)測(cè)結(jié)果在0~45 h反映出與實(shí)際值的誤差。在20~30 h與40~45 h這2個(gè)時(shí)間段有較大偏差;同時(shí)LSTM預(yù)測(cè)時(shí)間較長,模型中參數(shù)較多,只利用該方法不能達(dá)到對(duì)實(shí)驗(yàn)結(jié)果的預(yù)期。表3 所示為不同時(shí)間間隔2 種方法的均方誤差對(duì)比。
表3 不同時(shí)間間隔MSE 結(jié)果對(duì)比Tab.3 Comparison of MSE results in different time intervals
據(jù)圖7 和圖8 的結(jié)果分析,在預(yù)測(cè)結(jié)果時(shí)間段的后20%中LSTM 解決了支持向量回歸預(yù)測(cè)效果明顯下降的問題;然而SVR模型簡單,且在預(yù)測(cè)結(jié)果時(shí)間段的前50%中優(yōu)勢(shì)明顯。最終將支持向量回歸與LSTM這2部分預(yù)測(cè)結(jié)果按照式(18)進(jìn)行非線性疊加:當(dāng)相距起始時(shí)間節(jié)點(diǎn)越近,基于改進(jìn)粒子群算法的Morlet支持向量回歸預(yù)測(cè)結(jié)果更好,當(dāng)時(shí)間間距較大,使用基于多變量時(shí)間序列的LSTM 效果更佳。2 種方法的預(yù)測(cè)結(jié)果偏差較大時(shí),LSTM 更能反映實(shí)際值的變化趨勢(shì),計(jì)算結(jié)果體現(xiàn)了自適應(yīng)性。實(shí)驗(yàn)結(jié)果對(duì)比基于PSO-SVR與LSTM-SVR這2種方法,如圖9所示。
圖7 改進(jìn)粒子群優(yōu)化前后預(yù)測(cè)結(jié)果對(duì)比Fig.7 Comparison of prediction results before and after improved particle swarm optimization
圖8 基于LSTM 的時(shí)間序列預(yù)測(cè)結(jié)果Fig.8 Prediction results of time series based on LSTM
從圖9 中可以觀察到,基于LSTM-SVR 的研究方法較使用改進(jìn)粒子群優(yōu)化的Morlet-SVR進(jìn)一步提高了預(yù)測(cè)精度。通過相關(guān)損失函數(shù)平均絕對(duì)誤差MAE 以及模型準(zhǔn)確率pre 作為衡量該模型預(yù)測(cè)準(zhǔn)確度的指標(biāo)。其中MAE 越小說明預(yù)測(cè)的準(zhǔn)確度越高,計(jì)算公式如式(20)所示:
圖9 基于PSO-SVR 與LSTM-SVR 的結(jié)果對(duì)比Fig.9 Comparison of results based on PSO-SVR and LSTM-SVR
式中:m表示預(yù)測(cè)集合記錄數(shù)量;yi表示該條記錄的預(yù)測(cè)結(jié)果;表示該條記錄的真實(shí)結(jié)果。模型準(zhǔn)確率pre 反映了預(yù)測(cè)值與實(shí)際值的相似程度,該值的計(jì)算方法滿足式(21):
式中:θi表示單次準(zhǔn)確預(yù)測(cè)值,可以取4個(gè)值,當(dāng)預(yù)測(cè)結(jié)果與真實(shí)結(jié)果滿足不同的條件時(shí),準(zhǔn)確預(yù)測(cè)值也不同。其對(duì)應(yīng)關(guān)系因?qū)嶋H需要而制定,在本實(shí)驗(yàn)中滿足式(22):
根據(jù)上述計(jì)算方法,獲得不同模型下的MAE 與pre值,如表4所示。
表4 不同模型準(zhǔn)確度與誤差對(duì)比Tab.4 Comparison of accuracy and error of different models
最后利用不同方法對(duì)該市區(qū)3 處監(jiān)測(cè)點(diǎn)進(jìn)行預(yù)測(cè)結(jié)果準(zhǔn)確度對(duì)比,結(jié)果如圖10所示。
圖10 不同監(jiān)測(cè)點(diǎn)基于不同方法的準(zhǔn)確度結(jié)果對(duì)比Fig.10 Comparison of accuracy results of different monitoring points based on different methods
根據(jù)上述3 處監(jiān)測(cè)點(diǎn)的預(yù)測(cè)結(jié)果顯示,基于支持向量回歸與LSTM相結(jié)合的方法均優(yōu)于其他方法。
文章提出了基于支持向量回歸與LSTM 的城市PM2.5預(yù)測(cè)模型。在模型建立的過程中,首先根據(jù)支持向量回歸方法以及Morlet 小波核的優(yōu)勢(shì),確定了支持向量回歸的核函數(shù);為獲得更好的預(yù)測(cè)結(jié)果,采用改進(jìn)粒子群算法對(duì)核函數(shù)的參數(shù)進(jìn)行優(yōu)化,并將最優(yōu)參數(shù)代回模型進(jìn)行預(yù)測(cè);最后將非時(shí)間序列的Morlet-SVR 預(yù)測(cè)結(jié)果與時(shí)間序列下LSTM 預(yù)測(cè)結(jié)果進(jìn)行非線性疊加,形成最終的預(yù)測(cè)結(jié)果,以滿足模型對(duì)時(shí)間序列依賴的需要。從各步驟的實(shí)驗(yàn)結(jié)果可以看出,本文提出的基于支持向量回歸與LSTM的方法在城市PM2.5預(yù)測(cè)上較ARMA 時(shí)間序列、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等方法具有明顯優(yōu)勢(shì),同時(shí)較傳統(tǒng)的SVR與LSTM提高了預(yù)測(cè)準(zhǔn)確度。后續(xù)工作將考慮對(duì)模型中的LSTM部分進(jìn)行優(yōu)化,通過合理設(shè)置隱藏層數(shù)、改變激活函數(shù)以及參數(shù)尋優(yōu)等,進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度。