戴李杰,張長(zhǎng)江,馬雷鳴
(1.浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004; 2.上海市氣象局 中心氣象臺(tái),上海 200030)
基于機(jī)器學(xué)習(xí)的PM2.5短期濃度動(dòng)態(tài)預(yù)報(bào)模型
戴李杰1,張長(zhǎng)江1*,馬雷鳴2
(1.浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004; 2.上海市氣象局 中心氣象臺(tái),上海 200030)
針對(duì)目前現(xiàn)有的PM2.5模式預(yù)報(bào)系統(tǒng)的預(yù)報(bào)值偏離實(shí)際濃度較大的問(wèn)題,從上海市浦東氣象局獲得2015年2月至7月的PM2.5實(shí)況觀測(cè)濃度、PM2.5模式預(yù)報(bào)(WRF-Chem)濃度和5個(gè)主要?dú)庀笠蜃拥哪J筋A(yù)報(bào)數(shù)據(jù)資料,聯(lián)合應(yīng)用支持向量機(jī)(SVM)和粒子群優(yōu)化(PSO)算法建立滾動(dòng)預(yù)報(bào)模型,對(duì)PM2.5未來(lái)24小時(shí)濃度進(jìn)行預(yù)報(bào),同時(shí)對(duì)未來(lái)一天的晝、夜均值及日均值濃度進(jìn)行預(yù)報(bào),并與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)、多元線性回歸法(MLR)、模式預(yù)報(bào)(WRF-Chem)作對(duì)比。實(shí)驗(yàn)結(jié)果表明,相比其他預(yù)報(bào)方法,所提出的SVM模型較大提高了PM2.5未來(lái)1小時(shí)濃度預(yù)報(bào)精度,這與此前的研究結(jié)論相符; 所提模型能對(duì)PM2.5未來(lái)24小時(shí)濃度進(jìn)行較好的預(yù)報(bào),能對(duì)未來(lái)一天的晝均值、夜均值及日均值進(jìn)行有效預(yù)報(bào),并且對(duì)未來(lái)12小時(shí)的逐時(shí)濃度及未來(lái)一天的夜均值濃度的預(yù)報(bào)準(zhǔn)確度較高。
機(jī)器學(xué)習(xí);粒子群優(yōu)化算法;動(dòng)態(tài)模型;滾動(dòng)預(yù)報(bào)
目前PM2.5濃度預(yù)報(bào)的研究在中國(guó)才剛剛起步,觀測(cè)數(shù)據(jù)資料缺乏,PM2.5濃度的預(yù)報(bào)手段比較粗糙,實(shí)際預(yù)報(bào)效果不盡如人意?,F(xiàn)階段,對(duì)于PM2.5濃度的預(yù)報(bào)主要包括數(shù)值模式預(yù)報(bào)和統(tǒng)計(jì)預(yù)報(bào)兩種方法。由于數(shù)值模式預(yù)報(bào)對(duì)污染與氣象數(shù)據(jù)的要求較高,而大量詳細(xì)的相關(guān)數(shù)據(jù)往往很難獲得[1],所以數(shù)值模式預(yù)報(bào)方法在中國(guó)大多城市并不成熟。目前,主要通過(guò)統(tǒng)計(jì)模型對(duì)PM2.5濃度進(jìn)行預(yù)報(bào),主要包括回歸模型(線性和非線性回歸模型)、神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)(Support Vector Machine, SVM)模型及馬爾可夫模型等。
回歸模型在氣象預(yù)報(bào)領(lǐng)域是一種有效和廣為使用的方法,近年來(lái)被較多應(yīng)用于PM2.5濃度預(yù)報(bào)。如Cobourn[2]提出一種基于非線性回歸和后推氣流軌跡濃度的預(yù)報(bào)模型來(lái)預(yù)報(bào)PM2.5濃度日均最大值。Baker等[3]使用非線性回歸模型對(duì)單一排放來(lái)源的PM2.5濃度進(jìn)行預(yù)報(bào)。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)能較好地解決非線性問(wèn)題,具有自學(xué)習(xí)功能,近年來(lái)也被應(yīng)用于PM2.5濃度預(yù)報(bào),其中尤以反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network, BPNN)及徑向基神經(jīng)網(wǎng)絡(luò)(Radical Basis Function Neural Network, RBFNN)較為常用。如:Zhang等[4]用變化隱含層神經(jīng)元數(shù)量來(lái)改進(jìn)BPNN,并用地理信息系統(tǒng)來(lái)評(píng)估不同算法的PM2.5濃度預(yù)報(bào)效果,結(jié)果顯示當(dāng)隱含層神經(jīng)元數(shù)量為20時(shí)有較高的精度;Wu等[5]將氣溶膠光學(xué)厚度、邊界層高度、相對(duì)濕度、溫度、風(fēng)速、風(fēng)向及月份作為神經(jīng)網(wǎng)絡(luò)的輸入,利用基于貝葉斯規(guī)則的BPNN對(duì)PM微粒(PM1、PM10和PM2.5)進(jìn)行研究分析。有學(xué)者使用RBFNN應(yīng)用于PM2.5濃度預(yù)報(bào),如:Zheng等[6]用RBFNN建立靜態(tài)預(yù)報(bào)模型,選擇8個(gè)影響因子作為訓(xùn)練輸入,相應(yīng)時(shí)間的PM2.5濃度值作為訓(xùn)練輸出,結(jié)果表明RBFNN模型的預(yù)報(bào)能力優(yōu)于BPNN模型。近年來(lái),有學(xué)者將ANN與其他智能技術(shù)相結(jié)合應(yīng)用于PM2.5濃度預(yù)報(bào),如:Zhou等[7]建立基于總體平均經(jīng)驗(yàn)?zāi)J椒纸夂蛷V義回歸神經(jīng)網(wǎng)絡(luò)的混合預(yù)報(bào)模型,預(yù)報(bào)西安市未來(lái)一天的日均PM2.5濃度; Feng等[8]將基于軌道的地理參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,用氣團(tuán)軌跡分析和小波變換的方法來(lái)提高ANN的性能,預(yù)報(bào)未來(lái)兩天的PM2.5日平均濃度值,結(jié)果表明該混合模型有效地提高了預(yù)報(bào)準(zhǔn)確度并具有預(yù)報(bào)高峰點(diǎn)濃度值的能力;Voukantsis等[9]建立線性回歸與ANN混合的模型對(duì)PM10及PM2.5未來(lái)一天的日均值進(jìn)行預(yù)報(bào);Mishra等[10]將神經(jīng)網(wǎng)絡(luò)與模糊邏輯相結(jié)合,對(duì)德里市區(qū)的PM2.5濃度進(jìn)行預(yù)報(bào),所建立的模糊神經(jīng)網(wǎng)絡(luò)模型優(yōu)于ANN模型和多元線性回歸法(Multiple Linear Regression, MLR)模型。
近年來(lái)SVM逐漸被成功應(yīng)用于對(duì)PM2.5的濃度進(jìn)行預(yù)報(bào),如:李龍等[11]選擇綜合氣象指數(shù)、二氧化硫濃度、一氧化碳濃度、二氧化氮濃度和PM10濃度構(gòu)成特征向量,并利用特征向量和PM2.5濃度數(shù)據(jù)來(lái)建立最小二乘支持向量機(jī)預(yù)報(bào)模型,結(jié)果表明該模型能夠較為準(zhǔn)確地預(yù)報(bào)PM2.5濃度,泛化能力較強(qiáng)。劉杰等[12]提出應(yīng)用SVM和模糊?;瘯r(shí)間序列相結(jié)合的方法,以北京市城六區(qū)海淀萬(wàn)柳監(jiān)測(cè)點(diǎn)為例,結(jié)果表明基于模糊粒化時(shí)間序列的預(yù)報(bào)模型能較好解決PM2.5機(jī)理性建模方式下由于影響因素考慮不全而造成的預(yù)報(bào)結(jié)果不穩(wěn)定。
雖然上述國(guó)內(nèi)外學(xué)者使用SVM對(duì)PM2.5濃度進(jìn)行預(yù)報(bào),但是所建立的模型基本上為靜態(tài)模型,采用固定的數(shù)據(jù)進(jìn)行訓(xùn)練,然后用測(cè)試數(shù)據(jù)進(jìn)行預(yù)報(bào)。
除了上述基于回歸方程、神經(jīng)網(wǎng)絡(luò)和SVM等技術(shù)外,近年來(lái)一些其他智能技術(shù)也被成功應(yīng)用于PM2.5濃度預(yù)報(bào)的領(lǐng)域中,如:Sun等[13]提出改進(jìn)的隱馬爾可夫模型來(lái)預(yù)報(bào)日平均濃度,他們把重點(diǎn)放在PM2.5高濃度時(shí)間段,預(yù)報(bào)兩個(gè)地區(qū)的PM2.5濃度過(guò)高的時(shí)期; Yang[14]使用橢圓軌道模型對(duì)日均PM2.5濃度的變化進(jìn)行預(yù)報(bào),并將此方法用在湘潭監(jiān)測(cè)站的日均PM2.5濃度變化的預(yù)報(bào),利用前6天的日均值數(shù)據(jù)來(lái)建立模型,預(yù)報(bào)下一天的PM2.5日均濃度值。
綜上所述,由于PM2.5與空氣質(zhì)量、氣象因子之間一般來(lái)說(shuō)是非線性的關(guān)系,雖然神經(jīng)網(wǎng)絡(luò)能較好地解決非線性關(guān)系問(wèn)題,非線性擬合能力較強(qiáng),但仍然存在一些問(wèn)題,其學(xué)習(xí)速度慢、容易過(guò)擬合和陷入局部極小值等問(wèn)題都會(huì)導(dǎo)致預(yù)報(bào)結(jié)果的不準(zhǔn)確。SVM在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),可用于模式分類(lèi)、非線性回歸和時(shí)間序列預(yù)報(bào)等。目前對(duì)PM2.5濃度進(jìn)行預(yù)報(bào)進(jìn)行的研究,所建立的模型基本上為靜態(tài)模型。本文提出新的PM2.5濃度預(yù)報(bào)方法,在此之前,已完成研究應(yīng)用SVM建立PM2.5未來(lái)一小時(shí)濃度動(dòng)態(tài)預(yù)報(bào)模型,利用粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法輔助尋找適用于每次預(yù)報(bào)模型的最優(yōu)SVM參數(shù),實(shí)驗(yàn)結(jié)果表明SVM模型的預(yù)報(bào)精度最優(yōu),并且對(duì)PM2.5濃度變化劇烈的情況具有較好的預(yù)報(bào)能力[15]。之后,完成研究聯(lián)合應(yīng)用SVM和PSO建立滾動(dòng)預(yù)報(bào)模型,預(yù)報(bào)PM2.5未來(lái)12 h濃度值及未來(lái)一天的夜均值濃度,實(shí)驗(yàn)結(jié)果表明SVM模型的預(yù)報(bào)精度最高[16]。在此研究基礎(chǔ)上,由于人類(lèi)生產(chǎn)生活具有晝夜的區(qū)分,則對(duì)未來(lái)白天和夜晚的PM2.5濃度均值的預(yù)報(bào)將比日均值更具指導(dǎo)意義,本文將PM2.5模式預(yù)報(bào)數(shù)據(jù)與5個(gè)主要?dú)庀笥绊懸蜃幽J筋A(yù)報(bào)數(shù)據(jù)結(jié)合使用,聯(lián)合應(yīng)用SVM和PSO建立滾動(dòng)預(yù)報(bào)模型,對(duì)PM2.5未來(lái)24 h濃度進(jìn)行逐時(shí)預(yù)報(bào),同時(shí)對(duì)未來(lái)一天的晝、夜均值及未來(lái)一天的日均值濃度進(jìn)行預(yù)報(bào)。本文所采用的方法是建立動(dòng)態(tài)預(yù)報(bào)模型,每次建模訓(xùn)練的數(shù)據(jù)及SVM參數(shù)都是動(dòng)態(tài)變化的,即每次預(yù)報(bào)時(shí),都建立不同的動(dòng)態(tài)模型,以提高PM2.5濃度預(yù)報(bào)的準(zhǔn)確度。
數(shù)據(jù)是由上海浦東氣象局所提供的歷史小時(shí)數(shù)據(jù)(2015年2月3日至7月15日),包括PM2.5實(shí)況觀測(cè)值、PM2.5模式預(yù)報(bào)(WRF-Chem)濃度及2 m高度處溫度(Temperature, T2)、2 m高度處相對(duì)濕度(Relative Humidity, RH2)、風(fēng)速(Wind Speed, WS)、風(fēng)向(Wind Direction, WD)、海平面氣壓(Sea Level pressure, SLVL)等模式預(yù)報(bào)的氣象要素?cái)?shù)據(jù)。經(jīng)過(guò)統(tǒng)計(jì)分析得出小時(shí)PM2.5濃度與該5個(gè)主要因子相關(guān)性較大,本文選擇此5個(gè)氣象因子(T2、RH2、WS、WD、SLVL)及PM2.5模式預(yù)報(bào)值作為預(yù)報(bào)PM2.5未來(lái)24 h建模的訓(xùn)練輸入,訓(xùn)練輸出為相應(yīng)時(shí)刻的實(shí)況觀測(cè)值,以此可建立未來(lái)24 h的滾動(dòng)預(yù)報(bào)模型。本文使用模式預(yù)報(bào)中每日20:00(北京時(shí)間)起報(bào)數(shù)據(jù),利用模式每次預(yù)報(bào)未來(lái)24 h的PM2.5模式預(yù)報(bào)值及5個(gè)氣象因子模式預(yù)報(bào)數(shù)據(jù),即每次預(yù)報(bào)時(shí)間段為21:00時(shí)至次日20:00時(shí)。
在訓(xùn)練之前,先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)都?xì)w一化到[0,1],可消除各維數(shù)據(jù)之間的數(shù)量級(jí)差別,有利于提高模型的預(yù)報(bào)精度,所用到的歸一化函數(shù)為:
xk=(xk-xmin)/(xmax-xmin)
(1)
式中:xmin為數(shù)據(jù)序列中的最小值;xmax為數(shù)據(jù)序列中的最大值。
本文聯(lián)合應(yīng)用SVM和PSO建立PM2.5未來(lái)24 h的滾動(dòng)預(yù)報(bào)模型,訓(xùn)練數(shù)據(jù)分別選擇前18 h至前48 h,得到不同訓(xùn)練建模數(shù)據(jù)的PM2.5預(yù)報(bào)的平均絕對(duì)誤差(Mean Absolute Error, MAE)及平均相對(duì)誤差(Mean Relative Error, MRE)。本文利用2015年2月3日至7月15日的數(shù)據(jù)進(jìn)行分析,尋找最適合預(yù)報(bào)PM2.5未來(lái)24 h濃度值的訓(xùn)練建模所用數(shù)據(jù)量。首先選擇2月4日20:00為第一次起報(bào),每次預(yù)報(bào)未來(lái)24 h濃度值,每日20:00預(yù)報(bào)一次,以此類(lèi)推,直到7月15日20:00最后一次起報(bào),共162次預(yù)報(bào)數(shù)據(jù)。若選擇2月4日為第一次預(yù)報(bào),則訓(xùn)練建模數(shù)據(jù)量可從前18 h至前24 h,最終可得162次預(yù)報(bào)數(shù)據(jù)。若選擇2月5日為第一次預(yù)報(bào),則訓(xùn)練建模數(shù)據(jù)量可從前25 h至前48 h,最終可得161次預(yù)報(bào)數(shù)據(jù)。誤差曲線如圖1所示。
圖1 采用不同樣本量建模的誤差曲線Fig. 1 Error curve of using different sample size for modeling
對(duì)于圖1(a)中采用不同樣本量作為訓(xùn)練建模時(shí)的SVM模型的誤差曲線,第一個(gè)點(diǎn)為使用前18 h的數(shù)據(jù)量進(jìn)行訓(xùn)練建模,對(duì)162次預(yù)報(bào)(每次預(yù)報(bào)未來(lái)24 h)的MAE進(jìn)行平均運(yùn)算后所得數(shù)據(jù),以此類(lèi)推,得到訓(xùn)練數(shù)據(jù)量分別從前19 h至前48 h的誤差曲線。圖1(b)中SVM模型的誤差曲線為相同方法下所得的MRE曲線。由圖1可知,對(duì)于預(yù)報(bào)未來(lái)24 h濃度,當(dāng)訓(xùn)練建模數(shù)據(jù)量為前19 h時(shí),MAE較小,MRE最小,因此選取待預(yù)報(bào)時(shí)刻的前19 h的歷史數(shù)據(jù)量作為訓(xùn)練建模的數(shù)據(jù)量。
利用SVM進(jìn)行非線性回歸和預(yù)報(bào)是將數(shù)據(jù)通過(guò)非線性映射到高維特征空間Ω中,即將低維線性不可分問(wèn)題轉(zhuǎn)化至高維中線性可分,在該特征空間中進(jìn)行線性回歸。
(2)
(3)
式中,C為懲罰常數(shù),用于控制對(duì)超出誤差范圍的樣本的懲罰程度。然后用拉格朗日乘子法求解,將原空間中的非線性回歸問(wèn)題轉(zhuǎn)化為高維特征空間中的線性回歸進(jìn)行求解,基本思想是將高維特征空間中的向量?jī)?nèi)積φ(xi)·φ(x)用輸入空間中的核函數(shù)K(xi,x)來(lái)替代[18],即:
K(xi,x)=φ(xi)·φ(x)
(4)
回歸函數(shù)可以寫(xiě)為:
(5)
本文基于2015年2月至7月的氣象數(shù)據(jù)資料,使用Matlab語(yǔ)言編程,用SVM、RBFNN和MLR分別建立預(yù)報(bào)模型。SVM類(lèi)型選擇epsilon-SVR,核函數(shù)選擇RBF核函數(shù),其中利用PSO優(yōu)化SVM的懲罰參數(shù)c和核函數(shù)中的系數(shù)γ,通過(guò)交叉驗(yàn)證的方法選擇最佳參數(shù)c和γ,然后用選定的參數(shù)進(jìn)行訓(xùn)練建模,用訓(xùn)練好的模型進(jìn)行預(yù)報(bào)。
粒子群優(yōu)化(PSO)算法中每個(gè)粒子代表問(wèn)題的一個(gè)潛在解,用位置、速度和適應(yīng)度值三項(xiàng)指標(biāo)來(lái)表示該粒子的特征,速度影響粒子的運(yùn)動(dòng)方向和距離,適應(yīng)度值由適應(yīng)度函數(shù)計(jì)算所得。在每次迭代過(guò)程中,粒子通過(guò)個(gè)體極值和種群全局極值來(lái)更新自身速度和位置,公式如下:
(6)
(7)
式中:ω為慣性權(quán)重;d=1,2,…,D;i=1,2,…,n;k為迭代次數(shù);Vid為粒子的速度;Xid為粒子的位置;c1和c2為學(xué)習(xí)因子;r1和r2為分布于[0,1]的隨機(jī)數(shù)。
慣性權(quán)重ω描述了粒子的慣性對(duì)于速度的影響,其取值大小可以調(diào)節(jié)PSO算法的全局與局部尋優(yōu)的能力。You等[19]指出隨著迭代次數(shù)的增加,慣性權(quán)重逐漸減小,算法的局部尋優(yōu)能力越來(lái)越強(qiáng),但也有可能會(huì)陷入局部最優(yōu),他們提出了自適應(yīng)慣性權(quán)重的策略,隨著迭代次數(shù)的增加,慣性權(quán)重將自動(dòng)改變,表達(dá)式為:
(8)
式中:ωmax和ωmin表示慣性權(quán)重的最大值和最小值,f表示當(dāng)前的目標(biāo)函數(shù)值,favg和fmin表示當(dāng)前所有微粒的平均目標(biāo)值和最小目標(biāo)值,權(quán)重值ω會(huì)隨著目標(biāo)函數(shù)值而自動(dòng)地改變,當(dāng)各粒子的目標(biāo)值趨于一致或局部最優(yōu)時(shí),將使慣性權(quán)重增加,從而避免陷入局部最優(yōu);當(dāng)各粒子的目標(biāo)值比較分散時(shí),將使慣性權(quán)重減小,有利于粒子靠近最優(yōu)粒子。該自適應(yīng)改變慣性權(quán)重策略可有效地提高全局和局部尋優(yōu)能力。在大多數(shù)的應(yīng)用中,ωmax=0.9,ωmin=0.4時(shí),算法性能最好。
粒子群算法存在容易早熟收斂的缺點(diǎn),當(dāng)遇到多峰問(wèn)題時(shí)易陷入局部最優(yōu)解。借鑒遺傳算法中的變異思想,將變異算子引入粒子群算法,即對(duì)某些變量以一定的概率重新初始化。本文在粒子群算法的基礎(chǔ)上引入變異算子,在每次速度和種群更新過(guò)后,以一定的概率重新初始化粒子,使新粒子可以重新在更大空間中進(jìn)行尋優(yōu),增強(qiáng)粒子群算法的尋優(yōu)能力。
基于上海浦東氣象局獲得2015年2月— 7月的PM2.5實(shí)況觀測(cè)濃度、PM2.5模式預(yù)報(bào)(WRF-Chem)濃度和5個(gè)主要?dú)庀笥绊懸蜃拥哪J筋A(yù)報(bào)數(shù)據(jù)資料,在PM2.5模式預(yù)報(bào)數(shù)據(jù)的基礎(chǔ)上,加入另外5個(gè)主要?dú)庀笥绊懸蜃幽J筋A(yù)報(bào)數(shù)據(jù),聯(lián)合應(yīng)用SVM和PSO建立滾動(dòng)預(yù)報(bào)模型,對(duì)PM2.5未來(lái)24 h濃度進(jìn)行預(yù)報(bào),同時(shí)對(duì)未來(lái)一天的晝、夜均值及未來(lái)一天的日均值濃度進(jìn)行預(yù)報(bào)。
具體方案如下:
1)采用三次樣條插值方法對(duì)所獲得的數(shù)據(jù)(2015年2月— 7月)中少量的缺失數(shù)據(jù)進(jìn)行插值,然后對(duì)數(shù)據(jù)進(jìn)行歸一化預(yù)處理。
2)利用SVM與RBFNN、MLR分別進(jìn)行建模,將模式下PM2.5濃度預(yù)報(bào)值和同時(shí)刻5個(gè)氣象影響因子模式預(yù)報(bào)值作為訓(xùn)練輸入,相應(yīng)時(shí)刻的PM2.5實(shí)況觀測(cè)值作為輸出,訓(xùn)練數(shù)據(jù)量取前19 h的數(shù)據(jù)。
3)對(duì)于已建好的模型,導(dǎo)入未來(lái)一個(gè)小時(shí)PM2.5及5個(gè)氣象影響因子模式預(yù)報(bào)值,預(yù)報(bào)未來(lái)一小時(shí)PM2.5濃度值。
4)將預(yù)報(bào)所得的PM2.5濃度值作為該時(shí)刻的實(shí)況值,作為預(yù)報(bào)下一個(gè)小時(shí)濃度的建模所用,可預(yù)報(bào)PM2.5下一個(gè)小時(shí)濃度值,以此建立滾動(dòng)預(yù)報(bào)模型,然后轉(zhuǎn)步驟3)直至預(yù)報(bào)到24 h為止。
5)將預(yù)報(bào)所得的未來(lái)24 h濃度值的前12 h(21:00至次日8:00)和后12 h(次日9:00至20:00)分別作平均運(yùn)算,得到未來(lái)夜均值和晝均值;將預(yù)報(bào)所得的未來(lái)24 h(21:00至次日20:00)濃度值作平均運(yùn)算,得到未來(lái)一天的日均值濃度。
基于機(jī)器學(xué)習(xí)的PM2.5濃度滾動(dòng)預(yù)報(bào)模型流程如圖2所示。
本文使用Matlab語(yǔ)言編程,用SVM、MLR和RBFNN分別建
立預(yù)報(bào)模型。最終經(jīng)實(shí)驗(yàn)得出未來(lái)24 h、未來(lái)一天的夜均值、晝均值及未來(lái)一天的日均值濃度預(yù)報(bào)曲線、絕對(duì)誤差柱狀圖。
圖2 基于機(jī)器學(xué)習(xí)的PM2.5濃度滾動(dòng)預(yù)報(bào)模型Fig. 2 Rolling forecasting model of PM2.5 concentration based on machine learning
4.1.1 預(yù)報(bào)曲線及誤差柱狀圖
2015年2月— 7月的夜均值及晝均值濃度預(yù)報(bào)曲線如圖3所示。2015年2月— 7月的夜均值及晝均值絕對(duì)誤差柱狀圖如圖4所示。
圖3 PM2.5夜均值及晝均值濃度預(yù)報(bào)曲線Fig. 3 Forecasting curve of nighttime and daytime average concentration
由圖3可知,對(duì)于PM2.5未來(lái)一天的夜均值及晝均值濃度,各種方法的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線的趨勢(shì)都相似。SVM模型的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線最為接近,尤其在濃度轉(zhuǎn)變的波峰波谷附近,該模型仍能較好地進(jìn)行預(yù)報(bào)。WRF-Chem預(yù)報(bào)曲線的前半部分相比實(shí)際觀測(cè)曲線偏低。RBFNN模型的預(yù)報(bào)曲線有少數(shù)偏離實(shí)況觀測(cè)值較大,整體趨勢(shì)與實(shí)際觀測(cè)曲線相似。MLR模型的預(yù)報(bào)曲線有較多的點(diǎn)偏離實(shí)際觀測(cè)曲線,預(yù)報(bào)效果不理想。相比之下,SVM模型的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線的趨勢(shì)最為接近。
由圖4可知,對(duì)于PM2.5未來(lái)一天的夜均值及晝均值濃度,絕對(duì)誤差落在最小誤差區(qū)間(-5,5]的頻數(shù)最多的是SVM預(yù)報(bào)模型。WRF-Chem預(yù)報(bào)的誤差柱狀圖中,落在誤差區(qū)間(-15,-5]的頻數(shù)最多。RBFNN模型和MLR模型預(yù)報(bào)的誤差柱狀圖中,落在最小誤差區(qū)間(-5,5]的頻數(shù)最多,但RBFNN模型的預(yù)報(bào)中有少數(shù)落在誤差較大的區(qū)間,偏離實(shí)況觀測(cè)值較大。各種預(yù)報(bào)方法的MAE從小到大依次是SVM模型、WRF-Chem、RBFNN模型和MLR模型。相比之下,對(duì)于PM2.5未來(lái)一天的夜均值及晝均值濃度,SVM模型的預(yù)報(bào)精度最高,并且算法穩(wěn)定性最好。
圖4 PM2.5夜均值及晝均值絕對(duì)誤差柱狀圖Fig. 4 Absolute error histogram of nighttime and daytime average concentration
4.1.2 誤差分析
夜均值及晝均值誤差數(shù)據(jù)如表1所示,夜均值誤差數(shù)據(jù)如表2所示。
表1 夜均值及晝均值MAE μg/m3Tab. 1 MAE of nighttime and daytime average concentration μg/m3
由表1可知,對(duì)于未來(lái)一天的夜均值及晝均值濃度,SVM模型的MAE比WRF-Chem小,RBFNN模型和MLR模型的MAE比SVM模型和WRF-Chem大,并且RBFNN模型的預(yù)報(bào)穩(wěn)定性較差,MLR模型的預(yù)報(bào)誤差最大。對(duì)于2月4日— 7月15日的MAE,從小到大分別是SVM模型、WRF-Chem、RBFNN模型及MLR模型。綜上所述,對(duì)于未來(lái)一天的夜均值及晝均值濃度,SVM模型的預(yù)報(bào)精度最高,算法性能穩(wěn)定。同時(shí)發(fā)現(xiàn),對(duì)于PM2.5的短期預(yù)報(bào)(未來(lái)一天的夜均值及晝均值濃度),RBFNN模型的預(yù)報(bào)精度比MLR模型高。
表2 夜均值MAE μg/m3Tab. 2 MAE of nighttime average concentration μg/m3
由表2可知,對(duì)于未來(lái)一天的夜均值濃度,SVM模型每個(gè)月的MAE都比WRF-Chem小,RBFNN模型及MLR模型的MAE比SVM模型和WRF-Chem大,并且 RBFNN模型和MLR模型的預(yù)報(bào)穩(wěn)定性較差。對(duì)于2月4日— 7月15日的MAE,從小到大分別是SVM、WRF-Chem、RBFNN及MLR。對(duì)于未來(lái)一天夜均值濃度的預(yù)報(bào),SVM模型的預(yù)報(bào)精度較高,誤差比RBFNN模型、MLR模型及WRF-Chem小。本文所提出的SVM預(yù)報(bào)模型可以有效地預(yù)報(bào)未來(lái)一天的夜均值濃度,預(yù)報(bào)誤差相比WRF-Chem預(yù)報(bào)有一定降低。
4.2.1 預(yù)報(bào)曲線及誤差柱狀圖
2015年2月— 7月的日均值預(yù)報(bào)曲線如圖5所示。2015年2月— 7月的日均值絕對(duì)誤差柱狀圖如圖6所示。
由圖5可知,對(duì)于PM2.5未來(lái)一天的日均值濃度,各種方法的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線的趨勢(shì)都相似。SVM模型的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線最為接近,尤其在濃度轉(zhuǎn)變的波峰波谷附近,該方法仍能較好地進(jìn)行預(yù)報(bào)。WRF-Chem預(yù)報(bào)曲線的前半部分相比實(shí)際觀測(cè)曲線偏低。RBFNN模型的預(yù)報(bào)曲線有少數(shù)偏離實(shí)況觀測(cè)值較大,整體趨勢(shì)與實(shí)際觀測(cè)曲線相似。MLR模型的預(yù)報(bào)曲線有較多的點(diǎn)偏離實(shí)際觀測(cè)曲線,預(yù)報(bào)效果不理想。相比之下,SVM模型的預(yù)報(bào)曲線與實(shí)際觀測(cè)曲線的趨勢(shì)最為接近,算法性能最穩(wěn)定。
由圖6可知,對(duì)于PM2.5未來(lái)一天的日均值濃度,絕對(duì)誤差落在最小誤差區(qū)間(-5,5]的頻數(shù)最多的是SVM模型。WRF-Chem預(yù)報(bào)的誤差柱狀圖中,落在誤差區(qū)間(-15,-5]的頻數(shù)最多。RBFNN模型預(yù)報(bào)的誤差柱狀圖中,落在最小誤差區(qū)間(-5,5]的頻數(shù)最多,但有少數(shù)點(diǎn)落在誤差較大的區(qū)間,偏離實(shí)況觀測(cè)值較大。各種預(yù)報(bào)方法的MAE從小到大依次是SVM模型、WRF-Chem、RBFNN模型和MLR模型。相比之下,對(duì)于PM2.5未來(lái)一天的日均值濃度,SVM模型預(yù)報(bào)的精度最高,并且算法穩(wěn)定性最好。
圖5 PM2.5日均值預(yù)報(bào)曲線Fig. 5 Forecasting curve of daily average concentration
圖6 日均值絕對(duì)誤差柱狀圖Fig. 6 Absolute error histogram of daily average concentration
4.2.2 誤差分析
日均值的誤差數(shù)據(jù)如表3所示。
表3 日均值MAETab. 3 MAE of daily average concentration
由表3可知,對(duì)于未來(lái)一天的日均值濃度,SVM模型的MAE比WRF-Chem小,RBFNN模型預(yù)報(bào)的穩(wěn)定性較差,MLR模型的預(yù)報(bào)誤差最大。相比各個(gè)預(yù)報(bào)方法,本文所提出的SVM模型的預(yù)報(bào)誤差最小,算法性能最穩(wěn)定。對(duì)于2月4日至7月15日的MAE,從小到大分別是SVM模型、WRF-Chem、RBFNN模型及MLR模型。綜上所述,對(duì)于未來(lái)一天的日均值濃度,SVM模型的預(yù)報(bào)準(zhǔn)確度最高,算法性能穩(wěn)定。同時(shí)發(fā)現(xiàn),對(duì)于PM2.5的短期預(yù)報(bào)(未來(lái)一天的日均值濃度),RBFNN模型的預(yù)報(bào)精度比MLR模型高。
本文提出基于機(jī)器學(xué)習(xí)的PM2.5短期濃度預(yù)報(bào)方法,利用氣象影響因子及PM2.5濃度實(shí)際觀測(cè)數(shù)據(jù),聯(lián)合應(yīng)用SVM和PSO建立PM2.5動(dòng)態(tài)預(yù)報(bào)模型,并對(duì)比RBFNN、MLR、WRF-Chem預(yù)報(bào)效果,經(jīng)實(shí)驗(yàn)得出如下結(jié)論:
1)對(duì)于預(yù)報(bào)未來(lái)24 h逐時(shí)濃度值,第一個(gè)小時(shí)的預(yù)報(bào)精度較高,前12 h的預(yù)報(bào)誤差相比后12 h更小,本文所提出的SVM模型可以對(duì)未來(lái)12 h的均值進(jìn)行有效預(yù)報(bào),并且算法性能穩(wěn)定。由于本文采用滾動(dòng)預(yù)報(bào)的方法,預(yù)報(bào)誤差會(huì)不斷累積,不可避免地存在一些不足,而這些問(wèn)題也是今后努力研究的方向。
2)對(duì)于未來(lái)一天的夜均值及晝均值濃度,2015年2月— 7月MAE從小到大依次為SVM模型、WRF-Chem、RBFNN模型及MLR模型,體現(xiàn)了SVM在處理高維非線性問(wèn)題上的優(yōu)勢(shì)。此前已完成的研究表明:在預(yù)報(bào)未來(lái)一小時(shí)濃度中,MLR模型的誤差比RBFNN模型小[15],說(shuō)明在臨近預(yù)報(bào)中,MLR模型優(yōu)于RBFNN模型,而在本文的短期預(yù)報(bào)中,RBFNN模型優(yōu)于MLR模型,說(shuō)明RBFNN模型比MLR模型具有更強(qiáng)的非線性問(wèn)題的處理能力。本文所提出的SVM預(yù)報(bào)模型可對(duì)未來(lái)一天的夜均值(12 h均值)進(jìn)行較為準(zhǔn)確的預(yù)報(bào),并且算法性能穩(wěn)定。若使用模式每日8:00起報(bào)的數(shù)據(jù),則對(duì)未來(lái)12 h均值(晝均值)進(jìn)行較為準(zhǔn)確的預(yù)報(bào),體現(xiàn)了滾動(dòng)預(yù)報(bào)模型的優(yōu)勢(shì),可為人們出行及生產(chǎn)生活起到指導(dǎo)作用。
3)對(duì)于未來(lái)一天的日均值濃度,2015年2月— 7月MAE從小到大依次為SVM模型、WRF-Chem、RBFNN模型及MLR模型,體現(xiàn)了SVM在處理高維非線性問(wèn)題上的優(yōu)勢(shì)。同理說(shuō)明在臨近預(yù)報(bào)中,MLR模型優(yōu)于RBFNN模型,而在短期預(yù)報(bào)中,RBFNN模型優(yōu)于MLR模型。相比之下,SVM模型可對(duì)未來(lái)一天的日均值濃度進(jìn)行有效預(yù)報(bào)。
References)
[1] 劉慧君. 武漢市PM2.5污染的演變預(yù)測(cè)及成因分析和仿真[D]. 長(zhǎng)沙: 湖南大學(xué),2014.(LIU H J. Developing pattern prediction, casual analysis and simulation of PM2.5 pollution in Wuhan city [D]. Changsha: Hunan University, 2014.)
[2] COBOURN W G. An enhanced PM2.5 air quality forecast model based on nonlinear regression and back-trajectory concentrations[J]. Atmospheric Environment, 2010, 44(25): 3015-3023.
[3] BAKER K R, FOLEY K M. A nonlinear regression model estimating single source concentrations of primary and secondarily formed PM2.5[J]. Atmospheric Environment, 2011, 45(22): 3758-3767.
[4] ZHANG P, ZHANG T, HE L, et al. Study on prediction and spatial variation of PM2.5 pollution by using improved BP artificial neural network model of computer technology and GIS[J]. Computer Modelling and New Technologies, 2014, 18(12): 107-115.
[5] WU Y R, GUO J P, ZHANG X Y, et al. Synergy of satellite and ground based observations in estimation of particulate matter in eastern China [J]. Science of the Total Environment, 2012, 433(7): 20-30.
[6] ZHENG H M, SHANG X X. Study on prediction of atmospheric PM2.5 based on RBF neural network[C]// Proceedings of the 2013 4th International Conference on Digital Manufacturing and Automation. Piscataway, NJ: IEEE, 2013:1287-1289.
[7] ZHOU Q P, JIANG H Y, WANG J Z, et al. A hybrid model for PM2.5 forecasting based on ensemble empirical mode decomposition and a general regression neural network [J]. Science of the Total Environment, 2014, 496(2): 264-274.
[8] FENG X, LI Q, ZHU Y J, et al. Artificial neural networks forecasting of PM2.5 pollution using air mass trajectory based geographic model and wavelet transformation[J]. Atmospheric Environment, 2015, 107: 118-128.
[9] VOUKANTSIS D, KARATZAS K, KUKKONEN J, et al. Intercomparison of air quality data using principal component analysis, and forecasting of PM10 and PM2.5 concentrations using artificial neural networks, in Thessaloniki and Helsinki[J]. Science of the Total Environment, 2011, 409(7):1266-1276.
[10] MISHRA D, GOYAL P, UPADHYAY A. Artificial intelligence based approach to forecast PM2.5 during haze episodes: a case study of Delhi, India [J]. Atmospheric Environment, 2015, 102: 239-248.
[11] 李龍, 馬磊, 賀建峰,等. 基于特征向量的最小二乘支持向量機(jī)PM2.5濃度預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(8): 2212-2216. (LI L,MA L,HE J F,et al. PM2.5 concentration prediction model of least squares support vector machine based on feature vector [J]. Journal of Computer Applications, 2014, 34(8): 2212-2216.)
[12] 劉杰, 楊鵬, 呂文生,等. 模糊時(shí)序與支持向量機(jī)建模相結(jié)合的PM2.5質(zhì)量濃度預(yù)測(cè)[J]. 北京科技大學(xué)學(xué)報(bào), 2014, 36(12): 1694-1702.(LIU J, YANG P, LYU W S, et al. Prediction model of PM2. 5 mass concentrations based on fuzzy time series and support vector machine [J]. Journal of University of Science and Technology Beijing, 2014, 36(12):1694-1702.)
[13] SUN W, ZHANG H, PALAZOGLU A, et al. Prediction of 24-hour-average PM2.5 concentrations using a hidden Markov model with different emission distributions in Northern California [J]. Science of the Total Environment, 2013, 443(3): 93-103.
[14] YANG Z C. Modeling and forecasting daily movement of ambient air mean PM2.5 concentration based on the elliptic orbit model with weekly quasi-periodic extension: a case study[J]. Environmental Science and Pollution Research, 2014, 21(16): 9959-9972.
[15] 張長(zhǎng)江,戴李杰,馬雷鳴. 應(yīng)用SVM的PM2.5未來(lái)一小時(shí)濃度動(dòng)態(tài)預(yù)報(bào)模型[J]. 紅外與激光工程,2017, 46(2):252-259.(ZHANG C J, DAI L J, MA L M. Dynamic model for forecasting concentration of PM2.5 one hour in advance using support vector machine[J]. Infrared and Laser Engineering, 2017, 46(2): 252-259.)
[16] ZHANG C J, DAI L J, MA L M. Rolling forecasting model of PM2.5 concentration based on support vector machine and particle swarm optimization[C]// Proceedings of the 2016 International Symposium on Optoelectronic Technology and Application. Bellingham, WA: SPIE, 2016: 10156.
[17] 梁棟, 楊勤英, 黃文江, 等. 基于小波變換與支持向量機(jī)回歸的冬小麥葉面積指數(shù)估算[J]. 紅外與激光工程,2015, 44(1):335-340. (LIANG D,YANG Q Y,HUANG W J,et al. Estimation of leaf area index based on wavelet transform and support vector machine regression in winter wheat[J]. Infrared and Laser Engineering, 2015, 44(1):335-340.)
[18] 金焱, 褚政, 張瑾. 改進(jìn)加權(quán)支持向量機(jī)回歸方法器件易損性評(píng)估[J]. 強(qiáng)激光與粒子束, 2014, 26(12):177-182.(JIN Y,CHU Z,ZHANG J. Improved weighted support vector regression algorithm for vulnerability assessment of electronic devices illuminated or injected by high power microwave [J]. High Power Laser and Particle Beams, 2014, 26(12): 177-182.)
[19] YOU Z Y, CHEN W R, HE G J, et al. Adaptive weight particle swarm optimization algorithm with constriction factor[C]// Proceedings of the 2010 International Conference of Information Science and Management Engineering. Washington, DC: IEEE Computer Society, 2010: 245-248.
This work is partially supported by the National Natural Science Foundation of China (41575046), the Project of Commonweal Technique and Application Research of Zhejiang Province (2016C33010), the Science and Technology Planning Program of Jinhua City (2014- 3- 028).
DAILijie, born in 1990, M. S. candidate. His research interests include signal and information processing, machine learning, pattern recognition.
ZHANGChangjiang, born in 1974, Ph. D., professor. His research interests include signal and information processing, machine learning, pattern recognition.
MALeiming, born in 1975, Ph. D., research fellow. His research interests include meteorological numerical forecasting.
Dynamicforecastingmodelofshort-termPM2.5concentrationbasedonmachinelearning
DAI Lijie1, ZHANG Changjiang1*, MA Leiming2
(1.CollegeofMathematics,PhysicsandInformationEngineering,ZhejiangNormalUniversity,JinhuaZhejiang321004,China;2.CentralMeteorologicalObservatory,ShanghaiMeteorologicalBureau,Shanghai200030,China)
The forecasted concentration of PM2.5 forecasting model greatly deviate from the measured concentration. In order to solve this problem, the data (from February 2015 to July 2015), consisting of measured PM2.5 concentration, PM2.5 model (WRF-Chem) forecasted concentration and model forecasted data of 5 main meteorological factors, were provided by Shanghai Pudong Meteorological Bureau. Support Vector Machine (SVM) and Particle Swarm Optimization (PSO) algorithm were combined to build rolling forecasting model of hourly PM2.5 concentration in 24 hours in advance. Meanwhile, the nighttime average concentration, daytime average concentration and daily average concentration during the upcoming day were forecasted by rolling model. Compared with Radical Basis Function Neural Network (RBFNN), Multiple Linear Regression (MLR) and WRF-Chem, the experimental results show that the proposed SVM model improves the forecasting accuracy of PM2.5 concentration one hour in advance (according with the results concluded from finished research), and can comparatively well forecast PM2.5 concentration in 24 hours in advance, and effectively forecast the nighttime average concentration, daytime average concentration and daily average concentration during the upcoming day. In addition, the proposed model has comparatively high forecasting accuracies of hourly PM2.5 concentration in 12 hours in advance and nighttime average concentration during the upcoming day.
machine learning; Particle Swarm Optimization (PSO) algorithm; dynamic model; rolling forecasting
2017- 05- 16;
2017- 06- 09。
國(guó)家自然科學(xué)基金資助項(xiàng)目(41575046);浙江省科技廳公益性技術(shù)應(yīng)用研究計(jì)劃項(xiàng)目(2016C33010);浙江省金華市科技計(jì)劃項(xiàng)目(2014- 3- 028)。
戴李杰(1990—),男,浙江桐廬人,碩士研究生,主要研究方向:信號(hào)與信息處理、機(jī)器學(xué)習(xí)、模式識(shí)別; 張長(zhǎng)江(1974—),男,黑龍江齊齊哈爾人,教授,博士,主要研究方向:信號(hào)與信息處理、機(jī)器學(xué)習(xí)、模式識(shí)別; 馬雷鳴(1975—),男,新疆石河子人,研究員,博士,主要研究方向:氣象數(shù)值預(yù)報(bào)。
1001- 9081(2017)11- 3057- 07
10.11772/j.issn.1001- 9081.2017.11.3057
(*通信作者電子郵箱zcj74922@zjnu.edu.cn)
P456.8
A