*?jiǎng)⑺佳?曹馨元* 劉照 李曉妍
(1.沈陽(yáng)航空航天大學(xué)能源與環(huán)境學(xué)院 遼寧 110136 2.中國(guó)科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所 吉林 130102)
春節(jié)是我國(guó)歷史最為悠久的傳統(tǒng)節(jié)日,春節(jié)期間燃放煙花爆竹已然成為了人民的一項(xiàng)重要的娛樂(lè)性活動(dòng)。但是,在短時(shí)間內(nèi)燃放大量煙花爆竹,不但會(huì)導(dǎo)致意外傷亡的事故增加,而且會(huì)釋放出大量污染物。目前,對(duì)于煙花爆竹燃放的研究大多利用地面監(jiān)測(cè)數(shù)據(jù)及采樣數(shù)據(jù)分析污染物成分及其危害。趙素平等[1]以蘭州市為例研究了春節(jié)期間顆粒物濃度及其體積濃度譜分布特征,結(jié)果表明煙花燃放排放顆粒物體積中位徑最大比例在0.93,5.50μm左右。金軍等[2]研究發(fā)現(xiàn),煙花爆竹的燃放會(huì)導(dǎo)致污染物濃度劇烈增加,監(jiān)測(cè)點(diǎn)PM10最高濃度超過(guò)800μg/m3,不僅導(dǎo)致能見(jiàn)度下降,還會(huì)造成大氣消光作用。煙花排放顆粒物水溶性離子、重金屬濃度也會(huì)在短期內(nèi)急劇上升,K+質(zhì)量濃度最高達(dá)到115.6μg/m3,Ba質(zhì)量濃度最高達(dá)到5.168μg/m[3]。洪也等[4]進(jìn)一步對(duì)煙花爆竹燃放排放細(xì)顆粒元素進(jìn)行了分析,結(jié)果指出Ba、Sr、K等污染元素濃度在沈陽(yáng)城區(qū)中有明顯上升,特別富集在PM1中。大量的污染物不但會(huì)導(dǎo)致空氣質(zhì)量的惡化,而且會(huì)對(duì)人體的健康造成危害[5]。出于環(huán)保以及安全的角度考慮,沈陽(yáng)市人民政府發(fā)布了關(guān)于春節(jié)期間禁止銷(xiāo)售和燃放煙花爆竹的通告,因此2020年春節(jié)成為沈陽(yáng)市三環(huán)以內(nèi)城區(qū)準(zhǔn)許銷(xiāo)售和燃放煙花爆竹的最后一年[6]。因此,準(zhǔn)確預(yù)測(cè)煙花爆竹排放顆粒物濃度對(duì)于控制節(jié)日期間短期急增大氣污染至關(guān)重要。
目前,顆粒物濃度預(yù)測(cè)的方法主要包括大氣數(shù)值模式預(yù)測(cè)、統(tǒng)計(jì)模型預(yù)測(cè)以及機(jī)器學(xué)習(xí)模型預(yù)測(cè)[7]。其中大氣數(shù)值模式預(yù)測(cè)是通過(guò)對(duì)PM2.5的擴(kuò)散方程進(jìn)行數(shù)值求解,統(tǒng)計(jì)模型預(yù)測(cè)包括多元線性回歸模型,灰色預(yù)測(cè)模型,以及時(shí)間序列常用的ARIMA模型等。近年來(lái),國(guó)內(nèi)外學(xué)者通過(guò)構(gòu)建機(jī)器學(xué)習(xí)模型,提高了預(yù)測(cè)PM2.5濃度的預(yù)測(cè)精度。梁錫冠等[8]通過(guò)比較幾種常見(jiàn)的基于樹(shù)的集成學(xué)習(xí)模型預(yù)測(cè)PM2.5濃度,得到的結(jié)論是LightGBM模型預(yù)測(cè)濃度更優(yōu),其次是XGBoost模型,RF模型最差。Kumar等[9]通過(guò)改進(jìn)的AdaBoost算法預(yù)測(cè)了德?tīng)柡赑M2.5濃度,與XGBoost模型相比預(yù)測(cè)效果更佳。
本研究基于2016年—2022年沈陽(yáng)市春節(jié)期間正月初一前后各15d的逐小時(shí)空氣質(zhì)量監(jiān)測(cè)歷史數(shù)據(jù)集,結(jié)合相應(yīng)的氣象數(shù)據(jù)以及時(shí)間編碼數(shù)據(jù)對(duì)沈陽(yáng)市春節(jié)期間PM2.5濃度進(jìn)行預(yù)測(cè),并且通過(guò)4種錯(cuò)誤度量標(biāo)準(zhǔn)得出最優(yōu)模型,為沈陽(yáng)市煙花爆竹燃放政策的完善以及春節(jié)期間空氣污染控制提供預(yù)報(bào)預(yù)警作用以及參考,并為沈陽(yáng)市環(huán)境管理部門(mén)科學(xué)決策提供數(shù)據(jù)支持。
(1)數(shù)據(jù)來(lái)源
①觀測(cè)數(shù)據(jù)
本研究的觀測(cè)數(shù)據(jù)主要來(lái)自全國(guó)空氣質(zhì)量歷史數(shù)據(jù)庫(kù)網(wǎng)站(http://beijingair.sinaapp.com/#messy),該網(wǎng)站的數(shù)據(jù)主要來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站的全國(guó)城市空氣質(zhì)量實(shí)時(shí)發(fā)布的數(shù)據(jù)。本文所采用的監(jiān)測(cè)數(shù)據(jù)為2016年—2022年正月初一前后各15d的沈陽(yáng)市包括皇姑區(qū)、大東區(qū)、沈河區(qū)、和平區(qū)、于洪區(qū)、渾南區(qū)、鐵西區(qū)、沈北新區(qū)在內(nèi)的主城區(qū)的9個(gè)站點(diǎn)的空氣質(zhì)量指數(shù)(AQI)和各常規(guī)污染物(PM2.5、PM10、CO、NO2、SO2、O3)質(zhì)量濃度的逐時(shí)監(jiān)測(cè)數(shù)據(jù),這些站點(diǎn)包括主要區(qū)域、交通干道等類(lèi)型,所有監(jiān)測(cè)站點(diǎn)均經(jīng)過(guò)GPS定位[10]。
②氣象數(shù)據(jù)
本研究主要通過(guò)中國(guó)氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn/site/index.html)和rp5.ru天氣(https://rp5.ru.com)獲得沈陽(yáng)市2016年—2022年溫度(℃),表面大氣壓(mmHg)、平均海平面大氣壓(mmHg)、相對(duì)濕度(%)、平均風(fēng)速(m/s)、露點(diǎn)溫度(℃)[11]。
(2)研究方法
為了更加合理、準(zhǔn)確地評(píng)價(jià)模型的性能,本研究采用均方誤差MSE、平均絕對(duì)誤差MAE、平均絕對(duì)百分比誤差MAPE、決定系數(shù)R2四種錯(cuò)誤度量標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估[12-13]。其中MSE作為回歸問(wèn)題最常用的指標(biāo)之一,其優(yōu)點(diǎn)可以非常直觀地反映預(yù)測(cè)值與真值之間的偏差,MAE則能更好的地反映出預(yù)測(cè)值誤差的實(shí)際狀況,MAPE以百分比表示,可用于比較不同比例的預(yù)測(cè),R2度量了因變量中可以被自變量解釋的比重,R2越接近1,模型的擬合效果越好。
(1)特征工程處理
PM2.5濃度與時(shí)間特征存在一定的相關(guān)性,在創(chuàng)建機(jī)器學(xué)習(xí)模型訓(xùn)練的過(guò)程中,為了使模型輸出的結(jié)果能夠更準(zhǔn)確、更靈活,時(shí)間特征也應(yīng)該被輸入到模型中[8]。除進(jìn)行時(shí)間周期性編碼外,時(shí)間特征還可被當(dāng)作為離散值進(jìn)行處理,本研究采用OneHotEncoder對(duì)時(shí)間特征進(jìn)行編碼并代入模型[14-15]。進(jìn)行時(shí)間變量編碼后的結(jié)果與PM2.5濃度的相關(guān)系數(shù)如表1所示。實(shí)驗(yàn)表明,沈陽(yáng)市9個(gè)站點(diǎn)年份特征編碼對(duì)于PM2.5濃度有很強(qiáng)的一致性,其中r-2020均得到了大幅提高,說(shuō)明沈陽(yáng)市春節(jié)期間的濃度在2020年劇烈增加,而2021年—2022年P(guān)earson相關(guān)系數(shù)均與PM2.5濃度呈現(xiàn)一定的負(fù)相關(guān)性。
表1 年份時(shí)間編碼與PM2.5濃度的相關(guān)系數(shù)
(2)預(yù)測(cè)結(jié)果分析
對(duì)于數(shù)據(jù)量較大的數(shù)據(jù)集,為了防止過(guò)擬合,通常要進(jìn)行K-fold交叉驗(yàn)證,但是由于傳統(tǒng)的K-fold交叉驗(yàn)證是隨機(jī)打亂數(shù)據(jù)集作為訓(xùn)練集的部分,對(duì)于時(shí)間序列類(lèi)與時(shí)間變量存在極大的相關(guān)性數(shù)據(jù),會(huì)導(dǎo)致時(shí)間性關(guān)系喪失,從而導(dǎo)致模型的錯(cuò)誤。因此,本研究利用了sklearn庫(kù)中的TimeSeriesSplit類(lèi),其中n_splits參數(shù)設(shè)置為5,意為創(chuàng)建5個(gè)不同的時(shí)間窗口,其中時(shí)間窗口中的數(shù)據(jù)集為連續(xù)的時(shí)間序列數(shù)據(jù),tiest_size參數(shù)取值為300,意為測(cè)試集的樣本數(shù)為300個(gè)。同時(shí),為了防止不同的時(shí)間窗口中訓(xùn)練集與測(cè)試集數(shù)據(jù)產(chǎn)生交叉,本研究將gap參數(shù)設(shè)置為48,意為訓(xùn)練集與測(cè)試集的數(shù)據(jù)需要間隔48h。這樣K-fold的交叉驗(yàn)證能夠直觀地判斷出模型在不同的數(shù)據(jù)集上的過(guò)擬合情況,以便后續(xù)的調(diào)參過(guò)程處理。
本研究以陵?yáng)|街站點(diǎn)為例,對(duì)六種模型的預(yù)測(cè)值與真值進(jìn)行分析,其中4種錯(cuò)誤度量標(biāo)準(zhǔn)為進(jìn)行交叉驗(yàn)證后取得平均值的結(jié)果。
從圖1中真實(shí)值與預(yù)測(cè)值得結(jié)果可以看出,LSTM、GRU模型擬合效果最好,當(dāng)PM2.5濃度為20~70μg/m3時(shí),各個(gè)模型的預(yù)測(cè)精度都很高,但當(dāng)PM2.5濃度大于70μg/m3時(shí)4種集成學(xué)習(xí)模型的預(yù)測(cè)精度開(kāi)始下降,而深度學(xué)習(xí)模型的預(yù)測(cè)精度仍很高,當(dāng)PM2.5濃度持續(xù)增加到大于125μg/m3后,深度學(xué)習(xí)模型的預(yù)測(cè)精度開(kāi)始緩慢下降。由表2可知,LSTM、GRU深度學(xué)習(xí)模型的4種錯(cuò)誤度量標(biāo)準(zhǔn)均小于4種集成學(xué)習(xí)模型。在4種集成學(xué)習(xí)模型中LGBM的MSE最小,預(yù)測(cè)精度最高,RF、XGBOOST其次、GBDT效果相對(duì)最差??傮w上來(lái)講,六種模型的R2均大于0.9,MAPE均小于20%,MAE均小于0.7,所有模型的精度均為很高水平。從整體上看,深度學(xué)習(xí)模型比樹(shù)集成學(xué)習(xí)模型模擬效果好很多,MSE平均降低了大約44%,其余錯(cuò)誤度量標(biāo)準(zhǔn)也均小于樹(shù)集成學(xué)習(xí)模型。GRU、LSTM與主流的機(jī)器學(xué)習(xí)模型預(yù)測(cè)濃度以及相較于傳統(tǒng)的空氣質(zhì)量模型預(yù)測(cè)PM2.5濃度也有明顯的優(yōu)勢(shì),并且預(yù)測(cè)速度更快。
圖1 種模型預(yù)測(cè)值與真實(shí)值得對(duì)比
表2 陵?yáng)|街站點(diǎn)6種模型的錯(cuò)誤度量標(biāo)準(zhǔn)
(1)通過(guò)對(duì)比6種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)情況,得到的結(jié)論是GRU模型預(yù)測(cè)PM2.5濃度的效果最好,其次為L(zhǎng)STM模型,GBDT模型預(yù)測(cè)PM2.5濃度的效果最差。
(2)GRU模型在沈陽(yáng)市PM2.5濃度預(yù)測(cè)中其準(zhǔn)確率要高于其他模型,其MSE、MAE、MAPE以及R2分別為32.160、3.413、0.097、0.973。
(3)建立的GRU模型以及LSTM模型其MSE、MAE、MAPE均小于樹(shù)集成學(xué)習(xí)模型,R2均大于樹(shù)集成學(xué)習(xí)模型LGBM、XGBOOST、RF以及GBDT,表明在預(yù)測(cè)PM2.5濃度的實(shí)驗(yàn)中,深度學(xué)習(xí)模型要優(yōu)于常見(jiàn)的樹(shù)集成學(xué)習(xí)模型。