趙琦琳,邱 飛,楊 健
1.云南省環(huán)境監(jiān)測(cè)中心站, 云南 昆明 650034 2.昆明市環(huán)境監(jiān)測(cè)中心, 云南 昆明 650000
大氣污染問(wèn)題是經(jīng)濟(jì)社會(huì)粗放無(wú)序發(fā)展的必然產(chǎn)物,同時(shí)也是經(jīng)濟(jì)社會(huì)發(fā)展的制約因素之一[1-2]。2012以來(lái),全國(guó)接連發(fā)生大范圍、長(zhǎng)時(shí)間、高濃度空氣污染,嚴(yán)重影響了人們的身體健康以及生產(chǎn)生活,大氣污染問(wèn)題逐步成為輿論熱點(diǎn)[3-5]。為保護(hù)和改善環(huán)境空氣質(zhì)量,保障人民群眾身體健康,國(guó)家出臺(tái)了《關(guān)于推進(jìn)大氣污染聯(lián)防聯(lián)控工作改善區(qū)域空氣質(zhì)量指導(dǎo)意見(jiàn)的通知》和《關(guān)于印發(fā)大氣污染防治行動(dòng)計(jì)劃的通知》,修訂《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》,一系列建立在宏觀戰(zhàn)略上為改善空氣質(zhì)量的頂層設(shè)計(jì),彰顯了黨中央在環(huán)境保護(hù)工作方面的力度和決心。為應(yīng)對(duì)環(huán)境空氣質(zhì)量重污染天氣管控的迫切需求,環(huán)境空氣質(zhì)量預(yù)報(bào)預(yù)警作為一項(xiàng)新的環(huán)保業(yè)務(wù)工作應(yīng)運(yùn)而生,在為豐富環(huán)境空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的應(yīng)用,為公眾提供空氣質(zhì)量變化趨勢(shì)及出行參考信息,為管理部門(mén)科學(xué)制定大氣污染聯(lián)防聯(lián)控措施等方面表現(xiàn)出了強(qiáng)大的生命力[6-7]。
我國(guó)疆域遼闊,不同地區(qū)地形、氣象條件差異明顯,在復(fù)雜地形影響下,污染物在大氣中的遷移、擴(kuò)散和轉(zhuǎn)化機(jī)制不盡相同,平原地區(qū)不同地點(diǎn)的研究結(jié)果具有較好的可比性,但復(fù)雜地形和氣象條件有明顯的個(gè)例差異[8-11]。當(dāng)前已有一些數(shù)值模式應(yīng)用在復(fù)雜地形下污染物濃度的預(yù)測(cè),但數(shù)值模式是人類(lèi)對(duì)客觀規(guī)律的部分反映,并未將全部的自然規(guī)律囊括并運(yùn)用公式表達(dá)在模式計(jì)算的過(guò)程中,且數(shù)值模式受到計(jì)算能力的影響,使其應(yīng)用受到較多限制,而神經(jīng)網(wǎng)絡(luò)模型是利用數(shù)學(xué)算法對(duì)數(shù)據(jù)間規(guī)律進(jìn)行表征,已有的觀測(cè)或監(jiān)測(cè)數(shù)據(jù)已經(jīng)是經(jīng)歷過(guò)各種外界影響下的最終反映,故神經(jīng)網(wǎng)絡(luò)模型計(jì)算可略去物理、化學(xué)及轉(zhuǎn)化機(jī)制的影響,避免機(jī)制的重復(fù)計(jì)算。
人工神經(jīng)網(wǎng)絡(luò)是一門(mén)新興的邊緣學(xué)科,可以彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)方法的不足,解決一些用傳統(tǒng)統(tǒng)計(jì)方法難以解決的問(wèn)題[12]。NARX(Nonlinear Auto-Regressive with Exogenous Inputs,有外部輸入的非線性自回歸模型)神經(jīng)網(wǎng)絡(luò)具有良好的非線性映射能力,較傳統(tǒng)的靜態(tài)神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測(cè)精度和自適應(yīng)能力[13],可以看作有時(shí)延輸入的BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)加上輸出到輸入的延時(shí)反饋連接[14]。由于NARX神經(jīng)網(wǎng)絡(luò)包含了多步輸入輸出延時(shí),因而它可以反映系統(tǒng)的歷史狀態(tài)信息,是一種有記憶功能的神經(jīng)網(wǎng)絡(luò)[15]。與BP神經(jīng)網(wǎng)絡(luò)等簡(jiǎn)單的靜態(tài)神經(jīng)網(wǎng)絡(luò)相比,NARX神經(jīng)網(wǎng)絡(luò)能夠更好地描述動(dòng)態(tài)時(shí)變系統(tǒng)特性,從而更有效地實(shí)現(xiàn)復(fù)雜動(dòng)態(tài)系統(tǒng)建模。
本文利用NARX神經(jīng)網(wǎng)絡(luò)模型對(duì)典型高原山地城市昆明的6個(gè)國(guó)控環(huán)境空氣質(zhì)量自動(dòng)監(jiān)測(cè)站環(huán)境空氣質(zhì)量進(jìn)行模擬,并與LSTM(Long Short-Term Memorg,長(zhǎng)短時(shí)記憶)模型、CMAQ(Community Multiscale Air Quality Modeling System,社區(qū)多尺度空氣質(zhì)量模型系統(tǒng))、NAQPMS(Nested Air Quality Prediction Modeling System,嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)系統(tǒng))等數(shù)值模型模擬結(jié)果進(jìn)行對(duì)比,以期驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型在復(fù)雜地形下環(huán)境空氣質(zhì)量預(yù)測(cè)中的能力,為復(fù)雜地形、氣象條件下環(huán)境空氣質(zhì)量預(yù)測(cè)預(yù)報(bào)積累更多基礎(chǔ)資料。
昆明市位于云貴高原中部,是珠江、金沙江、紅河3大水系流域分水嶺。東西跨越152 km,南北縱深237.5 km,轄區(qū)面積2.11萬(wàn) km2,其中丘陵和山地占88%,平地僅占10%,湖泊占2%。昆明市區(qū)主城三面環(huán)山,南臨滇池,處于群山環(huán)繞的盆地中,昆明市平均海拔1 891 m,最大海拔高差達(dá)3 501.7 m。昆明屬于北亞熱帶低緯高原山地季風(fēng)氣候,市區(qū)年平均氣溫在15 ℃左右,年平均風(fēng)速4 m/s,常年主導(dǎo)風(fēng)向?yàn)槲髂巷L(fēng)。城區(qū)氣壓僅有0.8 kPa,具有典型的高原特征。
為對(duì)比NARX神經(jīng)網(wǎng)絡(luò)模型與用于常規(guī)空氣質(zhì)量預(yù)報(bào)的CMAQ、NAQPMS數(shù)值模型以及LSTM神經(jīng)網(wǎng)絡(luò)模型的性能,采用2015年1月1日—2017年2月8日的城市日均氣象和空氣質(zhì)量數(shù)據(jù)作為NARX網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集,模擬預(yù)測(cè)2017年2月9日—2017年3月11日共30 d的城市日均環(huán)境空氣質(zhì)量6項(xiàng)數(shù)據(jù)。研究選取的數(shù)據(jù)為昆明市主城區(qū)6個(gè)國(guó)控環(huán)境空氣自動(dòng)監(jiān)測(cè)站常規(guī)空氣質(zhì)量監(jiān)測(cè)及氣象觀測(cè)數(shù)據(jù),具體包括SO2、PM10、NO2、PM2.5、CO、O3等6項(xiàng)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù),氣溫、濕度、風(fēng)速、風(fēng)向、氣壓等氣象5參數(shù)。監(jiān)測(cè)數(shù)據(jù)頻次為連續(xù)小時(shí)監(jiān)測(cè)值。對(duì)數(shù)據(jù)進(jìn)行歸一化、元胞化處理。CMAQ和NAQPMS 2個(gè)數(shù)值模式采用統(tǒng)一的WRF(the Weather Reasarch and Forecasting Model,天氣研究預(yù)報(bào)模型)氣象場(chǎng)的輸入數(shù)據(jù),采用統(tǒng)一的云南省2015年基準(zhǔn)污染源清單作為污染源濃度初始場(chǎng)。
NARX神經(jīng)網(wǎng)絡(luò)可以定義為
y(t)=f[y(t-1),y(t-2),…,y(t-ny),
x(t-1),x(t-2),…,x(t-nx)]
(1)
式中:f(·)表示用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)非線性的過(guò)程函數(shù)。沿著數(shù)據(jù)在時(shí)間軸方向的拓展。此式表示了神經(jīng)網(wǎng)絡(luò)的時(shí)間序列實(shí)現(xiàn)函數(shù)模擬功能的數(shù)據(jù)關(guān)聯(lián)性建模思想。
NARX模型結(jié)構(gòu)詳見(jiàn)圖1。
圖1 NARX神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 Architecture diagram of NARX neural network model
根據(jù)已有的數(shù)據(jù)資源,使用NARX神經(jīng)網(wǎng)絡(luò)建立模型,模擬預(yù)測(cè)城市區(qū)域的環(huán)境空氣質(zhì)量6項(xiàng)指標(biāo)的日均值。將歷史氣象因子、歷史環(huán)境空氣質(zhì)量因子作為輸入,將未來(lái)1天的環(huán)境空氣質(zhì)量因子作為輸出,建立輸入-輸出之間的響應(yīng)模型,模型在一定誤差允許的范圍之內(nèi)能夠模擬仿真上述3類(lèi)不同要素之間的響應(yīng)關(guān)系。
通過(guò)專(zhuān)家經(jīng)驗(yàn)和試湊法對(duì)隱層節(jié)點(diǎn)數(shù)和輸入輸出延遲階數(shù)不同的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。然后通過(guò)誤差和網(wǎng)絡(luò)性能對(duì)比,選定最終的網(wǎng)絡(luò)結(jié)構(gòu),NARX網(wǎng)絡(luò)的輸入均為非反饋輸入,而環(huán)境空氣質(zhì)量6項(xiàng)指標(biāo),可以認(rèn)為是大量物理、化學(xué)、氣象因素綜合作用后的結(jié)果,因此,對(duì)灰箱系統(tǒng)而言,氣象參數(shù)5項(xiàng)設(shè)為非反饋輸入,空氣質(zhì)量6項(xiàng)設(shè)為反饋輸出;而對(duì)于灰箱系統(tǒng)內(nèi)部而言,歷史氣象因子、歷史環(huán)境空氣質(zhì)量因子作為非反饋輸入,未來(lái)一天環(huán)境空氣質(zhì)量因子作為反饋輸出。
模式使用的歷史氣象5參數(shù)以及歷史空氣6參數(shù)并非同步實(shí)時(shí)作用于預(yù)測(cè)結(jié)果中的空氣6參數(shù),而是在結(jié)果一定擴(kuò)散傳輸、遷移轉(zhuǎn)化等動(dòng)力學(xué)機(jī)制之后的綜合反饋,最終反映在環(huán)境空氣自動(dòng)站監(jiān)測(cè)數(shù)據(jù)上的,因此輸入-輸出之間存在一定時(shí)間的延遲。
設(shè)置隱層結(jié)構(gòu)為1~3層,每層3~10個(gè)神經(jīng)元節(jié)點(diǎn),經(jīng)過(guò)大步幅的粗調(diào)和小步幅的微調(diào),反復(fù)調(diào)試求取最優(yōu)的隱層結(jié)構(gòu),訓(xùn)練函數(shù)取trainlm;隱層傳遞函數(shù)為tansig,輸出層傳遞函數(shù)為purelin。分30次,使用開(kāi)環(huán)網(wǎng)絡(luò)一步預(yù)測(cè)法,使用訓(xùn)練好的模型仿真求解。
如圖2所示,對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析,其中NARX、NAQPMS、LSTM預(yù)測(cè)結(jié)果為2017年2月10日—3月11日,CMAQ預(yù)測(cè)結(jié)果為3月3—11日(由于云南省省級(jí)預(yù)報(bào)預(yù)警平臺(tái)CMAQ模式部署時(shí)間為3月3日,故CMAQ僅對(duì)比了3—11日的模擬結(jié)果)。模擬結(jié)果顯示,NARX神經(jīng)網(wǎng)絡(luò)模型對(duì)6項(xiàng)污染物的模擬均具有較好一致性,對(duì)模擬結(jié)果趨勢(shì)存在一定的滯后,總體模擬結(jié)果較好,相比其他2個(gè)數(shù)值模型和LSTM模型而言,NARX神經(jīng)網(wǎng)絡(luò)模型更加穩(wěn)健,4個(gè)模式均存在一定程度的低估。其中對(duì)SO2的模擬性能來(lái)說(shuō),NARX具有較好的一致性,LSTM存在較大程度的高估,NAQPMS和CMAQ存在不同程度的低估;對(duì)于NO2來(lái)說(shuō),NARX具有較好的一致性,數(shù)值模式同樣存在不同程度的低估,對(duì)于CO來(lái)說(shuō);NARX一致性較好,LSTM趨勢(shì)不盡一致,但數(shù)值水平相當(dāng),數(shù)值模式依然存在低估;對(duì)于O3來(lái)說(shuō),各模式模擬數(shù)值水平相當(dāng),NARX和NAQPMS的模擬結(jié)果與觀測(cè)值一致性較好,LSTM表現(xiàn)一般;對(duì)于顆粒物(PM10、PM0.5)來(lái)說(shuō),數(shù)值模式依然表現(xiàn)出趨勢(shì)上的一致,而數(shù)值水平相差較大,NARX具有較好的一致性,且數(shù)值水平相當(dāng)。
根據(jù)已有數(shù)據(jù),使用NARX神經(jīng)網(wǎng)絡(luò)建立模型,模擬預(yù)測(cè)昆明市環(huán)境空氣質(zhì)量6參數(shù)結(jié)果,取預(yù)測(cè)值與監(jiān)測(cè)結(jié)果的最大、最小相對(duì)誤差和相對(duì)誤差絕對(duì)值的均值等來(lái)表征模型模擬效果的好壞,結(jié)果見(jiàn)表1、表2。
圖2 模式模擬結(jié)果與觀測(cè)值的比較Fig.2 Comparison of the model simulation results with the observed values
空氣質(zhì)量6參數(shù)最小、最大相對(duì)誤差/%net=narxnet(1:7,1:7,[10]) ;氣象取5個(gè)參數(shù)*net=narxnet(1:7,1:7,[4]);氣象取5個(gè)參數(shù)*net=narxnet(1:7,1:7,[7]) ;氣象取5個(gè)參數(shù)*SO2-58.512 375.796 8-16.597 679.012 6-26.814 772.747 1PM10-67.740 068.667 8-54.953 354.177 1-42.911 747.999 8NO2-50.616 218.105 5-31.707 933.148 0-31.379 832.094 3PM2.5-64.073 834.449 1-63.882 329.432 8-36.715 057.988 5CO-40.037740.348 8-13.456 951.182 1-18.294 728.115 2O3-46.118 2278.385 2-55.797 1238.113 6-47.827 2260.062 3空氣質(zhì)量6參數(shù)最小、最大相對(duì)誤差/%net=narxnet(1:7,1:7,[7]);氣象取前3個(gè)參數(shù)*net=narxnet(1:7,1:7,[10]);氣象取前3個(gè)參數(shù)*net=narxnet(1:7,1:7,[5]);氣象取前3個(gè)參數(shù)*SO2-28.484 932.843 3-29.306 5117.922 6-31.622 274.004 9PM10-45.463 366.936 9-33.418 446.189 4-35.782 549.817 7NO2-24.643 456.777 6-27.367 126.187 6-22.486 540.507 2PM2.5-40.935 951.258 0-33.673 430.646 5-30.728 135.845 8CO-22.844 640.441 8-24.470 642.297 5-23.371 739.434 8O3-60.595 8255.022 3-48.425 2201.522 7-47.217 5255.276 4
注:“*”指按順序排列的氣象5參數(shù):氣溫、濕度、風(fēng)速、風(fēng)向、氣壓。
表2 NARX不同網(wǎng)絡(luò)參數(shù)、超級(jí)參數(shù)預(yù)測(cè)結(jié)果相對(duì)誤差絕對(duì)值均值Table 2 The mean absolute value of relative error of the prediction results of NARX with different network parameters and super parameters
注:“*”按順序排列的氣象5參數(shù):氣溫、濕度、風(fēng)速、風(fēng)向、氣壓。
可以看出,使用不同的網(wǎng)絡(luò)結(jié)構(gòu)以及超級(jí)參數(shù),模擬性能不盡相同,相對(duì)誤差范圍為-67.74%~278.39%,其中Google LSTM神經(jīng)網(wǎng)絡(luò)模型、CMAQ、NAQPMS的預(yù)測(cè)結(jié)果相對(duì)誤差分別為-65.9%~1080%、-97.12%~42.86%、-94.29%~179.31%,各模式對(duì)6項(xiàng)污染物的預(yù)測(cè)結(jié)果性能不盡相同,神經(jīng)網(wǎng)絡(luò)模型模擬結(jié)果分布較為均一,而數(shù)值模式預(yù)測(cè)結(jié)果普遍都存在低估現(xiàn)象,這可能與數(shù)值模式的運(yùn)算機(jī)理有關(guān),目前數(shù)值模式所需要的氣象場(chǎng)、大氣排放源清單等基礎(chǔ)資料的時(shí)空分辨率均不能真實(shí)反映實(shí)際狀況,是造成模式誤差的主要原因。使用不同網(wǎng)絡(luò)參數(shù)和超級(jí)參數(shù)進(jìn)行多次預(yù)測(cè),經(jīng)有限次數(shù)調(diào)試,隱層確定為1,神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)確定為4~10條件下性能最佳,而延遲在(1:5~1:7)區(qū)間較佳,最終確定(1:7,1:7)[5]的參數(shù)和輸入僅使用氣溫1項(xiàng)的超級(jí)參數(shù)的方案上,網(wǎng)絡(luò)性能最好,誤差最小,這也說(shuō)明了污染源的生成與每周的工作周期具有一定的相關(guān)性。NARX模型模擬結(jié)果雖然具有較好的一致性,但是在模型訓(xùn)練以及模型參數(shù)選定過(guò)程需要十分復(fù)雜的數(shù)學(xué)計(jì)算,對(duì)計(jì)算機(jī)算力資源有一定要求。
NARX網(wǎng)絡(luò)能夠很好地克服預(yù)測(cè)誤差累積現(xiàn)象,其在隱含層中具備反饋連接到輸入層的承接層,同時(shí)在承接層上增加了自反饋連接,這樣能提高網(wǎng)絡(luò)存儲(chǔ)和記憶歷史信息的能力。而LSTM網(wǎng)絡(luò)在經(jīng)典時(shí)間遞歸網(wǎng)絡(luò)的基礎(chǔ)上增加一個(gè)遺忘門(mén),功能是將低于一定權(quán)值的輸入因子忽略遺忘,網(wǎng)絡(luò)結(jié)構(gòu)較NARX稍復(fù)雜。
在本文采用的特定研究數(shù)據(jù)對(duì)象條件下,更加復(fù)雜結(jié)構(gòu)的LSTM網(wǎng)絡(luò)在訓(xùn)練過(guò)程中過(guò)擬合,降低了網(wǎng)絡(luò)的泛化能力,因此對(duì)于特定的樣本數(shù)據(jù),復(fù)雜網(wǎng)絡(luò)并不一定總能占優(yōu)勢(shì),結(jié)構(gòu)適中的網(wǎng)絡(luò)類(lèi)型反而具有較強(qiáng)的泛化推廣能力;2015年1月1日—2017年2月8日的城市日均氣象及空氣質(zhì)量樣本數(shù)據(jù)(共770組)并不大,對(duì)這樣的小規(guī)模的特定樣本數(shù)據(jù),NARX比LSTM具有更好的泛化能力。NARX不同的網(wǎng)絡(luò)參數(shù)、超級(jí)參數(shù)預(yù)測(cè)結(jié)果與其他模型預(yù)測(cè)誤差的比較,見(jiàn)表3、表4。
表3 NARX不同參數(shù)預(yù)測(cè)結(jié)果與其他模式預(yù)測(cè)結(jié)果的最小、最大相對(duì)誤差Table 3 The minimum and maximum relative errors between the prediction results of different parameters of NARX and those of other models
注:“*”指按順序排列的氣象5參數(shù):氣溫、濕度、風(fēng)速、風(fēng)向、氣壓。
表4 NARX不同參數(shù)預(yù)測(cè)結(jié)果與其他模式預(yù)測(cè)結(jié)果的相對(duì)誤差絕對(duì)值均值Table 4 The mean absolute value of relative error of NARX prediction results with different parameters and other model prediction results
注:“*”指按順序排列的氣象5參數(shù):氣溫、濕度、風(fēng)速、風(fēng)向、氣壓。
根據(jù)對(duì)NARX神經(jīng)網(wǎng)絡(luò)的建模和訓(xùn)練,針對(duì)高原山地城市昆明的環(huán)境空氣污染物濃度進(jìn)行預(yù)測(cè),對(duì)模型結(jié)果進(jìn)行檢驗(yàn),并與其他神經(jīng)網(wǎng)絡(luò)模型以及數(shù)值模型預(yù)測(cè)記過(guò)進(jìn)行比較,得到如下結(jié)論:
1)受計(jì)算資源限制,案例選取了少量的網(wǎng)絡(luò)結(jié)構(gòu)、超級(jí)參數(shù)篩選,在比選方案中選用的超級(jí)參數(shù)運(yùn)行多次,能夠得到穩(wěn)定輸出,預(yù)測(cè)性能較理想,前5項(xiàng)污染物(NO2、CO、PM10、PM2.5、SO2)濃度能取得16%以內(nèi)的相對(duì)誤差。
2)NARX網(wǎng)絡(luò)建立的模型能夠比較準(zhǔn)確地模擬預(yù)測(cè)高原山地城市昆明的空氣質(zhì)量及變化趨勢(shì),預(yù)測(cè)結(jié)果與一致性較高,模擬結(jié)果數(shù)值水平與監(jiān)測(cè)結(jié)果較為一致。除CO外,NARX對(duì)其他污染物存在一定程度的低估,數(shù)值模式以及LSTM對(duì)污染物濃度預(yù)測(cè)均存在不同程度的低估。
3)在“net=narxnet(1:7,1:7,[5]);氣象取第1個(gè)參數(shù)(氣溫)”網(wǎng)絡(luò)結(jié)構(gòu)和超級(jí)參數(shù)條件下,按模擬預(yù)測(cè)性能排序?yàn)镹O2、CO、PM10、PM2.5、SO2、O3,與實(shí)際監(jiān)測(cè)值的相對(duì)誤差絕對(duì)值均值分別為11.2%、12.2%、14.6%、15.6%、16.0%、36.3%。
4)使用相同方法計(jì)算不同模式預(yù)測(cè)結(jié)果的相對(duì)誤差絕對(duì)值均值,經(jīng)過(guò)優(yōu)化參數(shù)后的NARX神經(jīng)網(wǎng)絡(luò)的所有6項(xiàng)污染物預(yù)測(cè)性能顯著優(yōu)于LSTM、NAQPMS 2個(gè)模型,除O3外其他各項(xiàng)污染物預(yù)測(cè)性能均好于CMAQ。