基于多通道長短期記憶網(wǎng)絡(luò)的PM 2.5小時濃度預(yù)報

2022-12-20 06:22張鑫磊張冬峰郭媛媛任玉歡范志宣

環(huán)境科學(xué)研究 2022年12期

張鑫磊，張冬峰*，劉偉，楊倩，郭媛媛，任玉歡，范志宣

1.山西省氣候中心，山西太原 030006

2.吉林省氣象科學(xué)研究所，吉林長春 130062

PM2.5指空氣動力學(xué)直徑小于等于2.5μm的細(xì)顆粒物，是近年來主要的大氣污染物之一.研究[1-3]表明，在高濃度PM2.5環(huán)境下暴露數(shù)小時后，將增加患心血管疾病和呼吸道疾病的風(fēng)險.因此，對未來多小時的PM2.5濃度進行逐小時滾動預(yù)報，可以提醒相關(guān)疾病易感人群及時調(diào)整出行計劃、提早預(yù)防短期高濃度PM2.5引發(fā)的健康問題，并進一步推動政府制定緊急預(yù)案，完善大氣污染治理制度[4].

目前關(guān)于PM2.5濃度預(yù)報的方法主要可分為兩大類.第一類是基于氣象學(xué)與數(shù)學(xué)理論的數(shù)值模擬方法，通過對污染物傳輸、擴散、轉(zhuǎn)化以及沉降等過程進行模擬，對污染物濃度進行預(yù)報[5].比較有代表性的幾個污染物模式為美國環(huán)境保護局研發(fā)的第三代空氣質(zhì)量預(yù)報與評估系統(tǒng)中的CMAQ(Community Multiscale Air Quality)模式[6-7]、美國國家氣候中心預(yù)報系統(tǒng)實驗室開發(fā)的氣象-化學(xué)耦合模式WRF-Chem[8]以及由中國科學(xué)院大氣物理研究所研發(fā)的嵌套網(wǎng)格空氣質(zhì)量預(yù)報模式系統(tǒng)NAQPMS[9]等.第二類是基于對歷史資料進行分析的統(tǒng)計方法與機器學(xué)習(xí)(深度學(xué)習(xí))方法，通過對歷史數(shù)據(jù)的學(xué)習(xí)與分析，挖掘數(shù)據(jù)內(nèi)在特征，基于當(dāng)前的狀態(tài)對未來給出較合理的預(yù)報.相較數(shù)值模擬方法來說，第二類方法更為簡單、高效，且適用性廣[10].其中，有基于統(tǒng)計方法的多元線性回歸[11]、非線性回歸[12]等模型，基于機器學(xué)習(xí)方法的極端梯度提升(Extreme Gradient Boosting, XGBoost)[13]、隨機森林(Random Forest, RF)[14]與極限學(xué)習(xí)機(Extreme Learning Machine,ELM)[15]等模型，基于深度學(xué)習(xí)方法的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[16-17]與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[18-20]等模型.

隨著計算機芯片的發(fā)展，圖形處理器(Graphics Processing Unit,GPU)被應(yīng)用到深度學(xué)習(xí)模型訓(xùn)練中.作為機器學(xué)習(xí)方法中的一個新領(lǐng)域，深度學(xué)習(xí)不僅在序列預(yù)測與特征提取等方面優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法，而且在數(shù)據(jù)預(yù)處理上也節(jié)省了較多的時間.在模型輸入要素的選取上，以空氣質(zhì)量監(jiān)測站各類污染物濃度為基礎(chǔ)，多位學(xué)者先后融合了監(jiān)測站周圍的氣象條件、時間信息以及地理信息，有效提升了模型的預(yù)報精度[21-24].在觀測窗與預(yù)報時效的選擇上，多數(shù)研究利用8~72 h歷史資料來預(yù)報未來1~24 h的逐小時PM2.5濃度[24-27].但這些研究中觀測窗的寬度多為人為選取的固定值，可能無法獲取最優(yōu)的預(yù)報結(jié)果.選取合理的觀測窗寬度，一方面可提升模型預(yù)報的準(zhǔn)確性，另一方面也可以減少觀測窗過寬導(dǎo)致的運算成本[25-26]. 在預(yù)報模型構(gòu)建上，有學(xué)者提出了CNN-RNN[24]、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[25]以及CNN-LSTM[26]等深度學(xué)習(xí)預(yù)報模型，這些模型通過提取站點所有要素的歷史時間序列信息，對站點未來逐小時PM2.5濃度進行預(yù)報.在此基礎(chǔ)上，也有學(xué)者利用三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)[21]、卷積長短期記憶網(wǎng)絡(luò)(Convolutional LSTM,ConvLSTM)[23]和圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[27]等模型進一步提取了輸入要素的空間特征，獲得了較高的預(yù)報精度，但同時也增加了數(shù)據(jù)預(yù)處理的難度以及模型的復(fù)雜度.

綜上，已有研究多為單個模型提取所有要素的時間序列及空間信息，然而不同要素的有效信息可能存在差異，對所有要素使用同一個神經(jīng)網(wǎng)絡(luò)進行處理，或許無法獲取較高的預(yù)報精度；同時，以往研究中僅選取固定寬度的觀測窗也會對預(yù)報精度產(chǎn)生一定影響.因此，為進一步提升預(yù)報精度，該研究以太原市為研究區(qū)域，提出了一種多通道長短期記憶網(wǎng)絡(luò)(Multi-Channels Long Short Term Memory，MULTI-LSTM)模型，使用獨立的LSTM模型分別提取不同要素的歷史時間序列信息，利用不同氣象站點融合得到的氣象數(shù)據(jù)作為輔助輸入要素，對不同觀測窗與預(yù)報時效組合下模型的預(yù)報精度進行評價，以期為PM2.5預(yù)報研究中輸入要素、觀測窗選取和模型構(gòu)建等問題提供新的研究思路.

1 材料與方法

1.1 研究區(qū)域概況與數(shù)據(jù)預(yù)處理

太原市位于山西省中部，位于37.45°N~38.42°N、111.5°E~113.15°E之間.總面積6 988 km2，截至2021年底常住人口為539萬.該文選取了太原市2019?2020年的空氣污染物與氣象要素小時資料.空氣污染物觀測數(shù)據(jù)源于中國環(huán)境監(jiān)測總站的全國城市空氣質(zhì)量實時發(fā)布平臺(https://air.cnemc.cn:18007)，污染物包括PM2.5、PM10、NO2、CO、O3和SO2共6種.氣象要素觀測資料來自于太原市國家氣象觀測站與區(qū)域氣象觀測站(分別簡稱“國家站”與“區(qū)域站”).

該文選取的氣象資料包括距離每個空氣質(zhì)量監(jiān)測站最近的國家站的小時相對濕度、露點溫度、2 min平均風(fēng)向/風(fēng)速、10 min平均風(fēng)向/風(fēng)速、地面溫度、1 min/10 min能見度，以及每個空氣質(zhì)量監(jiān)測站5 km范圍內(nèi)所有區(qū)域站的小時氣溫與降水要素的平均值.對個別缺失數(shù)據(jù)進行插補，將空氣質(zhì)量數(shù)據(jù)與氣象數(shù)據(jù)按站點與時間合并，并將站點當(dāng)前季節(jié)、月份以及小時等時間要素作為擴展屬性添加到資料中.最終共獲得20個要素，140 056條有效觀測數(shù)據(jù).空氣污染物和氣象資料的數(shù)值類要素統(tǒng)計結(jié)果如表1所示.

表1 空氣污染物和氣象資料的數(shù)值類要素統(tǒng)計結(jié)果Table 1 Statistical analysisof numerical elements of air pollutants and meteorological data

對空氣污染物和氣象數(shù)據(jù)的數(shù)值類要素進行歸一化處理，對風(fēng)向、季節(jié)等非數(shù)值類要素進行獨熱編碼處理.從每個站點數(shù)據(jù)中選取80%樣本組成訓(xùn)練集，剩下的20%組成測試集.另外，在訓(xùn)練集中抽取5%的樣本作為模型訓(xùn)練時的驗證集，用于超參數(shù)的調(diào)整，以期獲得預(yù)報精度較高的模型.

1.2 預(yù)報模型構(gòu)建

由圖1可見，該文基于LSTM神經(jīng)網(wǎng)絡(luò)進行深度學(xué)習(xí)模型構(gòu)建，LSTM通過遺忘門Ft、輸入門It與輸出門Ot在單元之間傳遞信息，從而控制上一時刻信息與當(dāng)前時刻信息的記憶與遺忘的程度.作為RNN的一種，LSTM可以彌補傳統(tǒng)RNN在長期記憶上導(dǎo)致的梯度爆炸或梯度消失的缺陷.遺忘門Ft與輸入門It控制著細(xì)胞狀態(tài)Ct，通過對上一時刻隱藏層狀態(tài)Ht?1以及當(dāng)前時刻輸入信息Xt的輸入與遺忘，對細(xì)胞狀態(tài)Ct進行更新.輸出門Ot則控制隱藏層狀態(tài)Ht，通過輸出門Ot以及細(xì)胞狀態(tài)Ct來更新當(dāng)前時刻的隱藏層狀態(tài)Ht，LSTM神經(jīng)網(wǎng)絡(luò)通過歷史序列信息的輸入，不斷更新細(xì)胞的隱藏層狀態(tài)Ht，以達到提取特征序列(時間)信息的目的[28].

圖1 LSTM細(xì)胞結(jié)構(gòu)Fig.1 Cell structure of LSTM

圖1中LSTM輸入輸出過程如式(1)~(8)所示.

式中：σ與tanh分別表示sigmoid函數(shù)與雙曲正切函數(shù)；Wf、Wi、Wc、Wo、bf、bi、bc、bo均為模型參數(shù)，通過迭代訓(xùn)練不斷更新.

構(gòu)建MULTI-LSTM模型有以下幾步：首先，利用LSTM較強的時序處理能力，分別對每個要素的歷史時間序列樣本(過去逐n小時歷史資料)進行處理；然后，將各要素的處理結(jié)果通過Merge層進行融合；最終，通過3層全連接神經(jīng)網(wǎng)絡(luò)輸出未來逐m小時的PM2.5濃度.MULTI-LSTM模型結(jié)構(gòu)見圖2.為防止過擬合，使用Dropout層隨機移除一定比例的神經(jīng)元以降低神經(jīng)元之間的復(fù)雜性[29]，優(yōu)化函數(shù)采用Adamax[30].

圖2 MULTI-LSTM模型結(jié)構(gòu)Fig.2 The structure of MULTI-LSTM model

為了對比模型預(yù)報精度，分別構(gòu)建單通道LSTM模型(BASE-LSTM)和LSTM擴展模型(LSTM extended,LSTME)[25].利用各模型對多組觀測窗-預(yù)報時效的數(shù)據(jù)集進行學(xué)習(xí)，核心參數(shù)如表2所示.

表2 訓(xùn)練參數(shù)Table2 The training parameters

該試驗基于Python 3.8.5軟件，利用谷歌深度學(xué)習(xí)開源框架Tensorflow-gpu 2.4.1以及GPU并行計算構(gòu)架cuda 11.0，構(gòu)建并訓(xùn)練上述模型.CPU為Xeon Gold 5222@3.80 GHz四核，使用1塊Nvidia Quadro P2000(5 GB)的顯卡進行GPU運算.

1.3 評價指標(biāo)

為了更好地評估模型的準(zhǔn)確性，在測試集上對模型的預(yù)報值與觀測值進行對比，從而評價預(yù)報效果.該研究采用均方根誤差(RMSE)、平均絕對百分誤差(MAPE)以及擬合指數(shù)(IA)作為評價指標(biāo).通過RMSE可以反映預(yù)報結(jié)果整體的精確度，評估整體的絕對誤差.MAPE用于相對誤差的測量，評估不同等級污染過程誤差的百分比.IA則用于比較預(yù)報值與觀測值的分布相似度，IA越接近1，說明二者越一致[24].

2 結(jié)果與分析

2.1 預(yù)報精度對比

以8 h觀測窗與6 h預(yù)報時效的MULTI-LSTM模型為例，模型訓(xùn)練過程的損失函數(shù)如圖3所示.BASE-LSTM模型、LSTME模型和MULTI-LSTM模型在8 h觀測窗與不同預(yù)報時效組合下的RMSE如圖4所示.由圖4可見，MULTI-LSTM模型在不同預(yù)報時效下均表現(xiàn)最佳，在對觀測窗為8 h、預(yù)報時效為1 h(以下簡寫為“觀測窗/預(yù)報時效”的形式，此處為“8/1”)的預(yù)報中，RMSE為10.67μg/m3，IA在0.98以上，與BASE-LSTM模型表現(xiàn)相近，優(yōu)于LSTME模型.但隨著預(yù)報時效延長，BASE-LSTM模型的預(yù)報精度明顯下降，MULTI-LSTM模型逐漸優(yōu)于其他兩個模型.與BASE-LSTM模型和LSTME模型相比，在“8/6”組合下MULTI-LSTM模型的RMSE分別降低了7%和6%.

圖3 MULTI-LSTM模型訓(xùn)練過程損失函數(shù)圖Fig.3 Loss function of the training process of MULTI-LSTM

圖4 8 h觀測窗下不同預(yù)報時效的RMSEFig.4 The RMSE of different period validities in 8 hoursobservation windows

在6 h預(yù)報時效與不同觀測窗寬度的組合下，MULTI-LSTM模型的預(yù)報精度最高(見圖5).MULTILSTM模型在8~32 h的觀測窗內(nèi)RMSE基本沒有變化，在40~48 h觀測窗內(nèi)略有減小，相比較于8 h觀測窗，觀測窗寬度為40和48 h的RMSE分別降低了2%與3%.BASE-LSTM模型與LSTME模型的預(yù)報精度基本一致，在觀測窗寬度小于等于40 h范圍內(nèi)，隨著觀測窗的變寬，LSTME模型的RMSE基本沒有變化，而BASE-LSTM模型的RMSE略微減小.當(dāng)觀測窗寬度為48 h，BASE-LSTM模型與LSTME模型的RMSE均略有減小.

圖5 不同觀測窗下6 h預(yù)報時效的RMSEFig.5 The RMSE of different observation windows in 6 hours period validities

對原始數(shù)據(jù)集進行相關(guān)性分析，分別計算原始數(shù)據(jù)過去第n小時各輸入要素值與未來第m小時PM2.5濃度之間的相關(guān)系數(shù).對過去第n小時各輸入要素值與未來第m小時PM2.5濃度之間的所有相關(guān)系數(shù)取絕對值后求平均值，得到平均相關(guān)系數(shù)(見圖6).由圖6可見，6條曲線的變化趨勢一致.曲線的變化主要分為4個階段，以未來第1小時PM2.5濃度與各輸入要素值的平均相關(guān)系數(shù)曲線為例，前15 h為下降階段，平均相關(guān)系數(shù)由0.35降至0.24；第16~24小時趨于平穩(wěn)，平均相關(guān)系數(shù)在0.23~0.24之間；第2個下降階段為第25~39小時，平均相關(guān)系數(shù)由0.23降至0.17；第40~48小時平均相關(guān)系數(shù)略有升高，由0.17升至0.18.故根據(jù)預(yù)報結(jié)果與相關(guān)性結(jié)果可以推斷，增加輸入歷史序列的長度對預(yù)報精度提升的影響相對較小，只需根據(jù)相關(guān)性分析選取合適的輸入歷史序列長度.該文中進一步提升預(yù)報精度的觀測窗寬度為40~48 h.

圖6 過去第n小時各輸入要素與未來第m小時PM 2.5濃度的平均相關(guān)系數(shù)Fig.6 Average correlation coefficient between inputs for the past n-th hour and PM 2.5 concentration for thenext m-th hour

2.2 預(yù)報性能評價

分別統(tǒng)計了不同PM2.5污染等級下3個模型在“8/6”組合下測試集的預(yù)報情況[31]，并將MAPE作為評價指標(biāo)(見表3).由表3可見，MULTI-LSTM模型的MAPE最小.

表3 不同模型在不同PM 2.5污染等級下的預(yù)報效果(MAPE)Table 3 MAPE of different models in different PM 2.5 pollution process class

對上蘭站(監(jiān)測站編號：1083A)測試集時段的預(yù)報值與觀測值進行對比，選取了3個模型在“8/6”組合下未來6 h預(yù)報值與觀測值的平均值(見圖7).由圖7可見，BASE-LSTM模型、LSTME模型與MULTILSTM模型的預(yù)報值與觀測值之間的R2分別為0.94、0.93和0.97，MULTI-LSTM模型預(yù)報值與觀測值的一致性優(yōu)于其他模型.此外，根據(jù)散點密度圖的線性擬合可以發(fā)現(xiàn)，3個基于LSTM構(gòu)建的深度學(xué)習(xí)預(yù)報模型均存在一定程度的PM2.5低濃度預(yù)測偏高以及高濃度預(yù)測偏低的問題，但根據(jù)預(yù)報序列與觀測序列的重合程度來看，對于高濃度PM2.5的預(yù)測，MULTI-LSTM模型的預(yù)報值與觀測值重合程度更高.

圖7 上蘭站PM 2.5觀測值與不同模型預(yù)報值的對比Fig.7 Comparison of PM 2.5 observation values and prediction values of different models in Shanglan station

2.3 網(wǎng)絡(luò)深度測試

對“8/6”組合下不同LSTM層數(shù)的MULTI-LSTM模型進行訓(xùn)練，模型預(yù)報精度如表4所示.由表4可見，將LSTM層數(shù)從1層增至7層，RMSE略有升高，而MAPE與IA變化均不明顯，故增加網(wǎng)絡(luò)層數(shù)無法明顯提升網(wǎng)絡(luò)的預(yù)報精度.

表4 不同LSTM層數(shù)的MULTI-LSTM模型整體預(yù)報精度Table 4 Accuracy of different LSTM layersof MULTI-LSTM model

3 討論

通過對比不同觀測窗與預(yù)報時效下各模型的預(yù)報精度發(fā)現(xiàn)，BASE-LSTM與LSTME模型預(yù)報精度相當(dāng)，但均低于MULTI-LSTM模型. 利用獨立的LSTM對每個要素進行訓(xùn)練，明顯提高了模型對PM2.5濃度的預(yù)報能力.同時，對于基于LSTM構(gòu)建的深度學(xué)習(xí)預(yù)報模型來說，輸入要素歷史序列的有效信息具有一定長度，選擇合適的觀測窗寬度可以減少模型訓(xùn)練的時間成本.以MULTI-LSTM模型為例，選擇8 h與32 h歷史要素預(yù)報未來逐6 h的PM2.5濃度，預(yù)報精度基本相同(RMSE分別為20.26、20.22μg/m3)，將觀測窗寬度增至40 h，預(yù)報精度才會進一步提升(RMSE為19.84μg/m3).

選擇合適的網(wǎng)絡(luò)層深度也可以減少模型訓(xùn)練的時間成本，從網(wǎng)絡(luò)深度測試的結(jié)果來看，增加網(wǎng)絡(luò)深度并沒有進一步提升預(yù)報精度.當(dāng)LSTM層數(shù)為7時，MULTI-LSTM模型1個訓(xùn)練周期(epoch)用時為37.5 s，與LSTM層數(shù)為1的1個epoch用時(5.6 s)相比，增加了約6倍.

對于氣象數(shù)據(jù)的選取，與不使用氣象要素或使用單一來源的氣象要素相比，該文使用了不同觀測級別氣象站的氣象數(shù)據(jù)作為研究區(qū)域內(nèi)空氣質(zhì)量監(jiān)測站對應(yīng)的氣象要素.其中，區(qū)域站在地理分布上更密集，從而為周圍空氣質(zhì)量監(jiān)測站的PM2.5預(yù)報提供更多有效預(yù)報信息.國家站觀測要素的種類更為豐富，可進一步挑選與PM2.5濃度變化相關(guān)的要素，為模型訓(xùn)練提供更多相關(guān)信息.在后續(xù)研究中，可考慮加入氣象再分析數(shù)據(jù)，將不同位勢高度的氣象要素輸入到模型中，以期進一步提高模型的預(yù)報精度.

與CNN-LSTM[26]、GCN-Attention-Seq2Seq[27]、STAM-STGCN[32]、ST-LSTM[33]等基于深度學(xué)習(xí)的PM2.5濃度逐小時預(yù)報模型相比，該文提出的MULTI-LSTM模型將多個要素分別輸入到不同的LSTM模型中，分別提取不同要素的信息，從而降低了模型的復(fù)雜性，同時也獲得了相對較高的預(yù)報精度(見表5).模型復(fù)雜性降低，一方面可減少模型訓(xùn)練的時間與數(shù)據(jù)預(yù)處理的難度；另一方面，也能進一步避免模型過擬合現(xiàn)象的發(fā)生.

表5 不同模型預(yù)報精度對比Table 5 Prediction accuracy of each model

4 結(jié)論

a)該研究利用2019?2020年太原市空氣質(zhì)量監(jiān)測站、國家氣象觀測站和區(qū)域氣象觀測站逐小時數(shù)據(jù)，提出一種MULTI-LSTM模型，其使用獨立的LSTM分別對各要素進行處理，解決了不同要素的歷史時間序列對PM2.5濃度預(yù)報結(jié)果響應(yīng)情況存在差異的問題.

b)對BASE-LSTM、LSTME和MULTI-LSTM模型進行比較，結(jié)果表明，MULTI-LSTM模型在不同觀測窗與預(yù)報時效組合下的RMSE均低于其他2個模型；同時，在一定范圍內(nèi)增加觀測窗寬度或提升網(wǎng)絡(luò)深度無法進一步提升模型的預(yù)報精度.

c)通過選擇合適的觀測窗寬度和氣象要素，以MULTI-LSTM模型作為太原市短期PM2.5濃度預(yù)報模型，可獲得精度較高的預(yù)報結(jié)果，在8 h觀測窗和6 h預(yù)報時效組合下，RMSE、MAPE和IA分別為20.26 μg/m3、51%和0.91.下一步將利用MULTI-LSTM模型開展其他污染物的短期預(yù)報研究，以進一步驗證模型的預(yù)報性能和泛化能力.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡