王彤彤,嚴華
(四川大學電子信息學院,成都 610065)
近年來,伴隨著社會對空氣質量的討論度持續(xù)升溫,政府對空氣治理問題高度重視,出臺了一系列針對大氣污染防治工作的防治政策、措施和機制體系,我國大氣污染防治工作已經(jīng)取得了階段性勝利,進入到從單一污染物防控向多污染物協(xié)同控制的轉折點[1]。根據(jù)《2019中國生態(tài)環(huán)境狀態(tài)公報》[2],2019年全國空氣質量指數(shù)超標天數(shù)比例為18%,其中首要污染物細顆粒污染物(PM2.5)和臭氧(O3)的天數(shù)分別占2019年總污染物天數(shù)的45%和41.7%。顯然,PM2.5和O3已經(jīng)成為我國最嚴重的空氣污染物。PM2.5成因復雜且含有大量有害污染物,地面臭氧則是一種光化學污染物,二者對人體的呼吸系統(tǒng)都有強烈的危害性,嚴重影響人體健康[3-6]。根據(jù)研究表明,二者不僅擁有共同來源,并且在大氣中相互影響,存在著復雜的關聯(lián)性[7]。PM2.5與O3的協(xié)同防護已經(jīng)成為改善我國空氣質量和打贏藍天保衛(wèi)戰(zhàn)的關鍵[8-9]。因此,一個可以同時準確預測細顆粒污染物和臭氧的空氣質量預測模型,是當前大氣污染治理工作的急迫需求。
隨著深度學習技術在各個領域的深入應用,基于深度學習的數(shù)據(jù)預測模型可以模擬大氣污染物擴散的非線性機制。作為循環(huán)神經(jīng)網(wǎng)絡的改進模型,長短期記憶網(wǎng)絡[10-11]等在空氣質量預測上得到了廣泛的應用。但大氣污染物數(shù)據(jù)是典型的非線性非平穩(wěn)的氣候時空序列數(shù)據(jù),預測其濃度也受到氣象和地理信息的影響[12-13]。單一模型無法同時兼顧空間依賴性、時間依賴性及鄰域知識三者對污染物濃度的影響。針對其空間和時間特征,Yanlin Qi等[14]提出了將挖掘空間依賴關系的圖神經(jīng)網(wǎng)絡與挖掘時間依賴關系的LSTM相結合的混合模型GCN-LSTM,并取得了較好的預測結果。但依然沒有考慮到先驗知識的影響,且只針對單任務預測進行建模,模型泛化能力不足,預測精度存在較大的提升空間。
針對上述問題,本文提出了一種基于EMD的自增強多任務大氣污染物濃度預測模型。首先,利用encode-decode結構實現(xiàn)多步預測效果。增強對前向和后向序列信息的利用。其次,通過經(jīng)驗模態(tài)分解(EMD)可以將非平穩(wěn)非線性的數(shù)據(jù)轉化為多個相對平穩(wěn)線性的數(shù)據(jù),起到了附加特征的作用,對挖掘時空數(shù)據(jù)隱藏的序列關系有極大的輔助作用。再次,通過綜合考慮氣象信息和地理信息等鄰域知識和空間依賴性,構建一個有向圖,通過知識增強型的圖神經(jīng)網(wǎng)絡學習城市間的污染物的遷移核擴散機制,通過門控神經(jīng)單元學習污染物間的時間傳輸機制。實驗驗證了所提方法的有效性和優(yōu)越性。
現(xiàn)有的研究區(qū)域通常局限于一個城市或一個地區(qū)[14-17],其預測模型也未充分揭示其在大空間尺度中的空間關聯(lián)學習能力。為了解決這樣的問題,我們構建了覆蓋中國污染嚴重地區(qū)的大范圍區(qū)域(103°E—122°E和28°N—42°N),該區(qū)域覆蓋面積大,其中包含了長三角、珠三角、成渝、長中游等五大地區(qū)共184個城市。圖1為區(qū)域地理空間范圍及節(jié)點之間的潛在空間關系,城市之間若存在藍色連接線即表示兩城市間有可學習的空間依賴關系。從圖中可以看出污染物甚至可以使實現(xiàn)跨區(qū)域的遠距離傳輸。
圖1 研究區(qū)域及空間相關性
1.2.1 問題定義
為了準確的預測大氣污染濃度問題,我們需要定義一個有向圖。其中V為節(jié)點合集,本文中節(jié)點為城市,節(jié)點集合代表城市氣象屬性;E為邊的合集,代表城市間的潛在交互關系。t時刻下污染物濃度表示為,其中N為點數(shù)。為了提高模型的預測能力,將領域信息編碼進有向圖中是必要的,不同的領域信息分別表示為圖中的節(jié)點屬性及邊屬性。設分別為t時刻下節(jié)點和邊的屬性矩陣,其中P,Q是對應的屬性項。M= ||E是鏈接邊的數(shù)量。值得一提,在預測階段,我們將輸入已知未來氣象信息和作為鄰域信息同時輸入模型中。綜上,對于任意時間t,預測m步長的污染物濃度可以表示為:
1.2.2 經(jīng)驗模態(tài)分解
經(jīng)驗模態(tài)分解(empirical mode decomposition,EMD)為一種經(jīng)典的處理信號方法[18],無需任何事先設定的基函數(shù)就能夠將非平穩(wěn)非線性的數(shù)據(jù)分解成若干個固有模態(tài)函數(shù)(intrinsic mode func?tion,IMF)和一個殘余分量,各個imf相互獨立且有較強的規(guī)律性,視為我們的自增強數(shù)據(jù)。本文中EMD模塊步驟如下:
(1)對污染物濃度數(shù)據(jù)的極大值與極小值繪制出上下包絡線。
(2)求出上下包絡線的均值,用x(t)減去它,即得到第一個imf序列分量imf1。
重復上述步驟,將剩余分量作為新的時間序列,直至當最后剩余部分為單調序列或常序列時,終止循環(huán),得到最終的固有模式函數(shù)和一個殘余分量F T={imf1,imf2,…,i mf l,rest}。EMD處理過程其表達式如下:
得到的固有模式函數(shù),我們稱為附加特征序列,l為序列個數(shù),由數(shù)據(jù)自身特性決定。
1.2.3 圖神經(jīng)網(wǎng)絡GNN
圖神經(jīng)網(wǎng)絡(graph neural network)是指對圖數(shù)據(jù)搭建神經(jīng)網(wǎng)絡模型并進行分析的方法[19]。圖神經(jīng)網(wǎng)絡可以捕獲圖的拓撲信息,通過利用有向圖中的節(jié)點信息和邊信息捕捉污染物的水平傳輸規(guī)律,對提取有向圖數(shù)據(jù)中的大范圍空間依賴信息有很強的優(yōu)勢[20]。
根據(jù)1.2.1的定義,我們將鄰域信知識作為節(jié)點和邊的屬性來建立有向圖,其中節(jié)點屬性代表該節(jié)點的氣象特征,詳情見表1。研究表明,風向及風速對污染物水平傳播有決定性影響[21-22],因此總結了相關風場信息作為邊屬性,詳見表2。
表1 節(jié)點屬性
表2 邊屬性
EMD-GNN-GRU模型流程如圖2所示:在編碼階段,將已知污染物濃度數(shù)據(jù)進行EMD數(shù)據(jù)自增強處理,同時將污染物濃度數(shù)據(jù)及對應的鄰域信息輸入到GNN網(wǎng)絡中學習鄰域信息對污染物的影響及污染物的空間傳輸機制。從圖神經(jīng)網(wǎng)絡傳輸出來的數(shù)據(jù)與EMD處理后的附加序列壓縮成固定維度的向量,一同穿入GRU網(wǎng)絡中學習底層空間依賴關系及時間依賴關系,其編碼長度即為設定的時間窗長度。編碼器后輸出為中間向量狀態(tài)Cr、Hr,并輸入到解碼器中,解碼器由GNN+GRU混合模型共同組成,經(jīng)過一個多層感知器后輸出,解碼過程即為多步預測過程。
圖2 EMD-GNN-GRU模型結構
為了能夠準確評價預測模型的精度,本文實驗選取三組度量評估模型的性能:①訓練和測試損失顯示模型的泛化能力。②平均絕對誤差(MAE)和均方根誤差(RMSE)檢驗預測的絕對和相對精度。③常用的氣象度量來衡量污染閾值附近的性能,包括臨界成功指數(shù)(CSI)、檢測概率(POD)和空報率(FAR)。
RMSE和MAE指標的表達式如下:
其中real i為地面實況值,pred i為模型預測值,m為設定預測序列長度。RMSE和MAE數(shù)值越小說明預測值與實況值差別程度越小,表明預測效果越好。
CSI、POD和FAR指標的表達式如下:
其中r eal示為地表實況值,false為誤報的污染值,miss為漏報的污染值。我們使用污染物的閾值將預測值和地面實況值二值化后生成0-1矩陣來判斷其是否已構成污染。基于我國環(huán)境空氣質量標準,PM2.5的閾值選擇為75μg/m3,臭氧O3的閾值選擇為160μg/m3。CSI、POD的數(shù)值越高,C S I的數(shù)值越低,表示預測數(shù)據(jù)在閾值附近的準確度越高,模型性能越好。
為了確保檢測指標的公平性和有效性,其評價指標是每個模型重復3次實驗,在全部184個城市中提取所有預測步長的平均值得到的。
實驗部署在NVIDIA 2080 Ti上,模型使用Py?thon 3.6和Pytorch框架實現(xiàn)。實驗開始前的預設值階段,將有向圖中的節(jié)點和邊緣的特征重定義為均值為0,標準差為1。固定輸入時間窗N設置為8、16、24,預測步長m也相應設置為8、16、24,分別代表用已知前24 h、48 h和72 h的大氣污染濃度預測。
選取四川省成都市作為代表,將O3與PM2.5以一周、一個季度及一年為時間長度,以EMD方法進行數(shù)據(jù)自增加,imf從小到大代表了不同頻率下的數(shù)據(jù)特征。通過觀察圖3可以看出,無論是PM2.5還是O3數(shù)據(jù)都具有較大的波動性和非線性,提取特征難度較大。但是通過數(shù)據(jù)分解后,圖3的第4列i mf2很清晰的反映出O3濃度以天數(shù)為周期的性質,而第2列i mf6則反映了PM2.5數(shù)據(jù)在一個季度內的波動趨勢。通過對第2列和第6列的數(shù)據(jù)觀察我們可以印證PM2.5與O3有相互抑制作用。值得一提的是,在O3一年數(shù)據(jù)中,兩個峰值間的突變峰谷信息也被imf8分解出來,可見不管是數(shù)據(jù)的波動趨向、周期還是突變等性質,通過EMD都能很好的表達出來,由此,我們確認通過EMD方式對數(shù)據(jù)進行自增強處理能夠更好提取數(shù)據(jù)的隱藏信息進而對模型預測起到輔助作用。
圖3 基于EMD的數(shù)據(jù)自增強可視化結果
為了測試復合模型的預測效果,本研究與常見的基于神經(jīng)網(wǎng)絡的氣象預測模型相對比,包括MLP、GRU、GC-LSTM,其整體表現(xiàn)如表3所示。實驗結果表明,EMD-GNN-GRU模型不僅能夠同時獲取時間與空間的依賴關系。還兼顧擬合了鄰域信息,在所有評判維度上都獲得了最好的結果。在預測PM2.5未來72 h的基準結果中,和GCN-LSTM模型相比,復合模型在測試集損失、均方根誤差RMSE、平均絕對誤差MAE和臨界成功指數(shù)CSI中分別提高了41.29%、21.33%、22.54%和26.71%。提出模型不僅提升了模型的學習泛化能力,并且在預測精度和臨界值取定的全方面有了顯著的提升。這是由于在預測階段,我們不僅對大氣污染數(shù)據(jù)進行了EMD處理,增加了數(shù)據(jù)維度,分解污染物數(shù)據(jù)潛在信息并且充分利用了鄰域信息對數(shù)據(jù)預測的影響作用。這一結果顯示了復合模型在挖掘數(shù)據(jù)潛在信息,捕捉數(shù)據(jù)時空相關性及充分利用鄰域知識三個角度的全面優(yōu)勢,表明了其可靠的預測能力。
表3 實驗結果
本文利用經(jīng)驗模態(tài)分解和時空圖卷積模型解決對非線性大氣污染濃度預測問題。首先針對預測數(shù)據(jù)非線性的特性,借助EMD對數(shù)據(jù)進行自增強處理,有助于挖掘數(shù)據(jù)的隱藏邏輯。此外,為解決目前神經(jīng)網(wǎng)絡預測模型未考慮到的鄰域信息對預測結果的影響,我們提出了GNN+GRU的時空圖神經(jīng)網(wǎng)絡混合模型,做到了同時捕捉數(shù)據(jù)的時間依賴性、空間依賴性及鄰域信息三個維度信息,有效提升了模型的預測能力。為了驗證模型的有效性,我們選擇PM2.5及O3作為預測對象,在真實數(shù)據(jù)集中進行實驗,通過對比發(fā)現(xiàn)所提模型中獲得最好效果。