金仁浩,曾國靜,王 莎
(北京物資學院 信息學院,北京 101149)
國內(nèi)空氣質(zhì)量問題一直受到各界的高度關(guān)注,尤其是北方冬季較容易出現(xiàn)的霧霾天氣,不僅會導致大氣能見度下降,還會增加呼吸道系統(tǒng)疾病的發(fā)病率和死亡率[1]。近年來,經(jīng)過政府的積極治理,華北地區(qū)的空氣質(zhì)量得到了顯著提升,但大氣污染防治工作仍然是一個長期艱巨的過程。當前,各地的環(huán)境監(jiān)測機構(gòu)和氣象部門實時公布當?shù)氐目諝赓|(zhì)量數(shù)據(jù)和氣候條件,對這些數(shù)據(jù)進行建模分析及預報調(diào)控是當下亟待解決的科學問題。
國家環(huán)保部從2012年開始采用空氣質(zhì)量指數(shù)(AQI),定量描述空氣質(zhì)量狀況。AQI是根據(jù)SO2、NO2、PM 10、PM 2.5、O3、CO這6項污染物濃度指標計算出來的一個綜合指標[2],各地環(huán)保部門一般同時會監(jiān)測和公布這7項指標。目前,對污染物濃度預測的技術(shù)主要分為數(shù)值模式方法和統(tǒng)計預測兩大類。數(shù)值模式方法是基于大氣物理學、大氣動力學和大氣化學理論,以污染物移動的動力學模型、污染源詳細信息及化學反應模型為基礎(chǔ),可以準確地預測任何指定的、任意地點和任意時間段上的污染物濃度。由于這種方法需要多方面大量的數(shù)據(jù)來確定復雜方程中的參數(shù),涉及到巨大的計算量,限制了這種方法的廣泛應用[3]。然而,統(tǒng)計預測方法不依賴于大氣變化機制,僅基于污染物和氣象歷史數(shù)據(jù)通過建立統(tǒng)計模型、機器學習或深度學習模型實現(xiàn)對污染物濃度的預測。目前,大型氣象研究機構(gòu)主要采用數(shù)值模式方法,而普通研究者往往采用統(tǒng)計預測方法。
國內(nèi)基于統(tǒng)計預測方法的空氣質(zhì)量預測研究已經(jīng)相當豐富。譬如:劉慧君利用逐步回歸方法對武漢市的PM 2.5指標進行了預測[3]。田靜毅等使用BP神經(jīng)網(wǎng)絡模型對秦皇島市空氣質(zhì)量進行預測分析,預測結(jié)果較為準確地擬合了往期的空氣質(zhì)量數(shù)據(jù)[4]。戴李杰等以上海浦東區(qū)的PM 2.5指標為目標變量,以該地區(qū)PM 2.5模式預報值和5個氣象因子作為輸入變量構(gòu)建支持向量機模型[5]。崔相輝等(2017)以京津冀地區(qū)為例,選擇氣象參數(shù)建立基于深度置信網(wǎng)絡的PM 2.5預測模型[6]。侯俊雄等利用隨機森林算法以PM 2.5模式預報值和氣象因子對北京單個監(jiān)測點的PM 2.5值進行預測[7]。鄭洋洋等建立基于深度長短期記憶循環(huán)神經(jīng)網(wǎng)絡(LSTM)模型對太原市空氣質(zhì)量指數(shù)(AQI)進行仿真預測[8]。上述這些基于統(tǒng)計預測方法的研究往往都得到較高的預測精度,但在模型設(shè)置時普遍存在不合理現(xiàn)象。這些研究都以包含當日氣象條件或當日其他污染物濃度值的數(shù)據(jù)為基礎(chǔ)來預測當日的 AQI 或 PM 2.5 濃度值。同日的6項污染物濃度指標之間往往存在較高的相關(guān)性,且這種預測設(shè)置意義較小,因為空氣監(jiān)測站點會同時監(jiān)測常見的所有污染物濃度,無需再對空氣質(zhì)量進行預測。但僅以往日的污染物或氣象數(shù)據(jù)對下一日空氣污染物濃度預測的研究較少尚未檢索到,因此本研究嘗試填補這一空缺,并分析和比較這種數(shù)據(jù)設(shè)置的模型預測效果。
目前統(tǒng)計預測方法中,神經(jīng)網(wǎng)絡類模型被廣泛應用,主要包括有:多層前饋神經(jīng)網(wǎng)絡( BP神經(jīng)網(wǎng)絡)、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、深度置信網(wǎng)絡和模糊神經(jīng)網(wǎng)絡等。其中,BP神經(jīng)網(wǎng)絡是成熟的最常用的神經(jīng)網(wǎng)絡模型,被各種數(shù)據(jù)分析軟件支持,該模型還適合進行短相關(guān)的非線性時間序列預測[9]。相較于其他神經(jīng)網(wǎng)絡模型,BP模型對數(shù)據(jù)量要求不高,適合本研究的數(shù)據(jù)要求,因此選用BP神經(jīng)網(wǎng)絡對本研究的數(shù)據(jù)設(shè)置效果進行預測效果分析。另外,本研究還選用更受關(guān)注的北京空氣質(zhì)量數(shù)據(jù)作為研究的數(shù)據(jù)基礎(chǔ)。
選用2016年1月1日至2018年12月31日的北京市空氣質(zhì)量數(shù)據(jù)建立BP神經(jīng)網(wǎng)絡預測模型,空氣質(zhì)量數(shù)據(jù)來自“中國空氣質(zhì)量在線監(jiān)測分析平臺”(www.aqistudy.cn)??諝赓|(zhì)量數(shù)據(jù)包括北京市 AQI 指數(shù)、PM 2.5、PM 10、 SO2、NO2、CO 和 O3的每日均值,本研究選取 AQI 作為目標變量。由于城市的空氣質(zhì)量數(shù)據(jù)往往與天氣狀況存在著一定的相關(guān)性[7],基于天氣數(shù)據(jù)的可獲得性,本研究選取了4種北京天氣數(shù)據(jù):日最高溫(HT)、日最低溫(LT)、風速(WNDP)、天氣(WEAT)。天氣數(shù)據(jù)來自于“天氣后報網(wǎng)”(www.tianqihoubao.com)。
如圖1,BP 神經(jīng)網(wǎng)絡包含一個輸入層、一個或多個隱含層和一個輸出層,每層包含若干個節(jié)點,各層節(jié)點通過加權(quán)路徑與相鄰層節(jié)點鏈接。當預測目標變量為分類變量時,輸出層包含多個輸出結(jié)點;但當目標變量為區(qū)間型變量時,僅包含一個輸出節(jié)點。 BP 神經(jīng)網(wǎng)絡是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,它的基本思想是梯度下降法,利用梯度搜索技術(shù),以期使網(wǎng)絡的實際輸出值和期望輸出值的誤差均方差為最小,是應用最廣泛的神經(jīng)網(wǎng)絡,其突出優(yōu)點就是具有很強的非線性映射能力和柔性的網(wǎng)絡結(jié)構(gòu)[9]。
BP神經(jīng)網(wǎng)絡的工作方法主要分為兩個過程。第一個過程是信號的前向傳播,信號從輸入層輸入,經(jīng)過隱含層的計算輸出新的權(quán)重,最后到達輸出層;第二個過程是誤差的反向傳播,獲得的權(quán)重從輸出層到隱含層,最后到輸入層,依次調(diào)節(jié)隱含層到輸出層的權(quán)重和偏置,輸入層到隱含層的權(quán)重和偏置。簡而言之,BP神經(jīng)網(wǎng)絡的核心就是根據(jù)得到的結(jié)果計算誤差,通過反饋誤差,不斷修改權(quán)重和閾值,從而得到誤差最小的輸出結(jié)果[10]。
圖1 BP神經(jīng)網(wǎng)絡模型Fig.1 BP neural network model
以當日污染物濃度或氣象數(shù)據(jù)對當日 AQI 或 PM 2.5 的預測研究已經(jīng)比較充分,眾多文獻顯示,多種統(tǒng)計預測方法都能取得較高的預測精度。本研究選取當日 AQI 濃度值作為目標變量,主要研究僅以往日污染物或氣象數(shù)據(jù)實現(xiàn)對當日空氣污染物濃度預測的可行性,因此本研究根據(jù)模型輸入變量的不同設(shè)置了3種預測模型,模型變量設(shè)置如表1所示。全模型的輸入變量包括:當日其他污染物濃度值、當日天氣變量、滯后一天 AQI 及其他污染物濃度值、滯后一天天氣變量。滯后全模型的輸入變量包括:滯后一天 AQI 及其他污染物濃度值、滯后一天天氣變量。滯后污染模型的輸入變量包括:滯后一天 AQI 及其他污染物濃度值。
本研究構(gòu)建包含輸入層、輸出層和兩層隱含層的四層BP神經(jīng)網(wǎng)絡模型,輸出層的節(jié)點僅包含一個神經(jīng)元,即當日 AQI 值。為了比較不同輸入變量對預測效果的影響,本研究對隱含層進行統(tǒng)一設(shè)置,兩層隱含層都包含8個神經(jīng)元結(jié)點。選用平均絕對誤差和平均絕對誤差率這兩個統(tǒng)計量來衡量模型的預測效果,并將數(shù)據(jù)集按 7:3 的比例分為訓練集和測試集,以模型在測試集上的預測效果來評價模型的優(yōu)劣。
表1 3種預測模型輸入變量設(shè)置Tab.1 Input variable setting of 3 kinds of prediction models
各種污染物的日均變化圖與月均變化圖所反映的趨勢基本一致,但由于日均變化圖較為密集,展示效果差,因此本研究僅僅展示月均變化圖。各污染物2016—2018年月均濃度變化如圖2所示。由于CO和SO2的濃度值尺度與其他污染物相比明顯偏小,故與AQI的相關(guān)性以散點圖形式分別展示,如圖3所示。由圖2可知,AQI月均指標值與PM 10、PM 2.5、NO2濃度值的變化趨勢大體相同,與O3的變化趨勢存在一定的滯后性。由圖3散點圖可得,AQI月均指標值與SO2的相關(guān)性較高,相關(guān)系數(shù)達到0.73;與CO的相關(guān)性一般,相關(guān)系數(shù)達到0.53。
圖2 北京市2016—2018年污染物濃度月均變化圖Fig.2 Monthly variation diagram of the pollutant concentration from 2016 to 2018 in Beijing City
圖3 北京市2016—2018年污染物濃度月均值散點圖Fig.3 Scatter diagram of monthly mean value of pollutant concentration from 2016 to 2018 in Beijing City
由表2可知,除臭氧指標外,AQI日均值與當日其他污染物濃度日均值相關(guān)系數(shù)普遍較高,其中與PM 2.5相關(guān)性達到0.97,與PM 10相關(guān)性達到0.86,與當日天氣指標值的相關(guān)性明顯偏低,其中與風速指標值的相關(guān)性最強,系數(shù)絕對值僅僅為0.07。AQI日均值與滯后一日指標值的相關(guān)性強度比當日值有一定程度的下降,除臭氧指標外,與污染物滯后值相關(guān)性強度一般,與NO2相關(guān)性最高達到0.6,與AQI滯后值的相關(guān)系數(shù)為0.58,與滯后一日天氣指標值的相關(guān)性有所上升,但依舊不強,其中與風速指標值的相關(guān)性最強,系數(shù)絕對值僅為0.15。
綜合圖3和表2信息可知,當日AQI日均值與其他各指標之間均存在一定的相關(guān)性,將這些指標作為BP神經(jīng)網(wǎng)絡模型的輸入變量存在一定的合理性。
表2 日均AQI值與其他指標當日或滯后1日值的相關(guān)系數(shù)Tab.2 Correlation coefficient of average daily AQI value and other indexes on the day and one day lag behind
根據(jù)模型設(shè)置進行建模分析,將建模所得預測值與真實值進行比較,可得到對不同模型設(shè)置的預測效果進行評估。選用平均絕對誤差和平均絕對誤差率作為模型預測效果的評價準則,模型計算是通過 SAS EM 軟件實現(xiàn)。根據(jù)輸入變量不同而形成的3種模型預測效果,如表3所示。
表3 北京AQI指數(shù)模型預測誤差分析表Tab.3 Analytical statement of the model prediction of AQI index in Beijing
由表3可知,基于“全模型”的BP神經(jīng)網(wǎng)絡在訓練集和測試集上的預測效果都達到最優(yōu),預測效果明顯高于“滯后全模型”和“滯后污染模型”。在測試集上,“全模型”的平均誤差率僅為5.99%,而平均絕對誤差僅為5.23,預測精度較高,說明“全模型”對當日空氣質(zhì)量的預測能力較高。此結(jié)果與表2中展示出來的當日AQI日均值與當日其他污染物濃度高度相關(guān)的結(jié)果一致。然而,“滯后全模型”和“滯后污染模型”的預測效果較差,在測試集上的平均絕對誤差率達到45.70%和45.85%,說明僅僅依靠滯后一日的污染物數(shù)據(jù)或天氣數(shù)據(jù)不能實現(xiàn)對當日AQI指數(shù)的準確預測。此結(jié)果也符合表2中展示出來的結(jié)果,即當日AQI日均值與滯后一日其他變量信息相關(guān)性普遍不高。雖然“滯后全模型”比“滯后污染模型”多包含4個滯后天氣變量,但在測試集上預測的絕對誤差率僅降低0.15%,這主要是因為滯后天氣變量與目標變量的相關(guān)性都比較低,說明天氣變量提供的信息量較少。另外,表3所展示出來的預測效果在一定程度上也符合民眾對北京空氣質(zhì)量的真實感官,尤其在秋冬季,比較容易會出現(xiàn)前后兩日空氣質(zhì)量等級差異明顯的現(xiàn)象。
數(shù)值模式方法雖然可以精確地實現(xiàn)對空氣質(zhì)量的預測,但該方法對大氣變化理論、數(shù)據(jù)和計算量都有較高的要求,僅適用于大型研究機構(gòu),而統(tǒng)計預測模型要求簡單,被廣泛應用。在統(tǒng)計模型預測研究中,主要以當日氣象條件或當日其他污染物濃度值的數(shù)據(jù)為基礎(chǔ)來預測當日的空氣質(zhì)量,雖然能取得較高的精度,但這種預測模型設(shè)置實際應用意義較小。嘗試僅以往日的污染物或天氣數(shù)據(jù)實現(xiàn)對下一日空氣質(zhì)量預測的統(tǒng)計建模,并分析這種數(shù)據(jù)設(shè)置的預測效果,相關(guān)研究結(jié)果可總結(jié)如下:
(1)AQI 日均值與當日其他污染物濃度日均值的相關(guān)系數(shù)普遍較高,與滯后一日污染物濃度的相關(guān)性強度一般,但與當日或滯后一日天氣指標值的相關(guān)性普遍較低。
(2)基于“全模型”的BP神經(jīng)網(wǎng)絡對當日空氣質(zhì)量有著較高的預測能力,預測精度較高;“滯后全模型”和“滯后污染模型”的預測效果較差,僅僅依靠滯后一日的污染物數(shù)據(jù)和天氣數(shù)據(jù)不能實現(xiàn)對當日AQI指數(shù)的準確預測。
(3)模型預測結(jié)果和相關(guān)性分析的結(jié)論一致,當日 AQI 的神經(jīng)網(wǎng)絡預測主要依靠當日其他污染物濃度指標,而對滯后一日相關(guān)污染物和天氣指標的依賴較少。
根據(jù)研究內(nèi)容總結(jié),本研究對空氣質(zhì)量的統(tǒng)計模型預測提出如下建議:
(1)雖然當日其他污染物濃度指標對提高當日空氣質(zhì)量的預測有著較大的幫助,但實際意義較小。建立空氣質(zhì)量統(tǒng)計預測模型,應僅基于歷史數(shù)據(jù)。
(2)歷史天氣與當日空氣質(zhì)量有著密切的聯(lián)系,但如何提取出有效的歷史天氣信息變量用于下一日空氣質(zhì)量的預測仍需進一步的研究。