李艷萍,趙曉宇
(鄂爾多斯應(yīng)用技術(shù)學(xué)院信息工程系,內(nèi)蒙古 鄂爾多斯017000)
當(dāng)今時(shí)代,隨著人類社會(huì)經(jīng)濟(jì)的快速發(fā)展,環(huán)境問題逐漸引起人們的重視和關(guān)注。每到冬季,北方不少城市的空氣污染比較嚴(yán)重。為了進(jìn)一步了解空氣變化趨勢(shì)并了解空氣質(zhì)量的污染情況,需要及時(shí)、準(zhǔn)確地對(duì)空氣質(zhì)量指數(shù)(AQI)進(jìn)行預(yù)測(cè)。當(dāng)預(yù)測(cè)即將出現(xiàn)重污染天氣時(shí),果斷采取應(yīng)對(duì)措施,如減少污染物排放。因此,科學(xué)、準(zhǔn)確地預(yù)測(cè)空氣質(zhì)量變化,并且有效地對(duì)空氣質(zhì)量進(jìn)行評(píng)估,對(duì)改善空氣污染狀況,促進(jìn)城市環(huán)境建設(shè)工作以及引導(dǎo)人們生產(chǎn)生活方式具有重要的指導(dǎo)意義。作為空氣質(zhì)量的評(píng)價(jià)指標(biāo),AQI 是根據(jù)環(huán)境質(zhì)量標(biāo)準(zhǔn)和各項(xiàng)污染物對(duì)人體健康、生態(tài)、環(huán)境的影響而將常規(guī)監(jiān)測(cè)的幾種空氣污染物濃度合在一起的數(shù)值評(píng)估指標(biāo),所以AQI 可以很直觀地反映空氣受污染程度[1-3]。因此,建立精確度較高的模型來預(yù)測(cè)未來的空氣質(zhì)量指數(shù),可以為空氣污染的防治和空氣質(zhì)量的提高提供良好的理論指導(dǎo)。
目前空氣質(zhì)量模型的研究主要有機(jī)理模型和數(shù)據(jù)模型兩類。機(jī)理模型需要根據(jù)復(fù)雜的物理化學(xué)過程和外部氣象條件及污染源排放等來建立預(yù)測(cè)模型[3],而數(shù)據(jù)模型不需要復(fù)雜的機(jī)理推導(dǎo),它只需歷史的污染物數(shù)據(jù),通過數(shù)據(jù)驅(qū)動(dòng)的方法建立預(yù)測(cè)模型?,F(xiàn)在的大數(shù)據(jù)時(shí)代可為基于數(shù)據(jù)的建模方法提供海量數(shù)據(jù),搭建模型較為方便。通過查閱相關(guān)文獻(xiàn),非機(jī)理模型的數(shù)據(jù)驅(qū)動(dòng)模型預(yù)測(cè)方法使用得最為廣泛。在基于數(shù)據(jù)的機(jī)器學(xué)習(xí)算法中,神經(jīng)網(wǎng)絡(luò)模型在研究空氣質(zhì)量預(yù)測(cè)方面的預(yù)測(cè)效果較好[4-5]。人工智能(AI)中的機(jī)器學(xué)習(xí)(ML)是目前最流行的實(shí)現(xiàn)方法,而深度學(xué)習(xí)(DL)則是機(jī)器學(xué)習(xí)(ML)的一個(gè)分支,也是當(dāng)下最流行的機(jī)器學(xué)習(xí)(ML)的一種[6]。隨著深度學(xué)習(xí)理論的迅速發(fā)展,由于空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)屬于時(shí)序數(shù)據(jù),通過查閱相關(guān)文獻(xiàn)[7-9],LSTM 在時(shí)序預(yù)測(cè)方面得到了廣泛的使用,并且都取得了很好的預(yù)測(cè)效果。因此,本文提出了一種基于LSTM 的時(shí)間序列模型來預(yù)測(cè)空氣質(zhì)量的AQI 指數(shù)的方法。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)常用來處理序列數(shù)據(jù),但是RNN對(duì)于長(zhǎng)序列處理會(huì)出現(xiàn)“記憶丟失”的缺點(diǎn),從而產(chǎn)生梯度消失和梯度爆炸的問題。LSTM 是在克服了RNN 這一缺點(diǎn)的基礎(chǔ)上形成的一種RNN 變形結(jié)構(gòu),通過在LSTM 內(nèi)部結(jié)構(gòu)中引入門控機(jī)制,通過“門”(gate)來控制丟棄或者保留信息,使得時(shí)間序列上的記憶信息可控,從而實(shí)現(xiàn)遺忘或記憶的功能[10],一定程度上克服了這一問題。LSTM 的實(shí)質(zhì)是上一時(shí)刻隱含層的狀態(tài)參與到了這個(gè)時(shí)刻的計(jì)算過程中,因此LSTM 對(duì)于時(shí)間上有依賴的時(shí)序數(shù)據(jù)有著優(yōu)秀的預(yù)測(cè)能力,可以用來建立AQI 指數(shù)預(yù)測(cè)模型。
本文采用基于Keras 的深度學(xué)習(xí)框架,利用Python3.7編程語(yǔ)言來建立LSTM 的空氣質(zhì)量預(yù)測(cè)模型。Keras 是一個(gè)由Python 編寫的開源人工神經(jīng)網(wǎng)絡(luò)庫(kù),是由純Python 編寫的基于theano/tensorflow 的深度學(xué)習(xí)框架,可以作為Tensorflow、Microsoft-CNTK 和Theano 的高階應(yīng)用程序接口,進(jìn)行深度學(xué)習(xí)模型的設(shè)計(jì)、調(diào)試、評(píng)估、應(yīng)用和可視化[11]。預(yù)測(cè)模型用Python 實(shí)現(xiàn),非常易于調(diào)試和擴(kuò)展,可讀性較好。
本文數(shù)據(jù)是中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)歷史數(shù)據(jù)庫(kù)中的歷史數(shù)據(jù),以鄂爾多斯市2014-01-01—2019-12-31 的空氣污染物監(jiān)測(cè)數(shù)據(jù)為基礎(chǔ),采樣頻率為一天一次,總共包含2 192 組數(shù)據(jù),每日的數(shù)據(jù)包括PM2.5、PM10、SO2、CO、NO2、O3、AQI 指數(shù)7 個(gè)參數(shù)指標(biāo)。
由于空氣污染指數(shù)AQI 是評(píng)估空氣質(zhì)量的重要指標(biāo),因此,本文所建預(yù)測(cè)模型的輸入量為PM2.5、PM10、SO2、CO、NO2、O3這6 個(gè)參數(shù)和當(dāng)前時(shí)刻的AQI 指數(shù),指標(biāo)的單位均為μg/m3,輸出量為AQI 指數(shù)。輸入輸出變量的變化趨勢(shì)如圖1 所示。由圖1 可知,AQI 指數(shù)和PM2.5、PM10、SO2、CO、NO2這5 個(gè)指標(biāo)變化趨勢(shì)大致相同,但是和O3指標(biāo)的變化趨勢(shì)相反。因此,可以直觀地找到影響空氣質(zhì)量好壞的因素,可供政府和環(huán)保相關(guān)部門制訂相關(guān)政策時(shí)作為參考依據(jù)。
圖1 輸入輸出變量趨勢(shì)圖
由于各類數(shù)據(jù)具有量綱和性質(zhì)不同的特點(diǎn),為避免因?yàn)檩斎胼敵鰯?shù)據(jù)量綱差別比較大而出現(xiàn)模型訓(xùn)練速度較慢、訓(xùn)練誤差較大的情形,本文采用Min-MAX 方法對(duì)輸入輸出數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)特征縮小到[0,1]之間,經(jīng)過歸一化的數(shù)據(jù)在尋找最優(yōu)解時(shí)速度最快。
將2 192 組數(shù)據(jù)劃分為1 972 組為訓(xùn)練集,220 組為測(cè)試集,建立基于Kears 框架的LSTM 空氣質(zhì)量預(yù)測(cè)模型。輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理之后送入LSTM 神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,經(jīng)過多次迭代之后得到LSTM 神經(jīng)網(wǎng)絡(luò)AQI 預(yù)測(cè)模型。
在訓(xùn)練LSTM 模型時(shí),由于Adam 算法可以動(dòng)態(tài)調(diào)整每個(gè)輸入?yún)?shù)的學(xué)習(xí)速率,因此優(yōu)化器采用Adam 優(yōu)化算法,采用均方誤差mse 最小化為損失函數(shù)的優(yōu)化目標(biāo),訓(xùn)練模型的迭代次數(shù)設(shè)為50,學(xué)習(xí)率設(shè)為0.01。最后模型經(jīng)過LSTM神經(jīng)網(wǎng)絡(luò)充分訓(xùn)練后,最終得到的預(yù)測(cè)值(深灰色線)與真實(shí)值(淺灰色線)對(duì)比如圖2 所示。
圖2 AQI 指標(biāo)預(yù)測(cè)圖
LSTM 訓(xùn)練誤差如圖3 所示。由圖3 可知,LSTM 對(duì)于時(shí)序數(shù)據(jù)具有優(yōu)秀的擬合能力,可以較準(zhǔn)確地預(yù)測(cè)AQI 指數(shù)。模型在訓(xùn)練時(shí)產(chǎn)生的均方根誤差RMSE 為4.18,測(cè)試時(shí)產(chǎn)生的均方根誤差RMSE 為3.45。預(yù)測(cè)模型的訓(xùn)練誤差和測(cè)試誤差經(jīng)過20 次迭代之后基本在0.001 左右趨于穩(wěn)定。
圖3 LSTM 訓(xùn)練誤差圖
從仿真結(jié)果可知,LSTM 模型訓(xùn)練的均方根誤差RMSE為4.18,LSTM 的空氣質(zhì)量預(yù)測(cè)模型具有自動(dòng)挖掘各個(gè)輸入信息的內(nèi)在規(guī)律特征的優(yōu)點(diǎn),根據(jù)上一時(shí)刻神經(jīng)網(wǎng)絡(luò)的輸出和記憶單元的狀態(tài)信息以及當(dāng)前時(shí)刻的輸入,三者共同決定當(dāng)前時(shí)刻記憶單元狀態(tài)信息的更新,因此LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)于AQI 指數(shù)這樣的時(shí)序數(shù)據(jù)有著更強(qiáng)的學(xué)習(xí)能力,此外LSTM 還可以避免RNN 在訓(xùn)練過程中出現(xiàn)梯度消失和梯度爆炸的問題。因此,基于LSTM 的神經(jīng)網(wǎng)絡(luò)可以對(duì)時(shí)序數(shù)據(jù)建立最優(yōu)的模型。
本文采用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)空氣質(zhì)量進(jìn)行建模預(yù)測(cè)。采用空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)歷史數(shù)據(jù)庫(kù)有關(guān)指標(biāo)參數(shù),形成時(shí)間序列樣本集,通過構(gòu)建基于Kears 的LSTM 時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,用于預(yù)測(cè)AQI 指數(shù)。LSTM 神經(jīng)網(wǎng)絡(luò)模型能夠深入挖掘并記憶輸入樣本參數(shù)自身變化與AQI 指數(shù)的相互關(guān)系,使學(xué)習(xí)更加充分,預(yù)測(cè)精度更加準(zhǔn)確。預(yù)測(cè)模型所得結(jié)果不僅能夠幫助人們?nèi)嬲莆账诘貐^(qū)空氣污染源的排放情況,還可以幫助人們及時(shí)掌握影響城市空氣質(zhì)量的因素,為空氣質(zhì)量的監(jiān)測(cè)、預(yù)警與調(diào)控提供科學(xué)依據(jù)。因此,該模型的建立對(duì)城市整體的規(guī)劃與建設(shè)、環(huán)境的污染控制管理等有著重要的理論意義與一定的參考價(jià)值。