張冬雯 趙琪 許云峰 劉濱
摘 要:隨著城市化和工業(yè)化的快速發(fā)展,空氣污染問(wèn)題日益突出,空氣質(zhì)量預(yù)測(cè)顯得尤為重要。當(dāng)前一些有代表性的研究對(duì)空氣質(zhì)量進(jìn)行實(shí)時(shí)監(jiān)測(cè)和預(yù)報(bào),例如周廣強(qiáng)等采用數(shù)值預(yù)報(bào)的方法對(duì)中國(guó)東部地區(qū)的空氣質(zhì)量進(jìn)行分析,但其實(shí)驗(yàn)結(jié)果表明該方法難以預(yù)測(cè)非常重的污染;SANKAR等使用多元線性回歸對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè),但其實(shí)驗(yàn)結(jié)果表明線性模型預(yù)測(cè)精度低、效率慢;PREZ等使用統(tǒng)計(jì)方法對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果證明統(tǒng)計(jì)方法的預(yù)測(cè)精度比較低;WANG等采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)建立了空氣質(zhì)量指數(shù)的預(yù)測(cè)模型,其實(shí)驗(yàn)驗(yàn)證了BP神經(jīng)網(wǎng)絡(luò)收斂速度慢、容易陷入局部最優(yōu)解的問(wèn)題;YANG等利用相鄰網(wǎng)格的空氣質(zhì)量濃度效應(yīng),建立了基于隨機(jī)森林的PM2.5濃度預(yù)測(cè)模型,通過(guò)實(shí)驗(yàn)過(guò)程證明網(wǎng)格劃分程序削弱了后續(xù)空氣質(zhì)量分析的質(zhì)量和效率。這些方法都難以從時(shí)間角度建模,其中預(yù)測(cè)精度低是比較重要的問(wèn)題。因?yàn)轭A(yù)測(cè)精度低可能會(huì)導(dǎo)致空氣質(zhì)量預(yù)測(cè)結(jié)果出現(xiàn)較大的誤差。
針對(duì)空氣質(zhì)量研究中預(yù)測(cè)精度低的問(wèn)題,提出了基于長(zhǎng)短期記憶單元(long short-term memory,LSTM)的神經(jīng)網(wǎng)絡(luò)模型。該模型使用MAPE,RMSE,R,IA和MAE等指標(biāo)來(lái)檢測(cè)LSTM神經(jīng)網(wǎng)絡(luò)與對(duì)比模型的預(yù)測(cè)性能。由于Delhi和Houston是空氣污染程度比較嚴(yán)重的城市,所以使用的實(shí)驗(yàn)數(shù)據(jù)集來(lái)自Delhi的Punjabi Bagh監(jiān)測(cè)站2014—2016年的空氣質(zhì)量數(shù)據(jù)和Houston的Harris County監(jiān)測(cè)站2010—2016年的空氣質(zhì)量數(shù)據(jù)。
LSTM神經(jīng)網(wǎng)絡(luò)與多元線性回歸和回歸模型(SVR)的比較結(jié)果表明,LSTM神經(jīng)網(wǎng)絡(luò)適應(yīng)多個(gè)變量或多輸入的時(shí)間序列預(yù)測(cè)問(wèn)題,LSTM神經(jīng)網(wǎng)絡(luò)具有預(yù)測(cè)精度高、速度快和較強(qiáng)的魯棒性等優(yōu)點(diǎn)。
關(guān)鍵詞:計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);空氣質(zhì)量;長(zhǎng)短期記憶單元;深度學(xué)習(xí);多元線性回歸;回歸模型
中圖分類號(hào):TP389;O175.8 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? doi:10.7535/hbkd.2020yx01008
Abstract:With the rapid development of urbanization and industrialization, the problem of air pollution has become increas-ingly prominent, and air quality prediction is particularly important. Some representative studies currently monitor and forecast air quality in real time. For example, ZHOU Guangqiang et al. Used numerical prediction to analyze air quality in eastern China. However, experimental results show that this method is difficult to predict and is very important. SANKAR et al. Used multiple linear regression to predict air quality, but the experimental results showed that the linear model had low prediction accuracy and slow efficiency;PREZ et al. Used statistical methods to predict air quality, and the experimental results proved the prediction accuracy of the statistical method relatively low; WANG et al. Used an improved BP neural network to establish a prediction model for the air quality index, and their experiments verified that the BP neural network has a slow convergence rate and is prone to fall into the local optimal solution problem; YANG et al. Air quality concentration effect, a PM2.5 concentration prediction model based on random forests was established, and the empirical process proved that the meshing program weakened the quality and efficiency of subsequent air quality analysis; these methods are difficult to model from a time perspective, and the prediction accuracy is low is a more important issue. Because low prediction accuracy may lead to large errors in air quality prediction results.
In this paper, a neural network model based on long -term memory (LSTM) is proposed to solve the problem of low prediction accuracy in air quality research.MAPE, RMSE, R, IA and MAE were used to test the predictive performance of LSTM neural network and the comparison model.Since Delhi and Houston are cities with high levels of air pollution, the experimental data sets used in this paper were from the air quality data of Punjabi Bagh monitoring station in Delhi from 2014 to 2016 and the air quality data of Harris County monitoring station in Houston from 2010 to 2016.
RNN是一種非常強(qiáng)大的算法,可以對(duì)數(shù)據(jù)進(jìn)行分類、聚類和預(yù)測(cè),特別是時(shí)間序列和文本。RNN可以看作是一個(gè)在體系結(jié)構(gòu)中添加了循環(huán)的MLP網(wǎng)絡(luò)。在圖1中,可以看到有一個(gè)輸入層(包含x1,x2等節(jié)點(diǎn))、一個(gè)隱藏層(包含h1,h2等節(jié)點(diǎn))和一個(gè)輸出層(包含y1,y2等節(jié)點(diǎn)),這類似于MLP體系結(jié)構(gòu)。不同之處在于隱藏層的節(jié)點(diǎn)是相互連接的,在普通RNN中,節(jié)點(diǎn)按一個(gè)方向連接,這意味著h2依賴于h1,h3依賴于h2。隱藏層中的節(jié)點(diǎn)由隱藏層中的前一個(gè)節(jié)點(diǎn)決定[19]。
RNN公式可表示為ht=σ(wxhxt+whhht-1+bh),(1)式中:wxh是輸入到隱層的矩陣參數(shù);whh是隱層到隱層的矩陣參數(shù); bh為隱層的偏置向量(bias)參數(shù);σ可以為Sigmoid,tanh或者ReLU函數(shù)。
2.2 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)
RNN神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)時(shí)間序列時(shí)容易產(chǎn)生爆炸梯度[20]問(wèn)題,其正確性往往較差。為了解決這一問(wèn)題,LSTM首先被HOCHREITER等[21]引入,并成為一種成功的架構(gòu)。LSTM神經(jīng)網(wǎng)絡(luò)是RNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一種變體,其主要思想是引入一種自適應(yīng)門控機(jī)制,其決定了LSTM單元保持先前狀態(tài)的程度,并記住當(dāng)前數(shù)據(jù)輸入的提取特征。
3 實(shí)驗(yàn)數(shù)據(jù)與度量標(biāo)準(zhǔn)
3.1 數(shù)據(jù)的獲取
實(shí)驗(yàn)數(shù)據(jù)分別選取了Delhi的Punjabi Bagh監(jiān)測(cè)站自2014—2016年的空氣質(zhì)量數(shù)據(jù)和Houston的Harris County監(jiān)測(cè)站自2010—2016年的空氣質(zhì)量數(shù)據(jù)。數(shù)據(jù)分別來(lái)源于印度中央污染控制委員會(huì)(CPCB)[25](數(shù)據(jù)集鏈接:https://www3.epa.gov/airquality/cleanair.html)和美利堅(jiān)合眾國(guó)環(huán)境保護(hù)局(EPA)[26](數(shù)據(jù)集鏈接:http://cpcb.nic.in/)。其中Delhi的空氣污染物包括NO2,CO,O3和PM10;Houston的空氣污染物包括NO2,CO,O3,PM10和SO2。印度和美國(guó)的空氣質(zhì)量(AQI)的規(guī)定標(biāo)準(zhǔn)[11]分別列于表2和表3;表4和表5分別給出Delhi和Houston的5條空氣質(zhì)量數(shù)據(jù)樣本。
3.2 空氣質(zhì)量數(shù)據(jù)的相關(guān)系數(shù)
本實(shí)驗(yàn)使用統(tǒng)計(jì)學(xué)中的皮爾森相關(guān)系數(shù)(pearson correlation coefficient,又稱作PCCs或PPMCC,用R表示),分別在Houston和Delhi數(shù)據(jù)集上對(duì)AQI與各參數(shù)進(jìn)行相關(guān)性分析,相關(guān)系數(shù)的絕對(duì)值越大,則表明X與Y相關(guān)度越高,如表6和表7所示。
為評(píng)價(jià)各回歸模型的性能,選取了平均絕對(duì)誤差(MAE)、平均絕對(duì)百分誤差(MAPE)、相關(guān)系數(shù)(R)、均方根誤差(RMSE)和一致性(IA)等統(tǒng)計(jì)指標(biāo),各指標(biāo)皆由式(7)-式(12)給出。
1)MSE(mean squared error,均方誤差)
均方誤差是指參數(shù)的估計(jì)值與參數(shù)的真實(shí)值之差的平方的期望。MSE可以評(píng)價(jià)數(shù)據(jù)的變化程度,MSE越小,說(shuō)明模型的擬合實(shí)驗(yàn)數(shù)據(jù)能力越強(qiáng)。SMSE=1n∑nk=1(tk-yk)2 。(7) ?2) RMSE(root mean square error,均方根誤差)
均方根誤差是用來(lái)衡量觀測(cè)值與真值之間的偏差。SRMSE=1n∑nk=1(tk-yk)2 。(8) ?3) MAE(mean absolute error,平均絕對(duì)誤差)
平均絕對(duì)誤差能更好地反映預(yù)測(cè)值誤差的實(shí)際情況。SMAE=1n∑nk=1|tk-yk| 。(9) ?4) MAPE(mean absolute percentage error,平均絕對(duì)百分比誤差)
平均絕對(duì)百分比誤差常用來(lái)衡量歷史誤差。SMAPE=1n∑nk=1(tk-yk)yk×100% 。(10) ?5) 相關(guān)系數(shù)(R)
相關(guān)系數(shù)用來(lái)衡量2個(gè)變量之間線性相關(guān)關(guān)系。R=∑nk=1(tk-)(yk-)∑nk=1(tk-)2∑nk=1(yk-)2 。(11) ?6) IA(index of agreement,協(xié)議)SIA=1-∑nk=1(tk-yk)2∑nk=1(|tk-|+|yk-|)2 。(12) ?其中n為數(shù)據(jù)點(diǎn)個(gè)數(shù),yk為預(yù)測(cè)值,tk為觀測(cè)值,為觀測(cè)數(shù)據(jù)的平均值,為測(cè)試數(shù)據(jù)的平均值。SMAE,SMAPE,SRMSE的最小值和R,IA的最大值代表最佳模型。
4 實(shí)驗(yàn)和結(jié)果
4.1 實(shí)驗(yàn)設(shè)計(jì)
基于LSTM神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行劃分:2014—2016年選出Delhi空氣質(zhì)量以460條數(shù)據(jù)為訓(xùn)練樣本,對(duì)49條數(shù)據(jù)樣本進(jìn)行500輪;2010—2016年選出Houston以1 500條數(shù)據(jù)為訓(xùn)練樣本,對(duì)500條數(shù)據(jù)樣本進(jìn)行500輪。其中實(shí)驗(yàn)設(shè)置隱藏層數(shù)為2層,當(dāng)LSTM算法在Delhi和Houston數(shù)據(jù)集上分別選擇學(xué)習(xí)率lr=0.000 9,lr=0.000 6時(shí),效果最佳,該實(shí)驗(yàn)使用的Adam優(yōu)化算法。
Delhi和Houston的空氣質(zhì)量預(yù)測(cè)的測(cè)試結(jié)果分別如圖3和圖4所示。
4.2 不同預(yù)測(cè)模型的性能對(duì)比
為了分析LSTM在空氣質(zhì)量預(yù)測(cè)的準(zhǔn)確性,在本節(jié)實(shí)驗(yàn)中,將在Delhi和Houston的數(shù)據(jù)上使用LSTM算法和現(xiàn)有的一些方法進(jìn)行對(duì)比,對(duì)比模型包括MLR(BGD),MLR(SGD),MLR(MBGD)和回歸模型(SVR)。
本實(shí)驗(yàn)使用SMAPE,SRMSE,R,IA和SMAE作為模型對(duì)比的度量標(biāo)準(zhǔn),表8和表9給出了Delhi和Houston兩市所有模型的調(diào)查績(jī)效指標(biāo)。從2個(gè)表中可以看出LSTM模型的SMAPE,SRMSE和SMAE的值遠(yuǎn)遠(yuǎn)低于對(duì)比模型的SMAPE,SRMSE和SMAE的值,表8中MAPE降低了1.07%,RMSE減少了1.43,MAE減少了1.45;表9中MAE減少了4.26,MAPE降低了3.97%,RMSE減少了4.5;實(shí)驗(yàn)結(jié)果證明該方法是有效的。