国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Prophet-LSTM模型的PM2.5濃度預(yù)測研究

2020-05-28 09:36王曉飛王波陸玉玉張勝彬
軟件導(dǎo)刊 2020年3期
關(guān)鍵詞:時序預(yù)測值預(yù)測

王曉飛 王波 陸玉玉 張勝彬

摘 要:作為衡量空氣質(zhì)量的重要指標,準確預(yù)測PM2.5濃度變化尤為重要。提出Prophet和長短期記憶(LSTM)相結(jié)合的組合預(yù)測模型(Prophet-LSTM)。在模型構(gòu)建過程中,首先利用Prophet模型的可分解方法,將PM2.5日值濃度序列分解成趨勢、周期和隨機波動分量;然后對趨勢和周期分量建立Prophet模型,對隨機波動分量建立LSTM模型;最后將各分量的預(yù)測值集成得到PM2.5濃度的預(yù)測值。以鄭州市PM2.5日值濃度數(shù)據(jù)為例進行實證分析,結(jié)果表明,該組合預(yù)測模型相較對比模型能夠更好地預(yù)測PM2.5日值濃度的變化趨勢。

關(guān)鍵詞:PM2.5濃度預(yù)測;Prophet模型;LSTM神經(jīng)網(wǎng)絡(luò);可分解方法

DOI:10. 11907/rjdk. 191613

中圖分類號:TP319 ? 文獻標識碼:A??????????????? 文章編號:1672-7800(2020)003-0133-04

Research of PM2.5 Concentration Forecasting Based on Prophet-LSTM Model

WANG Xiao-fei,WANG Bo,LU Yu-yu,ZHANG Sheng-bing

(Business School,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract:As an important indicator of air quality, accurate prediction of PM2.5 concentration changes is particularly important. Aiming at this problem, a combined prediction model (Prophet-LSTM) combining Prophet and long-term? short-term memory (LSTM) is proposed. In the process of model construction, firstly the paper uses the decomposition methods of Prophet model to decompose PM2.5 concentration into trend, period and random fluctuation components. Then the Prophet model is established for trend and period, and the LSTM model is established for random fluctuation. Finally, the forecasting values of each component was integrated to obtain the forecasting values of PM2.5 concentration. Taking the PM2.5 daily value data of Zhengzhou City as an example, the empirical analysis shows that the combined prediction model can better predict the variation trend of PM2.5 daily concentration compared with the comparison model.

Key Words: PM2.5 concentration forecasting; prophet model; LSTM neutral network; decomposition

0 引言

空氣污染不僅對人們的身體健康構(gòu)成一定危害,而且會引起一系列環(huán)境問題。霾是由空氣中的灰塵、硫酸、硝酸、有機碳氫化合物等粒子組成的氣溶膠系統(tǒng),霧霾會造成大氣渾濁、視野模糊等惡劣天氣[1-2]。作為空氣環(huán)境中直徑小于等于2.5 um的顆粒物,PM2.5是構(gòu)成霧霾的主要成分,因為它體積小、易懸浮、傳輸距離長,因而對人體健康和大氣環(huán)境影響更大[3-4]。應(yīng)對霧霾天氣、改善空氣污染的首要任務(wù)就是控制PM2.5。

目前國內(nèi)外學(xué)者主要通過機理模型和非機理模型兩種方法對大氣中的顆粒物濃度進行預(yù)測。機理模型需要詳細的高空、地表數(shù)據(jù),且涵蓋污染物由產(chǎn)生到擴散的復(fù)雜物理化學(xué)過程,模型計算復(fù)雜,使用范圍受限;非機理模型則通過歷史數(shù)據(jù)分析污染物濃度的變化規(guī)律[5-7]。PM2.5濃度的變化具有非線性、突變性特點,是一種復(fù)雜的非線性系統(tǒng)。Jian等[8]通過差分自回歸移動平均模型對街道范圍的PM1.0濃度進行定量預(yù)測;張人禾等[9]對中國東北持續(xù)性強霧霾天氣產(chǎn)生的氣象條件進行分析;潘紅玲等[10]對中國的重度霧霾情況進行時空分布特征研究,對其影響因子進行了分析;Asadollahfardi等[11]通過人工神經(jīng)網(wǎng)絡(luò)和馬爾科夫鏈,將PM10、NO、NO2、CO、SO2作為輸入,對每小時的PM2.5濃度進行仿真;Ausati等[12]評估自適應(yīng)模型神經(jīng)網(wǎng)絡(luò)推理系統(tǒng)、主成分回歸、多元線性回歸、整體經(jīng)驗?zāi)B(tài)分解和廣義回歸神經(jīng)網(wǎng)絡(luò)混合模型用于PM2.5預(yù)測時的性能分析;余輝等[13]通過ARMAX模型對單位小時內(nèi)PM2.5濃度進行預(yù)測研究。大部分學(xué)者研究側(cè)重于宏觀影響因素,多是探究氣象數(shù)據(jù)、地理位置、經(jīng)濟等因素對PM2.5濃度變化的影響。

本文不考慮氣象數(shù)據(jù)、地理位置、經(jīng)濟等宏觀指標對PM2.5濃度變化的影響,僅研究PM2.5濃度的時序變化規(guī)律。首先利用Prophet模型的可分解方法,將PM2.5濃度分解成模型更好識別的趨勢、周期和隨機波動分量;在此基礎(chǔ)上,利用Prophet模型和LSTM模型對趨勢、周期和隨機波動分量進行預(yù)測;最后將所有分量的預(yù)測值集成,得到PM2.5濃度的最終預(yù)測結(jié)果。

1 Prophet模型

Prophet是2017年Facebook發(fā)布的時序模型,它主要研究時序數(shù)據(jù)特征和時序變化規(guī)律,并對未來走勢進行預(yù)測[14-15]。該模型不僅能夠彌補傳統(tǒng)時序模型對時序數(shù)據(jù)過于局限、缺失值需要填充、模型缺乏靈活性等不足,而且相較傳統(tǒng)的時序模型,在模型準確率以及使用者之間的互動方面具有更好效果[16-17]。它以更簡單、靈活的預(yù)測方式以及能夠獲得較好預(yù)測結(jié)果的特點引起人們廣泛關(guān)注。Prophet的核心是分析周期性、趨勢性、節(jié)假日效應(yīng)等各種時間序列特征。在趨勢方面,它支持加入突變點,實現(xiàn)分段線性擬合;在周期方面,它使用傅里葉級數(shù)建立周期模型;在節(jié)假日和突發(fā)事件方面,用戶可以通過表的方式指定節(jié)假日及其前后相關(guān)天數(shù)。Prophet是一種針對時序的有效集成解決方案。

Prophet模型構(gòu)成如下:

其中,[g(t)]是趨勢函數(shù),用來分析時間序列中的非周期性變化;[s(t)]代表周期性變化,例如一年或一周;[h(t)]代表節(jié)假日等偶然一天或幾天造成的影響,[∈]為隨機波動,代表模型沒有考慮到的誤差影響。

(1)趨勢項:Prophet模型中的趨勢增長類似于種族增長。Facebook采用改進的logistic增長模型,其中飽和值隨時間動態(tài)變化,而且增長率也隨著新產(chǎn)品等因素發(fā)生變化。

其中,C是隨時間變化的飽和值(承載能力),[k+a(t)Tδ]是隨時間變化的增長率,[(m+a(t)T)γ]是相應(yīng)的偏置參數(shù),[sj]是若干個轉(zhuǎn)折點,[δ]是轉(zhuǎn)折點處增長率的變化量。

(2)周期項:Prophet模型依靠傅里葉級數(shù)構(gòu)造靈活的周期性模型,基本形式如下:

其中,P是時間序列的周期長度,N代表周期數(shù),[an]、[bn]是需要估計的參數(shù)。

Prophet模型與其它時序模型相比主要優(yōu)點如下:①靈活性:能夠很容易地調(diào)整周期性,并且讓用戶對趨勢進行不同的假設(shè);②測量值不需要規(guī)則地間隔,也不需要對缺失值進行插值;③擬合速度快;④預(yù)測模型具有更加容易理解的參數(shù),能夠讓分析者針對不同情況進行改進。

2 LSTM模型

LSTM(Long Short-Term Memory)即長短期記憶網(wǎng)絡(luò),是對傳統(tǒng)RNN循環(huán)神經(jīng)網(wǎng)絡(luò)模型的一種改進。將LSTM長短期記憶網(wǎng)絡(luò)的基本鏈式結(jié)構(gòu)展開,發(fā)現(xiàn)LSTM具有和RNN相似的鏈式結(jié)構(gòu),該鏈式結(jié)構(gòu)解釋了RNN本質(zhì)上是序列相關(guān)的。目前RNN已經(jīng)在自然語言處理、圖像處理、語音識別等方面取得顯著效果。然而,RNN在實際應(yīng)用中經(jīng)常面臨著梯度消失問題[18-19]。Hochreiter等[20]提出的LSTM是一種RNN特殊類型,通過更為精細的信息傳遞機制,解決RNN所面臨的梯度消失問題。LSTM模型在RNN的神經(jīng)元部分增加了一個非常有用的忘記門,使得LSTM模型非常適合處理長期依賴問題。LSTM模型結(jié)構(gòu)如圖1所示。

LSTM通過輸入門、輸出門、忘記門保護和控制細胞狀態(tài)。輸入門控制輸入記憶單元強度,輸出門控制輸出記憶單元強度,忘記門控制記憶單元維持舊細胞狀態(tài)強度。各狀態(tài)門作用如下:

(1)忘記門:確定細胞狀態(tài)中哪些信息需要丟失以及哪些信息需要保留。通過忘記門可對歷史信息進行選擇性處理。輸入[ht-1]和[xt],通過sigmoid函數(shù)計算忘記門[ft]。

(2)輸入門:確定哪些信息存放在細胞狀態(tài)中,更新細胞狀態(tài)信息。首先,通過sigmoid決定什么值被更新;然后,通過tanh創(chuàng)建一個新的候選值向量;最后,將舊細胞狀態(tài)Ct-1更新為新細胞狀態(tài)Ct。

(3)輸出門:確定輸出什么信息。首先通過sigmoid確定將要輸出的信息(狀態(tài)值為1表示需要輸出,0表示不需要輸出),然后與經(jīng)過tanh處理過的細胞狀態(tài)相乘,最終僅僅輸出需要輸出的信息。

在式(5)-式(9)中,Wt、Wf、Wc、Wo表示權(quán)重向量,bt、bf、bc、bo表示偏差向量。

3 Prophet-LSTM組合模型構(gòu)建

通過Prophet訓(xùn)練模型的可分解方法,將PM2.5濃度分解為趨勢項、周期項和隨機波動項,針對趨勢、周期和隨機波動特征分量,分別建立Prophet模型和LSTM模型進行預(yù)測;將各分量的預(yù)測值集成得到PM2.5濃度預(yù)測值。Prophet-LSTM模型預(yù)測PM2.5濃度整體框架如圖2所示。

(1)首先采用Prophet模型訓(xùn)練的可分解方法,將PM2.5濃度序列St分解為趨勢項trendt、周期項(seasonalyt,weeklyt)和隨機波動項errort。

(2)將趨勢項trendt和周期項(seasonalyt,weeklyt),采用Prophet模型獲得第t+1天趨勢預(yù)測值trendt+1和周期預(yù)測值(seasonalyt+1,weeklyt+1),針對隨機波動采用LSTM模型獲得第t+1天的預(yù)測值errort+1。

(3)將上述預(yù)測結(jié)果進行集成得到第t+1天PM2.5濃度的預(yù)測值St+1:

4 實證分析

本文以鄭州市PM2.5日平均濃度為例檢驗Prophet-LSTM模型的預(yù)測能力。

4.1 數(shù)據(jù)選取與分析

本文選取2017年8月1日至2018年12月31日鄭州市PM2.5日平均濃度數(shù)據(jù)進行研究,其中將2017年8月1日至2018年8月31日日平均濃度數(shù)據(jù)作為訓(xùn)練集,2018年9月1日至2018年9月30日的數(shù)據(jù)作為測試集。同時,為了驗證模型的泛化能力,進一步選取2017年8月1日至2018年11月30日日平均數(shù)據(jù)作為訓(xùn)練集,2018年12月1日至2018年12月31日數(shù)據(jù)作為測試集。圖3和圖4是采用Prophet-LSTM組合模型對兩組PM2.5時序的預(yù)測結(jié)果。

對PM2.5濃度序列進行統(tǒng)計分析,結(jié)果如表1所示。由表1可以看出,第一組時序數(shù)據(jù)(20170801-20180930)的偏度為2.898 0,峰度為10.595 3;第二組時序數(shù)據(jù)(20170801-20181231)的偏度為2.420 2,峰度為7.257 1,這表明PM2.5濃度序列不服從正太分布。從ADF檢驗結(jié)果(0.270 2,0.147 3>-2.976 4)可以看出,PM2.5濃度序列是一個非平穩(wěn)序列。因此,ARMA、SVR等傳統(tǒng)時序模型不能很好地預(yù)測PM2.5濃度,本文采用Prophet-LSTM組合模型對未來PM2.5濃度進行預(yù)測。

4.2 PM2.5日濃度預(yù)測

為驗證本文提出的Prophet-LSTM模型有效性,分別采用平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)指標作為評價指標,每個指標計算公式如下:

其中,F(xiàn)t和Tt分別表示PM2.5濃度的預(yù)測值和真實值,n為樣本點總個數(shù)。通過上述公式可以看出,MAPE和RMSE越小說明模型預(yù)測能力越好。

本文選取ARIMA、Prophet和LSTM模型作為比較基準,分別對兩組不同月份PM2.5日濃度進行預(yù)測評估,各個模型對比結(jié)果如表2所示。

從表2可以看出,本文提出的Prophet-LSTM模型相較對比模型具有更好的預(yù)測能力,特別是對于空氣污染嚴重的天氣優(yōu)勢更加明顯。通過對不同時間段的預(yù)測分析,該模型對樣本選擇的隨機性具有較強的適應(yīng)能力,而且該模型只考慮PM2.5時序數(shù)據(jù)的特征和規(guī)律,因此可以不考慮地域因素進行推廣。

5 結(jié)語

PM2.5濃度變化是多種因素相互作用的結(jié)果。針對PM2.5濃度時序的變化規(guī)律和特征,本文提出基于Prophet模型和LSTM神經(jīng)網(wǎng)絡(luò)的組合預(yù)測模型。該模型利用Prophet模型的可分解方法對PM2.5濃度進行趨勢、周期和隨機誤差項分解;在此基礎(chǔ)上,針對各特征分量采用Prophet模型和LSTM相結(jié)合的方法進行預(yù)測;最后對鄭州市不同月份的PM2.5濃度進行預(yù)測驗證。實驗結(jié)果表明,基于Prophet模型和LSTM神經(jīng)網(wǎng)絡(luò)的組合預(yù)測模型預(yù)測效果良好,可以為污染預(yù)警、空氣質(zhì)量評價以及環(huán)境治理提供一定的技術(shù)參考。在PM2.5預(yù)測方面,還應(yīng)綜合考慮氣象數(shù)據(jù)、排放源、環(huán)保政策等因素,后續(xù)工作將考慮機理模型和非機理模型相結(jié)合方法,探索更加準確、適應(yīng)范圍更廣的預(yù)測模型。

參考文獻:

[1]潘慧峰,王鑫,張書宇. 霧霾污染的持續(xù)性及空間溢出效應(yīng)分析——來自京津冀地區(qū)的證據(jù)[J]. 中國軟科學(xué),2015(12):134-143.

[2]張恒德,呂夢瑤,張碧輝,等. 2014年2月下旬京津冀持續(xù)重污染過程的靜穩(wěn)天氣及傳輸條件分析[J]. 環(huán)境科學(xué)學(xué)報,2016(12):4340-4351.

[3]尉鵬, 任陣海, 王文杰,等. 2014年10月中國東部持續(xù)重污染天氣成因分析[J]. 環(huán)境科學(xué)研究, 2015, 28(5):676-683.

[4]BRANGAN S. Development of smog-cro readability formula for healthcare communication and patient education[J]. Collegium Antropologicum, 2015, 39(1):11-20.

[5]張藝耀,苗冠鴻, 閆劍詩,等. 影響PM2.5因素的多元統(tǒng)計分析與預(yù)測[J]. 資源節(jié)約與環(huán)保, 2013(11):135-136.

[6]趙曉軍. 時間序列的相關(guān)性及復(fù)雜性研究[D].北京: 北京交通大學(xué), 2015.

[7]陳海燕,劉晨暉, 孫博. 時間序列數(shù)據(jù)挖掘的相似性度量綜述[J]. 控制與決策, 2017, 32(1):1-11.

[8]JIAN L, ZHAO Y, ZHU Y P. An application of arima model to predict submicron particle concentrations from meteorological factors at a busy roadside in hangzhou, china[J]. Science of the Total Environment, 2012(426):336-345.

[9]張人禾, 李強, 張若楠. 2013年1月中國東部持續(xù)性強霧霾天氣產(chǎn)生的氣象條件分析[J]. 中國科學(xué):地球科學(xué), 2014, 44(1):27-29.

[10]潘紅玲. 中國重度霧霾時空分布特征及影響因子分析[D].成都:電子科技大學(xué), 2015.

[11]ASADOLLAHFARDI G,MADINEJAD M,ARIA S H,et al. Predicting particulate matter (pm\r, 2.5\r, ) concentrations in the air of shahr-e ray city, iran, by using an artificial neural network[J]. Environmental Quality Management, 2016, 25(4):71-83.

[12]AUSATI S,AMANOLLAHI J. Assessing the accuracy of ANFIS, EEMD-GRNN, PCR, and MLR models in predicting PM2.5[J]. Atmospheric Environment,2016(142):465-474.

[13]余輝,袁晶,于旭耀. 基于ARMAX的PM_(2.5)小時濃度跟蹤預(yù)測模型[J]. 天津大學(xué)學(xué)報:自然科學(xué)與工程技術(shù)版, 2017(1):109-115.

[14]彭志行, 陶紅, 賈成梅, 等. 時間序列分析在麻疹疫情預(yù)測預(yù)警中的應(yīng)用研究[J]. 中國衛(wèi)生統(tǒng)計, 2010, 27(5):459-463.

[15]劉璐, 丁福利, 孫立民. 基于SVM的煙草銷售量預(yù)測[J]. 軟件導(dǎo)刊, 2016, 15(11):134-137.

[16]TAYLOR S J,LETHAM B. Forecasting at scale[J]. The American Statistician, 2017, 72(1):100-108..

[17]李麗萍, 段桂華, 王建新. 基于Prophet框架的銀行網(wǎng)點備付金預(yù)測方法[J]. 中南大學(xué)學(xué)報:自然科學(xué)版, 2019(1):182-186.

[18]GRAVES A. Supervised sequence labelling with recurrent neural networks[J]. Studies in Computational Intelligence, 2012(3):385-391.

[19]邸浩, 趙學(xué)軍, 張自力. 基于EEMD-LSTM-Adaboost的商品價格預(yù)測[J]. 統(tǒng)計與決策, 2018, 34(13):105-112.

[20]HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

(責(zé)任編輯:杜能鋼)

收稿日期:2019-04-27

基金項目:國家自然科學(xué)基金項目(71572113)

作者簡介:王曉飛(1994-),男,上海理工大學(xué)管理學(xué)院碩士研究生,研究方向為機器學(xué)習(xí)、數(shù)據(jù)挖掘;王波(1960-),男,博士,上海理工大學(xué)管理學(xué)院教授,研究方向為決策分析、數(shù)據(jù)挖掘;陸玉玉(1994-),女,上海理工大學(xué)管理學(xué)院碩士研究生,研究方向為決策分析、數(shù)據(jù)挖掘。本文通訊作者:王曉飛。

猜你喜歡
時序預(yù)測值預(yù)測
無可預(yù)測
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測值
基于Sentinel-2時序NDVI的麥冬識別研究
±800kV直流輸電工程合成電場夏季實測值與預(yù)測值比對分析
法電再次修訂2020年核發(fā)電量預(yù)測值
基于FPGA 的時序信號光纖傳輸系統(tǒng)
一種毫米波放大器時序直流電源的設(shè)計
DPBUS時序及其設(shè)定方法