国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TensorFlow的LSTM模型在空氣質量指數(shù)預測的應用*

2021-05-07 10:44楊超文汪宇玲舒志敏劉晶晶謝娜娜
數(shù)字技術與應用 2021年3期
關鍵詞:空氣質量噪聲神經(jīng)網(wǎng)絡

楊超文 汪宇玲 舒志敏 劉晶晶 謝娜娜

(東華理工大學,江西南昌 330000)

0 引言

近年來,隨著南昌經(jīng)濟快速發(fā)展,工業(yè)化和城市化進程加快,以PM2.5、PM10為主的空氣污染也愈加嚴重,為了人民的健康實現(xiàn)一套對空氣質量精準預測的方案刻不容緩[1]。傳統(tǒng)預測空氣質量的方法很多,如CAPPS模型、灰色模型、人工神經(jīng)網(wǎng)絡(BP)等。Boznar等人將神經(jīng)網(wǎng)絡運用在預測空氣質量上,之后最為經(jīng)典的BP神經(jīng)網(wǎng)絡通過Giusepp等人的改進,進一步提高了預測結果的精度,但BP神經(jīng)網(wǎng)絡較難收斂[2]。后來Fabio Biancofiore等人通過改進采用遞歸神經(jīng)網(wǎng)絡預測PM10、PM2.5取得了很好的效果,接著Rao等人構建了基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的空氣質量預測模型,并取得了更高的預測精度。然而RNN運算過程中存在梯度消失、記憶時序數(shù)據(jù)短等問題,而長短期記憶人工神經(jīng)網(wǎng)絡(LSTM)解決了這些問題,應用在空氣質量預測上取得了比RNN更好的結果[3]。因此,本文采用基于TensorFlow的改進LSTM模型來預測南昌市空氣質量(AQI)指數(shù)。

1 理論介紹

1.1 空氣質量指數(shù)

空氣質量最主要、最常用的衡量指標即AQI(空氣質量指數(shù)),用來衡量空氣清潔或者污染的程度,值越小表示空氣質量越好,具體等級劃分見表1。參與空氣質量評價的主要污染物有六項指標分別為PM10、PM2.5、NO2、SO2、O3和CO。

1.2 數(shù)據(jù)平穩(wěn)性與白噪聲

時間序列預測模型在平穩(wěn)數(shù)據(jù)上進行研究,如果時序數(shù)據(jù)非平穩(wěn),則預測結果誤差較大,沒有研究價值,因此,建模前需對數(shù)據(jù)進行平穩(wěn)性檢驗,ADF(Augmented Dickey-Fuller test)檢驗是判斷數(shù)據(jù)平穩(wěn)的有效方法之一,又稱單位根檢驗。在自回歸過程中:yt=byt-1+a+εt,如果滯后項系數(shù)b為1,就稱為單位根。假如單位根存在,自變量和因變量之間就會具有欺騙性,因為殘差序列的任何誤差都不會隨著樣本量增大而衰減,則時間序列是非平穩(wěn)的。ADF檢驗的原假設和備擇假設如下:

如果顯著性檢驗統(tǒng)計量P值小于0.05,則拒絕原假設,就認為不存在單位根,即時間序列是平穩(wěn)的。

判斷時間序列是平穩(wěn)之后,就需要檢驗數(shù)據(jù)是否為白噪聲,白噪聲是沒有研究意義的。白噪聲檢驗的原理基于Barlett定理:如果一個時間序列是純隨機的,得到一個觀察期數(shù)為n的觀察序列,那么該序列的延遲非零期的樣本自相關系數(shù)將接近服從均值為零,方差為序列觀察期數(shù)倒數(shù)的正態(tài)分布 N(0,1/n),k≠0。白噪聲檢驗的原假設和備擇假設如下:

表1 空氣質量指數(shù)(AQI)分級示意表Tab.1 Air quality index (AQI) classification table

圖1 LSTM結構示意圖Fig.1 LSTM structure diagram

圖2 添加了Dropout層的LSTM結構圖Fig.2 LSTM structure diagram with dropout layer added

如果顯著性檢驗統(tǒng)計量P值小于0.05,則拒絕原假設,接受備擇假設,即平穩(wěn)時間序列非白噪聲。

1.3 LSTM網(wǎng)絡理論

LSTM是一種改進的RNN的模型,如圖1所示。LSTM 通過增加輸入門、遺忘門、輸出門以獲得變化的自循環(huán)權重,在模型參數(shù)固定的情況下,不同時刻的積分尺度得以動態(tài)改變,從而規(guī)避了梯度消失或爆炸的問題[4]。LSTM與RNN的不同就在于存在可以選擇性的保留和舍棄一些不重要的序列和擁有自我衡量機制,可以更好地記憶長期序列。

圖1中,f(t),i(t), 和o(t)分別表示了在t時刻對應的三種門的結構和細胞狀態(tài); 表示矩陣逐點乘法運算; 表示矩陣相加。

LSTM中各參數(shù)具體更新過程如下:

其中,f(t)為t時刻遺忘門的輸出;i(t)為t時刻輸入門的輸出;o(t)為t時刻輸出門的輸出;Wf、Wi、Wc、Wo和bf、bi、bc、bo分別為遺忘門、輸入門、細胞狀態(tài)、輸出門對應的系數(shù);σ為sigmoid激活函數(shù);tanh為雙曲正切激活函數(shù)。

1.4 TensorFlow簡介

TensorFlow是谷歌推出的機器學習系統(tǒng),在深度學習基礎架構Dist Belief的基礎上推進了一步,其模型簡潔,訓練速度快,支持GPU和TPU數(shù)值計算,是目前主流的用于實現(xiàn)神經(jīng)網(wǎng)絡內(nèi)置架構的軟件庫[5]。

2 LSTM空氣質量指數(shù)預測模型

2.1 數(shù)據(jù)集的構建與劃分

本文空氣質量指數(shù)預測模型構建了多變量單步LSTM輸入數(shù)據(jù)集,該數(shù)據(jù)集構建思想為:用n_predictions(時間步長)個小時的各指標x1、x2…xn的值xnt-n_predictions來預測后一個小時的值為第n個指標在t時刻的值,t=[n_predictions+1,…,num-1],num為數(shù)據(jù)集的行數(shù)(即總的小時數(shù)據(jù)的個數(shù))。這樣輸入數(shù)據(jù)集就是(num+n_predictions-1)*n_predictions*n的三維數(shù)組,輸出數(shù)據(jù)集就是(num+n_predictions-1)*n的二維數(shù)組。

2.2 數(shù)據(jù)歸一化處理

在機器學習中,如果數(shù)據(jù)之間存在奇異樣本數(shù)據(jù),可能導致模型很難收斂并使結果的誤差變大,為了消除奇異樣本數(shù)據(jù)導致的不良影響以及加快模型收斂速度,需要對數(shù)據(jù)做歸一化處理。本文采用最大最小標準化方法對數(shù)據(jù)做歸一化,將數(shù)據(jù)轉化為[0,1]之間的值。具體公式如下:

其中,Xnorm為歸一化后的數(shù)據(jù),X為原始數(shù)據(jù),Xmax、Xmin分別為原始數(shù)據(jù)集的最大值和最小值。

2.3 LSTM模型的構建

堆疊式LSTM模型擁有一個或多個隱藏層(LSTM層),各個層都處理模型中的一部分任務,其中上一層解決完相應的任務后把結果傳遞到下一層,然后依次傳遞直到傳到最后一層輸出。本文構建的堆疊LSTM結構如圖2所示,由2個LSTM層、Dense層和Dropout層構成。LSTM層太少了得出的結果精度可能不高,太多層會使模型變得過于復雜,模型很難收斂,還會出現(xiàn)過擬合現(xiàn)象。Dense層對高緯信息進行降維處理,同時保留有用信息,最后輸出對應目標序列。Dropout層則用來避免過擬合問題。

2.4 反歸一化并輸出結果

將歸一化后的數(shù)據(jù)帶入模型得出的結果是[0,1]范圍內(nèi)的值,若要準確的對模型做出評價,需要將預測到的數(shù)據(jù)進行反歸一化,恢復原來的量綱,然后與原數(shù)據(jù)按一定的方法進行比較,得出評價模型的系數(shù)值。

其中,X為原始數(shù)據(jù),Xnorm為歸一化后的數(shù)據(jù),Xmax、Xmin分別為原始數(shù)據(jù)集的最大值和最小值。

2.5 模型評價指標

采用相關系數(shù)(Correlation coefficient)、斯皮爾曼等級相關(Spearman Rank Correlation)和均方誤差(meansquare error,MSE)來評價模型效果。均方誤差用來反應預測值與實際值的吻合程度,相關系數(shù)和斯皮爾曼等級相關用來反應預測值與實際值之間聯(lián)系的密切程度。計算公式如下:

表2 AQI、六個污染物ADF檢驗的P1值以及白噪聲的P2值Tab.2 AQI, P1 value of ADF test for six pollutants and P2 value of white noise

圖3 AQI指數(shù)和六個污染物的相關性分析熱力圖Fig.3 Thermodynamic diagram of correlation analysis between AQI index and six pollutants

其中R為相關系數(shù);C為協(xié)方差矩陣;ρ為斯皮爾曼等級相關;n為等級個數(shù);d為二列成對變量的等級差數(shù);MSE為均方誤差;y為真實值;y'為預測值;N為y的個數(shù)。R和ρ越近接近1且MSE的值越小,得出的結果越好。

3 實驗及結果分析

3.1 空氣質量指數(shù)預測

3.1.1 數(shù)據(jù)準備

本文研究的樣本空氣數(shù)據(jù)來源于中國環(huán)境監(jiān)測總站(https://quotsoft.net /air/#archive)發(fā)布的南昌市2020年上半年空氣質量歷史小時數(shù)據(jù),共有4369組樣本數(shù)據(jù),包含影響城市空氣質量的六個指標(PM10、PM2.5、NO2、SO2、O3和CO)的濃度以及對應AQI指數(shù)。由于得到的數(shù)據(jù)存在缺失值,因而采用了缺失值上下2個鄰近點的平均值對其進行填補。之后對填補完的數(shù)據(jù)進行平穩(wěn)性和白噪聲檢驗,結果如表2所示,利用Python的adfuller函數(shù)根據(jù)計算得到每個指標ADF檢驗的P1值均小于0.05,可得數(shù)據(jù)是平穩(wěn)的;再用acorr_ljungbox函數(shù)根據(jù)計算得到每個指標白噪聲檢驗的P2值均小于0.05,可得時間序列數(shù)據(jù)非白噪聲,是能預測的。為了減小模型誤差,加快模型收斂速度,使用公式(9)做歸一化處理,將數(shù)據(jù)映射到[0,1],當模型的預測結果出來后,再使用公式(10)對預測值進行反歸一得到原始值。

3.1.2 各污染物與AQI的相關性分析

本文采用python工具中的相關分析函數(shù)得到各指標間的相關性分析熱力圖,圖3所示,得出AQI與各指標都存在一定的相關性,且AQI指數(shù)與PM10、PM2.5的相關性最高,可見PM10和PM2.5是污染南昌市空氣的“罪魁禍首”。因此,想要有效提升南昌市的空氣質量,應著重從降低PM10和PM2.5兩種污染物濃度入手。

3.1.3 參數(shù)設置及預測

Sigmoid函數(shù)的輸出范圍在[0,1]之間,在訓練過程中參數(shù)的梯度值為同一符號,更新時就容易出現(xiàn)zigzag現(xiàn)象,很難找到最優(yōu)值。但tanh函數(shù)的取值范圍在[-1,1]之間,有效的規(guī)避了Sigmoid函數(shù)的問題,因此在LSTM層使用tanh函數(shù)作為激活函數(shù)。linear激活函數(shù)具有線性和非飽和的性質,能加快隨機梯度下降算法的收斂速度,在Dense層選擇了linear函數(shù)作為激活函數(shù)。隨機選擇數(shù)據(jù)集的60%作為訓練集,剩余40%一半作為驗證集,一半作為測試集。結合時序數(shù)據(jù)特征,將模型時間步長設置為5,神經(jīng)元個數(shù)為128,dropout比率為0.5,批大小(batch size)為128,樣本學習周期為200。為了加快運行速度,在Tensor Flow環(huán)境中安裝了GPU。

圖5 RNN模型預測結果圖Fig.5 RNN model prediction result chart

表3 LSTM和RNN模型的評價參數(shù)表Tab.3 Evaluation parameter table of LSTM and RNN models

3.2 結果分析

對數(shù)據(jù)進行分析并設置完模型的參數(shù)后,就能將數(shù)據(jù)帶入LSTM空氣質量指數(shù)預測模型得出預測結果。用改進LSTM模型得出的結果與RNN進行對比,結果如圖4、圖5所示,LSTM和RNN模型的評價參數(shù)見表3。

圖4和圖5中的虛線為原始數(shù)據(jù),實線是測試集預測結果。從表3中可得出LSTM模型的均方誤差遠優(yōu)于RNN模型,兩種模型的相關系數(shù)和斯皮爾曼等級相近,但還是高于RNN模型。綜述,LSTM模型的預測結果要優(yōu)于RNN模型。從圖4中可以看出南昌市的空氣質量指數(shù)(AQI)在[10,100]之間波動,求得平均值約為52。對照表1可知南昌市的空氣質量指數(shù)(AQI)平均等級為良。

4 結論

空氣質量指數(shù)受到六個非線性因子的影響,普通的線性回歸預測對AQI的分析并不準確,因此本文采用了基于TensorFlow的LSTM神經(jīng)網(wǎng)絡預測模型對AQI做預測。LSTM神經(jīng)網(wǎng)絡能夠避免梯度消失或梯度爆炸的問題,具有更好的自我衡量機制,可解決長時依賴問題,對于數(shù)據(jù)量龐大的非線性多變量時間序列預測有著明顯的優(yōu)勢。本文以南昌市的空氣質量數(shù)據(jù)為樣本,評估在RNN和LSTM兩種神經(jīng)網(wǎng)絡模型下的預測結果。結果顯示LSTM模型的均方誤差、相關系數(shù)和斯皮爾曼等級均優(yōu)于RNN模型,LSTM對時間序列有更好的預測效果。

猜你喜歡
空氣質量噪聲神經(jīng)網(wǎng)絡
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
神經(jīng)網(wǎng)絡抑制無線通信干擾探究
“空氣質量發(fā)布”APP上線
車內(nèi)空氣質量標準進展
重視車內(nèi)空氣質量工作 制造更環(huán)保、更清潔、更健康的汽車
開展“大氣污染執(zhí)法年”行動 加快推動空氣質量改善
基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
一種基于白噪聲響應的隨機載荷譜識別方法