国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向循環(huán)神經(jīng)網(wǎng)絡的空氣質(zhì)量預測模型的實現(xiàn)

2022-10-21 13:44陳春瑋張建明賀易棟
科學技術(shù)創(chuàng)新 2022年28期
關(guān)鍵詞:空氣質(zhì)量污染物神經(jīng)網(wǎng)絡

陳春瑋,張建明,賀易棟

(廣東職業(yè)技術(shù)學院,廣東 佛山 528000)

概述

目前,隨著中國經(jīng)濟的高速發(fā)展,工業(yè)化建設、交通規(guī)模持續(xù)擴大,中小型的加工廠的建設隨著發(fā)展的需要也越來越多,燃油車的保有量逐年增加等能源和環(huán)境問題帶來的汽車尾氣、工業(yè)污染排放、建筑顆粒揚塵、垃圾焚燒等增加大氣的污染問題??諝馕廴締栴}日趨嚴重,也逐漸成為人民群眾日常關(guān)注的民生問題。對于空氣污染的預測很有必要,用于指導出行計劃,工業(yè)生產(chǎn),環(huán)境調(diào)控等都有一定的科學依據(jù)。針對目前很多預測模型都是單向的循環(huán)神經(jīng)網(wǎng)絡時序模型,信息利用不充分[1]。本研究結(jié)合LSTM 和GRU 雙向神經(jīng)網(wǎng)絡為主,卷積神經(jīng)網(wǎng)絡為輔的預測模型,從而提高模型解釋方差。

1 相關(guān)技術(shù)研究

1.1 基于傳統(tǒng)機器學習對空氣質(zhì)量的研究

機器學習中有許多的模型可以應用到空氣質(zhì)量的預測,我們主要用sklearn 進行模型的搭建于實驗。其中我們用到的模型貝葉斯、SVM、隨機森林、梯度提升樹、Bagging、KNN、極端隨機樹[2]。模型上,以被解釋方差(R2)來進行評價。其中,貝葉斯(R2 : 0.378)、SVM(R2 : 0.285)、隨機森林(R2 : 0.676)、梯度提升樹(0.576)、Bagging(R2 : 0.651)、KNN(R2 : 0.523)、極端隨機樹(R2 : 0.717)。進行了實驗以后可以看到,相對于線性模型,非線性模型的R2 會更高。對比各個模型的R2,發(fā)現(xiàn)最后一個極端隨機樹是最高的,其中利用集成學習模型的R2 也相對比較高。但是,傳統(tǒng)的機器學習還是存在一個時空問題,也就是說其實影響空氣質(zhì)量指數(shù)的相關(guān)污染物,與時間的變化也是有關(guān)的,傳統(tǒng)的機器學習并不能有效解決這個問題。

1.2 基于循環(huán)神經(jīng)網(wǎng)絡對空氣質(zhì)量的研究

循環(huán)神經(jīng)網(wǎng)絡的來源是為了刻畫一個序列當前的輸出與之前信息的關(guān)系。從網(wǎng)絡結(jié)構(gòu)上,循環(huán)神經(jīng)網(wǎng)絡會記憶之前的信息,并利用之前的信息影響后面結(jié)點的輸出。為了處理傳統(tǒng)機器學習中突出與時間的關(guān)系,解決長序列訓練過程中的梯度消失和梯度爆炸問題。我們使用LSTM 和GRU。具體表現(xiàn)LSTM 模型中R2 的CO:0.563,NO2:0.096,O3:0.51,PM2:0.549,PM10:0.567,SO2:0.525; 具體表現(xiàn)GRU 模型中R2 的CO:0.482,NO2:0.113,O3:0.471,PM2:0.602,PM10:0.541,SO2:0.517[3-4]。

對數(shù)據(jù)進行100 次、批次為1 000 的訓練。進行實驗后的數(shù)據(jù),可以看到R2 的平均值在0.461,而且對與NO2的預測后的R2 尤為低。看到傳統(tǒng)的機器學習中的極端隨機樹的R2 有0.717,這樣來看還比不上傳統(tǒng)的機器學習。雖然解決了時間相關(guān)性問題,但是R2下降了。

1.3 基于BBCNN 模型對空氣質(zhì)量的研究

BBCNN 模型利用了兩個雙向循環(huán)神經(jīng)網(wǎng)絡和一個一維卷積神經(jīng)網(wǎng)絡。雙向循環(huán)神經(jīng)網(wǎng)絡(BRNN)的基本思想是提出每一個訓練序列向前和向后分別是兩個循環(huán)神經(jīng)網(wǎng)絡(RNN),而且這兩個都連接著一個輸出層。這個結(jié)構(gòu)提供給輸出層輸入序列中每一個點的完整的過去和未來的上下文信息。

我們進行100 次、批次為1 000 的訓練后得到的數(shù)據(jù)。具體表現(xiàn)為CO:0.941,NO2:0.972,O3:0.971,PM2:0.983,PM10:0.978,SO2:0.979。從中可以看到對六種污染物的R2 均值在0.977。對循環(huán)神經(jīng)網(wǎng)絡R2 有了大幅提高,對極端隨機樹也有大幅提高,解決了兩者的問題。

2 數(shù)據(jù)描述與處理

2.1 數(shù)據(jù)的描述

數(shù)據(jù)來自2021 年華為杯研究生數(shù)學建模數(shù)據(jù)集,數(shù)據(jù)有24 個特征:

模型運行日期、預測時間、地點、近地2 m 溫度(℃)、地表溫度(K)、比濕(kg/kg)、濕度(%)、近地10 m 風速(m/s)、近地10m 風向(°)、雨量(mm)、云量、邊界層高度(m)、大氣壓(Kpa)、感熱通量(W/m2)、潛熱通量(W/m2)、長波輻射(W/m2)、短波輻射(W/m2)、地面太陽能輻射(W/m2)、SO2小時平均濃度(μg/m3)、NO2小時平均濃度(μg/m3)、PM10小時平均濃度(μg/m3)、PM2.5小時平均濃度(μg/m3)、O3小時平均濃度(μg/m3)、CO 小時平均濃度(mg/m3)。

其中,將O2小時平均濃度(μg/m3)、NO2小時平均濃度(μg/m3)、PM10小時平均濃度(μg/m3)、PM2.5小時平均濃度(μg/m3)、O3小時平均濃度(μg/m3)、CO 小時平均濃度(mg/m3)。由于空氣質(zhì)量指數(shù)需要這六種污染物作為計算標準,我們將這六種作為預測目標[5]。

2.2 數(shù)據(jù)處理

先利用pandas 讀入數(shù)據(jù),檢查數(shù)據(jù)有無確實以及格式問題。經(jīng)過檢查,發(fā)現(xiàn)并沒有缺失等問題。我們想要將數(shù)據(jù)放入循環(huán)神經(jīng)網(wǎng)絡,需要將數(shù)據(jù)轉(zhuǎn)化為時序數(shù)據(jù)。通過觀察“預測時間”,發(fā)現(xiàn)每個小時會收集一次數(shù)據(jù),因此我們將24 h 來當作時序數(shù)據(jù)一個批的數(shù)據(jù)量。

3 模型實現(xiàn)與分析

3.1 構(gòu)建模型的思路

構(gòu)建模型的時候,發(fā)現(xiàn)利用單層LSTM 構(gòu)建的模型訓練結(jié)果有比較大的波動;發(fā)現(xiàn)利用單層GRU 構(gòu)建的模型訓練結(jié)果LOSS 下降的比較慢。LSTM 比GRU 下降的快,而GRU 比LSTM 穩(wěn)定。為了將兩者的優(yōu)點結(jié)合,模型會將兩個模型結(jié)合使用。在訓練后,預測結(jié)果出現(xiàn)了一個周期問題。當我們輸入正序數(shù)據(jù)時,預測結(jié)果沒有出現(xiàn)問題,但當輸入的數(shù)據(jù)沒有按照正序輸入的時候,發(fā)現(xiàn)RMSE 明顯增大,預測出來的結(jié)果也不正常。這一問題,我們利用雙向循環(huán)神經(jīng)網(wǎng)絡解決。提高模型對數(shù)據(jù)的擬合度。為了能獲得更高的R2 以及更小的誤差,我們引入一維卷積神經(jīng)網(wǎng)絡。為了提高模型的輸出的穩(wěn)定性,最后的增加多一層的全連接神經(jīng)網(wǎng)絡。見圖1。

圖1 模型思路圖

3.2 模型結(jié)構(gòu)

數(shù)據(jù)在進入模型的后兩個輸入方向。先進入雙向循環(huán)神經(jīng)網(wǎng)絡。雙向循環(huán)神經(jīng)網(wǎng)絡我們利用LSTM 和GRU 混合使用。每個雙向循環(huán)神經(jīng)網(wǎng)絡輸入接入批標準化。然后將兩個方向的數(shù)據(jù)進行拼接。之后進入兩層一維卷積神經(jīng)網(wǎng)絡,每個輸出都接入批標準化,最后輸入全連接神經(jīng)網(wǎng)絡。見圖2。

圖2 模型結(jié)構(gòu)

3.3 模型優(yōu)化

我們?nèi)绻苯舆x擇全部特征輸入到我們寫好的模型中,那么會存在噪音。我們需要預測的有六個污染物,那么有一些特征對于所需要預測的污染物,有可能會存在負影響。這些負影響就會拉低整個模型預測這一污染物的R2,以及提高預測的誤差。為了解決這個問題,我們將每一特征單個刪除以后訓練模型,然后以訓練出來的R2 作為參照標準。見圖3。

圖3 刪除單個特征獲取R2 流程

之后我們開始訓練模型,訓練100 次、批次為1 000。我們會獲得每個污染物15 個的R2。我們可以利用R2 來進行判斷一個污染物失去了這一特征對其預測的誤差以及R2 有什么樣的影響。利用這些影響來判斷這一特征是否對污染物有著負面的影響, 若是有負面的影響,我們將這一特征刪除。

我們將各個特征的R2 進行平均以后和模型訓練的R2 進行對比。見表1。

從表1 中,可以看到只有CO 的兩者差異較大,我們對CO 進行調(diào)整。若每一特征刪除后訓練的R2 大于平均則刪除。我們在觀察以后選擇刪除,['近地2 m溫度(℃)']、['比濕(kg/kg)']、['近地10 m 風速(m/s)']、['大氣壓(Kpa)']、['潛熱通量(W/m2)']、['短波輻射(W/m2)']、['地面太陽能輻射(W/m2)']。最后,重新訓練,得到的R2 為0.9414。

表1 R2 對比

經(jīng)過了優(yōu)化訓練以后,我們利用RMSE、MSE、MAE、R2 對模型進行評估。見表2。

表2 各個污染物的誤差指標對比

4 結(jié)論

目前利用循環(huán)神經(jīng)網(wǎng)絡對空氣質(zhì)量進行預測不在少數(shù),循環(huán)神經(jīng)網(wǎng)絡用的比較多的也就是LSTM。LSTM 的記憶性能力,讓它能夠適應和應用在很多場景。單純的記憶能力能應對的是一段時間內(nèi)的預測,我在對模型的構(gòu)建時就想到如若可以將卷積的特性加入進去,就能提高對新數(shù)據(jù)的擬合度。對于最后的預測數(shù)據(jù)來說,是非常需要批量標準化,這一步能大大提高模型對數(shù)據(jù)的擬合度,也能大大降低模型的訓練難度。如果可以加入圖片數(shù)據(jù)(加入的數(shù)據(jù)也就是各種天氣下同一個位置的照片,以及各種環(huán)境下的照片),那么我們就可以利用二維卷積神經(jīng)網(wǎng)絡來進行輔助判斷。能將數(shù)據(jù)和圖片一同輸入模型內(nèi)進行學習,那這一模型也就能對多個場景有適應性。目前這個模型只應用在了空氣質(zhì)量計算上,我們可以將它推廣到屋內(nèi)裝修后的空氣質(zhì)量監(jiān)測,以及進行修改以后對水質(zhì)的監(jiān)測。

猜你喜歡
空氣質(zhì)量污染物神經(jīng)網(wǎng)絡
基于神經(jīng)網(wǎng)絡的船舶電力系統(tǒng)故障診斷方法
烏海市霧對空氣質(zhì)量的影響
MIV-PSO-BP神經(jīng)網(wǎng)絡用戶熱負荷預測
不同取樣方式下船機污染物排放結(jié)果的研究
基于改進Hopfield神經(jīng)網(wǎng)絡的對地攻擊型無人機自主能力評價
你能找出污染物嗎?
陸克定:掌控污染物壽命的自由基
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡與日本人口預測
空氣污染物可通過皮膚進入人體
海南省| 舟山市| 当涂县| 霸州市| 钦州市| 襄汾县| 承德市| 南木林县| 昭觉县| 罗江县| 凤阳县| 德钦县| 玉龙| 焉耆| 乌海市| 贵溪市| 茶陵县| 微山县| 淅川县| 苏尼特右旗| 稻城县| 安平县| 旺苍县| 商都县| 镇康县| 稷山县| 衡阳市| 循化| 伊宁县| 平谷区| 全椒县| 台山市| 大宁县| 通山县| 富民县| 滨海县| 凌云县| 保靖县| 浮梁县| 惠安县| 依兰县|