冀東 劉祖涵 王莉莉 涂翔
摘要:PM2.5是空氣質(zhì)量的重要影響因素之一,更加準(zhǔn)確地預(yù)測PM2.5的含量,對于預(yù)報空氣質(zhì)量變化、空氣治理和促進(jìn)科學(xué)綠色發(fā)展都有著重要的作用。本文提出一種基于粒子群算法和注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(LSTM)模型,該模型既具備了LSTM可以輕松提取數(shù)據(jù)的時間維度信息的能力,又具備了注意力機(jī)制可以完美解決特征權(quán)重分配的能力,可以較為準(zhǔn)確地對空氣中PM2.5含量進(jìn)行預(yù)測。通過與K近鄰回歸、支持向量回歸、循環(huán)神經(jīng)網(wǎng)絡(luò)和未進(jìn)行尋優(yōu)處理的基于注意力機(jī)制的LSTM等模型進(jìn)行對比試驗,證明了基于粒子群算法和注意力機(jī)制的LSTM在預(yù)測空氣中PM2.5含量時具有更佳的性能,且模型的均方誤差(MSE)、平均絕對誤差(MAE)在保證相同相關(guān)系數(shù)(R2)的情況下,降低了50%以上。
關(guān)鍵詞:PM2.5;長短期記憶網(wǎng)絡(luò);注意力機(jī)制;粒子群算法;預(yù)測
中圖分類號:X513;TP183文獻(xiàn)標(biāo)志碼:A文章編號:1673-5072(2024)03-0327-08
隨著社會的不斷發(fā)展,中國的城市化進(jìn)程不斷加速,但在此過程中,卻帶來了很嚴(yán)重的空氣環(huán)境污染[1]??諝猸h(huán)境的污染主要以空氣質(zhì)量來反映,而影響空氣質(zhì)量主要分為環(huán)境氣象因素和空氣成分因素[23]。常見的空氣污染物包括可吸入顆粒、SO2、NO2、CO、O3等,其中可吸入顆粒根據(jù)顆粒直徑又可以劃分為PM100、PM10和PM2.5,由于顆粒物直徑的大小不同,這些顆粒物在空氣中的存在時間也不相同,直徑越小的顆粒物在空氣中存在時間越長,因此PM2.5在空氣中懸浮的時間最長。又因為PM2.5不僅體積小,同時又含有大量有毒物質(zhì),所以對心肺疾病的致病率也就越高[4]。因此,準(zhǔn)確地預(yù)測PM2.5對預(yù)測空氣質(zhì)量和人類健康生活都極其重要。
預(yù)測PM2.5的方法主要有兩類:第一類是基于數(shù)學(xué)物理方法的模型,其優(yōu)點(diǎn)是可以進(jìn)行小范圍空氣預(yù)測,適用于工廠的空氣污染監(jiān)測,缺點(diǎn)是不適用于城市的預(yù)測[5]。第二類是數(shù)據(jù)驅(qū)動的模型,分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)的模型如K近鄰模型、支持向量機(jī)模型、極限學(xué)習(xí)機(jī)模型,這類模型可以根據(jù)不同城市中的PM2.5數(shù)據(jù)先進(jìn)行學(xué)習(xí),再對空氣中的PM2.5進(jìn)行預(yù)測,優(yōu)點(diǎn)是簡化了特征工程的處理,但是對高非線性問題處理效果不佳[68]。深度學(xué)習(xí)模型,例如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)[9](Recurrent Neural Network,RNN),在預(yù)測非線性的時序問題時都有很好的效果,但循環(huán)神經(jīng)網(wǎng)絡(luò)以其處理時間序列的優(yōu)秀能力,在時序預(yù)測問題上得到了很廣泛的應(yīng)用[10]。但是,在實際的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中發(fā)現(xiàn)RNN對數(shù)據(jù)無法做到長期保存,在之后的不斷訓(xùn)練過程中還發(fā)現(xiàn)原始的RNN存在梯度消失和梯度爆炸的問題,這兩種問題的出現(xiàn)限制了循環(huán)神經(jīng)網(wǎng)絡(luò)的實際應(yīng)用[11]。而長短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory Network,LSTM)作為RNN的一種改進(jìn)模型,它通過增加記憶單元方法,使網(wǎng)絡(luò)可以保留長期記憶和調(diào)節(jié)反向傳播中權(quán)重參數(shù)的更迭,這樣不僅繼承循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)秀的時間序列處理能力,還解決了RNN的梯度不穩(wěn)定的問題。在此基礎(chǔ)上,Pranolo等[12]和Cen等[13]為了避免根據(jù)主觀經(jīng)驗選擇超參數(shù)的缺點(diǎn),都使用不同的粒子群算法(Particle Swarm Optimization,PSO)與LSTM進(jìn)行結(jié)合對空氣質(zhì)量進(jìn)行預(yù)測,使LSTM模型可以自主調(diào)整模型的超參數(shù),減少了人工調(diào)試的成本。Dong等[14]使用注意力機(jī)制的方法構(gòu)建了以LSTM為基礎(chǔ)的模型,實現(xiàn)了更加集中地提取PM2.5數(shù)據(jù)中的有效信息。然而,上述方法都只單一解決了LSTM網(wǎng)絡(luò)對信息中某種特征的提取,但實際上,數(shù)據(jù)信息所包含的特征是復(fù)雜的,因此對預(yù)測也有著顯著的影響。
為了進(jìn)一步提高對空氣中PM2.5含量的預(yù)測能力,首先,采用LSTM為基礎(chǔ)模型,加入注意力機(jī)制,合理分配了神經(jīng)網(wǎng)絡(luò)中的參數(shù)權(quán)重,在訓(xùn)練參數(shù)時,根據(jù)關(guān)注度的大小有偏重地對特征進(jìn)行訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)在時序預(yù)測問題上擁有更高的預(yù)測精度;其次,使用PSO對網(wǎng)絡(luò)中的超參數(shù)進(jìn)行尋優(yōu),進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)模型擁有最佳的網(wǎng)絡(luò)超參數(shù);最后,實現(xiàn)對PM2.5的精準(zhǔn)預(yù)測。
1數(shù)據(jù)來源和預(yù)處理
1.1數(shù)據(jù)來源
數(shù)據(jù)集來自加利福尼亞大學(xué)爾灣分校的機(jī)器學(xué)習(xí)數(shù)據(jù)庫時間序列分庫中的空氣污染數(shù)據(jù)。數(shù)據(jù)集中以每小時記錄一次的頻率展示了北京昌平地區(qū)自2013年3月至2017年2月的空氣質(zhì)量信息。數(shù)據(jù)集中包括了PM2.5、PM10、SO2、NO2、CO、O3等污染物信息和溫度、濕度、壓強(qiáng)、降雨和風(fēng)速等環(huán)境信息。
1.2數(shù)據(jù)的影響關(guān)系與預(yù)處理數(shù)據(jù)間的關(guān)系:PM2.5的含量在空氣質(zhì)量監(jiān)測中受很多因素影響,例如:季節(jié)、溫度、濕度等環(huán)境因素和氮、碳、硫與氧氣化合形成的各種化學(xué)顆粒物。其中,PM10、SO2、NO2、CO、O3濃度與PM2.5濃度存在顯著正相關(guān)特性[15]。由此在數(shù)據(jù)集中選擇PM10、SO2、NO2、CO、O3、PM2.5濃度這6項作為主要參數(shù)數(shù)據(jù)。
試驗數(shù)據(jù)的預(yù)處理:整個數(shù)據(jù)集有35 063條數(shù)據(jù),首先按照測試集為9∶1對數(shù)據(jù)進(jìn)行劃分。因為數(shù)據(jù)進(jìn)
行格式變換傳入網(wǎng)絡(luò)時,需要將網(wǎng)絡(luò)中的所有數(shù)據(jù)改成數(shù)值浮點(diǎn)型,所以在數(shù)據(jù)集中出現(xiàn)了缺失值時,就需要對缺失值進(jìn)行處理。處理方法有刪除和插補(bǔ)兩種方法,由于缺失值相對于整個數(shù)據(jù)集來說并不多,所以采取將缺失值所在行進(jìn)行刪除處理。這個處理方法不僅相對簡單,而且在試驗中,由于刪除缺失值相當(dāng)于神經(jīng)網(wǎng)絡(luò)中的Dropout操作,使神經(jīng)網(wǎng)絡(luò)可以應(yīng)對更復(fù)雜的變化,減少過擬合現(xiàn)象。其次,在輸入序列時若輸入數(shù)據(jù)的時間間隔太大則對細(xì)節(jié)不能很好預(yù)測,序列太短又容易出現(xiàn)較多的異常值,因此,以每5 h的時間數(shù)據(jù)為一個輸入序列的小樣本,作為一個小的時序信號,將6項主要參數(shù)數(shù)據(jù)作為時序數(shù)據(jù)預(yù)測的6項輸入特征,形成一個5×6的時序矩陣(圖1)。最后,對輸出數(shù)據(jù)而言,為了檢測序列預(yù)測的優(yōu)劣,以下一時間步的PM2.5特征作為預(yù)測結(jié)果優(yōu)劣的評定。
2研究方法
2.1長短期記憶網(wǎng)絡(luò)LSTM是RNN的改進(jìn)模型[1618],是深度學(xué)習(xí)中能夠處理時序問題的重要模型,RNN由輸入層、隱藏層和輸出層3層和1個延遲器組成,RNN的基本組成和沿時間展開如圖2所示。根據(jù)圖2可知循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出和隱藏層的迭代公式為:
理論上循環(huán)神經(jīng)網(wǎng)絡(luò)是適用于長時間間隔的數(shù)據(jù)之間的依賴關(guān)系的,但是在網(wǎng)絡(luò)的反向傳導(dǎo)和學(xué)習(xí)過程中,總會產(chǎn)生梯度爆炸或消失的問題。根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)的梯度不穩(wěn)定問題,LSTM采用記憶單元和門控制機(jī)制,對循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn)。LSTM由3個主要內(nèi)部單元組成:遺忘門、輸入門和輸出門(圖3)。
首先計算遺忘門的輸出
式中:ft是遺忘門輸出;σ是激活函數(shù),這個函數(shù)可以是Sigmoid函數(shù);Wf是遺忘門輸入量的權(quán)值參數(shù);Uf是遺忘門隱藏狀態(tài)的權(quán)值參數(shù);bf是遺忘門偏置。
再計算輸入門的輸出
式中:it是輸入門輸出;Wi是輸入門輸入量的權(quán)值參數(shù);Ui是輸入門隱藏狀態(tài)的權(quán)值參數(shù);bi是輸入門偏置。
最后計算輸出門的輸出
式中:Ot是輸出門輸出;Wo是輸出門輸入量的權(quán)值參數(shù);Uo是輸出門隱藏狀態(tài)的權(quán)值參數(shù);bo是輸出門偏置。
這里3個門的作用就是將隱含層的信息和t時刻的輸入進(jìn)行加權(quán)求和。
和RNN不同的是LSTM中細(xì)胞狀態(tài)和3個門的結(jié)合和隱藏層的迭代。首先,候選細(xì)胞狀態(tài)的迭代為
式中:c^t是候選狀態(tài)輸出;Wc是輸出門輸出量的權(quán)值參數(shù);Uc是記憶單元隱藏狀態(tài)的權(quán)值參數(shù);bc是偏置。
得到了細(xì)胞單元的候選狀態(tài)后再進(jìn)行對細(xì)胞狀態(tài)的迭代
式中:ftct-1表示上一時刻的細(xì)胞狀態(tài)ct-1保留到當(dāng)前時刻ct的數(shù)量;itc^t表示了當(dāng)前時刻網(wǎng)絡(luò)的輸入xt保存到細(xì)胞狀態(tài)ct的數(shù)量。
2.2注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)處理信息時,根據(jù)輸入數(shù)據(jù)的特征進(jìn)行處理,而輸入的大量特征中,根據(jù)影響程度不同,各個特征的重要程度也不同。注意力機(jī)制就是選擇關(guān)鍵性數(shù)據(jù)賦予高比例特征值權(quán)重,來提高神經(jīng)網(wǎng)絡(luò)處理信息的效率[19]。在LSTM中,注意力機(jī)制根據(jù)時序信息中不同特征進(jìn)行加權(quán),可提高神經(jīng)網(wǎng)絡(luò)預(yù)測的相關(guān)度。
注意力機(jī)制的本質(zhì)如圖4所示。在神經(jīng)網(wǎng)絡(luò)內(nèi)部加入一個線性轉(zhuǎn)換節(jié)點(diǎn),對輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)特征進(jìn)行注意,然后按照注意力的分布不同,給予不同的分配權(quán)重,公式解釋為
式中:L為輸入序列,q代表特征,αi是注意力分布,li是序列中的第i個信息。
2.3粒子群算法粒子群算法是一種群智能算法[20],以每個粒子的學(xué)習(xí)經(jīng)驗來不斷地搜索最佳的探索方向,進(jìn)而找出給定范圍的最優(yōu)解。粒子群算法的運(yùn)行流程首先是對粒子群進(jìn)行初始化,從各個粒子的適應(yīng)值中選擇局部最優(yōu)(Personal Best,PB)和全局最優(yōu)(Global Best,GB),再設(shè)置最大迭代次數(shù)和計算粒子當(dāng)前位置的誤差函數(shù),進(jìn)行速度S和位置向量Z的更新,計算出新的局部最優(yōu)和全局最優(yōu),當(dāng)?shù)螖?shù)達(dá)到最大迭代時輸出全局最優(yōu)解。粒子群算法的速度和位置的迭代公式為
式中:g1、g2和ω分別是算法中的學(xué)習(xí)因子和慣性因子,它們影響了算法搜索的收斂速度和魯棒性,并且不同大小的慣性因子也能影響局部與全局優(yōu)化能力。r1、r2為0到1之間隨機(jī)數(shù),它們影響了算法搜索的隨機(jī)性。
3試驗
3.1試驗環(huán)境試驗使用計算機(jī)硬件配置:CPU為i512500;顯卡為RTX3070,顯存8G。計算機(jī)軟件配置:Windows11操作系統(tǒng),TensorFlow為2.3GPU版本;NumPy為1.18.5版本,Pandas為1.3.5版本。軟件平臺為PyCharm64位公開版,神經(jīng)網(wǎng)絡(luò)基于Keras(2.4.3版本)深度學(xué)習(xí)框架進(jìn)行搭建。
3.2試驗流程首先創(chuàng)建基于粒子群算法和注意力機(jī)制的LSTM神經(jīng)網(wǎng)絡(luò)模型(PSO LSTMATT),在這個神經(jīng)網(wǎng)絡(luò)模型里,將神經(jīng)網(wǎng)絡(luò)中神經(jīng)元個數(shù)、批大小和訓(xùn)練代數(shù)這3個重要的參數(shù)以未知的參量進(jìn)行代替;其次使用PSO對這3個參數(shù)在合理的區(qū)間內(nèi)進(jìn)行尋優(yōu),尋優(yōu)過程以真實值和預(yù)測值的均方誤差(MSE)為目標(biāo)函數(shù),求解當(dāng)MSE最小的時候,神經(jīng)網(wǎng)絡(luò)中超參數(shù)的值;然后以這3個尋優(yōu)后的參數(shù)帶入原網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,以測試集的獲取得到預(yù)測值;最后將測試集中真實值和預(yù)測值進(jìn)行評估,過程如圖5。
3.3試驗結(jié)果本次試驗中,以K近鄰算法(KNN)、支持向量機(jī)算法(SVR)、RNN、LSTM、基于注意力機(jī)制長短期記憶網(wǎng)絡(luò)(LSTMATT)和基于粒子群算法的長短期記憶網(wǎng)絡(luò)(PSOLSTM)等6種不同的模型和本文模型PSOLSTMATT進(jìn)行對比試驗。由于樣本量太大,在圖像分辨時真實數(shù)據(jù)的曲線和預(yù)測數(shù)據(jù)的曲線之間的差距就不太明顯,所以下面試驗用圖(圖6)只記錄100條數(shù)據(jù)的曲線變化來更加清晰地展示預(yù)測和實際之間的差距。由圖6中可知KNN模型和SVR模型可以較好的進(jìn)行預(yù)測,但是離準(zhǔn)確預(yù)測PM2.5濃度還有差距,而其他5種添加了注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型能更加準(zhǔn)確的預(yù)測擬合曲線。另外從LSTM模型和PSO-LSTM模型的預(yù)測曲線圖可知,當(dāng)進(jìn)行了PSO尋優(yōu)后模型都具有一定的優(yōu)化作用的。使用回歸決定系數(shù)(R2)、MSE、MAE 3種評估指標(biāo)對7種模型進(jìn)行評估,評估結(jié)果見表2。
如表2所示,KNN和SVR這2種機(jī)器學(xué)習(xí)方法在所有模型中的表現(xiàn)處于中等,MAE、MSE和R2分別為8.10和12.37、366.04和596.08、0.93和0.89。因為對PM2.5含量預(yù)測的時間序列預(yù)測問題是一個高度非線性的問題,所以擅長解決非線性問題的深度學(xué)習(xí)方法就在時間序列預(yù)測問題上有了大展身手的機(jī)會。但是在試驗中,RNN和LSTM的預(yù)測性能并不好,它們的MAE、MSE和R2分別為25.38和24.13、1 605.63和1 39321、0.46和0.63。這是因為在神經(jīng)網(wǎng)絡(luò)模型中,模型的參數(shù)量越大,對試驗的影響也就越大。因此在神經(jīng)網(wǎng)絡(luò)中,對于時間序列中的各個特征的權(quán)重就更加難以進(jìn)行訓(xùn)練。
加入注意力機(jī)制可以加速神經(jīng)網(wǎng)絡(luò)中特征權(quán)重的訓(xùn)練。LSTMATT模型的MAE、MSE和R2的分別為110、3.79、0.99。在加入了注意力機(jī)制后,對特征權(quán)重的注意力分布如圖7所示,根據(jù)注意力機(jī)制對于不同污染物質(zhì)的注意程度,提升了神經(jīng)網(wǎng)絡(luò)對空氣環(huán)境中各個污染物質(zhì)的檢測的靈敏度,增強(qiáng)了神經(jīng)網(wǎng)絡(luò)對分析各個污染物質(zhì)在不同時間段上影響空氣質(zhì)量的聯(lián)系,進(jìn)一步強(qiáng)化了網(wǎng)絡(luò)在大數(shù)據(jù)統(tǒng)計下的數(shù)據(jù)關(guān)聯(lián),提高了網(wǎng)絡(luò)的預(yù)測能力。
圖7(a)中神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個數(shù)、批大小、訓(xùn)練代數(shù)都是固定的,在未尋優(yōu)之前,采用和LSTM相同的網(wǎng)絡(luò)超參數(shù)進(jìn)行訓(xùn)練以達(dá)到控制變量。尋優(yōu)之后,搜索出最佳配比的超參數(shù),進(jìn)行預(yù)測后,得到最佳的注意力分布圖7(b)。根據(jù)最新的特征權(quán)重進(jìn)行預(yù)測后,它們的MAE、MSE和R2分別0.46、060和0.99。對比發(fā)現(xiàn),在保證了相關(guān)系數(shù)的情況下降低了MAE和MSE。經(jīng)過PSO進(jìn)行尋優(yōu)后網(wǎng)絡(luò)的神經(jīng)元數(shù)、批大小和訓(xùn)練代數(shù)由原來的32、50和72變化為25、49和12。神經(jīng)元數(shù)降低了約25%,大大減少了網(wǎng)絡(luò)的訓(xùn)練參數(shù),加快了網(wǎng)絡(luò)訓(xùn)練進(jìn)程;而批大小的變小,預(yù)測數(shù)據(jù)的變化會更加平滑,訓(xùn)練代數(shù)降低了60代,模型誤差可以更早的收斂,從而減小了MSE、MAE的值,相比于未進(jìn)行優(yōu)化的模型,優(yōu)化模型的MSE、MAE降低了超過50%。
4結(jié)論
精確的PM2.5含量預(yù)測結(jié)果可以為空氣質(zhì)量的預(yù)測提供數(shù)據(jù)基礎(chǔ),以便提前采取不同的措施對空氣質(zhì)量進(jìn)行治理,改善城市空氣,促進(jìn)社會的健康綠色發(fā)展,也能給健康出行提供參考。目前在相關(guān)的研究中,鮮少對神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)尋優(yōu),但是神經(jīng)網(wǎng)絡(luò)的超參數(shù)對預(yù)測結(jié)果準(zhǔn)確性和預(yù)測平穩(wěn)性都有著較大的影響。針對這個問題,本文建立了一個基于粒子群算法和注意力機(jī)制的LSTM模型來預(yù)測空氣中的PM2.5含量,并且對比了SVR、KNN、RNN等不同預(yù)測模型。從不同模型來看,基于注意力機(jī)制的LSTM擁有更好的預(yù)測結(jié)果。本文的主要貢獻(xiàn)在于在使用了粒子群算法后,解決了模型中神經(jīng)元等參數(shù)固定的問題,使網(wǎng)絡(luò)結(jié)構(gòu)更加穩(wěn)定,網(wǎng)絡(luò)預(yù)測更加平緩。進(jìn)行優(yōu)化后的模型對原聯(lián)合模型擁有更佳的預(yù)測能力,在預(yù)測空氣中PM2.5含量時有更好的準(zhǔn)確率。
在后續(xù)的研究中,可以選取雙向網(wǎng)絡(luò)來搭建基礎(chǔ)網(wǎng)絡(luò),根據(jù)雙向網(wǎng)絡(luò)對過去未來雙向時間的特征處理能力,挖掘出數(shù)據(jù)特征在過去未來時間中的關(guān)系,來構(gòu)建預(yù)測模型。例如,前后兩天的天氣之間是相互影響的,PM2.5的含量變化也會根據(jù)積累和擴(kuò)散相應(yīng)變化。對于數(shù)據(jù)噪音的不同,本文使用對數(shù)據(jù)進(jìn)行刪除方法處理,未來可以考慮使用均值填充等其他方法去噪,使模型擁有更好的預(yù)測精度。
參考文獻(xiàn):
[1]王永紅,邢艷春,郝小嬌.空氣污染與經(jīng)濟(jì)增長的空間效應(yīng)及其關(guān)系檢驗[J].統(tǒng)計與決策,2022,38(15):7781.
[2]HAN X D,LI H J,LIU Q,et al.Analysis of influential factors on air quality from global and local perspectives in China[J].Environmental Pollution,2019,248:965979.
[3]LIU Z H,WANG L L,ZHU H S.A timescaling property of air pollution indices:a case study of Shanghai,China[J].Atmospheric Pollution Research,2015,6(5):457486.
[4]楊慧,黃瑾,羅明良,等.PM2.5和PM10濃度分布的空間插值方法比較:以河南省信陽市為例[J].西華師范大學(xué)學(xué)報(自然科學(xué)版),2023,44(6):16.
[5]ZHENG Y,LIU F,HSIEH H P.Uair:when urban air quality inference meets big data[C]//American Computer Sociely.Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Chicago,2013:14361444.
[6]KARPATNE A,EBERTUPHOFF I,RAVELA S,et al.Machine learning for the geosciences:challenges and opportunities[J].IEEE Transactions on Knowledge and Data Engineering,2019,31(8):15441554.
[7]CHU J,DONG Y,HAN X,et al.Shortterm prediction of urban PM2.5 based on a hybrid modified variational mode decomposition and support vector regression model[J].Environmental Science and Pollution Research,2021,28(1):5672.
[8]李濟(jì)瀚,李曉理,王康,等.基于PCAOSELM的大氣PM2.5濃度預(yù)測[J].北京理工大學(xué)學(xué)報,2021,41(12):12621268.
[9]ZHU M,XIE J.Investigation of nearby monitoring station for hourly PM2.5 forecasting using parallel multiinput 1DCNNbiLSTM[J].Expert Systems with Applications,2023,211:118707.
[10]LIU B,YAN S,LI J Q,et al.A spatiotemporal recurrent neural network for prediction of atmospheric PM2.5:a case study of Beijing[J].IEEE Transactions on Computational Social Systems,2021,8(3):578588.
[11]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)應(yīng)用,2018,38(S2):16.
[12]PRANOLO? A,MAO Y,WIBAWA A P,et al.Optimized three deep learning models BasedPSO hyperparameters for Beijing PM2.5 prediction[J].Knowledge Engineering and Data Science,2022,5(1):5366.
[13]CEN H,YU L,PU Y,et al.A method to predict CO2 mass concentration in sheep barns based on the RFPSOLSTM model[J].Animals,2023,13(8):1322.
[14]DONG L,LIU J,ZHAO Y.Forecasting of PM2.5 concentration in Beijing using hybrid deep learning framework based on attention mechanism[J].Applied Sciences,2022,12(21):11155.
[15]劉嚴(yán)萍,王勇,賴迪輝.基于PM10與氣態(tài)污染物的北京市PM2.5濃度模型研究[J].災(zāi)害學(xué),2016,31(2):116118.
[16]ELMAN J L.Finding structure in time[J].Cognitive Science,1990,14(2):179211.
[17]HOCHREITER S,SCHMIDHUBER J.Long shortterm memory[J].Neural Computation,1997,9(8):17351780.
[18]HOCHREITER S.Untersuchungen zu dynamischen neuronalen Netzen[D].Munich:Technische Universitt München,1991.
[19]MNIH V,HEESS N,GRAVES A.Recurrent models of visual attention[J].Computer Science,2014,2:22042212.
[20]KENNEDY J,EBERHART R.Particle swarm optimization[C]//Proceedings of ICNN95International Conference on Neural Networks.IEEE,1995,4:19421948.
PM2.5 Prediction of Long ShortTerm Memory Network(LSTM)Based on Particle Swarm Optimization Algorithmand Attention Mechanism
JI Dong1a,LIU Zuhan1a,WANG Lili1b,TU Xiang2
(1.a.School of Information Engineering,b.College of Science,Nanchang Institute of Technology,Nanchang Jiangxi 330099,China;
2.Jiangxi Academy of EcoEnvironmental Sciences and Planning,Nanchang Jiangxi 330039,China)
Abstract:PM2.5 is one of the important factors affecting air quality.More accurate prediction of the content of PM2.5 plays an important role in forecasting air quality changes,doing air governance and promoting the scientific and green development.This paper proposes a Long ShortTerm Memory Network(LSTM) model based on particle swarm optimization algorithm and attention mechanism.This model has both the ability of LSTM to easily extract the time dimension information of data,and the ability of attention mechanism to perfectly solve the feature weight distribution,which can more accurately predict the content of PM2.5 in the air.Through comparative experiments with K nearest neighbor regression,support vector regression,recurrent neural network and LSTM based on attention mechanism without optimization processing,it is proved that the LSTM based on particle swarm optimization algorithm and attention mechanism has better performance in predicting PM2.5 content in the air,and the Mean Square Error (MSE) and Mean Absolute Error (MAE) of the model are reduced by more than 50% under the same correlation coefficient (R2).
Keywords:PM2.5;Long ShortTerm Memory Network;attention mechanism;particle swarm optimization algorithm;prediction
西華師范大學(xué)學(xué)報(自然科學(xué)版)2024年3期