韋詩玥,徐洪珍
(東華理工大學(xué) 信息工程學(xué)院,江西 南昌 330013)
隨著社會的發(fā)展和生活質(zhì)量的提高,人們不再是關(guān)注溫飽問題,更多地開始關(guān)注健康問題。被污染了的空氣會給人類健康帶來危害,特別是在人口稠密的地區(qū)[1]??諝赓|(zhì)量是一個十分復(fù)雜的現(xiàn)象,會受到許多因素的影響[2]。空氣質(zhì)量能夠通過計算空氣中的污染物來反映空氣污染的嚴(yán)重程度,通常用空氣質(zhì)量指數(shù)(Air Quality Index,AQI)來進行定量描述。有效的空氣質(zhì)量預(yù)測能夠為人們提供及時的空氣質(zhì)量警報,能夠使政府部門及時干預(yù)高污染事件,能夠提醒人們是否適宜進行戶外活動。嚴(yán)重的空氣污染不僅會影響人們的生活,更會影響人們的生命健康[3]。準(zhǔn)確地進行空氣質(zhì)量預(yù)測對國家、政府、民眾來說都是一件重要的事。
空氣質(zhì)量數(shù)據(jù)具有明顯的季節(jié)性,如果忽視這一因素,會導(dǎo)致對空氣質(zhì)量數(shù)據(jù)的預(yù)處理不夠充分并且預(yù)測精度不夠高,所以本文提出季節(jié)調(diào)整的空氣質(zhì)量數(shù)據(jù)預(yù)處理方法。本文首次將二元混沌烏鴉搜索算法(Binary Chaotic Crow Search Algorithm,BCCSA)應(yīng)用于空氣質(zhì)量數(shù)據(jù)的預(yù)測,能夠更好地優(yōu)化非線性、非平穩(wěn)的空氣質(zhì)量數(shù)據(jù),并針對BCCSA 存在的不足,提出3 種改進方法用以提高它的收斂速度。本文還將自注意力機制與深層長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)相結(jié)合來預(yù)測經(jīng)過處理的空氣質(zhì)量數(shù)據(jù),能有效挖掘空氣質(zhì)量數(shù)據(jù)中隱藏的時間序列信息,提高了方法的預(yù)測精度?,F(xiàn)有的研究大多都是對空氣質(zhì)量進行未來幾個小時的短期預(yù)測,而本文對空氣質(zhì)量進行了未來24 小時的預(yù)測,并且具有較高的精度。
傳統(tǒng)的空氣質(zhì)量預(yù)測有數(shù)值方法和統(tǒng)計方法[4]。但是數(shù)值的方法計算量異常巨大,過高的計算代價成為數(shù)據(jù)模型最大的劣勢;而統(tǒng)計的方法只使用歷史污染物濃度和氣象數(shù)據(jù)來建立統(tǒng)計關(guān)系,并未考慮物理過程[5]。相對于傳統(tǒng)的學(xué)習(xí)算法,深度學(xué)習(xí)方法能從海量數(shù)據(jù)中進行學(xué)習(xí),挖掘數(shù)據(jù)隱藏的信息,解決數(shù)據(jù)中存在的高維、冗雜等傳統(tǒng)學(xué)習(xí)算法難以處理的問題。因而現(xiàn)在的研究者開始利用深度學(xué)習(xí)的方法來預(yù)測空氣質(zhì)量。
Belavadi[6]等人使用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)構(gòu)建了模型,并且結(jié)合了無線傳感器網(wǎng)絡(luò)共同對空氣質(zhì)量數(shù)據(jù)進行傳輸、預(yù)測。Sun[7]等人提出了一種基于多數(shù)據(jù)源動態(tài)空間面板的時空深度多任務(wù)學(xué)習(xí)空氣質(zhì)量預(yù)測模型。該模型將每個污染物濃度視為一個單一的預(yù)測目標(biāo),并通過多任務(wù)學(xué)習(xí)方法對所有這些單一目標(biāo)進行聯(lián)合和同時建模,這與現(xiàn)有的每次考慮一種污染物或為每種污染物建立獨立模型的研究截然不同。Wu[8]等人提出了一種變分模式分解(Variational Mode Decomposition,VMD)和LSTM 相結(jié)合的模型來預(yù)測AQI。
經(jīng)過對空氣質(zhì)量數(shù)據(jù)進行分析發(fā)現(xiàn),空氣質(zhì)量數(shù)據(jù)具有明顯的季節(jié)性特征,例如PM2.5存在冬季高,夏季低的特性。所以本文提出季節(jié)調(diào)整的空氣質(zhì)量數(shù)據(jù)預(yù)處理方法,對收集的原始空氣質(zhì)量數(shù)據(jù)進行了季節(jié)調(diào)整以消除季節(jié)對預(yù)測的影響。這里的季節(jié)調(diào)整是一個從時間序列中估計和剔除季節(jié)影響的過程,進行季節(jié)調(diào)整能夠更加準(zhǔn)確地反映數(shù)據(jù)本身的基本趨勢。為了直觀地表現(xiàn)出空氣質(zhì)量數(shù)據(jù)的季節(jié)性,本文定義了季節(jié)指數(shù),計算公式如下:
其中,Se 是季節(jié)指數(shù),year_A 是歷年同季平均數(shù);c 是趨勢值,這里的趨勢值指的是水平趨勢。
本文在進行預(yù)測前將原始空氣質(zhì)量數(shù)據(jù)除以相應(yīng)的季節(jié)指數(shù),以便更好地進行預(yù)測。最后再將空氣質(zhì)量預(yù)測結(jié)果重新乘以季節(jié)指數(shù),就得到了真正的AQI 預(yù)測值。
BCCSA 可以解決非線性的現(xiàn)實優(yōu)化問題,防止結(jié)果陷入局部最優(yōu)。而空氣質(zhì)量數(shù)據(jù)具有非線性的特點,所以可以用來對空氣質(zhì)量數(shù)據(jù)進行優(yōu)化處理,以便后期的預(yù)測更加精準(zhǔn)。BCCSA 是在烏鴉搜索算法(Crow Search Algorithm,CSA)的基礎(chǔ)上發(fā)展而來的,它克服了CSA 初始位置不均勻、求解精度低等缺陷。CSA 是一種群體智能優(yōu)化算法,它的工作原理是烏鴉將多余的食物儲存在隱蔽處,并在需要時取回[9]。
BCCSA 雖然在CSA 的基礎(chǔ)上進行了改進,但是它依舊存在著一些不足。例如,感知概率(Awareness Probability,AP)和飛行長度(Flight Length,F(xiàn)L)都是固定值,這會抑制算法的性能。因此,本文對原始的BCCSA 提出以下改進,使算法在全局搜索和局部搜索之間保持良好的平衡,并提高收斂速度。
(1)動態(tài)調(diào)整AP。因為AP 影響烏鴉種群的多樣性和個體集群化,AP 的值越小,算法就越偏向于局部搜索。所以本文決定對其進行動態(tài)調(diào)整,計算公式如下:
其中,iter 是當(dāng)時的迭代次數(shù),iterMax 是最大迭代次數(shù)。
(2)將FL 分段。因為本文動態(tài)調(diào)整了AP,使得其值越來越小,這雖然能夠提高算法的收斂速度,但容易陷入局部最優(yōu)。而FL 影響算法的局部與全局的搜索能力,F(xiàn)L 的值越大算法就越偏向于全局搜索。因為FL 最初被認(rèn)為取值為2 時算法性能較好,所以當(dāng)烏鴉的記憶與烏鴉位置離的很近時,設(shè)置FL 為2,否則就將FL 的值擴大。這樣使得AP 與FL 互相配合,共同促進算法性能的改善。
(3)引入慣性權(quán)重因子。慣性權(quán)重因子隨著時間變化線性減小,通過改變其值的大小來調(diào)整算法的搜索能力[10]。引入慣性權(quán)重因子也是為了平衡烏鴉種群的集群化和多樣化,從而達到提高收斂速度的目的,也有利于算法尋找最優(yōu)解。
慣性權(quán)重因子公式設(shè)置如下:
其中,w_max 是慣性權(quán)重因子的最大值,w_min 是慣性權(quán)重因子的最小值。慣性權(quán)重因子的值在[0,1]之間。
具體運用改進BCCSA 算法進行空氣質(zhì)量數(shù)據(jù)預(yù)處理的步驟如下:
(1)初始化參數(shù),設(shè)置烏鴉種群數(shù)、最大迭代次數(shù)等。
(2)使用SineMap 混沌映射函數(shù)創(chuàng)建烏鴉位置,創(chuàng)建一個隨機的烏鴉位置序列作為烏鴉記憶,將烏鴉位置由實數(shù)型向量轉(zhuǎn)為離散的二進制向量,因為空氣質(zhì)量數(shù)據(jù)有7 個屬性,所以使用7 個0~1 之間的隨機數(shù)初始化第一個烏鴉位置。
(3)評估烏鴉位置的適應(yīng)度,烏鴉位置的適應(yīng)度使用的是隨機森林模型,按空氣質(zhì)量等級分類做空氣質(zhì)量數(shù)據(jù)的多類別分類,其中空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)X,空氣質(zhì)量等級作為標(biāo)簽Y,然后擬合X 和Y,將擬合的數(shù)據(jù)與X 和Y 做三折疊交叉驗證,取驗證結(jié)果的平均值M。
(4)開始迭代,按上文所述設(shè)置AP 和FL,引入慣性權(quán)重因子w,更新烏鴉位置公式為:
其中,c_p[i]是進行跟蹤的烏鴉i 的位置,Cj和Cz為0~1之間的隨機數(shù),c_m[j]為被跟蹤的烏鴉j 食物的藏匿地點。
(5)檢查新位置的可行性,新位置處于0~1 之間,則可行,烏鴉則移動到新的位置。否則,烏鴉停留在當(dāng)前位置,不移動到新的位置。
(6)使用步驟(3)評估烏鴉的新位置,如果烏鴉的新位置比記憶更好,則烏鴉通過新位置更新其記憶,新記憶即為得到的M 值。
(7)重復(fù)步驟(4)~(6),直到達到最大迭代次數(shù)為止。
(8)輸出每只烏鴉最優(yōu)適應(yīng)度值對應(yīng)的記憶。最終得到的所有烏鴉的記憶即為經(jīng)過分析、選擇的空氣質(zhì)量數(shù)據(jù)。
LSTM 是對具有梯度消失問題的一般RNN 的一種改進。LSTM 內(nèi)部有3 個門單元,分別是遺忘門、輸入門以及輸出門,它們的功能分別是:遺忘門決定進入的部分信息是否應(yīng)該被遺忘;輸入門更新舊的單元狀態(tài),執(zhí)行實現(xiàn)之前遺忘門決定遺忘或添加的部分信息;輸出門決定要輸出單元狀態(tài)中的哪些部分。如果將3 個門單元全部設(shè)置為1,那么LSTM 就變成了一個標(biāo)準(zhǔn)的RNN 模型。LSTM 模型結(jié)構(gòu)如圖1 所示。
圖1 LSTM 結(jié)構(gòu)圖
圖1中,Xt為t 時刻的輸入,ht為t 時刻當(dāng)前單元的輸出,Ct為t 時刻的單元狀態(tài),it為t 時刻的輸入門限,Ot為t 時刻的輸出門限,為前一時刻的單元狀態(tài);模型結(jié)構(gòu)中的σ 為Sigmoid 激活函數(shù)。
深層的神經(jīng)網(wǎng)絡(luò)具有強大的非線性擬合和特征提取能力,由于本文使用的空氣質(zhì)量數(shù)據(jù)具有非線性、非平穩(wěn)的特性,選用深層的神經(jīng)網(wǎng)絡(luò)模型效果要優(yōu)于單層的神經(jīng)網(wǎng)絡(luò)模型。
在本文的方法中,選擇了3 個層次的深層LSTM。把第一層的每個時間步的輸出作為第二層的時間步的輸入,把第二層的輸出作為第三層的輸入。
近年來,許多研究都開始加入注意力機制。自注意力機制是注意力機制的特殊形式,被廣泛運用于機器翻譯等領(lǐng)域。注意力機制就是人們有選擇地將注意力集中在視覺空間的某個部分[11],以提高工作效率。然而,在除少數(shù)情況外的所有情況下,這種注意力機制都與循環(huán)網(wǎng)絡(luò)結(jié)合使用[12]。而自注意力機制是注意力機制的改進,其減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。
本文在深層LSTM 之后加入了自注意力機制,使得最終的預(yù)測更趨向于關(guān)注數(shù)據(jù)的關(guān)鍵信息,從而提高預(yù)測的精度。自注意力機制通過為相關(guān)的數(shù)據(jù)賦予一定的權(quán)值,然后把相應(yīng)數(shù)據(jù)的加權(quán)求和作為目標(biāo)數(shù)據(jù)的估計。
由于本文使用了深層的LSTM 模型,容易出現(xiàn)過擬合的問題,因此加入了在一定程度上具有正則化效果的Dropout 方法來緩解過擬合的發(fā)生。Dropout 方法的本質(zhì)是使某些神經(jīng)元以一定的概率失活。
本文選取了2020 年1 月1 日~2020 年12 月31 日 北京市的空氣質(zhì)量數(shù)據(jù)作為實驗數(shù)據(jù)。本文采用中國空氣質(zhì)量在線監(jiān)測分析平臺(http://beijingair.sinaapp.com/)中北京市的每小時空氣質(zhì)量數(shù)據(jù),其中包括AQI 和細(xì)顆粒物(Fine Particulate Matter,PM2.5)、可吸入顆粒物(Inhalable Particulate Matter,PM10)、二氧化硫(Sulfur Dioxide,SO2)、二氧化氮(Nitrogen Dioxide,NO2)、臭氧(Ozone,O3)以及一氧化碳(Carbon Monoxide,CO)這6 種大氣污染物的數(shù)據(jù)。選取其中75%的數(shù)據(jù)作為訓(xùn)練集,25%的數(shù)據(jù)作為測試集。本文使用前24 小時的北京空氣質(zhì)量數(shù)據(jù)來預(yù)測后24小時 的AQI。
本文對空氣質(zhì)量數(shù)據(jù)進行計算,得出AQI 的季節(jié)平均分別為:春57.52、夏62.36、秋55.29、冬67.18。再將其與全年平均值相除,得到相應(yīng)的季節(jié)指數(shù)。表1 顯示了各空氣質(zhì)量數(shù)據(jù)的季節(jié)平均值。表2 顯示了北京市空氣質(zhì)量數(shù)據(jù)的季節(jié)指數(shù)。其中大于100%的部分代表超出平均值,小于的部分代表低于平均值。從表2 中可以明顯看出PM2.5、PM10、SO2、CO、NO2這5 種污染物存在夏季低冬季高的特征,而O3表現(xiàn)出的特征正好相反,這是由O3本身的特性造成的。
表1 北京市2020 年各空氣質(zhì)量數(shù)據(jù)的季節(jié)平均值
表2 北京市2020 年各空氣質(zhì)量數(shù)據(jù)季節(jié)指數(shù)(%)
3.2.1 改進的BCCSA-LSTM 方法預(yù)測結(jié)果
進行季節(jié)調(diào)整后的空氣質(zhì)量數(shù)據(jù)經(jīng)由改進的BCCSA預(yù)處理之后,輸入到深層的LSTM 模型中進行學(xué)習(xí)、預(yù)測。
圖2 為本文所提方法預(yù)測的AQI 值與真實的AQI值的比較??梢钥闯?,預(yù)測曲線可以很好地擬合真實曲線,表明模型預(yù)測效果較好。
圖2 BCCSA-LSTM 方法預(yù)測的AQI 值
3.2.2 方法評價
因為對于空氣質(zhì)量數(shù)據(jù)預(yù)測方法沒有唯一的一個評價標(biāo)準(zhǔn),本文為了更加全面、準(zhǔn)確地對方法進行評價,使用了較常用的3 個評價指標(biāo),分別是平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)。
其中,MAE 代表預(yù)測值與真實值之間平均誤差的大小;RMSE 代表預(yù)測值與實際值之間的差值;R2用來反映因變量變化可靠程度的一個統(tǒng)計指標(biāo)。總之,MAE 和RMSE 兩個指標(biāo)是越小表示方法性能越好,而R2的值越接近1,表示方法精度越高。
為了驗證所提出的方法在預(yù)測方面的優(yōu)越性,本文將所提方法與Zhao 等人[13]提出的長短期記憶神經(jīng)網(wǎng)絡(luò)加全連接層(LSTM-FC)方法、門控循環(huán)單元加全連接層(GRU-FC)方法、BCCSA-LSTM 方法、Wu 等[8]提出的變分模式分解、樣本熵和LSTM(VMD-SE-LSTM)方法、Niu 等人[14]提出的基于互補集成經(jīng)驗?zāi)B(tài)分解的灰狼算法優(yōu)化的支持向量回歸(CEEMD-SVR-GWO)方法、Yan 等人[15]提出的基于主成分分析(PCA)的CEEMD-PCA-LSTM 方法以及支持向量機(SVM)方法這7 個基準(zhǔn)方法對進行季節(jié)調(diào)整后的空氣質(zhì)量數(shù)據(jù)的預(yù)測結(jié)果進行比較。其中,本文方法設(shè)置訓(xùn)練次數(shù)為2 000,批處理數(shù)量為256,步長為24,實驗結(jié)果如表3 所示。
表3 各種預(yù)測方法的預(yù)測結(jié)果
3.2.3 改進BCCSA 的運行時間
本文對BCCSA 所做的改進有利于算法尋找最優(yōu)解,達到提高收斂速度的目的。令最大迭代次數(shù)為50,所提方法與原始的BCCSA 相比,運行時間結(jié)果如表4 所示。此外,實驗是在Python 3.8.2 和TensorFlow 2.3.0 環(huán)境中進行的,該環(huán)境運行在macOS Catalina 10.15.6上,具有64 位2.30 GHz Intel Core i7 1068NG7 CPU 和16.00 GB RAM。
表4 BCCSA 與改進的BCCSA 運行時間比較
可以看出,改進的BCCSA 收斂速度提升了5.36%。
從表3 可以看出,與方法LSTM-FC、GRU-FC、BCCSALSTM、VMD-SE-LSTM、CEEMD-SVR-GWO、CEEMDPCA-LSTM 和SVM 相比,本文提出的方法在MAE、RMSE和R2這些方法評價指標(biāo)方面顯示了更好的結(jié)果。通過與傳統(tǒng)的LSTM-FC 方法相比,本文提出的方法在訓(xùn)練集和測試集上都具有更好的預(yù)測能力。
分析表3 中的數(shù)據(jù)可以得出以下結(jié)論:本文所提出的方法可以有效挖掘空氣質(zhì)量數(shù)據(jù)中隱藏的信息,進而對其進行精準(zhǔn)預(yù)測。本文所提方法與基準(zhǔn)方法中性能最好的VMD-SE-LSTM 方法相比,本文所提方法的MAE和RMSE 評估指標(biāo)都要更好,在訓(xùn)練集中,MAE 下降了約38.40%,RMSE 下降了約35.82%,R2提高了約3.93%;在測試集,MAE 下降了約23.84%,RMSE 下降了約6.46%,R2提高了約1.49%。
另外,本文所提方法與基準(zhǔn)方法中的BCCSA-LSTM相比,性能大幅提高,不論是在訓(xùn)練集還是在測試集中,評估指標(biāo)都要更加優(yōu)秀。在訓(xùn)練集中,MAE 和RMSE 分別降低了25.45%和43.19%,R2提高了4.52%;在測試集中,MAE 和RMSE 分別降低了12.09%和19.94%,R2提高了2.83%??傮w上,本文所提方法比BCCSA-LSTM 方法性能要好。
將本文提出的方法與LSTM-FC、BCCSA-LSTM、VMD-SE-LSTM、CEEMD-PCA-LSTM 相比,模型的精度得到了顯著的提高,這表明自注意力機制有助于預(yù)測空氣質(zhì)量數(shù)據(jù)。綜上所述,本文提出的改進的BCCSA 和帶有自注意力機制的LSTM 的混合深度學(xué)習(xí)方法可以更加有效地預(yù)測空氣質(zhì)量。
針對現(xiàn)有研究存在的問題,本文提出了一種基于改進BCCSA 和帶自注意力機制的深層LSTM 的空氣質(zhì)量預(yù)測方法。首先提出季節(jié)調(diào)整的預(yù)處理方法對原始空氣質(zhì)量數(shù)據(jù)進行季節(jié)性分析和消除季節(jié)因素的影響;然后創(chuàng)新性地將BCCSA 方法應(yīng)用于空氣質(zhì)量預(yù)測,并提出3種改進BCCSA 的方法,對空氣質(zhì)量數(shù)據(jù)進行進一步優(yōu)化處理,提高算法的收斂速度;最后在深層LSTM 中加入自注意力機制,以提高模型的預(yù)測精度。實驗結(jié)果表明,與7 種基準(zhǔn)方法相比,本文的方法對預(yù)測未來24 小時的空氣質(zhì)量具有更高的精度。
本文提出的方法能為空氣質(zhì)量預(yù)測以及相關(guān)防治提供一種有效的方法,使得公眾能夠得到較為準(zhǔn)確的未來24 小時的AQI 預(yù)測值。雖然本文提出的預(yù)測方法能較為有效地預(yù)測AQI,也在一定程度上提高了方法的收斂速度,但是依舊存在一些局限,并且本文只使用了AQI和空氣污染物作為實驗數(shù)據(jù),在今后的研究中,會把影響空氣質(zhì)量的氣溫、風(fēng)速等氣象因子作為輔助數(shù)據(jù),一起用來預(yù)測AQI。本文只使用了北京市的空氣質(zhì)量數(shù)據(jù),為了進一步證明所提方法的有效性,今后還會使用別的城市的空氣質(zhì)量數(shù)據(jù),以驗證方法的泛用性。