摘要:【目的】解決傳統(tǒng)大氣PM2.5濃度時(shí)序預(yù)測時(shí)精度較低問題,減少PM2.5時(shí)間序列的非線性、高噪聲、不平穩(wěn)與波動(dòng)性對預(yù)測的影響,從而更精確地預(yù)測PM2.5濃度?!痉椒ā恳?014年1月1日至2022年1月31日大連市霧霾天氣時(shí)PM2.5數(shù)據(jù)為例,提出了經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)、分類提升 (CatBoost)、自回歸綜合移動(dòng)平均模型(ARIMA)組合的混合機(jī)器學(xué)習(xí)時(shí)間序列模型,并與傳統(tǒng)自回歸模型(AR)、ARIMA,以及只加入EMD方法后的混合模型進(jìn)行比較?!窘Y(jié)果】混合模型EMD-CatBoost-ARIMA較原始序列均方根誤差(RMSE)改進(jìn)20.76%,平均絕對值誤差(MAE)改進(jìn)17.40%,希爾不等系數(shù)(TIC)改進(jìn)29.17%?!窘Y(jié)論】對于高熵值的重構(gòu)序列,EMD分解方法和CatBoost算法能夠顯著提升PM2.5時(shí)間序列模型的預(yù)測性能。相比較傳統(tǒng)時(shí)間序列模型,EMD-CatBoost-ARIMA模型對大氣PM2.5濃度預(yù)測性能較高。
關(guān)鍵詞:PM2.5濃度;經(jīng)驗(yàn)?zāi)B(tài)分解(EMD);時(shí)間序列模型;混合模型;CatBoost算法;機(jī)器學(xué)習(xí);大連市
中圖分類號:X513 文獻(xiàn)標(biāo)志碼:A開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1000-2006(2024)03-0268-07
Improved time series models based on EMD and CatBoost algorithms—taking PM2.5 prediction of Dalian City as an example
ZHAO Lingxiao1,2, LI Zhiyang3, QU Leilei4*
(1. College of Marine and Civil Engineering, Dalian Ocean University, Dalian 116023, China; 2. Department of Atmospheric and Oceanic Sciences, Fudan University, Shanghai 200438, China; 3. College of Civil Engineering, Chongqing University, Chongqing 400044, China; 4. College of Information Engineering, Dalian Ocean University, Dalian 116023, China)
Abstract:【Objective】The study aims to address the problem of low accuracy in traditional PM2.5 concentration time series prediction, and to reduce the impact of nonlinearity, high noise, instability and volatility on the prediction of PM2.5 time series, to predict PM2.5 concentration more accurately. 【Method】The haze PM2.5 data of Dalian City from January 1, 2014 to January 31, 2022 was used as an example. In this study, a hybrid machine learning time series model with the combination of empirical modal decomposition (EMD), classification boosting (CatBoost) and autoregressive integrated moving average model (ARIMA) was proposed. It was compared with the traditional autoregressive model (AR), ARIMA and the hybrid model with only the EMD method. 【Result】The hybrid model EMD-CatBoost-ARIMA improved the root mean square error (RMSE) of the original sequence by 20.76%, the mean absolute error (MAE) by 17.40%, and the theil inequality coefficient (TIC) by 29.17%. 【Conclusion】For reconstructed sequences with high entropy values, the EMD decomposition method and CatBoost algorithm can significantly improve the prediction performance of PM2.5 time series models. Compared with the traditional time series models, the EMD-CatBoost-ARIMA model has higher performance in PM2.5 concentration prediction.
Keywords:PM2.5 concentration; empirical modal decomposition(EDM); time series model; hybrid model; CatBoost algorithm; machine learning; Dalian City
PM2.5是指空氣動(dòng)力學(xué)直徑小于等于2.5 μm的顆粒物,相比PM10有更小的粒徑?,F(xiàn)階段以PM2.5為特征污染物的環(huán)境問題正威脅人們的健康。長期暴露在PM2.5超標(biāo)環(huán)境中會使人免疫力下降[1],引起心肺[2]、心血管疾病[3]等。隨著全球城市空氣污染事件數(shù)量的不斷增加[4],人們對其健康影響效應(yīng)的認(rèn)識不斷提高。
在PM2.5 監(jiān)測方面,除了使用衛(wèi)星和地面監(jiān)測數(shù)據(jù)[5]來預(yù)測短期范圍內(nèi)的PM2.5,傳統(tǒng)時(shí)間序列模型[6]目前也廣泛應(yīng)用于服務(wù)醫(yī)療衛(wèi)生[7]、監(jiān)測空氣質(zhì)量[8]等領(lǐng)域,持續(xù)為人與自然和諧相處和生態(tài)文明建設(shè)作出貢獻(xiàn)。彭斯俊等[9]針對PM2.5時(shí)間序列結(jié)合環(huán)境監(jiān)測數(shù)據(jù),應(yīng)用自回歸綜合移動(dòng)平均(ARIMA)模型預(yù)測了短期PM2.5的日平均濃度;嚴(yán)宙寧等[10]通過建立深圳市PM2.5時(shí)間序列分析的ARIMA模型,預(yù)測了深圳市大氣PM2.5濃度變化趨勢,從而為公眾健康安全出行提供了建議;謝心慶等[11]將PM2.5濃度變化劃分為穩(wěn)定部分和不穩(wěn)定部分,利用多元分析及時(shí)間序列的方法對烏魯木齊空氣質(zhì)量進(jìn)行了預(yù)測;余輝等[12]以小時(shí)尺度上PM2.5濃度數(shù)據(jù)建立統(tǒng)計(jì)預(yù)測模型,提高了預(yù)測精度;吳明暉等[13]對多模態(tài)數(shù)據(jù)中的文本數(shù)據(jù)和數(shù)值數(shù)據(jù)進(jìn)行融合,解決了傳統(tǒng)單因子方法無法充分利用時(shí)間序列相關(guān)信息導(dǎo)致預(yù)測準(zhǔn)確度較差的問題。
傳統(tǒng)時(shí)間序列模型的理論方法已經(jīng)十分成熟,但在模型預(yù)測精度方面,相比結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法的綜合模型具有明顯劣勢[14]。時(shí)間序列預(yù)測作為數(shù)學(xué)模型,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)作為技術(shù)手段,二者結(jié)合往往比單一模型性能更為優(yōu)異,因此許多學(xué)者進(jìn)行了研究,如:Wongsathan等[15]開發(fā)了ARIMA和神經(jīng)網(wǎng)絡(luò)(NNs)的混合模型,以泰國清邁省為例,調(diào)查了氣象因素對PM10的影響以及PM10與其他有毒氣體的相關(guān)性,并將該混合模型用于PM10預(yù)測,所提出的NNs-ARIMA平均誤差相較ARIMA模型降低了77%;Aladag[16]通過季節(jié)調(diào)整去除了PM10數(shù)據(jù)的趨勢和季節(jié)效應(yīng),使用ARIMA模型對土耳其埃爾祖魯姆PM10濃度進(jìn)行了準(zhǔn)確的月度預(yù)測,該方法可作為高空氣污染地區(qū)預(yù)警的參考;張棋[17]采用機(jī)器學(xué)習(xí),對中國近40年連續(xù)觀測的站點(diǎn)和格點(diǎn)數(shù)據(jù)進(jìn)行計(jì)算分析,通過尋找氣象干旱的演變規(guī)律,剖析時(shí)間序列預(yù)測算法對干旱指數(shù)的適用性,為氣象災(zāi)害預(yù)警提供了理論依據(jù)。在算法準(zhǔn)確率等方面,分類提升(CatBoost)自2017年提出后,作為比極致梯度提升(XGBoost)和輕量級梯度提升機(jī)(LightGBM)表現(xiàn)更優(yōu)秀的一種算法,被廣泛應(yīng)用于各類問題的預(yù)測[18]。Ding等[19]應(yīng)用了CatBoost重建京津冀衛(wèi)星氣溶膠光學(xué)深度(AOD)數(shù)據(jù),并進(jìn)行預(yù)測,結(jié)果表明該方法在估算AOD數(shù)據(jù)方面具有良好的性能。
本研究以2014年1月1日至2022年1月31日的大連市PM2.5數(shù)據(jù)作為研究對象,將EMD分解和CatBoost應(yīng)用于PM2.5濃度時(shí)序預(yù)測問題。首先通過EMD分解,獲得多個(gè)本征模態(tài)函數(shù)(IMF)序列;而后使用距離熵(RangeEn)[20]評估每個(gè)分解模態(tài)的有序程度,將RangeEn值相近的序列組合構(gòu)成重構(gòu)序列;最后使用AR、ARIMA和CatBoost對重構(gòu)序列分別進(jìn)行預(yù)測,分析模型的預(yù)測性能。
1 材料與方法
1.1 研究區(qū)概況
大連市地處遼東半島南端(120°58′~123°31′E,38°43′~40°12′N)。近年來,大連市致力于推進(jìn)燃煤鍋爐和工業(yè)窯爐專項(xiàng)整治,并對鋼鐵企業(yè)和燃煤電廠進(jìn)行超低排放改造,以持續(xù)降低PM2.5濃度。通過全面實(shí)施清潔供熱、散煤置換、秸稈焚燒、揚(yáng)塵治理、高污染機(jī)動(dòng)車淘汰等一系列措施,減少霧霾污染和碳排放。至2022年,大連市PM2.5濃度已經(jīng)連續(xù)達(dá)標(biāo)5 a,并保持下降趨勢。2013—2022年,PM2.5年均降幅為6.7%,累積下降46.0%,年均優(yōu)等空氣質(zhì)量率達(dá)到88.5%。
1.2 數(shù)據(jù)描述
選取2014年1月1日至2022年1月31日大連霧霾天氣時(shí)PM2.5的濃度數(shù)值作為數(shù)據(jù)集(共2 930個(gè)),統(tǒng)計(jì)分析信息見圖1。從圖1可知,研究中PM2.5的濃度范圍為0~439 μg/m3,均值為36.6 μg/m3,中位數(shù)為27 μg/m3。PM2.5序列具有季節(jié)性變化特征,表現(xiàn)為春冬高、夏秋低的趨勢。此外,近年來PM2.5濃度總體呈下降趨勢,并且暴增的情況越來越少。本研究將數(shù)據(jù)集的90%(2 637個(gè))作為訓(xùn)練集,10%(293個(gè))用作測試集,以進(jìn)行傳統(tǒng)時(shí)間序列預(yù)測和混合機(jī)器學(xué)習(xí)時(shí)間序列預(yù)測。
1.3 研究方法
1.3.1 傳統(tǒng)時(shí)間序列分析
根據(jù)時(shí)序圖1初步判斷,研究中PM2.5的濃度數(shù)值并沒有明顯的變化趨勢,這表明霧霾的時(shí)間序列可能是弱平穩(wěn)的(weakly stationary)。選擇使用ADF根(augmented Dickey-Fuller)進(jìn)一步檢驗(yàn),結(jié)果如表1所示。
設(shè)原假設(shè)H0為存在單位根,即數(shù)據(jù)不平穩(wěn),同時(shí)繪制時(shí)間序列的自相關(guān)圖(圖2),使用t時(shí)刻原始數(shù)據(jù)y(t)和一階滯后數(shù)據(jù)y(t+1)繪制散點(diǎn)圖,可以快速、直觀地檢驗(yàn)時(shí)間序列數(shù)據(jù)集是否存在自相關(guān)性。
由P值(8.93×10-7)可以看出,原假設(shè)成立的概率極低,應(yīng)該拒絕原假設(shè),經(jīng)過ADF根檢驗(yàn)可得數(shù)據(jù)平穩(wěn)。從圖2可以看出,原始數(shù)據(jù)y(t)與一階滯后數(shù)據(jù)y(t+1)的散點(diǎn)圖大致呈現(xiàn)沿對角線分布,表明數(shù)據(jù)間具有一定的相關(guān)性。相關(guān)性分析表明,PM2.5數(shù)據(jù)的觀測值與其一階滯后數(shù)值之間存在強(qiáng)正相關(guān)關(guān)系,相關(guān)系數(shù)約為0.62。但實(shí)際操作中并不列出每一階滯后量的自相關(guān)系數(shù),而是繪制出自相關(guān)函數(shù)(ACF)圖和偏自相關(guān)函數(shù)(PACF)圖(圖3)。
由于PM2.5指數(shù)具有隨季節(jié)變化的時(shí)間規(guī)律性,因此圖像結(jié)果顯示出正負(fù)交替的擺動(dòng)。為了便于觀察,設(shè)定最大滯后階數(shù)為35得到圖3b所示結(jié)果,發(fā)現(xiàn)樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)在最初的0階和1階都明顯超過2倍標(biāo)準(zhǔn)差范圍,初步判斷p和q值均為1。而后幾乎95%的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)都在2倍標(biāo)準(zhǔn)差范圍內(nèi),且衰減波動(dòng)的過程劇烈,判斷自相關(guān)和偏自相關(guān)均為截尾。因此本研究采用AR(1)、ARIMA(1,0,1)模型對序列進(jìn)行模型擬合。
1.3.2 EMD-CatBoost-ARIMA方法
為提升PM2.5序列預(yù)測的準(zhǔn)確性,提出一種基于EMD分解的預(yù)測模型。減弱了PM2.5時(shí)間序列的非線性、高噪聲、不平穩(wěn)與波動(dòng)性,減小預(yù)測難度[20]。具體實(shí)施步驟如下:
1)對PM2.5時(shí)間序列x(t)進(jìn)行3次樣條插值,連接極值點(diǎn)構(gòu)成上下包絡(luò)線P(t)和Q(t),并求出均值包絡(luò)線(t),如式(1)所示。
2)求(t)與原始序列的差值,定為本征模態(tài)函數(shù)(IMF)h1,如式(2)。
3)將輸入信號最大頻率的成分定為ci(i=1,2,…,n),可以將其從原始信號中分離,如式(3);而后將r1作為輸入繼續(xù)進(jìn)行分解。完整分解公式見式(4)。
式中:x(t)是霧霾PM2.5濃度數(shù)值的原始序列,(t)為極值點(diǎn)上下包絡(luò)的平均值;hi(t)為分解出的本征模態(tài)函數(shù)IMFi;P(t)為上包絡(luò)點(diǎn)的值;Q(t)為下包絡(luò)點(diǎn)的值;h1為本征模態(tài)函數(shù)IMF1;c1為首次輸入信號的最大頻率;r1為x(t)除去c1部分的序列;rn為分解最后剩余的殘差部分。
應(yīng)用EMD分解結(jié)果如圖4所示,采樣頻率定為1Hz。根據(jù)分解結(jié)果(圖4a)可以看出,原始PM2.5序列經(jīng)過EMD分解得到的各本征模態(tài)函數(shù)(IMF)的波形呈現(xiàn)不同的分布規(guī)律,且分解結(jié)果(圖4b)顯示各IMF分量的頻譜存在顯著差異。以上說明原始PM2.5序列信號的有效成分經(jīng)過EMD分解后被完整提取并且不存在模態(tài)混疊現(xiàn)象[21]。
為了區(qū)分不同模態(tài)的信號復(fù)雜性與自相似性,使用距離熵(RangeEn)分析其分解信號的模態(tài)(Mode)特點(diǎn)[19],而后將相近RangeEn值的IMF分量組合,實(shí)現(xiàn)信號的重構(gòu)。具體如下:IMF1、2、3的RangeEn分別為0.597 8、0.868 4、0.591 0,均在0.5以上,因此組成重構(gòu)序列Series1;IMF4、5的RangeEn值分別為0.330 0、0.150 1,均在0.1~0.5,組成重構(gòu)序列Series2;剩余的所有部分組成重構(gòu)序列Series3。
熵值反映了數(shù)據(jù)的有序程度。隨著熵值的增大,序列的混沌程度也越高。因此,首先使用ARIMA模型對高熵值序列Series1進(jìn)行預(yù)測,對于低熵值序列,則采用AR模型進(jìn)行預(yù)測。然而,傳統(tǒng)的時(shí)間序列模型對于高波動(dòng)性序列的預(yù)測精度較低。針對高熵值序列Series1,本研究采用具有良好性能的機(jī)器學(xué)習(xí)算法CatBoost[22]進(jìn)行預(yù)測,并進(jìn)行超參數(shù)調(diào)整。模型參數(shù)分別為:迭代次數(shù)為55,學(xué)習(xí)率為0.1,L2正則化項(xiàng)為1,樹的最大深度為10。對于低熵值重構(gòu)序列Series2和Series3,仍然采用AR模型和ARIMA模型進(jìn)行預(yù)測。
1.4 模型性能的評估
本研究采用均方根誤差(RMSE)、平均絕對誤差(MAE)以及希爾不等系數(shù)(TIC)3個(gè)指標(biāo)進(jìn)行模型性能的評估。其中,RMSE和MAE對序列中的極大或極小數(shù)值的誤差反應(yīng)更具敏感性。TIC能夠體現(xiàn)均方根誤差在原始序列和預(yù)測序列中的占比程度,范圍在0~1。
2 結(jié)果與分析
2.1 基于誤差評價(jià)指標(biāo)的分析
預(yù)測模型誤差指標(biāo)的計(jì)算結(jié)果見表2。根據(jù)表格可以看出,在測試集上,相較于AR模型,ARIMA模型的預(yù)測誤差較小,RMSE和TIC分別改進(jìn)了5.09%和16.42%,預(yù)測表現(xiàn)更佳。雖然ARIMA模型的MAE值略高,但是由于RMSE是通過對誤差進(jìn)行平方的累加后再開方得出,它放大了較大誤差之間的差距,受到了極端異常值的影響更大。因此,ARIMA模型能夠更好地處理極端誤差,使其在預(yù)測過程中表現(xiàn)優(yōu)于AR模型。綜上所述,單獨(dú)使用ARIMA模型和AR模型進(jìn)行預(yù)測時(shí),ARIMA更為優(yōu)秀。
加入EMD分解方法后,EMD-AR、EMD-ARIMA和EMD-ARIMA-AR 3個(gè)模型相對于原始的ARIMA和AR模型預(yù)測效果有所提升。比較分析發(fā)現(xiàn),與原始AR模型相比,這3個(gè)模型的RMSE分別改進(jìn)了16.18%、16.26%和16.27%。在對重構(gòu)序列高熵值的數(shù)據(jù)使用CatBoost進(jìn)行預(yù)測時(shí),EMD-CatBoost-AR和EMD-CatBoost-ARIMA的預(yù)測性能也有所提升。其中,EMD-CatBoost-ARIMA表現(xiàn)最佳,其RMSE為13.1353,比單個(gè)模型改進(jìn)了20.76%;MAE為9.060 8,改進(jìn)了17.40%;此外TIC改進(jìn)了29.17%。雖然EMD-CatBoost-AR的預(yù)測精度略微低于EMD-CatBoost-ARIMA,但是RMSE、MAE和TIC依舊分別改進(jìn)了20.72%、17.42%和29.09%。通過對誤差指標(biāo)的分析可以得出,EMD分解極大地提升了預(yù)測模型的精度,并且在該研究中,加入CatBoost方法能夠進(jìn)一步提高預(yù)測性能。
2.2 預(yù)測模型的穩(wěn)定性分析
預(yù)測值與實(shí)際值的對比情況如圖5所示。結(jié)果顯示,2021年4月12日至2021年10月12日間的PM2.5濃度普遍數(shù)值較小,序列波動(dòng)性也較小,7個(gè)預(yù)測模型都有較好的預(yù)測效果。而2021年10月12日至2022年1月31日間內(nèi),PM2.5濃度的數(shù)值容易出現(xiàn)陡增現(xiàn)象,而后又驟降,序列的波動(dòng)性極大。7個(gè)預(yù)測模型對于這種極大波動(dòng)性的序列段預(yù)測適應(yīng)程度均較低。但結(jié)合表2中RMSE的分析情況,EMD-CatBoost-ARIMA對于處理序列中極端異常值的預(yù)測能力最為優(yōu)異,這也是其RMSE值最低的原因。
此外通過研究預(yù)測結(jié)果的殘差來繪制泰勒圖,以評估所提出模型的穩(wěn)健性。泰勒圖用于評價(jià)模型的精度,常見的泰勒圖精度指標(biāo)有相關(guān)系數(shù)R,標(biāo)準(zhǔn)差(SD)以及中心模型均方根差E′[23]。E′的計(jì)算公式為:
式中:Xi和X′i分別是時(shí)間序列的真實(shí)值和預(yù)測值;i為第i期數(shù)據(jù);n為測試集數(shù)據(jù)的個(gè)數(shù)。
PM2.5預(yù)測結(jié)果和實(shí)測結(jié)果對比見圖5c,其中彩色散點(diǎn)代表的是模型,藍(lán)色輻射線代表相關(guān)系數(shù)(R),灰色實(shí)線代表標(biāo)準(zhǔn)差,綠色虛線代表中心模型均方根誤差。泰勒圖的優(yōu)點(diǎn)在于使用3個(gè)指標(biāo)展示了模型精度的情況。此外,殘差圖可以反映預(yù)測模型在整個(gè)預(yù)測過程中的殘差變化,這對于評價(jià)模型的穩(wěn)定性非常重要。
本研究選擇了3類模型中最具代表性的ARIMA、EMD-ARIMA-AR和EMD-CatBoost-ARIMA模型,并繪制了它們的殘差圖(圖6)。
圖5c和圖6的結(jié)果顯示,通過加入EMD分解再混合CatBoost算法,模型的預(yù)測性能指標(biāo)呈現(xiàn)下降趨勢。EMD-CatBoost-AR和EMD-CatBoost-ARIMA預(yù)測效果優(yōu)于EMD-AR、EMD-ARIMA和EMD-ARIMA-AR,更優(yōu)于AR和ARIMA。圖6結(jié)果顯示,傳統(tǒng)時(shí)間序列模型難以處理PM2.5序列的高波動(dòng)性,相關(guān)系數(shù)不到0.6。而混合機(jī)器學(xué)習(xí)時(shí)間序列模型EMD-CatBoost-ARIMA具有良好的穩(wěn)定性,相比傳統(tǒng)時(shí)間序列模型,相關(guān)系數(shù)提升25%左右,標(biāo)準(zhǔn)差(SD)最接近原始序列,中心模型均方根差E′最小。EMD分解和CatBoost算法的加入能對10月12日之后的PM2.5序列真實(shí)值的突變實(shí)現(xiàn)更精準(zhǔn)擬合,同時(shí)EMD-CatBoost-ARIMA模型的殘差值仍然最小,充分表明了新方法的穩(wěn)定性、精確性和優(yōu)異性。
3 結(jié) 論
本研究提出一種新型混合機(jī)器學(xué)習(xí)時(shí)間序列模型EMD-CatBoost-ARIMA來改進(jìn)傳統(tǒng)時(shí)間序列預(yù)測模型對于預(yù)測高波動(dòng)性序列的不足。主要結(jié)論如下:
1)比較7個(gè)預(yù)測模型的PM2.5序列預(yù)測值與實(shí)際值,并計(jì)算誤差指標(biāo)RMSE、MAE和TIC來分析預(yù)測結(jié)果的優(yōu)劣性。結(jié)果顯示EMD-CatBoost-ARIMA模型較傳統(tǒng)時(shí)間序列模型RMSE改進(jìn)20.76%、MAE改進(jìn)17.40%、TIC改進(jìn)29.17%,較好地改進(jìn)了傳統(tǒng)時(shí)間序列模型的預(yù)測性能。由7種模型預(yù)測結(jié)果與實(shí)際值的對比線圖可以看出,EMD分解和CatBoost算法的加入能對2021年10月12日之后的PM2.5序列真實(shí)值的突變實(shí)現(xiàn)更精準(zhǔn)擬合。即新方法對于無序程度高、波動(dòng)性大的原始序列比單一時(shí)間序列模型擁有更好的預(yù)測性。
2)通過對泰勒圖和預(yù)測模型誤差指標(biāo)柱狀圖的分析,新型混合機(jī)器學(xué)習(xí)時(shí)間序列模型EMD-CatBoost-AR和EMD-CatBoost-ARIMA預(yù)測效果優(yōu)于EMD-AR、EMD-ARIMA和EMD-ARIMA-AR,更優(yōu)于AR和ARIMA模型。相關(guān)系數(shù)提升25%左右,標(biāo)準(zhǔn)差SD最接近原始序列,中心模型均方根差E′最小。對比其他相關(guān)研究,EMD-CatBoost-ARIMA模型較其他時(shí)間序列預(yù)測模型具有更好的擬合優(yōu)度。
綜上,EMD-CatBoost-ARIMA模型能夠更準(zhǔn)確地預(yù)測PM2.5序列,可以為生產(chǎn)生活、政府決策等方面提供技術(shù)參考。另外,本次研究只對傳統(tǒng)時(shí)間序列模型進(jìn)行改進(jìn),在未來的工作中可以使用對波動(dòng)性序列預(yù)測適應(yīng)性更強(qiáng)的模型,并附加一些外部影響因素,如二氧化硫指數(shù)、二氧化氮指數(shù)和該地區(qū)工業(yè)廢氣的排放量等,從而提高預(yù)測性能。
參考文獻(xiàn)(reference):
[1]World health organization.Ambient air pollution:a global assessment of exposure and burden of disease [M].Geneva:World Health Organization, 2016.
[2]TAO R J,CAO W J,LI M H,et al.PM2.5 compromises antiviral immunity in influenza infection by inhibiting activation of NLRP3 inflammasome and expression of interferon-Β[J].Mol Immunol,2020,125:178-186.DOI: 10.1016/j.molimm.2020.07.001.
[3]DE MARCO A,AMOATEY P,KHANIABADI Y O,et al.Mortality and morbidity for cardiopulmonary diseases attributed to PM2.5 exposure in the metropolis of Rome,Italy[J].Eur J Intern Med,2018,57:49-57.DOI: 10.1016/j.ejim.2018.07.027.
[4]GUO L C,LV Z L,MA W J,et al.Contribution of heavy metals in PM2.5 to cardiovascular disease mortality risk,a case study in Guangzhou,China[J].Chemosphere,2022,297:134102.DOI: 10.1016/j.chemosphere.2022.134102.
[5]施婷婷, 王帥, 楊立娟, 等. 中國華東地區(qū)PM2.5濃度時(shí)空變化及與景觀格局關(guān)聯(lián)研究[J]. 遙感技術(shù)與應(yīng)用, 2024, 39(2): 435-446. SHI T T, WANG S, YANG L J, et al. The spatial-temporal change of PM2.5 concentration and its relationship with landscape pattern in East China[J]. Remote Sensing Technology and Application, 2024, 39(2): 435-446.DOI:10.11873/j.issn.1004-0323.2024.2.0435.
[6]汪偉舵,吳濤濤,張子振.基于ARIMA模型的杭州市PM2.5預(yù)測[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2018,34(3):49-55.WANG W D,WU T T,ZHANG Z Z.Forecast of PM2.5 in Hangzhou based on ARIMA model[J].Nat Sci J Harbin Norm Univ,2018,34(3):49-55.DOI: 10.3969/j.issn.1000-5617.2018.03.009.
[7]CHYON F A,SUMAN M N H,F(xiàn)AHIM M R I,et al.Time series analysis and predicting COVID-19 affected patients by ARIMA model using machine learning[J].J Virol Methods,2022,301:114433.DOI: 10.1016/j.jviromet.2021.114433.
[8]楊茜雯,朱萌.基于ARIMA模型對揚(yáng)州市PM2.5的分析和預(yù)測[J].黑龍江環(huán)境通報(bào),2022,35(1):35-37,40.YANG Q W,ZHU M.Analysis and prediction of PM2.5 in Yangzhou based on ARIMA model[J].Heilongjiang Environ J,2022,35(1):35-37,40.DOI: 10.3969/j.issn.1674-263X.2022.01.012.
[9]彭斯俊, 沈加超,朱雪.基于ARIMA模型的PM2.5預(yù)測 [J].安全與環(huán)境工程, 2014, 21(6): 125-128. PENG S J, SHEN J C, ZHU X,et al.Forecast of PM2.5 based on the ARIMA model[J]. Safety and Environ Engine, 2014, 21(6): 125-128. DOI: 10.13578/j.cnki.issn.1671-1556.2014.06.023.
[10]嚴(yán)宙寧,牟敬鋒,趙星,等.基于ARIMA模型的深圳市大氣PM2.5濃度時(shí)間序列預(yù)測分析[J].現(xiàn)代預(yù)防醫(yī)學(xué),2018,45(2):220-223,242.YAN Z N,MOU J F,ZHAO X,et al.The time series prediction of PM2.5 in Shenzhen based on ARIMA model[J].Mod Prev Med,2018,45(2):220-223,242.
[11]謝心慶,鄭薇,開璇,等.基于時(shí)間序列和多元方法的烏魯木齊PM2.5濃度分析[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,38(4):595-601.XIE X Q,ZHENG W,KAI X,et al.An analysis of PM2.5 concentration based on time sequence and multivariate methods in Urumqi City[J].J Yunnan Univ (Nat Sci Ed),2016,38(4):595-601.DOI: 10.7540/j.ynu.20150789.
[12]余輝,袁晶,于旭耀,等.基于ARMAX的PM2.5小時(shí)濃度跟蹤預(yù)測模型[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2017,50(1):105-111.YU H,YUAN J,YU X Y,et al.Tracking prediction model for PM2.5 hourly concentration based on ARMAX[J].J Tianjin Univ (Sci Technol),2017,50(1):105-111.DOI: 10.11784/tdxbz201504033.
[13]吳明暉,張廣潔,金蒼宏.基于多模態(tài)信息融合的時(shí)間序列預(yù)測模型[J].計(jì)算機(jī)應(yīng)用,2022,42(8):2326-2332.WU M H,ZHANG G J,JIN C H.Time series prediction model based on multimodal information fusion[J].J Comput Appl,2022,42(8):2326-2332.DOI: 10.11772/j.issn.1001-9081.2021061053.
[14]何澤森.移動(dòng)APP日活躍用戶量預(yù)測研究[D].杭州:浙江工商大學(xué),2018.HE Z S.Research on forecasting the mobile APP daily active user[D].Hangzhou:Zhejiang Gongshang University,2018.
[15]WONGSATHAN R,CHANKHAM S.Improvement on PM-10 forecast by using hybrid ARIMAX and neural networks model for the summer season in Chiang Mai[J].Procedia Comput Sci,2016,86:277-280.DOI: 10.1016/j.procs.2016.05.062.
[16]ALADAG E.Forecasting of particulate matter with a hybrid ARIMA model based on wavelet transformation and seasonal adjustment[J].Urban Clim,2021,39:100930.DOI: 10.1016/j.uclim.2021.100930.
[17]張棋.基于機(jī)器學(xué)習(xí)的中國氣象干旱時(shí)空預(yù)測研究[D].鄭州:華北水利水電大學(xué),2021.ZHANG Q.Study of meteorological drought spatiotemporal forecast methods in China based on machine learning[D].Zhengzhou:North China University of Water Resources and Electric Power,2021.
[18]LU C G,ZHANG S A,XUE D,et al.Improved estimation of coalbed methane content using the revised estimate of depth and CatBoost algorithm:a case study from southern Sichuan basin,China[J].Comput Geosci,2022,158:104973.DOI: 10.1016/j.cageo.2021.104973.
[19]DING Y,CHEN Z Q,LU W F,et al.A CatBoost approach with wavelet decomposition to improve satellite-derived high-resolution PM2.5 estimates in Beijing-Tianjin-Hebei[J].Atmos Environ,2021,249:118212.DOI: 10.1016/j.atmosenv.2021.118212.
[20]OMIDVARNIA A,MESBAH M,PEDERSEN M,et al.Range entropy:a bridge between signal complexity and self-similarity[J].Entropy (Basel),2018,20(12):962.DOI: 10.3390/e20120962.
[21]王涯鑫,李捷輝,王?。状?柴油雙燃料發(fā)動(dòng)機(jī)甲醇泄漏故障預(yù)診斷研究[J].車用發(fā)動(dòng)機(jī),2022(1):86-92.WANG Y X,LI J H,WANG J.Pre-diagnosis of methanol leakage fault for methanol-diesel dual fuel engine[J].Veh Engine,2022(1):86-92.DOI: 10.3969/j.issn.1001-2222.2022.01.014.
[22]ZHENG J M,HU M X,WANG C H,et al.Spatial patterns of residents’ daily activity space and its influencing factors based on the CatBoost model:a case study of Nanjing,China[J].Front Archit Res,2022,11(6):1193-1204.DOI: 10.1016/j.foar.2022.04.003.
[23]TAYLOR K E.Summarizing multiple aspects of model performance in a single diagram[J].J Geophys Res,2001,106(D7):7183-7192.DOI: 10.1029/2000jd900719.
(責(zé)任編輯 孟苗婧 鄭琰燚)