基于混合模型的PM2.5日濃度預(yù)測(cè)

2019-03-28 05:50薛惠鋒張文宇

統(tǒng)計(jì)與決策 2019年5期

李棟，薛惠鋒，張文宇,3，方銘

（1.西安郵電大學(xué)a.經(jīng)濟(jì)與管理學(xué)院；b.研究生院，西安 710061；2.西北工業(yè)大學(xué) 自動(dòng)化學(xué)院，西安 710072；3.中國(guó)航天系統(tǒng)科學(xué)與工程研究院，北京 100048）

0 引言

近年來(lái)，隨著中國(guó)城市化、工業(yè)化進(jìn)程的不斷加快，空氣污染問(wèn)題也愈發(fā)嚴(yán)重，成為公眾關(guān)注的社會(huì)焦點(diǎn)問(wèn)題之一。PM2.5作為空氣污染的主要組成成分，是指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量小于等于2.5um的顆粒物[1]。經(jīng)研究發(fā)現(xiàn)，PM2.5已經(jīng)是當(dāng)前影響人類生存環(huán)境[1-3]和人體健康[4]的最主要污染物之一。PM2.5中含有大量的有毒有害物質(zhì)，具有高活性、停留時(shí)間長(zhǎng)、運(yùn)輸距離遠(yuǎn)的特性。研究表明，長(zhǎng)期暴露在含有較高濃度PM2.5環(huán)境中的人，將增加患心血管[5]和肺部疾病[6]的概率。因此，及時(shí)并準(zhǔn)確地預(yù)警PM2.5濃度，對(duì)于評(píng)估城市空氣質(zhì)量，幫助人們合理安排出行具有指導(dǎo)意義，同時(shí)能為政府治理PM2.5污染的提供依據(jù)。

為了準(zhǔn)確預(yù)測(cè)PM2.5的日均濃度，本文提出了一個(gè)基于自回歸分布滯后模型（ARDL）、果蠅優(yōu)化算法、核極限學(xué)習(xí)機(jī)的PM2.5日均濃度混合預(yù)測(cè)模型。為了驗(yàn)證混合模型的有效性，選用了2016年1月1日至2017年5月31日陜西省關(guān)中地區(qū)五地市（西安、寶雞、咸陽(yáng)、渭南和銅川）的PM2.5、PM10、CO等空氣污染物、以及相關(guān)氣象因子的歷史數(shù)據(jù)，從日維度進(jìn)行了PM2.5濃度預(yù)測(cè)，預(yù)測(cè)結(jié)果顯示混合模型具有良好的預(yù)測(cè)能力，可為陜西省關(guān)中地區(qū)開(kāi)展空氣污染預(yù)警和城市綜合管理提供理論支持和決策依據(jù)。

1 材料與方法

1.1 研究區(qū)域

關(guān)中又稱為關(guān)中平原，它位于陜西中部，海拔在323～800米之間，東西長(zhǎng)約350公里，面積約為3.6萬(wàn)平方公里，是中國(guó)四大平原之一。關(guān)中平原介于橫貫陜西的秦嶺和渭北北山山系之間，南北寬窄不一，東部最寬達(dá)100公里，在西安附近時(shí)南北寬度縮為75公里，至寶雞市西部逐漸閉合成峽谷，這種東寬西窄，周邊高平原低的地形條件不利于污染物擴(kuò)散。隨著以西安為中心的關(guān)中地區(qū)工業(yè)化和城市化進(jìn)程的加速發(fā)展，人為活動(dòng)日益頻繁造成污染物排放量的大幅增加，關(guān)中地區(qū)空氣質(zhì)量日趨惡化。根據(jù)2016年全國(guó)霧霾城市排名顯示，關(guān)中五地市PM2.5日均濃度均排在前70名，其中西安排名最高，位于第34位，銅川排名最低位于63位，關(guān)中地區(qū)已經(jīng)成為中國(guó)區(qū)域性大氣污染較為嚴(yán)重的區(qū)域之一。

1.2 研究數(shù)據(jù)

為了加強(qiáng)對(duì)關(guān)中地區(qū)PM2.5等污染物的監(jiān)測(cè)和治理，為居民提供實(shí)時(shí)的污染狀況信息，陜西省環(huán)保廳在關(guān)中地區(qū)共設(shè)置70個(gè)監(jiān)測(cè)點(diǎn)，其中西安有18個(gè)監(jiān)測(cè)點(diǎn)、咸陽(yáng)有15個(gè)監(jiān)測(cè)點(diǎn)、寶雞有17個(gè)監(jiān)測(cè)點(diǎn)、銅川有7個(gè)監(jiān)測(cè)點(diǎn)、渭南有13個(gè)監(jiān)測(cè)點(diǎn)，涵蓋了關(guān)中地區(qū)中各類型區(qū)域，這些監(jiān)測(cè)點(diǎn)能夠?qū)崟r(shí)監(jiān)測(cè)各種污染物的濃度數(shù)據(jù)，通過(guò)陜西省環(huán)保廳網(wǎng)站進(jìn)行公布。本文中涉及的各市污染物數(shù)據(jù)均來(lái)自該網(wǎng)，并進(jìn)行了后期整理。PM2.5預(yù)測(cè)研究中除了需要空氣中的各種污染物數(shù)據(jù)外，還需要溫度、濕度、風(fēng)速等各種氣象因子數(shù)據(jù)，這部分?jǐn)?shù)據(jù)則是通過(guò)陜西省氣象局網(wǎng)站獲取并進(jìn)行相應(yīng)整理。

1.3 研究方法

1.3.1 相關(guān)分析與因子定階

相關(guān)分析（CA）是研究PM2.5與其他污染物及氣息因子之間是否存在某種依存關(guān)系，測(cè)度各因子之間關(guān)系密切程度的一種統(tǒng)計(jì)方法。由于收集到的污染物種類及氣象因子較多，如全部引入預(yù)測(cè)模型，則預(yù)測(cè)模型勢(shì)必受到非必要因素的影響，增加預(yù)測(cè)模型復(fù)雜度。因此，需要通過(guò)相關(guān)分析識(shí)別哪些因素與PM2.5濃度相關(guān)性較高，從而將這部分因素從眾多因素中篩選出來(lái)，作為預(yù)測(cè)模型的輸入。

在預(yù)測(cè)模型中，不僅要明確PM2.5的影響因子有哪些，還需要明確這些影響因子與PM2.5之間的滯后影響階數(shù)。為了解決這個(gè)問(wèn)題，本文引入自回歸分布滯后模型來(lái)識(shí)別和確定各影響因子滯后階數(shù)。

自回歸分布滯后模型（ARDL）是一種較新的協(xié)整檢驗(yàn)方法，其原理是利用邊界檢驗(yàn)法確定變量間是否存在長(zhǎng)期穩(wěn)定的關(guān)系，若存在協(xié)整關(guān)系，則可進(jìn)一步估計(jì)變量間的相關(guān)系數(shù)[7]。區(qū)別于傳統(tǒng)的協(xié)整檢驗(yàn)方法，ARDL模型最大的優(yōu)勢(shì)是其對(duì)變量平穩(wěn)性要求較為寬松，只要求變量的單整階數(shù)均不超過(guò)1，即1（0）序列、1（1）序列或1（0）、1（1）混合序列均可使用該模型進(jìn)行檢驗(yàn)。除此之外，ARDL模型還具備小樣本適用性，解釋變量為內(nèi)生變量的適用性等特點(diǎn)。自回歸分布滯后模型的一般形式如下：

1.3.2 KELM算法

極限學(xué)習(xí)機(jī)（ELM）[8]是一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的快速學(xué)習(xí)方法。該方法只需指定隱層節(jié)點(diǎn)數(shù)，即可通過(guò)求解線性方程組得到極小2-范數(shù)最小二乘解，并將該解作為隱層輸出權(quán)值。ELM的學(xué)習(xí)過(guò)程只有一次，相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，ELM的網(wǎng)絡(luò)泛化能力和學(xué)習(xí)速度得到明顯提高。

核極限學(xué)習(xí)機(jī)（KELM）是在極限學(xué)習(xí)機(jī)（ELM）的基礎(chǔ)上提出了基于核函數(shù)的極限學(xué)習(xí)機(jī)，該方法將SVM中核函數(shù)的思想運(yùn)用到ELM中。由于支持向量機(jī)（SVM）中的核函數(shù)映射?（x）與ELM中的隱含層節(jié)點(diǎn)映射h（x）的具有一定的相似性，Huang（2012）[9]提出將ELM的h（x）替換為支持向量機(jī)的核函數(shù)映射?（x），構(gòu)建核極限學(xué)習(xí)機(jī)（KELM）算法，該算法解決了ELM需要確定隱含層個(gè)數(shù)的問(wèn)題，且具有更好的泛化性能。

1.3.3 果蠅優(yōu)化算法

已有的研究成果顯示KELM的擬合精度和泛化能力受到參數(shù)的影響。因此，需要采用適合的優(yōu)化算法來(lái)對(duì)其核參數(shù)進(jìn)行尋優(yōu)。目前在KELM的參數(shù)尋優(yōu)中主要使用的有遺傳算法[10]和粒子群優(yōu)化算法[11]，這些方法雖然存在可以找到最優(yōu)參數(shù)的可能性，但仍存在迭代速率慢，易陷入局部最優(yōu)的問(wèn)題。果蠅優(yōu)化算法（FFOA）[12]是依據(jù)果蠅覓食行為設(shè)計(jì)出的一種全局優(yōu)化算法。相較于粒子群、魚(yú)群等群體智能優(yōu)化算法，F(xiàn)FOA具有參數(shù)設(shè)置少、運(yùn)算速度快且易于代碼實(shí)現(xiàn)等優(yōu)點(diǎn)。因此，本文采用FFOA自動(dòng)搜索核極限學(xué)習(xí)機(jī)核參數(shù)，以此建立PM2.5濃度預(yù)測(cè)模型。

1.3.4 混合預(yù)測(cè)模型

鑒于PM2.5濃度預(yù)測(cè)的復(fù)雜性，本文將前面介紹的幾種方法進(jìn)行混合提出了PM2.5混合預(yù)測(cè)模型。該模型首先通過(guò)相關(guān)性分析識(shí)別PM2.5與其他污染因子以及氣象因子之間的相互聯(lián)系，然后通過(guò)ARDL模型分析識(shí)別出PM2.5與各因子之間是否存在長(zhǎng)期穩(wěn)定關(guān)系，并確定各因子的滯后影響階數(shù)。通過(guò)相關(guān)性分析以及ARDL模型就可以識(shí)別PM2.5與自身以及各因子存在的各種關(guān)系，進(jìn)而明確未來(lái)預(yù)測(cè)方法的輸入向量。具體的預(yù)測(cè)方法選擇上，本文通過(guò)對(duì)比選擇了KELM作為預(yù)測(cè)算法，由于KELM的泛化能力受到核參數(shù)的影響，因此本文引入果蠅優(yōu)化算法使用對(duì)其核參數(shù)進(jìn)行尋優(yōu)，從而最終建立PM2.5混合預(yù)測(cè)模型。具體建模具體步驟如下：

（1）數(shù)據(jù)預(yù)處理。對(duì)收集到的PM2.5、SO2、NO等空氣污染物以及相關(guān)氣象因子時(shí)間序列數(shù)據(jù)進(jìn)行缺失值填充。

（2）因子相關(guān)性分析。對(duì)PM2.5、SO2、NO等空氣污染物以及最高氣溫、最低氣溫等氣象因子數(shù)據(jù)進(jìn)行相關(guān)分析，識(shí)別出與PM2.5濃度具有顯著相關(guān)性的因子。

（3）確定PM2.5相關(guān)因子滯后階數(shù)。利用ARDL模型檢測(cè)PM2.5與自身及相關(guān)因子之間存在的長(zhǎng)期關(guān)系，確定各因子最大滯后階數(shù)ti（1＜=i＜=p+1）,p為識(shí)別出的與PM2.5顯著相關(guān)的因子個(gè)數(shù)，由于PM2.5自身存在滯后相關(guān)性的可能，因此i的最大值為p+1。

（4）數(shù)據(jù)重構(gòu)。根據(jù)各影響因子最大滯后階數(shù)對(duì)數(shù)據(jù)進(jìn)行重構(gòu)，重構(gòu)后的數(shù)據(jù)將作為KELM預(yù)測(cè)算法的輸入向量。重構(gòu)結(jié)果如式（2）所示，式中X1（-1）指與PM2.5具有顯著相關(guān)性的第1個(gè)因子延遲1階的數(shù)據(jù)。

（5）動(dòng)態(tài)生成訓(xùn)練數(shù)據(jù)。本文模型是在線預(yù)測(cè)模型，即該模型會(huì)動(dòng)態(tài)更新訓(xùn)練數(shù)據(jù)。若指定預(yù)測(cè)t時(shí)刻的PM2.5濃度，則模型會(huì)自動(dòng)將t-1時(shí)刻之前的數(shù)據(jù)（含t-1時(shí)刻）作為訓(xùn)練數(shù)據(jù)。當(dāng)預(yù)測(cè)時(shí)間更新為t+1時(shí)刻時(shí)，則模型自動(dòng)將t時(shí)刻的各指標(biāo)數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)中。

（6）構(gòu)建KELM初始預(yù)測(cè)模型。首先對(duì)重構(gòu)數(shù)據(jù)集XR、Y進(jìn)行歸一化處理，得到歸一化后數(shù)據(jù)集。接著建立單隱層神經(jīng)網(wǎng)絡(luò)，輸入數(shù)據(jù)為，輸出數(shù)據(jù)為Y，使用KELM算法建立初始預(yù)測(cè)模型。

（7）KELM核參數(shù)優(yōu)化。

①根據(jù)核參數(shù)個(gè)數(shù)確定果蠅群搜索食物的空間維度，若為2個(gè)參數(shù)，則果蠅在2維空間中搜索食物；若為3個(gè)參數(shù)，則果蠅在3維空間搜索食物。

②初始化果蠅群中各果蠅位置，或?qū)⒐壢杭性诋?dāng)前最佳位置。

③果蠅群在搜索空間中自由搜素食物，每個(gè)果蠅飛翔后的位置坐標(biāo)即為KELM的核參數(shù)的值。根據(jù)這些核參數(shù)值使用KELM計(jì)算訓(xùn)練集的訓(xùn)練精度，計(jì)算結(jié)果即為該果蠅的味道濃度（適應(yīng)度值）。

④對(duì)所有果蠅的適應(yīng)度值由小到大排序，找到最佳果蠅及其位置坐標(biāo)。

⑤判斷是否達(dá)到優(yōu)化目標(biāo)，若達(dá)到則跳轉(zhuǎn)下一步。否則，繼續(xù)判斷是否達(dá)到最大優(yōu)化次數(shù)，若達(dá)到則跳轉(zhuǎn)至下一步，若未達(dá)到則跳轉(zhuǎn)至步驟②繼續(xù)優(yōu)化。

（8）KELM預(yù)測(cè)。依據(jù)核參數(shù)優(yōu)化結(jié)果建立KELM預(yù)測(cè)模型，依據(jù)歸一化之后的相空間數(shù)據(jù)XR（t）預(yù)測(cè)t時(shí)刻的Y′（t），并將預(yù)測(cè)結(jié)果反歸一化。

（9）預(yù)測(cè)時(shí)間更新。若要繼續(xù)預(yù)測(cè)時(shí)間t+1的PM2.5濃度值，則更新預(yù)測(cè)時(shí)間為t+1，并跳轉(zhuǎn)至步驟（5）更新訓(xùn)練集，然后繼續(xù)預(yù)測(cè)。

1.4 評(píng)價(jià)指標(biāo)

為了衡量PM2.5混合預(yù)測(cè)模型的穩(wěn)定性和適應(yīng)性，選擇一些具有代表性的指標(biāo)對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)，具體指標(biāo)有：平均絕對(duì)百分比誤差（MAPE）、均方根誤差（RMSE）以及可決系數(shù)R2。平均絕對(duì)百分比誤差能夠避免平均百分比誤差相比正負(fù)相抵的情況，可以更準(zhǔn)確地反映預(yù)測(cè)值誤差的實(shí)際情況。均方根誤差對(duì)異常大的誤差反應(yīng)較為靈敏，能夠較好地反映模型的預(yù)測(cè)精度。擬合優(yōu)度R2能夠表達(dá)混合預(yù)測(cè)模型整體的擬合情況，當(dāng)R2接近1時(shí)，表明預(yù)測(cè)值對(duì)實(shí)際值的擬合程度好，同時(shí)說(shuō)明預(yù)測(cè)模型的性能較高。假設(shè)Ti為實(shí)際觀察值，Pi為預(yù)測(cè)值，各指標(biāo)定義如下：

2 實(shí)例驗(yàn)證

2.1 影響因子初步分析與數(shù)據(jù)收集

通過(guò)對(duì)已有研究成果進(jìn)行分析后發(fā)現(xiàn)，影響PM2.5濃度的因素主要源于三個(gè)方面：直接生成、間接生成以及氣象因素對(duì)PM2.5的凈化衰減。其中，直接生成主要包括燃煤、汽車尾氣、工業(yè)廢氣等含有的PM2.5固態(tài)污染物；間接生成主要是空氣中的污染物通過(guò)復(fù)雜化學(xué)反應(yīng)形成的PM2.5固態(tài)污染物；PM2.5的凈化衰減則是通過(guò)自身的擴(kuò)散以及外界氣流、降雨等方式來(lái)實(shí)現(xiàn)PM2.5濃度下降。基于以上分析并考慮到數(shù)據(jù)的可獲得性，本文收集了PM2.5（μg/m3）、PM10（μg/m3）、SO2（μg/m3）、CO（μg/m3）、O3（μg/m3）、NO2（μg/m3）、RH（相對(duì)濕度%）、WS（風(fēng)速m/s）、T_Low（最低溫度oC）、T_high（最高溫度oC）等10個(gè)因子數(shù)據(jù)，這些數(shù)據(jù)開(kāi)始時(shí)間為2016年1月1日，結(jié)束時(shí)間為2017年5月31日，共計(jì)517組。

2.2 數(shù)據(jù)預(yù)處理

在數(shù)據(jù)收集完成之后，還無(wú)法直接使用，原因是數(shù)據(jù)集中可能存在一些異常數(shù)據(jù)，需要對(duì)其進(jìn)行處理。本文數(shù)據(jù)預(yù)處理的對(duì)象主要是針對(duì)缺失值。在污染物濃度和氣象因子監(jiān)測(cè)過(guò)程中，由于監(jiān)測(cè)設(shè)備故障或者網(wǎng)絡(luò)傳輸鏈路故障可能會(huì)造成監(jiān)測(cè)數(shù)據(jù)的缺失，主要表現(xiàn)為數(shù)據(jù)斷檔或出現(xiàn)NULL值。數(shù)據(jù)缺失將破壞時(shí)間序列的連續(xù)性，進(jìn)而影響預(yù)測(cè)模型的精度。因此，在建模過(guò)程中，首先要對(duì)缺失數(shù)據(jù)采用插值等方法進(jìn)行數(shù)據(jù)的補(bǔ)足。本文主要采用多點(diǎn)三次樣條插值等方法補(bǔ)足缺失數(shù)據(jù)。

2.3 預(yù)測(cè)因子篩選

KELM預(yù)測(cè)模型能夠通過(guò)核函數(shù)很好地表示輸入向量與預(yù)測(cè)目標(biāo)之間的高維非線性關(guān)系，而合適的高維輸入向量將有助于準(zhǔn)確地描述信息特征，表達(dá)數(shù)據(jù)含義，因此KELM模型的預(yù)測(cè)能力在很大程度上依賴于輸入向量的選擇。

由于可收集的污染物和氣象因子種類較多，若全部引人會(huì)導(dǎo)致KELM預(yù)測(cè)模型輸入層維度過(guò)高，增加預(yù)測(cè)模型的復(fù)雜度。為此，本文借鑒文獻(xiàn)[13]的數(shù)據(jù)處理方法，通過(guò)相關(guān)性分析，識(shí)別出與PM2.5存在顯著相關(guān)的因子。通過(guò)將PM2.5與PM10等因子數(shù)據(jù)進(jìn)行相關(guān)性分析，求其相關(guān)系數(shù)，并查閱相關(guān)系數(shù)顯著性檢驗(yàn)表，找出與PM2.5顯著相關(guān)的影響因子。通過(guò)對(duì)各因子時(shí)間序列數(shù)據(jù)的分布發(fā)現(xiàn)，各序列均非正態(tài)分布，因此選擇計(jì)算各因子之間的Spearman相關(guān)系數(shù)，各地計(jì)算結(jié)果如表1所示。

表1 相關(guān)性分析

通過(guò)Spearman相關(guān)系數(shù)計(jì)算之后就可以得到影響當(dāng)?shù)豍M2.5濃度的主要因素有哪些。對(duì)各污染物數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)，PM2.5與CO、PM10、SO2均為化石燃料燃燒的產(chǎn)物，而關(guān)中地區(qū)地處北方，在每年11月至3月之間會(huì)有供暖期，這期間會(huì)燃燒大量的化石燃料，因此它們均表現(xiàn)出春、冬季濃度較高、夏秋季濃度較低的特征，而這一點(diǎn)在表1中也得到了驗(yàn)證，PM2.5與CO、PM10、SO2它們之間存在明顯的正相關(guān)性。SO2、NO2經(jīng)二次化學(xué)反應(yīng)可以形成硫酸鹽、硝酸鹽微粒，它們是PM2.5主要構(gòu)成成分，因此SO2、NO2與PM2.5濃度也呈現(xiàn)出較強(qiáng)的正相關(guān)性；O3主要是在紫外線輻射作用下通過(guò)光化學(xué)反應(yīng)產(chǎn)生，而PM2.5顆粒物濃度較高時(shí)，其消光作用散射了太陽(yáng)輻射，因此O3與PM2.5呈現(xiàn)一定的負(fù)相關(guān)性[8]；溫度會(huì)影響氣體流動(dòng)速度，當(dāng)溫度較高時(shí)，空氣會(huì)加速流動(dòng)，將有利于將地表的PM2.5顆粒擴(kuò)散，降低地表的PM2.5濃度，因此PM2.5與T_high與T_low存在明顯的負(fù)相關(guān)性。

2.4 影響因子定階

在進(jìn)行PM2.5預(yù)測(cè)時(shí)，不僅要識(shí)別與PM2.5有顯著相關(guān)關(guān)系的影響因素有哪些，還要明確各影響因素對(duì)PM2.5影響的時(shí)效性。需要根據(jù)各輸人變量與輸出變量的互相關(guān)系數(shù)確定模型中各輸人變量的延遲階數(shù)。本文這里借鑒ARDL模型中確定各影響因子滯后階數(shù)的方法，通過(guò)該方法識(shí)別出PM2.5與自身及其他相關(guān)因子之間存在最大滯后階數(shù)。經(jīng)ARDL模型識(shí)別結(jié)果如表2所示。

表2 滯后階數(shù)

通過(guò)檢測(cè)結(jié)果發(fā)現(xiàn)，在西安與PM2.5存在長(zhǎng)期相關(guān)關(guān)系的有PM2.5、PM10、NO2、CO、T_high以及WS、它們的最大延遲階數(shù)分別為3、3、2、3、3和1。由此可以確定KELM的單隱層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其輸入層的向量個(gè)數(shù)為15，其輸入深入層神經(jīng)元對(duì)應(yīng)的數(shù)據(jù)輸入為：PM2.5（-1）、PM2.5（-2）、PM2.5（-3）、PM10（-1），PM10（-2）、PM10（-3）、NO2（-1）、NO2（-2）、CO（-1）、CO（-2）、CO（-3）、T_high（-1）、T_high（-2）、T_high（-3）和WS（-1）。

2.5 預(yù)測(cè)結(jié)果及評(píng)價(jià)

確定了KELM預(yù)測(cè)模型的各輸入數(shù)據(jù)之后，就可以使用KELM算法進(jìn)行訓(xùn)練與預(yù)測(cè)。由于KELM算法的適用性受到核參數(shù)的影響，因此要提高KELM的適用性就必須對(duì)核參數(shù)尋優(yōu)，本文采用FFOA算法對(duì)KELM中的核參數(shù)優(yōu)化。在FFOA優(yōu)化過(guò)程中設(shè)置迭代次數(shù)為100，果蠅種群規(guī)模也為100。經(jīng)FFOA優(yōu)化后即可尋得最優(yōu)核參數(shù)，并應(yīng)用尋得的核參數(shù)建立KELM預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。為了驗(yàn)證混合模型的預(yù)測(cè)效果，本文應(yīng)用混合模型、ARDL模型以及KELM模型（隨機(jī)生成核參數(shù)）分別對(duì)關(guān)中地區(qū)五地市2017年5月1日至2017年5月31日的PM2.5日均濃度進(jìn)行了預(yù)測(cè)，預(yù)測(cè)結(jié)果如圖1所示。

通過(guò)觀察圖1中曲線的擬合情況可以看出混合模型預(yù)測(cè)結(jié)果曲線相較于ARDL和KELM預(yù)測(cè)結(jié)果曲線更能有效跟蹤實(shí)際值曲線的變化趨勢(shì)。同時(shí)在一些極值點(diǎn)上，混合預(yù)測(cè)模型表現(xiàn)出更好的預(yù)測(cè)性能，正如圖1中所示，在2017年5月5日關(guān)中地區(qū)出現(xiàn)了一次極端PM2.5污染事件，五地市當(dāng)日的PM2.5濃度較前一日出現(xiàn)明顯增加，部分地區(qū)（西安、銅川）當(dāng)日濃度是前一日濃度的4～5倍。面對(duì)這種極端突變情況，混合模型表現(xiàn)出了較好的預(yù)測(cè)效果，當(dāng)日混合模型在各地的絕對(duì)百分比誤差均保持在9%以內(nèi)，其中寶雞最小為4.45%，渭南最大為8.81%，五地市絕對(duì)百分比誤差為6.8%，而ARDL與KELM分別為13.68%和62.36%，由此可以看出混合模型在應(yīng)對(duì)突變情況的能力明顯優(yōu)于ARDL和KELM。除此之外，混合模型預(yù)測(cè)的穩(wěn)定性也明顯優(yōu)于ARDL模型和KELM模型，例如在銅川地區(qū)2017年5月25日至2017年5月31日這個(gè)時(shí)間區(qū)間，ARDL模型的絕對(duì)百分比誤差最大值竟然達(dá)到561.67%，最小值也達(dá)到了41.24%，同期KELM模型的預(yù)測(cè)準(zhǔn)確率也較差，其絕對(duì)百分比誤差最大值為86.97%，最小值也達(dá)到了29.03%，而同時(shí)間段，混合模型的絕對(duì)百分比誤差的最大值為13.68%，最小值為2.83%，由此可以看出ARDL模型與KELM模型在預(yù)測(cè)穩(wěn)定性方面較混合模型有明顯差距。為了更加精確地評(píng)價(jià)各個(gè)預(yù)測(cè)模型的預(yù)測(cè)效果，使用前文中提出的3個(gè)評(píng)價(jià)指標(biāo)對(duì)3個(gè)預(yù)測(cè)模型進(jìn)行評(píng)價(jià)，評(píng)價(jià)結(jié)果如表3所示。

由表3可以看出，混合模型在3個(gè)評(píng)價(jià)指標(biāo)上均明顯優(yōu)于ARDL模型和KELM模型，說(shuō)明了混合模型能夠更好地?cái)M合PM2.5濃度數(shù)據(jù)。同時(shí)，混合模型在各地區(qū)均能得到較好的預(yù)測(cè)效果，進(jìn)一步說(shuō)明了混合模型的適應(yīng)性強(qiáng)，性能穩(wěn)定，能夠?yàn)檎块T應(yīng)急處理突發(fā)性PM2.5污染事件提供有力的決策支持。

3 結(jié)論

（1）根據(jù)PM2.5日均濃度數(shù)據(jù)的自相關(guān)性以及與其他影響因子日均數(shù)據(jù)的延遲相關(guān)性，建立了PM2.5混合預(yù)測(cè)模型，該模型可以動(dòng)態(tài)更新訓(xùn)練集，確保預(yù)測(cè)模型能夠保持對(duì)新現(xiàn)象新規(guī)律的適應(yīng)性?；旌夏Ｐ驮谂cARDL以及KELM預(yù)測(cè)模型的比較中，表現(xiàn)出良好的預(yù)測(cè)精度和穩(wěn)定性。

表3 模型指標(biāo)評(píng)價(jià)結(jié)果

（2）混合模型需要對(duì)KELM的核參數(shù)進(jìn)行優(yōu)化，這與ARDL以及KELM模型相比需要增加一定的計(jì)算代價(jià)。然而FFOA算法的尋優(yōu)效率較高，因此總體而言本文模型增加的運(yùn)行時(shí)間有限，不會(huì)對(duì)其實(shí)踐應(yīng)用產(chǎn)生較大影響。

（3）根據(jù)實(shí)驗(yàn)結(jié)果可看出本文模型對(duì)于PM2.5預(yù)測(cè)精度有明顯提高，尤其是對(duì)于極值點(diǎn)本文模型能更好地應(yīng)對(duì)PM2.5濃度的突變情況，預(yù)測(cè)精度較高，因此可以認(rèn)為PM2.5經(jīng)相關(guān)性分析以及ARDL處理后，能夠識(shí)別出與PM2.5濃度具有顯著相關(guān)性的因素，有助于預(yù)測(cè)模型更好地總結(jié)規(guī)律、發(fā)現(xiàn)特征，提高模型的預(yù)測(cè)精度和響應(yīng)能力。

（4）本文模型結(jié)構(gòu)簡(jiǎn)單，易于實(shí)現(xiàn)，具有一定的實(shí)用性。本文的研究結(jié)果不僅能有效應(yīng)用于地區(qū)日均PM2.5濃度預(yù)測(cè)，同時(shí)也可用于小時(shí)或其他時(shí)間維度的PM2.5濃度預(yù)測(cè)，可以為政府開(kāi)展空氣污染預(yù)警、城市綜合管理提供理論支持和決策依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡