李 棟,薛惠鋒,張文宇,3,方 銘
(1.西安郵電大學(xué)a.經(jīng)濟(jì)與管理學(xué)院;b.研究生院,西安 710061;2.西北工業(yè)大學(xué) 自動(dòng)化學(xué)院,西安 710072;3.中國(guó)航天系統(tǒng)科學(xué)與工程研究院,北京 100048)
近年來(lái),隨著中國(guó)城市化、工業(yè)化進(jìn)程的不斷加快,空氣污染問(wèn)題也愈發(fā)嚴(yán)重,成為公眾關(guān)注的社會(huì)焦點(diǎn)問(wèn)題之一。PM2.5作為空氣污染的主要組成成分,是指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量小于等于2.5um的顆粒物[1]。經(jīng)研究發(fā)現(xiàn),PM2.5已經(jīng)是當(dāng)前影響人類生存環(huán)境[1-3]和人體健康[4]的最主要污染物之一。PM2.5中含有大量的有毒有害物質(zhì),具有高活性、停留時(shí)間長(zhǎng)、運(yùn)輸距離遠(yuǎn)的特性。研究表明,長(zhǎng)期暴露在含有較高濃度PM2.5環(huán)境中的人,將增加患心血管[5]和肺部疾病[6]的概率。因此,及時(shí)并準(zhǔn)確地預(yù)警PM2.5濃度,對(duì)于評(píng)估城市空氣質(zhì)量,幫助人們合理安排出行具有指導(dǎo)意義,同時(shí)能為政府治理PM2.5污染的提供依據(jù)。
為了準(zhǔn)確預(yù)測(cè)PM2.5的日均濃度,本文提出了一個(gè)基于自回歸分布滯后模型(ARDL)、果蠅優(yōu)化算法、核極限學(xué)習(xí)機(jī)的PM2.5日均濃度混合預(yù)測(cè)模型。為了驗(yàn)證混合模型的有效性,選用了2016年1月1日至2017年5月31日陜西省關(guān)中地區(qū)五地市(西安、寶雞、咸陽(yáng)、渭南和銅川)的PM2.5、PM10、CO等空氣污染物、以及相關(guān)氣象因子的歷史數(shù)據(jù),從日維度進(jìn)行了PM2.5濃度預(yù)測(cè),預(yù)測(cè)結(jié)果顯示混合模型具有良好的預(yù)測(cè)能力,可為陜西省關(guān)中地區(qū)開(kāi)展空氣污染預(yù)警和城市綜合管理提供理論支持和決策依據(jù)。
關(guān)中又稱為關(guān)中平原,它位于陜西中部,海拔在323~800米之間,東西長(zhǎng)約350公里,面積約為3.6萬(wàn)平方公里,是中國(guó)四大平原之一。關(guān)中平原介于橫貫陜西的秦嶺和渭北北山山系之間,南北寬窄不一,東部最寬達(dá)100公里,在西安附近時(shí)南北寬度縮為75公里,至寶雞市西部逐漸閉合成峽谷,這種東寬西窄,周邊高平原低的地形條件不利于污染物擴(kuò)散。隨著以西安為中心的關(guān)中地區(qū)工業(yè)化和城市化進(jìn)程的加速發(fā)展,人為活動(dòng)日益頻繁造成污染物排放量的大幅增加,關(guān)中地區(qū)空氣質(zhì)量日趨惡化。根據(jù)2016年全國(guó)霧霾城市排名顯示,關(guān)中五地市PM2.5日均濃度均排在前70名,其中西安排名最高,位于第34位,銅川排名最低位于63位,關(guān)中地區(qū)已經(jīng)成為中國(guó)區(qū)域性大氣污染較為嚴(yán)重的區(qū)域之一。
為了加強(qiáng)對(duì)關(guān)中地區(qū)PM2.5等污染物的監(jiān)測(cè)和治理,為居民提供實(shí)時(shí)的污染狀況信息,陜西省環(huán)保廳在關(guān)中地區(qū)共設(shè)置70個(gè)監(jiān)測(cè)點(diǎn),其中西安有18個(gè)監(jiān)測(cè)點(diǎn)、咸陽(yáng)有15個(gè)監(jiān)測(cè)點(diǎn)、寶雞有17個(gè)監(jiān)測(cè)點(diǎn)、銅川有7個(gè)監(jiān)測(cè)點(diǎn)、渭南有13個(gè)監(jiān)測(cè)點(diǎn),涵蓋了關(guān)中地區(qū)中各類型區(qū)域,這些監(jiān)測(cè)點(diǎn)能夠?qū)崟r(shí)監(jiān)測(cè)各種污染物的濃度數(shù)據(jù),通過(guò)陜西省環(huán)保廳網(wǎng)站進(jìn)行公布。本文中涉及的各市污染物數(shù)據(jù)均來(lái)自該網(wǎng),并進(jìn)行了后期整理。PM2.5預(yù)測(cè)研究中除了需要空氣中的各種污染物數(shù)據(jù)外,還需要溫度、濕度、風(fēng)速等各種氣象因子數(shù)據(jù),這部分?jǐn)?shù)據(jù)則是通過(guò)陜西省氣象局網(wǎng)站獲取并進(jìn)行相應(yīng)整理。
1.3.1 相關(guān)分析與因子定階
相關(guān)分析(CA)是研究PM2.5與其他污染物及氣息因子之間是否存在某種依存關(guān)系,測(cè)度各因子之間關(guān)系密切程度的一種統(tǒng)計(jì)方法。由于收集到的污染物種類及氣象因子較多,如全部引入預(yù)測(cè)模型,則預(yù)測(cè)模型勢(shì)必受到非必要因素的影響,增加預(yù)測(cè)模型復(fù)雜度。因此,需要通過(guò)相關(guān)分析識(shí)別哪些因素與PM2.5濃度相關(guān)性較高,從而將這部分因素從眾多因素中篩選出來(lái),作為預(yù)測(cè)模型的輸入。
在預(yù)測(cè)模型中,不僅要明確PM2.5的影響因子有哪些,還需要明確這些影響因子與PM2.5之間的滯后影響階數(shù)。為了解決這個(gè)問(wèn)題,本文引入自回歸分布滯后模型來(lái)識(shí)別和確定各影響因子滯后階數(shù)。
自回歸分布滯后模型(ARDL)是一種較新的協(xié)整檢驗(yàn)方法,其原理是利用邊界檢驗(yàn)法確定變量間是否存在長(zhǎng)期穩(wěn)定的關(guān)系,若存在協(xié)整關(guān)系,則可進(jìn)一步估計(jì)變量間的相關(guān)系數(shù)[7]。區(qū)別于傳統(tǒng)的協(xié)整檢驗(yàn)方法,ARDL模型最大的優(yōu)勢(shì)是其對(duì)變量平穩(wěn)性要求較為寬松,只要求變量的單整階數(shù)均不超過(guò)1,即1(0)序列、1(1)序列或1(0)、1(1)混合序列均可使用該模型進(jìn)行檢驗(yàn)。除此之外,ARDL模型還具備小樣本適用性,解釋變量為內(nèi)生變量的適用性等特點(diǎn)。自回歸分布滯后模型的一般形式如下:
1.3.2 KELM算法
極限學(xué)習(xí)機(jī)(ELM)[8]是一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的快速學(xué)習(xí)方法。該方法只需指定隱層節(jié)點(diǎn)數(shù),即可通過(guò)求解線性方程組得到極小2-范數(shù)最小二乘解,并將該解作為隱層輸出權(quán)值。ELM的學(xué)習(xí)過(guò)程只有一次,相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),ELM的網(wǎng)絡(luò)泛化能力和學(xué)習(xí)速度得到明顯提高。
核極限學(xué)習(xí)機(jī)(KELM)是在極限學(xué)習(xí)機(jī)(ELM)的基礎(chǔ)上提出了基于核函數(shù)的極限學(xué)習(xí)機(jī),該方法將SVM中核函數(shù)的思想運(yùn)用到ELM中。由于支持向量機(jī)(SVM)中的核函數(shù)映射?(x)與ELM中的隱含層節(jié)點(diǎn)映射h(x)的具有一定的相似性,Huang(2012)[9]提出將ELM的h(x)替換為支持向量機(jī)的核函數(shù)映射?(x),構(gòu)建核極限學(xué)習(xí)機(jī)(KELM)算法,該算法解決了ELM需要確定隱含層個(gè)數(shù)的問(wèn)題,且具有更好的泛化性能。
1.3.3 果蠅優(yōu)化算法
已有的研究成果顯示KELM的擬合精度和泛化能力受到參數(shù)的影響。因此,需要采用適合的優(yōu)化算法來(lái)對(duì)其核參數(shù)進(jìn)行尋優(yōu)。目前在KELM的參數(shù)尋優(yōu)中主要使用的有遺傳算法[10]和粒子群優(yōu)化算法[11],這些方法雖然存在可以找到最優(yōu)參數(shù)的可能性,但仍存在迭代速率慢,易陷入局部最優(yōu)的問(wèn)題。果蠅優(yōu)化算法(FFOA)[12]是依據(jù)果蠅覓食行為設(shè)計(jì)出的一種全局優(yōu)化算法。相較于粒子群、魚(yú)群等群體智能優(yōu)化算法,F(xiàn)FOA具有參數(shù)設(shè)置少、運(yùn)算速度快且易于代碼實(shí)現(xiàn)等優(yōu)點(diǎn)。因此,本文采用FFOA自動(dòng)搜索核極限學(xué)習(xí)機(jī)核參數(shù),以此建立PM2.5濃度預(yù)測(cè)模型。
1.3.4 混合預(yù)測(cè)模型
鑒于PM2.5濃度預(yù)測(cè)的復(fù)雜性,本文將前面介紹的幾種方法進(jìn)行混合提出了PM2.5混合預(yù)測(cè)模型。該模型首先通過(guò)相關(guān)性分析識(shí)別PM2.5與其他污染因子以及氣象因子之間的相互聯(lián)系,然后通過(guò)ARDL模型分析識(shí)別出PM2.5與各因子之間是否存在長(zhǎng)期穩(wěn)定關(guān)系,并確定各因子的滯后影響階數(shù)。通過(guò)相關(guān)性分析以及ARDL模型就可以識(shí)別PM2.5與自身以及各因子存在的各種關(guān)系,進(jìn)而明確未來(lái)預(yù)測(cè)方法的輸入向量。具體的預(yù)測(cè)方法選擇上,本文通過(guò)對(duì)比選擇了KELM作為預(yù)測(cè)算法,由于KELM的泛化能力受到核參數(shù)的影響,因此本文引入果蠅優(yōu)化算法使用對(duì)其核參數(shù)進(jìn)行尋優(yōu),從而最終建立PM2.5混合預(yù)測(cè)模型。具體建模具體步驟如下:
(1)數(shù)據(jù)預(yù)處理。對(duì)收集到的PM2.5、SO2、NO等空氣污染物以及相關(guān)氣象因子時(shí)間序列數(shù)據(jù)進(jìn)行缺失值填充。
(2)因子相關(guān)性分析。對(duì)PM2.5、SO2、NO等空氣污染物以及最高氣溫、最低氣溫等氣象因子數(shù)據(jù)進(jìn)行相關(guān)分析,識(shí)別出與PM2.5濃度具有顯著相關(guān)性的因子。
(3)確定PM2.5相關(guān)因子滯后階數(shù)。利用ARDL模型檢測(cè)PM2.5與自身及相關(guān)因子之間存在的長(zhǎng)期關(guān)系,確定各因子最大滯后階數(shù)ti(1<=i<=p+1),p為識(shí)別出的與PM2.5顯著相關(guān)的因子個(gè)數(shù),由于PM2.5自身存在滯后相關(guān)性的可能,因此i的最大值為p+1。
(4)數(shù)據(jù)重構(gòu)。根據(jù)各影響因子最大滯后階數(shù)對(duì)數(shù)據(jù)進(jìn)行重構(gòu),重構(gòu)后的數(shù)據(jù)將作為KELM預(yù)測(cè)算法的輸入向量。重構(gòu)結(jié)果如式(2)所示,式中X1(-1)指與PM2.5具有顯著相關(guān)性的第1個(gè)因子延遲1階的數(shù)據(jù)。
(5)動(dòng)態(tài)生成訓(xùn)練數(shù)據(jù)。本文模型是在線預(yù)測(cè)模型,即該模型會(huì)動(dòng)態(tài)更新訓(xùn)練數(shù)據(jù)。若指定預(yù)測(cè)t時(shí)刻的PM2.5濃度,則模型會(huì)自動(dòng)將t-1時(shí)刻之前的數(shù)據(jù)(含t-1時(shí)刻)作為訓(xùn)練數(shù)據(jù)。當(dāng)預(yù)測(cè)時(shí)間更新為t+1時(shí)刻時(shí),則模型自動(dòng)將t時(shí)刻的各指標(biāo)數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)中。
(6)構(gòu)建KELM初始預(yù)測(cè)模型。首先對(duì)重構(gòu)數(shù)據(jù)集XR、Y進(jìn)行歸一化處理,得到歸一化后數(shù)據(jù)集。接著建立單隱層神經(jīng)網(wǎng)絡(luò),輸入數(shù)據(jù)為,輸出數(shù)據(jù)為Y,使用KELM算法建立初始預(yù)測(cè)模型。
(7)KELM核參數(shù)優(yōu)化。
①根據(jù)核參數(shù)個(gè)數(shù)確定果蠅群搜索食物的空間維度,若為2個(gè)參數(shù),則果蠅在2維空間中搜索食物;若為3個(gè)參數(shù),則果蠅在3維空間搜索食物。
②初始化果蠅群中各果蠅位置,或?qū)⒐壢杭性诋?dāng)前最佳位置。
③果蠅群在搜索空間中自由搜素食物,每個(gè)果蠅飛翔后的位置坐標(biāo)即為KELM的核參數(shù)的值。根據(jù)這些核參數(shù)值使用KELM計(jì)算訓(xùn)練集的訓(xùn)練精度,計(jì)算結(jié)果即為該果蠅的味道濃度(適應(yīng)度值)。
④對(duì)所有果蠅的適應(yīng)度值由小到大排序,找到最佳果蠅及其位置坐標(biāo)。
⑤判斷是否達(dá)到優(yōu)化目標(biāo),若達(dá)到則跳轉(zhuǎn)下一步。否則,繼續(xù)判斷是否達(dá)到最大優(yōu)化次數(shù),若達(dá)到則跳轉(zhuǎn)至下一步,若未達(dá)到則跳轉(zhuǎn)至步驟②繼續(xù)優(yōu)化。
(8)KELM預(yù)測(cè)。依據(jù)核參數(shù)優(yōu)化結(jié)果建立KELM預(yù)測(cè)模型,依據(jù)歸一化之后的相空間數(shù)據(jù)XR(t)預(yù)測(cè)t時(shí)刻的Y′(t),并將預(yù)測(cè)結(jié)果反歸一化。
(9)預(yù)測(cè)時(shí)間更新。若要繼續(xù)預(yù)測(cè)時(shí)間t+1的PM2.5濃度值,則更新預(yù)測(cè)時(shí)間為t+1,并跳轉(zhuǎn)至步驟(5)更新訓(xùn)練集,然后繼續(xù)預(yù)測(cè)。
為了衡量PM2.5混合預(yù)測(cè)模型的穩(wěn)定性和適應(yīng)性,選擇一些具有代表性的指標(biāo)對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),具體指標(biāo)有:平均絕對(duì)百分比誤差(MAPE)、均方根誤差(RMSE)以及可決系數(shù)R2。平均絕對(duì)百分比誤差能夠避免平均百分比誤差相比正負(fù)相抵的情況,可以更準(zhǔn)確地反映預(yù)測(cè)值誤差的實(shí)際情況。均方根誤差對(duì)異常大的誤差反應(yīng)較為靈敏,能夠較好地反映模型的預(yù)測(cè)精度。擬合優(yōu)度R2能夠表達(dá)混合預(yù)測(cè)模型整體的擬合情況,當(dāng)R2接近1時(shí),表明預(yù)測(cè)值對(duì)實(shí)際值的擬合程度好,同時(shí)說(shuō)明預(yù)測(cè)模型的性能較高。假設(shè)Ti為實(shí)際觀察值,Pi為預(yù)測(cè)值,各指標(biāo)定義如下:
通過(guò)對(duì)已有研究成果進(jìn)行分析后發(fā)現(xiàn),影響PM2.5濃度的因素主要源于三個(gè)方面:直接生成、間接生成以及氣象因素對(duì)PM2.5的凈化衰減。其中,直接生成主要包括燃煤、汽車尾氣、工業(yè)廢氣等含有的PM2.5固態(tài)污染物;間接生成主要是空氣中的污染物通過(guò)復(fù)雜化學(xué)反應(yīng)形成的PM2.5固態(tài)污染物;PM2.5的凈化衰減則是通過(guò)自身的擴(kuò)散以及外界氣流、降雨等方式來(lái)實(shí)現(xiàn)PM2.5濃度下降。基于以上分析并考慮到數(shù)據(jù)的可獲得性,本文收集了PM2.5(μg/m3)、PM10(μg/m3)、SO2(μg/m3)、CO(μg/m3)、O3(μg/m3)、NO2(μg/m3)、RH(相對(duì)濕度%)、WS(風(fēng)速m/s)、T_Low(最低溫度oC)、T_high(最高溫度oC)等10個(gè)因子數(shù)據(jù),這些數(shù)據(jù)開(kāi)始時(shí)間為2016年1月1日,結(jié)束時(shí)間為2017年5月31日,共計(jì)517組。
在數(shù)據(jù)收集完成之后,還無(wú)法直接使用,原因是數(shù)據(jù)集中可能存在一些異常數(shù)據(jù),需要對(duì)其進(jìn)行處理。本文數(shù)據(jù)預(yù)處理的對(duì)象主要是針對(duì)缺失值。在污染物濃度和氣象因子監(jiān)測(cè)過(guò)程中,由于監(jiān)測(cè)設(shè)備故障或者網(wǎng)絡(luò)傳輸鏈路故障可能會(huì)造成監(jiān)測(cè)數(shù)據(jù)的缺失,主要表現(xiàn)為數(shù)據(jù)斷檔或出現(xiàn)NULL值。數(shù)據(jù)缺失將破壞時(shí)間序列的連續(xù)性,進(jìn)而影響預(yù)測(cè)模型的精度。因此,在建模過(guò)程中,首先要對(duì)缺失數(shù)據(jù)采用插值等方法進(jìn)行數(shù)據(jù)的補(bǔ)足。本文主要采用多點(diǎn)三次樣條插值等方法補(bǔ)足缺失數(shù)據(jù)。
KELM預(yù)測(cè)模型能夠通過(guò)核函數(shù)很好地表示輸入向量與預(yù)測(cè)目標(biāo)之間的高維非線性關(guān)系,而合適的高維輸入向量將有助于準(zhǔn)確地描述信息特征,表達(dá)數(shù)據(jù)含義,因此KELM模型的預(yù)測(cè)能力在很大程度上依賴于輸入向量的選擇。
由于可收集的污染物和氣象因子種類較多,若全部引人會(huì)導(dǎo)致KELM預(yù)測(cè)模型輸入層維度過(guò)高,增加預(yù)測(cè)模型的復(fù)雜度。為此,本文借鑒文獻(xiàn)[13]的數(shù)據(jù)處理方法,通過(guò)相關(guān)性分析,識(shí)別出與PM2.5存在顯著相關(guān)的因子。通過(guò)將PM2.5與PM10等因子數(shù)據(jù)進(jìn)行相關(guān)性分析,求其相關(guān)系數(shù),并查閱相關(guān)系數(shù)顯著性檢驗(yàn)表,找出與PM2.5顯著相關(guān)的影響因子。通過(guò)對(duì)各因子時(shí)間序列數(shù)據(jù)的分布發(fā)現(xiàn),各序列均非正態(tài)分布,因此選擇計(jì)算各因子之間的Spearman相關(guān)系數(shù),各地計(jì)算結(jié)果如表1所示。
表1 相關(guān)性分析
通過(guò)Spearman相關(guān)系數(shù)計(jì)算之后就可以得到影響當(dāng)?shù)豍M2.5濃度的主要因素有哪些。對(duì)各污染物數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),PM2.5與CO、PM10、SO2均為化石燃料燃燒的產(chǎn)物,而關(guān)中地區(qū)地處北方,在每年11月至3月之間會(huì)有供暖期,這期間會(huì)燃燒大量的化石燃料,因此它們均表現(xiàn)出春、冬季濃度較高、夏秋季濃度較低的特征,而這一點(diǎn)在表1中也得到了驗(yàn)證,PM2.5與CO、PM10、SO2它們之間存在明顯的正相關(guān)性。SO2、NO2經(jīng)二次化學(xué)反應(yīng)可以形成硫酸鹽、硝酸鹽微粒,它們是PM2.5主要構(gòu)成成分,因此SO2、NO2與PM2.5濃度也呈現(xiàn)出較強(qiáng)的正相關(guān)性;O3主要是在紫外線輻射作用下通過(guò)光化學(xué)反應(yīng)產(chǎn)生,而PM2.5顆粒物濃度較高時(shí),其消光作用散射了太陽(yáng)輻射,因此O3與PM2.5呈現(xiàn)一定的負(fù)相關(guān)性[8];溫度會(huì)影響氣體流動(dòng)速度,當(dāng)溫度較高時(shí),空氣會(huì)加速流動(dòng),將有利于將地表的PM2.5顆粒擴(kuò)散,降低地表的PM2.5濃度,因此PM2.5與T_high與T_low存在明顯的負(fù)相關(guān)性。
在進(jìn)行PM2.5預(yù)測(cè)時(shí),不僅要識(shí)別與PM2.5有顯著相關(guān)關(guān)系的影響因素有哪些,還要明確各影響因素對(duì)PM2.5影響的時(shí)效性。需要根據(jù)各輸人變量與輸出變量的互相關(guān)系數(shù)確定模型中各輸人變量的延遲階數(shù)。本文這里借鑒ARDL模型中確定各影響因子滯后階數(shù)的方法,通過(guò)該方法識(shí)別出PM2.5與自身及其他相關(guān)因子之間存在最大滯后階數(shù)。經(jīng)ARDL模型識(shí)別結(jié)果如表2所示。
表2 滯后階數(shù)
通過(guò)檢測(cè)結(jié)果發(fā)現(xiàn),在西安與PM2.5存在長(zhǎng)期相關(guān)關(guān)系的有PM2.5、PM10、NO2、CO、T_high以及WS、它們的最大延遲階數(shù)分別為3、3、2、3、3和1。由此可以確定KELM的單隱層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其輸入層的向量個(gè)數(shù)為15,其輸入深入層神經(jīng)元對(duì)應(yīng)的數(shù)據(jù)輸入為:PM2.5(-1)、PM2.5(-2)、PM2.5(-3)、PM10(-1),PM10(-2)、PM10(-3)、NO2(-1)、NO2(-2)、CO(-1)、CO(-2)、CO(-3)、T_high(-1)、T_high(-2)、T_high(-3)和WS(-1)。
確定了KELM預(yù)測(cè)模型的各輸入數(shù)據(jù)之后,就可以使用KELM算法進(jìn)行訓(xùn)練與預(yù)測(cè)。由于KELM算法的適用性受到核參數(shù)的影響,因此要提高KELM的適用性就必須對(duì)核參數(shù)尋優(yōu),本文采用FFOA算法對(duì)KELM中的核參數(shù)優(yōu)化。在FFOA優(yōu)化過(guò)程中設(shè)置迭代次數(shù)為100,果蠅種群規(guī)模也為100。經(jīng)FFOA優(yōu)化后即可尋得最優(yōu)核參數(shù),并應(yīng)用尋得的核參數(shù)建立KELM預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。為了驗(yàn)證混合模型的預(yù)測(cè)效果,本文應(yīng)用混合模型、ARDL模型以及KELM模型(隨機(jī)生成核參數(shù))分別對(duì)關(guān)中地區(qū)五地市2017年5月1日至2017年5月31日的PM2.5日均濃度進(jìn)行了預(yù)測(cè),預(yù)測(cè)結(jié)果如圖1所示。
通過(guò)觀察圖1中曲線的擬合情況可以看出混合模型預(yù)測(cè)結(jié)果曲線相較于ARDL和KELM預(yù)測(cè)結(jié)果曲線更能有效跟蹤實(shí)際值曲線的變化趨勢(shì)。同時(shí)在一些極值點(diǎn)上,混合預(yù)測(cè)模型表現(xiàn)出更好的預(yù)測(cè)性能,正如圖1中所示,在2017年5月5日關(guān)中地區(qū)出現(xiàn)了一次極端PM2.5污染事件,五地市當(dāng)日的PM2.5濃度較前一日出現(xiàn)明顯增加,部分地區(qū)(西安、銅川)當(dāng)日濃度是前一日濃度的4~5倍。面對(duì)這種極端突變情況,混合模型表現(xiàn)出了較好的預(yù)測(cè)效果,當(dāng)日混合模型在各地的絕對(duì)百分比誤差均保持在9%以內(nèi),其中寶雞最小為4.45%,渭南最大為8.81%,五地市絕對(duì)百分比誤差為6.8%,而ARDL與KELM分別為13.68%和62.36%,由此可以看出混合模型在應(yīng)對(duì)突變情況的能力明顯優(yōu)于ARDL和KELM。除此之外,混合模型預(yù)測(cè)的穩(wěn)定性也明顯優(yōu)于ARDL模型和KELM模型,例如在銅川地區(qū)2017年5月25日至2017年5月31日這個(gè)時(shí)間區(qū)間,ARDL模型的絕對(duì)百分比誤差最大值竟然達(dá)到561.67%,最小值也達(dá)到了41.24%,同期KELM模型的預(yù)測(cè)準(zhǔn)確率也較差,其絕對(duì)百分比誤差最大值為86.97%,最小值也達(dá)到了29.03%,而同時(shí)間段,混合模型的絕對(duì)百分比誤差的最大值為13.68%,最小值為2.83%,由此可以看出ARDL模型與KELM模型在預(yù)測(cè)穩(wěn)定性方面較混合模型有明顯差距。為了更加精確地評(píng)價(jià)各個(gè)預(yù)測(cè)模型的預(yù)測(cè)效果,使用前文中提出的3個(gè)評(píng)價(jià)指標(biāo)對(duì)3個(gè)預(yù)測(cè)模型進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果如表3所示。
由表3可以看出,混合模型在3個(gè)評(píng)價(jià)指標(biāo)上均明顯優(yōu)于ARDL模型和KELM模型,說(shuō)明了混合模型能夠更好地?cái)M合PM2.5濃度數(shù)據(jù)。同時(shí),混合模型在各地區(qū)均能得到較好的預(yù)測(cè)效果,進(jìn)一步說(shuō)明了混合模型的適應(yīng)性強(qiáng),性能穩(wěn)定,能夠?yàn)檎块T應(yīng)急處理突發(fā)性PM2.5污染事件提供有力的決策支持。
(1)根據(jù)PM2.5日均濃度數(shù)據(jù)的自相關(guān)性以及與其他影響因子日均數(shù)據(jù)的延遲相關(guān)性,建立了PM2.5混合預(yù)測(cè)模型,該模型可以動(dòng)態(tài)更新訓(xùn)練集,確保預(yù)測(cè)模型能夠保持對(duì)新現(xiàn)象新規(guī)律的適應(yīng)性?;旌夏P驮谂cARDL以及KELM預(yù)測(cè)模型的比較中,表現(xiàn)出良好的預(yù)測(cè)精度和穩(wěn)定性。
表3 模型指標(biāo)評(píng)價(jià)結(jié)果
(2)混合模型需要對(duì)KELM的核參數(shù)進(jìn)行優(yōu)化,這與ARDL以及KELM模型相比需要增加一定的計(jì)算代價(jià)。然而FFOA算法的尋優(yōu)效率較高,因此總體而言本文模型增加的運(yùn)行時(shí)間有限,不會(huì)對(duì)其實(shí)踐應(yīng)用產(chǎn)生較大影響。
(3)根據(jù)實(shí)驗(yàn)結(jié)果可看出本文模型對(duì)于PM2.5預(yù)測(cè)精度有明顯提高,尤其是對(duì)于極值點(diǎn)本文模型能更好地應(yīng)對(duì)PM2.5濃度的突變情況,預(yù)測(cè)精度較高,因此可以認(rèn)為PM2.5經(jīng)相關(guān)性分析以及ARDL處理后,能夠識(shí)別出與PM2.5濃度具有顯著相關(guān)性的因素,有助于預(yù)測(cè)模型更好地總結(jié)規(guī)律、發(fā)現(xiàn)特征,提高模型的預(yù)測(cè)精度和響應(yīng)能力。
(4)本文模型結(jié)構(gòu)簡(jiǎn)單,易于實(shí)現(xiàn),具有一定的實(shí)用性。本文的研究結(jié)果不僅能有效應(yīng)用于地區(qū)日均PM2.5濃度預(yù)測(cè),同時(shí)也可用于小時(shí)或其他時(shí)間維度的PM2.5濃度預(yù)測(cè),可以為政府開(kāi)展空氣污染預(yù)警、城市綜合管理提供理論支持和決策依據(jù)。