肖亞楠
關(guān)鍵詞: PM2.5 時(shí)間序列 相關(guān)性分析 時(shí)空插值
隨著生活品質(zhì)的提高,“霧霾”一詞越來越多出現(xiàn)在人們的視野里,其主要成分是PM2.5[1]。各地區(qū)的PM2.5分布具有季節(jié)、地域特征,與溫度、濕度、風(fēng)速、降雨量等氣象特征之間具有相關(guān)性[2]。
PM2.5是典型的時(shí)空數(shù)據(jù),具有顯著的時(shí)間序列特征和地域性特征?,F(xiàn)有的PM2.5分析方法中,多將時(shí)間和空間特征分割開來,不能充分地利用時(shí)空數(shù)據(jù)的全部特征,分析結(jié)果的可靠性較低。
該文基于成都地區(qū)氣體污染物觀測(cè)數(shù)據(jù)對(duì)基于時(shí)間序列的時(shí)空插值算法進(jìn)行了改進(jìn)研究,并設(shè)計(jì)了對(duì)比實(shí)驗(yàn),對(duì)改進(jìn)后的算法插值精度進(jìn)行了評(píng)估。
1 研究區(qū)概況與現(xiàn)有研究方法的概述
1. 1 研究區(qū)概況
成都位于四川盆地西部,地形地貌復(fù)雜,東接龍泉山脈和盆中丘陵,西臨邛崍山脈,中部為成都平原[3],靜小風(fēng)頻率高,污染物難以及時(shí)擴(kuò)散,此外,該地區(qū)近年來發(fā)展迅速,基礎(chǔ)設(shè)施建設(shè)迭代更新較快[4],使得成都地區(qū)的PM2.5處于高濃度狀態(tài)。該文研究了32 個(gè)環(huán)境監(jiān)測(cè)站點(diǎn)的數(shù)據(jù),這些監(jiān)測(cè)站點(diǎn)位于成都市及周邊的4 個(gè)市區(qū),站點(diǎn)分布不規(guī)律,局部成簇,分布于北緯28.7°~34.57° 、東經(jīng)100.82°~105.67°。圖1 為32 個(gè)環(huán)境監(jiān)測(cè)站點(diǎn)分布圖。
1. 2 數(shù)據(jù)來源及預(yù)處理
該文采用的數(shù)據(jù)包括研究區(qū)域的地理范圍、環(huán)境監(jiān)測(cè)站點(diǎn)的位置,待研究空氣污染物指數(shù)觀測(cè)數(shù)據(jù)。通過網(wǎng)絡(luò)數(shù)據(jù)訪問方式完成數(shù)據(jù)獲取,具體為:編程獲取四川省空氣質(zhì)量監(jiān)測(cè)系統(tǒng)中JSON 格式數(shù)據(jù),經(jīng)解析后得到各觀測(cè)站點(diǎn)全天候空氣污染物指數(shù)數(shù)據(jù)(污染物濃度與其指數(shù)呈現(xiàn)正相關(guān))。
需要先對(duì)空氣污染物指數(shù)數(shù)據(jù)進(jìn)行預(yù)處理,處理結(jié)果用于插值分析。
1. 3 既有研究方法概述
既有的時(shí)空插值方法眾多,其中,約減法和擴(kuò)展法較為經(jīng)典,兩種算法均能實(shí)現(xiàn)對(duì)不規(guī)則數(shù)據(jù)集的時(shí)空混合插值計(jì)算。約減法首先對(duì)數(shù)據(jù)進(jìn)行時(shí)間插值,再進(jìn)行空間插值[5],該方法只能在時(shí)間序列內(nèi)對(duì)觀測(cè)站點(diǎn)歷史缺失數(shù)據(jù)進(jìn)行插補(bǔ),對(duì)PM2.5 進(jìn)行歷史數(shù)據(jù)統(tǒng)計(jì),并對(duì)PM2.5的變化規(guī)律進(jìn)行分析,但是不能實(shí)現(xiàn)對(duì)PM2.5數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)。擴(kuò)展法綜合考慮了時(shí)間和空間因素,整體性較好,但時(shí)空單位的多種組合形式會(huì)造成插值結(jié)果各異,且不同組合單位之間并不具有換算規(guī)律,結(jié)果不穩(wěn)定。該文以約減法為基礎(chǔ),結(jié)合時(shí)間序列分析和相關(guān)性分析結(jié)果,改進(jìn)PM2.5時(shí)空插值方法。表1 是環(huán)境監(jiān)測(cè)站點(diǎn)數(shù)據(jù)記錄格式表。
2 基于空氣污染物之間相關(guān)性的相關(guān)權(quán)重法
約減法將時(shí)間間隔作為插值權(quán)重,算法基于“等間隔內(nèi)PM2.5指數(shù)變化量相同”的假設(shè),算法執(zhí)行過程中使用中間時(shí)刻對(duì)應(yīng)的前后兩時(shí)刻的PM2.5指數(shù)估算中間時(shí)刻的PM2.5數(shù)值。分析發(fā)現(xiàn),PM2.5的時(shí)間變化量并不均勻,該權(quán)重具有局限性。
2. 1 相關(guān)性分析
相關(guān)性分析是指使用相關(guān)系數(shù)定量的分析兩變量之間的相關(guān)性,以判斷其關(guān)系的密切程度。相關(guān)系數(shù)的取值在[-1,1]范圍內(nèi),為無量綱數(shù),相關(guān)程度與相關(guān)系數(shù)的絕對(duì)值正相關(guān),正值表示正相關(guān)。該文采用Spearson 秩相關(guān)系數(shù)和Pearson 相關(guān)系數(shù)來衡量各空氣污染物指數(shù)與PM2.5指數(shù)值之間的相關(guān)程度。對(duì)于變量X、Y 的觀察值xi 和yi,采用式(1)、式(2)分別計(jì)算Pearson 相關(guān)系數(shù)和Spearson 秩相關(guān)系數(shù):
式(1)(2)中,xi、yi 為i 時(shí)刻兩變量的觀測(cè)值;xˉ、yˉ為兩樣本觀測(cè)均值;N為變量X與Y的Pearson 相關(guān)系數(shù);pi、qi 為兩變量的秩次,N為樣本數(shù)量,R 表示變量X 與變量Y的Spearson 相關(guān)系數(shù)。
2. 2 PM2. 5與主要空氣污染物之間的相關(guān)性
CO、O3、SO2、NO2等氣態(tài)污染物在擴(kuò)散過程中可轉(zhuǎn)換為二次污染物,引起PM2.5指數(shù)變化,研究PM2.5與空氣污染物之間的相關(guān)性對(duì)于描述PM2.5的變化趨勢(shì)具有重要意義。楊可鑫[6]、彭菲等人[7]、黨瑩等人[8]、陳菁等人[9]、BRAVO M A 等人[10]和WONG D W[11]等人通過對(duì)國(guó)內(nèi)外部分地區(qū)空氣污染物暴露水平進(jìn)行監(jiān)測(cè)和分析,證明了主要?dú)怏w污染物與PM2.5的變化趨勢(shì)具有相似性。該文定量分析了成都地區(qū)PM2.5與主要?dú)鈶B(tài)污染物之間的相關(guān)性。
該文以梁家巷觀測(cè)展為例進(jìn)行說明,表2 是各空氣污染物72 h 內(nèi)的指數(shù)觀測(cè)值,圖2 是各空氣污染物的變化曲線,表3 是PM2.5與各氣體污染物之間的相關(guān)系數(shù)。
2. 3 基于空氣污染物相關(guān)性的相關(guān)權(quán)重法
由表3 數(shù)據(jù)可知,除CO 和O3 之外,PM2.5 與SO2、NO2、PM10 的相關(guān)系數(shù)均大于0.6,相關(guān)性較強(qiáng)。進(jìn)行PM2.5時(shí)間插值時(shí),將其變化程度及變化趨勢(shì)作為確定插值權(quán)重的參考。
第一步:數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)預(yù)處理,得到長(zhǎng)為72 h 的六組空氣污染物時(shí)間序列數(shù)據(jù)結(jié)果。
第二步:相關(guān)性分析。根據(jù)編制好的時(shí)間序列數(shù)據(jù),采用公式(1)、公式(2)算出這5 種氣體污染物與PM2.5的相關(guān)系數(shù)Rj,若結(jié)果若滿足式(3),則相關(guān)性較強(qiáng),其變化程度數(shù)據(jù)可作為PM2.5插值權(quán)重的參考。
第三步:權(quán)重計(jì)算。計(jì)算待插值時(shí)刻氣體污染物指數(shù)相對(duì)前后兩連續(xù)時(shí)刻的變化率,該文次采用商表示變化率:
第四步:PM2.5時(shí)間插值計(jì)算。采用式(5)計(jì)算插值結(jié)果。
第五步:PM2.5時(shí)空插值。分析PM2.5的時(shí)、空插值與真值間的相對(duì)關(guān)系,構(gòu)建多元線性回歸模型,估算出PM2.5在時(shí)空范圍內(nèi)任意點(diǎn)的數(shù)值。
3 基于PM2.5自相關(guān)性的函數(shù)模型法
相關(guān)權(quán)重法基于氣體污染物之間的相關(guān)性特征,能實(shí)現(xiàn)對(duì)時(shí)空范圍內(nèi)任意點(diǎn)的插值分析。該方法的局限性在于:第一,只能用于估算首尾時(shí)刻之間的PM2.5數(shù)值;第二,算法基于“一定時(shí)間范圍內(nèi),PM2.5與主要空氣污染物的變化趨勢(shì)具有相似性”的前提,若參考?xì)怏w與PM2.5的相關(guān)系數(shù)小于0.6 時(shí),則該方法的可信度較低[12]。
傳統(tǒng)時(shí)間序列分析方法僅能夠?qū)崿F(xiàn)指定時(shí)刻的數(shù)據(jù)預(yù)測(cè)[13],該文研究了PM2.5時(shí)序數(shù)據(jù)的自相關(guān)特征,構(gòu)建了預(yù)測(cè)模型,實(shí)現(xiàn)了PM2.5指數(shù)的實(shí)時(shí)預(yù)測(cè)。
X = {x1 x2 x24},其中x1~x24 是采樣間隔為1 h的PM2.5時(shí)間序列數(shù)據(jù)集。首先從時(shí)間序列數(shù)據(jù)中計(jì)算出趨勢(shì)變化特征點(diǎn),以此特征點(diǎn)為隔斷,將整個(gè)序列劃分為多個(gè)不等長(zhǎng)的子區(qū)間,然后對(duì)各區(qū)間的觀測(cè)值分別建立函數(shù)估算模型,即:第一步,趨勢(shì)變化特征點(diǎn)的確定。對(duì)于時(shí)間序列X 而言,如果X 滿足條件xp ≤xp + 1 ≤ ≤xi,并且xi ≥xi + 1 ≥ ≥xq (1 ≤p ≤i ≤q ≤n),或者滿足xp ≥xp + 1 ≥ ≥xi且≤xi + 1 ≤ ≤xq (1 ≤p ≤i ≤q ≤n),則xi 為時(shí)間序列數(shù)據(jù)X 的趨勢(shì)變化特征點(diǎn)。
第二步,函數(shù)估算模型的確定。以趨勢(shì)變化特征點(diǎn)為間隔,劃分時(shí)間序列子區(qū)間,使用函數(shù)模型擬合各區(qū)間內(nèi)的PM2.5指數(shù)變化趨勢(shì)估算任意時(shí)刻的PM2.5指數(shù)值。采用式(7)、式(8)進(jìn)行計(jì)算。
式(7)(8)中,a1、b1、a2、b2、c 為函數(shù)模型中的常數(shù),通過最小二乘法計(jì)算得到;Z(t )為PM2.5在t 時(shí)刻的指數(shù)估算值。
第三步,開展PM2.5 數(shù)據(jù)時(shí)空插值計(jì)算。采用式(9)進(jìn)行綜合考慮時(shí)空的混合插值??晒浪闳我鈺r(shí)刻、觀測(cè)站點(diǎn)的PM2.5指數(shù)值。
4 實(shí)驗(yàn)結(jié)果分析
在進(jìn)行PM2.5時(shí)空插值時(shí),第一需要確定時(shí)空插值的目的,第二要確定插值的方法。由圖3 可知,針對(duì)不同的插值要求和數(shù)據(jù)情況,分為以下3 種情況進(jìn)行分別處理。
(1)僅PM2.5 數(shù)據(jù)缺失,也即SO2、NO2 等其他空氣污染物觀測(cè)值完整。該情況下,可計(jì)算PM2.5與各空氣污染物指數(shù)的相關(guān)系數(shù),使用相關(guān)權(quán)重法修補(bǔ)缺失的PM2.5數(shù)據(jù)。
(2)所有氣體污染物觀測(cè)數(shù)據(jù)在某一時(shí)刻整行缺失。該情況下可以使用約減法進(jìn)行數(shù)據(jù)修補(bǔ)。
(3)實(shí)時(shí)空氣污染物指數(shù)值預(yù)測(cè)。需要編制完整時(shí)間序列,進(jìn)行數(shù)據(jù)平穩(wěn)性分析及處理,然后采用函數(shù)模型法進(jìn)行數(shù)據(jù)值預(yù)測(cè)。
4. 1 成都市PM2. 5缺失數(shù)據(jù)修補(bǔ)
截取29 個(gè)環(huán)境觀測(cè)站的連續(xù)72 h 的空氣污染物指數(shù)觀測(cè)數(shù)據(jù)作為數(shù)據(jù)源,對(duì)其進(jìn)行了循環(huán)計(jì)算及交叉驗(yàn)證。分別采用了相關(guān)權(quán)重法、約減法、直接函數(shù)模型法以及平穩(wěn)性處理后的函數(shù)模型法,對(duì)中間段的70個(gè)時(shí)刻的污染物指數(shù)進(jìn)行逐一插值計(jì)算。以平均絕對(duì)誤差、均方根誤差即平均相對(duì)誤差作為計(jì)算結(jié)果的評(píng)價(jià)指標(biāo),對(duì)各插值算法的PM2.5 修補(bǔ)結(jié)果進(jìn)行精度評(píng)價(jià),表4 是指標(biāo)計(jì)算結(jié)果。
評(píng)估結(jié)果反映出:相關(guān)權(quán)重法的精度最高,經(jīng)時(shí)間序列數(shù)據(jù)平穩(wěn)性分析處理后,基于時(shí)間序列的函數(shù)模型法計(jì)算得到的結(jié)果精度有提高。試驗(yàn)表明,各監(jiān)測(cè)站點(diǎn)的計(jì)算結(jié)果一致,該文將以梁家巷觀測(cè)站點(diǎn)為例進(jìn)行結(jié)果展示。圖4 表示不同時(shí)刻的PM2.5指數(shù)修補(bǔ)結(jié)果,圖5 表示不同插值方法的PM2.5數(shù)據(jù)修補(bǔ)結(jié)果的相對(duì)誤差分布。
4. 2 成都市PM2. 5數(shù)據(jù)預(yù)測(cè)
數(shù)據(jù)預(yù)測(cè)前對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)先處理,具體如下。
(1)奇異站點(diǎn)的檢測(cè)與觀測(cè)數(shù)據(jù)修補(bǔ)。奇異站點(diǎn)為數(shù)據(jù)缺失超過3 h 的觀測(cè)站,使用時(shí)間序列分析法對(duì)奇異站點(diǎn)進(jìn)行PM2.5數(shù)據(jù)修補(bǔ)。
(2)時(shí)間序列插值補(bǔ)充。修補(bǔ)歷史缺失數(shù)據(jù),得到完整的時(shí)間序列,為實(shí)時(shí)數(shù)據(jù)預(yù)測(cè)做準(zhǔn)備。
(3)計(jì)算時(shí)空插值模型的參數(shù)值wp、wt,w。
(4)將第24、36、72 組數(shù)據(jù)作為“待預(yù)測(cè)值”,其他組數(shù)據(jù)作為“樣本觀測(cè)值”,對(duì)其進(jìn)行觀測(cè)值預(yù)測(cè)。
該文采用了時(shí)間插值方法、空間插值方法以及基于時(shí)間序列的函數(shù)模型法進(jìn)行插值計(jì)算,表6 是插值精度的評(píng)定結(jié)果。
4. 3 結(jié)果分析
這3 種插值方法的精度由低到高依次為:空間插值算法<時(shí)間插值算法<基于時(shí)間序列的時(shí)空插值算法。其中,基于時(shí)間序列的時(shí)空插值算法的RMSE 比時(shí)間插值法提高了25%,比空間插值法提高了40%。分析其原因:由于研究的環(huán)境監(jiān)測(cè)站點(diǎn)分布不規(guī)律,且數(shù)量有限,導(dǎo)致了空間插值的精度較低;由于用于時(shí)間序列分析的原始數(shù)據(jù)時(shí)間分布均勻,且數(shù)據(jù)量充足,導(dǎo)致時(shí)間插值算法的精度較高;時(shí)空插值算法綜合考慮了時(shí)、空因素對(duì)PM2.5指數(shù)的綜合影響,該文中對(duì)其進(jìn)行了量化分析,并參與插值計(jì)算,故其插值結(jié)果精度最高。
5 結(jié)論
基于時(shí)間序列的時(shí)空插值算法的優(yōu)勢(shì)在于:(1)進(jìn)行時(shí)序數(shù)據(jù)預(yù)測(cè)時(shí),對(duì)時(shí)間間隔無要求;(2)考慮了空間因素對(duì)空氣污染指數(shù)的影響,可以對(duì)任意地點(diǎn)、任意時(shí)刻的PM2.5 觀測(cè)值進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)表明,改進(jìn)后的基于時(shí)間序列的時(shí)空插值算法從理論和原理上可行。