金文彪 姚永杰 金哲植
摘 要 為更好地反映長春市大氣環(huán)境狀況,以長春市2014年P(guān)M2.5監(jiān)測數(shù)據(jù)作為主要指標進行研究分析。借助SAS統(tǒng)計分析軟件,采取線性插值法對樣本數(shù)據(jù)缺失值進行補插。鑒于各指標變量之間具有強相關(guān)性及異方差現(xiàn)象,不滿足一般多元線性回歸基本假設條件,應用極大似然法對樣本數(shù)據(jù)進行Box-Cox非線性變換,并基于主成分分析理論建立回歸模型,成功地消除了以上弊端。檢驗預測證明模型能夠用以預測分析長春市未來大氣環(huán)境狀況.
關(guān)鍵詞 PM2.5 線性插值 Box-Cox變換 主成分分析 預測分析
中圖分類號:X823 文獻標識碼:A DOI:10.16400/j.cnki.kjdkz.2016.11.071
0 引言
從長春市2014年10、11、12月份月平均PM2.5濃度以及優(yōu)良級天數(shù)監(jiān)測結(jié)果(數(shù)據(jù)來自吉林省環(huán)境保護廳)可以看出:這三個月長春市優(yōu)良級天數(shù)比例均小于50.0%,幾乎整個冬季都處于連續(xù)污染狀態(tài),霧霾問題嚴重,再加上嚴寒的天氣,使得市民易于感染呼吸道疾病,甚至加重比如敏感、哮喘病等類患者的病情。因此準確預測并及時公布大氣環(huán)境狀況變得越來越重要。
近年來,專家學者開展了一些相關(guān)的研究工作。劉小生等①提出了一種基于基因表達式編程的PM2.5濃度預測研究;彭斯俊等②提出了一種基于ARIMA模型的PM2.5預測模型;陳俏等③提出了一種基于支持向量機和回歸法的大氣污染物濃度預測模型。這些文獻通過研究個別因素對大氣環(huán)境狀況提出了預測方法,但是氣象因素對PM2.5的影響是十分復雜的,實際情況中往往是不同氣象因素相互影響的結(jié)果。尤其是ARIMA模型只突出了時間因素在預測中的作用,沒有考慮到外界具體因素的影響,因而存在著預測誤差的缺陷,當遇到外界發(fā)生較大變化往往會有較大偏差。
本文旨在用與PM2.5濃度相關(guān)性強的因素,綜合考慮PM10、CO、NO2、SO2四項指標對PM2.5濃度的影響,并基于主成分分析理論提取幾個互不相關(guān)的主成分進行回歸分析,最終得到準確度較高的大氣環(huán)境預測模型。
1 材料與方法
1.1 數(shù)據(jù)預處理
1.1.1 補充缺失數(shù)據(jù)
本文數(shù)據(jù)來自天氣后報網(wǎng),共研究PM2.5、PM10、CO、NO2、SO2五項指標,個別日期(共4天)的數(shù)據(jù)缺失。這時,我們使用SAS統(tǒng)計分析軟件,運用插值法補全缺失值。
1.1.2 Box-Cox非線性變換④⑤
將原始數(shù)據(jù)中PM2.5、PM10、CO、NO2、SO2等因子依次記為、、、、,因事先由散點圖分析可得,PM2.5與PM10、CO具有良好的線性關(guān)系,考慮到變換的簡便性最終選定對PM2.5、PM10和CO做變換€%d的值為0,記變換后的PM2.5、PM10和CO為、和;對NO2和SO2進行Box-Cox變換的過程中,最優(yōu)€%d的取值是依據(jù)最大似然估計的方法原理來確定,由SAS統(tǒng)計軟件計算得到,最終選擇NO2和SO2的最優(yōu)€%d值依次為0.5、0,經(jīng)過Box-Cox變換后的NO2和SO2依次用下列符號標記:和。
1.2 主成分分析原理
主成分分析⑥是將多指標化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的線性組合,且各個主成分之間互不相關(guān)。這樣在研究復雜問題時就可以只考慮少數(shù)幾個主成分且不止于損失太多信息,從而更容易抓住主要矛盾,解釋事物內(nèi)部變量之間的規(guī)律性,同時使問題得以簡化,提高分析效率。
2 結(jié)果
2.1 主成分分析
本過程主要通過SAS軟件⑦實現(xiàn),詳細程序參照附件。輸出結(jié)果(表1)給出了各變量之間的相關(guān)系數(shù)矩陣??梢钥闯觯号c之間的相關(guān)系數(shù)為0.8341,呈現(xiàn)非常強的相關(guān)性;
與,與之間的相關(guān)系數(shù)均為0.6800以上,有較強的相關(guān)性,其他變量之間相關(guān)性則相對較弱。不滿足多元線性回歸的基本假定條件,這也是本文選擇主成分回歸的主要原因之一。
輸出結(jié)果(表2)給出了相關(guān)系數(shù)矩陣的特征值、上下特征值之差、各主成分的方差貢獻率以及累計貢獻率??梢钥闯觯谝恢鞒煞值姆讲钬暙I率為71.34%,前兩個主成分的累計貢獻率已達87.69%,因此,只需前面兩個主成分就可以概括這組數(shù)據(jù)。根據(jù)相關(guān)系數(shù)矩陣的各個特征值的特征向量,可以寫出前三個主成分得分:
2.2 主成分回歸
現(xiàn)在用對前兩個主成分和做普通最小二乘回歸,得到主成分回歸方程為:
=3.93932+0.36567€Ha0.01363 (3)
但是斜率的t檢驗p值0.4123>0.05,未通過顯著性檢驗,即認為與之間的線性回歸關(guān)系不顯著,需對模型進一步的調(diào)整。
經(jīng)過多次對u和主成分、、之間進行不同模型模擬對比分析,最終采用逐步回歸法選取與、做最小二乘回歸,輸出結(jié)果如表3。雖然信息量從原來的87.69%降到了79.78%,但截距和斜率的t檢驗p值<0.0001,有顯著的線性關(guān)系。最終得到主成分回歸方程:
為了得到和、、、之間的關(guān)系,運用R軟件⑧編寫計算系數(shù)的函數(shù)代碼作變換,得到還原后的主成分回歸方程為:
3 結(jié)果分析
3.1 殘差分析
回歸方程通過了t檢驗,只是表明變量之間的線性關(guān)系是顯著的,但不能保證數(shù)據(jù)擬合得很好,也不能排除由于意外原因而導致的數(shù)據(jù)不完全可靠,比如異常值出現(xiàn)、周期性因素干擾等。借助SAS統(tǒng)計分析軟件以回歸預測值作橫軸,以殘差 =€Ha作縱軸,將相應的殘差點畫在直角坐標系上,得到殘差圖如圖1。
從殘差圖上看出,殘差是圍繞隨機波動的,表明模型中不存在異方差、相關(guān)性問題,模型的基本假定是滿足的。
3.2 預測
為了更好地反映模型的擬合效果,我們對2015年1月2日到3月27日的PM2.5進行預測,并與實際值對比。預測曲線圖如圖2,除了少數(shù)幾天PM2.5預測值偏差較大外,其它模擬效果比較樂觀,而且相對誤差相對較小,很大程度上接近了PM2.5的實際觀測值。進一步地證明該模型能夠較準確地預測未來短期的PM2.5趨勢和水平。
4 結(jié)論
本文利用長春市2014年空氣質(zhì)量歷史數(shù)據(jù),基于主成分分析理論建立了大氣環(huán)境預測模型,并預測2015年1月至3月的污染物PM2.5濃度,通過將其與實際值檢測值進行對比分析,表明運用此模型在PM10、CO、NO2、SO2各項指標已知的情況下,能夠?qū)M2.5進行準確性預測。
模型的判定系數(shù)和修正分別為0.9225和0.9221,均方殘差平方根為0.1866。這說明回歸方程的擬合效果非常好,能夠很好地反映并及時公開大氣環(huán)境狀況,讓公眾更加精確地感知到本地空氣質(zhì)量的真實情況,還可以有的放矢地治理大氣污染,通過數(shù)據(jù)分析找出污染源頭。
注釋
① 劉小生,李勝,趙相博.基于基因表達式編程的PM2.5濃度預測研究[J].江西理工大學學報,2013.34(5):1-5.
② 彭斯俊,沈加超,朱雪.基于ARIMA模型的PM2.5預測[J].安全與環(huán)境工程,2014.21(6):125-128.
③ 陳俏,曹根牛,陳柳.支持向量機應用于大氣污染濃度預測[J].計算機技術(shù)與發(fā)展,2010.20(1):250-252.
④ 張誠.基于Box-Cox變換的城市火災起數(shù)的模型研究[D].合肥工業(yè)大學碩士學位論文,2013.
⑤ 胡宏昌,樊獻花.廣義Box-Cox變換[J].周口師范學院學報,2006.23(5):17-19.
⑥ 何曉群.應用回歸分析(第三版)[M].北京:中國人民大學出版社,2011.
⑦ 汪遠征,徐雅靜.SAS與統(tǒng)計應用教程[M].北京:機械工業(yè)出版社,2007.1
⑧ Robert I.Kabacoff. R in Action: Data Analysis and Graphics with R[M].Manning Publications Co,2011.