王深 蔡雪 郭秋岑
【摘要】 目的:海量的空氣質(zhì)量數(shù)據(jù)中,異常數(shù)據(jù)會干擾后續(xù)的實驗與分析。因此,有必要對異常數(shù)據(jù)進行監(jiān)測,提高數(shù)據(jù)的準確性。方法:通過對北京市AQI和空氣污染物和天氣氣象數(shù)據(jù)的分析,發(fā)現(xiàn)AQI與這些因素具有較高的相關(guān)性。通過逐步回歸的方法找出AQI與PM2.5,PM10,CO, ,溫度,相對濕度相關(guān)性很強,進而我們建立了多元回歸模型。之后,我們對單一的AQI進行檢測,使用ARMA時間序列模型,有效地減少多重線性和過度參數(shù)化對模型的影響。結(jié)果:結(jié)合監(jiān)測值和真實值圖像可以看出這兩種模型大部分監(jiān)測數(shù)據(jù)與真實數(shù)據(jù)相同,只有個別天數(shù)出現(xiàn)異常,符合實際的情況。
【關(guān)鍵詞】 多元回歸 ARMA時間序列 異常值檢測 空氣質(zhì)量
The Abnormal Value Monitoring of Air Quality
Abstract: the objective: the abnormal data will disturb subsequent experiments and analysis in lots of air quality data. Therefore, it is necessary to monitor abnormal data to improve the data accuracy. The method: through the analysis of AQI, air pollutant data and weather data in Beijing, we find that AQI has a higher correlation with these factors. With the method of stepwise regression, we also find that AQI also has a strong correlation with PM2.5, PM10, CO, temperature and relative humidity, and then we establish a multiple regression model. After that, the single AQI is tested, and we use an ARMA time series model to reduce the influence of multiple linear and excessive parameterization on the model. The result: combining the monitoring value and true value image, we can find that most monitoring data are the same as true data for these two models, with a few abnormal day-numbers, which is in accord with the actual situation.
Key words: multiple regression; ARMA time series; abnormal value monitoring; air quality
引言
空氣質(zhì)量問題始終是政府、環(huán)境保護部門和全國人民關(guān)注的熱點問題??諝赓|(zhì)量監(jiān)測是空氣質(zhì)量科學(xué)表征的重要數(shù)據(jù)來源,其目的是獲得高質(zhì)量的環(huán)境監(jiān)測數(shù)據(jù),并由此推斷整個環(huán)境現(xiàn)有的質(zhì)量特征。但在實際監(jiān)測過程中,樣品的采集、分析和采樣地點的偶發(fā)事件以及各種環(huán)境要素本身的時空變化等一系列因素都可能對監(jiān)測結(jié)果產(chǎn)生影響,導(dǎo)致數(shù)據(jù)出現(xiàn)異常。
以往對此課題的研究最為常見的即為“斷點檢驗法”的方法[1],發(fā)現(xiàn)數(shù)據(jù)中的確存在值得關(guān)注的造假問題,其表現(xiàn)是:在臨界點上出現(xiàn)不連續(xù)的斷點。二氧化硫和二氧化氮的數(shù)據(jù)異常并不明顯。在有便是利用數(shù)學(xué)統(tǒng)計的方法[2]研究中直觀判斷殘差圖,方差齊性時在零值附近隨機波動,不帶任何趨勢。直觀判斷殘差平方圖,由于殘差均值為零,從而殘差異方差性取決于參加平方的性質(zhì),方差齊性意味著殘差平方圖在某個值附近波動,不具有某種趨勢。構(gòu)造檢驗統(tǒng)計量,異方差的檢驗實質(zhì)上就是異方差相關(guān)性檢驗,考慮殘差均值為零,只需對殘差平方的隨機性進行檢驗,即如果殘差滿足隨機性,而殘差平方滿足相關(guān)性,就說明殘差具有異方差性。
本文通過多元回歸分析和ARMA(2,3)模型對AQI 進行監(jiān)測,及時的發(fā)現(xiàn)異常值,以便于對異常點進行合理分析,剔除其中的可疑或不合理的數(shù)據(jù),并分析產(chǎn)生異常的原因,使被監(jiān)測的客觀環(huán)境質(zhì)量狀況能夠得到真實反映。
一、模型構(gòu)建與數(shù)據(jù)處理
1.1數(shù)據(jù)來源
數(shù)據(jù)來源于2013-2015年北京市氣象局統(tǒng)計年鑒和中國天氣網(wǎng)。
1.2多元回歸分析原理
因為產(chǎn)能預(yù)測可看成一個變量與多個變量之間的相關(guān)關(guān)系,所以可利用多元線性回歸的方法進行模擬預(yù)測。
1.3模型建立過程
1.相關(guān)性分析
由于各個地理位置所處的環(huán)境不同,影響AQI的因素也是多種多樣,但PM2.5,PM10,NO2,CO,SO2,這5個因素的濃度對AQI有直接的影響關(guān)系。天氣對空氣質(zhì)量同樣也有影響,氣壓的高低影響大氣內(nèi)部氣流運動,風(fēng)速大小,對低空污染物的稀釋與擴散有影響。溫度高低影響氣體的垂直運動。相對濕度大小影響水汽吸附空氣中的污染物。風(fēng)速大小對大氣污染物的影響主要體現(xiàn)在稀釋作用。
研究表明:當風(fēng)速較大時,污染物與風(fēng)速呈正相關(guān),與本研究結(jié)果類似。大氣污染物與氣象因素的相關(guān)分析表明,和氣溫、風(fēng)速、濕度之間存在較為顯著的相關(guān)關(guān)系。統(tǒng)計與分析結(jié)果見表1。
將樣本值帶回式子(1)得出回歸分析值與實際值的對比圖,見圖1。圖表中黑色線為實際值,灰色線為回歸值。我們可以看出真實值和回歸值絕大多數(shù)是吻合的,但是有個別的數(shù)值偏差較大。
1.4.2 殘差分析
通過殘差檢驗得到Durbin-Watson值為1.677,所以殘差符合正態(tài)分布,之后我們對回歸方程進行殘差分析篩選異常值,我們通過標準殘差來識別異常值,如果某一個觀測值所對應(yīng)的標準化殘差較大,就可以識別為異常值。根據(jù)經(jīng)驗,通常將標準化殘差小于-2,大于2的值視為異常值,篩選結(jié)果如圖2所示。
1.4.3模型的不足
通過常識可以知道,重工業(yè)排放時,各種化學(xué)成分會被同時排放,排放的增加量之間是存在系數(shù)關(guān)系的。
通過相關(guān)性表(表1)我們可以看出,空氣中各個化學(xué)元素成分存在很強的線性關(guān)系,因此我們懷疑可能出現(xiàn)共線性問題和過多參數(shù)化問題。因此我們提出單一的對AQI進行分析,提出時間序列模型進行檢測。
1.5模型的不足
通過常識可以知道,重工業(yè)排放時,各種化學(xué)成分會被同時排放,排放的增加量之間是存在系數(shù)關(guān)系的。
通過相關(guān)性表(表1)我們可以看出,空氣中各個化學(xué)元素成分存在很強的線性關(guān)系,因此我們懷疑可能出現(xiàn)共線性問題和過多參數(shù)化問題。因此我們提出單一的對AQI進行分析,提出時間序列模型進行檢測。
二、ARMA模型
2.1 ARMA模型的簡介
自回歸移動平均模型(Autoregressive Moving Average Models,ARMA),簡稱B-J方法,其基本原理是:將時間序列視為隨機過程,用一個數(shù)學(xué)模型來描述或模擬;一旦該模型確定,就可用該序列的過去值和現(xiàn)值來預(yù)測未來值 [4] 。
2.2ARMA模型建立
2.2.1模型假設(shè)
我們假設(shè)在分析AQI數(shù)值的時間范圍以內(nèi),無人為的主觀擾動(如舉行大型會議,進行車輛限行,工廠限排放等)。
2.2.2模型識別
觀察每天的AQI值,通過統(tǒng)計分析發(fā)現(xiàn),AQI的均值為118.7,標準差為75.9,通過觀察可知AQI的波動較小,相對比較平穩(wěn)。
通過相關(guān)性圖像可以觀測到時間序列是平穩(wěn)的,自相關(guān)圖,偏自相關(guān)圖在2階和3階之后是趨近于0的,并且ADF的檢測值為-11.98,比1%顯著性水平臨界值-3.45要小,因此在99%的置信水平下,可以拒絕原假設(shè),認為序列PM2.5不存在單位根,即序列平穩(wěn)。由于無法判斷自相關(guān)圖和偏自相關(guān)圖是拖尾還是截尾。
因此,我們通過SAS建立一個ARMA模型組,設(shè)AR從0到4,MA從0到4,通過比對AIC和SBC的值初步篩選出下面7個比較符合的ARMA模型。
2.2.3參數(shù)估計值
我們對這7個模型的每一個系數(shù)做相關(guān)參數(shù)的評估,發(fā)現(xiàn)這前六個模型的AIC比較接近,SBC值中ARMR(2,3)模型比較小,所以我們對ARMR(2,3)的模型的系數(shù)進行檢驗,結(jié)果顯示該模型每一項的t值都小于0.01,ARMR(2,3)的各個參數(shù)如表3。因此。得出ARMR(2,3)模型是比較適合對AQI值進行評估的。
把表3的參數(shù)估計值帶入ARMR(2,3)模型中,整理后可以得出北京市的AQI指數(shù)的分析評估模型,我們將分析值和實際的AQI繪制成一張圖,如圖所示,我們將置信區(qū)間定為95%,因此可以篩選出偏離值較大的數(shù)值,我們將它們做成圖表如圖3所示。
三、結(jié)論
多元回歸模型是使用多個維度來重新評定的AQI數(shù)值,通過觀察各個因變量之間的相關(guān)性,進行逐步回歸最終確定回歸系數(shù),但是在多次回歸過程中,可能造成過度參數(shù)化和共線性的問題。
于是,我們提出ARMR(2,3)模型,ARMA模型是目前最好的單一變量隨機時序預(yù)測法,其基本思想是用時間序列的過去值和現(xiàn)在值的線性組合來預(yù)測其未來值,即ARMA時間序列模型不需要考慮預(yù)測變量的相關(guān)因素及其關(guān)系,而是利用事物發(fā)展的延續(xù)性,建立時間序列模型來分析之后的變化。因此,突然的急劇增大和減少,就極有可能是異常值。
參 考 文 獻
[1] Dalia Ghanem. Junjie Zhang. Do Chinese Cities Manipulate Air Pollution Data?[J]. Journal of Environmental Economics and Management.2005.
[2]李航.統(tǒng)計學(xué)習(xí)方法.清華大學(xué)出版社,北京,2012.
[3]王燕.應(yīng)用時間序列分析.第二版.中國人民大學(xué)出版社,北京,2008.
[4]王振龍.應(yīng)用時間序列分析.第二版.中國統(tǒng)計出版社,北京,2006.
[5]周世峻.大連市空氣污染預(yù)測預(yù)報統(tǒng)計方法的研究.環(huán)境保護科學(xué),2000(8).
[6]劉曉利.試驗設(shè)計中多元回歸分析方法的研究.數(shù)理統(tǒng)計與管理,2001(4).