付 麗 師和欣
(綏化學院信息工程學院 黑龍江綏化 152061)
空氣中污染物濃度達到有害程度時就構成了空氣污染,污染物濃度超過了環(huán)境質量標準時,就對人和物造成了危害,它破壞了生態(tài)系統(tǒng)和人類正常生活的條件。[1]所有使空氣質量變壞的物質都是空氣污染物。城市空氣污染數(shù)據(jù)的采集由于各種客觀原因,會使采集的數(shù)據(jù)序列體現(xiàn)出一定的異?,F(xiàn)象,因此以部分地區(qū)的空氣污染問題為背景,然后在現(xiàn)有的國家最新空氣污染無監(jiān)測標準(HJ633-2012環(huán)境空氣質量指數(shù)(AQI)技術規(guī)定)的基礎上利用異常檢測來進行研究。通過建立數(shù)學模型,代入相關空氣質量和氣候的數(shù)據(jù),分析空氣質量數(shù)據(jù)是否存在不真實現(xiàn)象,通過污染物之間的相關性來確定數(shù)據(jù)不真實及嚴重性,根據(jù)已建立的數(shù)學模型對數(shù)據(jù)進行分析,最終為環(huán)境保護和政策制定提供支撐。
我國現(xiàn)在通常采用AQI和空氣污染指數(shù)(API)來衡量空氣質量,根據(jù)國家最新空氣污染無監(jiān)測標準(HJ633-2012環(huán)境空氣質量指數(shù)(AQI)技術規(guī)定)當中所規(guī)定的污染物排放限制,來建立衡量空氣質量優(yōu)良等級的評價模型。
(一)單狀態(tài)量數(shù)據(jù)的時間序列自回歸模型(autoregressive,AR)。et為服從N(μe,λ2)的正態(tài)分布序列,xt為在線監(jiān)測數(shù)據(jù)的時間序列,服從N(μ,σ2),其中那么有公式:
正常狀態(tài)下每個在線監(jiān)測狀態(tài)量,都不應超過相應的限值,那么假設a≤xt≤b。對所有a≤xt+k≤b,可以推導出:
由于et~N(μe,λ2),所以根據(jù)(2)可知整個序列滿足屬于區(qū)間[a,b],只能當α小于一個限值α0時才可實現(xiàn)。
因為設備產生故障的過程緩慢,此時監(jiān)測到的數(shù)據(jù)通常未超出限值,很難被發(fā)現(xiàn),所以在線監(jiān)測數(shù)據(jù)如果沒有超出狀態(tài)量限值時,單純地用AR模型很難檢測出異常狀態(tài)。
(二)自組織神經網絡(self organized maps,SOM)對時間序列的量化。自組織神經網絡適用于數(shù)據(jù)很多、沒有標簽的狀態(tài)監(jiān)測數(shù)據(jù)。SOM的輸入節(jié)點為整個序列xt,輸出節(jié)點為序列c={c1,c2,…,cn},通過公式
對每一個xt訓練其屬于節(jié)點cj。為確保xt距其所屬節(jié)點的距離最小,用公式
反復進行循環(huán)和修正,其中學習速率γ(t)∈[0,1],其隨著t的增大而減小。
通過SOM訓練完成后,單狀態(tài)量的時間序列xt就轉化為線性空間中的離散點時間序列ct∈{c1,c2,…,cn}:
因為ct表示關于每一個時間點t最接近于xt的節(jié)點,所以對時間序列xt的量化就用ct代表了[2]。
(三)時間序列變化過程的挖掘。SOM神經網絡的輸出節(jié)點間通過網絡拓撲結構兩兩相關。在拓撲結構中,由于SOM訓練時每個神經元節(jié)點與鄰域內的節(jié)點競爭強,與鄰域外的節(jié)點競爭弱的這一特點,在拓撲結構中通過量化后的時間序列ct將一個神經元轉移到另一個神經元,得出數(shù)據(jù)隨時間的變化規(guī)律[2]。
1.神經元所屬的概率密度函數(shù)。神經元之間的相關關系用一階轉移概率P來表示,AR(n)模型中P[ct+1|c1,c2,…,ct-n+1]為神經元之間的一階轉移概率,可得P[ct+1|ct]為AR(1)模型的一階轉移概率。c1,c2,…,cn取值分別1,2,…,n,在時刻t由式(5)可得,ct=cI的概率為
那么i(xt)的概率密度函數(shù)由式(5)和(6)得
當I=1時,式(9)簡化為
當I=N時,式(9)簡化為
2.神經元之間的轉移概率。二階概率分布函數(shù)可表示為
式中cI1,cI2∈{c1,…,cN},I1=(a1,b1),I2=(a2,b2)。由于式(12)中xt屬于正態(tài)分布,因此xt的二階正態(tài)分布函數(shù)為
其中一階AR過程的自相關函數(shù)為ρ(k)=αk。由(6)、(9)將(13)式簡化為
對在線監(jiān)測數(shù)據(jù)采用如圖1所示步驟,根據(jù)時間序列的特征量提取算法進行異常檢測。
圖1 異常檢測步驟圖
(四)多類Logistic回歸分析。我們要引入了多分類Logistic回歸模型,因為在實際問題中,響應變量有多種取值,不一定是發(fā)生及不發(fā)生兩種情況。記y是一個響應變量,取值從0到c-1,并且y=0是一個參照組,協(xié)變量x=(x1,x2,…,xp),那么可以得條件概率:
其中k=0,1,2,…,c-1。由此可以得到相應的Logistic回歸模型:
顯然:g0(x)=0??紤]到社會因素問題,利用線性回歸分析建立空氣質量和工業(yè)生產數(shù)據(jù)之間的函數(shù)關系的數(shù)學模型,同時利用其他地區(qū)的數(shù)據(jù),驗證了該模型有效性。線性回歸的數(shù)學模型為
用矩陣形式表示為
其中:y=(y1,y2,…yn)T為解釋變量;α=(α1,α2,…αn)T為模型的截距項;
β=(β1,β2,…βn)T為待估計參數(shù);x=(xij)n×k為解釋變量;ε=(ε1,ε2,…εn)T為誤差項。用α+Xβ組成的線性部分和隨機誤差項εt解釋被解釋變量的變化。線性模型估計相關的參數(shù)一般采用最小二乘估計法。估計相關的參數(shù)是回歸分析的核心也是預測的基礎。最后根據(jù)全國各省上半年PM均值排名及鋼材產量分省市統(tǒng)計數(shù)據(jù),利用多類Logistic回歸分析SSPSS軟件獲得結果。
這個模型充分地考慮到每一個因素所存在的差異,利用模型對城市的空氣質量數(shù)據(jù)進行重新鑒別,增強了數(shù)據(jù)科學性。模型對各城市空氣污染數(shù)據(jù)采用函數(shù)計算的方法來解決問題,依據(jù)已查找的數(shù)據(jù)計算分析AQI,提高了模型準確率。依據(jù)原有的數(shù)據(jù)和已計算出的數(shù)據(jù)進行對比,更加直觀的判斷了空氣污染數(shù)據(jù)的真實性。該模型在計算,制定計劃,政策分析等領域都可以廣泛應用。但是這個模型也有不令人滿意的地方,雖然要解決城市的空氣污染數(shù)據(jù)真實性問題,但是受數(shù)據(jù)的限制,只是判斷某些城市的某些天的空氣污染數(shù)據(jù)的真實性,那么位于同一空氣質量等級的城市還需要更多的數(shù)據(jù),更多的背景加以數(shù)學處理和討論。