陶雪梅,李 高
(綿陽市氣象局,四川 綿陽 621000)
綿陽,又稱“中國科技城”,位于四川盆地西北部,涪江中上游地帶。冬半年受偏北氣流控制,氣候干冷少雨;夏半年受偏南氣流控制,氣候炎熱、多雨、潮濕。隨著城市發(fā)展規(guī)模不斷擴大及城市人口的不斷增加,城市問題日益突出,污染物排放量隨之增加,空氣污染嚴重,直接危及人類健康。
空氣質量指數(shù)(AQI) 動態(tài)變化平均態(tài)可反映出總體的變化趨勢[1],但通常使某些極端污染事件被平滑掉。為了細致了解綿陽空氣質量的狀況,分析了2014 年至2019年AQI月變化趨勢如圖1。AQI 冬季高,春季居中,夏秋低。由于冬天空氣流動性比較差,而且空氣中的污染物增多[2]。除了原有的裝修、家具、電腦產生的有害氣體甲醛、氨氣、苯和放射性物質和電子污染以外,天氣冷不可能會經常開窗通風,空調取暖,室內的一氧化碳、二氧化碳和漂浮的灰塵、顆粒物都會逐步增多。直接導致冬季空氣質量最差。
空氣質量主要以SO2、NO2、PM10三種污染物濃度來衡量。污染物濃度除了受排放量的變化影響之外,另一主要影響因素就是氣象要素的變化。因此對綿陽市的空氣質量進行分析,研究影響綿陽市環(huán)境空氣質量的關鍵氣象因子[3],并尋找一種適合的分析方法,對有效防控大氣污染提供科學依據,對空氣質量預測預報模型的建立提供技術指導。
最小值43,平均值77,最大值240圖1 綿陽空氣質量指數(shù)月變化趨勢Fig.1 Monthly variation trend of air quality index in Mianyang
空氣污染歷史資料選取2014~2016年的AQI、PM2.5、PM10、SO2、CO、NO2、O3-h08(臭氧含量的8小時滑動平均值);空氣污染物濃度為8小時滑動平均值;由于部分氣象要素對于空氣污染的影響具有滯后性,地面氣象實測資料選取前日平均氣壓、前日平均溫度、前日相對濕度、當日風速、當日最大風速、當日降水量8~20(當日08~20點累計降水量)、當日日照時數(shù)等7種對污染影響較大的氣象要素。
采用Matlab中的多元線性回歸方法[4],分析哪些是主要影響因素,并建立回歸模型,驗證該模型擬合程度。
2.1 建立回歸模型
使用多元線性模型 y=b1+b2x1+b3x2+b4x3+b5x4+b6x5+b7x6+b8x7;輸入x1至x7,分別為2014~2016年每日的前日平均氣壓、前日平均溫度、前日相對濕度、當日風速、當日最大風速、當日08~20點累計降水量、當日日照時數(shù)等7種對污染影響較大的氣象要素;輸出y,為2014~2016年每日的空氣質量等級。
在matlab中進行多元線性擬合,可以得到以下結果,其中回歸系數(shù)b如圖2、回歸系數(shù)的區(qū)間估計bint如圖3、驗證擬合顯著性各參數(shù)如圖4。
圖2 系數(shù)bFig.2 Coefficient b
圖3 b的置信區(qū)間Fig.3 Confidence interval of b
圖4 擬合顯著性的值Fig.4 Fit significance value
2.2 模型擬合
對模型擬合效果的闡述r2=0.3327,對回歸模型整體的方差檢驗F=51.3632,判斷F檢驗是否顯著p=2.2135e-59。由r2=0.3327可以看出,通過該方法擬合出的結果,自變量對于因變量的解釋率僅為33.27%,顯然遠遠達不到要求,因此采用回歸方程,僅用氣象要素因子對空氣污染的預報模型誤差較大,認為不成立。
采用MATLAB中的神經網絡工具箱函數(shù)編制
網絡建立、訓練、測試的程序。通過不斷試算[5],分析不同結構參數(shù)或以不同算法訓練的網絡模型的性能,選擇合理的網絡結構及訓練方法,探尋提高網絡泛化能力和預報精度的方法。
針對本文研究的模型,采用含有一個隱含層的三層BP網絡。
(1)輸入輸出節(jié)點的選取
輸入層接收外部的輸入數(shù)據,其配置必須考慮那些可能影響到輸出的參數(shù)。但輸入的緯數(shù)過多會使網絡的計算量激增,從而導致系統(tǒng)收斂慢,甚至癱瘓。對于本系統(tǒng),空氣污染的形成不外乎兩個途徑:污染源(即SO2、CO、NO2、O3-h08等)的直接影響及氣象條件對污染物的擴散、稀釋和累積。因此輸入節(jié)點選取除了地面氣象實測資料的前日平均氣壓、前日平均溫度、前日相對濕度、當日風速、當日最大風速、當日降水量8~20、當日日照時數(shù)等7種影響較大的氣象因子外,還選取前日的空氣污染指數(shù)AQI、PM10、SQ2、CO、NO2、O3等6種因子,共13種輸入因子作為輸入節(jié)點數(shù)據。輸出層節(jié)點數(shù)為1(即當日空氣的質量等級)。
(2)隱含節(jié)點的選取
隱含節(jié)點數(shù)的選取原則一般是在能正確反映輸入輸出關系的基礎上,盡量選取較少隱含節(jié)點個數(shù)。然后在訓練中根據情況逐步增加,直到滿足網絡性能要求為止。
隱層節(jié)點數(shù)的初始值可以參照以下公式來確定:
其中:n為隱層節(jié)點數(shù),ni為輸入節(jié)點數(shù),no為輸出節(jié)點數(shù),a為1~10之間的常數(shù)。
本文根據輸入、輸出節(jié)點數(shù)及盡量小的a值,初始選取隱含節(jié)點為5~15,針對不同隱含層對網絡進行訓練,分析預測效果如圖5,最終選擇最佳隱層節(jié)點數(shù)5。
圖5 隱層節(jié)點數(shù)及訓練次數(shù)對訓練樣本相關度的影響Fig.5 The influence of the number of hidden layer nodes andtraining times on the correlation of training samples
(3)訓練方法的選取
改進的BP算法主要分為兩大類:一類是對誤差性能函數(shù)梯度加以分析從而改進的啟發(fā)式學習算法,如動量BP算法、學習率可變的BP算法等;一類是基于數(shù)值最優(yōu)化理論的訓練算法,如擬牛頓法、L-M算法、共軛梯度法、SCG算法等。選取不同算法在相同條件下,對網絡進行訓練,結果比較分析,選用均方誤差作為算法選擇的標準,如下表。
表 不同BP算法訓練效果對比Tab. Comparison of training effects of different BP algorithms
采用newff()函數(shù)建立網絡對象,由于newff()調用的初始化權值的隨機性,所以每次訓練結果不同,表中列出的是五次隨機運行的結果??梢钥闯鯯CG算法的均方誤差相對比較小,且穩(wěn)定。因此選擇SCG算法作為本模型的訓練方法。
為了提高網絡的泛化性能,采用在SCG算法中使用提前終止法(訓練函數(shù)為trainscg),trainscg也叫比例共軛梯度法,將模值信賴域算法與共軛梯度算法結合起來,減少用于調整方向時搜索網絡的時間。該訓練方法是一種快速訓練函數(shù),是權值訓練方法對網絡進行訓練,在訓練中求得最佳訓練時間時停止訓練,避免出現(xiàn)過度擬合。使用該方法訓練時,函數(shù)會將初始輸入數(shù)據分為3個子集:訓練集、驗證集和測試集。在訓練過程中網絡會使用訓練集訓練出的網絡模式,用驗證集來進行驗證,如果驗證誤差增大到一定程度,網絡訓練提前終止。這時訓練函數(shù)會返回驗證誤差最小值時的網絡對象。
輸入數(shù)據選取2014~2015兩年的數(shù)據(共729個)作為樣本。因提前終止法需要構造確認樣本集,因此將數(shù)據采用等間隔的方式抽取分為三部分,其中1/4用于驗證,1/4用于測試,剩余1/2用于訓練網絡。
3.1 數(shù)據初始化處理
(1) 首先建立輸入向量矩陣p與輸出向量矩陣t,大小分別為13*729,1*729。
(2) 對數(shù)據進行歸一化處理,采用prestd()函數(shù)對輸入p,輸出t進行歸一化處理,以保證數(shù)據集具有零均值。得到歸一化矩陣pn、tn如圖6、圖7。
[pn, meanp, stdp,tn,meant,stdt]=prestd (p,t);
圖6 歸一化處理后的輸入矩陣pnFig.6 Normalized input matrix pn
圖7 歸一化處理后的輸出矩陣tnFig.7 Normalized output matrix tn
(3)對輸入向量進行主成分分析,采用prepca()函數(shù)進行主成分分析。只保留所占99%的主要成分數(shù)據。
[ptrans,transMat〗=prepca (pn,0.01);
其中ptrans數(shù)組是主成份分析以后得到的矩陣,下面對分析后的矩陣進行檢驗,
[R,Q]=size(ptrans)
R=8, Q =682
可以看出ptrans是一個8列682行的矩陣
可以看出看出通過主成分分析,輸入向量的緯數(shù)從13降到了8,向量維數(shù)降低了。降低了原輸入數(shù)據的冗余度。
(4)構造訓練樣本集、驗證樣本集與測試樣本集。
val為驗證樣本,.P為輸入,.T為輸出,test是測試樣本。各種樣本的選擇采取從中間間隔選取數(shù)據,以達到樣本的代表性及合理。
iitst=2:4:q;
構建iitst矩陣,從2開始,步長為4,直到小于q=729,為后面間隔選取測試樣本集提供參數(shù),如下式(2)。
iival=4:4:q;
構建iival矩陣,從4開始,步長為4,直到小于729,為后面選取驗證樣本集提供參數(shù),如下式(1)。
iitr=[1:4:q 3:4:q];
構建iitr矩陣,由1開始,步長為4,直到小于729和由3開始,步長為4,直到小于729兩個組成,為后面選取二分之一為訓練樣本提供參數(shù),如下式(3)。
val.P=ptrans(:,iival);val.T=tn(:,iival);
(1)
式(1)表示按照iival數(shù)組的列數(shù)提取ptrans矩陣中的值,構建驗證樣本集。
test.P=ptrans(:,iitst);test.T=tn(:,iitst);
(2)
式(2)表示按照iitst數(shù)組的列數(shù)提取ptrans矩陣中的值,構建測試本集。
ptr=ptrans(:,iitr);ttr=tn(:,iitr);
(3)
式(3)表示按照iitr數(shù)組的列數(shù)提取ptrans矩陣中的值,構建訓練樣本集。
3.2 訓練模型建立
定義網絡和訓練網絡,得到訓練模型如圖8。
net=newff(minmax(ptr),[5,1],{′tansig′,′purelin′},′trainscg′);
newff為網絡的生成,隱含層神經元個數(shù)5,輸出層個數(shù)1,傳遞函數(shù)tansig為正切S型傳遞函數(shù),輸出層傳遞函數(shù)選為線性函數(shù)purelin,訓練函數(shù)為trainscg。
net.trainParam.epochs=100;
其中epochs用來定義訓練迭代的最大值
[net,tr]=train(net,ptr,ttr,[],[],val,test);
采用train函數(shù)對生成的網絡進行訓練。
從結果彈窗中可以看出,經過43次迭代,完成了神經網絡的運算,并通過了6次有效性測試。
3.3 模型驗證
將訓練誤差、驗證誤差和測試誤差繪制在一幅圖中,以直觀地觀察訓練過程,如圖9。從提前終止法的訓練過程可以看出,測試誤差和驗證誤差性質變化趨勢相同,表明樣本集的劃分是合理的。
最后,利用訓練好的網絡對測試樣本進行預報,結果如圖10所示。
圖8 BP網絡污染預測模型結構Fig.8 BP network pollution prediction model structure
圖9 訓練誤差、驗證誤差和測試誤差對比Fig.9 Comparison of training error、verification error and test error
圖10 預報值與實際值間的線性回歸結果Fig.10 The result of linear regression between forecast value and actual value
rn=sim(net,test.P);
[M,B,R]=postreg(rn,test.T);
由此可見預報值與實際值的相關系數(shù)達到了0.967 13,預報的精準程度很高。采用該模型預報空氣污染是可行的。
4.1 綿陽市一年中冬季出現(xiàn)污染日的幾率最大,夏、秋空氣質量比較良好。
4.2 采用多元線性回歸分析方法建立的預報模型對原始數(shù)據的擬合及預測存在較大誤差,自變量對于因變量的解釋率僅為33.27%;基于BP神經網絡,采用訓練方法為SCG 算法的提前終止法對網絡進行訓練,并利用測試樣本集對預報模型的仿真結果進行檢驗,預報值與實際值的相關系數(shù)達到0.967 13。
4.3 用神經網絡技術進行空氣質量的預測是一項涉及面很廣,還有很大深度進行研究的工程,本文只是初步探討了兩種預測模型。對于特殊條件如周末、城市不同的功能區(qū)、更多的氣象因子的影響、污染源、污染物等對空氣質量影響還無法深入研究。對于綿陽市的空氣污染的防治還需強化對各區(qū)域“散亂污”企業(yè)、磚瓦企業(yè)、建筑工地、道路揚塵等污染問題進行專項整治,確保我市環(huán)境空氣質量持續(xù)改善。