尤 游 張林靜
(1.安徽機(jī)電職業(yè)技術(shù)學(xué)院 公共基礎(chǔ)教學(xué)部,安徽 蕪湖 241000;2.安徽警官職業(yè)學(xué)院 信息管理系,合肥 230031)
隨著工業(yè)化、城鎮(zhèn)化進(jìn)程的逐漸加劇和經(jīng)濟(jì)的高速發(fā)展,空氣質(zhì)量問題越來越受到全社會(huì)的關(guān)注。大氣污染對(duì)人們的健康和生活產(chǎn)生了嚴(yán)重的影響,而空氣質(zhì)量的好壞與城市的發(fā)展?jié)摿o密相關(guān)。因此,空氣質(zhì)量的日常預(yù)測(cè)和可視化對(duì)城市的環(huán)境管理和可持續(xù)發(fā)展有著重要的意義,良好的空氣質(zhì)量有利于提升城市綜合競(jìng)爭(zhēng)力[1-2]。
目前,空氣質(zhì)量的優(yōu)劣主要通過空氣質(zhì)量指數(shù)(AQI)的大小來衡量??諝赓|(zhì)量指數(shù)的監(jiān)測(cè)結(jié)果不僅與PM2.5、PM10、CO、NO2、SO2、O3等6種污染物濃度有關(guān),還與風(fēng)速、溫度、濕度等氣象因素有關(guān),需要綜合考慮。由于這些因素之間存在較復(fù)雜的非線性映射關(guān)系,而神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力,因此,近年來基于神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測(cè)得到了廣泛的應(yīng)用。
BP神經(jīng)網(wǎng)絡(luò)是最具代表性的神經(jīng)網(wǎng)絡(luò)。誤差反向傳播算法最為常見但也存在一定的缺陷,在訓(xùn)練過程中會(huì)出現(xiàn)收斂速度慢、訓(xùn)練時(shí)間過長(zhǎng)、易陷入局部最優(yōu)等情況,且易發(fā)生過擬合現(xiàn)象,削弱了網(wǎng)絡(luò)模型的泛化能力[3-4]。針對(duì)該算法存在的缺陷,一般采用LM算法進(jìn)行改進(jìn)。LM算法既具備高斯-牛頓法的速度優(yōu)勢(shì),又結(jié)合了梯度下降法的局部收斂性,但也存在內(nèi)存占用較大等缺點(diǎn)[3-4]。貝葉斯正則化是在LM算法的基礎(chǔ)上提出來的,通過修正網(wǎng)絡(luò)訓(xùn)練性能函數(shù),規(guī)范訓(xùn)練規(guī)模,從而降低網(wǎng)絡(luò)發(fā)生過擬合的概率,提高神經(jīng)網(wǎng)絡(luò)的健壯性和泛化能力[4]。因此,本次研究基于貝葉斯正則化算法(BR算法)優(yōu)化BP神經(jīng)網(wǎng)絡(luò),構(gòu)建BR-BP神經(jīng)網(wǎng)絡(luò)模型,通過預(yù)測(cè)準(zhǔn)確率及誤差指標(biāo)對(duì)兩種算法進(jìn)行實(shí)證分析。
BP神經(jīng)網(wǎng)絡(luò)屬于多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程包括信號(hào)正向傳播與誤差反向傳播等兩個(gè)階段。訓(xùn)練樣本在正向傳播過程中,從輸入層經(jīng)過隱含層傳到輸出層,得到實(shí)際輸出信號(hào);如果此時(shí)的輸出結(jié)果達(dá)不到期望要求,則進(jìn)入反向傳播階段,通過不斷修正各神經(jīng)元的權(quán)閾值來降低預(yù)測(cè)誤差,反復(fù)循環(huán),使得網(wǎng)絡(luò)輸出不斷逼近期望輸出[5]。BP神經(jīng)網(wǎng)絡(luò)包含輸入層、隱含層和輸出層等3層結(jié)構(gòu),如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)訓(xùn)練之前需要確定各連接層的節(jié)點(diǎn)數(shù),輸入層和輸出層的節(jié)點(diǎn)數(shù)一般由訓(xùn)練樣本決定,而隱含層的節(jié)點(diǎn)數(shù)在理論上一直未有定論,一般通過逐步試驗(yàn)來調(diào)試預(yù)測(cè)誤差的大小,從而確定其最優(yōu)值。調(diào)試的同時(shí)也會(huì)參考經(jīng)驗(yàn)公式,如式(1)所示:
(1)
式中:γ為隱含層節(jié)點(diǎn)數(shù);l、m分別表示輸入層、輸出層神經(jīng)元節(jié)點(diǎn)數(shù);t為1~10的任意常數(shù)。
網(wǎng)絡(luò)的泛化能力是神經(jīng)網(wǎng)絡(luò)性能的重要評(píng)價(jià)指標(biāo)。BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中易出現(xiàn)局部最優(yōu)而非全局最優(yōu)、預(yù)測(cè)效果不及訓(xùn)練效果等情況,以及為達(dá)到預(yù)設(shè)條件可能會(huì)過度訓(xùn)練,即產(chǎn)生過擬合現(xiàn)象。LM算法的優(yōu)勢(shì)是訓(xùn)練速度快,但內(nèi)存占用過大。本次研究在LM算法的基礎(chǔ)上,提出利用BR算法改進(jìn)訓(xùn)練性能函數(shù),以規(guī)范網(wǎng)絡(luò)規(guī)模,提高網(wǎng)絡(luò)泛化能力。
神經(jīng)網(wǎng)絡(luò)常用均方誤差(MSE)表示誤差函數(shù),即:
(2)
式中:n為訓(xùn)練樣本數(shù);YCi(j)為算法預(yù)測(cè)值;SJi(j)為樣本實(shí)際值。
BR=p×fω+q×fD
(3)
式中:p、q為正則化參數(shù),其大小將直接影響網(wǎng)絡(luò)擬合效果。
若p?q,則通過調(diào)節(jié)網(wǎng)絡(luò)規(guī)模可以得到理想的訓(xùn)練誤差,但可能會(huì)訓(xùn)練過度,導(dǎo)致出現(xiàn)過擬合現(xiàn)象;若p?q,則連接權(quán)重可能會(huì)大幅降低,使得網(wǎng)絡(luò)規(guī)模減小并簡(jiǎn)化,進(jìn)而出現(xiàn)欠擬合現(xiàn)象,導(dǎo)致訓(xùn)練誤差達(dá)不到預(yù)期效果。
為了得到最優(yōu)的p和q,基于貝葉斯分析方法,認(rèn)為網(wǎng)絡(luò)權(quán)重和訓(xùn)練樣本的先驗(yàn)分布均服從高斯分布[8]?;诤篁?yàn)函數(shù)最大化的原則,對(duì)BR性能函數(shù)進(jìn)行求解,得出ω的最小值ω*,此時(shí)p*、q*為最優(yōu)參數(shù)[9],即:
(4)
式中:φ表示有效權(quán)值個(gè)數(shù),反映網(wǎng)絡(luò)實(shí)際規(guī)模,φ=M-p*×trace-1(H*),M為測(cè)試樣本數(shù)。
H*為訓(xùn)練性能函數(shù)BR求解出ω*時(shí)對(duì)應(yīng)的Hession矩陣,H=p▽2fw+q▽2fD,該矩陣可通過高斯-牛頓法來逼近[8,10]。
蕪湖市是安徽省第二大城市,長(zhǎng)期以來堅(jiān)持新發(fā)展理念,聚力長(zhǎng)三角一體化發(fā)展,在政治、經(jīng)濟(jì)、文化等方面占有重要的地位。蕪湖市位于長(zhǎng)三角西南部,地處長(zhǎng)江下游,屬亞熱帶濕潤(rùn)型季風(fēng)氣候,年平均氣溫15~16 ℃,日照時(shí)數(shù)2 000 h左右[11]。氣候特點(diǎn)是光照充足,雨量充沛,四季分明。
根據(jù)2012年發(fā)布的《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ 633—2012),按照AQI將空氣質(zhì)量劃分為6個(gè)等級(jí),依次為一級(jí)優(yōu)、二級(jí)良、三級(jí)輕度污染、四級(jí)中度污染、五級(jí)重度污染和六級(jí)嚴(yán)重污染[11-12]。AQI數(shù)值越大說明空氣質(zhì)量等級(jí)越高,空氣質(zhì)量越差,大氣污染越嚴(yán)重,對(duì)人們的健康危害越大[11]。空氣質(zhì)量等級(jí)劃分如表1所示。
表1 空氣質(zhì)量等級(jí)劃分
以蕪湖市空氣質(zhì)量為研究對(duì)象,利用前一天的AQI、6種污染物濃度和當(dāng)天的氣象數(shù)據(jù)建立神經(jīng)網(wǎng)絡(luò)模型,及時(shí)預(yù)測(cè)當(dāng)天的AQI。具體設(shè)置如下:神經(jīng)網(wǎng)絡(luò)的輸入層為前一天的AQI,前一天的PM2.5、PM10、CO、NO2、SO2、O3等6種污染物濃度以及當(dāng)天的氣象數(shù)據(jù)(最低溫度、最高溫度、風(fēng)級(jí)和濕度),輸出層為當(dāng)天的AQI預(yù)測(cè)值。神經(jīng)網(wǎng)絡(luò)模型的變量設(shè)置如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)模型的變量設(shè)置
數(shù)據(jù)來源于空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)(https:∥www.aqistudy.cn/)、安徽省生態(tài)環(huán)境廳官網(wǎng)(http:∥sthjt.ah.gov.cn/)和相關(guān)氣象網(wǎng)站(http:∥tianqi.2345.com/),通過查詢整理獲得蕪湖市2020年全年空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)和同期氣象數(shù)據(jù)。對(duì)照《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ 633—2012)評(píng)價(jià)標(biāo)準(zhǔn),蕪湖市2020年全年空氣優(yōu)良天數(shù)為322 d,優(yōu)良率為88.0%,輕度污染天數(shù)為38 d,中度污染及以上天數(shù)為6 d。全年空氣優(yōu)良天數(shù)較2019年增加了62 d,優(yōu)良率提高了16.2%,這與蕪湖市近年來加大生態(tài)環(huán)境保護(hù)力度有關(guān)。
設(shè)置預(yù)測(cè)準(zhǔn)確率(SQL)、平均絕對(duì)百分比誤差(MAPE)和MSE等3個(gè)指標(biāo)。其中,根據(jù)中國(guó)氣象局對(duì)空氣質(zhì)量預(yù)報(bào)評(píng)分的有關(guān)規(guī)定,認(rèn)為當(dāng)實(shí)際值和預(yù)測(cè)值的差值≤25時(shí),此次預(yù)測(cè)評(píng)分為100分,因此,衡量AQI預(yù)測(cè)是否準(zhǔn)確的臨界值為數(shù)值25[13]。具體公式見式(5)—(7):
(5)
(6)
(7)
式中:K為AQI預(yù)測(cè)正確(|SJi(j)-YCi(j)|≤25)的天數(shù)。
利用Matlab 2016對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行構(gòu)建,輸入層為前一天的AQI,前一天的PM2.5、PM10、CO、NO2、SO2、O3等6種污染物濃度和當(dāng)天的氣象數(shù)據(jù)(最低溫度、最高溫度、風(fēng)級(jí)和濕度),節(jié)點(diǎn)數(shù)為11;輸出層為當(dāng)天的AQI預(yù)測(cè)值,節(jié)點(diǎn)數(shù)為1。為了量化預(yù)測(cè)結(jié)果,在樣本數(shù)據(jù)中隨機(jī)抽取70%作為訓(xùn)練樣本,剩下的30%作為測(cè)試樣本。分別采用LM算法和BR算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,并對(duì)仿真結(jié)果進(jìn)行類比分析。
利用LM算法對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練函數(shù)為trainlm函數(shù)。網(wǎng)絡(luò)訓(xùn)練之前,利用mapminmax函數(shù)對(duì)數(shù)據(jù)歸一化處理,隱含層的激活函數(shù)采用tansig函數(shù),輸出層的激活函數(shù)采用purelin線性函數(shù),最小誤差設(shè)為0.001,學(xué)習(xí)率為0.01,迭代次數(shù)為1 000。隱含層節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)公式確定為5—13,根據(jù)試錯(cuò)法原則確定隱含層最優(yōu)節(jié)點(diǎn)數(shù)為8,建立11-8-1結(jié)構(gòu)的LM-BP神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練結(jié)束后對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),最后反歸一化得到110個(gè)測(cè)試樣本的AQI預(yù)測(cè)值,并將其與AQI實(shí)際值進(jìn)行對(duì)比。同時(shí),得到LM算法的SQL為73.64%、MAPE為28.43%、MSE為0.104 2。AQI實(shí)際值與LM算法預(yù)測(cè)值的對(duì)比見圖3??梢钥闯觯蟛糠诸A(yù)測(cè)效果較好,但個(gè)別預(yù)測(cè)誤差較大,說明該算法有待改進(jìn)。
圖3 AQI實(shí)際值與LM算法預(yù)測(cè)值的對(duì)比
利用BR算法進(jìn)行仿真實(shí)驗(yàn),構(gòu)建BR-BP神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練函數(shù)為trainbr函數(shù)。同理得到BR算法對(duì)應(yīng)的AQI預(yù)測(cè)值,其測(cè)試樣本預(yù)測(cè)值與實(shí)際值的對(duì)比見圖4。進(jìn)一步量化分析得到,BR算法的SQL為87.27%,比LM算法提高了13.63%;MAPE為19.66%,MSE為0.043 7,均優(yōu)于LM算法。兩種算法的預(yù)測(cè)誤差曲線見圖5。通過蕪湖市空氣質(zhì)量預(yù)測(cè)仿真實(shí)驗(yàn)分析可知,相較于LM-BP神經(jīng)網(wǎng)絡(luò),BR-BP神經(jīng)網(wǎng)絡(luò)對(duì)AQI的預(yù)測(cè)效果更好。兩種模型的擬合效果量化指標(biāo)對(duì)比見表2。
圖4 實(shí)際值與BR算法預(yù)測(cè)值的對(duì)比
圖5 LM算法和BR算法的預(yù)測(cè)誤差曲線
表2 預(yù)測(cè)效果量化指標(biāo)對(duì)比
AQI是衡量空氣質(zhì)量狀況的重要指標(biāo),對(duì)AQI進(jìn)行實(shí)時(shí)有效的預(yù)測(cè)能及時(shí)給政府以及相關(guān)部門提供大氣環(huán)境質(zhì)量的變化趨勢(shì)[14],有利于提高環(huán)保部門對(duì)大氣污染的風(fēng)險(xiǎn)信息研判和預(yù)警能力。本次研究收集蕪湖市2020年全年空氣質(zhì)量數(shù)據(jù)和相關(guān)氣象數(shù)據(jù),建立BP神經(jīng)網(wǎng)絡(luò)模型,并進(jìn)行仿真實(shí)驗(yàn)??紤]到BP神經(jīng)網(wǎng)絡(luò)易出現(xiàn)過擬合現(xiàn)象,分別采用LM算法和BR算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)。仿真結(jié)果表明,BR算法的預(yù)測(cè)效果更優(yōu),BR-BP神經(jīng)網(wǎng)絡(luò)模型可以提高空氣質(zhì)量預(yù)報(bào)的準(zhǔn)確率,對(duì)空氣污染的監(jiān)測(cè)、預(yù)警和防控治理具有一定的參考價(jià)值。
另外,影響空氣質(zhì)量的因素還有很多,不僅包括氣象因素,還包括社會(huì)環(huán)境、人為因素以及地理環(huán)境等,如城市的經(jīng)濟(jì)發(fā)展水平、產(chǎn)業(yè)結(jié)構(gòu)、城市綠化率、廢棄排放量、城市所處的地形地貌等。若要考慮完整的影響指標(biāo),還需要在后期完成一系列更加細(xì)致有效的工作。