胡俊,楊輝軍,程晨
安徽國際商務職業(yè)學院 信息工程學院,安徽 合肥 231131
工業(yè)的迅猛發(fā)展造成廢氣、廢水及廢棄物等污染物的排放量日益上升,大氣污染程度加劇。對大氣污染及人類健康影響最嚴重的是細顆粒物質(particulate matter,PM),它們既影響人們的生活與出行,又破壞生態(tài)系統(tǒng)的平衡性。PM2.5的濃度直接關系人類日死亡率的上升與疾病癥狀(如哮喘、支氣管炎及肺功能衰弱等的增加)。因此PM2.5濃度問題引發(fā)各界人士的高度關注,預測PM2.5濃度成為熱點研究課題。
文獻[1]提出基于多模態(tài)支持向量回歸混合預測模型,通過集成經(jīng)驗模態(tài)分解方法劃分每天的PM2.5濃度均值,利用所得的各頻段分量序列提升數(shù)據(jù)平穩(wěn)性,基于各分量的獨有屬性,完成不同的支持向量回歸模型設計,明確每組分量的輸入變量,根據(jù)疊加的分量預測值獲取預測結果;文獻[2]通過時間尺度重構改進集成經(jīng)驗模態(tài)分解法-廣義回歸神經(jīng)網(wǎng)絡模型,根據(jù)PM2.5濃度的時間序列數(shù)據(jù),探析濃度的多尺度變化屬性與氣象因子、大氣污染因子的尺度響應特征,取得預測濃度;文獻[3]設計基于T-S模糊神經(jīng)網(wǎng)絡的PM2.5濃度預測方法,依據(jù)測得的實際數(shù)據(jù),采用偏最小二乘法選取有關PM2.5的輔助變量,利用T-S模糊神經(jīng)網(wǎng)絡,構建濃度與變量間的軟測量模型,通過歷史數(shù)據(jù)實現(xiàn)模型訓練。
上述預測模型因大氣污染的影響因素較多,預測結果出現(xiàn)了高度的非線性情況,產(chǎn)生較大偏差。本文創(chuàng)建基于改進人工蜂群BP神經(jīng)網(wǎng)絡的PM2.5濃度預測模型,以期提供更為精準的預測結果。
人工蜂群反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡善于處理非線性數(shù)據(jù)或存在噪音的數(shù)據(jù),尤其是特征問題具有模糊性、不完整性及不嚴密性等特點時,該方法的處理效果十分顯著,廣泛應用于優(yōu)化控制、智能決策、模式識別及預測預報等問題研究中。
以搜索形式與跟隨蜂選擇概率為改進角度,對人工蜂群算法進行尋優(yōu)精度與收斂速率的提升。雇傭蜂[4-6]與跟隨蜂在原有食物源周邊的隨機搜索式為:
(1)
式中:i為食物源的編號,i∈[1,SN],其中SN為食物源數(shù);j為問題解向量中分量參數(shù)的編號,j∈[1,D],其中D為問題的維數(shù);Xij為局部最優(yōu)路徑;r1、r2為隨機數(shù),分布區(qū)間分別為(0,1.0)、(0,1.5);Xne,j為跟隨蜂在原有食物源周邊的搜索路徑;yj為全局最優(yōu)解的第j個變量。
式(1)可大概率避免出現(xiàn)局部最優(yōu)情況,但其搜索的隨機性減緩了算法的收斂速度[7-9]。為了提高收斂速度,在搜索過程中引入全局最優(yōu)解。但添加全局最優(yōu)解會破壞蜂群的多樣性,因為蜂群適應度較高,食物源集中速度過快,導致收斂過早,陷入局部極小值。加入自適應調整因子b1與b2,平衡收斂速率與種群多樣性。改進的人工蜂群算法公式為:
(2)
根據(jù)式(2)可知:算法的初期階段,b2>b1,所選食物源向全局最優(yōu)解的集中速率相對更快,收斂速度提升;后期階段,b2 為了改進算法后期階段中局部最優(yōu)解對搜索性能的抑制,可以增強隨機食物源的影響力,提高種群的多樣性。 傳統(tǒng)人工蜂群算法中,跟隨蜂選取食物源的概率 (3) 式中fi、fj為Xi、Xj對應的適應度。 由式(3)可知:食物源的選中概率隨適應度的升高而增大,因進化階段內蜂群向較高適應度的食物源迅速聚攏,破壞種群多樣性,陷入局部極小化。采用反向輪盤賭[13-15]選擇機制,式(3)改寫為: (4) 該機制讓跟隨蜂開采適應度較差的食物源,避免種群向高適應度食物源聚攏,維持種群適應度,但算法前期階段的收斂速率下降。為了確保種群多樣性,不再發(fā)生局部最優(yōu)狀況,跟隨蜂在算法前期向高適應度食物源集中,在算法后期向低適應度食物源集中。 引入自適應判斷因子 經(jīng)過優(yōu)化的概率計算公式為: (5) 式中:rand為區(qū)間[0,1]內的任意值;σ為變量,與niter正相關,在算法的前期階段,種群選取式(3)計算選擇概率的可能性較大,但后期階段極有可能選取式(4)計算選擇概率。 BP神經(jīng)網(wǎng)絡是一種基于梯度下降法[16-18]的多層網(wǎng)絡模型,將初始權重與閾值賦予網(wǎng)絡后,利用層間前向傳輸信息并計算網(wǎng)絡的輸出值,采用期望輸出與實際輸出形成的偏差,利用誤差反向傳播,調整網(wǎng)絡的權重與閾值,通過不停地訓練、對比,最小化算法的仿真偏差[19-22]。 由人工蜂群算法處理BP神經(jīng)網(wǎng)絡權重的更新階段,加快收斂速度,防止出現(xiàn)局部極小值狀況。步驟為:1)按照輸入樣本和輸出要求,構建神經(jīng)網(wǎng)絡結構。2)權重wij與輸入層和隱藏層相連,權重wjk與隱藏層和輸出層相連,在初始化BP神經(jīng)網(wǎng)絡后,將人工蜂群算法的優(yōu)化目標設為wij與wjk。3)初始化人工蜂群算法的蜂群規(guī)模、nmax及nlimit等參數(shù)。4)實施跟隨蜂、雇傭蜂及偵查蜂的操作,尋求最佳食物源。5)把最佳食物源傳回BP神經(jīng)網(wǎng)絡。 基于灰色系統(tǒng)理論,當系統(tǒng)存在已知信息或者不確定信息時,其數(shù)據(jù)可能出現(xiàn)隨機性,但仍具有一定的有界性與有序性,屬于一種規(guī)律性數(shù)據(jù)集。PM2.5的質量濃度受多種因素的影響,所有因素之間的關聯(lián)性不僅無法定量分析,而且在特定區(qū)域中動態(tài)變化。采用灰色關聯(lián)分析[23-25]策略甄別所有因素間的發(fā)展趨勢依賴程度,探索PM2.5質量濃度所有影響因素的影響程度。 1)構建初始數(shù)據(jù)矩陣 xi=[xi(1)xi(2)xi(3) …xi(k)], 式中xi(k)為第k時刻第i因素的初始數(shù)據(jù),其中i=1,2,…,7,k=1,2,…,n,n為初始數(shù)據(jù)的長度。 2)求解xi的變換矩陣 3)計算差序列 4)求解關聯(lián)系數(shù) 式中:φ為分辨系數(shù),主要用以實現(xiàn)關聯(lián)系數(shù)之間差異顯著性的提升,其取值范圍是(0,1)。 5)求解灰色關聯(lián)度 由于PM10、NO2、CO、O3、SO2的濃度、溫度以及相對濕度具有較大的關聯(lián)性,灰色關聯(lián)分析策略將其作為PM2.5質量濃度的主要影響因素,并設為預測模型的變量因子。 若把采集的PM2.5樣本數(shù)據(jù)直接用于改進人工蜂群BP神經(jīng)網(wǎng)絡的預測模型中,預測結果偏差將大幅增加,因此需要對所得數(shù)據(jù)進行預處理。 采集的樣本數(shù)據(jù)取值范圍較大,采用三倍標準差方法檢驗處理所采集的樣本數(shù)據(jù),濾除異常數(shù)據(jù)。三倍標準差方法的基本原理為:假設X1,X2,…,Xi,…,Xn為所有的樣本數(shù)據(jù)集合,其平均值與標準差公式為: 在樣本數(shù)據(jù)的檢驗階段,若數(shù)據(jù)的標準差大于3γ,則該數(shù)據(jù)是異常數(shù)據(jù),需去除。 為了同一數(shù)據(jù)的量綱與量級,縮小取值差異性,利用最大最小線性歸一化策略歸一化處理所得樣本數(shù)據(jù),歸一化公式為: 式中:Xnorm為歸一化處理后的樣本數(shù)據(jù),Xmin、Xmax分別為相應屬性的極小值與極大值,X為當前待歸一化處理的樣本數(shù)據(jù)。 根據(jù)污染等級,利用三位二進制編碼標簽化樣本數(shù)據(jù):001為優(yōu),010為良,011為輕度污染,100為中度污染,101為重度污染,110為嚴重污染。 對wij、wjk及隱藏層閾值a和輸出層閾值c進行初始化處理,基于輸入值x1,x2,…,xi、wij與a,求解隱藏層輸出值 式中:l為BP神經(jīng)網(wǎng)絡的隱藏層節(jié)點個數(shù),f為激勵函數(shù)。 依據(jù)求解的每個Hj、wjh及ch,計算所有輸出層PM2.5質量濃度 計算Yh和PM2.5預估質量濃度Yh′的誤差 更新神經(jīng)網(wǎng)絡的權重與閾值后,依據(jù)eh,調整wij、wjh、各隱藏層aj和各輸出層ch為: wjh=wjh+ηHjeh, ch=ch+eh, 式中η為神經(jīng)網(wǎng)絡的學習速率。 待所得數(shù)值滿足終止條件時,預測結束;否則,重新計算隱藏層與輸出層的數(shù)值,再次調整網(wǎng)絡的權重與閾值,直到符合終止條件。 圖1 BP神經(jīng)網(wǎng)絡框架示意圖 采用Matlab編寫仿真分析的代碼,BP神經(jīng)網(wǎng)絡含有輸入層、輸出層及隱藏層,各層級間的神經(jīng)元相互連接,層內的神經(jīng)元不相連,如圖1所示。 將BP神經(jīng)網(wǎng)絡輸入層、隱藏層以及輸出層的節(jié)點神經(jīng)元數(shù)量分別設置為8、18和2,得到待優(yōu)化的200個BP神經(jīng)網(wǎng)絡優(yōu)化參數(shù)指標,包括BP神經(jīng)網(wǎng)絡閾值20個,權重180個,其中含有144個輸入層與隱藏層間的權重,36個輸出層與隱藏層間的權重。人工蜂群算法的指標參數(shù)設定為:種群規(guī)模為100,最多滯留10次,迭代次數(shù)不超過50次,搜索步長是0.5,學習因子為2。 在中國環(huán)境檢測網(wǎng)站發(fā)布的實時數(shù)據(jù)中,選取100組PM2.5質量濃度數(shù)據(jù)作為訓練樣本與預測檢驗數(shù)據(jù)。 為了驗證本文模型的精準度,分別采用文獻[1-2]中的模型進行仿真分析,如圖2所示。 a)文獻[1]模型 b)文獻[2]模型 c)所建模型圖2 PM2.5濃度預測模型效果對比 由圖2可知:采用文獻[1-2]模型預測35 d內的PM2.5質量濃度與真實濃度存在一定差異,采用本文基于改進人工蜂群BP神經(jīng)網(wǎng)絡的PM2.5濃度預測模型得到的預測質量濃度與真實質量濃度非常接近,說明所建模型的預測準確度較高。 求解采用不同方法預測PM2.5質量濃度的均方誤差。均方誤差可評價數(shù)據(jù)的變化程度,是預測濃度與真實之差的平方和的平均值,該值越小表明預測結果的準確度越高,其計算公式為: (6) 利用式(6)得到不同模型的預測質量濃度的相對誤差,如表1所示。 通過表1可以看出:文獻[1-2]及本文模型的相對誤差分別為27%、19%和8%,其中,文獻[1]模型的最大和最小相對誤差分別為0.03、0.99,文獻[2]模型的最大、最小相對誤差分別為0.05、0.28,而本文模型的最大和最小相對誤差分別為0.01、0.15,與其他兩種模型相比,本文模型的相對誤差下降幅度較大,誤差極小,準確性較高。 本文提出基于改進人工蜂群BP神經(jīng)網(wǎng)絡的PM2.5濃度預測模型, 引入全局最優(yōu)解與自適應調整因子,使收斂速率與種群多樣性得以平衡,依據(jù)灰色關聯(lián)分析策略,確定預測模型的變量因子,基于神經(jīng)網(wǎng)絡的預測濃度與真實濃度形成的誤差,實現(xiàn)權重與閾值的重新調整,完成預測模型的創(chuàng)建。仿真結果表明:該模型的預測準確度較高,預測濃度的相對誤差較小,為大氣污染預控提供了有效的技術支持,具有重要的現(xiàn)實意義與實踐價值。 表1 各模型PM2.5預測質量濃度與實際質量濃度的相對誤差1.2 人工蜂群下BP神經(jīng)網(wǎng)絡的改進
2 PM2.5濃度預測模型設計
2.1 灰色關聯(lián)探析
2.2 PM2.5數(shù)據(jù)處理
2.3 PM2.5濃度預測模型的實現(xiàn)
3 仿真分析
3.1 仿真環(huán)境
3.2 性能對比分析
4 結語