陸冰鑒 周 鵬 王 興, 周 可
1(南京信大氣象科學(xué)技術(shù)研究院 江蘇 南京 210044)2(南京信息工程大學(xué)大氣科學(xué)與環(huán)境氣象國家級實驗教學(xué)示范中心 江蘇 南京 210044)
大氣能見度(Visibility)是反映大氣透明度的一個指標。一般定義為具有正常視力的人在當時的天氣條件下還能夠看清楚目標輪廓的最大地面水平距離。大氣能見度是氣象監(jiān)測中的一項重要指標,在道路通行、航海、航空和環(huán)境保護監(jiān)測等領(lǐng)域應(yīng)用較廣[1]。20世紀60年代第二次工業(yè)革命以來,隨著人類生產(chǎn)生活對化石能源的消耗劇增,排放到大氣中的顆粒物如PM2.5、PM10越來越多,這些顆粒物凝結(jié)核形成的氣溶膠降低了大氣能見度,影響了交通運輸業(yè)的安全運行,是導(dǎo)致交通事故的主要氣象影響因子。在海洋和內(nèi)河運輸業(yè)中,大約三分之一的船舶相撞事故都是由能見度低導(dǎo)致的。雖然現(xiàn)代航船上有先進的導(dǎo)航系統(tǒng),但低能見度仍然是一個不可忽視的隱患[2]。例如:2018年1月16日8:00“豐海18”輪與“惠豐6799”輪發(fā)生碰撞,“惠豐6799”輪沉沒,后又有5艘船舶與“惠豐6799”輪相撞,據(jù)調(diào)查最主要是因為霧霾籠罩,水域能見度不良。所幸此次事故無人員傷亡,但是也造成了重大經(jīng)濟損失。因此,對于大氣能見度的預(yù)測顯得尤為重要。
當前,能見度預(yù)報仍以天氣圖分析預(yù)報、經(jīng)驗預(yù)報和數(shù)值預(yù)報為主。隨著數(shù)值預(yù)報的發(fā)展,現(xiàn)在也有數(shù)值釋用和霧模式預(yù)報等。數(shù)值釋用要先了解污染物濃度和變化規(guī)律,再計算能見度。由于影響污染物濃度變化的因素和變化規(guī)律較難掌握,加上計算量較大,該方法在業(yè)務(wù)應(yīng)用中開展緩慢[3]。而霧模式僅有一定的機理分析用途,難以進行實際預(yù)報[4]。近年來,學(xué)者們引入了神經(jīng)網(wǎng)絡(luò)[5]、支持向量機、線性與非線性回歸[6]等方法。如梁之彥等[7]分別以徑向神經(jīng)網(wǎng)絡(luò)和統(tǒng)計回歸預(yù)報方程預(yù)報能見度,驗證了徑向神經(jīng)網(wǎng)絡(luò)在能見度低于10 km時預(yù)報準確率更高。由于能見度的影響因素有多種,需要尋找多元要素與能見度的關(guān)系,如蔡仁等[8]利用大氣溫度、相對濕度、風速等要素應(yīng)用SVM和Elman神經(jīng)網(wǎng)絡(luò)方法分別建立烏魯木齊市3 h能見度預(yù)報模型;馬楚焱等[9]將7種氣象因子和6種污染物濃度因子首先做主成分分析,再基于遺傳神經(jīng)網(wǎng)絡(luò)模型預(yù)測輸出8:00和14:00的能見度。這些方法改進能見度預(yù)報,但應(yīng)用成果尚不理想,且在低能見度天氣的預(yù)報上仍然薄弱。
為了解決樣本不均衡、低能見度預(yù)報不準確等問題,本文提出一種基于相關(guān)性分析和數(shù)據(jù)均衡的能見度分層預(yù)測模型,主要通過相關(guān)性分析挑選主要相關(guān)因子,去除不相關(guān)因子的干擾;通過隨機下采樣進行數(shù)據(jù)均衡,通過先分類再回歸的分層思想預(yù)測能見度。提高了網(wǎng)絡(luò)的泛化能力,從而提高能見度類別預(yù)測的準確率,降低能見度預(yù)測的誤差。
本文研究數(shù)據(jù)來自江蘇省區(qū)域地面氣象觀測站,采用2000年1月至2018年12月逐日的觀測數(shù)據(jù)作為實驗數(shù)據(jù),其中,將2018年之前的數(shù)據(jù)用作訓(xùn)練,將2018年的數(shù)據(jù)用作測試。其實驗數(shù)據(jù)的主要組成如表1所示。其中數(shù)據(jù)要素主要包含45項輸入因子和一項輸出,45項輸入因子主要包含地面因子、近地面因子和主觀因子三類。
表1 數(shù)據(jù)總體構(gòu)成
在本文數(shù)據(jù)總體構(gòu)成中,采用45項因子作為輸入項。但是考慮到在45項因子中,存在與輸出項相關(guān)性很小或者不相關(guān)的因子,這些因子會干擾網(wǎng)絡(luò)的學(xué)習(xí),最終影響網(wǎng)絡(luò)預(yù)測結(jié)果。因此增加對所有因子項和能見度做相關(guān)性分析,通過相關(guān)性分析結(jié)果,挑選出顯著相關(guān)的因子作為輸入項。
本文的相關(guān)性分析是通過SPSS軟件計算Pearson相關(guān)系數(shù)分析得出,其Pearson相關(guān)系數(shù)計算結(jié)果如表2所示。表2中各要素縮寫含義如表3所示。表2中數(shù)字后面帶有*和**的表示顯著相關(guān),**在0.01水平(雙側(cè))上顯著相關(guān),*在0.05水平(雙側(cè))上顯著相關(guān)。因此,挑選這樣的因子作為輸入因子,最后總共挑選出輸入項34項。
表2 各項輸入因子與能見度的Pearson相關(guān)系數(shù)
續(xù)表2
表3 各項英文縮寫含義
由于在多數(shù)類樣本中存在大量重復(fù)信息,一方面影響了樣本的平衡,另一方面影響分類器的分類效果,因此需要剔除多數(shù)類樣本中的冗余樣本。本文采用隨機下采樣算法隨機地選取一些多數(shù)類樣本,再將這些樣本從多數(shù)類中剔除,從而起到均衡原始數(shù)據(jù)的作用。
對采集的江蘇省區(qū)域內(nèi)各氣象站點的樣本數(shù)據(jù)進行統(tǒng)計,統(tǒng)計標準及統(tǒng)計結(jié)果如表4所示。
表4 能見度統(tǒng)計標準及結(jié)果
可以看出,能見度的各個范圍的數(shù)據(jù)是嚴重不均衡的,這種不均衡會使得網(wǎng)絡(luò)分類結(jié)果偏向于數(shù)量較大的那一類,影響預(yù)測準確性。因此,對總體數(shù)據(jù)樣本進行均衡,即對第2和第3類樣本進行隨機下采樣,使得第2、第3類的樣本個數(shù)與第一類的樣本個數(shù)相對均衡。實驗中,第2和第3類樣本下采樣后的樣本個數(shù)為20 000。
LSTM是一種特殊的RNN類型,是由Hochreither等[10]提出的長短期記憶神經(jīng)網(wǎng)絡(luò),采用記憶單元代替RNN隱含層的神經(jīng)單元,用于解決RNN梯度消失的問題。LSTM記憶單元的內(nèi)部結(jié)構(gòu)如圖1所示,包含輸入門(Input gate)、輸出門(Output gate)、遺忘門(Forget gate)和記憶細胞(Memory cell)。
圖1 LSTM記憶單元結(jié)構(gòu)
圖1中,xt、ht分別為t時刻網(wǎng)絡(luò)的輸入和輸出。LSTM記憶單元通過以下公式迭代計算輸出:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
ot=σ(Wo·[ht-1,xt]+bo)
(3)
Ct=ft×Ct-1+it×tanh(WC·[ht-1,xt]+bC)
(4)
ht=ot×tanh(Ct)
(5)
式中:ft、it、ot和Ct分別為遺忘門、輸入門、輸出門和記憶細胞的輸出;Wf、Wi、Wo和WC分別為遺忘門、輸入門、輸出門和記憶細胞的權(quán)重矩陣;bf、bi、bo和bC分別為遺忘門、輸入門、輸出門和記憶細胞的偏置;σ為Sigmoid函數(shù)。
2.4.1模型總體設(shè)計
本文搭建了基于相關(guān)性分析和數(shù)據(jù)均衡的能見度分層預(yù)測模型,通過相關(guān)性分析挑選主要相關(guān)因子,去除不相關(guān)因子的干擾;通過隨機下采樣進行數(shù)據(jù)均衡,再通過先分類再回歸的方法預(yù)測能見度。模型的第一層是基于LSTM的分類模型,第二層是基于LSTM的回歸模型。該模型的總體結(jié)構(gòu)如圖2所示。
圖2 基于LSTM的能見度分層預(yù)測模型結(jié)構(gòu)
具體建模流程如下:
(1) 采集江蘇省區(qū)域內(nèi)氣象站觀測數(shù)據(jù),處理為45項輸入項及能見度輸出項,并將2017年及以前的數(shù)據(jù)用作訓(xùn)練,2018年的數(shù)據(jù)用作測試,各因子如表1所示。
(2) 對45項輸入項及能見度輸出項做相關(guān)性分析,挑選出與能見度相關(guān)性較大的因子,其相關(guān)性分析如2.1節(jié)。
(3) 對上述處理后的樣本,按照類別劃分標準進行統(tǒng)計分析,通過隨機下采樣的方法均衡各類樣本。
(4) 通過第一層長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)分類模型進行樣本分類。
(5) 將分類結(jié)果及對應(yīng)的類別訓(xùn)練樣本輸入第二層基于LSTM的回歸模型中,選擇每類對應(yīng)的子類樣本,最終回歸出能見度。
2.4.2分 類
將2017年及以前的數(shù)據(jù)做相關(guān)性分析后,提取相關(guān)因子,將原始數(shù)據(jù)形成如式(6)所示數(shù)據(jù)樣本。
fi=[xi1,xi2,…,xi34,xi35]
(6)
式中:i表示樣本個數(shù);xi1,xi2,…,xi34表示第i個樣本的34個輸入項;xi35表示第i個樣本的輸出項。
根據(jù)能見度的分類標準,將上述數(shù)據(jù)樣本處理成分類所需樣本,如式(7)所示。
(7)
式中:Xi是輸入項,Yi是類別標簽。yi由式(8)得出。
(8)
將上述樣本中2016年及以前的數(shù)據(jù)確定為訓(xùn)練樣本:
S={(X1,Y1),(X2,Y2),…,(Xm,Ym)}
(9)
2017年的數(shù)據(jù)確定為測試樣本:
S′={(Xm+1,Ym+1),(Xm+2,Ym+2),…,(Xi,Yi)}
(10)
式中:Xi表示第i個樣本;Yi表示第i個樣本的標簽,即能見度的類別。
按照能見度類別,對訓(xùn)練樣本進行隨機下采樣,均衡各類樣本數(shù)量,使得各類樣本數(shù)量相對均衡,此時訓(xùn)練樣本如下(n S={(X1,Y1),(X2,Y2),…,(Xn,Yn)} (11) 本文采用LSTM建立能見度分類模型,其分類模型如圖3所示。 圖3 基于LSTM的能見度分類模型 該網(wǎng)絡(luò)模型隱含層包含2個LSTM層和一個Dense層。采用堆疊的LSTM結(jié)構(gòu)是為了防止過擬合,提高網(wǎng)絡(luò)泛化能力。再通過Dense層可以了解特征數(shù)據(jù)與預(yù)測結(jié)果之間的函數(shù)關(guān)系。經(jīng)過隱含層運算后得到該隱含層的輸出hDt。網(wǎng)絡(luò)的輸出為能見度的類別,即: yt=softmax(Wyh·hDt+b) (12) 式中:Wyh為隱含層和輸出層之間的權(quán)重矩陣;b為輸出層的偏置量。 2.4.3回 歸 基于LSTM的能見度回歸模型,根據(jù)能見度的不同類別,分別訓(xùn)練了三種不同的回歸模型用于三類能見度的回歸。本文基于LSTM的能見度回歸模型結(jié)構(gòu)與分類模型的結(jié)構(gòu)基本一致,輸出層的激活函數(shù)采用Sigmoid,即第c類的網(wǎng)絡(luò)輸出為: yct=sigmoid(Wcyh·hcDt+bc) (13) 式中:c表示類別,c=0,1,2;Wcyh為c類回歸模型隱含層和輸出層之間的權(quán)重矩陣;hcDt為c類回歸模型中經(jīng)隱含層運算后得到該隱含層的輸出;bc為c類回歸模型輸出層的偏置量;yct為回歸出的c類能見度。 本次實驗采用江蘇省區(qū)域內(nèi)氣象站2018年的觀測數(shù)據(jù)作為測試數(shù)據(jù),去除缺失站點數(shù)據(jù),總共樣本為21 944個。分別進行了SVM模型、LSTM模型、引入相關(guān)性分析和引入下采樣均衡數(shù)據(jù)四個實驗,統(tǒng)計了分類結(jié)果的準確數(shù)、空報數(shù)和漏報數(shù),計算了每種方法每個類別的TS評分。四個實驗的對比結(jié)果如表5所示。表5中,準確數(shù)、空報數(shù)、漏報數(shù)及TS評分是本次實驗結(jié)果的評價指標。準確數(shù)表示實際結(jié)果和預(yù)測結(jié)果同為c類的個數(shù)Right_c;空報數(shù)表示實際非c類預(yù)測為c類的個數(shù)Empty_c;漏報數(shù)表示實際為c類預(yù)測為非c類的個數(shù)Missing_c。c類的TS評分的計算公式為: (14) 表5 基于LSTM的能見度分類結(jié)果 表5中,方法1為SVM,方法2為LSTM,方法3為相關(guān)性分析及LSTM,方法4為相關(guān)性分析、數(shù)據(jù)均衡及LSTM。對比發(fā)現(xiàn),相關(guān)性分析后,提取相關(guān)性較大的因子作為輸入因子能夠改善網(wǎng)絡(luò)預(yù)測結(jié)果,但由于數(shù)據(jù)不均衡,效果還是不好。當通過下采樣的方式進行數(shù)據(jù)均衡后,可明顯看出效果提升,雖然1.5 km~10 km的準確率降低了,但是數(shù)據(jù)均衡后,1.5 km~10 km的訓(xùn)練樣本大幅度減少,預(yù)報準確的個數(shù)肯定會有所下降,即漏報會增多,但同時會增加另外兩類的準確數(shù),從而均衡了三類的結(jié)果,提高整體的預(yù)測效果。尤其是在0~1.5 km的低能見度天氣的預(yù)測上,TS準確率能達到0.29。 本次實驗采用江蘇省區(qū)域內(nèi)氣象站2018年的觀測數(shù)據(jù)作為測試數(shù)據(jù),去除缺失站點數(shù)據(jù),總共樣本為21 944個。分別進行了基于LSTM的能見度回歸預(yù)測模型和基于LSTM的能見度分層預(yù)測模型兩個實驗,圖4和圖5是江蘇省區(qū)域內(nèi)某站點2017年的測試結(jié)果。 圖4 站點1能見度兩種方法測試結(jié)果 可以看出,當觀測值為低能見度時,采用分類回歸(分層)預(yù)測的結(jié)果與觀測值更接近。同時,采用分類回歸(分層)預(yù)測方法,對于能見度的峰值和谷值的預(yù)測結(jié)果更加準確。而采用直接回歸方法預(yù)測在峰值和谷值處表現(xiàn)不佳,尤其是低能見度。 本文對江蘇省區(qū)域所有站點2018年數(shù)據(jù)進行測試,統(tǒng)計了兩種方法分類結(jié)果的TS評分及誤差。兩個實驗的對比結(jié)果如表6所示。 可以看出,采用分層的方法在能見度0~1.5 km的預(yù)測準確率提升0.13,在大于10 km的預(yù)測準確率提升0.06,僅在1.5~10 km的區(qū)間內(nèi)有所下降,這是因為分層預(yù)測模型提高了直接回歸模型的泛化能力,一定程度上優(yōu)化了0~1.5 km和大于10 km區(qū)間的預(yù)測準確率,犧牲了1.5~10 km的準確率。 采用分層預(yù)測方法在能見度0~1.5 km的誤差比直接回歸的結(jié)果降低了0.92 km,在大于10 km的誤差降低了0.34 km。僅在1.5~10 km的區(qū)間內(nèi)增大了0.56 km??梢?,該方法一定程度上減小了預(yù)測的平均絕對誤差,尤其在低能見度的表現(xiàn)上更好。 由于能見度的影響因素有多種,因氣象場、排放源等因素的影響,傳統(tǒng)模式預(yù)測能見度與實況存在較大誤差,尤其是對低能見度的預(yù)測,準確率普遍不高。本文將傳統(tǒng)氣象統(tǒng)計預(yù)報方法與人工智能技術(shù)相結(jié)合,提出一種基于相關(guān)性分析和數(shù)據(jù)均衡的能見度分層預(yù)測模型,并通過實驗得出以下結(jié)論: (1) 改進的能見度分層預(yù)測模型能夠較好地擬合實際能見度,驗證了本文方法的有效性。 (2) 改進的能見度分層預(yù)測模型改善了樣本不均衡問題的影響,提高了模型的泛化能力,防止了模型過擬合現(xiàn)象對于能見度預(yù)測的不利影響,預(yù)測結(jié)果更接近實際能見度,具有更小的誤差,有較高的應(yīng)用價值。 該模型受神經(jīng)網(wǎng)絡(luò)機理的限制,盡管能夠有效提高各個預(yù)報時效內(nèi)的能見度均值,但對于能見度的峰值及谷值的預(yù)報,其準確性還有待提高,在進一步的研究中,考慮加入能見度空間特性及污染物濃度特征。3 實驗與結(jié)果分析
3.1 改進分類方法效果對比
3.2 回歸與分類回歸(分層)結(jié)果對比
4 結(jié) 語