鄧小花,魏立新,黃煥卿,張潤宇(國家海洋環(huán)境預報中心,北京100081)
?
運用支持向量機方法對數(shù)值模擬結果的初步釋用
鄧小花,魏立新,黃煥卿,張潤宇
(國家海洋環(huán)境預報中心,北京100081)
摘要:基于獲得的海水浴場逐日兩次觀測資料及同期NCEP數(shù)值模擬結果(提取各種相關變量),通過求取兩者之間的相互關系,并采用最優(yōu)子集方法確定了對各預報要素具有重要意義的影響因子。針對海水浴場的氣溫、降水及能見度等要素的預報,應用支持向量機方法建立了相應的預測模型,最終獲得不同海水浴場在不同預報時效、不同預報要素的數(shù)值產(chǎn)品釋用結果。經(jīng)過對比分析,各預報要素釋用后的結果較釋用前在預報準確率方面有較大的提高。
關鍵詞:支持向量機方法;NCEP數(shù)值模擬結果;釋用;氣溫;降水;能見度
支持向量機(Support Vector Machines簡稱SVM)是Vapnik V N等人提出的基于統(tǒng)計學習理論的小樣本學習方法[1-2]。該方法的基本思想是把低維樣本空間的難于線性劃分解決的樣本集通過非線性映射到高維特征空間中,在高維特征空間尋求最優(yōu)劃分超平面,從而實現(xiàn)樣本空間的非線性分類。在短期的氣候預測業(yè)務或短期天氣預報中,由于大氣環(huán)流變化的復雜性和非線性性,決定了大部分的預報對象及其對應的預報因子之間為非線性相關關系。目前,國際上應用較為廣泛的支持向量機方法則是一種較為新穎的處理非線性分類和回歸的有效方法[3-4]。
滕衛(wèi)平,俞善賢等[5]應用SVM回歸方法在汛期旱澇預測中進行了應用研究,通過相關分析從前期大氣環(huán)流場、海溫場中選取了相關性較高的預測因子,建立了浙江省汛期旱澇短期氣候預測模型,效果較傳統(tǒng)的逐步回歸方法有明顯的提高。楊淑群,芮景析等[6]也利用多年的74項環(huán)流特征量、海溫指數(shù)、相關區(qū)域海平面氣壓等指數(shù),建立了四川盆地5片區(qū)域降水特多或特少的SVM預測模型,并進行了降水分類預測試驗;結果顯示所建的SVM模型的Ts評分較高。李智才,馬文瑞等[7]利用Nino區(qū)海溫、南方濤動指數(shù)、副高面積指數(shù)等預報因子,建立了陽泉地區(qū)夏季降水正、負距平的SVM非線性分類模型;預報試驗表明,預報能力良好。熊秋芬,胡江林等[8]還專門就支持向量機和人工神經(jīng)網(wǎng)絡兩種方法,分別建立了云量預報模型;所開展的交叉驗證和實例預報的結果顯示:兩者方法相比而言,SVM的預報能力高于人工神經(jīng)網(wǎng)絡方法,且在計算速度上有后者無法比擬的優(yōu)勢。吳愛敏,郭江勇等[9]應用SVM方法,對甘肅隴東地區(qū)冰雹天氣的主要環(huán)流形勢進行了分析,對冰雹分類預報進行了探討;經(jīng)檢驗,主要降雹季節(jié)各月有無冰雹分類的正確率大于80%,效果較好。另外,黃玉霞,許東蓓,蒲肅等[10]還應用該方法,建立了甘肅省林區(qū)森林火險分類推理模型;結果表明該模型具有良好的預報能力,預報效果明顯優(yōu)于傳統(tǒng)的逐步回歸方法。眾多試驗和研究結果表明,不管是針對短期的氣象預報還是短期氣候預測,運用該方法均能取得較為滿意的預報結果。因此,在本文中,針對日最高氣溫、降水及能見度要素的預報,采用該方法來建模是可行的。
支持向量機(Support Vector Machine,簡稱為SVM)是一種處理非線性分類和回歸的有效方法。該方法中,“機”代表機器學習領域中的一些算法,“支持向量”則是指訓練集中的某些訓練點的輸入系數(shù);該方法也是一種有督促(有導師)學習方法,即已知訓練點的類別,求訓練點和類別之間的對應關系,以便將訓練集按照類別分開,或者是預測新的訓練點所對應的類別。
用線性回歸函數(shù)f(x)=w·x+b擬合數(shù)據(jù){xi,yi},i= 1,2,…,n,xi∈Rd,yi∈R的問題,根據(jù)SVM理論,若采用線性ε不敏感損失函數(shù)
并引入松弛因子ξi≥0和ξ*i≥0,則問題為在約束條件
下,最小化目標函數(shù)
常數(shù)C>0控制對超過誤差ε的樣本的懲罰程度。采用優(yōu)化方法可以得到其對偶問題,即在約束條件
下,對Lagrange因子αi,α*i最大化目標函數(shù)
從而獲得回歸模型:
式中,αi,α*i均不為0,對應的樣本則是支持向量。如果用核函數(shù)K(xi?xj)替代公式(4),(5)中的內(nèi)積運算,則可確定非線性擬和函數(shù)f(x)中的b*,取在邊界上的一點,即可確定。有關非線性核函數(shù)的種類較多,常用的有多項式核函數(shù)、經(jīng)向基核函數(shù)、柯西核函數(shù)等,本文采用經(jīng)向基核函數(shù)。圖1則為支持向量機分類方法的基本思路。
圖2為本文中所建立的各預報要素的釋用模型建立流程圖,其預報對象包括日最高氣溫、降水及能見度。
圖1 支持向量機分類方法基本思路
圖2 釋用模型建立流程圖
本文選取了青島、廈門2個海水浴場作為南北海水浴場的示范區(qū),所收集到的觀測資料為2011年和2012年海水浴場開放期間所測得。其中,青島海水浴場觀測資料時間段為2011年7月1日—9月30日和2012年7月1日—9月30日,廈門海水浴場觀測資料時間段為2011年5月10日—6月12日、2011 年9月1日—10月31日及2012年5月1日—10月20日;觀測要素則包括:風向、風速、總云量、過去24 h降水量、過去6 h降水量、氣溫、視程等。
另外,模式預報場資料為美國NCEP逐6 h一次輸出、預報時效為120 h的模式結果,模式的空間分辨率為0.5°×0.5°。受觀測資料時間序列限制,針對不同的海水浴場建模,模式所選用的時間段與觀測資料時間段一致。所提取的模式變量主要包括:各等壓面上的位勢高度、溫度、風要素、相對濕度、土壤濕度、云水混合比、可降水量等;提取區(qū)域為青島、廈門兩個海水浴場及其周邊地區(qū)模式預報數(shù)據(jù)。表1列舉了釋用工作中所用到的主要變量及其具體含義。
由于支持向量機分類方法在預報對象為等級預報時具有一定的優(yōu)越性,因此,在本部分工作中,日最高氣溫的預報表現(xiàn)為訂正等級預報,即按照表2將模式日最高氣溫結果與實測日最高氣溫結果之間的差值進行相應的分類。而所建模型的預報結果-2、-1、0、1或2,則代表了不同的訂正類別。例如預報結果為正時,則代表將在模式氣溫預報的基礎上,進行相應的“降溫”調(diào)整;而當預報結果為負時,則將進行相應的“升溫”調(diào)整。隨后的能見度預報表現(xiàn)為能見度的等級預報,降水預報表現(xiàn)為降水量的等級預報,具體劃分標準分別見表3、表4。
表1 變量說明
表2 預報對象的劃分標準(日最高氣溫預報模型)
表3 預報對象的劃分標準(能見度預報模型)
表4 預報對象的劃分標準(降水預報模型)
4.1氣溫預報的訂正
針對海水浴場的氣溫要素預報,較為關注的為日最高氣溫預報,本文以廈門海水浴場為例,因其日最高氣溫較緯度偏北的青島海水浴場更為明顯。將海水浴場逐日最高氣溫實測資料(受觀測資料限制,取其14時資料代表日最高氣溫)與對應時刻的模式輸出氣溫結果進行對比后發(fā)現(xiàn):針對預報時效為24 h內(nèi)的模式結果,57.3%的樣本其實測氣溫值與模擬氣溫值差值在2℃以內(nèi);32.9%的樣本兩者之間的差值在2<X≤4或-4≤X<-2之間;另外還有9.8%的樣本表明實測氣溫與模擬氣溫的絕對差值達4℃以上。同時,隨著模式的預報時效的延長,實測氣溫值與模式模擬氣溫之差在2℃以內(nèi)的樣本比重進一步下降。
為了保證所建模型的“泛化性”,在建模過程中,基于已經(jīng)歸類好的樣本(按照表2—4進行歸類劃分),分別選取各不同等級中的2/3的樣本用于建模,其它1/3的樣本用于檢驗。以廈門氣溫預報模型(24—48 h預報模型)為例,共收集的樣本為266個,其中誤差等級為-2、-1、0、1、2的樣本數(shù)分別為6個、19個、151個、68個和22個;因此在建模過程中,分別提取了其中的4個、13個、100個、45個、15個樣本構建模型,而其它的樣本用于模型的檢驗。后面的降水和能見度模型在選取構建模型樣本或檢驗樣本方面與此類似。
通過求取實測氣溫與模式各變量之間的相關性,在24—48 h預報時效的廈門浴場氣溫預報模型的建立中,相關系數(shù)達到0.37或以上的因子個數(shù)有11項,見表5。通過眾多預報模型的預報效果的對比,最終篩選出4個模型用于最終的氣溫預報模型的集成,所建模型的準確率均大于80%。預報效果見圖3。
圖3 廈門海水浴場各氣溫預報模型預報效果檢驗(model1—modle4誤差等級預報)及模式預報效果檢驗(誤差等級分析:real)
圖3中,橫坐標為檢驗樣本數(shù),縱坐標為誤差等級,real代表的是檢驗樣本中模式模擬氣溫與實測氣溫之間的誤差等級(按照表2進行誤差等級劃分),其中藍色虛線以左樣本誤差等級為-1或-2,表明模式模擬氣溫較實測氣溫明顯偏低;紅色虛線以右樣本誤差等級為1或2,表明模式模擬氣溫較實測氣溫明顯偏高;紅色虛線和藍色虛線之間的樣本則代表模式模擬氣溫值與實測氣溫值之差在2℃以內(nèi),即誤差等級為0,其樣本比例不足60%。
圖3中的model1—model4為最終篩選的4個預報模型。從model1給出的誤差訂正等級可以看出:針對誤差等級為1或者2的樣本(超過30%),該預報模型總體上給出了較好的趨勢訂正,其中較多樣本都給出了1或者2的誤差訂正級別;同時可以看出,model2—model4對誤差等級達到2的樣本其訂正效果更為明顯。另外,針對較少誤差等級為-1 和-2的樣本,各預報模型也給出了相應的誤差等級訂正。
上述所建立的4個預報模型將用于最終的氣溫預報模型的集成預報,而集成預報結果將有助于預報效果的穩(wěn)定。其中,各預報模型所用到的具體模式變量見表5。從該表可以看出:各預報模型所應用到的訂正因子大部分相同,其中,2 m高度層上的氣溫(含周邊區(qū)域)、925 hPa上的氣溫(含周邊區(qū)域)、10 m高度層經(jīng)向風速、相對濕度等變量是構建氣溫預報模型的主導因子。關于廈門浴場氣溫0—24 h預報模型、48—72 h預報模型所選用的變量表及對應的預報模型效果圖略。
經(jīng)過氣溫預報模型對廈門海水浴場模式氣溫的進一步訂正,不管是0—24 h預報時效(圖略)還是24—48 h預報時效,其釋用結果與觀測實況之間的絕對誤差≤2℃內(nèi)的百分率由原來的57%左右提升到80%以上;并且絕對誤差≥4℃的樣本也較釋用前明顯減少。
表5 廈門海水浴場氣溫預報各模型所選用的變量(24—48 h預報時效)
表6 青島海水浴場降水預報各模型所選用的變量(48—72 h預報時效)
4.2降水預報訂正
針對降水預報,本文主要關注降水量等級的預報,下面的預報模型以預報時效為48—72 h的青島海水浴場為例。通過求取降水量與模式各變量之間的相關性,其相關系數(shù)達到0.26以上的因子數(shù)為11個,主要包括對流性降水量、云水、整層可降水量、相對濕度等變量,具體情況見表6。通過眾多預報模型的預報效果的對比,最終篩選出4個模型用于最終的降水預報模型的集成,預報效果見圖4。
圖4中,其橫坐標為樣本數(shù),縱坐標為24 h降水量等級。real代表的是實測降水量等級(按照表3進行劃分),其中,33個檢驗樣本中有9個樣本為降水樣本,在建立的各預報模型中,均能較好的對降水樣本給出較為準確的晴雨預報,由于夏季降水具有陣性的特征,所以對降水量的等級較難把握。
為了更好地對各降水預報模型進行檢驗,本文還特地將NCEP模式預報的相關降水變量進行了提取和進一步處理,將其預報效果與所建立的模型預報效果進行了對比??偟脕碚f,青島海水浴場降水量的預報經(jīng)過數(shù)值產(chǎn)品釋用之后,降水預報的提升效果較為明顯,可見圖5。圖中,綠色柱狀為降水釋用模型預報結果,藍色柱狀為觀測結果,紫色柱狀為NCEP模式對流性降水量,而紅色柱狀為累積過的逐6 h降水量預報結果。需要說明的是,紫色柱狀和紅色柱狀所體現(xiàn)的降水可以直接轉換為降水量預報;譬如紅色柱狀第2個樣本的37 kg/m2則相當于37 mm降水量。
根據(jù)降水觀測資料,在33個檢驗樣本中共有9個降水樣本,NCEP模式預報ACPCP(對流性降水)變量對降水樣本的預報準確次數(shù)為3次,空報0次,漏報6次;而APCP06(6 h累積降水量)對降水樣本的預報準確次數(shù)也為3次,空報0次,漏報6次;經(jīng)過數(shù)值產(chǎn)品的釋用后,模型對降水樣本的預報準確次數(shù)為8次,空報0次,漏報1次。與NCEP模式預報相比,釋用后的降水模型預報準確率大幅提高;其效果不僅體現(xiàn)在晴雨預報方面,在降水等級方面,釋用后的降水模型預報也更加貼近觀測實況。從圖5還可以看出,檢驗樣本中的第8、第9個樣本,觀測實況顯示為中雨和大雨降水過程,NCEP模式預報的相關變量對這兩次降水過程均出現(xiàn)了漏報,而釋用后的降水模型則不僅對這兩次降水過程進行了有效預報,在降水等級上也有較好的體現(xiàn),預報的降水等級均為中雨。經(jīng)過對各預報時效的降水預報模型準確率的統(tǒng)計,結果表明:針對青島海水浴場,0—24 h、24—48 h、48—72 h各預報時效其預報模型綜合準確率(晴雨預報TS評分)分別為:88%、89%及84%。關于該浴場降水其它預報時效所建立的預報模型所選用的變量表及對應的預報效果圖略。
圖4 青島海水浴場各降水預報模型預報效果檢驗(model1—modle4降水等級預報)及實測降水分析(降水實況等級分析:real)
4.3能見度預報
針對廈門海水浴場能見度預報模型的建立,首先對收集到的廈門及其周邊地區(qū)的能見度實況數(shù)據(jù)進行統(tǒng)計后發(fā)現(xiàn):大、小梅沙、汕尾、廈門、平潭、東山及南澳一帶,在每年的5—10月容易出現(xiàn)輻射霧,如圖6所示。該圖橫坐標為日數(shù),縱坐標為能見度值,灰色柱狀為08時能見度,藍色柱狀為14時能見度;而其中的箭頭所示為輻射霧影響時間段;即天氣晴朗少云的清晨容易出現(xiàn)10 km以下的能見度,而至下午時間段,能見度轉好,可達15 km以上。由于輻射霧的形成條件主要包括:(1)冷卻條件:地面散熱迅速,即晴朗少云的夜間或清晨;(2)水汽條件:近低層水汽充沛,濕度越大、濕層越厚,越有利于形成霧;尤其是空氣被雨和潮濕的地面增濕厚,對此類霧形成特別有利;可對應模式中的土壤濕度項;(3)層結條件:有逆溫層存在;(4)風力不大:微風。因此,后續(xù)所開展的工作即從模式中提取了相關的因子以備建模使用。
圖5 青島海水浴場降水釋用模型(預報時效為48—72 h)檢驗效果圖
圖6 廈門海水浴場能見度實況圖(2012年4月26日—5月31日期間逐日兩次觀測)
根據(jù)輻射霧的形成條件,從模式中提取了相關的因子,譬如850 hPa溫度與925 hPa溫度之間的溫度差、925 hPa與2 m高度的溫度差、風力、風向、中低層的相對濕度、土壤濕度及土壤濕度的24 h變化情況等等。其中,土壤濕度及土壤濕度的24 h變化情況是一個較好的指標;在土壤濕度已經(jīng)達到一定的閾值的前提下,由于清晨時間段土壤的溫度高于近地面的氣溫,致使土壤中的水分不斷蒸發(fā)并遇冷凝結,導致輻射霧的形成。
在具體的建模過程中,通過求取備選因子與能見度之間的相關,將相關性超過一定閾值的因子提取出來,并進行因子的最優(yōu)因子組合,進而構建了預測模型。
表7 廈門浴場能見度預報各模型所選用的變量(各預報時效)
圖7 廈門海水浴場各能見度預報模型預報效果(model1—modle4能見度等級預報)及能見度實況分析(能見度實況等級分析:real)
在0—24 h預報時效的能見度預報模型的建立中,所設置的相關系數(shù)閾值為0.34,達到閾值的因子個數(shù)為9個。通過眾多預報模型的預報效果的對比,最終篩選出4個模型用于最終的能見度預報模型的集成。圖7中,橫坐標為檢驗樣本數(shù),縱坐標為能見度等級,藍色虛線是能見度為15 km的分界線(虛線以左的樣本能見度小于15 km,以右的樣本大于15 km)。圖中的real代表了檢驗樣本中各能見度等級的實況,譬如等級3表明樣本能見度小于10 km;等級2表明樣本能見度在10—15 km之間;而等級1代表樣本能見度在15 km以上。從model1—model4的預報效果來看,各預報模型對能見度小于10 km的樣本把握較為準確,而對10—15 km的能見度預報較難把握;另外,各預報模型對能見度的預報具有總體“偏差”的趨勢,即針對一些能見度在15 km以上的樣本,預報模型仍然給出了10 km以下的預報結論。
表7為廈門海水浴場能見度各預報模型在不同預報時效情況下所用到的具體變量??傮w來說,0—24 h預報時效能見度預報模型中所用到的變量包括:整層大氣可降水量、土壤濕度(含24 h土壤濕度變化情況)、850 hPa經(jīng)向風速切變等;而24—48 h預報時效能見度預報模型中所用到的變量則包括:整層大氣可降水量、土壤濕度(含24 h土壤濕度變化情況)、氣溫、850 hPa緯向風速切變等;48—72 h預報時效能見度預報模型中所用到的變量包括:地表抬升指數(shù)、整層大氣可降水量、土壤濕度、氣溫、850 hPa風速切變等。從各不同預報時效能見度預報模型所選用的影響因子來看,較大一部分是較為一致的,這表明各預報模型總體上可信度較高,并且預報效果比較穩(wěn)定。關于廈門浴場24—48 h、48—72 h能見度預報模型效果圖略。
利用收集到的2011年、2012年青島、廈門海水浴場開放期間所收集的觀測資料及對應時間段內(nèi)的NCEP模式預報資料,應用SVM方法,分別構建了2個海水浴場不同預報時效內(nèi)的氣溫、降水及能見度預報模型。將釋用結果與實測資料或者模式輸出結果進行比對,主要可以得出以下結論:
(1)應用SVM方法,分別構建的各預報模型,無論是歷史樣本擬和的精度上(圖略)還是模型的實際預測能力,均比較滿意;
(2)與模式結果相比,各預報要素釋用后的結果較釋用前在預報準確率方面有較大的提高。如經(jīng)過氣溫、降水模型的進一步釋用訂正,預報結論與實測結果更為接近;
(3)經(jīng)過對能見度要素(模式未能進行直接輸出的變量)的診斷,其結果總體上較為滿意,即各能見度預報模型能夠較為準確地把握住能見度低于10 km的情況;但其預報能力仍具有很大的潛力及提升空間。
參考文獻:
[1] Vapnik V N. The Nature of Statistical Learning Theory [M]. New York: Springer-Verlag, 2000.
[2] Vapnik V N. Statistical Learning Theory [M]. New York: John wiley & Sons, Inc, 1998: 375-570.
[3]陳永義,俞小鼎,高學浩,等.處理非線性分類和回歸問題的一種新方法(Ⅰ)——支持向量機方法簡介[J].應用氣象學報, 2004, 15 (3): 345-354.
[4]馮漢中,陳永義.處理非線性分類和回歸問題的一種新方法(Ⅱ)——支持向量機方法在天氣預報中的應用[J].應用氣象學報, 2004, 15(3): 355-565.
[5]滕衛(wèi)平,俞善賢,胡波,等. SVM回歸法在汛期旱澇預測中的應用研究[J].浙江大學學報(理學版), 2008, 35(3): 343-347, 354.
[6]楊淑群,芮景析,馮漢中.支持向量機(SVM)方法在降水分類預測中的應用[J].西南農(nóng)業(yè)大學學報(自然科學版), 2006, 28(2): 252-257.
[7]李智才,馬文瑞,李素敏,等.支持向量機在短期氣候預測中的應用[J].氣象, 2006, 32(5): 57-61.
[8]熊秋芬,胡江林,陳永義.天空云量預報及支持向量機和神經(jīng)網(wǎng)絡方法比較研究[J].熱帶氣象學報, 2007, 23(3): 255-260.
[9]吳愛敏,郭江勇,張洪芬,等.支持向量機方法在冰雹預報中的應用[J].干旱氣象, 2005, 23(4): 41-45.
[10]黃玉霞,許東蓓,蒲肅. SVM方法在森林火險預測中的應用[J].林業(yè)科學, 2007, 43(10): 77-82.
Preliminary interpretation and utilization of NCEP simulation results using the SVM
DENG Xiao-hua, WEI Li-xin, HUANG Huan-qing, ZHANG Run-yu
(National Marine Environmental Forecasting Center, Beijing 100081 China)
Abstract:Based on the correlation between the observed data and the numerical simulation results from NCEP, the main influencing factors for different forecasting objects, for instance, temperature, precipitation, visibility and so on, were obtained. Furthermore, the SVM provided an effective and feasible way to construct the corresponding forecast models. Comparing with the direct outputs of the model, the interpretation and utilization of numerical simulations showed great improvement.
Key words:SVM;numerical simulation results;interpretation;temperature;precipitation;visibility
作者簡介:鄧小花(1982-),女,工程師,碩士研究生,主要從事海洋氣象預報工作。E-mail: dengxh@nmefc.gov.cn
基金項目:國家海洋局海洋公益性行業(yè)科研專項(201005036)
收稿日期:2014-03-27
DOI:10.11737/j.issn.1003-0239.2015.02.003
中圖分類號:P732
文獻標識碼:A
文章編號:1003-0239(2015)02-0014-10