朱晶晶,趙小平,吳勝安,吳 慧,邢彩盈
(1.海南省氣候中心,海南 ???570203;2.西昌衛(wèi)星發(fā)射中心氣象室,四川 西昌 615000)
?
基于支持向量機(jī)的海南氣溫預(yù)測模型研究
朱晶晶1,趙小平2,吳勝安1,吳慧1,邢彩盈1
(1.海南省氣候中心,海南 海口 570203;2.西昌衛(wèi)星發(fā)射中心氣象室,四川 西昌 615000)
摘要:依據(jù)CMSVM2.0函數(shù)估計(jì)和交叉驗(yàn)證1等方法,利用1970~2014年海南省各市縣月平均氣溫資料,建立氣溫的SVM回歸方法預(yù)報(bào)模型,并進(jìn)行了模擬實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明支持向量機(jī)算法在氣溫短期預(yù)測中具有良好的預(yù)報(bào)能力,其中交叉驗(yàn)證1的預(yù)測效果略高于業(yè)務(wù)預(yù)報(bào),尤其在冬季、夏季和秋季均有較好的預(yù)報(bào)能力.此外,SVM對(duì)海南省北部、西部、南部市縣的預(yù)報(bào)效果較好,而對(duì)中東部市縣的預(yù)報(bào)效果相對(duì)較差.
關(guān)鍵詞:支持向量機(jī); 氣溫預(yù)測; 函數(shù)估計(jì); 交叉驗(yàn)證1
短期氣候預(yù)測是依據(jù)大氣科學(xué)原理,運(yùn)用氣候統(tǒng)計(jì)學(xué)等方式,預(yù)測未來短期氣候趨勢.短期氣候預(yù)測對(duì)國家經(jīng)濟(jì)發(fā)展至關(guān)重要,提高短期氣候預(yù)測的準(zhǔn)確率,對(duì)于防災(zāi)減災(zāi)、推動(dòng)經(jīng)濟(jì)發(fā)展等具有重要意義.
二十世紀(jì)70年代,短期氣候預(yù)測中引進(jìn)了統(tǒng)計(jì)學(xué)理論方法.隨著氣象統(tǒng)計(jì)學(xué)理論的發(fā)展及其對(duì)一維時(shí)間序列氣象觀測資料的研究,氣象學(xué)者們發(fā)現(xiàn)諸多氣象要素觀測資料中含有較多的預(yù)報(bào)信息[1],很多預(yù)報(bào)信息可以被用于短期氣候預(yù)測中,神經(jīng)網(wǎng)絡(luò)技術(shù)隨之應(yīng)運(yùn)而生.
在統(tǒng)計(jì)學(xué)理論范疇下,支持向量機(jī)算法是一種通用機(jī)器學(xué)習(xí)方法,其能夠避免過高維數(shù)、過擬合等問題,而且求解速度快,預(yù)測精度高.支持向量機(jī)已被廣泛應(yīng)用于文本分類、人臉識(shí)別、時(shí)間序列預(yù)測等各個(gè)相關(guān)領(lǐng)域[2-4].陳永義[5]等首次將支持向量機(jī)應(yīng)用于氣象預(yù)報(bào)中.馮漢中[6-8]等對(duì)支持向量機(jī)方法在氣象預(yù)報(bào)中的應(yīng)用進(jìn)行了相關(guān)實(shí)驗(yàn),結(jié)果表明支持向量機(jī)方法能夠用于氣象預(yù)報(bào)業(yè)務(wù)中,其模型具有較好的氣象預(yù)報(bào)能力.燕東渭[9]等利用支持向量機(jī)方法對(duì)西北暴雨的預(yù)測進(jìn)行了應(yīng)用試驗(yàn),結(jié)果表明,該方法能較好的應(yīng)用于強(qiáng)降水預(yù)報(bào)中.黃奕銘[10]將支持向量機(jī)防范用于雷雨天氣預(yù)報(bào)業(yè)務(wù)中,預(yù)報(bào)效果良好.李智才[11]等根據(jù)氣候因子和氣候預(yù)報(bào)對(duì)象的非線性關(guān)系,將支持向量機(jī)方法應(yīng)用于短期氣候預(yù)測中,結(jié)果表明支持向量機(jī)方法提供了一種短期氣候預(yù)測途徑.本文利用1970~2014年海南省各市縣月平均氣溫觀測資料,采用支持向量機(jī)方法,對(duì)海南省氣溫進(jìn)行短期預(yù)測.
1資料
所用氣溫?cái)?shù)據(jù)來源于1970~2014 年海南省19個(gè)市縣人工氣象觀測站各月平均氣溫觀測資料,環(huán)流因子采用國家氣候中心提供的126項(xiàng)環(huán)流因子.
2SVM溫度模型的建立
2.1CMSVM2.0CMSVM2.0由中國氣象局培訓(xùn)中心CMSVM開發(fā)組編制,是一個(gè)集訓(xùn)練、參數(shù)尋優(yōu)和預(yù)報(bào)等功能的應(yīng)用軟件平臺(tái),可用于分類預(yù)報(bào)以及回歸預(yù)報(bào),適合于解決高度非線性的分類、回歸等樣本問題.CMSVM2.0 是CMSVM1.0 的升級(jí)版,在CMSVM1.0的基礎(chǔ)上增加了貼近度分析、交叉驗(yàn)證 1、交叉驗(yàn)證 2和文件操作4項(xiàng)新的重要功能選項(xiàng),并進(jìn)一步彌補(bǔ)了支持向量機(jī)算法中核參數(shù)難于確定的不足.
支持向量機(jī)方法的基本思想:通過非線性映射方式,把樣本空間映射到高維的Hilbert特征空間,使其能夠解決樣本高度非線性分類、回歸等問題[11],簡單地可以認(rèn)為升維和線性化,通過在變換后的高維空間中計(jì)算線性化問題,解決了算法復(fù)雜化和非線性映射表示式難求2個(gè)難題.支持向量機(jī)正是基于此設(shè)計(jì)思想,完美地實(shí)現(xiàn)了數(shù)據(jù)樣本的線性分類和回歸.
2.2資料處理以1月為例,將1月海南省各市縣月平均氣溫與前期(前一年的7~12月)126項(xiàng)環(huán)流因子求相關(guān),選取顯著性水平超過0.01的環(huán)流因子,并結(jié)合海南省地域特征略加篩選.選擇前一年份7~8月的北半球極渦強(qiáng)度指數(shù)、9月的西半球暖池指數(shù)、10月的北半球副高面積指數(shù)、11月的印緬槽和12月的亞洲緯向環(huán)流指數(shù)等30個(gè)預(yù)報(bào)因子.為了避免各個(gè)因子之間的量級(jí)差異,使每一因子的數(shù)據(jù)均落入?yún)^(qū)間[0,1]內(nèi),對(duì)每個(gè)因子進(jìn)行歸一化處理: ( x-xmin) /( xmax-xmin).由于海南島面積較小,各市縣所受影響環(huán)流大體一致,因此統(tǒng)一應(yīng)用以上預(yù)報(bào)因子.
與1月相似,其他月份也是采用前6個(gè)月的環(huán)流因子進(jìn)行相關(guān)篩選,各月預(yù)報(bào)環(huán)流因子的選擇是根據(jù)各月環(huán)流形勢選擇最優(yōu)因子.
采用1月各市縣的平均氣溫?cái)?shù)據(jù),將資料整理成以下形式:
-1.2 1∶0.105 2∶0.562 3∶0.625……29∶0.542 30∶0.601
-2.2 1∶0.581 2∶0.456 3∶0.454……29∶0.792 30∶0.719
其中,第一列是各市縣的歷年平均溫度距平,后面為30個(gè)預(yù)報(bào)因子.
對(duì)處理的回歸資料分別運(yùn)用函數(shù)估計(jì)和交叉驗(yàn)證1進(jìn)行預(yù)測.
函數(shù)估計(jì)選項(xiàng),也稱為回歸分析選項(xiàng),用于建模的訓(xùn)練樣本子集(約占總樣本的 75%)、用于優(yōu)化模型參數(shù)的實(shí)驗(yàn)樣本子集(約占總樣本的20%)和用于檢驗(yàn)?zāi)P屯茝V能力的檢驗(yàn)樣本子集(約占總樣本的5%).將1970~1999年的樣本作為訓(xùn)練樣本,2000~2007年的樣本作為實(shí)驗(yàn)樣本,2008~2009年的樣本作為檢驗(yàn)樣本.
交叉驗(yàn)證1選項(xiàng),即對(duì)小的數(shù)據(jù)集采用順序抽1循環(huán)驗(yàn)證的方法對(duì)參數(shù)尋優(yōu)建立理想模型,不需要將文件分成回歸訓(xùn)練文件、回歸實(shí)驗(yàn)文件和回歸檢驗(yàn)文件,只需要一個(gè)驗(yàn)證文件.將1970~2009年的樣本作為驗(yàn)證樣本.
預(yù)報(bào)應(yīng)用要求的數(shù)據(jù)文件的格式與函數(shù)估計(jì)和交叉驗(yàn)證1類似,只是數(shù)據(jù)文件的第一列全為數(shù)值 0,以表示其值待確定,將2010~2014年的樣本作為預(yù)報(bào)樣本,以使得所得月預(yù)報(bào)分?jǐn)?shù)更具有分析意義.
2.3模型調(diào)參CMSVM2.0中選擇不同的核函數(shù)會(huì)激活相對(duì)應(yīng)的不同參數(shù)窗口.在非線性問題處理上,支持向量機(jī)通常采用徑向基函數(shù)和多項(xiàng)式核函數(shù)2種方式,以多項(xiàng)式函數(shù)作為核函數(shù)建立海南省各市縣的SVM溫度回歸模型,回歸擇優(yōu)標(biāo)準(zhǔn)用絕對(duì)差.在模型參數(shù)選擇上,各月采用參數(shù)尋優(yōu)的方法尋找最優(yōu)參數(shù)組合,各月最優(yōu)參數(shù)并不相同.表1以1月白沙縣為例,介紹最優(yōu)參數(shù)的尋優(yōu)方法,其他月份利用相似的方法獲得最優(yōu)參數(shù)配置.
在CMSVM2.0中,函數(shù)估計(jì)選項(xiàng)中主要模型參數(shù)有C,w,d,通過選擇不同參數(shù)的組合,獲取SVM溫度模型計(jì)算效果,模型計(jì)算效果主要通過計(jì)算結(jié)果絕對(duì)差、相關(guān)系數(shù)、支持向量數(shù)和檢驗(yàn)成功率等體現(xiàn).
表1 參數(shù)d對(duì)白沙縣1月SVM溫度模型的影響
從表1 中可以看出,在C,w固定的情況下,不同的d值對(duì)白沙1月SVM溫度模型有很大的影響,當(dāng)d=2或4時(shí),支持向量數(shù)都不能達(dá)到30,即訓(xùn)練樣本數(shù)據(jù)并未全部包含在內(nèi),將參數(shù)d=3.
表2 參數(shù)C對(duì)白沙縣1月SVM溫度模型的影響
從表2 中可以看出,在w,d固定的情況下,C值的變動(dòng)對(duì)白沙1月SVM溫度模型沒有影響.選取C=10,以方便后面迭代.
表3 參數(shù)w對(duì)白沙縣1月SVM溫度模型的影響
從表3 中可以看出,在C=10,d=3時(shí),參數(shù)w為1時(shí),支持向量數(shù)僅為12,在支持向量數(shù)都為30的條件下,優(yōu)先考慮絕對(duì)差略小的w=0.1.
結(jié)合表1~3,初步設(shè)定參數(shù)C=10、循環(huán)次數(shù)10、步長10,參數(shù)d=3、循環(huán)次數(shù)10、步長0,回歸帶寬參數(shù)w=0.1、循環(huán)參數(shù)10、步長0.01,在損失函數(shù)疊加上界2 000,回歸迭代最大次數(shù)10 000的情況下,尋找最優(yōu)參數(shù)進(jìn)行訓(xùn)練的時(shí)間是4.04s,最優(yōu)模型中的各參數(shù)為:C=40,w= 0.12,d=3,共迭代210次,支持向量數(shù)為29個(gè).模型使用核函數(shù)計(jì)算的次數(shù)是13 756,利用最優(yōu)模型對(duì)SVM檢驗(yàn)文件進(jìn)行回歸計(jì)算:Δ=2.685 6,相關(guān)系數(shù)=-1,σ=3.741.
交叉驗(yàn)證1選項(xiàng)是在40個(gè)樣本中每次抽取一個(gè)樣本作為待驗(yàn)證的檢驗(yàn)樣本,用剩余的樣本建模,順序?qū)λ袠颖狙h(huán)此過程.同樣設(shè)定參數(shù)C=10、循環(huán)次數(shù)10、步長10,參數(shù)d=3、循環(huán)次數(shù)10、步長0,回歸帶寬參數(shù)w=0.1、循環(huán)參數(shù)10、步長0.01,在損失函數(shù)疊加上界2 000,回歸迭代最大次數(shù)10 000的情況下,尋找最優(yōu)參數(shù)進(jìn)行訓(xùn)練的時(shí)間是2 384.78s,交叉驗(yàn)證構(gòu)造最優(yōu)模型時(shí)的Δ=1.289 4,最優(yōu)模型中的各參數(shù)為:C=10,w= 0.14,d=3.
3結(jié)果分析
3.1各月份預(yù)報(bào)準(zhǔn)確率分析對(duì)于海南省各市縣各月份的預(yù)報(bào)準(zhǔn)確率分析,采用國家氣候中心在業(yè)務(wù)規(guī)定上統(tǒng)一使用的Ps檢驗(yàn)方法.Ps方法是針對(duì)氣候趨勢預(yù)測及異常級(jí)預(yù)測結(jié)果設(shè)不同權(quán)重來綜合進(jìn)行檢驗(yàn)評(píng)分的方法,其能直觀反映氣候預(yù)測能力和水平.
Ps檢驗(yàn)方法的計(jì)算公式
其中,M為沒有預(yù)報(bào)二級(jí)異常而實(shí)況出現(xiàn)氣溫距平≥3℃或≤-3℃的站數(shù)(即漏報(bào)站數(shù));N0為氣候趨勢預(yù)測正確的站數(shù);N1為一級(jí)異常預(yù)測正確的站數(shù);N2為二級(jí)異常預(yù)測正確的站數(shù);a,b和c分別為氣候趨勢項(xiàng)、一級(jí)異常項(xiàng)和二級(jí)異常項(xiàng)的權(quán)重系數(shù).根據(jù)海南省氣候業(yè)務(wù)Ps檢驗(yàn)標(biāo)準(zhǔn),分別取a=2,b=2,c=4.
選取了2010~2014年的實(shí)際業(yè)務(wù)評(píng)分以與模型預(yù)報(bào)評(píng)分進(jìn)行對(duì)比,使分析結(jié)果更為客觀公正.在實(shí)際業(yè)務(wù)中,海南省的Ps評(píng)分僅14個(gè)市縣參與,其中萬寧市、三亞市、定安縣、文昌市和三沙市不參與評(píng)分.
圖1是利用函數(shù)估計(jì)和交叉驗(yàn)證1對(duì)氣溫的預(yù)測Ps評(píng)分.由于函數(shù)估計(jì)驗(yàn)證樣本僅為2年且僅為1次順序驗(yàn)證過程,而交叉驗(yàn)證1是在40個(gè)樣本中每次抽取出1個(gè)樣本作為待驗(yàn)證的檢驗(yàn)樣本,其驗(yàn)證次數(shù)是函數(shù)估計(jì)的40倍,使得交叉驗(yàn)證1的預(yù)測效果遠(yuǎn)高于函數(shù)估計(jì).交叉驗(yàn)證1方法在10個(gè)月份中的Ps評(píng)分都能達(dá)到70分以上,其中最高為83.6分,而函數(shù)估計(jì)方法達(dá)到70分以上的月份僅為3個(gè),其中最高為82.4分.就年平均而言,2種方法的平均Ps評(píng)分分別為75.5和56.5,而日常業(yè)務(wù)氣溫預(yù)報(bào)平均Ps評(píng)分為74.6.可見交叉驗(yàn)證1的預(yù)測效果略高于業(yè)務(wù)預(yù)報(bào),而函數(shù)估計(jì)方法的預(yù)測效果明顯低于業(yè)務(wù)預(yù)報(bào).除了春季預(yù)測效果不如業(yè)務(wù)預(yù)報(bào)外,交叉驗(yàn)證1方法在冬季、夏季和秋季均有較好的預(yù)報(bào)分?jǐn)?shù),尤其針對(duì)較難預(yù)報(bào)的海南冬季氣溫,交叉驗(yàn)證1表現(xiàn)出明顯的優(yōu)勢,高出業(yè)務(wù)預(yù)報(bào)15.6分,將業(yè)務(wù)預(yù)報(bào)評(píng)分提高了25.3%,可以為日常業(yè)務(wù)預(yù)報(bào)提供參考.
3.2各市縣預(yù)報(bào)準(zhǔn)確率分析為了清楚顯示函數(shù)估計(jì)和交叉驗(yàn)證1方法對(duì)海南省不同區(qū)域的預(yù)報(bào)效果,分別分析了2個(gè)方法的預(yù)報(bào)準(zhǔn)確率的區(qū)域分布,如圖2所示.圖2a為交叉驗(yàn)證1方法預(yù)報(bào)準(zhǔn)確率分布圖,可見交叉驗(yàn)證1對(duì)各市縣的預(yù)報(bào)效果均較好.預(yù)報(bào)準(zhǔn)確率較高的區(qū)域主要集中在海南省北部、西部和南部,達(dá)到60%以上,而中東部預(yù)報(bào)準(zhǔn)確率相對(duì)較低.圖2b為函數(shù)估計(jì)預(yù)報(bào)準(zhǔn)確率分布圖,預(yù)報(bào)準(zhǔn)確率整體較交叉驗(yàn)證1有所降低,海南北部、西部、南部預(yù)報(bào)準(zhǔn)確率略高于中東部.2種方法的預(yù)報(bào)準(zhǔn)確率分布可以看出,北部、西部、南部的預(yù)報(bào)效果較好,中東部的預(yù)報(bào)效果相對(duì)較差.
4小結(jié)
利用CMSVM2.0中函數(shù)估計(jì)和交叉驗(yàn)證1對(duì)海南省氣溫進(jìn)行了短期預(yù)測,研究結(jié)果表明:
1) 支持向量機(jī)方法在氣溫短期預(yù)測中具有良好的預(yù)報(bào)能力,其中交叉驗(yàn)證1的預(yù)測效果略高于業(yè)務(wù)預(yù)報(bào),其在冬季、夏季和秋季均有較好的預(yù)報(bào)分?jǐn)?shù),尤其針對(duì)較難預(yù)報(bào)的海南省冬季氣溫,交叉驗(yàn)證1方法表現(xiàn)出明顯的優(yōu)勢,能為日常業(yè)務(wù)預(yù)報(bào)提供參考.
2) 支持向量機(jī)對(duì)海南省北部、西部、南部市縣的預(yù)報(bào)效果較高于中東部市縣.
另外,在進(jìn)行模型調(diào)參時(shí),需要對(duì)模型參數(shù)C,d,w等進(jìn)行調(diào)整,以達(dá)到最優(yōu)的預(yù)報(bào)效果,不同的參數(shù)組合對(duì)支持向量機(jī)的預(yù)報(bào)結(jié)果影響較大.在實(shí)際業(yè)務(wù)應(yīng)用中,應(yīng)進(jìn)行大量的調(diào)試實(shí)驗(yàn),選取最佳的參數(shù)組合,使模型預(yù)測效果達(dá)到最佳.
參考文獻(xiàn):
[1] 金龍.神經(jīng)網(wǎng)絡(luò)氣象預(yù)報(bào)建模理論方法與應(yīng)用[M].北京:氣象出版社,2004.
[2] 馬勇,丁曉青.基于層次型支持向量機(jī)的人臉檢測[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,43(1):35- 38.
[3] 張秋余,竭洋,李凱.基于模糊支持向量機(jī)與決策樹的文本分類器[J].計(jì)算機(jī)應(yīng)用,2008,28(12):3 227-3 230.
[4] 崔萬照,朱長純,保文星,等.混沌時(shí)間序列的支持向量機(jī)預(yù)測[J].物理學(xué)報(bào),2004,53(10):3 303- 3 310.
[5] 陳永義,俞小鼎,高學(xué)浩,等.處理非線性分類和回歸問題的一種新方法(1)—支持向量機(jī)方法簡介[J].應(yīng)用氣象學(xué)報(bào),2004,15(3):345-353.
[6] 馮漢中,陳永義,成永勤.雙流機(jī)場低能見度天氣預(yù)報(bào)方法研究應(yīng)用氣象學(xué)報(bào)[J].應(yīng)用氣象學(xué)報(bào),2006,17(1):94-99.
[7] 馮漢中,陳永義.支持向量機(jī)回歸方法在實(shí)時(shí)業(yè)務(wù)預(yù)報(bào)中的應(yīng)[J].氣象,2005,31(2):41-44.
[8] 馮漢中,陳永義.處理非線性分類和回歸問題的一種新方法(2)—支持向量機(jī)方法在天氣預(yù)報(bào)中的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2004,15(3):345-353.
[9] 燕東渭,孫田文,楊艷支.持向量數(shù)據(jù)描述在西北暴雨預(yù)報(bào)中的應(yīng)用試驗(yàn)[J].應(yīng)用氣象學(xué)報(bào),2007,18(5):676-681.
[10] 黃奕銘.支持向量機(jī)在雷雨天氣預(yù)報(bào)中的應(yīng)用[J].廣東氣象,2006,28(1):22-24.
[11] 李智才,馬文瑞,李素敏,等.支持向量機(jī)在短期氣候預(yù)測中的應(yīng)用[J].氣象,2006,32(5):57-61.
Temperature Forecast Model Based on Support VectorMachineMethod
Zhu Jingjing1, Zhao Xiaoping2, Wu Sheng’an1, Wu Hui1, Xing Caiying1
(1.HainanClimateCenter,Haikou570203,China;2.MeteorologicalDepartmentofXichangSatelliteLaunchCenter,Xichang615000,China)
Abstravct:Basedonthe"FunctionEstimation"and"CrossValidation1"oftheCMSVM2.0,thetemperaturedataofHainanfrom1970to2014wereusedtoconstructtheforecastingmodelofregressionmethodofSVM,andthesimulationexperimentswereperformed.TheresultsindicatedthattheCMSVM2.0hasgoodforecastingabilityforshort-termtemperatureforecastofHainan,andthepredictioneffectsofthe"CrossValidation1"ishigherthanthatofthegeneralprediction,especially,inthewinter,summerandautumn.Additionally,thepredictioneffectsofSVMforthewest,northandsouthofHainanarebetterthanthatfortheeastandcentral.
Keywords:supportvectormachine;temperatureforecast;functionestimation;CrossValidation1
收稿日期:2015-12-02
基金項(xiàng)目:海南省氣象局科技創(chuàng)新項(xiàng)目(HN2013MS14)
作者簡介:朱晶晶(1986-),女,江蘇南京人,碩士,工程師,研究方向:短期氣候預(yù)測,E-mail:jingjingzjpq@163.com 通信作者: 趙小平(1984-),男,碩士,工程師,研究方向:航天氣象保障,E-mail:xiaopingzjpq@163.com
文章編號(hào):1004-1729(2016)01-0040-05
中圖分類號(hào):P45
文獻(xiàn)標(biāo)志碼:ADOl:10.15886/j.cnki.hdxbzkb.2016.0007
海南大學(xué)學(xué)報(bào)(自然科學(xué)版)2016年1期