陳有龍,寧雨珂,唐榮年,謝小峰
(1. 海南省南海氣象防災(zāi)減災(zāi)重點(diǎn)實(shí)驗(yàn)室,海南 ???570203;2. 海南省氣象臺(tái), 海南 ???570203;3. 海南大學(xué) 機(jī)電工程學(xué)院, 海南 ???570228)
數(shù)值預(yù)報(bào)已發(fā)展多年,隨著技術(shù)水平的提高,數(shù)值模式方法越來越完善,其預(yù)報(bào)精度亦越來越高,它是當(dāng)前主要的客觀預(yù)報(bào)工具之一[1].但是,數(shù)值預(yù)報(bào)模式仍無法完全達(dá)到真實(shí)模擬大氣的程度,因此研究有效的和科學(xué)的訂正方法至關(guān)重要.通過對(duì)數(shù)值預(yù)報(bào)結(jié)果進(jìn)行訂正,可提升氣象預(yù)報(bào)的精度,這對(duì)防災(zāi)減災(zāi)和經(jīng)濟(jì)發(fā)展具有重要的意義[2].尤其是在海南,由于其獨(dú)特的熱帶氣候以及海島地理地貌,數(shù)值預(yù)報(bào)的結(jié)果遠(yuǎn)不能滿足要求,因此迫切需求高水平的預(yù)報(bào)訂正方法.
傳統(tǒng)的訂正方法主要是通過統(tǒng)計(jì)學(xué)的方法來修正大氣動(dòng)力方程的誤差,而根據(jù)訂正思路的不同又可采用不同的模型來實(shí)現(xiàn).比如,薛堪彬等[3]從空間誤差訂正的角度提出了一種滑動(dòng)雙權(quán)重平均訂正法,他們對(duì)歐洲中期天氣預(yù)報(bào)中心(ECWMF)髙分辨率模式的2米最高和最低溫度進(jìn)行了偏差訂正和誤差分析;李佰平等[4]從消除時(shí)效偏差的角度提出了一種結(jié)合一元線性回歸、多元線性回歸、單時(shí)效消除偏差和多時(shí)效消除偏差平均的綜合訂正技術(shù),對(duì)ECMWF模式的地面氣溫預(yù)報(bào)進(jìn)行了訂正;張玉濤等[5]則從自適應(yīng)偏差訂正的角度提出了一種基于一階自適應(yīng)卡爾曼濾波的訂正方法,對(duì)GRAPES 3千米模式的2米氣溫、2米相對(duì)濕度和10米風(fēng)開展了偏差訂正.傳統(tǒng)的訂正方法均是基于假設(shè)條件而展開統(tǒng)計(jì)學(xué)建模,并通過模型來實(shí)現(xiàn)預(yù)報(bào)偏差的訂正,然而這類方法并沒有充分利用數(shù)據(jù)所包含的豐富訂正信息,容易受到各種假設(shè)條件的限制,存在一定的局限性.
隨著機(jī)器學(xué)習(xí)的發(fā)展,越來越多的研究者開始使用基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法來進(jìn)行預(yù)報(bào)偏差的訂正[6],他們通過對(duì)大量的歷史實(shí)測數(shù)據(jù)和歷史預(yù)報(bào)數(shù)據(jù)進(jìn)行深度挖掘,弄清了實(shí)測和預(yù)報(bào)偏差的關(guān)系,再反過來利用這些關(guān)系對(duì)最新的預(yù)報(bào)結(jié)果進(jìn)行訂正,這樣就提高了預(yù)報(bào)的準(zhǔn)確性.此類方法完全依托于數(shù)據(jù)本身,具有很強(qiáng)的魯棒性.基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法非常多,應(yīng)用于數(shù)值模式預(yù)報(bào)結(jié)果的訂正也很多,比如王煥毅等[6]和倪錚等[7]分別采用BP神經(jīng)網(wǎng)絡(luò)和LSTM深度神經(jīng)網(wǎng)絡(luò),對(duì)數(shù)值模式數(shù)據(jù)和實(shí)況觀測數(shù)據(jù)進(jìn)行學(xué)習(xí),建立了數(shù)值模式氣溫預(yù)報(bào)誤差客觀化訂正的模型,其區(qū)別就在于所選用的模式不一樣,且所選擇的實(shí)況氣象要素不一樣.隨機(jī)森林具有高度線性化的特點(diǎn),故其也被廣泛應(yīng)用于天氣預(yù)報(bào)的訂正,例如:Ho等[8]引入空間回歸法來繪制相對(duì)于參考站的典型炎熱夏季白天的峰值氣溫,并用隨機(jī)森林對(duì)實(shí)地觀測數(shù)據(jù)進(jìn)行了校準(zhǔn);Cho等[9]使用隨機(jī)森林來處理本地?cái)?shù)據(jù)和多個(gè)模式預(yù)測數(shù)據(jù);李文娟等[10]將隨機(jī)森林算法應(yīng)用于強(qiáng)對(duì)流的潛勢預(yù)測和分類,分短時(shí)強(qiáng)降水、雷暴大風(fēng)、冰雹和無強(qiáng)對(duì)流4種類別;劉揚(yáng)等[11]運(yùn)用隨機(jī)森林算法,構(gòu)建了暴雨災(zāi)害中人口損失的預(yù)估模型,并以精細(xì)化網(wǎng)格降水的實(shí)況分析和預(yù)報(bào)產(chǎn)品驅(qū)動(dòng)模型,預(yù)估是否發(fā)生人口損失.此類方法對(duì)多個(gè)站點(diǎn)和多個(gè)預(yù)報(bào)時(shí)刻均是采用統(tǒng)一的隨機(jī)森林模型,但是當(dāng)多個(gè)站點(diǎn)覆蓋的區(qū)域存在多種氣象類型時(shí),會(huì)積累模型的誤差,從而影響預(yù)報(bào)精度.海南島就是屬于此種情況,由于其獨(dú)特的熱帶氣候以及海島地理地貌,海南島南北的氣候差異較大,且變化快,因此全島區(qū)域無法直接采用統(tǒng)一的隨機(jī)森林模型.
基于此,針對(duì)海南島的氣候特點(diǎn),本文提出了一種基于時(shí)空獨(dú)立的隨機(jī)森林模型,同時(shí),通過挑選合理的氣象要素及預(yù)報(bào)模式,對(duì)全島18個(gè)市縣的站點(diǎn),采用分站點(diǎn)分時(shí)段的建模方式,實(shí)現(xiàn)了對(duì)海南島18個(gè)市縣氣溫?cái)?shù)值預(yù)報(bào)的訂正,得到了高精度的預(yù)報(bào)結(jié)果.
基于數(shù)據(jù)驅(qū)動(dòng)的訂正方法需要從歷史實(shí)測數(shù)據(jù)和模式預(yù)報(bào)數(shù)據(jù)擬合出實(shí)測和預(yù)報(bào)偏差的關(guān)系,而實(shí)測數(shù)據(jù)和模式數(shù)據(jù)包含較多的要素,并且存在缺失等情況,這些都會(huì)影響到模型訓(xùn)練的效果.因此,對(duì)實(shí)測數(shù)據(jù)和模式數(shù)據(jù)的預(yù)處理至關(guān)重要.為此,本文針對(duì)海南島氣溫?cái)?shù)值進(jìn)行模式訂正,分別對(duì)實(shí)測數(shù)據(jù)和模式數(shù)據(jù)進(jìn)行要素選擇,如表1所示.
表1 實(shí)測數(shù)據(jù)和ECWMF模式數(shù)據(jù)的要素列表
在實(shí)測數(shù)據(jù)方面,本文的實(shí)測數(shù)據(jù)主要包括了海南省18個(gè)市縣站點(diǎn)(???、東方、臨高、澄邁、儋州、昌江、白沙、瓊中、定安、屯昌、瓊海、文昌、樂東、五指山、保亭、三亞、萬寧、陵水)的實(shí)際觀測數(shù)據(jù).考慮到對(duì)氣溫訂正的需求,從每個(gè)站點(diǎn)挑選了8個(gè)相關(guān)的實(shí)測要素,它們分別是風(fēng)向(Wd2m)、風(fēng)速(Ws2m)、氣溫(TT)、最高氣溫(Tmax)、最低氣溫(Tmin)、相對(duì)濕度(RH)、本站氣壓(pp)和1小時(shí)降水量(R1h)作為模型輸入數(shù)據(jù).實(shí)測數(shù)據(jù)是從站點(diǎn)傳感器采集而來的,會(huì)出現(xiàn)缺省情況.針對(duì)此情況,本文采用前后插值的方法來彌補(bǔ)缺省值.
在模式數(shù)據(jù)方面,本文主要運(yùn)用ECMWF模式的網(wǎng)格預(yù)測數(shù)據(jù).由于網(wǎng)格點(diǎn)的經(jīng)緯度和真實(shí)站點(diǎn)的經(jīng)緯度存在偏差,故本文采用右上角原則,根據(jù)真實(shí)站點(diǎn)的經(jīng)緯度,找到右上角與其最近的網(wǎng)格點(diǎn),并將其作為站點(diǎn)對(duì)應(yīng)的網(wǎng)格點(diǎn),然后針對(duì)每個(gè)選定的網(wǎng)格點(diǎn),分別抽取出近地要素和高空要素,并將它們作為模型的輸入數(shù)據(jù).近地要素主要包括地表10米U風(fēng)分量(U10m)、地表10米V風(fēng)分量(V10m)、地表2米露點(diǎn)溫度(D2m)、地表2米溫度(T2m)、地表對(duì)流有效勢能(CAPE)、海面平均海平面壓力(MSL)、地表低云量(LCC)等七個(gè)氣象要素.高空要素則是分別從200 kPa、400 kPa、500 kPa、700 kPa、850 kPa、925 kPa、950 kPa等七個(gè)高空層來提取以下6個(gè)氣象要素,即位勢高度(GH)、相對(duì)濕度(RH)、溫度(T)、東西風(fēng)(U)、南北風(fēng)(V)、垂直速度(S).
(a)(b)圖1 樣本構(gòu)造及分段訓(xùn)練
其中,R1,R2和c1,c2分別表示每個(gè)節(jié)點(diǎn)劃分出來的兩個(gè)樣本子集和每個(gè)樣本子集中每個(gè)樣本的特征均值,通過遍歷每個(gè)樣本的每個(gè)特征,以尋求使得上式最小的劃分特征與劃分特征值,然后依次構(gòu)造NT棵回歸決策樹,每棵樹均能回歸出數(shù)據(jù)和氣溫標(biāo)簽的關(guān)系,再將所有樹回歸出來的氣溫值進(jìn)行平均,如此就得到最終的回歸結(jié)果,并形成了隨機(jī)森林模型.最后,如圖1(b)所示,逐站點(diǎn)逐3小時(shí)構(gòu)建相應(yīng)的隨機(jī)森林模型,并對(duì)每個(gè)站點(diǎn)進(jìn)行時(shí)空的解耦,這樣就實(shí)現(xiàn)了對(duì)全島模式預(yù)報(bào)氣溫的精準(zhǔn)訂正(表2).
表2 基于時(shí)空獨(dú)立的隨機(jī)森林算法
3.1 性能評(píng)價(jià)指標(biāo)為了驗(yàn)證所提訂正方法的有效性,本文采用了三個(gè)溫度預(yù)報(bào)的常用性能評(píng)價(jià)指標(biāo),即小于2 ℃的準(zhǔn)確率、小于1 ℃的準(zhǔn)確率以及均方根誤差,對(duì)真實(shí)溫度、ECMWF模式預(yù)報(bào)溫度和本文模型預(yù)報(bào)溫度的預(yù)報(bào)效果進(jìn)行了評(píng)估.
小于2 ℃的準(zhǔn)確率和小于1 ℃的準(zhǔn)確率可以定義為:
其中,N表示預(yù)報(bào)的總次數(shù),Nr表示預(yù)報(bào)正確的次數(shù).當(dāng)Nr是預(yù)報(bào)值和真實(shí)值誤差在1 ℃以內(nèi)的次數(shù)時(shí),則k=1,此時(shí)TT1是小于1 ℃的準(zhǔn)確率;當(dāng)Nr是預(yù)報(bào)值和真實(shí)值誤差在2 ℃以內(nèi)的次數(shù)時(shí),則k=2,此時(shí)TT2是小于2 ℃的準(zhǔn)確率.
均方根誤差指標(biāo)定義為:
其中,xi是預(yù)報(bào)值,x是真實(shí)值,N是預(yù)報(bào)次數(shù).
3.2 單點(diǎn)訂正精度分析以2020年4月16日??谡军c(diǎn)為例,預(yù)報(bào)時(shí)效為7天,時(shí)效間隔為3小時(shí),分別采用小于2 ℃的準(zhǔn)確率、小于1 ℃的準(zhǔn)確率及均方根誤差等3個(gè)指標(biāo),對(duì)真實(shí)溫度、ECMWF模式預(yù)報(bào)溫度和本文模型訂正結(jié)果進(jìn)行比較,結(jié)果如圖2所示.本文所提模型能夠?qū)CMWF模式氣溫預(yù)報(bào)結(jié)果進(jìn)行較好地訂正,在三個(gè)指標(biāo)上均優(yōu)于ECMWF的預(yù)報(bào)結(jié)果,能更加準(zhǔn)確地逼近真實(shí)溫度,這證明了本文算法在單點(diǎn)訂正的有效性.
圖2 ??谡军c(diǎn)未來168小時(shí)的真實(shí)溫度和ECMWF模式預(yù)報(bào)溫度與本文模型訂正結(jié)果的比較
在對(duì)基于時(shí)空獨(dú)立隨機(jī)森林模型進(jìn)行模型學(xué)習(xí)時(shí),隨機(jī)森林中樹的數(shù)量(NT)和特征數(shù)占比(NF)會(huì)對(duì)回歸結(jié)果產(chǎn)生較大的影響,因此,本文采用網(wǎng)格化搜索的方式對(duì)這兩個(gè)參數(shù)進(jìn)行了分析,確定了最優(yōu)參數(shù)組合.將訓(xùn)練集按7∶3的比例分成兩部分,一部分用來訓(xùn)練模型,一部分則用來驗(yàn)證模型,以選出最優(yōu)參數(shù).本文設(shè)定樹的數(shù)量搜索范圍為400~1 300,特征數(shù)占比的搜索范圍為10%~90%.網(wǎng)格化搜索的結(jié)果如圖3所示,從圖3中可知,當(dāng)特征數(shù)占比在范圍[50%~75%]時(shí),且樹的數(shù)量在[400~1 300]時(shí),本文模型的性能穩(wěn)定在某個(gè)固定的區(qū)間,波動(dòng)不大,這也證明了本文所提算法具有較好的魯棒性.因此,在綜合考慮運(yùn)算時(shí)間和效率的基礎(chǔ)上,本文最終選取了樹的數(shù)量為1 000,特征數(shù)占比為75%.此外,為說明本文所提的隨機(jī)森林算法在氣象預(yù)報(bào)方面的優(yōu)越性,在此將隨機(jī)森林模型與基于Boosting的GBDT模型和傳統(tǒng)線性回歸模型進(jìn)行對(duì)比.仍以??谡军c(diǎn)為例,分別采用了三個(gè)模型進(jìn)行預(yù)測,結(jié)果如圖4所示.從圖4中可以看出,本文所提模型的準(zhǔn)確率高于GBDT和傳統(tǒng)線性回歸的準(zhǔn)確率.
圖3 樹的數(shù)量和特征數(shù)占比這兩個(gè)參數(shù)對(duì)模型的影響圖4 本文模型與GBDT模型和傳統(tǒng)線性回歸模型的對(duì)比結(jié)果
3.3 區(qū)域訂正精度分析在單點(diǎn)訂正性能優(yōu)越的基礎(chǔ)上,本文接下來分析了海南島18個(gè)站點(diǎn)的區(qū)域訂正結(jié)果,即采用本文建立的時(shí)空獨(dú)立隨機(jī)森林模型對(duì)海南島的18個(gè)站點(diǎn)同時(shí)進(jìn)行訂正,并以2020年4月16日T08開始起報(bào),預(yù)報(bào)時(shí)效為7 d,時(shí)效間隔為3 h,分別顯示未來3 h、12 h、24 h、48 h和120 h的預(yù)報(bào)氣溫值和真實(shí)值.如圖5所示,與第一行的真實(shí)氣溫值比較,基于時(shí)空獨(dú)立的隨機(jī)森林模型能夠很好地對(duì)ECWMF模式預(yù)報(bào)值進(jìn)行很好的區(qū)域訂正,在海南島區(qū)域,它比ECWMF模式的預(yù)報(bào)結(jié)果更加精準(zhǔn).
圖5 海南區(qū)域氣溫的真實(shí)值、本文模型的訂正值以及ECWMF模式的預(yù)報(bào)值
為了進(jìn)一步分析區(qū)域訂正的結(jié)果,圖6展示了18個(gè)站點(diǎn)小于1 ℃的準(zhǔn)確率結(jié)果,同樣,以2020年4月16日T08開始起報(bào),圖6縱坐標(biāo)為未來7天的總準(zhǔn)確率,橫坐標(biāo)則是18個(gè)站點(diǎn),從圖6可以看出,本文所提的時(shí)空獨(dú)立隨機(jī)森林模型能夠?qū)?8個(gè)站點(diǎn)的ECWMF模式預(yù)報(bào)結(jié)果進(jìn)行同時(shí)訂正,并且能讓18個(gè)站點(diǎn)的結(jié)果更加準(zhǔn)確,這也驗(yàn)證了本文所提算法在區(qū)域訂正的有效性.
圖6 本文所提模型和ECWMF模式在18個(gè)站點(diǎn)小于1 ℃的準(zhǔn)確率結(jié)果
3.4 時(shí)空獨(dú)立特性分析為了進(jìn)一步驗(yàn)證本文所提方法在海南島區(qū)域訂正的優(yōu)越性,下面對(duì)比了分站點(diǎn)訂正的隨機(jī)森林模型和所有站點(diǎn)采用統(tǒng)一訂正的隨機(jī)森林模型,并對(duì)本文所提的時(shí)空獨(dú)立特性進(jìn)行了分析.圖7展示了兩種模型在海南島的訂正效果,圖7中黑色實(shí)線是訂正結(jié)果,背景顏色區(qū)域則是真實(shí)溫度場.圖8則展示了兩種模型在18個(gè)站點(diǎn)的預(yù)報(bào)準(zhǔn)確率情況.從圖7和圖8中可知,總體而言,這兩個(gè)模型均能實(shí)現(xiàn)對(duì)ECWMF預(yù)報(bào)值的精準(zhǔn)訂正,但是在個(gè)別局部區(qū)域,比如海口—臨高、樂東—五指山、瓊?!f寧,本文所提的時(shí)空獨(dú)立隨機(jī)森林模型的訂正效果要優(yōu)于采用統(tǒng)一模型的訂正效果.
a) 本文所提模型b) 所有站點(diǎn)統(tǒng)一訂正模型圖7 兩種模型對(duì)海南島氣溫的訂正效果(黑色實(shí)線為模型訂正結(jié)果,顏色區(qū)域則是真實(shí)的溫度場)?
圖8 兩種模型對(duì)海南島18個(gè)站點(diǎn)氣溫的訂正準(zhǔn)確率(上圖是本文所提模型,下圖是所有站點(diǎn)統(tǒng)一模型)
最后針對(duì)??凇R高、樂東—五指山、瓊?!f寧三個(gè)局部區(qū)域,分別分析了表1中的各個(gè)氣象要素對(duì)兩種隨機(jī)森林模型的影響情況.對(duì)于??凇R高區(qū)域,圖9展示了兩種隨機(jī)森林模型中貢獻(xiàn)最大的前10個(gè)要素情況.從圖9中可以看出,貢獻(xiàn)最大的前10要素是相同的,但是每個(gè)要素的貢獻(xiàn)程度會(huì)隨著模型的變化而有所區(qū)別.在統(tǒng)一訂正模型中,??谡军c(diǎn)和臨高站點(diǎn)貢獻(xiàn)位于前四位的要素排序分別是:地表2米溫度、最低氣溫(過去第一小時(shí)),最高氣溫(過去第一小時(shí))以及950 kPa溫度,其從高到低影響訂正效果.但是在本文所提的模型中,海口站點(diǎn)位于前四位的要素卻分別是:地表2米溫度,950 kPa溫度、最高氣溫(過去第一小時(shí))以及最低氣溫(過去第一小時(shí)),而臨高站點(diǎn)的前四位要素則與統(tǒng)一模型的前四位要素相同,這表明采用時(shí)空獨(dú)立的隨機(jī)森林模型可以反映出不同站點(diǎn)的區(qū)別,可以挑選出更具有特異性的要素組合,實(shí)現(xiàn)高精度的訂正效果.同理,樂東—五指山、瓊海—萬寧兩個(gè)局部區(qū)域也存在類似的現(xiàn)象,其貢獻(xiàn)最大的前10位要素如圖10所示.
圖9 兩種隨機(jī)森林模型中貢獻(xiàn)最大的前10位要素情況(??凇R高站點(diǎn))
a) 樂東—五指山b) 瓊?!f寧圖10 兩種隨機(jī)森林模型中貢獻(xiàn)最大的前10位要素情況
本文提出了基于時(shí)空獨(dú)立的隨機(jī)森林模型對(duì)海南島氣溫進(jìn)行訂正的方法,較之于采用統(tǒng)一隨機(jī)森林模型進(jìn)行訂正的方法,本方法更能夠充分考慮海南島獨(dú)特的熱帶區(qū)域以及地理地貌的氣象多樣性,能夠分站點(diǎn)分時(shí)段地進(jìn)行單獨(dú)訂正.結(jié)果表明,本文所提的方法不論是在單站點(diǎn),還是在整個(gè)海南島區(qū)域,它都明顯優(yōu)于ECWMF的預(yù)報(bào)結(jié)果,而且比統(tǒng)一隨機(jī)森林模型的訂正效果更加優(yōu)越,能夠?qū)崿F(xiàn)對(duì)全島范圍氣溫的精準(zhǔn)訂正.此外,從各個(gè)要素的影響分析結(jié)果可知,基于時(shí)空獨(dú)立的隨機(jī)森林模型能夠根據(jù)不同站點(diǎn)組合不同要素,而統(tǒng)一模型無法實(shí)現(xiàn)此效果,這也是本文中的模型優(yōu)于統(tǒng)一模型的原因,此結(jié)果有助于加深對(duì)以往氣溫預(yù)測物理模型所使用的氣象要素組合的認(rèn)識(shí).
海南大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年4期