王證帥 呂巧誼,2 張 偉,2 鄭 輝,2 陳德花,2
(1.廈門市海峽氣象開放重點實驗室,福建 廈門 361012;2.廈門市氣象臺,福建 廈門 361012)
數(shù)值天氣預報是當前氣象預報最重要的手段之一,它主要以物理模擬來實現(xiàn)對環(huán)境大氣趨勢的預測,但數(shù)值天氣模式也存在一定的不準確性和一些系統(tǒng)性的偏差,從而導致天氣預測不夠準確。造成偏差的主要原因有經(jīng)驗化的參數(shù)化方案的誤差、模式動力系統(tǒng)的不準確性、初始場的誤差等。為了減少數(shù)值模式帶來的誤差,蘇志重等開展了多模式降水融合預報研究,融合產(chǎn)品能夠接近最優(yōu)確定性預報,但仍存在一定偏差[1]。近年來,人工智能技術越來越多地應用于天氣預報領域。基于數(shù)據(jù)驅動的機器學習算法,是從大量數(shù)據(jù)中通過融合多維數(shù)據(jù)作為特征輸入進行建模,以此來訓練預測模型,與傳統(tǒng)統(tǒng)計學方法具有較大差異,其使用的是算法模型,犧牲了可解釋性,提高預測的準確率。
國內外一些領先的氣象業(yè)務科研機構,如歐洲中期天氣數(shù)值預報中心、中國氣象科學研究院等,均已開展AI技術在氣象領域的應用,包括觀測數(shù)據(jù)質量控制、災害性天氣監(jiān)測和識別、短時臨近預報、資料同化等[2-10]。越來越多的氣象科研工作者開展了一系列基于數(shù)值預報的客觀應用方法。例如,譚江紅等利用湖北省氣象站地面觀測溫度與歐洲中心再分析資料,建立了LightGBM模型,較數(shù)值預報模式產(chǎn)品提升明顯[11]。任萍等初步研發(fā)了一套基于機器學習方法XGBoost且考慮地形特征影響的數(shù)值預報多模式集成技術,有效降低模式的系統(tǒng)性誤差[12]。孫全德等基于三種機器學習算法(LASSO回歸、隨機森林和深度學習),對數(shù)值天氣預報模式ECMWF預測的華北地區(qū)近地面10 m風速進行訂正[13]。馬景奕等提出了一種基于長短期記憶神經(jīng)網(wǎng)絡的氣象要素預測方法,進一步提升了氣象預測的準確性[14]。蔣薇等通過對比不同機器學習方法對江蘇省夏季降水開展預測試驗,發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡較傳統(tǒng)統(tǒng)計方法和其他機器學習方法有一定優(yōu)勢[15]。
在氣象大數(shù)據(jù)的時代背景下,機器學習技術通過足夠多的數(shù)據(jù)驅動,獲取足夠多的觀測模型的準確性。為進一步在實際的預報業(yè)務中挖掘數(shù)值模式預報產(chǎn)品信息,提升降水預報的準確性。本文提出一種基于集成學習XGBoost模型的降水客觀預報方法(以下簡稱為客觀預報方法),通過決策專家系統(tǒng)對氣象要素特征進行提取和預處理,使用機器學習的方法對歷史數(shù)據(jù)進行訓練,從而實現(xiàn)對本地區(qū)的降水進行客觀預報。
本文選取2019年1月1日—2020年12月31日08時和20時(北京時)的ECMWF全球模式的細網(wǎng)格產(chǎn)品(以下簡稱為ECMWF模式資料)和地面實況降水觀測資料,形成機器學習訓練樣本。其中,模式資料包含風、降水、氣溫等產(chǎn)品,預報時效為0~72小時,時間間隔為6小時,空間分辨率為0.125°×0.125°;地面實況降水觀測資料,選取福建省70個國家級自動站(見圖1)相應時段的逐6小時累積降水資料,作為降水實況真實值。同時,在2021年6月1日—2021年10月31日08時和20時(北京時)的實際預報業(yè)務中,采用福建省70個國家級自動站的實況資料,檢驗本文客觀預報方法的預報效果。
圖1 福建省70個國家級自動站點分布
選取使用ECMWF模式資料輸出的大尺度降水(LSP)和對流性降水(CRAIN)、不同的天氣形勢、不同的溫度,500hPa位勢高度場、地面2m最高氣溫等,共選擇7個氣象要素場(見表1),并將其作為機器學習算法的輸入,構建基于機器學習的客觀預報模型。
表1 ECMWF高分辨率數(shù)值預報因子列表
本文提出了一種基于集成學習XGBoost模型的客觀預報方法,綜合考慮本地預報決策專家系統(tǒng)知識庫和集成學習XGBoost模型相結合,實現(xiàn)了基于ECMWF模式資料的客觀預報方法,實現(xiàn)了對福建省內70個國家級自動站點0~72小時降水預報。首先基于本地預報決策專家系統(tǒng)知識庫,對ECMWF模式資料輸出的各種要素特征進行數(shù)據(jù)預處理和特征選擇,獲得相關要素特征數(shù)據(jù)集,再以選擇的特征集進行機器學習建模,最后獲取福建地區(qū)70個站點的0~72小時預報結果?;诩蓪W習XGBoost模型的降水客觀預報方法整體架構設計見圖2。
圖2 基于集成學習XGBoost模型的降水客觀預報方法架構示意圖
客觀預報方法主要包含兩個部分:一是決策專家系統(tǒng),二是集成學習XGBoost模型。決策專家系統(tǒng)主要用來對ECMWF模式資料的輸出進行選擇和預處理,提升資料的可用性和可靠性,經(jīng)過決策專家系統(tǒng)處理后的數(shù)據(jù)與地面雨量觀測值共同組成訓練數(shù)據(jù)集;集成學習XGBoost算法模型是利用訓練數(shù)據(jù)集,通過不斷訓練獲得的,在后續(xù)的預測過程中可以直接調用。
3.1.1 決策專家系統(tǒng)
本方法涉及到的預處理,主要分為降水落區(qū)訂正和降水強度訂正,其目的是對現(xiàn)有的模式輸出進行初步訂正,從而進一步提高用于機器學習模型訓練的數(shù)據(jù)集準確性。
降水落區(qū)訂正是基于ECMWF模式資料歷史資料、雷達歷史回波、地面雨量觀測經(jīng)驗,對降水落區(qū)進行調整,主要引入500hPa位勢高度和500hPa的引導氣流方向。將500hPa風向作為引導因子,對降水格點落區(qū)進行計算和調整,即增加500hPa風向來向,擴大進入模型的區(qū)域。
降水強度訂正是基于本地化氣候學經(jīng)驗,使用EC自帶的大尺度降水(LSP)和對流性降水(CRAIN),分別選定閾值,進行消空,降低午后強對流的空報率,根據(jù)不同的天氣形勢、不同的溫度,選定不同的閾值。
3.1.2 集成學習模型
基于集成學習XGBoost的降水預報模型(見圖3)主要借鑒卷積和梯度提升決策樹的算法思想。該模型主要包含兩個部分:一是依托卷積進行空間特征提取,將格點數(shù)據(jù)通過卷積計算,獲得不同站點的關于降水預報的特征行向量;二是將卷積后得到的特征行向量,輸入梯度提升決策樹(XGBoost)模型,最后獲得對應時次的降水預報結果。
圖3 基于集成學習XGBoost的降水預報模型示意圖
如圖4所示,客觀預報方法主要分為兩個過程,一是訓練過程,二是預測過程。訓練過程是獲取機器學習算法模型的過程,將ECMWF模式資料歷史數(shù)據(jù)進行決策專家系統(tǒng)訂正后,再與地面雨量觀測值一一對應,獲得訓練機器學習算法模型的數(shù)據(jù)集;將專家訂正后的ECMWF模式資料數(shù)據(jù)集作為模型輸入,地面雨量觀測值作為目標值,對預報方法模型進行訓練,最終獲得較優(yōu)的機器學習算法模型。預測過程是獲取對應時次降水預報值的過程,將當前時次ECMWF模式資料的數(shù)據(jù)進行決策專家系統(tǒng)訂正后,輸入到機器學習算法模型中,最終獲得對應時次的降水預報值。
(a)訓練過程示意圖 (b)預測過程示意圖圖4 基于集成學習XGBoost模型的降水客觀預報方法流程
訓練過程中,采用格網(wǎng)搜索法(Grid Search)進行參數(shù)調優(yōu),為了評估模型的性能,對雨量使用平均絕對誤差作為損失函數(shù),用來評估機器學習模型在訓練過程中的預報準確性。其詳細過程如下:
①決策專家系統(tǒng)選取特征值(見表1),并進行數(shù)據(jù)預處理。本文選取了2019—2020年每日08時和20時(北京時)的預報資料,共計1462個模式預報數(shù)據(jù)。針對各種模式輸出資料,選取目標站點所在的格點,并取該格點相鄰的格點數(shù)據(jù)(共9個格點數(shù)據(jù));根據(jù)500hPa的引導氣流方向,增加拓展區(qū)域格點;對數(shù)值預報格點中的空值和異常值進行處理。之后對各要素值進行歸一化處理,提升訓練運算速度。
②構造數(shù)據(jù)集,選用2019—2020年福建省70個國家級自動站相應時段的6小時累積降水資料,作為降水實況,與ECMWF模式資料的輸出一一對應,構造數(shù)據(jù)集,并按照8∶2比例劃分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集。
目前市場環(huán)境下,專業(yè)培訓機構往往停留在理論和早期項目案例層面,真正對于EPC工程總承包實操層面的培訓機制非常缺失,還需要施工企業(yè)有專業(yè)化部門和力量來建設人才隊伍、培養(yǎng)并發(fā)展人才,而且企業(yè)自身要加強經(jīng)驗總結。
③集成學習模型訓練。將訓練數(shù)據(jù)集投入降水預報模型進行訓練,采用Adam優(yōu)化器,其中學習率為10-3,每個訓練周期的迭代次數(shù)為10000,獲得降水客觀預報模型。
④集成學習模型迭代驗證。降水預測過程是選取對應時次的模式資料,進行數(shù)據(jù)預處理(同訓練過程),獲得預測輸入數(shù)據(jù);將預測輸入數(shù)據(jù)集輸入到降水客觀預報模型中,獲得對應時次的降水預報值。最后,使用對應時次的地面雨量觀測值,評估預測模型的準確性。
本文開展檢驗評估時,將客觀預報方法預報的站點降水量、ECMWF模式預報的降水量,分別與相應觀測站的實況雨量進行對比檢驗。其中,ECMWF模式預報的降水量是通過經(jīng)緯度選取最近的格點數(shù)據(jù),插值到對應的站點上。評估檢驗方法,采用傳統(tǒng)二分類檢驗方法。
檢驗評估分別對08時、20時(北京時)起報的24小時預報時效進行逐6小時降水預報檢驗,48小時和72小時預報時效進行逐24小時降水預報檢驗。對于24小時預報,大雨以25mm為標準;對于6小時預報,以10mm為標準。
晴雨預報準確率計算公式為:
(1)
式(1)中,NA為有降水預報正確站(次)數(shù),NB為空報站(次)數(shù)、NC為漏報站(次)數(shù),ND為無降水預報正確的站(次)數(shù)。EH的值取值范圍為0%~100%,越接近100%,代表預報效果越好。
TS評分的計算公式為:
(2)
式(2)中,NA為有降水預報正確站(次)數(shù),NB為空報站(次)數(shù)、NC為漏報站(次)數(shù)。同樣,TS的取值范圍為0%~100%,越接近100%,代表預報效果越好。
2021年6—11月,客觀預報方法的晴雨預報準確率對比分析的檢驗評估見圖5。客觀預報方法和ECMWF模式資料預報站點的晴雨準確率結果顯示,客觀預報方法的預報結果明顯優(yōu)于ECMWF模式資料預報結果。
圖5 晴雨預報準確率對比分析
2021年6—11月,客觀預報方法的大雨以上預報TS評分對比分析見圖6。各預報時次中,預報站點的大雨以上TS評分檢驗情況在24h之內的客觀預報方法效果提升幅度明顯,其他時次客觀預報方法的預報結果相較于ECMWF模式資料預報的結果,也有大幅提升。
圖6 大雨以上預報TS評分對比分析
基于集成學習XGBoost模型的降水客觀預報方法與本地預報決策專家系統(tǒng)相結合,利用集成學習XGBoost模型,深度挖掘數(shù)值模式ECMWF模式資料的降水產(chǎn)品信息,將多種氣象要素特征應用在降水預報上。結果表明,該方法有效提升了ECMWF模式資料的預報結果,提升降水的預報準確率,在業(yè)務應用中取得了良好效果。
該方法在使用過程中也存在一些問題。例如,預測的準確率還有上升空間,數(shù)值模式資料及氣象要素特征的選擇,機器學習模型及算法的選擇、參數(shù)的調整等,還需要大量實踐分析。建議今后進一步挖掘數(shù)值模式預報產(chǎn)品信息,提升客觀預報方法的準確性。