王 婧 李衣長 葉凌鋒
(1.福建省氣象信息中心,福建 福州 350001;2.福建省三明市氣象局,福建 三明 365000;3.福建省氣象科學研究所,福建 福州 350001)
隨著氣象事業(yè)的快速發(fā)展,國家建設了大量的氣象觀測站,使得氣象數(shù)據(jù)的數(shù)據(jù)量和維度逐年提升[1]。伴隨著數(shù)據(jù)量與維度的不斷增加,氣象數(shù)據(jù)的質量控制(簡稱質控)問題逐漸凸顯[2]。氣象數(shù)據(jù)的質量控制影響著天氣預報的準確性與可靠性[3-4],且氣象數(shù)據(jù)異常值對科研領域也有較大影響[5]。因此,對氣象數(shù)據(jù)進行質量控制極為重要。
傳統(tǒng)的質控系統(tǒng)使用氣候極值、數(shù)值變化率等統(tǒng)計學指標,應用廣泛。賈寧等[6]利用傳統(tǒng)質控方法完成了氣象數(shù)據(jù)的可疑性、變化率等簡單檢查;任芝花等[7]建立了基于臺站級、省級、國家級的三級質量控制流程。傳統(tǒng)質控方法在針對具體站點的問題上缺乏靈敏度,在要素之間關聯(lián)性的使用上不夠深入,造成質控工作量大、效率低、不夠靈活等問題[8-9]。大量專家學者對此提出了不少改進方案,田云紅等[10]依據(jù)臺站歷史數(shù)據(jù)對氣象觀測數(shù)值的界限值和時間一致性進行更精確的判斷;韓格格等[11]使用改進Apriori算法關聯(lián)氣象數(shù)據(jù)進行質量控制。近年來,數(shù)據(jù)挖掘算法應用廣泛,其中輕量級梯度提升算法(LightGBM)具有準確性高、訓練速度快和支持分布式等特點,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關系,建立數(shù)據(jù)模型[12-14]。王予涵等[15]使用LightGBM算法預測用戶購買行為;胡瀾等[16]使用該算法對風力發(fā)電機進行故障診斷;余東昌等[17]運用該算法構建能見度預測模型。LightGBM算法在各領域的應用證明了其明顯的優(yōu)勢,然而目前LightGBM算法較少應用于氣象數(shù)據(jù)質量控制。故本文選取了2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例,通過LightGBM算法進行數(shù)據(jù)質量控制,并將結果與傳統(tǒng)的變化率判斷法進行對比,驗證LightGBM算法在氣象數(shù)據(jù)質量控制方面的可行性與可靠性。
本文選取福州市2019—2021年的國家觀測站點的氣象數(shù)據(jù),繪制每個月平均溫度的變化趨勢圖(圖1)。從圖1可知,福州氣溫1—3月溫度較低,7—8月的月平均溫度在30℃左右,溫度數(shù)據(jù)呈周期性變化。
圖1 福州市氣溫變化趨勢圖
福州市國家觀測站有關氣象地面觀測數(shù)據(jù)的維度較多,包括溫度(氣溫)、地溫、地面溫度、草面溫度、相對濕度、海平面氣壓、氣壓、能見度、風向、風速、輻射照度、降水等維度。從圖2可知,氣象數(shù)值呈周期性變化且數(shù)據(jù)維度之間存在一定的關聯(lián)性,例如白天氣溫高、夜間低;能見度與氣溫呈正相關性,而相對濕度、海平面氣壓與溫度則呈負相關性。
計算氣溫與各類數(shù)據(jù)之間的斯皮爾曼相關系數(shù),可以獲取氣溫與各類數(shù)據(jù)之間的相關性情況(表1),從表1可知,氣溫與地溫、草面溫度是強相關關系,與時間、相對濕度和海平面氣壓是強相關和中等程度相關。不同維度數(shù)據(jù)之間存在相關性,表明利用多種不同維度的數(shù)據(jù)完成對某一維度數(shù)據(jù)的簡單預測是可行的。
圖2 氣象要素數(shù)值變化趨勢圖
表1 氣象要素相關性分析(0.4中等程度相關以上)
輕量級梯度提升算法LightGBM是改進的梯度提升算法[18-19],具有存占用低、準確性高、訓練速度快等優(yōu)勢,在預測、搜索等任務上應用廣泛且表現(xiàn)優(yōu)異,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關系[20-21]。
從基于LightGBM的氣象數(shù)據(jù)質量控制算法流程看(見圖3),首先使用氣象原始數(shù)據(jù)D和初始化權重訓練并獲得弱學習器,根據(jù)弱學習器的誤差調(diào)整權重,重復訓練獲得n個弱學習器,將n個弱學習器的結果加權組合,再綜合查全率和查準率選取閾值,最后獲得氣象數(shù)據(jù)質量控制的檢測模型。
將LightGBM算法引入氣象數(shù)據(jù)質控中,能夠充分發(fā)揮算法與多維氣象數(shù)據(jù)的優(yōu)勢,有效利用多維度數(shù)據(jù)之間存在的相關性,完成對某種氣象要素的預測,達到質量控制的目的。
圖3 基于LightGBM的質控算法流程圖
氣象數(shù)據(jù)質量控制的本質是時間序列的異常檢測,常見的時間序列異常有4種類型:(a)附加性異常;(b)革新性異常;(c)暫時性異常;(d)移位性異常,如圖4所示。模擬4種異常數(shù)值,并將異常值疊加在氣象數(shù)值中,結果如圖5所示。其中,左列是四種類型的異常值,右列實線是原始數(shù)據(jù),虛線是疊加模擬異常值后的模擬數(shù)據(jù)。加入異常值的氣象數(shù)據(jù)將作為算法的測試集,用于檢測算法效果和性能。
(a)附加性異常 (b)革新性異常 (c)暫時性異常(d)移位性異常
圖5 四種氣象異常數(shù)值模擬
①查準率(P)是指預測為正樣本的結果中真正樣本所占的比例。
(1)
式(1)中,TP是真正樣本個數(shù),F(xiàn)P是假正樣本個數(shù)。
②查全率(R)是指在實際的正樣本中,被算法預測為正樣本所占的比例。
(2)
式(2)中,TP是真正樣本個數(shù),F(xiàn)N是假反樣本個數(shù)。
③F1數(shù)值:查準率和查全率評價的角度不同,而F1數(shù)值可以同時考慮查準率和查全率。
(3)
式3中,P是查準率,R是查全率,β是權重參數(shù),參數(shù)可根據(jù)需求設置,例如本文的氣象數(shù)據(jù)質量控制,我們更注重查全率,可以將β值設置為大于1的值,這樣F1得分將更傾向于查全率。
以福州市2019年1月—2021年9月的國家觀測站點各個氣象要素作為LightGBM算法的訓練集,以2021年10—12月數(shù)據(jù)為測試集。算法通過不斷訓練迭代獲得模型。
表2是面對4種類型的異常值,變化率判斷法與基于LightGBM算法的質控方法的查準率P、查全率R和F1的數(shù)值,其中a代表變化率判斷法,b代表LightGBM判斷法。從圖6可以看出,面對4種類型的異常值,基于LightGBM算法的質控方法優(yōu)于變化率質控方法,特別是面對第一種附加性異常值時表現(xiàn)突出。
表2 算法結果分析
圖6 算法結果柱狀圖
可以使用P-R曲線來直觀地評估算法的性能,從圖7中可以看出,當查準率P相同時,LightGBM算法的查全率R大于變化率判斷的質控方法;當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷法,說明基于LightGBM算法的質控方法泛化能力更好,性能優(yōu)于變化率判斷法。
(a)變化率判斷法(b)LightGBM質控法
使用綜合考慮查全率和查準率的F1數(shù)值選取閾值,當閾值取2.7時,LightGBM質控方法的F1值最高。由圖8可知,LightGBM算法預測結果與真實值基本吻合,當數(shù)值落在閾值帶以外時,算法判斷為異常值,可見該算法能輕易地將異常值區(qū)分出來,LightGBM算法質控方法精準度高、針對性強、靈活性高。
圖8 基于LightGBM算法的質控展示圖
本文使用2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例進行LightGBM算法的質量控制研究。首先,簡單分析了氣象地面觀測數(shù)據(jù)各維度與氣溫之間的相關性,發(fā)現(xiàn)利用不同維度之間的相關性完成數(shù)據(jù)質控是可行的。其次,引入LightGBM算法并利用各維度數(shù)據(jù)的相關性完成了氣溫的數(shù)據(jù)質量控制,最后,通過查全率、查準率與F1數(shù)值,對比LightGBM質控法與傳統(tǒng)變化率判法的質控結果,得出以下結論。
①針對4種典型的時間序列異常情況,基于LightGBM算法的質控方法能檢測出氣象數(shù)據(jù)中的異常值,特別是面對附加性異常值時表現(xiàn)突出,變化率判斷法查全率96.7%,新方法達98.9%,其質控的準確性高、效果好。
②根據(jù)P-R曲線直觀地評估算法的性能,當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷的質控方法,可見基于LightGBM算法的質控方法泛化能力更好,性能優(yōu)于變化率判斷的質控方法。
③綜合考慮查全率和查準率LightGBM算法閾值選取比變化率判斷法的質控方法更精確,針對性強,靈活性高。