国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LightGBM的氣象數(shù)據(jù)質量控制方法研究*

2022-09-01 00:52李衣長葉凌鋒
海峽科學 2022年7期
關鍵詞:查全率查準率變化率

王 婧 李衣長 葉凌鋒

(1.福建省氣象信息中心,福建 福州 350001;2.福建省三明市氣象局,福建 三明 365000;3.福建省氣象科學研究所,福建 福州 350001)

1 概述

隨著氣象事業(yè)的快速發(fā)展,國家建設了大量的氣象觀測站,使得氣象數(shù)據(jù)的數(shù)據(jù)量和維度逐年提升[1]。伴隨著數(shù)據(jù)量與維度的不斷增加,氣象數(shù)據(jù)的質量控制(簡稱質控)問題逐漸凸顯[2]。氣象數(shù)據(jù)的質量控制影響著天氣預報的準確性與可靠性[3-4],且氣象數(shù)據(jù)異常值對科研領域也有較大影響[5]。因此,對氣象數(shù)據(jù)進行質量控制極為重要。

傳統(tǒng)的質控系統(tǒng)使用氣候極值、數(shù)值變化率等統(tǒng)計學指標,應用廣泛。賈寧等[6]利用傳統(tǒng)質控方法完成了氣象數(shù)據(jù)的可疑性、變化率等簡單檢查;任芝花等[7]建立了基于臺站級、省級、國家級的三級質量控制流程。傳統(tǒng)質控方法在針對具體站點的問題上缺乏靈敏度,在要素之間關聯(lián)性的使用上不夠深入,造成質控工作量大、效率低、不夠靈活等問題[8-9]。大量專家學者對此提出了不少改進方案,田云紅等[10]依據(jù)臺站歷史數(shù)據(jù)對氣象觀測數(shù)值的界限值和時間一致性進行更精確的判斷;韓格格等[11]使用改進Apriori算法關聯(lián)氣象數(shù)據(jù)進行質量控制。近年來,數(shù)據(jù)挖掘算法應用廣泛,其中輕量級梯度提升算法(LightGBM)具有準確性高、訓練速度快和支持分布式等特點,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關系,建立數(shù)據(jù)模型[12-14]。王予涵等[15]使用LightGBM算法預測用戶購買行為;胡瀾等[16]使用該算法對風力發(fā)電機進行故障診斷;余東昌等[17]運用該算法構建能見度預測模型。LightGBM算法在各領域的應用證明了其明顯的優(yōu)勢,然而目前LightGBM算法較少應用于氣象數(shù)據(jù)質量控制。故本文選取了2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例,通過LightGBM算法進行數(shù)據(jù)質量控制,并將結果與傳統(tǒng)的變化率判斷法進行對比,驗證LightGBM算法在氣象數(shù)據(jù)質量控制方面的可行性與可靠性。

2 氣溫與其他氣象要素的相關性

本文選取福州市2019—2021年的國家觀測站點的氣象數(shù)據(jù),繪制每個月平均溫度的變化趨勢圖(圖1)。從圖1可知,福州氣溫1—3月溫度較低,7—8月的月平均溫度在30℃左右,溫度數(shù)據(jù)呈周期性變化。

圖1 福州市氣溫變化趨勢圖

福州市國家觀測站有關氣象地面觀測數(shù)據(jù)的維度較多,包括溫度(氣溫)、地溫、地面溫度、草面溫度、相對濕度、海平面氣壓、氣壓、能見度、風向、風速、輻射照度、降水等維度。從圖2可知,氣象數(shù)值呈周期性變化且數(shù)據(jù)維度之間存在一定的關聯(lián)性,例如白天氣溫高、夜間低;能見度與氣溫呈正相關性,而相對濕度、海平面氣壓與溫度則呈負相關性。

計算氣溫與各類數(shù)據(jù)之間的斯皮爾曼相關系數(shù),可以獲取氣溫與各類數(shù)據(jù)之間的相關性情況(表1),從表1可知,氣溫與地溫、草面溫度是強相關關系,與時間、相對濕度和海平面氣壓是強相關和中等程度相關。不同維度數(shù)據(jù)之間存在相關性,表明利用多種不同維度的數(shù)據(jù)完成對某一維度數(shù)據(jù)的簡單預測是可行的。

圖2 氣象要素數(shù)值變化趨勢圖

表1 氣象要素相關性分析(0.4中等程度相關以上)

3 基于LightGBM的氣象數(shù)據(jù)質量控制方法

3.1 算法介紹

輕量級梯度提升算法LightGBM是改進的梯度提升算法[18-19],具有存占用低、準確性高、訓練速度快等優(yōu)勢,在預測、搜索等任務上應用廣泛且表現(xiàn)優(yōu)異,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關系[20-21]。

從基于LightGBM的氣象數(shù)據(jù)質量控制算法流程看(見圖3),首先使用氣象原始數(shù)據(jù)D和初始化權重訓練并獲得弱學習器,根據(jù)弱學習器的誤差調(diào)整權重,重復訓練獲得n個弱學習器,將n個弱學習器的結果加權組合,再綜合查全率和查準率選取閾值,最后獲得氣象數(shù)據(jù)質量控制的檢測模型。

將LightGBM算法引入氣象數(shù)據(jù)質控中,能夠充分發(fā)揮算法與多維氣象數(shù)據(jù)的優(yōu)勢,有效利用多維度數(shù)據(jù)之間存在的相關性,完成對某種氣象要素的預測,達到質量控制的目的。

圖3 基于LightGBM的質控算法流程圖

3.2 異常數(shù)據(jù)

氣象數(shù)據(jù)質量控制的本質是時間序列的異常檢測,常見的時間序列異常有4種類型:(a)附加性異常;(b)革新性異常;(c)暫時性異常;(d)移位性異常,如圖4所示。模擬4種異常數(shù)值,并將異常值疊加在氣象數(shù)值中,結果如圖5所示。其中,左列是四種類型的異常值,右列實線是原始數(shù)據(jù),虛線是疊加模擬異常值后的模擬數(shù)據(jù)。加入異常值的氣象數(shù)據(jù)將作為算法的測試集,用于檢測算法效果和性能。

(a)附加性異常 (b)革新性異常 (c)暫時性異常(d)移位性異常

圖5 四種氣象異常數(shù)值模擬

3.3 算法結果評價標準

①查準率(P)是指預測為正樣本的結果中真正樣本所占的比例。

(1)

式(1)中,TP是真正樣本個數(shù),F(xiàn)P是假正樣本個數(shù)。

②查全率(R)是指在實際的正樣本中,被算法預測為正樣本所占的比例。

(2)

式(2)中,TP是真正樣本個數(shù),F(xiàn)N是假反樣本個數(shù)。

③F1數(shù)值:查準率和查全率評價的角度不同,而F1數(shù)值可以同時考慮查準率和查全率。

(3)

式3中,P是查準率,R是查全率,β是權重參數(shù),參數(shù)可根據(jù)需求設置,例如本文的氣象數(shù)據(jù)質量控制,我們更注重查全率,可以將β值設置為大于1的值,這樣F1得分將更傾向于查全率。

4 結果與分析

以福州市2019年1月—2021年9月的國家觀測站點各個氣象要素作為LightGBM算法的訓練集,以2021年10—12月數(shù)據(jù)為測試集。算法通過不斷訓練迭代獲得模型。

表2是面對4種類型的異常值,變化率判斷法與基于LightGBM算法的質控方法的查準率P、查全率R和F1的數(shù)值,其中a代表變化率判斷法,b代表LightGBM判斷法。從圖6可以看出,面對4種類型的異常值,基于LightGBM算法的質控方法優(yōu)于變化率質控方法,特別是面對第一種附加性異常值時表現(xiàn)突出。

表2 算法結果分析

圖6 算法結果柱狀圖

可以使用P-R曲線來直觀地評估算法的性能,從圖7中可以看出,當查準率P相同時,LightGBM算法的查全率R大于變化率判斷的質控方法;當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷法,說明基于LightGBM算法的質控方法泛化能力更好,性能優(yōu)于變化率判斷法。

(a)變化率判斷法(b)LightGBM質控法

使用綜合考慮查全率和查準率的F1數(shù)值選取閾值,當閾值取2.7時,LightGBM質控方法的F1值最高。由圖8可知,LightGBM算法預測結果與真實值基本吻合,當數(shù)值落在閾值帶以外時,算法判斷為異常值,可見該算法能輕易地將異常值區(qū)分出來,LightGBM算法質控方法精準度高、針對性強、靈活性高。

圖8 基于LightGBM算法的質控展示圖

5 結論

本文使用2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例進行LightGBM算法的質量控制研究。首先,簡單分析了氣象地面觀測數(shù)據(jù)各維度與氣溫之間的相關性,發(fā)現(xiàn)利用不同維度之間的相關性完成數(shù)據(jù)質控是可行的。其次,引入LightGBM算法并利用各維度數(shù)據(jù)的相關性完成了氣溫的數(shù)據(jù)質量控制,最后,通過查全率、查準率與F1數(shù)值,對比LightGBM質控法與傳統(tǒng)變化率判法的質控結果,得出以下結論。

①針對4種典型的時間序列異常情況,基于LightGBM算法的質控方法能檢測出氣象數(shù)據(jù)中的異常值,特別是面對附加性異常值時表現(xiàn)突出,變化率判斷法查全率96.7%,新方法達98.9%,其質控的準確性高、效果好。

②根據(jù)P-R曲線直觀地評估算法的性能,當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷的質控方法,可見基于LightGBM算法的質控方法泛化能力更好,性能優(yōu)于變化率判斷的質控方法。

③綜合考慮查全率和查準率LightGBM算法閾值選取比變化率判斷法的質控方法更精確,針對性強,靈活性高。

猜你喜歡
查全率查準率變化率
基于電流變化率的交流濾波器失諧元件在線辨識方法
例談中考題中的變化率問題
海量圖書館檔案信息的快速檢索方法
基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
基于詞嵌入語義的精準檢索式構建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
利用基波相量變化率的快速選相方法
是巧合還是規(guī)律?
基于Web的概念屬性抽取的研究
云浮市| 武宣县| 玛多县| 琼结县| 济源市| 阜城县| 灵山县| 漠河县| 宜宾市| 清涧县| 齐齐哈尔市| 曲阳县| 怀宁县| 渝北区| 苏尼特右旗| 赣州市| 沈丘县| 仁化县| 云梦县| 普安县| 万盛区| 阜南县| 临泉县| 藁城市| 威远县| 漾濞| 海南省| 平阳县| 体育| 乐陵市| 囊谦县| 行唐县| 慈溪市| 巴塘县| 潞城市| 栖霞市| 十堰市| 富源县| 南和县| 彰化市| 泸州市|