代華龍
[摘 要]近年來(lái),隨著氣象自動(dòng)觀測(cè)站在全國(guó)范圍廣泛建立,氣象觀測(cè)數(shù)據(jù)的數(shù)據(jù)量呈指數(shù)級(jí)増長(zhǎng)。氣象觀測(cè)數(shù)據(jù)質(zhì)量的好壞直接影響到天氣預(yù)報(bào)以及氣候預(yù)測(cè)的準(zhǔn)確性。文章主要分析了傳統(tǒng)氣象觀測(cè)數(shù)據(jù)質(zhì)量控制算法以及基于數(shù)據(jù)挖掘的氣象觀測(cè)數(shù)據(jù)質(zhì)量控制算法,供相關(guān)工作者參考。
[關(guān)鍵詞]數(shù)據(jù)挖掘;氣象觀測(cè)數(shù)據(jù);質(zhì)量控制;算法
中圖分類號(hào):S273 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2018)10-0394-02
引言
傳統(tǒng)的質(zhì)量控制算法主要是利用歷史資料對(duì)氣候?qū)W界限值以及允許值進(jìn)行檢查,在要素異常變化上的控制上缺乏一定的靈敏度,已經(jīng)無(wú)法適應(yīng)當(dāng)前氣象觀測(cè)數(shù)據(jù)測(cè)量的工作需求。數(shù)據(jù)挖掘方法是近年來(lái)出現(xiàn)的應(yīng)用較為廣泛的大數(shù)據(jù)分析方法,在氣象中的應(yīng)用逐漸豐富。研究基于數(shù)據(jù)挖掘的氣象觀測(cè)數(shù)據(jù)質(zhì)量控制算法具有非常重要的現(xiàn)實(shí)意義。
1 國(guó)內(nèi)外數(shù)據(jù)挖掘算法在氣象領(lǐng)域中的應(yīng)用
數(shù)據(jù)挖掘簡(jiǎn)單來(lái)說(shuō)就是從大量數(shù)據(jù)中提取對(duì)我們有用的數(shù)據(jù)。在實(shí)際生活中,每種行業(yè)都會(huì)產(chǎn)生大量數(shù)據(jù),如何從這些數(shù)據(jù)中找到對(duì)行業(yè)有用的信息,為行業(yè)的決策者提供有效的方案,促進(jìn)行業(yè)經(jīng)濟(jì)效益的提升是數(shù)據(jù)分析的根本目的所在。數(shù)據(jù)挖掘的主要技術(shù)有關(guān)聯(lián)性分析,分類,預(yù)測(cè),聚類,離群點(diǎn)分析,時(shí)間序列分析。國(guó)外的研究人員主要利用關(guān)聯(lián)規(guī)則方法、分類中的貝葉斯網(wǎng)絡(luò)分類器、支持向量機(jī)分類器、聚類中的k-means、時(shí)間序列分析及空間數(shù)據(jù)分析等對(duì)氣象資料進(jìn)行應(yīng)用研究。國(guó)內(nèi)的學(xué)者們運(yùn)用數(shù)據(jù)挖掘算法中的關(guān)聯(lián)分析,分類,聚類,預(yù)測(cè)等方法對(duì)氣象數(shù)據(jù)進(jìn)行研巧。但是,從整體來(lái)看,國(guó)內(nèi)外氣象觀測(cè)數(shù)據(jù)質(zhì)量控制方法有以下兩個(gè)方面的缺點(diǎn):首先,質(zhì)量控制主要集中在使用傳統(tǒng)的氣象數(shù)據(jù)質(zhì)控方法,根據(jù)歷史資料得出氣候界限值及各要素允許值對(duì)觀測(cè)值進(jìn)行質(zhì)控,靈敏度不高;其次,數(shù)據(jù)挖掘算法的應(yīng)用主要集中于氣象要素之間的相關(guān)性分析,天氣現(xiàn)象的分類、降水量的預(yù)測(cè)等方面,在氣象數(shù)據(jù)的質(zhì)量控制方面的研究工作開(kāi)展的較少。
2 傳統(tǒng)氣象觀測(cè)數(shù)據(jù)質(zhì)量控制
2.1 氣象觀測(cè)數(shù)據(jù)采集原理
氣象自動(dòng)觀測(cè)站是無(wú)線傳感器技術(shù)與地面觀測(cè)技術(shù)相結(jié)合的產(chǎn)物,是無(wú)線傳感器技術(shù)在氣象觀測(cè)領(lǐng)域中的應(yīng)用。氣象自動(dòng)觀測(cè)站具有先進(jìn)性、復(fù)雜性和可靠性的特點(diǎn)。一個(gè)完整的地面氣象觀測(cè)站主要由設(shè)備測(cè)量部分、采集編碼部分和數(shù)據(jù)傳輸部分三部分構(gòu)成。數(shù)據(jù)測(cè)量部分主要包括雨量計(jì)、氣壓計(jì)、溫濕度感應(yīng)器、輻射計(jì)以及風(fēng)向風(fēng)速探測(cè)感應(yīng)部件;數(shù)據(jù)采集器主要對(duì)各感應(yīng)探測(cè)器的數(shù)據(jù)進(jìn)行信號(hào)數(shù)字化,并按照氣象報(bào)文格式生成報(bào)文記錄;傳輸模型負(fù)責(zé)將生成的報(bào)文文檔傳輸?shù)奖镜貐^(qū)上一級(jí)的服務(wù)器,形成本地區(qū)各觀測(cè)站點(diǎn)同步觀測(cè)報(bào)文。
2.2 傳統(tǒng)量控制算法
地面氣象資料的質(zhì)量控制主要是以實(shí)時(shí)檢查為主,檢查手段包括人機(jī)交互辨別手段,檢查方法包括氣候?qū)W界限值檢查、內(nèi)部一致性檢查、時(shí)間一致性檢查以及空間一致性檢查。下圖1所示為傳統(tǒng)質(zhì)量控制算法框架。
3 基于數(shù)據(jù)挖掘的氣象觀測(cè)數(shù)據(jù)質(zhì)量控制算法
3.1 基于時(shí)間相關(guān)的氣象數(shù)據(jù)質(zhì)量控制方法
以同一觀測(cè)要素在不同時(shí)間觀測(cè)值之間的相關(guān)性出發(fā),可以分析發(fā)現(xiàn)各氣象要素時(shí)間序列的混濁特性,利用各氣象要素的混濁特性進(jìn)行相空間重構(gòu)。然后根據(jù)重構(gòu)后的氣象要素時(shí)間序列,結(jié)合SVM算法,以某時(shí)刻前一段時(shí)間的觀測(cè)值作為輸入,該時(shí)刻的觀測(cè)值作為輸出,建立基于SVM的混濁氣象要素時(shí)間序列預(yù)估模型。根據(jù)氣象觀測(cè)數(shù)據(jù)的特性,針對(duì)預(yù)估模型中核函數(shù)的選取,選取混合核函數(shù),并采用改進(jìn)的粒子群算法對(duì)模型中的參數(shù)進(jìn)行自適應(yīng)的學(xué)習(xí)和確定,提高了模型的預(yù)估精度,以預(yù)估值和實(shí)際值的差異,來(lái)評(píng)估氣象觀測(cè)數(shù)據(jù)是否異常。下圖2所示為基于時(shí)間相關(guān)的質(zhì)控結(jié)果圖。
從圖2中可以看出,估計(jì)值曲線基本與未植入誤差的實(shí)際值曲線基本擬合,植入誤差10℃,以規(guī)則>7.5℃,可以將所有錯(cuò)誤數(shù)據(jù)全部檢測(cè)出來(lái),質(zhì)控精度較高。其中為植入誤差后的氣溫值,為預(yù)估的氣溫值。
3.2 基于要素相關(guān)的氣象數(shù)據(jù)質(zhì)量控制方法
從同一觀測(cè)時(shí)間不同要素之間的相關(guān)性出發(fā),利用灰色關(guān)聯(lián)分析法計(jì)算各要素之間的關(guān)聯(lián)度。在確定目標(biāo)要素和影響要素之后,首先分析各影響要素之間的關(guān)聯(lián)度,去除耦合性強(qiáng)的要素。在剩余影響要素中選取與目標(biāo)要素關(guān)聯(lián)度高的要素作為BP神經(jīng)網(wǎng)絡(luò)的輸入,目標(biāo)要素作為輸出,建立基于灰色關(guān)聯(lián)分析篩選輸入神經(jīng)元的BP神經(jīng)網(wǎng)絡(luò)氣象數(shù)據(jù)預(yù)估模型。采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行訓(xùn)練,以防模型陷入過(guò)擬合,從而提高了模型的預(yù)估精度,以預(yù)估值和實(shí)際值的差異,來(lái)判斷氣象觀測(cè)數(shù)據(jù)是否異常。
上圖3所示為基于要素相關(guān)的質(zhì)控結(jié)果圖,從圖3中可看出,估計(jì)值曲線基本與未植入誤差的實(shí)際值曲線基本擬合,植入誤差10℃,>6.5℃,可以將所有錯(cuò)誤數(shù)據(jù)全部檢測(cè)出來(lái),質(zhì)控精度非常高。
3.3 綜合質(zhì)控方案
以上兩種質(zhì)控算法之間有一定的互補(bǔ)性和關(guān)聯(lián)性,在此基礎(chǔ)上可以將兩者進(jìn)行有機(jī)結(jié)合,建立起綜合質(zhì)控方案,進(jìn)而有效提升數(shù)據(jù)分析的準(zhǔn)確性。第一,基于時(shí)間相關(guān)的氣象數(shù)據(jù)質(zhì)量控制方法是根據(jù)同一要素某一時(shí)刻前一段時(shí)間的測(cè)量值來(lái)得到這一時(shí)刻的預(yù)估值,與實(shí)際測(cè)量值進(jìn)行對(duì)比,判斷實(shí)際測(cè)量值有無(wú)異常。但當(dāng)連續(xù)一段時(shí)間內(nèi)該要素全部缺測(cè)時(shí),該方法就不能使用。此時(shí)如果與其相關(guān)的其他要素沒(méi)有缺測(cè),則可以用基于要素相關(guān)的氣象數(shù)據(jù)質(zhì)量控制方法代替;第二,當(dāng)同一時(shí)間內(nèi)與某一要素相關(guān)的其他要素大量缺測(cè),基于要素相關(guān)的氣象數(shù)據(jù)質(zhì)量控制方法就不能使用,此時(shí)如果這一時(shí)間內(nèi)的前一段時(shí)間的測(cè)量值沒(méi)有缺測(cè),則可根據(jù)前一段時(shí)間的測(cè)量值來(lái)得到該時(shí)刻的估計(jì)值,與實(shí)際測(cè)量值進(jìn)行對(duì)比,判斷實(shí)際測(cè)量值有無(wú)異常;第三,當(dāng)兩種方法都能使用時(shí),對(duì)于不同的要素比較兩種方法的質(zhì)控靈敏度,選取質(zhì)控靈敏度高的方法。
結(jié)束語(yǔ)
氣象觀測(cè)數(shù)據(jù)質(zhì)量控制算法是保證氣象觀測(cè)數(shù)據(jù)準(zhǔn)確性的基礎(chǔ)條件,同時(shí)也是天氣預(yù)報(bào)準(zhǔn)確度的保障。相關(guān)工作人員必須加強(qiáng)對(duì)質(zhì)控算法的研究,以進(jìn)一步提升數(shù)據(jù)觀測(cè)的精確度。
參考文獻(xiàn)
[1] 閻廷,柯莉萍,張艷.地面氣象觀測(cè)數(shù)據(jù)文件質(zhì)量控制方法及對(duì)策[J].現(xiàn)代農(nóng)業(yè)科技,2016,(24):241+245.
[2] 陳紅霞.地面氣象觀測(cè)數(shù)據(jù)綜合質(zhì)量控制方法研究[J].低碳世界,2017,(10):92-93.
[3] 韓四媛.做好地面氣象觀測(cè)數(shù)據(jù)文件質(zhì)量控制的幾點(diǎn)思考[J].河南農(nóng)業(yè),2016,(05):36.