陳正旭,王俊驕,洪月英
(1.浙江省氣象信息網(wǎng)絡(luò)中心,浙江 杭州 310017; 2.杭州市氣象局,浙江 杭州 310008)
一種基于“萊因達(dá)”準(zhǔn)則的區(qū)域自動(dòng)站實(shí)時(shí)資料應(yīng)用方法
陳正旭1,王俊驕2,洪月英1
(1.浙江省氣象信息網(wǎng)絡(luò)中心,浙江 杭州 310017; 2.杭州市氣象局,浙江 杭州 310008)
針對(duì)區(qū)域自動(dòng)站降水實(shí)時(shí)資料應(yīng)用中出現(xiàn)的問題,提出一種利用改進(jìn)的 “萊因達(dá)”準(zhǔn)則處理區(qū)域自動(dòng)站實(shí)時(shí)降水?dāng)?shù)據(jù)的方法。首先由歐式距離聚類得到樣本空間,再計(jì)算樣本的均值和殘差,然后給出了可疑度的定義,從而計(jì)算出各個(gè)站點(diǎn)的可疑度。最后通過實(shí)際數(shù)據(jù)進(jìn)行參數(shù)分析,證明了算法的有效性、實(shí)用性。
區(qū)域自動(dòng)站;質(zhì)量控制;實(shí)時(shí)資料;萊因達(dá)準(zhǔn)則
區(qū)域自動(dòng)站觀測(cè)資料是中尺度、短時(shí)效天氣預(yù)報(bào)不可缺少的重要資料源之一。由于儀器、維護(hù)、環(huán)境等多種原因,其探測(cè)資料的可靠性不如常規(guī)站。而往往在梅訊期期間、臺(tái)汛期期間或某個(gè)降雨過程,需要利用區(qū)域自動(dòng)站提供的數(shù)據(jù)資料制作決策服務(wù)材料。如在繪制等值線色塊圖時(shí),往往會(huì)受“異常”數(shù)據(jù)的影響,導(dǎo)致生成的等值線色塊圖不美觀、缺乏合理的邏輯性,或不能總體上把握研究對(duì)象的空間變化特征。
當(dāng)然,處理類似問題最好的方法就是實(shí)時(shí)數(shù)據(jù)質(zhì)量控制,將存在 “異?!钡恼军c(diǎn)數(shù)據(jù)快速剔除,但國(guó)內(nèi)對(duì)自動(dòng)氣象站數(shù)據(jù)質(zhì)量控制主要是著眼于歷史數(shù)據(jù),而對(duì)實(shí)時(shí)數(shù)據(jù)質(zhì)量控制的應(yīng)用較少。傳統(tǒng)的方法是通過人工審查、經(jīng)驗(yàn)分析等方法剔除可疑數(shù)據(jù)。但隨著計(jì)算機(jī)自動(dòng)化的普及、信息量的增大,且需將各種AWS觀測(cè)資料及時(shí)進(jìn)行氣象服務(wù)和業(yè)務(wù)使用,數(shù)據(jù)質(zhì)量控制必須由計(jì)算機(jī)來完成。國(guó)外有許多學(xué)者對(duì)氣象資料質(zhì)量控制方法做過研究[1-2],王新華等[3]、任芝花等[4]對(duì)非實(shí)時(shí)資料做過質(zhì)量控制,王海軍等[5]提出自動(dòng)氣象站實(shí)時(shí)資料自動(dòng)質(zhì)量控制方法。但實(shí)時(shí)信息的檢驗(yàn)和歷史質(zhì)量控制有一些不同,如對(duì)于歷史質(zhì)量控制可知道該時(shí)刻前后的時(shí)刻和空間的數(shù)據(jù),而實(shí)時(shí)數(shù)據(jù)實(shí)效性強(qiáng),只知道當(dāng)前時(shí)刻空間的站點(diǎn)數(shù)據(jù)。如果分析某個(gè)時(shí)間段的數(shù)據(jù),則就僅僅知道空間的數(shù)據(jù)。因此傳統(tǒng)的質(zhì)量控制方法不能滿足服務(wù)的高時(shí)效性。
為了快速分析、處理和應(yīng)用區(qū)域自動(dòng)站觀測(cè)的資料,并及時(shí)進(jìn)行氣象服務(wù)和業(yè)務(wù)使用,筆者提出一種結(jié)合改進(jìn)“萊因達(dá)”準(zhǔn)極值控制方法。通過該方法對(duì)所有站點(diǎn)數(shù)據(jù)進(jìn)行綜合分析,計(jì)算它們的可疑度,并對(duì)有“疑問”的數(shù)據(jù)進(jìn)行標(biāo)注。在數(shù)據(jù)應(yīng)用中,使用人員可結(jié)合可疑度和實(shí)際需求對(duì)“疑問”數(shù)據(jù)進(jìn)行合理的舍棄,使生成的等值線色塊圖可信、可用、美觀。
考慮到如果分析某個(gè)時(shí)間段的數(shù)據(jù),區(qū)域自動(dòng)站提供的資料則僅僅是分布在不同地理位置的空間站點(diǎn)數(shù)據(jù),并不存在歷史可比性。同時(shí)種種原因又會(huì)使少數(shù)區(qū)域自動(dòng)站的數(shù)據(jù)出現(xiàn) “異常”,降水資料特別明顯,在實(shí)際業(yè)務(wù)中,通過軟件監(jiān)控、人工判斷(結(jié)合雷達(dá)估測(cè)等),往往已經(jīng)對(duì)一些不合理的異常大值進(jìn)行了處理,但對(duì)異常小值未進(jìn)行處理。因此,如果直接利用區(qū)域自動(dòng)站的數(shù)據(jù)繪制等值線圖時(shí)[6],會(huì)發(fā)生“在降水量大值區(qū)出現(xiàn)梯度遞減區(qū)域”、“較多逗點(diǎn)狀小值”等不符合邏輯的問題。同時(shí),考慮到任何質(zhì)量控制的方法都不能保證找出所有的“異常點(diǎn)”,也不能保證不誤判。因此本文僅僅是根據(jù)算法計(jì)算各個(gè)數(shù)據(jù)的可疑度,至于是否采用均由數(shù)據(jù)應(yīng)用人員決定。由于降水資料具有標(biāo)量單位的氣象要素,故可利用極值控制方法對(duì)區(qū)域自動(dòng)站提供的原始數(shù)據(jù)進(jìn)行分析[2],計(jì)算出站點(diǎn)數(shù)據(jù)的可疑度。
由于傳統(tǒng)的“萊因達(dá)”準(zhǔn)則可用于判別樣本集合中的某個(gè)樣本是否為異常點(diǎn),本文僅給出可疑度,由數(shù)據(jù)使用人員判別是否異常。為此,根據(jù)整個(gè)區(qū)域的站點(diǎn)分布,針對(duì)第i個(gè)站點(diǎn)找到距該站點(diǎn)最近的“歐式距離”的N個(gè)其他站點(diǎn),作為該站點(diǎn)的站點(diǎn)集合Ωi。在一定的假設(shè)基礎(chǔ)上,利用改進(jìn)的“萊因達(dá)”法則計(jì)算站點(diǎn)的可疑度Wi,從而完成數(shù)據(jù)質(zhì)量的預(yù)處理控制。
根據(jù)氣象要素的特點(diǎn),用各種方法確定出適當(dāng)?shù)臉O值作為判斷數(shù)據(jù)正確與否的上下限。當(dāng)實(shí)時(shí)觀測(cè)數(shù)據(jù)超出極限,則認(rèn)為該數(shù)據(jù)是可疑的,將其剔除。利用極值法進(jìn)行數(shù)據(jù)質(zhì)量檢查的關(guān)鍵是如何確定極值的大小,極值的大小關(guān)系到是否能夠達(dá)到預(yù)期的目的。上下限過大,達(dá)不到控制目的;過小,會(huì)造成 “棄真”,把真實(shí)的數(shù)據(jù)當(dāng)作錯(cuò)誤的處理。極值的選取方法多種多樣,一般通過憑經(jīng)驗(yàn)或者歷史資料給某個(gè)要素確定極值上下限,不具有通用性,特別是當(dāng)只有空間數(shù)據(jù)時(shí)。
因此,本文通過最短距離聚類得到某個(gè)站點(diǎn)的樣本集合,再利用“萊因達(dá)”準(zhǔn)則計(jì)算數(shù)據(jù)合理范圍[7],從而得到該站點(diǎn)的可疑度。
2.1 最短距離聚類和標(biāo)準(zhǔn)“萊因達(dá)”準(zhǔn)則
在整個(gè)區(qū)域的站點(diǎn)分布下,在聚類水平N下,假設(shè)某些站點(diǎn)的“歐式距離”相對(duì)較短,則認(rèn)為這些站點(diǎn)的數(shù)據(jù)服從同一個(gè)正態(tài)分布,那么就可認(rèn)為這些站點(diǎn)的數(shù)據(jù)為一個(gè)站連續(xù)觀測(cè)若干次的數(shù)據(jù),可利用“萊因達(dá)”法則進(jìn)行判別。
因此,針對(duì)第i個(gè)站點(diǎn),根據(jù)其他站點(diǎn)與該站點(diǎn)之間的距離,將距離最短的N個(gè)站點(diǎn)作為該站點(diǎn)的站點(diǎn)集合Ωi(不包含第i個(gè)站點(diǎn)本身)。其中,在Ωi中的數(shù)據(jù)服從正態(tài)分布。
根據(jù)誤差理論,一般情況下,在某個(gè)小區(qū)域內(nèi)站點(diǎn)的隨機(jī)誤差vi服從正態(tài)分布,σ為標(biāo)準(zhǔn)差,一般是未知的,通常用貝塞爾公式算得S代替,以集合均值Ri代替真值,對(duì)某個(gè)觀測(cè)數(shù)據(jù)Ri,若為異常點(diǎn),其殘差vi滿足
其中k為閥值系數(shù),一般取3(或2),至于3S或2S與顯著性水平α有關(guān),3S相當(dāng)于α=0.01, 2S相當(dāng)于α=0.05。表示Ωi內(nèi)的站點(diǎn)個(gè)數(shù)。
2.2 改進(jìn)的“萊因達(dá)”準(zhǔn)則
殘差vi是否滿足(1)式與參數(shù)有關(guān)。但由于在站點(diǎn)集合Ωi中,兩兩站點(diǎn)之間存在不同的距離,因此對(duì)于集合的均值不能簡(jiǎn)單取算術(shù)平均值。在運(yùn)用中,業(yè)務(wù)人員對(duì)異常大值和異常小值的容忍度往往不一樣,因此閥值系數(shù)k可設(shè)定不同的閥值系數(shù)k1、k2。為了消除量綱,使S能適用于同一組閥值系數(shù),對(duì)于集合Ωi中的數(shù)據(jù)必須先標(biāo)準(zhǔn)化后才可分析。
將公式(1)改寫如下:
定義1 對(duì)于第i個(gè)觀測(cè)點(diǎn),在集合Ωi中其觀測(cè)數(shù)據(jù)Ri的可疑度Wi定義為
從定義1可知,任何數(shù)據(jù)Ri的可疑度Wi均為0或正數(shù)。若Ri滿足(2)式,則可疑度不為零,反之則為0。
2.3 算法的基本流程圖
綜合以上分析,得到本研究的算法基本流程圖(見圖1)。
圖1 算法的基本流程圖
以浙江省2011年6月5日20點(diǎn)至2011年6月21日20點(diǎn)的1 627個(gè)區(qū)域自動(dòng)站觀測(cè)的累計(jì)降水資料為數(shù)據(jù)源,利用算法計(jì)算可疑度大于零的站點(diǎn)。
為了能分析算法的效能,針對(duì)該數(shù)據(jù)源進(jìn)行人工審核和確認(rèn),從而確定有問題的站點(diǎn)信息,總共有18個(gè)站點(diǎn)在該過程中存在問題(用于計(jì)算誤判和漏判的站點(diǎn)數(shù)),全部集中在異常偏小值。主要原因在于:站點(diǎn)設(shè)備故障數(shù)據(jù)不能正確采集或者未連續(xù)上傳小時(shí)文件,從而導(dǎo)致累計(jì)值偏小很多。
根據(jù)本文的算法,自動(dòng)站降水資料使用效果直接取決于各種參數(shù):閥值系數(shù)k1、k2;聚類水平N。在以下的參數(shù)分析中,以18個(gè)故障站點(diǎn)作為參考標(biāo)準(zhǔn),計(jì)算誤判數(shù)和漏判數(shù),進(jìn)而分析各類參數(shù)。
3.1 閥值系數(shù)k1、k2的分析
根據(jù)定義1可知:k1、k2分別控制異常大值和異常小值可疑的站點(diǎn)數(shù)。取N=50[7],對(duì)k1、k2取不同值的情況進(jìn)行分析(見表1),其中結(jié)果表示式為:可疑站點(diǎn)(誤判,漏判)。站點(diǎn)數(shù)與k1、k2的關(guān)系見圖2、圖3。
表1 k1、k2取不同值的分析結(jié)果
分析表1、圖2和圖3可知:漏判站點(diǎn)數(shù)與k1未呈相關(guān)關(guān)系,而可疑站點(diǎn)數(shù)和誤判站點(diǎn)數(shù)總體與k1呈負(fù)相關(guān)關(guān)系,但當(dāng)k1大于某個(gè)值時(shí),兩者固定不變;漏判站點(diǎn)數(shù)隨著k2的增大而增多,但當(dāng)k2大于某個(gè)值時(shí),則保持不變 (全部漏判,算法失效),而可疑站點(diǎn)數(shù)和誤判站點(diǎn)數(shù)與k2的關(guān)系類似于k1的關(guān)系。
圖2 站點(diǎn)數(shù)與k1的關(guān)系圖(k2=2.0)
圖3 站點(diǎn)數(shù)與k2的關(guān)系圖(k1=4.1)
從以上分析發(fā)現(xiàn)誤判和漏判的站點(diǎn)具有以下特征:站點(diǎn)數(shù)據(jù)偏大值,而根據(jù)它所選的樣本均值偏小,且均差也小;漏判的站點(diǎn)具有的特性恰好與誤判的特性相反,即站點(diǎn)數(shù)據(jù)偏小值,故在假設(shè)標(biāo)準(zhǔn)差穩(wěn)定的前提下,誤判的站點(diǎn)多數(shù)為大值,漏判的站點(diǎn)多數(shù)為小值。故對(duì)于閥值系數(shù)k1可稍取偏大值,反之k2可取稍小值,如k1=3.6和k2=1.8,并非一定依據(jù)標(biāo)準(zhǔn)萊因達(dá)準(zhǔn)則 (k1=k2=3)。
出現(xiàn)以上結(jié)果主要因?yàn)樵诖舜螌?shí)證數(shù)據(jù)中,故障站點(diǎn)全部為異常偏小值,但這不能成為定律,在實(shí)際中,也有可能某些站點(diǎn)因?yàn)楣收铣霈F(xiàn)異常大值。
3.2 聚類水平N的分析
“萊因達(dá)”準(zhǔn)則的前提是在分析范圍內(nèi)要有一定數(shù)量的樣本數(shù)據(jù)。如果N越小,樣本集合偏少,則漏判概率較高;反之,N越大,樣本集合過大,則樣本之間的相關(guān)性越小,算法的失效概率越高,且N越大會(huì)導(dǎo)致算法運(yùn)算的時(shí)間越長(zhǎng)。由以上的分析可知,取k1=3.6、k2=1.8時(shí),算法的效果最好(見表2,圖4)。
表2 k1=3.6、k2=1.8時(shí)N取不同值的分析表
圖4 k1=3.6、k2=1.8時(shí)站點(diǎn)數(shù)與N之間的關(guān)系
分析表2、圖4可知:隨著N增大,算法開始收斂,基本不存在漏判站點(diǎn),可疑站點(diǎn)的數(shù)目減少,但大于70后整體趨于穩(wěn)定。
3.3 應(yīng)用測(cè)試
為了驗(yàn)證以上參數(shù)的有效性、可用性,分別取k1=3.6、k2=1.8,N=70,對(duì)浙江省2011年3月1日20點(diǎn)至2011年3月31日20點(diǎn)的1 553個(gè)區(qū)域自動(dòng)站觀測(cè)的累計(jì)降水資料進(jìn)行分析,結(jié)果為可疑度大于零的站點(diǎn)數(shù)為77個(gè)??紤]到2月份降雪后部分自動(dòng)站出現(xiàn)故障,尚未修復(fù),我們將37個(gè)可疑度大于0.5的站點(diǎn)數(shù)據(jù)不納入分析的范圍[8],得到的對(duì)比圖如圖5、圖6。
圖5 未經(jīng)任何處理的原始資料分析效果
圖6 經(jīng)本文算法處理的資料分析效果
從圖5和圖6可知:利用原始數(shù)據(jù)繪制降水等值線色塊圖會(huì)在大值區(qū)出現(xiàn) “梯度遞減區(qū)域”、“較多逗點(diǎn)狀小值”等不符合邏輯的問題,從而造成圖形不可用、欠美觀。而利用本文的算法可解決相關(guān)的問題。
本文設(shè)計(jì)的算法在浙江氣象部門經(jīng)長(zhǎng)時(shí)間的應(yīng)用、服務(wù),經(jīng)過大量的數(shù)據(jù)測(cè)試,發(fā)現(xiàn)在區(qū)域大、時(shí)間長(zhǎng)的降水過程效果較好,如:臺(tái)風(fēng)期、梅訊期等。而對(duì)于小尺度的降水或者局地大降水會(huì)偶爾失效。針對(duì)區(qū)域自動(dòng)站數(shù)據(jù)應(yīng)用問題,目前,氣象部門尚未建立一套技術(shù)規(guī)范,本研究具有一定的科學(xué)性和實(shí)用性,對(duì)質(zhì)量控制技術(shù)規(guī)范提供一種參考。
本文的算法中參數(shù)需大量的數(shù)據(jù)統(tǒng)計(jì)測(cè)試,才能投入業(yè)務(wù)使用,且參數(shù)僅僅適用于降水?dāng)?shù)據(jù),對(duì)于其他氣象要素的處理還有待于進(jìn)一步的研究。
[1]Shafer M A,F(xiàn)iebrich C A,Amdt S E,et al.Quality assurance procedures in the oklahoma mesonet[J].Journal of atmospheric and Oceanic Technology,2000,17:474-494.
[2]Eischeid J K,Baker C B,Karl T R,et al.The quality control of long-term climatological data using objective data analysis[J].Journal of Applied Meteorology, 1995,34(12):2787-2795.
[3]王新華,羅四維,劉小寧,等.國(guó)家級(jí)地面自動(dòng)站A文件質(zhì)量控制方法及軟件開發(fā)[J].氣象,2006,32(3):107-112.
[4]任芝花,劉小寧,楊文霞.極端異常氣象資料的綜合性質(zhì)量控制與分析[J].氣象學(xué)報(bào),2005,63(4):526-533.
[5]王海軍,楊志彪,楊代才,等.自動(dòng)氣象站實(shí)時(shí)資料自動(dòng)質(zhì)量控制方法及其應(yīng)用[J].氣象,2007,33(10):102-109.
[6]何平.剔除測(cè)量數(shù)據(jù)中異常值的若干方法[J].航空計(jì)測(cè)技術(shù),1995,15(1):19-22.
[7]李學(xué)坤,李鳳金.海洋水文氣象實(shí)時(shí)數(shù)據(jù)質(zhì)量控制[J].海洋預(yù)報(bào),1997,14(3):71-76.
[8]陳正旭,封秀燕,王亞云.多島嶼地圖上繪制氣象要素等值線色塊的自適應(yīng)方法[J].氣象科技,2009,37(3):356-359.
CHEN Zheng-xu1,WANG Jun-jiao2,HONG Yue-ying1
(1.Zhejiang Provincial Meteorological Information and Network Center,Hangzhou 310017,Zhejiang,China;2.Hangzhou Meteorological Bureau,Hangzhou 310008,Zhejiang,China)
In this paper,a new data processing method based on a kind of improved"PauTa" criterion is put forward for the treatment of real time precipitation data of regional automatic weather stations,to solve the problems occurred in related data applications.First,sample space is collected by Euclidean distance clustering,then the sample mean and the residuals are calculated,after that the definition for a suspicious degree is given,to calculate real suspicious degree of various sites.In the end,actual data in Zhejiang Province are used for parameter analysis,which proves the validity and practicability of the new method.
automatic station;quality control;real time information;"PauTa"rule
P415.12;O213.1
:A
:1673-0143(2012)03-0033-05
(責(zé)任編輯:強(qiáng)士端)
2011-10-18
浙江省氣象局一般項(xiàng)目(2010YB02)
陳正旭 (1984—),男,工程師,碩士,研究方向:氣象資料信息化處理和應(yīng)用軟件開發(fā)。