羅俐雅,崔彥萍,甘 敏,陳永平
(1.江蘇省水文水資源勘測局,江蘇 南京 210029;2.河海大學,江蘇 南京 210098)
在實際的潮位觀測中,尤其是長時間的自動觀測,由于受到儀器故障、惡劣天氣、地理位置制約和觀測方式等因素的影響,很難得到從觀測初始時刻到結(jié)束時刻這段時間內(nèi)完整的高質(zhì)量數(shù)據(jù)資料[1]。如果將含有異常值的數(shù)據(jù)直接用于潮汐調(diào)和分析,有可能帶來較大的預報誤差[2]。因此,科學合理地判別異常值,對于準確的潮位分析至關(guān)重要。
通常有2種方式對異常潮位數(shù)據(jù)進行處理。第1種是手工處理,即通過比較數(shù)值的大小或分析要素的變化趨勢等進行判別處理[3]。這種方式主要取決于操作員的主觀判斷,可靠性無法保障,當潮位數(shù)據(jù)多時,工作量將非常大;第2種是通過給計算機設(shè)定一個判別準則,讓計算機自動判別其異常值[3]。方國洪等[4]介紹了2種計算機判別異常值的方法,第1種是利用2次拋物線擬合得到一個擬合值,通過比較實測值與擬合值的差值來判斷數(shù)據(jù)是否異常,當異常值較少時,此方法能較方便地找出異常值,如果異常值周期性出現(xiàn),此方法不再適用;第2種是根據(jù)大誤差出現(xiàn)的可能性來判斷,該方法基于概率論理論,設(shè)定了判別標準,找出異常值的效率較快,為方國洪等的推薦準則。此外,許軍等[5]借助余水位曲線的變化趨勢來判斷,可以很好地判別以離散形式出現(xiàn)的異常點數(shù)據(jù),但不太適用異常值數(shù)據(jù)集中出現(xiàn)時的情況。董玉磊等[6]采用了基于回歸分析的方法來判斷異常潮位,該方法是通過分析被檢測數(shù)據(jù)所在的驗潮站與附近驗潮站之間的線性關(guān)系來判別異常值,能有效地判別出由驗潮儀零點逐漸變化而帶來的潮位數(shù)據(jù)異常等問題,此方法是基于驗潮站與附近驗潮站之間的回歸分析,需要附近有驗潮站才能判別。
鑒于上述分析,當前針對實測潮位異常值判別方法存在一定局限性,有必要探討如何高效準確地識別近岸實測潮位中的異常值。事實上,潮位異常值與真實值之間的誤差可以當作粗大誤差[7],熊艷艷等[8]介紹了多種粗大誤差的判別方法,并對它們的適用性做了比較,其中拉伊達準則、肖維勒準則[8]適用于樣本數(shù)較多且服從正態(tài)分布異常值的檢驗,它們被應用到異常波浪的判別中[9]取得了良好效果。本文將上述2種準則引入到潮位異常值的判別中,并與方國洪準則進行比較,通過對潮位資料的調(diào)和分析,定量說明3種準則的判別效果。
拉伊達準則基于樣本服從正態(tài)分布的假定,認為被檢驗值與平均值之間差值的絕對值超過3倍樣本的標準差時被檢驗值數(shù)據(jù)異常,需要舍棄,然后重新生成樣本繼續(xù)判斷。
對于潮位異常值檢驗,首先假設(shè)所有實測潮位值都是正常的,第i個實測潮位值為xi,用實測潮位值進行回報的對應潮位為hi,誤差ri計算如下:
潮位資料通常為1年的逐日每小時數(shù)據(jù),設(shè)有N個,將誤差作為樣本,假設(shè)誤差服從正態(tài)分布,計算樣本的平均值和標準差S為:
當ri與的差值超過±3S時,認為ri為異常值,即對應的潮位hi異常。
肖維勒準則假設(shè)樣本服從正態(tài)分布,認為在N個數(shù)據(jù)點中,出現(xiàn)概率小于1/2N的數(shù)據(jù)點,可認為是異常值,應該舍棄然后重新生成樣本繼續(xù)判斷。設(shè)Z為某個大于0的值,當|ri- |≤ZS時,滿足如下函數(shù)關(guān)系∶
設(shè)存在某個特定的Zc,稱其為肖維勒準則數(shù),當認為出現(xiàn)了概率小于1/2N的數(shù)據(jù)點,則:
聯(lián)合式(5)、式(6)可得∶
N已知時,可以根據(jù)式(7)解得Zc,若|ri-|>ZcS,即可認為ri為異常值,即對應的潮位hi異常。
方國洪準則假設(shè)誤差服從正態(tài)分布,且其平均值為零,方差為υr。實際分析時,先假設(shè)所有數(shù)據(jù)正常,當選用了J個分潮用于調(diào)和分析自報時,觀測誤差平方值為:
方差 υr為:
在這個假設(shè)下,某個被檢驗值誤差小于Z的概率P為:
所有點誤差均小于Z的概率P為:
如果給定P0,則可以求出Z,假設(shè)為μ,稱它為臨界系數(shù),使得:
μ2近似按照下式計算:
圖2 萬福閘下部分潮位過程
式中a、b、c為系數(shù),取值見表1。
表1 對應P0下a、b、c系數(shù)取值表
若有某個值的>μ2υr時,認為相應的觀測值異常。當?shù)?次將所有異常潮位判斷出來后,用回報值替代異常值,然后進行第2次判別,2次判別出來的異常值作為最后的判別結(jié)果。一般情況下通常取P0=0.9,后續(xù)采用方國洪準則進行異常值判別時取P0=0.9。
圖3 萬福閘下部分實測潮位過程圖
本文選取了江蘇滸浦閘和萬福閘下2個代表潮位站點的資料進行分析。按照上述3種準則發(fā)現(xiàn)了下面幾類異常值:(1)某個區(qū)間段潮位突然被抬升,見圖1;(2)實測高潮位在一個時間段內(nèi)保持不變,見圖2;(3)高潮位異常大,見圖3。異常值點數(shù)識別統(tǒng)計結(jié)果匯總在表2中。
圖1 滸浦閘部分實測潮位過程圖
表2 不同準則識別潮位異常點數(shù)表
從表2可以看出,拉伊達準則識別異常點數(shù)多于肖維勒準則、方國洪準則。對比3種準則識別的異常點位置,拉伊達準則找出的異常值包含肖維勒準、方國洪準則找出來的所有異常值,肖維勒準則找出的異常值點包含方國洪準則找出來的點。對于圖1、圖2中這種異常值密集出現(xiàn)的異常點,拉伊達準則好于肖維勒準則,而肖維勒準則又優(yōu)于方國洪準則,后2種準則對異常點連續(xù)段邊緣點存在漏判現(xiàn)象。
為了定量比較3種準則的判別效果,本文采用了T_TIDE[10]軟件對判別后的潮位數(shù)據(jù)序列進行調(diào)和分析,通過潮位的回報精度來說明3種準則的相對優(yōu)劣。為了確保用于分析潮位的數(shù)據(jù)可靠,采用自報值循環(huán)逼進法[11]對判別出來的異常數(shù)據(jù)進行修正或插補,然后對修正或插補后的數(shù)據(jù)序列進行調(diào)和分析。
表3統(tǒng)計了滸浦閘2014年、2015年和萬福閘下2014年潮汐回報均方差的比較結(jié)果。從表中可以看出,雖然基于3種準則都可以在一定程度上提高滸浦閘和萬福閘下的潮位回報精度,但相比較而言,拉伊達準則表現(xiàn)最好,肖維勒準則次之。
表3 代表潮站潮位回報均方差統(tǒng)計表
3種準則的識別效果差異,可以根據(jù)3種準則的判別原理進行解釋。由于含有缺測值,調(diào)和分析采用的潮位值小于8759個。取N=8759的話,肖維勒準則數(shù)Zc=4.02。拉伊達準則是誤差超出3倍標準差則判斷數(shù)據(jù)點異常,而肖維勒準則是誤差超出4.02倍標準差才算異常值。拉伊達準則是一個固定的判別標準,而肖維勒準則數(shù)Zc隨N變化,N越大則Zc越大,N不同時它的判別標準會改變。Zc=3時,N為190,當樣本數(shù)N小于190時,肖維勒準則判別異常值比拉伊達準則更為嚴格,會判斷出更多的異常值;當樣本數(shù)N超過190時,拉伊達準則比肖維勒準則會判別出更多的異常值。本次樣本數(shù)N遠遠超過190,因此拉伊達準則判別出來的異常值數(shù)目比肖維勒準則多。
拉伊達準則和肖維勒準則分別認為誤差超過3倍樣本標準差和4.02倍樣本標準差時數(shù)據(jù)異常,本次樣本中方國洪準則的μ值約為4.37,由于樣本N較大,可以近似認為方國洪準則下的標準差與前兩種準則的標準差S相等,相當于方國洪準則認為超出4.37倍標準差才算異常值,所以拉伊達準則和肖維勒準則判別出來的異常值數(shù)目比方國洪準則多。此外,拉伊達準則、肖維勒準則每剔除一個異常值后重新生成樣本,標準差會隨著異常值的剔除逐漸變小,判別標準會逐漸變嚴格,雖然方國洪準則判斷了2次,但是每次都是一次性判別所有異常值,當異常值較多時,方國洪準則的標準差會較大,判別界限值的差異也導致了拉伊達準則和肖維勒準則的判別標準比方國洪準則更嚴格。本次樣本中很多異常值數(shù)目較多且與真實值差別較大,方國洪準則一次性判別所有數(shù)據(jù)的方法,導致有較多異常值被漏判。
利用3種準則對潮位異常值進行判別,以探討潮位異常值對潮位調(diào)和分析的影響和3種準則判別潮位異常值的準確性,得到以下幾個主要結(jié)論:
(1)采用拉伊達準則可以對異常值密集和連續(xù)出現(xiàn)的情況進行較好的判別,而方國洪準則易發(fā)生異常值漏判現(xiàn)象。
(2)通過異常值判別后,潮位調(diào)和分析的回報精度有明顯提高,相對而言拉伊達準則表現(xiàn)最好,肖維勒準則次之。
潮位異常值的自動判別對于資料的高質(zhì)量整編和潮位的高精度預報具有重要的實際應用價值。后續(xù)將進一步對拉伊達準則中的判別參數(shù)進行優(yōu)化,最大程度地減小漏判或誤判數(shù)據(jù)的比例,有效提高自動測站實測潮位的資料質(zhì)量。
參考文獻:
[1]張鳳燁,魏澤勛,王新怡,等 . 潮汐調(diào)和分析方法的探討 [J] . 海洋科學 . 2011,35(06)∶68-75 .
[2]陳宗鏞 . 潮汐學[M] . 北京∶科學出版社,1980∶127 .
[3]黃謨濤,翟國君,王瑞,等 . 海洋測量異常數(shù)據(jù)的檢測(英文)[J] . 測繪學報,1999(03)∶269-276 .
[4]方國洪,鄭文振,陳宗鏞,等 . 潮汐和潮流的分析和預報 [M] . 北京∶海洋出版社,1986∶ 90-93 .
[5]許軍,劉雁春,暴景陽,等 . 基于余水位的水位粗差探測與數(shù)據(jù)修復[Z] . 成都∶2009 .
[6]董玉磊,曲萌 . 一種基于回歸分析的海上定點驗潮站異常數(shù)據(jù)處理方法[Z] . 北京∶2015 .
[7]費業(yè)泰 . 誤差理論與數(shù)據(jù)處理[M] . 北京:機械工業(yè)出版社, 2010∶4 .
[8]熊艷艷,吳先球 . 粗大誤差四種判別準則的比較和應用 [J] . 大學物理實驗 . 2010(01)∶66-68 .
[9]王紅川,左其華 . 海洋資料中異常值的分析和判別[J] . 水利水運科學研究,1998,12(4):364-365 .
[10]Pawlowicz R,Beardsley B,Lentz S . Classical tidal harmonic analysis including error estimates in MATLAB using T_TIDE[M] . Pergamon Press,Inc. 2002 .
[11]吳俊彥,張亞彪 . 潮位觀測資料缺失的補足應用研究[Z] .廣西∶2008 .