高月明,林清華,柳樹(shù)票,徐朝陽(yáng)
(廣東華南水電高新技術(shù)開(kāi)發(fā)有限公司,廣東 廣州 510610)
雨量異常數(shù)據(jù)是雨量站自動(dòng)測(cè)報(bào)的非自然、不真實(shí)的雨量,如偏大或偏小。由于設(shè)備或操作等因素,自動(dòng)測(cè)報(bào)的雨量不可避免地含有異常數(shù)據(jù),可能引發(fā)錯(cuò)誤預(yù)警,為災(zāi)害防范工作帶來(lái)困擾。雨量站數(shù)量巨大,自動(dòng)測(cè)報(bào)頻繁,絕大多數(shù)無(wú)人值守,使得人工校驗(yàn)雨量成為不可能。因此,應(yīng)用有效方法實(shí)時(shí)檢測(cè)并自動(dòng)過(guò)濾異常雨量是非常必要的。
目前,國(guó)內(nèi)外已有較多用于檢測(cè)雨量異常數(shù)據(jù)的方法,比較常見(jiàn)的有基于規(guī)則、統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法。
基于規(guī)則的方法從業(yè)務(wù)知識(shí)或?qū)<医?jīng)驗(yàn)中總結(jié)異常雨量的匹配規(guī)則。例如極值檢測(cè)方法規(guī)定雨量的正常范圍,判定范圍之外的雨量為異常[1-2];缺測(cè)檢測(cè)方法計(jì)算雨量站缺失測(cè)量值的次數(shù)或時(shí)長(zhǎng),判定缺測(cè)過(guò)多的雨量為異常[2];連續(xù)無(wú)變化檢測(cè)方法判定長(zhǎng)時(shí)間保持某一數(shù)值的雨量為異常[2];內(nèi)部一致檢測(cè)方法判定與相關(guān)氣象、設(shè)備狀態(tài)和遙感等要素不一致的雨量為異常[3-4]。基于規(guī)則的方法能夠快速而準(zhǔn)確地找出符合規(guī)則的異常雨量,但可能會(huì)受限于不完善的規(guī)則庫(kù)無(wú)法周到照顧各種特殊情況。
基于統(tǒng)計(jì)的方法運(yùn)用統(tǒng)計(jì)學(xué)理論探究雨量統(tǒng)計(jì)分布或建立預(yù)測(cè)模型。例如箱形圖、拉依達(dá)準(zhǔn)則(PauTa’s Criterion)、肖維勒準(zhǔn)則(Chauvenet’s Criterion)、格拉布斯檢驗(yàn)(Grubbs’ Test)和迪克遜檢驗(yàn)(Dixon’s Q Test)等檢測(cè)方法判定足夠遠(yuǎn)離樣本分布主體的雨量為異常[5-8]。線性或廣義線性模型、馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)等模型預(yù)測(cè)雨量,判定與預(yù)測(cè)值有顯著殘差的雨量為異常[7,9]?;诮y(tǒng)計(jì)的方法能夠綜合考慮數(shù)據(jù)整體,但也因此容易被邊緣數(shù)據(jù)撬動(dòng)。如果數(shù)據(jù)不全、數(shù)據(jù)偏離總體或異常數(shù)據(jù)占比較大,統(tǒng)計(jì)分布或預(yù)測(cè)模型就不能準(zhǔn)確反映真實(shí)情況。
基于機(jī)器學(xué)習(xí)的方法通過(guò)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)等算法模型對(duì)雨量進(jìn)行分類、聚類或預(yù)測(cè)。例如變分自動(dòng)編碼器(Variational Auto Encoder)輸入雨量和多元?dú)庀笠?,生成雨量異常的概率分?jǐn)?shù),判定分?jǐn)?shù)超過(guò)閾值的雨量為異常[10]。類似于統(tǒng)計(jì)預(yù)測(cè),機(jī)器學(xué)習(xí)模型也預(yù)測(cè)雨量,判定與預(yù)測(cè)值有顯著殘差的雨量為異常[11-12]。此類方法靈活性高,擁有很強(qiáng)的學(xué)習(xí)能力和自適應(yīng)性,但模型所學(xué)到的內(nèi)容很大程度上取決于數(shù)據(jù)集,如監(jiān)督學(xué)習(xí)要投入大量精力標(biāo)注數(shù)據(jù)。如果用于建模的數(shù)據(jù)集不具有代表性,那么所建立的模型泛化能力就不會(huì)太高。
目前,各類方法主要應(yīng)用在時(shí)間維度上,針對(duì)單一雨量站的雨量時(shí)間序列,解釋雨量的趨勢(shì)和周期性變化,而在空間維度相鄰的雨量站可以相互驗(yàn)證同時(shí)刻雨量的劇烈變化[13-14]。本文以廣東省內(nèi)5 967座雨量站實(shí)測(cè)雨量為依據(jù),探究雨量在空間平面上的相關(guān)性,將拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯檢驗(yàn)和狄克遜檢驗(yàn)4種統(tǒng)計(jì)方法運(yùn)用到空間維度對(duì)比分析,以期找到一種準(zhǔn)確過(guò)濾異常雨量的方法,為防汛預(yù)警部門(mén)提供有效的技術(shù)支持。
數(shù)據(jù)來(lái)源于廣東省5 967座雨量站(圖1),包含2022-6-18 4:30、2022-6-21 4:00、2022-6-21 7:45、2022-6-21 8:45和2022-6-21 10:00等5個(gè)時(shí)刻的15 min雨量記錄。因部分雨量站損壞、維護(hù)等造成數(shù)據(jù)缺測(cè),上述5個(gè)時(shí)刻雨量分別有4 889、4 794、4 840、4 804、4 995條,共計(jì)24 322條雨量記錄。每條雨量記錄包含測(cè)站編碼、測(cè)站名稱、東經(jīng)、北緯、時(shí)間和雨量等變量,見(jiàn)表1。
圖1 廣東省雨量站地理信息
表1 15分鐘雨量示例
與小時(shí)整點(diǎn)雨量相比,15分鐘雨量粒度更小,容易發(fā)現(xiàn)細(xì)微差異,減少漏掉長(zhǎng)時(shí)段里不同雨量站的實(shí)時(shí)雨量存在較大差異而累計(jì)雨量卻相近的情況。雨量時(shí)間序列的變化相當(dāng)劇烈(圖2)。單從時(shí)間維度完全解釋短時(shí)雨量的趨勢(shì)和變化是十分困難的。
圖2 青年水庫(kù)雨量時(shí)間序列
方法包括區(qū)域劃分和假設(shè)檢驗(yàn)等統(tǒng)計(jì)方法。區(qū)域劃分針對(duì)某中心雨量站將其周邊的雨量站劃分到該中心雨量站的分組。統(tǒng)計(jì)方法推斷該中心雨量站某時(shí)刻雨量在其組內(nèi)是否異常。
區(qū)域劃分利用經(jīng)緯度坐標(biāo)和測(cè)地線計(jì)算雨量站之間的距離,針對(duì)某中心雨量站將與其相距特定范圍內(nèi)的雨量站劃分到該中心雨量站的分組。分組可重疊,即每座雨量站既是自己分組的中心雨量站,也可能是其他一組或多組的周邊雨量站。
區(qū)域劃分的關(guān)鍵是選擇合適的距離閾值,為此選擇廣東省內(nèi)相距20 km以內(nèi)的關(guān)聯(lián)雨量站,篩選出兩雨量站相同時(shí)段有雨的雨量,計(jì)算其皮爾遜相關(guān)系數(shù),探究相鄰雨量站雨量相關(guān)程度與其距離的關(guān)系。假設(shè)兩雨量站各有n條對(duì)應(yīng)雨量,相關(guān)系數(shù)公式如下:
(1)
相鄰雨量站雨量相關(guān)程度隨其距離的變化見(jiàn)圖3,雨量相關(guān)程度隨距離變遠(yuǎn)而大致呈下降趨勢(shì),且趨勢(shì)慢慢減弱,點(diǎn)逐漸發(fā)散。兩雨量站距離越近其雨量相關(guān)程度越強(qiáng),距離越遠(yuǎn)其雨量相關(guān)程度越弱,但也存在少數(shù)不符合認(rèn)知的特殊情況,如距離非常近的雨量站其雨量卻幾乎不相關(guān),或者距離非常遠(yuǎn)的雨量站其雨量卻高度相關(guān),甚至還有高度負(fù)相關(guān)。特殊情況可能包含異常雨量,也可能是由復(fù)雜的環(huán)境因素造成的,如地形。高山相隔的雨量站即使距離近,其降雨規(guī)律也會(huì)非常不同。
圖3 雨量相關(guān)程度與雨量站之間距離的關(guān)系
綜合考慮上述關(guān)系和雨量站密度,區(qū)域劃分選擇10 km作為距離閾值,針對(duì)某中心雨量站將與其相距10 km以內(nèi)的雨量站劃分到該中心雨量站的分組,圖4所示圓圈是以下洋水庫(kù)雨量站為中心的分組。
圖4 下洋水庫(kù)周邊24 h雨量分布
假設(shè)上述劃分的某區(qū)域中有n座雨量站,其某時(shí)刻的雨量樣本,可以利用拉依達(dá)準(zhǔn)則、肖維勒準(zhǔn)則、格拉布斯檢驗(yàn)和狄克遜檢驗(yàn)判斷某雨量站的雨量在其區(qū)域內(nèi)是否異常。對(duì)于一維的雨量,異常數(shù)據(jù)通常為離群點(diǎn),表現(xiàn)為遠(yuǎn)離樣本總體的極值。
2.2.1拉依達(dá)準(zhǔn)則
拉依達(dá)準(zhǔn)則通過(guò)離群點(diǎn)與樣本均值的差值判斷該離群點(diǎn)是否異常,是應(yīng)用最普遍的一種異常數(shù)據(jù)檢測(cè)方法,適用于較大樣本(一般不低于10)。它計(jì)算中心雨量站的雨量與樣本均值的差值和樣本標(biāo)準(zhǔn)差:
(2)
(3)
如果差值D大于3s,則可疑值被認(rèn)定為異常[15-16]。
2.2.2肖維勒準(zhǔn)則
肖維勒準(zhǔn)則同樣通過(guò)離群點(diǎn)與樣本均值的差值判斷該離群點(diǎn)是否異常,但增加考慮樣本容量。如果差值D>ws,則可疑值被認(rèn)定為異常。其中,w為肖維勒準(zhǔn)則的系數(shù),對(duì)應(yīng)不同的樣本容量。根據(jù)肖維勒準(zhǔn)則,當(dāng)樣本容量為200時(shí),肖維勒準(zhǔn)則系數(shù)為3,拉依達(dá)準(zhǔn)則才有效[15,17]。
2.2.3格拉布斯檢驗(yàn)
格拉布斯檢驗(yàn)通過(guò)衡量離群點(diǎn)遠(yuǎn)離樣本均值的程度來(lái)判斷該離群點(diǎn)是否異常,通過(guò)式(4)—(6)計(jì)算檢驗(yàn)統(tǒng)計(jì)量G:
(4)
上限檢驗(yàn)統(tǒng)計(jì)量G為:
(5)
式中xmax——區(qū)域中的最大雨量,mm。
下限檢驗(yàn)統(tǒng)計(jì)量G為:
(6)
式中xmin——區(qū)域中的最小雨量,mm。
上限檢驗(yàn)統(tǒng)計(jì)量用來(lái)檢驗(yàn)區(qū)域中的最大雨量是否異常,而下限檢驗(yàn)統(tǒng)計(jì)量用來(lái)檢驗(yàn)區(qū)域中的最小雨量是否異常。如果計(jì)算得到的統(tǒng)計(jì)量大于格拉布斯檢驗(yàn)的臨界值,則可疑值被認(rèn)定為異常。臨界值與樣本容量和置信度對(duì)應(yīng)。置信度α表示將不拒絕(1-α)%的數(shù)據(jù),即對(duì)判定的異常有(1-α)%的自信[15,18-19]。
2.2.4狄克遜檢驗(yàn)
狄克遜檢驗(yàn)通過(guò)衡量離群點(diǎn)遠(yuǎn)離樣本群體的程度來(lái)判斷該離群點(diǎn)是否異常,適用于較小樣本(一般不超過(guò)30)。它按照升序排列雨量樣本,通過(guò)式(7)計(jì)算檢驗(yàn)統(tǒng)計(jì)量Q:
(7)
式中xc——中心雨量站的雨量,mm;xa——升序排列中與xc最近的雨量,mm;xmax——區(qū)域中的最大雨量,mm;xmin——區(qū)域中的最小雨量,mm。
狄克遜檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式在不同樣本容量上也有區(qū)別(表2)。類似格拉布斯檢驗(yàn),上限檢驗(yàn)統(tǒng)計(jì)量用來(lái)檢驗(yàn)區(qū)域中的最大雨量是否異常,而下限檢驗(yàn)統(tǒng)計(jì)量用來(lái)檢驗(yàn)區(qū)域中的最小雨量是否異常。如果計(jì)算得到的統(tǒng)計(jì)量大于狄克遜檢驗(yàn)的臨界值,則可疑值被認(rèn)定為異常。臨界值同樣與樣本容量和置信度對(duì)應(yīng)[20-21]。
表2 樣本容量與狄克遜檢驗(yàn)統(tǒng)計(jì)量公式對(duì)應(yīng)
24 322條雨量記錄對(duì)應(yīng)24 322個(gè)分組,除去經(jīng)緯度為0、雨量站少于3座等無(wú)效分組,剩余23 228個(gè)分組。每組平均包含15.96座雨量站,組內(nèi)周邊雨量站平均距離其中心雨量站6.33 km。雨量站數(shù)量分布和各雨量站到其中心雨量站距離分布見(jiàn)圖5。
a)分組雨量站數(shù)量分布
假設(shè)當(dāng)半徑為10 km的圓形區(qū)域內(nèi)普遍降雨時(shí),其雨量也近似服從正態(tài)分布,但左側(cè)被0截?cái)?。夏皮?威爾克檢驗(yàn)(Shapiro-Wilk Test),簡(jiǎn)稱S-W檢驗(yàn),對(duì)雨量進(jìn)行正態(tài)性檢驗(yàn),統(tǒng)計(jì)量接近1,P值大于0.05,表示雨量樣本來(lái)自正態(tài)分布[22]。經(jīng)過(guò)檢驗(yàn),79%(18 246/23 228)分組的區(qū)域雨量能通過(guò)S-W檢驗(yàn)(表3)。
表3 區(qū)域雨量S-W檢驗(yàn)
4種統(tǒng)計(jì)方法推斷23 228個(gè)分組的區(qū)域雨量的報(bào)錯(cuò)率(預(yù)測(cè)陽(yáng)性數(shù)量/數(shù)據(jù)數(shù)量)分別為0.33%、1.08%、0.96%和0.91%。對(duì)比測(cè)試過(guò)程分別用4種方法區(qū)分236條正樣本和472條負(fù)樣本,得到混淆矩陣,見(jiàn)表4—7。
表5 肖維勒準(zhǔn)則的混淆矩陣
表6 格拉布斯檢驗(yàn)的混淆矩陣
表7 狄克遜檢驗(yàn)的混淆矩陣
拉依達(dá)準(zhǔn)則判定雨量異常的條件非常寬松,是真陽(yáng)性和假陽(yáng)性(第二類錯(cuò)誤)最少的,也是真陰性和假陰性(第一類錯(cuò)誤)最多的,僅將2例真實(shí)正常雨量辨別成了異常雨量,卻放過(guò)了大量的真實(shí)異常雨量;另外3種方法的結(jié)果十分相似,但值得注意的是,肖維勒準(zhǔn)則判定雨量異常的條件最嚴(yán)厲,是真陽(yáng)性和假陽(yáng)性最多的,也是真陰性和假陰性最少的;然后依次是格拉布斯檢驗(yàn)和狄克遜檢驗(yàn)條件相對(duì)寬松一點(diǎn),可能與置信度的選擇有關(guān),但更大程度上是受區(qū)域劃分的分組中異常雨量不唯一影響。
為進(jìn)一步量化對(duì)比4種方法,計(jì)算準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)等衡量方法準(zhǔn)確性的指標(biāo),見(jiàn)表8。準(zhǔn)確率為判斷正確的結(jié)果占總樣本的百分比:
(8)
精確率為預(yù)測(cè)為正的樣本中實(shí)際為正樣本的百分比:
(9)
召回率為實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的百分比:
(10)
F1分?jǐn)?shù)被定義為精確率和召回率的調(diào)和平均數(shù),是衡量二分類準(zhǔn)確性的一種指標(biāo):
(11)
表8 統(tǒng)計(jì)推斷方法的準(zhǔn)確性指標(biāo)
綜合對(duì)比4種方法,肖維勒準(zhǔn)則表現(xiàn)最好,雖然精確率稍低,但其他各項(xiàng)指標(biāo)都是相對(duì)最好的。當(dāng)流程多次檢測(cè)到同一雨量站在不同時(shí)刻的雨量異常時(shí),那么判定該雨量站的雨量異常的準(zhǔn)確性將大大提高。
雨量野值很少,異常最普遍的原因是雨量計(jì)的關(guān)鍵水流通路被異物阻塞,使得承雨器內(nèi)承接的雨水無(wú)法及時(shí)流下,造成雨量計(jì)讀數(shù)不準(zhǔn)。阻塞影響水流速度,當(dāng)實(shí)際降雨快于承雨器內(nèi)雨水下滲的速度時(shí),表現(xiàn)為該雨量站讀數(shù)比周圍雨量站讀數(shù)小。阻塞嚴(yán)重時(shí),測(cè)量雨量甚至經(jīng)常為0,見(jiàn)圖6。當(dāng)實(shí)際降雨慢于承雨器內(nèi)雨水下滲的速度且承雨器內(nèi)尚存大量積水時(shí),表現(xiàn)為該雨量站讀數(shù)比周圍雨量站讀數(shù)大,見(jiàn)圖7。
圖6 小地水庫(kù)周邊同時(shí)段雨量分布
圖7 茶亭下水庫(kù)周邊同時(shí)段雨量分布
雨水下滲很慢很均勻,使得急促的降雨沿時(shí)間平展開(kāi)來(lái),表現(xiàn)為雨量時(shí)間序列很平滑,甚至保持同一讀數(shù)直到承雨器內(nèi)所有雨水滲完曬干,見(jiàn)圖8、9對(duì)比。
圖8 茶亭下水庫(kù)雨量時(shí)間序列(阻塞)
圖9 雞公塘水庫(kù)雨量時(shí)間序列(正常)
同時(shí)刻雨量在空間分布上具有很高的相關(guān)性,其距離越近相關(guān)系數(shù)越高的規(guī)律符合基本生活常識(shí),也為從空間平面判斷某點(diǎn)雨量是否異常提供支持。當(dāng)區(qū)域內(nèi)普遍降雨時(shí),該區(qū)域內(nèi)的雨量近似服從正態(tài)分布,為應(yīng)用統(tǒng)計(jì)方法推斷異常雨量提供假設(shè)依據(jù)。對(duì)比4種統(tǒng)計(jì)方法,各有利弊。拉依達(dá)準(zhǔn)則過(guò)于保守,但卻是精確率最高的;格拉布斯檢驗(yàn)和狄克遜檢驗(yàn)理論上更精妙,但容易被區(qū)域分組中多個(gè)異常雨量干擾。綜合評(píng)價(jià)肖維勒準(zhǔn)則表現(xiàn)最好,簡(jiǎn)單便捷,且各項(xiàng)指標(biāo)都相對(duì)優(yōu)秀。需要注意的是在選用拉依達(dá)準(zhǔn)則時(shí)盡量保證區(qū)域內(nèi)雨量站大于等于10座,其他3種方法大于等于3座。事實(shí)證明,從空間平面判斷某點(diǎn)雨量是否異常是可行的,能夠切實(shí)幫助水利監(jiān)管部門(mén)提高預(yù)警質(zhì)量,降低人工成本。但該領(lǐng)域方法還有很大進(jìn)步空間,從數(shù)據(jù)特征的角度,考慮充分利用時(shí)間和空間雨量,同時(shí)加入經(jīng)緯度和距離權(quán)重或許能夠有更好的效果;從區(qū)域劃分的角度,距離、地形、氣候等因素值得深入探究;從判斷方法的角度,運(yùn)用自適應(yīng)的人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型,識(shí)別異常雨量的準(zhǔn)確性和穩(wěn)定性定能有全面大幅提升。