余達(dá)征,蔣 蓉
(水利部水利信息中心,北京 100053)
自 20 世紀(jì) 80 年代以來,數(shù)據(jù)庫建設(shè)已涉及相當(dāng)多的中國水利業(yè)務(wù),并且得到了廣泛應(yīng)用[1],如全國水文數(shù)據(jù)庫系統(tǒng),基本達(dá)到了國際先進(jìn)水平[2]。目前,基于數(shù)據(jù)庫的防汛會商、洪水預(yù)報、防洪調(diào)度等應(yīng)用已趨于成熟,具備了一定的全國范圍內(nèi)的防洪調(diào)度決策指揮能力[3~5]。然而,隨著我國經(jīng)濟(jì)社會對防洪保安的要求不斷提高,以及流域調(diào)度工作思路從洪水調(diào)度向洪水調(diào)度和水資源調(diào)度相結(jié)合轉(zhuǎn)變,從汛期調(diào)度向全年調(diào)度轉(zhuǎn)變,從水量調(diào)度向水量水質(zhì)統(tǒng)一調(diào)度轉(zhuǎn)變,從區(qū)域調(diào)度向流域與區(qū)域相結(jié)合調(diào)度轉(zhuǎn)變,致使對防洪調(diào)度及水資源管理的要求越來越高。
盡管信息技術(shù)在防洪調(diào)度和水資源管理業(yè)務(wù)中得到了一定程度的應(yīng)用,但總體上還處于信息源建設(shè)和信息一般統(tǒng)計查詢階段,信息資源的開發(fā)程度較低。進(jìn)入 20 世紀(jì) 90 年代,信息技術(shù)的發(fā)展沿著從在線事務(wù)處理向在線分析處理、從數(shù)據(jù)服務(wù)向信息和知識服務(wù)的方向發(fā)展,數(shù)據(jù)挖掘技術(shù)在這個發(fā)展過程中也應(yīng)運(yùn)而生,并且得到了廣泛應(yīng)用。數(shù)據(jù)挖掘技術(shù)是按照既定的業(yè)務(wù)目標(biāo),對大量的數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性并進(jìn)一步將之模型化的先進(jìn)、有效的方法[6],在防洪調(diào)度及水資源管理方面具有很好的應(yīng)用前途。為此,在中華人民共和國水利部 948 項目的資助下,2005 年 1 月由水利部水利信息中心、河海大學(xué)、水利部太湖流域管理局共同開展了防洪調(diào)度及水資源管理數(shù)據(jù)挖掘系統(tǒng)(FCD&WRMDMS)的研究工作,項目歷經(jīng) 3 年多得已完成,并于 2008 年 4 月通過了水利部組織的驗收鑒定。
本項目在引進(jìn)、消化、吸收美國 SAS 數(shù)據(jù)挖掘軟件的基礎(chǔ)上,圍繞我國防洪調(diào)度及水資源管理的需求,一是探索了數(shù)據(jù)挖掘技術(shù)在防洪調(diào)度及水資源管理方面的應(yīng)用理論、方法及技術(shù),為水利信息系統(tǒng)從在線事務(wù)處理型向在線分析及知識應(yīng)用型發(fā)展提供了技術(shù)實踐與方法示范;二是研究了商品化數(shù)據(jù)挖掘軟件與防洪調(diào)度及水資源管理需求相結(jié)合的具體方法,并吸收其技術(shù)優(yōu)點,為減少行業(yè)內(nèi)的重復(fù)開發(fā)和定制適合于業(yè)內(nèi)需求的數(shù)據(jù)挖掘系統(tǒng)積累了經(jīng)驗,主要取得了以下研究成果:
(1)在水文數(shù)據(jù)庫的基礎(chǔ)上,結(jié)合防洪調(diào)度和水資源管理所需的相關(guān)數(shù)據(jù),建立了太湖流域、中央節(jié)點的防洪調(diào)度和水資源管理數(shù)據(jù)倉庫系統(tǒng)。
(2)分析研究了數(shù)據(jù)應(yīng)用的基本模式,提出了數(shù)據(jù)挖掘的主題,建立了基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘和在線分析系統(tǒng)。并在以下幾個方面有所創(chuàng)新[7]:① 提出了擴(kuò)展小波神經(jīng)網(wǎng)絡(luò)模型法,建立了河道水位和流量預(yù)測方法;② 提出了水文時間序列中基于統(tǒng)計分析的關(guān)聯(lián)規(guī)則優(yōu)化算法;③ 建立了具有多站變量時間序列的帶自回歸誤差的回歸預(yù)報模型,實現(xiàn)了水位預(yù)測及相關(guān)因子分析;④ 提出了基于增量數(shù)據(jù)的流量預(yù)測方法,使用流量增量數(shù)據(jù)作為應(yīng)變量,大大提高了神經(jīng)網(wǎng)絡(luò)模型的擬合程度,從而提高了預(yù)測精度。
(3)通過對我國防洪調(diào)度及水資源管理需求的詳盡分析,建立了基于 SAS 數(shù)據(jù)挖掘軟件的FCD&WRMDMS,較好地解決了商用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘軟件在水利系統(tǒng)的可用性和適用性問題。FCD&WRMDMS 采用功能強(qiáng)大的 SAS/BASE 作為管理中心,實現(xiàn)了數(shù)據(jù)倉庫與數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL)、數(shù)據(jù)挖掘,采用 SAS/EM 和 SAS/EG 作為分析工具,有機(jī)集成了各種數(shù)據(jù)挖掘算法,全面支持防洪調(diào)度及水資源管理等領(lǐng)域活動,具有廣闊的推廣應(yīng)用前景。
(4)FCD&WRMDMS 于 2007 年在太湖流域管理局和水利部水利信息中心進(jìn)行了推廣應(yīng)用,取得了良好的經(jīng)濟(jì)和社會效益。實踐證明使用FCD&WRMDMS 可以提高水文預(yù)報的精度和時效,增長水文水資源的預(yù)見期,進(jìn)一步擴(kuò)大了防洪調(diào)度和水資源管理輔助決策的內(nèi)涵和外延。
FCD&WRMDMS 所需處理的數(shù)據(jù)對象以水文數(shù)據(jù)為基礎(chǔ),建立防洪調(diào)度及水資源管理數(shù)據(jù)倉庫,通過數(shù)據(jù)挖掘為防洪調(diào)度及水資源管理提供決策支持服務(wù)[8]??傮w框架如圖1 所示。
FCD&WRMDMS 數(shù)據(jù)庫主要包括水文、水雨情實時、氣象、工情及水質(zhì)等數(shù)據(jù)庫。FCD&WRMDMS數(shù)據(jù)倉庫總體架構(gòu)如圖2 所示。FCD&WRMDMS知識庫主要存放數(shù)據(jù)挖掘所需要的領(lǐng)域知識,如洪水預(yù)報值合理性分析與修正經(jīng)驗綜合規(guī)則事實庫、水庫調(diào)度綜合規(guī)則事實庫,以及分蓄洪區(qū)綜合規(guī)則庫等。
圖2 FCD&WRMDMS數(shù)據(jù)倉庫總體架構(gòu)
圖2 中原始數(shù)據(jù)層是系統(tǒng)所有數(shù)據(jù)來源,由各類數(shù)據(jù)庫組成。數(shù)據(jù)倉庫層是將各種來源的數(shù)據(jù)按照系統(tǒng)設(shè)計的規(guī)范組織和管理起來,形成數(shù)據(jù)倉庫,為后續(xù)的數(shù)據(jù)分析提供完整的數(shù)據(jù)源。數(shù)據(jù)倉庫從源數(shù)據(jù)庫中獲得原始數(shù)據(jù),首先按主題要求形成當(dāng)前的基本數(shù)據(jù)層,然后按綜合決策的要求構(gòu)成防洪調(diào)度與水資源管理所需的綜合數(shù)據(jù),由 SAS 軟件的WA 模塊來實現(xiàn)。OLAP 服務(wù)器層對分析所需要的數(shù)據(jù)進(jìn)行有效集成,根據(jù)數(shù)據(jù)倉庫提供的數(shù)據(jù),通過相應(yīng)處理,形成前端聯(lián)機(jī)分析所需的數(shù)據(jù)。OLAP服務(wù)器層功能主要由 SAS 軟件的 EN、EG 模塊來支持。前端應(yīng)用層主要包括各種報表、查詢、數(shù)據(jù)分析等工具,用以實現(xiàn)防洪調(diào)度與水資源管理過程中所需的各種信息查詢。
FCD&WRMDMS旨在提供統(tǒng)一的、高度集成的、一致的水文信息源,支持防洪調(diào)度及水資源管理工作中眾多具有明確應(yīng)用主題的分析型應(yīng)用,如洪水演進(jìn)規(guī)律分析、太湖水位變化周期研究、歷史洪水特性分析、水位預(yù)報、洪水預(yù)報、降雨和徑流關(guān)系與趨勢分析等,同時也是進(jìn)行各類多維分析的基礎(chǔ)。FCD&WRMDMS 不偏重于某個具體業(yè)務(wù),而是一個基于公共水文信息源的面向主題的挖掘系統(tǒng),具體分析業(yè)務(wù)需要的數(shù)據(jù)可以由此獲得,并能得到挖掘分析,保證了不同挖掘主題所需數(shù)據(jù)一致性和挖掘過程的規(guī)范性。FCD&WRMDMS 功能模塊如圖3 所示。
圖3 FCD&WRMDMS功能模塊
該系統(tǒng)劃分為 2 個主要子系統(tǒng):數(shù)據(jù)挖掘和信息管理子系統(tǒng)。數(shù)據(jù)挖掘子系統(tǒng)主要完成數(shù)據(jù)挖掘的過程,由定義主題、數(shù)據(jù)準(zhǔn)備、分類和訓(xùn)練、方案預(yù)測、方案優(yōu)化等功能組成。定義主題主要是對挖掘主題定義的管理;數(shù)據(jù)準(zhǔn)備模塊用于將多種異構(gòu)的數(shù)據(jù)源轉(zhuǎn)換為 SAS 格式;分類模塊用來進(jìn)行聚類分析和綜合評價分析;訓(xùn)練模塊訓(xùn)練形成各種預(yù)報和分析模型;方案預(yù)測模塊根據(jù)需求調(diào)用相應(yīng)的模型對新方案進(jìn)行預(yù)測;方案優(yōu)化模塊利用預(yù)報和分析模型產(chǎn)生優(yōu)化的預(yù)報和分析方案。信息管理子系統(tǒng)主要是對防洪調(diào)度與水資源管理的基本信息進(jìn)行管理,包括防洪信息、水資源信息、洪水預(yù)報等管理。
FCD&WRMDMS 可單獨運(yùn)行,與現(xiàn)有的水利業(yè)務(wù)應(yīng)用系統(tǒng)互不干擾,在防洪調(diào)度及水資源管理決策過程中為領(lǐng)導(dǎo)提供輔助決策依據(jù),同時也可進(jìn)一步完善現(xiàn)有的決策支持系統(tǒng),如為洪水預(yù)報系統(tǒng)提供相關(guān)因子分析、算法優(yōu)化、防汛調(diào)度模型等。
當(dāng)然,F(xiàn)CD&WRMDMS 所需的數(shù)據(jù)要從現(xiàn)有的數(shù)據(jù)庫中提取,包括水雨情、水文、工情、水質(zhì)等數(shù)據(jù)庫,這種提取方法并不影響現(xiàn)有應(yīng)用系統(tǒng)的使用,也不會影響數(shù)據(jù)庫中的數(shù)據(jù)。將提取的數(shù)據(jù)存入數(shù)據(jù)倉庫后,通過數(shù)據(jù)展現(xiàn)和數(shù)據(jù)挖掘技術(shù)為防洪調(diào)度及水資源管理提供決策支持服務(wù),F(xiàn)CD&WRMDMS 與現(xiàn)有應(yīng)用系統(tǒng)的邏輯關(guān)系圖如圖4 所示(虛線部分為其他項目已實現(xiàn)的任務(wù),實線部分為本項目要完成的任務(wù))。
圖4 FCD&WRMDMS與現(xiàn)有應(yīng)用系統(tǒng)的邏輯關(guān)系圖
當(dāng)前,中國各級水行政管理部門都在大力推進(jìn)水利信息化建設(shè)步伐,多年來建立了以國家水文數(shù)據(jù)庫為代表的多類數(shù)據(jù)庫,特別是國家防汛抗旱指揮系統(tǒng)工程和水利電子政務(wù)工程等全國性信息化工程的實施,無論在硬件設(shè)施或數(shù)據(jù)基礎(chǔ)方面都為項目成果的應(yīng)用提供了良好的支撐環(huán)境。FCD&WRMDMS 研究項目在 SAS 軟件引進(jìn)、消化、吸收的基礎(chǔ)上,通過防洪調(diào)度及水資源管理數(shù)據(jù)挖掘系統(tǒng)的研究,以及在水利部水利信息中心和太湖流域管理局的示范應(yīng)用,在水文序列相似性查找,洪水傳播時間估算,關(guān)聯(lián)規(guī)則挖掘、洪水水位流量預(yù)報,以及異常檢測方面探索了 SAS 軟件在水利系統(tǒng)的可用性和實用性,項目研究單位認(rèn)為,選擇SAS 作為構(gòu)建 FCD&WRMDMS 的基礎(chǔ)是可行的,在中國水利系統(tǒng)具有廣泛的推廣應(yīng)用前途。
[1]余達(dá)征,史金松. 江西水文數(shù)據(jù)庫系統(tǒng)研究[J]. 河海大學(xué)學(xué)報, 1992,(3): 60~65.
[2]余達(dá)征. 試論全國分布式水文數(shù)據(jù)庫系統(tǒng)的分析與設(shè)計[A]. 中國科學(xué)技術(shù)協(xié)會首屆青年學(xué)術(shù)年會論文集[C]. 北京:中國科學(xué)技術(shù)出版社,1994,22~26.
[3]余達(dá)征,索麗生. 關(guān)于防洪調(diào)度智能決策支持系統(tǒng)的分析與設(shè)計[J]. 水文, 1999,(2): 18~22.
[4]余達(dá)征,索麗生. 數(shù)據(jù)倉庫技術(shù)及其在防洪調(diào)度智能決策支持系統(tǒng)中的應(yīng)用[J]. 水利水電技術(shù), 1999,(2):43~45.
[5]余達(dá)征,索麗生. 基于數(shù)據(jù)倉庫的數(shù)據(jù)開采技術(shù)及其在防洪調(diào)度智能決策支持系統(tǒng)(FCDIDSS)中的應(yīng)用[J].水文,2001,(2):5~8.
[6]汪嘉岡. SAS V8 基礎(chǔ)教程[M]. 北京:中國統(tǒng)計出版社,2003.
[7]李士進(jìn),張曉花,萬定生,等. 基于 DTW 的測站水位影響關(guān)系估計[J]. 江南大學(xué)學(xué)報(自然科學(xué)版), 2007,(6):678~682.
[8]朱躍龍,余達(dá)征,吳浩云,等. 水文時間序列數(shù)據(jù)挖掘應(yīng)用研究. 水文,2008,(增刊):7~12.