王中鋒
摘要:水華風險不僅是水利工程規(guī)劃時需要考慮的環(huán)境問題,也是水利設施運營時不能忽視的監(jiān)測項目。為了提高明渠水化風險等級預測的準確率,針對水華成因的不確定性和發(fā)展的時序性,基于動態(tài)樸素貝葉斯網(wǎng)絡分類器提出一種應用于明渠的水華風險評估模型。模型用水華風險等級結點對應藻葉綠素a(Chla)的濃度,并考慮了9項影響水藻生長的因素。采用主成分分析法,處理專家咨詢結果,進行參數(shù)的設計。在蘇州河道北門橋2011年6月初至9月初觀測的53例連續(xù)監(jiān)測數(shù)據(jù)上,與基于樸素貝葉斯網(wǎng)絡分類器的評估模型進行比較實驗。混淆矩陣顯示對中等風險情況的預測識別率提高了15.625%,單尾配對t檢驗表明在顯著性水平0.05時,兩模型預測識別率差異顯著??紤]了時序特征的基于動態(tài)貝葉斯網(wǎng)絡分類器的評估模型對明渠中等水化風險的預測識別率提高顯著。
關鍵詞:明渠;水華;動態(tài)貝葉斯網(wǎng)絡;富營養(yǎng)化
中圖分類號:TV213 文獻標識碼:A 文章編號:1672-1683(2017)02-0089-06
1研究背景
南水北調(diào)中線工程正式通水以來,由于水藻超標,已經(jīng)給部分沿線水廠造成了經(jīng)濟損失。亟待研究明渠水藻預警技術,提前處理,降低損失。現(xiàn)有的相關研究成果主要集中在海洋湖泊的水華成因分析、水華識別模型、預警模型,以及這些模型在水利工程規(guī)劃運營過程中的應用4個方面。水華的成因分析開展了多年,研究人員對影響水華的因素和它們之間的關系已經(jīng)有了較為全面的認識。水華識別模型的研究通常采用圖像識別方法、神經(jīng)網(wǎng)絡方法、貝葉斯方法和支持向量機方法等。這些方法適用于識別已經(jīng)爆發(fā)了水華的水體。水華預測方法可以分為確定性方法和不確定性方法,確定性方法較為成熟,多是利用各種水動力學模型和水質模型來進行分析,例如美國環(huán)保局研發(fā)的HYNHYD和WAsP模型、美國水利資源工程公司提出的CE-QUAL模型和美國陸軍工程兵團使用的RMA4模型等。由于這些模型忽略了復雜水環(huán)境的不確定性,雖然應用簡單,但描述與預測能力有限。因此,近年來研究人員開始著手研究不確定性方法,Song等基于模糊方法預測水質,劉悅憶等提出了基于蒙特卡洛模擬的水質概率預報模型,Karamouz等采用隨機遺傳方法分析。這些模型在處理水質影響因素的不確定性方面,提高了模型的表現(xiàn)能力。同時,各種水華識別和預測模型的具體應用研究也在不斷進行著。本文在這些工作的基礎上,考慮水質變化時序特征的不確定性,基于動態(tài)樸素貝葉斯網(wǎng)絡分類器提出一種水華風險評估模型。樸素貝葉斯網(wǎng)絡分類器能夠通過網(wǎng)絡結構和網(wǎng)絡參數(shù)對不確定性知識進行描述,并進行不確定性推理實現(xiàn)分類。水華發(fā)生的風險因素具有不確定性,適合采用貝葉斯網(wǎng)絡進行描述;水華發(fā)生的風險因素與水華風險之間的關系具有不確定性,可以應用貝葉斯網(wǎng)絡分類器在各個風險因素的基礎上推理出水華風險強度。動態(tài)樸素貝葉斯網(wǎng)絡分類器是考慮了時序特征的樸素貝葉斯網(wǎng)絡分類器,用來預測水華風險時不僅能夠考慮到當前的風險因素情況,還能結合到前一時段的水華風險情況。
2動態(tài)貝葉斯網(wǎng)絡模型
動態(tài)貝葉斯網(wǎng)絡(Dynamic Bayesian Net-works,DBN)是貝葉斯網(wǎng)絡的時序擴展,可將不同時間片間時序依賴關系與時間片內(nèi)依賴關系融為一體,并通過量化推理進行動態(tài)分析、預測。若用X[0],X[1],…,X[T],表示隨機向量序列,X[t]={X1[t],…,XN[t]},0≤t≤T,x[t]={x1[t],…,xn[t]},為其值向量序列。則對網(wǎng)絡結構GDB的聯(lián)合概率分解情況為
由于在一般的動態(tài)貝葉斯網(wǎng)絡中,一個結點在所屬時間片和時序前面的時間片中都可能有父結點,網(wǎng)絡結構異常復雜,推理計算非常困難,所以,通常在實際應用中附加一些約束條件來簡化動態(tài)貝葉斯網(wǎng)絡。以下研究假設動態(tài)貝葉斯網(wǎng)絡滿足一階Markov假設和平穩(wěn)性假設,這兩個約束條件能夠使動態(tài)貝葉斯網(wǎng)絡轉換為先驗網(wǎng)G0和轉換網(wǎng)G→,方便使用。
一階Markov假設在時間片段t的變量的狀態(tài)僅與時間片段t-1的變量狀態(tài)有關,而與t-1以前的時間片段內(nèi)變量的狀態(tài)無關。即:[t]的配置。
先驗網(wǎng)描述同一時間片內(nèi)的依賴關系,轉移網(wǎng)描述不同時間片內(nèi)的依賴關系,它們都是靜態(tài)貝葉斯網(wǎng)絡,靜態(tài)貝葉斯網(wǎng)絡是個有向無環(huán)圖(Directe-dAcyclic Graph),由網(wǎng)絡結構和網(wǎng)絡參數(shù)兩部分構成。在網(wǎng)絡結構中,節(jié)點表示模型變量,邊表示變量間的依賴關系。代表變量的節(jié)點通常用大寫字母表示,其對應的變量值用相應的小寫字母表示。若變量A通過一條弧指向另一個變量B,則表明變量A與變量B有依賴關系,且變量4的取值會對變量B的取值產(chǎn)生影響。在這對依賴關系中,A叫做B的父結點,B叫做A的子結點。網(wǎng)絡參數(shù)是指每一個變量對應的條件概率表(Conditional ProbabilityTables,CPT)。CPT為每個實例變量都指定了條件概率。通過每個節(jié)點的條件概率分布可以得到各個節(jié)點的聯(lián)合概率傳播網(wǎng)。
給定動態(tài)貝葉斯網(wǎng)絡后,就可以在只有一個變量取值不定,而其它變量取值確定的情況下推理出此不確定取值變量的不同取值情況概率大小。若假定出現(xiàn)概率最大的取值為該變量的值,便可以依照此過程,對該變量進行分類。
3水華風險評估模型
動態(tài)樸素貝葉斯網(wǎng)絡分類器是一種結構簡單的動態(tài)貝葉斯網(wǎng)絡分類器。本文基于動態(tài)樸素貝葉斯網(wǎng)絡分類器設計水華風險評估模型。分網(wǎng)絡結構和網(wǎng)絡參數(shù)兩部分進行。
3.1基于動態(tài)樸素貝葉斯網(wǎng)絡分類器的水華風險評估模型結構
由于水華是水體藻類大量生長繁殖或聚集并達到一定濃度的現(xiàn)象,所以在水華實驗研究中通常以水體中葉綠素a(Chla)含量間接代表水體中藻類的數(shù)目。在這個模型中,本文采用藻葉綠素a濃度來評估水華風險等級。影響藻類生長的因素很多,諸如物理因素、化學因素和生物因素,水體富營養(yǎng)化與水華的爆發(fā)正是由這些因素影響著。本文參考文獻的監(jiān)測項目,考慮了水溫,日降雨量,濁度,透明度,藻類光合活性(Fv/Fm),總氮含量(TN),氨氮(NH+4-N)含量,總磷含量(TP),氮磷比9項對Chla有影響的因素。由于動態(tài)樸素貝葉斯網(wǎng)絡分類器是樸素貝葉斯網(wǎng)絡分類器與時間序列的結合,是一種簡單的動態(tài)貝葉斯網(wǎng)絡分類器,其中類變量形成馬爾科夫鏈,時間片屬性變量形成局部星型結構?;趧討B(tài)樸素貝葉斯網(wǎng)絡分類器設計水華風險評估模型,沒有考慮各個水華風險因素相互之間的影響作用。
圖1為本文采用動態(tài)樸素貝葉斯網(wǎng)絡分類器設計的水華風險評估模型的網(wǎng)絡結構圖。其中,A1表示水溫,A2表示日降雨量,A3表示濁度,A4表示透明度,A5表示Fv/Fm,A6表示TN,A7表示NH+4-N含量,A8表示TP,A9表示氮磷比,C表示Chla濃度。整個網(wǎng)絡結構由先驗網(wǎng)絡和轉移網(wǎng)絡展開得到。
虛線包含的部分為先驗網(wǎng)絡結構。由于樸素貝葉斯網(wǎng)絡分類器只考慮了類變量對屬性變量之間的依賴關系,沒有考慮屬性變量之間的相互依賴關系。圖中只有從類結點指向各個屬性結點,各個屬性結點之間不存在邊。
屬性結點和類結點的上標表示該結點所對應的時間片。連接相鄰時間片之間類結點的邊構成了模型的轉移網(wǎng)絡結構,在轉移網(wǎng)絡中,時間片t+1中代表水華風險等級的類變量除了受該時間片中影響因素的作用外,還受到上一時刻t中水華風險等級情況的影響。
在這個基于動態(tài)樸素貝葉斯網(wǎng)絡分類器的水華風險評估模型中,每一個時刻的風險等級情況除了與當前的影響因素有關外,還受到歷史時刻風險等級情況的影響,而不受歷史時刻的影響因素的影響。在這個過程中歷史時刻風險等級對當前時刻風險等級的有一定程度的影響。依據(jù)貝葉斯網(wǎng)絡條件獨立性關系,圖1可以描述為
以上是對基于動態(tài)樸素貝葉斯網(wǎng)絡分類器的水華風險評估模型網(wǎng)絡結構的設計,但這個網(wǎng)絡結構只是粗略的描述了各個影響因素之間的關系,還要設置依賴參數(shù)來詳細描述它們之間的依賴強度。
3.2基于動態(tài)樸素貝葉斯網(wǎng)絡分類器的水
華風險評估模型參數(shù)
本文通過分析參考文獻觀測的各個風險因素與葉綠素a的關系,咨詢多個專家,經(jīng)過加權平均來確定貝葉斯網(wǎng)絡參數(shù),包括先驗概率和轉移概率參數(shù)。在計算各專家所占權重時采用主成分分析法,消除信息的重疊性,降低個人因素的影響。對于水華風險先驗概率,為了提高模型的靈敏度,本文設置高風險為0.4,中等風險為0.3,低風險為0.3。對于轉移概率參數(shù),本文同時根據(jù)文獻針對河流水體對部分參數(shù)做了調(diào)整。如在流動水體中,優(yōu)勢藻種多為漢斯冠盤藻(硅藻),本文調(diào)整為河流優(yōu)勢藻種適宜的條件。文獻研究城市景觀河道中綠藻和藍藻時,17次共76日水華對應的水溫做的一個從高到低的排序圖。觀察到的可見水華發(fā)生時水溫主要集中在23.4℃~34.4℃之間,且表現(xiàn)出良好的連續(xù)性,觀察期間,在水溫27.8℃時有一個間斷,水溫在27.8℃~34.4℃期間發(fā)生水華的次數(shù)為14次,占所有次數(shù)的82.4%,持續(xù)的天數(shù)為64 d,占發(fā)生水華的天數(shù)的84.2%。文獻[25]研究河流水體中冠盤藻水溫為2℃左右生長繁殖良好,與15℃條件下無顯著差別。本文根據(jù)冠盤藻的特點調(diào)整水溫在1℃~15℃,葉綠素a具有較高的概率取值。
表1為概率p(ct|ct-1)參數(shù)表,表示當前水華風險等級對最近觀測到的風險狀態(tài)的依賴強度,為了在模型中適當體現(xiàn)出風險情況的時序依賴性,ct中與ct-1相同的取值設置了較高的發(fā)生概率。
表2為概率p(atx|ct)的參數(shù)表其中x表示a1-a9中的任一變量。當Chla濃度分別為H(高)、M(中)和L(低)時,參數(shù)值分別表示水溫,日降雨量,濁度,透明度,F(xiàn)v/Fm,TN,NH+4-N含量,TP,氮磷比各種情況發(fā)生概率的大小。
當設定了水華風險評估模型的網(wǎng)絡結構和網(wǎng)絡參數(shù)后,對于符合模型要求的水體,輸入當時的監(jiān)測值,就能預測下一時刻Chla的濃度,評估當前的風險等級。
4實例分析
實驗數(shù)據(jù)來源于文獻在2011年4月14日到2012年1月10日之間監(jiān)測蘇州河道北門橋的數(shù)據(jù)??紤]到實際應用時,對高風險情況和中等風險的預測情況,更能體現(xiàn)模型的價值,本文選取了6月初到9月初的53例連續(xù)監(jiān)測數(shù)據(jù),將這段時間分為52個時間片,其中包括1例低風險數(shù)據(jù),32例中等風險數(shù)據(jù)和20例高風險數(shù)據(jù)。在本文的研究中,依據(jù)文獻,采用藻葉綠素a(Chla)的濃度區(qū)分不同的水華風險狀態(tài)。當藻葉綠素a(Chla)濃度小于10μg/L時,設置水華風險狀態(tài)等級為“較低”;當Chla濃度大于等于10μg/L且小于50時μg/L,設置水華風險狀態(tài)等級為“中等”;當Chla濃度大于大于50時μg/L,設置水華風險狀態(tài)等級為“較高”。
實驗分兩步進行,首先,只考慮同一時間片中的依賴關系,用基于樸素貝葉斯網(wǎng)絡分類器的評估模型進行預測;然后用基于動態(tài)貝葉斯網(wǎng)絡的評估模型進行預測,在考慮同一時間片中的依賴關系的同時,還考慮上一時間片時間觀察到的Chla濃度。實驗過程中,第一次的監(jiān)測值用于評估第二次監(jiān)測時刻的風險等級,依次類推,最后一次的監(jiān)測值不參與實驗,因此,每步共預測52次。第一步實驗結果顯示33次預測正確,預測準確率為63.46%;第二步實驗結果顯示38次預測正確,預測準確率為73.08%。預測準確率提高了0.63%。圖2(a)和圖2(b)分別是基于樸素貝葉斯網(wǎng)絡分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡的評估模型的預測值與實際觀測值的折線比較圖。在這兩張圖中,實線表示實際值,虛線分別表示兩個預測模型的預測值。圖中,若兩條線重合,表示預測值與實際觀測值一致,若不重合,表示預測有誤。顯然,圖2(b)比圖2(a)中兩線的重合度高,表明基于樸素貝葉斯網(wǎng)絡分類器展開后的評估模型比基于動態(tài)貝葉斯網(wǎng)絡的評估模型預測精度高。
進一步分析,表3是基于樸素貝葉斯網(wǎng)絡分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡的評估模型的預測結果的混淆矩陣。每一列代表了預測類別,每一列的總數(shù)表示預測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目。每一列中的數(shù)值表示真實數(shù)據(jù)被預測為該類的數(shù)目。通過兩個表的對比,可以看出,兩個矩陣中,對高風險等級和低風險等級的預測結果沒有變化,對中等風險等級的預測正確數(shù)目從21例提高到26例,識別率從65.625%提高到81.26%,提高了15.625%。
對于中等風險等級的樣例,僅有32個樣本,屬于小樣本,所以選擇t檢驗。實驗是在同一樣本集合上比較基于樸素貝葉斯網(wǎng)絡分類器的評估模型和基于動態(tài)貝葉斯網(wǎng)絡的評估模型的識別率,具有方向性,所以采用單尾配對樣本t檢驗進行分析。計算結果顯示中等風險等級的預測結果t檢驗概率為0.048 014顯著性水平在0.05之下,拒絕原假設H0,表明兩種模型的識別率相互比較有顯著變化。結合混淆矩陣顯示的中等風險等級的預測識別率提高了15.625%,說明本文所提算法識別率顯著提高。
5結論
本文基于動態(tài)樸素貝葉斯網(wǎng)絡分類器提出了一種水華風險評估模型,并采用主成分分析法處理專家知識,設計模型網(wǎng)絡參數(shù)。利用蘇州河道北門橋河段監(jiān)測的數(shù)據(jù),與基于樸素貝葉斯網(wǎng)絡分類器的評估模型進行比較實驗。結果顯示在顯著性水平0.05的單尾配對t檢驗時,對中等風險等級的水華預測識別率提高顯著,提高了15.625%。表明本文所提的考慮了風險因素的不確定性和風險狀態(tài)時序發(fā)展特征的模型適用于明渠的水華風險評估。另外,考慮更多水華影響因素和水華影響因素之間的相互作用,對提高評估模型的識別率和適用范圍是必要的,這將是下一步的研究任務。