朱永軍, 吳 瓊, 湛忠宇
(江蘇省水文水資源勘測(cè)局南京分局, 江蘇 南京 210008)
合理對(duì)水體質(zhì)量進(jìn)行分析評(píng)價(jià)能夠?yàn)樗|(zhì)治理提供科學(xué)的方向,同時(shí)也是區(qū)域改善水環(huán)境的基礎(chǔ),目前,存在多種對(duì)水質(zhì)進(jìn)行評(píng)價(jià)的方法,傳統(tǒng)的單因子評(píng)價(jià)法[1]以最差的水質(zhì)指標(biāo)所處等級(jí)作為評(píng)價(jià)結(jié)果,極易受到極端指標(biāo)的影響,不能反映出真實(shí)情況;灰色理論[2],模糊數(shù)學(xué)法[3]、層次分析法[4]在確定指標(biāo)權(quán)重時(shí)往往忽略了因子之間的相互影響且主觀性較強(qiáng);傳統(tǒng)主成分分析法[5-6]采用標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使得同類(lèi)指標(biāo)之間的方差為零,消除了指標(biāo)之間的差異;傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)法[7]將所有的監(jiān)測(cè)指標(biāo)作為輸入數(shù)據(jù),增加了模型復(fù)雜程度,效率低下。本文針對(duì)水質(zhì)評(píng)價(jià)中評(píng)價(jià)指標(biāo)權(quán)重難以合理確定,評(píng)價(jià)模型過(guò)于復(fù)雜、評(píng)價(jià)結(jié)果不合理等問(wèn)題,依據(jù)南京市六合區(qū)的水質(zhì)監(jiān)測(cè)資料,提出主成分分析與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,以期為合理進(jìn)行水質(zhì)評(píng)價(jià)提供一種新思路。
主成分分析[8]的主要思想是利用正交變換對(duì)原始數(shù)據(jù)進(jìn)行降維處理,找出一組線性無(wú)關(guān)的主成分,以此代表原始數(shù)據(jù)的大部分信息,一般分為以下幾個(gè)步驟。
1)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱不同帶來(lái)的影響。本文采用均值化方法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,在保留同類(lèi)變量間的差異信息的同時(shí),消除量綱的干擾,計(jì)算公式為
ZXij=Xij/MeanXi
(1)
式中,ZXij為第i個(gè)指標(biāo)的第j個(gè)數(shù)值標(biāo)準(zhǔn)化后的結(jié)果;Xij為第i個(gè)指標(biāo)的第j個(gè)數(shù)據(jù)的原始值,MeanXi為第i個(gè)樣本的平均值。
由于水質(zhì)指標(biāo)中大部分為逆向指標(biāo),正向指標(biāo)即數(shù)值越大表明水質(zhì)越好的指標(biāo),采用下式進(jìn)行標(biāo)準(zhǔn)化處理:
ZXij=(MaxXi-Xij)/Mean(MaxXi-Xij)
(2)
式中,MaxXi為第i個(gè)指標(biāo)的最大值。
2)計(jì)算標(biāo)準(zhǔn)化后ZXij的相關(guān)系數(shù)矩陣R;
3)計(jì)算R的特征值λi和特征向量并將特征向量按照從大到小進(jìn)行排列;
4)計(jì)算累計(jì)方差貢獻(xiàn)率確定主成分個(gè)數(shù)。以前n個(gè)特征值的和占總特征值的百分比作為累計(jì)方差貢獻(xiàn)K,一般取K≥85%;
5)計(jì)算主成分Fi的值及主成分綜合得分,得分越高說(shuō)明水質(zhì)越差,其中
(3)
BP神經(jīng)網(wǎng)絡(luò)[9-10]是一種多層前饋神經(jīng)網(wǎng)絡(luò),依靠大量神經(jīng)元的聯(lián)系,形成一個(gè)非線性的動(dòng)態(tài)系統(tǒng)。BP神經(jīng)網(wǎng)絡(luò)一般由輸入層、隱含層和輸出層三部分組成,其中隱含層可以有一個(gè)或多個(gè)(圖1)。在網(wǎng)絡(luò)的運(yùn)行過(guò)程中輸入的數(shù)據(jù)由前向后傳播,每一層的神經(jīng)元輸出結(jié)果只對(duì)與其直接相連的下一層神經(jīng)元有影響,同一層的神經(jīng)元直接互不連接,互不干擾。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
構(gòu)建BP神經(jīng)網(wǎng)絡(luò)一般有如下幾個(gè)步驟:
1)對(duì)輸入數(shù)據(jù)集{Xi}(1
3)構(gòu)建神經(jīng)網(wǎng)絡(luò),設(shè)定各層傳遞函數(shù)、最大允許步長(zhǎng)、模型精度等;
4)當(dāng)模型滿足設(shè)定精度時(shí),保存模型,進(jìn)行水質(zhì)評(píng)價(jià)。
六合區(qū)位于南京市北部,長(zhǎng)江左岸,是國(guó)家重要的現(xiàn)代工業(yè)基地,滁河由西到東貫穿境內(nèi)。本文選取2019年南京市六合區(qū)23個(gè)監(jiān)測(cè)斷面年平均水質(zhì)數(shù)據(jù)進(jìn)行實(shí)例分析。由于監(jiān)測(cè)數(shù)據(jù)中金屬離子及石油類(lèi)、揮發(fā)酚等按《地表水質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)》(GB3838—2002)評(píng)價(jià)均為Ⅰ類(lèi),故在主成分分析中不對(duì)其進(jìn)行分析。篩選后主要的評(píng)價(jià)因子有pH(X1)、DO(X2)、NH3-N(X3)、CODMn(X4)、COD5(X5)、F(X6)、COD(X7)、TP(X8)、TN(X9)共9類(lèi)。
(1)對(duì)數(shù)據(jù)進(jìn)行均值化處理,計(jì)算相關(guān)系數(shù)矩陣,由表1可知大部分監(jiān)測(cè)指標(biāo)相關(guān)系數(shù)均大于0.3,說(shuō)明各指標(biāo)之間存在信息的重疊,因此適用主成分分析對(duì)原始數(shù)據(jù)進(jìn)行降維處理。
表1 相關(guān)系數(shù)矩陣
(2)計(jì)算特征值和主成分貢獻(xiàn)率,得到每個(gè)主成分所對(duì)應(yīng)的解釋方差、特征值和累計(jì)方差貢獻(xiàn)率,由表2可知前3個(gè)主成分累計(jì)反映了原始參數(shù)信息的88.469%,可將原來(lái)11個(gè)影響指標(biāo)減少為3個(gè),進(jìn)而大大降低因子的維數(shù)。
表2 特征值及累計(jì)方差貢獻(xiàn)率
由主成分荷載矩陣可以看出,F(xiàn)1中DO、CODMn、COD5、F、COD對(duì)其影響程度較大,可認(rèn)為F1在一定程度上表示了水體的有機(jī)污染;F2中NH3-N、TP、TN對(duì)其影響程度較大,可認(rèn)為F2在一定程度上表示了水體的無(wú)機(jī)污染;F3中pH對(duì)其影響程度較大,故可認(rèn)為F3在一定程度上表示了水體的酸堿性。
(3)根據(jù)主成分荷載矩陣計(jì)算各主成分的對(duì)應(yīng)指標(biāo)的得分系數(shù),由此計(jì)算F1、F2、F3的值并根據(jù)公式(4)計(jì)算綜合得分F,主成分得分越大說(shuō)明水質(zhì)越差,如表4所示。其中按照《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》各類(lèi)水質(zhì)的標(biāo)準(zhǔn)值計(jì)算得到Ⅰ類(lèi)水質(zhì)主成分綜合得分為的-2.891、II類(lèi)為-2.008、III類(lèi)為-0.706、IV類(lèi)為1.788、V類(lèi)3.817。
表3 主成分荷載矩陣
F=0.108ZX1-0.178ZX2+0.360ZX3+0.211ZX4+0.229ZX5+0.224ZX6+0.184ZX7+0.426ZX8+0.486ZX9
(4)
由表4可知僅有3個(gè)斷面的評(píng)價(jià)結(jié)果與單因子評(píng)價(jià)法保持了相同,這是因?yàn)檫@些斷面中大多數(shù)水質(zhì)指標(biāo)都處單因子評(píng)價(jià)法的評(píng)價(jià)等級(jí)。其余20個(gè)斷面評(píng)價(jià)結(jié)果提升了1~3個(gè)等級(jí),這是因?yàn)檫@些斷面水質(zhì)指標(biāo)僅有少數(shù)處于單因子評(píng)價(jià)法的評(píng)價(jià)等級(jí)。主成分分析法的綜合考慮了所有評(píng)價(jià)指標(biāo),避免了某一評(píng)價(jià)因子將其他因子的信息完全覆蓋,讓一些處于“劣勢(shì)”的指標(biāo)得到了反映,評(píng)價(jià)結(jié)果與單因子評(píng)價(jià)法在整體上的趨勢(shì)是相同的,因此具有一定的合理性。但是可能存在過(guò)于樂(lè)觀的評(píng)價(jià)結(jié)果,比如遠(yuǎn)古水業(yè)斷面,除DO、COD5為Ⅰ類(lèi)外,其余各指標(biāo)均在Ⅲ類(lèi)和Ⅳ類(lèi)之間,因此主成分分析法將其評(píng)價(jià)為Ⅰ類(lèi)過(guò)于樂(lè)觀。
表4 主成分分析評(píng)價(jià)結(jié)果
(5)通過(guò)主成分分析對(duì)原本的9個(gè)評(píng)價(jià)指標(biāo)進(jìn)行降維,得出的3個(gè)主成分能夠反映原指標(biāo)88.469%的信息,大大簡(jiǎn)化了信息處理的維度;由主成分的綜合表達(dá)式可以看出NH3-N、TP、TN相比其他指標(biāo)在權(quán)重方面占有絕對(duì)的優(yōu)勢(shì),因此認(rèn)為NH3-N、TP、TN是六合區(qū)的主要污染物,這與南京市水資源公報(bào)里的分析結(jié)果同樣是吻合的,因此后續(xù)搭建神經(jīng)網(wǎng)絡(luò)模型,以此3項(xiàng)指標(biāo)作為模型的輸入數(shù)據(jù)。
(1)生成樣本數(shù)據(jù)
樣本的數(shù)量和差異性對(duì)神經(jīng)網(wǎng)絡(luò)的模擬精度有重要影響,為獲得足夠多的樣本,將各項(xiàng)指標(biāo)測(cè)定國(guó)標(biāo)法中最低檢出濃度作為Ⅰ類(lèi)下限值,結(jié)合《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838—2002)可以得到各級(jí)水質(zhì)的上下限值,在各類(lèi)水質(zhì)等級(jí)之間進(jìn)行隨機(jī)插值(比如當(dāng)N、TP、TN分別處于(0.15,0.5]、(0.02,0.1]、(0.2,0.5]之間時(shí),該水體水質(zhì)肯定屬于Ⅱ類(lèi)),考慮到研究區(qū)域水質(zhì)多為劣Ⅴ類(lèi),因此共設(shè)置六個(gè)水質(zhì)等級(jí)(Ⅰ~劣Ⅴ類(lèi)),每?jī)杉?jí)之間隨機(jī)插值生成450個(gè)樣本,共2 700個(gè)樣本。
表5 地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)各項(xiàng)指標(biāo)限值 單位:mg/L
(2)樣本數(shù)據(jù)預(yù)處理
在MATLAB中將樣本矩陣P的每一個(gè)元素歸一化到[-1,1],樣本集作為輸入樣本時(shí)是一個(gè)5×2 700的矩陣,其中每一列代表一個(gè)樣本,共2 700個(gè)樣本。
(3)確定目標(biāo)矩陣
輸出層共有6種水質(zhì)類(lèi)別,因此輸出層選用6個(gè)神經(jīng)元。用6×1的矩陣表示每個(gè)輸出類(lèi)別,其中(1,0,0,0,0,0)T表示Ⅰ類(lèi)水質(zhì)、(0,1,0,0,0,0)T表示Ⅱ類(lèi)水質(zhì)、(0,0,1,0,0,0)T表示Ⅲ類(lèi)水質(zhì)、(0,0,0,1,0,0)T表示Ⅳ類(lèi)水質(zhì)、(0,0,0,0,1,0)T表示Ⅴ類(lèi)水質(zhì)、(0,0,0,0,0,1)T表示劣Ⅴ類(lèi)水質(zhì)。每一個(gè)輸入樣本對(duì)應(yīng)一個(gè)輸出矩陣,因此目標(biāo)集T為一個(gè)3×2 700的矩陣。
(4)創(chuàng)建神經(jīng)網(wǎng)絡(luò)
在MATLAB中輸入樣本集[P,T],將樣本中的75%用于訓(xùn)練網(wǎng)絡(luò),10%用于驗(yàn)證,15%用于測(cè)試;隱含層神經(jīng)元個(gè)數(shù)按照經(jīng)驗(yàn)公式取值在[4,13]之間,先選取4個(gè)神經(jīng)元進(jìn)行訓(xùn)練,然后依次增加神經(jīng)元的個(gè)數(shù)直到15,依據(jù)神經(jīng)元個(gè)數(shù)和均方誤差(圖2)及神經(jīng)元個(gè)數(shù)和訓(xùn)練步長(zhǎng)(圖3)的關(guān)系,確定隱含層神經(jīng)元個(gè)數(shù)為11。
圖2 隱含層神經(jīng)元數(shù)與均方誤差的關(guān)系
圖3 隱含層神經(jīng)元數(shù)與步長(zhǎng)的關(guān)系
此時(shí)模型運(yùn)行了76步,在第70步時(shí)達(dá)到了最佳表現(xiàn),如圖4所示。通過(guò)輸入層、隱含層、輸出層神經(jīng)元個(gè)數(shù)的確定,最終的神經(jīng)網(wǎng)絡(luò)采用3-11-6的3層網(wǎng)絡(luò)結(jié)構(gòu)。
圖4 n=11時(shí)訓(xùn)練表現(xiàn)
(5)進(jìn)行水質(zhì)評(píng)價(jià)
由表6可以看出,PCA-BP神經(jīng)網(wǎng)絡(luò)法的評(píng)價(jià)結(jié)果與單因子評(píng)價(jià)法和主成分分析法的評(píng)價(jià)結(jié)果在整體趨勢(shì)上同樣是一致的。相比單因子評(píng)價(jià)法,龍津橋、六合大橋、方州橋、馬汊河大橋、靈鋼河橋、安橋6個(gè)斷面神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)結(jié)果與其完全一致。遠(yuǎn)古水業(yè)、南廠碼頭、揚(yáng)子8號(hào)碼頭等斷面評(píng)價(jià)結(jié)果上升了2個(gè)等級(jí);滁河寧連公路大橋、六合鐵路橋、友誼橋等斷面1個(gè)等級(jí)。劣Ⅴ類(lèi)斷面占比由47.8%下降為26.1%;Ⅴ類(lèi)斷面占比由34.8%下降為13.0%;Ⅳ類(lèi)斷面減少100%;新增Ⅲ類(lèi)及Ⅲ類(lèi)以上斷面7個(gè)。與主成分分析法相比,陳擺江渡口、岳子河閘、劃子口閘斷面與其評(píng)價(jià)結(jié)果完全一致,對(duì)于遠(yuǎn)古水業(yè)斷面,PCA-BP神經(jīng)網(wǎng)絡(luò)法對(duì)上文的主成分分析法的結(jié)果進(jìn)行了一定程度上的“糾正”,避免了評(píng)價(jià)結(jié)果的過(guò)分樂(lè)觀。
表6 神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)結(jié)果
本文針對(duì)六合區(qū)23個(gè)斷面水質(zhì)監(jiān)測(cè)數(shù)據(jù),首先利用改進(jìn)的主成分分析法對(duì)各斷面水質(zhì)進(jìn)行評(píng)價(jià),并由此確定主要污染物,實(shí)現(xiàn)評(píng)價(jià)因子降維的目的。然后結(jié)合BP神經(jīng)網(wǎng)絡(luò),構(gòu)建PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型,同時(shí)利用主成分分析法的評(píng)價(jià)結(jié)果對(duì)PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型的評(píng)價(jià)結(jié)果從側(cè)面進(jìn)行驗(yàn)證,就評(píng)價(jià)效果而言,PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型既避免了單因子評(píng)價(jià)法中某一評(píng)價(jià)因子將其他因子的信息完全覆蓋的弊端,同時(shí)也避免了主成分分析法評(píng)價(jià)結(jié)果的過(guò)分樂(lè)觀,因此PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型評(píng)價(jià)結(jié)果更為客觀真實(shí)。總體來(lái)說(shuō),PCA-BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型在解決了水質(zhì)評(píng)價(jià)中評(píng)價(jià)指標(biāo)權(quán)重難以合理確定,評(píng)價(jià)模型過(guò)于復(fù)雜、評(píng)價(jià)結(jié)果不合理等問(wèn)題的基礎(chǔ)上,為六合區(qū)的水資源保護(hù)與治理工作提供了參考。