戴 源,謝繼征,袁 靜,沈 薇,郭宏達(dá),孫小平,王志剛
1. 江蘇省揚(yáng)州環(huán)境監(jiān)測(cè)中心, 江蘇 揚(yáng)州 225100 2. 揚(yáng)州大學(xué)環(huán)境科學(xué)與工程學(xué)院, 江蘇 揚(yáng)州 225009
隨著城市化進(jìn)程的日益加快, 城市及周邊地表水的污染源不斷增加, 水質(zhì)不斷惡化, 對(duì)生態(tài)系統(tǒng)和人類健康構(gòu)成威脅[1]。 城市及周邊地表水中的有機(jī)污染物主要來(lái)自陸地生活源、 地表徑流、 工業(yè)、 服務(wù)業(yè)、 養(yǎng)殖業(yè)和水生生物源污染, 以蛋白質(zhì)、 氨基酸、 腐殖酸、 脂肪等有機(jī)污染物為主。 環(huán)境監(jiān)測(cè)技術(shù)通過(guò)化學(xué)需氧量(CODCr)、 高錳酸鹽指數(shù)(CODMn)、 氨氮(NH3-N)、 總磷(TP)、 總氮(TN)和五日生化需氧量(BOD5)等指標(biāo)表征水體有機(jī)污染, 其中CODCr, CODMn和BOD5通常用于表示水體中有機(jī)污染物總量; NH3-N, TN和TP的含量升高會(huì)導(dǎo)致水體富營(yíng)養(yǎng)化, 破壞生物多樣性并產(chǎn)生臭味。
城市及周邊地表水一直以來(lái)都是環(huán)境監(jiān)測(cè)工作的重點(diǎn), 但傳統(tǒng)監(jiān)測(cè)手段存在監(jiān)測(cè)周期長(zhǎng)、 采樣缺乏代表性、 水樣前處理復(fù)雜、 分析難度高等困難, 往往造成監(jiān)測(cè)數(shù)據(jù)時(shí)空分布不足, 監(jiān)測(cè)數(shù)據(jù)滯后等問(wèn)題, 因此開(kāi)發(fā)連續(xù)、 高效、 低耗的水質(zhì)原位監(jiān)測(cè)技術(shù)具有重要意義[2]。 近年來(lái), 水體熒光光譜技術(shù)常被用來(lái)快速反演水體中TP, TN, NH3-N, BOD5和COD等指標(biāo)[3-5], 避免了化學(xué)試劑的使用和復(fù)雜的水樣前處理過(guò)程。 三維熒光光譜技術(shù)可以在較寬的激發(fā)和發(fā)射波長(zhǎng)范圍內(nèi)獲取水體有機(jī)物豐富的光譜信息, 具有快速、 可靠、 實(shí)用的優(yōu)點(diǎn), 近年來(lái)被廣泛應(yīng)用于化學(xué)分析和環(huán)境監(jiān)測(cè)領(lǐng)域。 Yang等[6]使用激發(fā)發(fā)射矩陣三維熒光平行因子法(EEM-PARAFAC)對(duì)污水處理廠水樣進(jìn)行分析, 得到類蛋白等有機(jī)污染物的熒光特征峰位置, 利用多元線性回歸算法(multiple linear regression, MLR)針對(duì)COD等有機(jī)污染指標(biāo)建立預(yù)測(cè)模型, 實(shí)現(xiàn)對(duì)水處理效果的快速評(píng)價(jià)。 陳方等[7]使用平行因子算法(PARAFAC)分析苯酚等有機(jī)污染因子的三維熒光光譜, 提出針對(duì)清潔水和污水的二分類支持向量機(jī)(SVM)模型。 但是, 現(xiàn)有研究大多針對(duì)模擬配制水樣或單一類型的少量水質(zhì)樣本, 依賴已有的光譜特征經(jīng)驗(yàn)選擇算法, 從三維熒光光譜中提取若干點(diǎn)狀光譜信息用于水質(zhì)評(píng)價(jià)。 由于地表水中有機(jī)污染物種類繁多, 各種物質(zhì)的熒光峰位置和波段范圍不同, 且存在熒光峰重疊現(xiàn)象, 因此這種僅選擇少數(shù)光譜點(diǎn)的計(jì)算方法局限性強(qiáng)、 泛化性能較差。
支持向量回歸算法(support vector regress,SVR)是一種被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的算法模型。 常規(guī)的SVR算法通過(guò)不同的核函數(shù)來(lái)構(gòu)造非線性模型用以解決復(fù)雜的分類和回歸問(wèn)題, 但是當(dāng)樣本量較大或特征維度較高時(shí), SVM算法存在消耗資源多、 訓(xùn)練時(shí)間長(zhǎng)等問(wèn)題。 LIBLINEAR是一個(gè)針對(duì)線性分類場(chǎng)景而設(shè)計(jì)的工具包, 支持線性SVM和線性邏輯回歸等模型, 可以對(duì)高維度大樣本數(shù)據(jù)進(jìn)行快速建模。 該工具包采用熱啟動(dòng)(warm-start)技術(shù)實(shí)現(xiàn)高效的參數(shù)尋優(yōu)過(guò)程, 并結(jié)合交叉驗(yàn)證方法得到最優(yōu)懲罰參數(shù)C和不敏感度ε, 具有建模速度快、 計(jì)算精度高等特點(diǎn)。
本文對(duì)揚(yáng)州市域內(nèi)多種類型地表水進(jìn)行了長(zhǎng)期的三維熒光光譜采集和水質(zhì)分析, 形成了具有多樣性和代表性的水質(zhì)樣本集合, 首次將LIBLINEAR技術(shù)應(yīng)用于三維熒光光譜水質(zhì)監(jiān)測(cè), 充分利用豐富的三維熒光光譜信息, 將水體三維熒光光譜的全波段數(shù)據(jù)作為算法的輸入, 快速建立了CODCr, CODMn, NH3-N, TN, BOD5和TP等6項(xiàng)水質(zhì)指標(biāo)的預(yù)測(cè)模型, 并且通過(guò)水質(zhì)指標(biāo)的預(yù)測(cè)結(jié)果進(jìn)一步判斷水體有機(jī)污染指標(biāo)相關(guān)的水質(zhì)等級(jí), 實(shí)現(xiàn)對(duì)城市及周邊地表水水質(zhì)指標(biāo)和水質(zhì)等級(jí)的快速原位監(jiān)測(cè)。
從2016年1月至2019年8月, 每月對(duì)揚(yáng)州市域內(nèi)122個(gè)地表水監(jiān)測(cè)斷面進(jìn)行水樣采集, 使用直立采樣器采集水面下50 cm深處的水體5 L, 靜置30 min后取上層清液, 按照水質(zhì)采樣規(guī)范平行分裝在棕色玻璃瓶中, 并于4 ℃保存。 采樣現(xiàn)場(chǎng)同時(shí)測(cè)量水體的溫度(T)、 溶解氧(DO)含量和pH值。
水質(zhì)監(jiān)測(cè)斷面共122個(gè), 涉及長(zhǎng)江和淮河兩大流域, 覆蓋了揚(yáng)州市域內(nèi)大部分的主要河流和湖泊, 分布如圖1所示。 城市建成區(qū)內(nèi)設(shè)有87個(gè)監(jiān)測(cè)斷面, 囊括了55條城市河流和4個(gè)小型湖泊, 其余35個(gè)監(jiān)測(cè)斷面分布在市域城郊及農(nóng)村區(qū)域。 根據(jù)2016年—2019年揚(yáng)州市水環(huán)境監(jiān)測(cè)數(shù)據(jù), 監(jiān)測(cè)斷面水質(zhì)等級(jí)包含Ⅱ類~劣Ⅴ類, 此外還存在少量輕度和重度黑臭斷面。 樣本的采集時(shí)間涵蓋了多個(gè)季節(jié)和枯豐水期, 涉及水溫、 水位、 水流和周邊生態(tài)系統(tǒng)等多種環(huán)境因素變化對(duì)水質(zhì)的影響, 由此形成一個(gè)覆蓋區(qū)域廣、 時(shí)間跨度長(zhǎng)、 水質(zhì)變化多的樣本集合。
圖1 水質(zhì)監(jiān)測(cè)斷面分布Fig.1 Distribution of water quality monitoring sections
為保證化學(xué)分析與光譜分析的樣品一致, 將樣品搖勻并靜置30 min后取上層清液進(jìn)行檢測(cè), 檢測(cè)方法參照相關(guān)國(guó)標(biāo)和行業(yè)標(biāo)準(zhǔn), 使用儀器和具體分析方法見(jiàn)表1。 其中pH值、 DO和T在采樣時(shí)現(xiàn)場(chǎng)測(cè)定, 所有樣品在采樣1周內(nèi)完成分析測(cè)試, 測(cè)試結(jié)果見(jiàn)表2。 每項(xiàng)指標(biāo)的測(cè)試結(jié)果中, 最大值與最小值差異大, 樣本包括不同污染程度的多種水體。 此外, 本實(shí)驗(yàn)涉及的樣本數(shù)量大、 水質(zhì)指標(biāo)多, 為建立水質(zhì)指標(biāo)預(yù)測(cè)模型提供有利條件。
表1 儀器及分析方法Table 1 Instruments and analysis methods
表2 化學(xué)分析結(jié)果Table 2 Results of chemical analysis
采用中國(guó)科學(xué)院安徽光學(xué)精密機(jī)械研究所改造的日立 F4600型熒光分光光度計(jì)測(cè)量水樣三維熒光光譜, 該儀器在保留原有光路設(shè)計(jì)的基礎(chǔ)上添加自動(dòng)進(jìn)樣和清洗裝置, 在底部加裝避震裝置, 可實(shí)現(xiàn)在水質(zhì)自動(dòng)站或監(jiān)測(cè)車中的連續(xù)快速原位監(jiān)測(cè)。
每次對(duì)空白樣品(Milli-Q超純水)進(jìn)行掃描后再進(jìn)行水樣測(cè)量。 三維熒光光譜測(cè)量前, 先將水樣搖勻后靜置至室溫。 若水樣的熒光強(qiáng)度超出儀器測(cè)量范圍, 須用超純水稀釋。 樣品光譜平行測(cè)試的相對(duì)精度偏差應(yīng)小于2%[4], 同批水樣的光譜分析與化學(xué)分析時(shí)間間隔不超過(guò)24 h。 光譜測(cè)量參數(shù)設(shè)置如下: 激發(fā)波長(zhǎng)Ex為220~400 nm, 采樣間隔5 nm; 發(fā)射波長(zhǎng)Em為260~520 nm, 采樣間隔1 nm; 狹縫寬度為10 nm, 掃描速度為12 000 nm·min-1。
本文采用MATLAB2019(Mathworks,Natick,MA,USA)軟件構(gòu)建水質(zhì)指標(biāo)預(yù)測(cè)模型。 訓(xùn)練集與測(cè)試集樣本的劃分采用隨機(jī)抽樣法, 抽取20%的樣本作為測(cè)試集, 用于評(píng)價(jià)模型的泛化能力和預(yù)測(cè)效果, 剩余樣本作為訓(xùn)練集用于建立預(yù)測(cè)模型。
1.4.1 數(shù)據(jù)預(yù)處理
使用Delaunay三角形內(nèi)插值法對(duì)原始光譜中包含的瑞利散射和拉曼散射進(jìn)行修正。 為消除實(shí)驗(yàn)環(huán)境變化和光譜儀光源波動(dòng)的影響, 從樣品光譜中扣除空白樣品光譜, 并用空白樣品在Ex=348 nm和Em=397 nm處的拉曼峰強(qiáng)度值對(duì)去散射處理后的樣品光譜強(qiáng)度值進(jìn)行拉曼歸一化處理[8]。
1.4.2 線性支持向量回歸模型(LIBLINEAR)
本文將每個(gè)激發(fā)-發(fā)射波長(zhǎng)對(duì)應(yīng)的熒光強(qiáng)度作為水質(zhì)指標(biāo)的潛在預(yù)測(cè)因子, 為降低數(shù)據(jù)冗余度、 提高模型收斂度, 將預(yù)處理后的三維熒光光譜去除激發(fā)波長(zhǎng)大于發(fā)射波長(zhǎng)的光譜區(qū)域, 結(jié)合T, DO和pH值形成7601維向量。 將該向量作為算法的輸入, 以各水質(zhì)指標(biāo)的化學(xué)分析結(jié)果作為算法目標(biāo)值, 使用LIBLINEAR工具包建立L2正則L2誤差支持向量回歸模型(L2-regularized L2-loss support vector regression), 通過(guò)調(diào)整權(quán)重向量ω, 使L2正則項(xiàng)與L2誤差項(xiàng)之和最小。
1.4.3 模型評(píng)價(jià)標(biāo)準(zhǔn)
1.4.4 水質(zhì)分類標(biāo)準(zhǔn)及方法
表3是根據(jù)GB3838—2002《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》和《城市黑臭水體整治工作指南》中的標(biāo)準(zhǔn)限值制定的水質(zhì)分類標(biāo)準(zhǔn), 基于該標(biāo)準(zhǔn)使用模型預(yù)測(cè)結(jié)果對(duì)有機(jī)污染指標(biāo)相關(guān)的水質(zhì)等級(jí)進(jìn)行判斷。 針對(duì)不同的水質(zhì)判斷需求, 本文設(shè)計(jì)了如表4所示的4種水質(zhì)分級(jí)方法。 方法的分級(jí)數(shù)量越多, 對(duì)水質(zhì)狀況的區(qū)分越細(xì)致。 其中“劣Ⅴ類”在本文中定義為超過(guò)Ⅴ類標(biāo)準(zhǔn)限值但尚未達(dá)到輕度黑臭的水體。
表3 水質(zhì)分類標(biāo)準(zhǔn)限值Table 3 Water quality classification standard limits (mg·L-1)
表4 四種水質(zhì)分級(jí)方法Table 4 Four water quality classification methods
圖2為水質(zhì)預(yù)測(cè)模型中三維熒光光譜權(quán)重的分布圖, 如圖2所示, 各模型權(quán)重較大的三維熒光光譜位置主要分布在7個(gè)熒光區(qū)域, 熒光區(qū)域的范圍和對(duì)應(yīng)組分信息如表5所示, 可知A—F均為水體中常見(jiàn)溶解性有機(jī)污染物的特征熒光區(qū)域, 其中A與水體中的分子量較大的類腐殖酸相關(guān); B區(qū)域內(nèi)的熒光峰常出現(xiàn)在城市廢水光譜中, 被認(rèn)為是與微生物相關(guān)的類腐殖質(zhì)物質(zhì)(可溶性微生物副產(chǎn)物)[8]; C對(duì)應(yīng)類富里酸的熒光特征峰, 其來(lái)源為陸源前驅(qū)染物[9]; D為游離態(tài)類色氨酸的熒光峰, 其光譜值與水體中微生物細(xì)胞數(shù)量緊密相關(guān), 可以表征水生態(tài)系統(tǒng)的微生物活性[9]; E和F為酪氨酸等芳香族蛋白質(zhì)的特征光譜范圍, 主要來(lái)自生活源有機(jī)污染[10]; G被定義為類色氨酸的特征光譜區(qū)域, 其光譜強(qiáng)度同采樣斷面與污染源排口之間的距離和水體中污染物的新鮮程度有關(guān)[9]。
表5 熒光區(qū)域范圍及組分Table 5 Fluorescence regions and components
由圖2可知, 6項(xiàng)水質(zhì)指標(biāo)預(yù)測(cè)模型中正權(quán)重均主要分布于6個(gè)熒光區(qū)域內(nèi)(A—F), 而負(fù)權(quán)重主要集中在G區(qū)域中, 說(shuō)明6項(xiàng)水質(zhì)指標(biāo)預(yù)測(cè)值均與色氨酸、 酪氨酸、 類腐殖酸、 類富里酸和類蛋白等有機(jī)污染物的熒光強(qiáng)度成正比, 與G區(qū)域的熒光值成反比。 此外, 各預(yù)測(cè)模型的權(quán)重分布略有不同, 其中CODCr模型正權(quán)重的覆蓋范圍大于CODMn, 說(shuō)明有更多的有機(jī)物熒光信號(hào)會(huì)對(duì)CODCr的預(yù)測(cè)結(jié)果產(chǎn)生正影響; D, E和F所代表的蛋白質(zhì)和氨基酸熒光區(qū)域在NH3-N和TN模型中具有較大的正權(quán)重, 并且TN模型具有更大的正權(quán)重范圍; TP的正權(quán)重分布較為集中在類腐殖酸特征范圍內(nèi); BOD5的正權(quán)重集中在D區(qū)域內(nèi), 說(shuō)明BOD5的預(yù)測(cè)值與色氨酸光譜強(qiáng)度具有較高相關(guān)性, 這與Henderson等的研究結(jié)論一致[11]。 由此可知, 基于全波段的預(yù)測(cè)模型與以往的固定點(diǎn)式光譜模型相比, 該模型能夠針對(duì)不同的水質(zhì)指標(biāo)對(duì)每一個(gè)光譜位置設(shè)置相應(yīng)的權(quán)重, 并且模型權(quán)重分布符合水質(zhì)指標(biāo)與有機(jī)污染物的邏輯關(guān)系, 可以更加充分地利用水體三維熒光光譜信息建立光譜與有機(jī)污染物之間的定量關(guān)系。
表6 模型預(yù)測(cè)結(jié)果Table 6 Prediction results of models
圖3為使用Matlab2019軟件進(jìn)行的模型預(yù)測(cè)值與化學(xué)分析值的相關(guān)性分析。 從圖3可知, CODCr, CODMn, NH3-N, TN, BOD5和TP六項(xiàng)水質(zhì)指標(biāo)的預(yù)測(cè)值和實(shí)際測(cè)量值之間的相關(guān)系數(shù)R分別為0.95, 0.92, 0.92, 0.91, 0.94和0.90, 并且通過(guò)了p=0.05的顯著性水平檢驗(yàn), 說(shuō)明LIBZINEARSVM模型預(yù)測(cè)的各水質(zhì)指標(biāo)結(jié)果與國(guó)標(biāo)及行業(yè)標(biāo)準(zhǔn)分析結(jié)果具有較高的擬合度, 證明了三維熒光光譜技術(shù)用于監(jiān)測(cè)水質(zhì)污染狀況的可行性, 本方法可為城市及周邊地表水的快速、 原位、 高效監(jiān)測(cè)提供解決方案。
圖3 模型預(yù)測(cè)值與化學(xué)分析值的相關(guān)性Fig.3 Correlation between predicted value and chemical analysis results
為了驗(yàn)證水質(zhì)分類的預(yù)測(cè)效果, 使用LIBLINEAR模型對(duì)100個(gè)未知水樣進(jìn)行水質(zhì)指標(biāo)預(yù)測(cè), 并用預(yù)測(cè)結(jié)果按照表3中的標(biāo)準(zhǔn)判斷其水質(zhì)類別。 分類預(yù)測(cè)效果通過(guò)準(zhǔn)確率A和F1分?jǐn)?shù)兩個(gè)指標(biāo)評(píng)價(jià)。 其中A代表正確判斷的樣本數(shù)和總樣本數(shù)的比值;F1分?jǐn)?shù)是查準(zhǔn)率P和查全率Re的調(diào)和平均數(shù), 可以綜合評(píng)價(jià)分類效果。 計(jì)算公式如式(4)
其中,TP為真正例樣本數(shù),TN為真反例樣本數(shù),F(xiàn)P為假正例樣本數(shù),F(xiàn)N為假反例樣本數(shù)。
圖4為表4中4種分級(jí)方法的水質(zhì)分類結(jié)果。 如圖4所示, 方法1, 2, 3和4的水質(zhì)分類準(zhǔn)確率分別為86%, 74%, 67%和60%, F1分?jǐn)?shù)分別0.93, 0.88, 0.84和0.77, 隨著分級(jí)的細(xì)化, 水質(zhì)分類準(zhǔn)確率和F1分?jǐn)?shù)有所下降, 說(shuō)明水質(zhì)指標(biāo)預(yù)測(cè)結(jié)果對(duì)清潔水體的細(xì)化分類稍有不足, 但對(duì)較重污染水體的水質(zhì)分級(jí)具有較高的正確率和識(shí)別精度。 總之, 本方法可以快速判斷水質(zhì)等級(jí), 并同步顯示超標(biāo)污染物及其濃度值, 實(shí)現(xiàn)對(duì)地表水水質(zhì)的高效監(jiān)測(cè)和精準(zhǔn)評(píng)價(jià)。
圖4 水質(zhì)分類結(jié)果Fig.4 Water quality classification results
對(duì)揚(yáng)州市域內(nèi)122個(gè)地表水監(jiān)測(cè)斷面的三維熒光光譜信息和水質(zhì)狀況進(jìn)行了長(zhǎng)期積累形成了覆蓋范圍廣、 時(shí)間跨度長(zhǎng)、 水質(zhì)變化多的樣本集合, 基于全波段光譜數(shù)據(jù)使用LIBLINEAR算法建立了針對(duì)CODCr, CODMn, NH3-N, TN, BOD5和TP 六項(xiàng)水質(zhì)指標(biāo)的預(yù)測(cè)模型, 模型的權(quán)重分布與多種溶解性有機(jī)物的熒光特征區(qū)域重合, 說(shuō)明該模型可以綜合地反應(yīng)地表水中的有機(jī)污染程度。 模型預(yù)測(cè)結(jié)果具有較高的決定系數(shù)和較低的均方根誤差, 測(cè)試集的預(yù)測(cè)結(jié)果與實(shí)際測(cè)量值之間的相關(guān)系數(shù)達(dá)到0.90以上。 此外, 使用水質(zhì)指標(biāo)的預(yù)測(cè)結(jié)果對(duì)水體的水質(zhì)等級(jí)進(jìn)行判斷, 其中對(duì)黑臭水體判斷正確率達(dá)86%, 對(duì)Ⅲ類~重度黑臭水體的分類準(zhǔn)確率達(dá)60%, 表明該技術(shù)的水質(zhì)指標(biāo)預(yù)測(cè)結(jié)果與現(xiàn)行的國(guó)標(biāo)及行業(yè)標(biāo)準(zhǔn)方法分析結(jié)果一致性較高, 可以用于在廣域時(shí)空尺度中對(duì)流域水體的整體水質(zhì)狀況進(jìn)行全面判識(shí), 是一種快速、 原位、 高效的城市及周邊地表水水質(zhì)監(jiān)測(cè)技術(shù)。