古 創(chuàng),姚軍強(qiáng),吳志躍,鄭曉宇,董仁杰,喬 瑋?
(1.光大環(huán)保技術(shù)研究院(南京)有限公司,南京 210007;2.中國農(nóng)業(yè)大學(xué) 工學(xué)院,北京 100083;3.國家能源生物燃?xì)飧咝е苽浼熬C合利用技術(shù)研發(fā)(實(shí)驗(yàn))中心,北京 100083)
近年來,隨著膜技術(shù)的進(jìn)一步發(fā)展,厭氧膜生物反應(yīng)器(anaerobic membrane bioreactor,AnMBR)在市政廢水[1]、工業(yè)廢水[2]和畜禽廢水[3]等水處理中已有廣泛應(yīng)用。然而,在反應(yīng)器運(yùn)行中膜污染問題始終不可避免,在膜污染發(fā)生時反應(yīng)器的處理能力降低,生產(chǎn)成本增加,限制了厭氧膜生物反應(yīng)器技術(shù)的應(yīng)用[4]。目前,膜污染的機(jī)理分析[5-6]及其控制方法[7-8]已被國內(nèi)外學(xué)者深入研究,但關(guān)于膜污染監(jiān)測和模擬的研究報道還相對較少。在膜污染機(jī)理分析基礎(chǔ)上建立的數(shù)學(xué)模型是監(jiān)測膜污染的有效手段。通過分析過程變量與膜污染表征指標(biāo)之間的數(shù)學(xué)關(guān)系,可以推斷出膜運(yùn)行狀態(tài)[9-10]。但是,膜污染過程非常復(fù)雜,產(chǎn)水流量[11]、污泥濃度[6]和水力停留時間[12]等都會顯著影響膜的過濾性能。研究發(fā)現(xiàn),傳統(tǒng)的數(shù)學(xué)模型難以表征復(fù)雜因素之間的關(guān)系,且大量數(shù)據(jù)的處理效率不高[13]。基于人工神經(jīng)網(wǎng)絡(luò)的適應(yīng)動態(tài)變化、數(shù)據(jù)并行處理和自學(xué)習(xí)等特點(diǎn),相關(guān)模型已被用于膜污染的預(yù)測研究[14-15]。然而,以上模型預(yù)測研究中均忽視了膜污染影響因子間的相互關(guān)系,這使得模型的輸入數(shù)據(jù)矩陣結(jié)構(gòu)較為復(fù)雜,影響模型輸出結(jié)果的效率和準(zhǔn)確性。
本文基于主成分分析法(principal component analysis,PCA)在多元數(shù)據(jù)分析中可以利用相關(guān)性提取重要數(shù)據(jù)來降低問題復(fù)雜性和難度這一特點(diǎn)[16],提出構(gòu)建主成分分析-反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)模型分析膜污染,比較了BPNN 與PCA-BPNN 兩種模型的擬合效果,驗(yàn)證該方法在膜污染預(yù)測中的可行性。
如圖1,采用浸沒式AnMBR 處理取自天津市某垃圾填埋場的垃圾滲濾液,共連續(xù)運(yùn)行102 d;反應(yīng)器有效容積20 L;水力停留時間(hydraulic retention time,HRT)和固體停留時間(solid retention time,SRT)分別為10 d 和100 d,容積負(fù)荷為5.6 kgCOD/(m3·d),反應(yīng)器內(nèi)的溫度為37℃;膜通量為6 L/(m2·h),沼氣循環(huán)流速為9 L/min,產(chǎn)水泵的工作方式為4 min 抽濾,1 min 休息。
圖1 AnMBR 反應(yīng)器裝置示意圖[17]Fig.1 Schematic diagram of AnMBR reactor[17]
所用數(shù)據(jù)全部來自之前已開展的AnMBR 長期處理垃圾滲濾液的連續(xù)試驗(yàn),發(fā)酵原料取自天津市某垃圾填埋場的新鮮滲濾液,運(yùn)行結(jié)果表明平均化學(xué)需氧量(chemical oxygen demand,COD)去除率達(dá)到92%,膜壓62 d 內(nèi)增長緩慢,未出現(xiàn)明顯的膜污染[18-19]。各項(xiàng)指標(biāo)的測試方法如下:COD 采用重鉻酸鉀法測定[20];沼氣成分采用氣相色譜儀(日本,島津,GC-8A)測定,色譜柱為Φ10 mm × 2 m 不銹鋼色譜柱,載氣為氫氣,分壓為0.38 MPa,流速為20~ 30 mL/min;沼氣產(chǎn)量采用濕式氣體流量計(北京金志業(yè),LML-1)測定;pH 的測定采用pH 酸度計(瑞士,梅特勒-托利多,F(xiàn)E20);總固體(total solid,TS)和揮發(fā)性固體(volatile solid,VS)含量采用重量法測定[21];膜壓采用壓力傳感器(西安閔波,ESM-PS)測定;電導(dǎo)率采用電導(dǎo)率儀(瑞士,梅特勒-托利多,F(xiàn)E38)測定。
建立協(xié)方差矩陣:
矩陣A對角線是特征x1、x2…xn的方差,而非對角線上則為協(xié)方差,協(xié)方差求解公式為:
通過公式(3)可以得到這m個樣本在n維特征下的協(xié)方差矩陣A。利用矩陣相關(guān)知識求解特征值λ與特征向量μ,將特征值從大到小進(jìn)行排列,可知其主成分計算公式(4)。
利用公式(5)可以求解第k個主成分的貢獻(xiàn)率,并進(jìn)行累加得到累計貢獻(xiàn)率。
基于BP 算法的多層前饋型網(wǎng)絡(luò)的結(jié)構(gòu)如圖2,主要由輸入層、隱藏層、輸出層以及層級之間連接的網(wǎng)絡(luò)構(gòu)成。該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由正向和反向傳播兩部分組成,在雙向的信息傳播中不斷調(diào)整各神經(jīng)元的權(quán)重,使網(wǎng)絡(luò)功能逼近模擬的網(wǎng)絡(luò)[22]。
圖2 BP 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)Fig.2 Topological structure of BP neural network
假定BP 神經(jīng)網(wǎng)絡(luò)輸入層節(jié)點(diǎn)為m個;隱藏層節(jié)點(diǎn)l個;輸出層節(jié)點(diǎn)為n個;wij為輸入層與隱藏層神經(jīng)元之間的權(quán)值;wjk為隱藏層第j個神經(jīng)元與輸出層第k個神經(jīng)元之間的權(quán)值;激活函數(shù)為sigmoid 型函數(shù)[23],如公式(6)所示;隱藏層的輸出如公式(7)所示。
式中:Hj是隱藏層第j個神經(jīng)元的輸出;f是激活函數(shù);aj是隱藏層第j個神經(jīng)元的閾值;xi是輸入層第i個神經(jīng)元的輸入;wij是輸入層第i個神經(jīng)元與隱藏層第j個神經(jīng)元之間的權(quán)值;l是隱藏層的節(jié)點(diǎn)數(shù)。
輸出層的輸出計算公式如式(8)所示:
式中:Ok是輸出層第k個神經(jīng)元的預(yù)測輸出;bk是輸出層第k個神經(jīng)元的閾值;Hj是隱藏層第j個神經(jīng)元的輸出。
根據(jù)之前的理論分析,基于PCA-BPNN 的膜污染預(yù)測模型建立過程如圖3 所示。
圖3 膜污染預(yù)測模型的構(gòu)建Fig.3 Construction of membrane fouling prediction model
(1)選取影響因素。在連續(xù)試驗(yàn)所有數(shù)據(jù)中選取與膜污染相關(guān)的11 個因素,采用統(tǒng)計產(chǎn)品與服務(wù)解決方案(statistical product and service solutions,SPSS)進(jìn)行相關(guān)性分析,選取與膜污染表征指標(biāo)滲透率相關(guān)系數(shù)較大的因子作為輸入。
(2)數(shù)據(jù)歸一化處理。對選取的輸入指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理,公式如式(9)所示。
式中:Xn是歸一化數(shù)據(jù);X是實(shí)際數(shù)據(jù);Xmin是數(shù)據(jù)集中的最小值;Xmax是數(shù)據(jù)集中的最大值。
(3)PCA 提取主成分。數(shù)據(jù)歸一化處理后進(jìn)行主成分分析,提取累計貢獻(xiàn)率超過85%的主成分作為神經(jīng)網(wǎng)絡(luò)模型的輸入。
(4)構(gòu)建拓?fù)浣Y(jié)構(gòu)。確定輸入、輸出節(jié)點(diǎn)數(shù),通過經(jīng)驗(yàn)公式(10)確定隱藏層的節(jié)點(diǎn)數(shù)。
式中:h是隱藏層節(jié)點(diǎn)數(shù)目;a是1~ 10 之間的調(diào)節(jié)常數(shù)。
(5)模型訓(xùn)練測試。數(shù)據(jù)集劃分為訓(xùn)練集和測試集,模型的評價指標(biāo)為相對誤差,計算為:
式中:Er是相對誤差,%;是第i個實(shí)際輸出;Y(i)是第i個預(yù)測輸出。
在膜生物反應(yīng)器處理廢水過程中,膜污染成型及其機(jī)理復(fù)雜,影響因素較多。據(jù)報道,已有的膜污染預(yù)測模型中常見的輸入特征有進(jìn)料COD 濃度、污泥濃度、有機(jī)負(fù)荷、出水pH 等[14-15],主要通過文獻(xiàn)分析確定,無具體的科學(xué)依據(jù)。如表1 所示,本研究選擇10 個影響因素(1~ 10 號)作為膜污染預(yù)測模型的輸入,以滲透率為輸出表征膜污染狀態(tài)。為了簡化模型結(jié)構(gòu),提高模型擬合效果,對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行相關(guān)性分析,得到的相關(guān)系數(shù)矩陣如表2 所示。可以看出,與滲透率相關(guān)系數(shù)在0.5 以上的因素有5 個,分別為運(yùn)行時間、進(jìn)料COD 濃度、電導(dǎo)率、總固體和膜壓周期波動速率。同時,進(jìn)一步分析可知,這些輸入因素之間具有一定的相關(guān)性,使得BP 神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確性受到影響,有必要對輸入數(shù)據(jù)進(jìn)行主成分分析。
表1 膜污染影響因素Table 1 Influencing factors of membrane pollution
表2 膜污染影響因素之間的相關(guān)系數(shù)矩陣Table 2 Correlation coefficient matrix among influencing factors of membrane fouling
為使模型預(yù)測結(jié)果更加科學(xué)、綜合和有說服力,采用降維處理的方式將原始因子中的信息投影到新的綜合性因子中去。結(jié)果如表3 所示,PCA 共提取了5 個主成分,其中第一主成分的特征值為3.521,方差貢獻(xiàn)率為70.4%;第二主成分的特征值為0.885,方差貢獻(xiàn)率為17.7%。根據(jù)特征值大于1,累計貢獻(xiàn)率85%以上的要求[24],選取前兩個主成分作為模型的輸入變量,其累計貢獻(xiàn)率為88.1%,可以有效反映原變量的信息。
表3 總方差解釋Table 3 Total variance interpretation
研究表明,在主成分分析中,主成分的負(fù)荷大小可以有效反映各種原始變量對主成分的貢獻(xiàn)[25]。由表4 可知,主成分1 和主成分2 中各變量的高負(fù)荷(>0.7)表明運(yùn)行時間、進(jìn)水COD、電導(dǎo)率、總固體和膜壓周期波動速率是反映主成分的重要參數(shù),即主成分可以表示為這些重要參數(shù)的線性組合[26]。同時,根據(jù)表4 中相關(guān)系數(shù)矩陣的數(shù)據(jù),通過SPSS 26.0 軟件的Transform-computer 變換,得到主成分載荷因子數(shù)據(jù)。結(jié)果如表5 所示,可以直觀地看到主成分1 在X1、X7 等方面因子解釋量大;主成分2在X4、X6 等方面的因子解釋量大。
表4 主成分與對應(yīng)變量的相關(guān)系數(shù)矩陣Table 4 Correlation coefficient matrix between principal components and corresponding variables
表5 主成分因子載荷矩陣Table 5 Principal component factor load matrix
通過表5 中的數(shù)據(jù),可知主成分的表達(dá)式為:
通過單一神經(jīng)網(wǎng)絡(luò)模型對連續(xù)試驗(yàn)中膜運(yùn)行的滲透率進(jìn)行預(yù)測分析,其擬合效果如圖4 所示。可以看出,模型的預(yù)測輸出值與實(shí)際值較為接近,兩者的平均相對誤差為4.6%,即預(yù)測精度達(dá)到95.4%。研究發(fā)現(xiàn),大部分人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)模型預(yù)測的相對誤差為 5%~10%[27-28],表明本研究具有較好的預(yù)測結(jié)果。但是,由表2 可知單一神經(jīng)網(wǎng)絡(luò)模型中輸入變量之間具有一定的相關(guān)性,兩兩相互影響,這加大了模型結(jié)構(gòu)的復(fù)雜性,可能影響模型的預(yù)測精度。
圖4 單一神經(jīng)網(wǎng)絡(luò)模型的擬合效果:(a)滲透率變化;(b)相對誤差Fig.4 Fitting effect of single neural network model:(a) permeability variation;(b) the relative error
主成分分析作為一種從特征元素中提取相互獨(dú)立的有效信息從而降低輸入維度的統(tǒng)計分析方法[29],在模型優(yōu)化中有較好的應(yīng)用。研究表明,采用主成分分析優(yōu)化的支持向量機(jī)(support vector machine,SVM)模型預(yù)測河流量的準(zhǔn)確率高于普通SVM 模型[30]。為了使單一神經(jīng)網(wǎng)絡(luò)模型的模擬更加有效,本研究引入主成分分析法來優(yōu)化模型的拓?fù)浣Y(jié)構(gòu),構(gòu)建了PCA-BPNN 模型。從圖5 中可以看出,相比于單一神經(jīng)網(wǎng)絡(luò)模型,優(yōu)化后的模型預(yù)測輸出值與實(shí)際值更為接近;平均相對誤差為3.8%,同比之下降低了17.4%。因此,可知采用PCA 優(yōu)化BPNN 模型結(jié)構(gòu)是可能的,得到的模型擬合效果更好。
圖5 基于PCA 優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的擬合效果:(a)滲透率變化;(b)相對誤差Fig.5 Fitting effect of PCA optimized neural network model:(a) permeability variation;(b) the relative error
在人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測膜污染的研究中,輸入變量(即膜污染影響因素)的選擇十分重要,所選因素必須是獨(dú)立的,不存在明顯的數(shù)學(xué)關(guān)系,并且與輸出變量之間有密切的聯(lián)系。研究表明,以進(jìn)料濃度、操作時間、跨膜壓力等作為輸入變量,人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測膜污染可以取得較好的結(jié)果[31]。本研究通過單一BP 神經(jīng)網(wǎng)絡(luò)模型確定了運(yùn)行時間、進(jìn)料COD、電導(dǎo)率等輸入變量與輸出變量滲透率之間的貢獻(xiàn)關(guān)系,結(jié)果如圖6 所示。可以看出,在5 個輸入變量中,特征變量污泥濃度和運(yùn)行時間在膜污染預(yù)測中的貢獻(xiàn)較大,分別為34.9%和22.6%,以電導(dǎo)率的貢獻(xiàn)最小,僅為3.9%。由于神經(jīng)網(wǎng)絡(luò)模型的擬合效果取決于輸入和輸出變量之間的關(guān)系,結(jié)合相關(guān)性分析結(jié)果可知,運(yùn)行時間、污泥濃度是影響模型擬合的關(guān)鍵因素。同時,由PCA 分析可知,在主成分1 中也是運(yùn)行時間和污泥濃度兩個變量的因子解釋度相對較大。因此可知,在不考慮運(yùn)行時間的情況下,污泥濃度是影響膜污染的最主要特征。在后續(xù)的工程研究中,合理地控制反應(yīng)器污泥濃度是延緩膜污染發(fā)生的有效方法。
圖6 膜污染因素貢獻(xiàn)度分析Fig.6 Contribution analysis of membrane pollution factors
針對膜污染預(yù)測模型中輸入變量的有效選取和拓?fù)浣Y(jié)構(gòu)復(fù)雜問題,本文引入主成分分析方法優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,對膜污染進(jìn)行了深入分析。利用相關(guān)性分析確定了與膜污染表征指標(biāo)滲透率相關(guān)的5 個輸入?yún)?shù),分別為運(yùn)行時間、進(jìn)料COD、電導(dǎo)率、總固體和膜壓周期波動速率。同時,針對輸入變量間存在信息重疊這一問題,采用PCA 進(jìn)行數(shù)據(jù)的降維處理,以累計貢獻(xiàn)率為88.1%的兩個主成分作為模型的輸入,避免了因輸入變量間的相關(guān)性造成的計算復(fù)雜化。結(jié)合模型的貢獻(xiàn)度分析和主成分分析的因子載荷矩陣,可以發(fā)現(xiàn)污泥濃度是影響膜污染的最主要因素,貢獻(xiàn)度為34.9%。比較PCA-BPNN模型與單一BPNN 模型的預(yù)測效果,發(fā)現(xiàn)經(jīng)PCA 處理后的模型預(yù)測準(zhǔn)確率更高,平均相對誤差由4.6%降到3.8%。因此,將主成分分析和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合應(yīng)用于膜污染分析具有可行性,可以為膜污染分析研究提供一種新的思路。