王曉明,章海亮,羅 微,劉雪梅
華東交通大學(xué)軌道交通學(xué)院, 江西 南昌 330013
基于UV-Vis檢測養(yǎng)殖水體中化學(xué)需氧量含量研究
王曉明,章海亮*,羅 微,劉雪梅
華東交通大學(xué)軌道交通學(xué)院, 江西 南昌 330013
采用紫外可見光譜(UV-Vis)與極限學(xué)習(xí)機算法檢測水體化學(xué)需氧量(chemical oxygen demand,COD)含量研究。采集135份水樣進行紫外可見波段全光譜掃描,結(jié)合變量標準化(standard normal variate,SNV),多元散射校正(MSC)和一階微分(1st D)對原始數(shù)據(jù)進行預(yù)處理,然后采用競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)、隨機青蛙(Random frog)算法和遺傳算法進行特征波長選擇?;谌庾V建立了偏最小二乘回歸(partial least squares,PLS)和基于特征波長建立了極限學(xué)習(xí)機算法(extreme learning machine,ELM)模型。結(jié)果表明:使用CARS提取的9個特征波長建立的ELM模型的預(yù)測效果最優(yōu),決定系數(shù)R2為0.82,預(yù)測均方根誤差RMSEP為 14.48 mg·L-1,RPD值為2.34。說明使用CARS變量選擇算法獲取UV-Vis光譜特征波長,應(yīng)用極限學(xué)習(xí)機建模,可以準確、快速的檢測養(yǎng)殖水體中COD含量,為實現(xiàn)養(yǎng)殖水體COD的動態(tài)快速檢測以及水體其他微量物質(zhì)含量參數(shù)檢測打下基礎(chǔ)。
極限學(xué)習(xí)機;化學(xué)需氧量;Random frog;CARS;GA
水產(chǎn)養(yǎng)殖是農(nóng)業(yè)生產(chǎn)活動的一項重要內(nèi)容,也是農(nóng)民創(chuàng)業(yè)致富的重要途徑,近年來,我國水產(chǎn)養(yǎng)殖行業(yè)發(fā)展迅速,對提高我國居民消費水平起到了重要推動作用,然而由于不正常的工業(yè)生產(chǎn)排放污水造成養(yǎng)殖水體污染嚴重,健康的水體生產(chǎn)出符合健康消費要求的水產(chǎn)品,養(yǎng)殖水體污染后,生產(chǎn)出來的水產(chǎn)品質(zhì)量就得不到保證,這將直接影響我國居民消費水平的提高[1]。COD在水產(chǎn)養(yǎng)殖中作為一項衡量養(yǎng)殖水體指標是否合格及評價水體中有機物污染程度的指標[2-3]。傳統(tǒng)的COD檢測方法有快速消解分光光度法和重鉻酸鉀滴定法等,另外流動注射分析法和電化學(xué)方法等也被用于化學(xué)需氧量的檢測[4],但這些傳統(tǒng)檢測方法普遍存在一些缺點如需要消耗試劑、檢測時間較長、存在二次污染等。
紫外可見光譜(ultraviolet/visible,UV-Vis)作為一種低成本、快速、無損檢測技術(shù)方法,被廣泛應(yīng)用于水體中微量物質(zhì)參數(shù)如COD含量檢測。本研究采用紫外可見光譜(UV-Vis)基于極限學(xué)習(xí)機算法檢測水體COD含量,采用CARS,Random frog算法和GA算法進行特征波長選擇。基于全光譜建立了PLS模型和基于特征波長建立了ELM模型。
1.1 樣本采集
研究采用Cary 60(Agilent,USA)紫外-可見光譜分光光度計。在室溫(25±1)℃條件下對水樣進行光譜掃描,盛裝水樣的石英比色皿光程長度為10 mm,采集樣本在200~400 nm之間的吸收光譜,采集前需進行去離子水做基線校正,每個檢測樣本掃描10次,取10次光譜的平均值。紫外可見光譜采集軟件為Cary WinUV V5.0(Agilent,USA),光譜預(yù)處理軟件是The Unscrambler V9.7(CAMO,Norway),變量選擇和建模軟件是Matlab 2009a(MathWorks,USA)。試驗用水產(chǎn)養(yǎng)殖水樣采集自某地甲魚養(yǎng)殖示范區(qū),根據(jù)不同的養(yǎng)殖密度,把采集水樣分成6個實驗組,連續(xù)采集6個月的實驗數(shù)據(jù),共采集135個養(yǎng)殖水體樣本。選擇代表性的建模集樣本是獲得模型預(yù)測性能良好的關(guān)鍵技術(shù)之一,合適的校正集選擇方法能增強模型的預(yù)測能力,由于SPXY(sample set partitionning based on joint X-Y distance)樣本劃分方法在計算樣本間距離同時考慮x光譜和y理化值,SPXY樣本劃分方法采用。90個樣本用于模型校正,45個樣本用于模型預(yù)測集。
1.2 光譜噪聲去除
采用SNV算法,MSC和1st D等算法對光譜進行處理,在Unscramble 9.7軟件自帶算法完成處理,并對三種去噪聲算法進行比較。
1.3 特征波長選擇算法
光譜數(shù)據(jù)由于波長點多,導(dǎo)致模型復(fù)雜和計算量大,同時存在大量的共線性和冗余信息特征,對有效光譜提取產(chǎn)生干擾。采用CARS,Random frog算法和遺傳算法選擇特征波長,減少數(shù)據(jù)共線性和數(shù)據(jù)冗余,同時簡化模型和減少運算量。CARS原理是每次采樣過程中利用自適應(yīng)重加權(quán)采樣技術(shù)(adaptive reweighted sampling,ARS)和指數(shù)衰減函數(shù)(Exponentially decreasing function,EDP)結(jié)合的方法優(yōu)選出PLS模型中回歸系數(shù)絕對值大的波長點,去除PLS中回歸系數(shù)值權(quán)重較小的波長,基于十折交叉驗證,選擇N個偏最小二乘子集模型預(yù)測均方根誤差最小的子集,該子集為最優(yōu)變量組合。N次采樣后得到N個變量子集,依據(jù)交互驗證選出交互驗證均方根誤差(RMSECV)最小的變量子集,該子集所包含的變量即為最優(yōu)特征波長變量組合[5]。Random frog是一種較新的特征波長選擇算法,由Li等(2012年)提出并用于基因變量的選擇。Random frog是一種類似于可逆跳轉(zhuǎn)馬爾可夫鏈蒙特卡洛(ceversible jump markov Chain monte carlo,RJMCMC)的算法,通過模擬一條服從穩(wěn)態(tài)分布的馬爾可夫鏈,來計算每個變量的被選擇概率,從而進行重要變量的選擇。Random frog與PLS方法相結(jié)合,PLS模型返回結(jié)果中根據(jù)回歸系數(shù)曲線上每個變量的絕對值大小作為每次迭代過程中該變量是否被選擇或者剔除的依據(jù)[6]。遺傳算法是通過模擬生物進化隨機尋優(yōu)求解的一種常用算法,由于光譜矩陣存在信息冗余、重疊和共線性等影響因素,通過遺傳算法選擇變量與濃度值最相關(guān)的波長,用于建模,提高模型精度同時可以簡化模型[7]。
1.4 建模分析
基于全譜建立PLS分析模型,分別基于選擇的特征波長建立ELM模型如圖1所示。PLS是最為常用的化學(xué)計量學(xué)建模方法。同時考慮光譜矩陣X和樣本理化值Y,建立預(yù)測模型,通過降維獲取潛在變量,消除無用的光譜變量。ELM是一種相對簡單易用且有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural network)學(xué)習(xí)算法。類似于BP神經(jīng)網(wǎng)格由輸入層、隱含層和輸出層共三層結(jié)構(gòu)組成,其中隱含層和輸入層及輸出層實現(xiàn)了神經(jīng)元全連接。其中,輸入層有n個輸入變量(神經(jīng)元);隱含層有l(wèi)個結(jié)點(神經(jīng)元);輸出層對應(yīng)m個輸出變量(神經(jīng)元)。傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法需要人為設(shè)置大量的網(wǎng)絡(luò)訓(xùn)練參數(shù),并且很容易產(chǎn)生局部最優(yōu)解[8, 9]。
2.1 樣本COD含量統(tǒng)計分析
所收集的水體樣本COD統(tǒng)計見表1,校正集和預(yù)測集的化學(xué)需氧量值都涵蓋了較大的范圍,有助于構(gòu)建準確、穩(wěn)定和普適性較好的模型。
Table 1 Results of chemical oxygen demand (COD) statistical value of samples
2.2 特征波長選擇
基于CARS,Random frog和遺傳(genetic algorithm,GA)算法選擇COD的相關(guān)特征波長,詳見表2。從表2可知,CARS所選擇的COD特征波長的個數(shù)多于Random frog和GA算法。CARS算法提取特征波長的原理和方法詳見參考文獻[5]。
遺傳算法是通過波長點被選頻率次數(shù)的大小來確定建模變量的數(shù)量,如圖2所示,圖中有兩條虛線,下面那條橫線認為是模型預(yù)測精度最優(yōu)的,代價是被選擇用于建模的波長數(shù)量也會相應(yīng)增多,上面那條橫線被認為模型預(yù)測精度可以被接受,用于建模的波長數(shù)量要明顯少于上面那條橫線確定的建模變量數(shù),這點從圖2中比較容易看出來。本研究選擇下面那條線所對應(yīng)的波長數(shù)量來建立預(yù)測模型,認為優(yōu)先考慮模型精度,模型復(fù)雜度次之。
Fig.1 Extreme Learning Machine (ELM) schematic diagram
Fig.2 GA+PLS selected characteristic wavelength
Random frog確定特征變量通過頻率值的大小來選擇,基于蒙特卡洛(Monte Carlo)算法,要說明的一點Random frog算法每次運行的結(jié)果略有不同。因此為減小隨機因素的影響,需多次運行,對結(jié)果進行統(tǒng)計取值。本研究針對COD特征波長的選擇,分別運行random frog算法15次,統(tǒng)計了15次運行結(jié)果的均值。
如圖3所示,橫坐標是波長變量,縱坐標是被選概率,概率的大小用來評價變量的重要性,概率越大的變量其重要性越大。將所有變量的被選概率排序,以0.15為閾值,分別選出概率最大的前15個變量作為特征波長,見表2。
Fig.3 Random frog select sensitive wavelength
Table 2 Number of characteristic wavelengths collected by CARS, Random frog and GA
注:CARS(competitive adaptive reweighted sampling)為競爭性自適應(yīng)重加權(quán)算法、GA(genetic algorithm)為遺傳算法;Random frog為隨機青蛙算法,下同
2.3 基于全波長的PLS模型
PLS模型同時考慮光譜矩陣X和樣本理化值Y,建立預(yù)測模型,通過降維獲取潛在變量,消除無用的光譜變量。為了更好的比較SNV,MSC和1st D數(shù)據(jù)預(yù)處理算法對原始光譜改進效果,將對三種光譜預(yù)處理方法建立的模型評價指標進行比較,同時包括全譜的PLS模型一起比較,結(jié)果見表3。
Table 3 Results of PLS models
基于SNV光譜預(yù)處理方法建立的PLS模型取得了最佳的檢測結(jié)果,校正集的決定系數(shù)為0.79,均方根預(yù)測誤差為15.67 mg·L-1,預(yù)測集的決定系數(shù)為0.77,均方根預(yù)測誤差為15.96 mg·L-1, RPD值為。1st D算法分析雖然突出了部分有用光譜信息,但也引入了更多的光譜噪聲,導(dǎo)致PLS預(yù)測效果最低,其預(yù)測集的決定系數(shù)為0.75,均方根預(yù)測誤差為16.54 mg·L-1,剩余預(yù)測偏差RPD為2.05。故后面提取特征波分析在SNV分析基礎(chǔ)上進行。
2.4 基于特征波長的ELM模型
基于CARS,Random frog和GA特征波長選擇算法得到的特征波長的ELM模型的計算結(jié)果如表4所示。
Table 4 Results of ELM models
從表4可知,采用CARS提取的特征波長建立的ELM模型的效果最好,預(yù)測集的決定系數(shù)為0.82,均方根預(yù)測誤差為14.48 mg·L-1,剩余預(yù)測偏差RPD為2.34。采用Random frog選擇的特征波長取得了相對較差效果,預(yù)測集的決定系數(shù)為0.80,均方根預(yù)測誤差為15.76 mg·L-1,剩余預(yù)測偏差為2.14。分別比較基于CARS和Random frog算法提取的特征波長建立的ELM模型可知,基于CARS提取特征波長的ELM模型效果要優(yōu)于基于Random frog和GA提取特征波長的結(jié)果,究其原因,Random frog和GA選擇的特征波長包含有用信息的同時還含有噪聲信息,沒有達到最優(yōu)選擇。
2.5 PLS模型和ELM模型的比較
基于CARS,Random frog和GA算法提取特征波長建立的模型中,ELM模型優(yōu)于PLS模型。PLS模型最優(yōu)的預(yù)測集的決定系數(shù)為0.77,均方根預(yù)測誤差為15.96 mg·L-1,剩余預(yù)測偏差為2.12,而基于Random frog提取特征波長的ELM模型的預(yù)測集的決定系數(shù)為0.80,均方根預(yù)測誤差為15.76 mg·L-1,剩余預(yù)測偏差為2.14,略優(yōu)于PLS模型的相應(yīng)結(jié)果。ELM模型是一種非線性建模方法,考慮到了模型建立過程中的非線性因素,如水體顏色和溫度等非線性影響因素,提高了模型的預(yù)測精度。
采用紫外-可見光譜(UV-Vis)基于極限學(xué)習(xí)機算法檢測水體COD量研究,結(jié)合SNV,MSC和1st D對原始數(shù)據(jù)進行預(yù)處理,基于全光譜建立了偏最小二乘回歸(partial least squares,PLS)模型。然后采用CARS,Random frog算法和遺傳算法進行特征波長選擇。研究結(jié)果表明采用SNV預(yù)處理算法最優(yōu),建立的全譜PLS模型優(yōu)于MSC和1stD算法去噪聲處理后建立的全譜PLS模型,在SNV基礎(chǔ)上,同時采用CARS算法、Random frog算法和GA算法提取特征波長,并基于特征波長建立ELM預(yù)測模型,獲得了較高的預(yù)測精度。SNV光譜預(yù)處理基礎(chǔ)上采用CARS算法選擇的特征波長建立的ELM模型取得了最佳效果,預(yù)測集的決定系數(shù)為0.82,均方根預(yù)測誤差為14.48,剩余預(yù)測偏差RPD為2.34。
[1] Hussain S, Shaikh S, Farooqui M. Journal of Saudi Chemical Society, 2013, 17(2): 199.
[2] Wu J, Yan G, Zhou G, et al. Chemical Engineering Journal, 2014, 258(0): 450.
[3] ZHOU Xiao-bai,ZHANG Ning-hong,ZHANG Yong, et al(周笑白,張寧紅,張 詠, 等). Ecology and Envionmental Science(生態(tài)環(huán)境學(xué)報), 2012, (12): 1975.
[4] LIU Xue-mei,ZHANG Hai-liang(劉雪梅,章海亮). Spectroscopy and Spectral Anlysis(光譜學(xué)與光譜分析), 2014, 34(10): 2804.
[5] Li H D, Liang Y Z, Xu Q S, et al. Analytica Chimica Acta, 2009, 648(1): 77.
[6] Li H D, X Q S L. Analytica Chimica Acta, 2012, 740(1): 20.
[7] Senseney C T, Krahenbuhl R A, Mooney M A. International Journal of Geomechanics, 2013, 13(4): 473.
[8] GAO Hong-yan, SUN Jun, WEI Ai-guo(高洪燕, 孫 俊, 衛(wèi)愛國, 等). Transactions of the Chinese Society for Agricultue Machinery(農(nóng)業(yè)機械學(xué)報), 2014, 45(07): 272.
[9] ZHANG Chu,LIU Fei,KONG Wen-wen, et al(張 初,劉 飛,孔汶汶, 等 ). Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學(xué)報), 2013, (20): 270.
*Corresponding author
Measurement of Water COD Based on UV-Vis Spectroscopy Technology
WANG Xiao-ming, ZHANG Hai-liang*, LUO Wei, LIU Xue-mei
College of Railway Tracks and Transportation, East China Jiaotong University, Nanchang 330013, China
Ultraviolet/visible (UV/Vis) spectroscopy technology was used to measure water COD. A total of 135 water samples were collected from Zhejiang province. Raw spectra with 3 different pretreatment methods (Multiplicative Scatter Correction (MSC), Standard Normal Variate (SNV) and 1 st Derivatives were compared to determine the optimal pretreatment method for analysis. Spectral variable selection is an important strategy in spectrum modeling analysis, because it tends to parsimonious data representation and can lead to multivariate models with better performance. In order to simply calibration models, the preprocessed spectra were then used to select sensitive wavelengths by competitive adaptive reweighted sampling (CARS), Random frog and Successive Genetic Algorithm (GA) methods. Different numbers of sensitive wavelengths were selected by different variable selection methods with SNV preprocessing method. Partial least squares (PLS) was used to build models with the full spectra, and Extreme Learning Machine (ELM) was applied to build models with the selected wavelength variables. The overall results showed that ELM model performed better than PLS model, and the ELM model with the selected wavelengths based on CARS obtained the best results with the determination coefficient (R2), RMSEP and RPD were 0.82, 14.48 and 2.34 for prediction set. The results indicated that it was feasible to use UV/Vis with characteristic wavelengths which were obtained by CARS variable selection method, combined with ELM calibration could apply for the rapid and accurate determination of COD in aquaculture water. Moreover, this study laid the foundation for further implementation of online analysis of aquaculture water and rapid determination of other water quality parameters.
Extreme learning machine (ELM); COD; Random frog; CARS; GA
Dec. 2, 2014; accepted Mar. 25, 2015)
2014-12-02,
2015-03-25
國家自然科學(xué)基金項目(61565005)和江西省科技支撐項目(20142BDH80021, 20151BAB207009)資助
王曉明,1978年生, 華東交通大學(xué)軌道交通學(xué)院講師 e-mail: 36464894@qq.com *通訊聯(lián)系人 e-mail: seacau@163.com
TP391
A
10.3964/j.issn.1000-0593(2016)01-0177-04