王彩玲,王 波,紀(jì) 童,徐 君,劇 鋒,王洪偉
1. 西安石油大學(xué)計(jì)算機(jī)學(xué)院,陜西 西安 710065 2. 鹽池縣草原實(shí)驗(yàn)站,寧夏 鹽池 751506 3. 甘肅農(nóng)業(yè)大學(xué)草業(yè)學(xué)院,甘肅 蘭州 730070 4. 西安航空學(xué)院,陜西 西安 710077 5. 中華人民共和國(guó)銀川海關(guān),寧夏 銀川 750000 6. 西北工業(yè)大學(xué)光電與智能研究院,陜西 西安 710072
隨著人類物質(zhì)生活水平的提高和工業(yè)化的發(fā)展,水污染已經(jīng)成為當(dāng)今社會(huì)普遍存在的問(wèn)題,其監(jiān)測(cè)與治理也備受關(guān)注。 在pH<6.5時(shí)亞硝酸鹽會(huì)與仲氨反映生成具有強(qiáng)致癌性的亞硝胺基,是水質(zhì)監(jiān)測(cè)的必測(cè)指標(biāo)之一[1]。 “分光光度計(jì)法”、 紫外-分光光度法為現(xiàn)下普遍接受的測(cè)定亞硝酸鹽指標(biāo)的方法,但測(cè)定時(shí)間長(zhǎng)、 不能及時(shí)反映水質(zhì)變化,不適合現(xiàn)場(chǎng)監(jiān)測(cè)[2]。
原始光譜反射數(shù)據(jù)有著數(shù)據(jù)量大,指標(biāo)彼此高度相關(guān)的特性,原始指標(biāo)高度相關(guān)的特性經(jīng)常會(huì)導(dǎo)致多重共線性問(wèn)題的產(chǎn)生,從而導(dǎo)致模型失真[3]; 因此如何對(duì)大量光譜數(shù)據(jù)進(jìn)行處理和挑選一直是光譜反演的重點(diǎn)。 隨機(jī)森林(random forest, RF)作為常用機(jī)器學(xué)習(xí)算法在分類、 指標(biāo)反演、 篩選指標(biāo)上應(yīng)用廣泛[4],國(guó)內(nèi)許多學(xué)者將隨機(jī)森林等機(jī)器學(xué)習(xí)新方法作為典型計(jì)量模型的代表廣泛應(yīng)用到水質(zhì)預(yù)測(cè)領(lǐng)域,促進(jìn)水質(zhì)分析向多參數(shù)測(cè)試趨勢(shì)發(fā)展。 張穎等[5]利用隨機(jī)森林分類算法對(duì)巢湖區(qū)域水質(zhì)進(jìn)行類別判定, 監(jiān)測(cè)斷面水質(zhì)分類準(zhǔn)確率可達(dá)96.15%; 吳志明等[6]基于隨機(jī)森林對(duì)太湖湖泊水體有色可溶性有機(jī)物(CDOM)濃度進(jìn)行遙感估算,根據(jù)隨機(jī)森林算法的特征重要性參數(shù)提供的各自變量影響力結(jié)果,發(fā)現(xiàn)709和560 nm波段貢獻(xiàn)率最大,是反演CDOM的敏感波段,并建立了精度較高的隨機(jī)森林反演模型;
現(xiàn)有文獻(xiàn)報(bào)道中,利用透射光譜估測(cè)水質(zhì)參數(shù)亞硝酸鹽指標(biāo)的報(bào)道較少; 基于此,試驗(yàn)利用光譜數(shù)據(jù)進(jìn)行水體指標(biāo)亞硝酸鹽的反演,測(cè)定水體樣本的光譜數(shù)據(jù),將采集到的光譜數(shù)據(jù)與標(biāo)液亞硝酸鹽含量建立亞硝酸鹽隨機(jī)森林反演模型,由于光譜指標(biāo)之間的高度相關(guān),為避免模型失真,在建立反演模型之前,利用隨機(jī)森林變量重要性法挑選敏感光譜指標(biāo),并將篩選指標(biāo)利用留一交叉法進(jìn)一步篩選,最終利用篩選的變量組合建立亞硝酸鹽隨機(jī)森林反演模型,比較全波段(未篩選)與優(yōu)化(篩選變量)隨機(jī)森林模型精度,選出更加適合反演亞硝酸鹽指標(biāo)的建模方法。 探索利用高光譜估測(cè)水體亞硝酸鹽含量的可行性與最優(yōu)方法,為實(shí)時(shí)診斷水體狀況提供關(guān)鍵技術(shù)與可行的途徑。
稱取在105~110 ℃下烘干約4 h的亞硝酸鈉(NaNO2)0.492 8 g溶于水,準(zhǔn)確定容至1 000 mL,此溶液含NO2-N 100 mg·L-1。 實(shí)驗(yàn)前,用移液管吸取此溶液20.00 mL用水稀釋至1 000 mL,此溶液含NO2-N 0.2 mg·L-1。 用此方法配制0.02, 0.04, 0.06, 0.08, 0.10, 0.12, 0.14, 0.16, 0.18和0.20 mg·L-1的亞硝酸鹽標(biāo)液[7]。
試驗(yàn)用儀器為Ocean Optics公司出品的OCEAN-HDX-XR微型光纖光譜儀,該光譜儀采用高清晰度光學(xué)系統(tǒng),具有高通量、 低雜散光和高熱穩(wěn)定性的特點(diǎn),適用于精確測(cè)量溶液中的分析物,具有體積小,容易集成到許多工業(yè)應(yīng)用的生產(chǎn)過(guò)程環(huán)境的優(yōu)勢(shì)。 儀器參數(shù)見表1。
表1 光譜儀參數(shù)Table 1 Spectrometer parameters
樣品為0.02, 0.04, 0.06, 0.08, 0.10, 0.12, 0.14, 0.16, 0.18和0.20 mg·L-1的亞硝酸鹽標(biāo)液,光譜儀狹縫為10 μm,相同時(shí)間間隔重復(fù)采集十次上述標(biāo)液181.1~1 030.1 nm范圍內(nèi)的高光譜透射率數(shù)據(jù),共計(jì)得到100條光譜數(shù)據(jù)。
采用白板校正分別得到所采集的高光譜數(shù)據(jù)的光譜透射率值[8],如式(1)所示
TC=TO/TW
(1)
式(1)中:TC為光譜透射率,TO為原始光譜數(shù)據(jù),TW為白板數(shù)據(jù)。
隨機(jī)森林(RF)算法[9]結(jié)構(gòu)清晰、 易于解釋、 運(yùn)行效率高,對(duì)于數(shù)據(jù)要求低,且具有很好的抗噪聲能力,能夠處理高維度數(shù)據(jù),訓(xùn)練速度快,泛化能力強(qiáng),比較容易實(shí)現(xiàn)并行計(jì)算,不易出現(xiàn)過(guò)擬合問(wèn)題。 隨機(jī)森林模型的建立通過(guò)調(diào)用R語(yǔ)言中“randomForest”程序包[10]來(lái)實(shí)現(xiàn)。 該方法首先完成兩個(gè)隨機(jī)采樣過(guò)程,即通過(guò)自助法重采樣技術(shù)有放回的在100組訓(xùn)練數(shù)據(jù)中重復(fù)隨機(jī)抽取67個(gè)訓(xùn)練樣本(總樣本容量的三分之二),未被抽取到的數(shù)據(jù)被稱為“袋外”(outofbag)數(shù)據(jù)。
隨機(jī)森林模型建立時(shí)有兩個(gè)重要參量[11],分別為隨機(jī)森林決策樹數(shù)目(mtry)與指定節(jié)點(diǎn)中用于二叉樹的變量個(gè)數(shù)(ntree),其中mtry一般取值為變量的二次方根,ntree的取值需要逐一嘗試,當(dāng)模型內(nèi)誤差穩(wěn)定時(shí),即為ntree數(shù)值。
模型評(píng)價(jià)方面,通過(guò)計(jì)算解釋方差百分比(%Var explained)與模型擬合精度(R2)來(lái)評(píng)定模型穩(wěn)定能力與預(yù)測(cè)能力。
圖1為10種濃度亞硝酸鹽原始透射光譜,從圖中可以看出不同濃度溶液的亞硝酸鹽光譜曲線的趨勢(shì)類似,在紫外波段180.1~400 nm亞硝酸鹽光譜曲線呈先下降后上升的趨
圖1 原始透射光譜圖Fig.1 Original transmission spectra
勢(shì),光譜曲線波谷分布于185~197 nm范圍內(nèi),且譜線均在在紫外短波段有強(qiáng)吸收,圖中在210 nm波長(zhǎng)周圍處有極大的吸收峰,濃度不同峰的高度也有所不同,主要表現(xiàn)為隨著亞硝酸鹽含量的增加,亞硝酸鹽在各波段的光譜透射率逐漸降低。
原始光譜共有2 049個(gè)變量,對(duì)所有光譜變量進(jìn)行隨機(jī)森林建模,其中參數(shù)ntree設(shè)定為500,mytry設(shè)定為40,隨機(jī)森林反演模型參數(shù)見表2,其中殘差平方均值為0.000 69,變量解釋率為76.49%。 擬合結(jié)果見圖2訓(xùn)練集(train),其中擬合精度(R2)為0.820 3,均方根誤差為0.03,說(shuō)明隨機(jī)森林模型對(duì)于水體亞硝酸鹽含量能夠做出很好的預(yù)測(cè)。
利用測(cè)試集test,對(duì)建立的隨機(jī)森林模型進(jìn)行模型檢驗(yàn),檢驗(yàn)結(jié)果見圖2,通過(guò)對(duì)預(yù)測(cè)值與真實(shí)值進(jìn)行線性擬合,進(jìn)行模型檢驗(yàn),R2=0.979 3,RMSE=0.01,說(shuō)明建立的隨機(jī)森林模型有著很強(qiáng)的預(yù)測(cè)能力。
表2 隨機(jī)森林模型參數(shù)Table 2 Spectrometer parameters
圖2 全波段隨機(jī)森林模型在測(cè)試集與訓(xùn)練集的預(yù)測(cè)結(jié)果Fig.2 The prediction results of the test set and training set using the full-band random forest model
原始光譜數(shù)據(jù)量繁雜,變量間存在多重共線性問(wèn)題,研究亞硝酸鹽光譜敏感波段,對(duì)于分析水體亞硝酸鹽光譜特征,降低光譜冗余,以及提升模型精度有著重要意義。 隨機(jī)森林算法中變量重要性算法,可以分析各個(gè)自變量對(duì)因變量的影響程度,以方差增量(IncMSE)指標(biāo)來(lái)定性表征[12]。 方差增量指將某一變量替換成隨機(jī)變量后對(duì)預(yù)測(cè)結(jié)果造成的影響,若用于替換的隨機(jī)變量顯著改變了方差,則認(rèn)為原變量重要性很高。 在建立全波段隨機(jī)森林模型過(guò)程中得出的隨機(jī)森林變量重要性結(jié)果如圖3所示; 25個(gè)光譜變量(IncMSE≥3)中195.1 nm變量重要性最高,IncMSE值為4.6,說(shuō)明195.1 nm波段對(duì)反演水體亞硝酸鹽含量有著重要作用。
按照變量重要性大小,將指標(biāo)由大到小依次輸入隨機(jī)森林模型,并采用交叉驗(yàn)證方法比較輸入不同變量時(shí)模型均方誤差的大小,結(jié)果如圖4所示,發(fā)現(xiàn)模型輸入變量為19個(gè)時(shí),模型均方誤差值最低(RMSE=0.02),且隨變量數(shù)增多,模型均方誤差趨于穩(wěn)定,故選用篩選出的19個(gè)光譜變量作為優(yōu)化隨機(jī)森林模型的初始變量。
圖3 隨機(jī)森林變量重要性(IncMSE)圖Fig.3 Random forest variable importance (IncMSE) graph
圖4 交叉驗(yàn)證Fig.4 Cross-validation
利用篩選出的19個(gè)光譜變量進(jìn)行隨機(jī)森林建模,其中參數(shù)ntree設(shè)定為500,因參與建模的光譜變量?jī)H有19個(gè),因此mytry設(shè)定為4,隨機(jī)森林反演模型參數(shù)見表3,其中殘差平方均值為0.000 55,變量解釋率為83.45%,擬合結(jié)果見圖5訓(xùn)練集(training set),其中擬合精度(R2)為0.873 4,均方根誤差(RMSE)為0.022,說(shuō)明優(yōu)化隨機(jī)森林模型對(duì)于水體亞硝酸鹽含量能夠做出很好的預(yù)測(cè)。
表3 優(yōu)化隨機(jī)森林模型參數(shù)Table 3 Optimize random forest model parameters
利用袋測(cè)試集test,對(duì)建立的隨機(jī)森林模型進(jìn)行模型檢驗(yàn),檢驗(yàn)結(jié)果見圖5,通過(guò)對(duì)預(yù)測(cè)值與真實(shí)值進(jìn)行線性擬合,進(jìn)行模型檢驗(yàn),R2=0.9798,RMSE=0.008,說(shuō)明建立的隨機(jī)森林模型有著很強(qiáng)的預(yù)測(cè)能力。
圖5 優(yōu)化隨機(jī)森林模型在測(cè)試集與訓(xùn)練集的預(yù)測(cè)結(jié)果Fig.5 The prediction results of the test set and training set of the random forest model
通過(guò)對(duì)比全波段隨機(jī)森林模型與優(yōu)化隨機(jī)森林模型參數(shù),挑選最為適合監(jiān)測(cè)水體亞硝酸鹽的光譜反演方法,模型參數(shù)結(jié)果見表4。
表4 模型參數(shù)對(duì)比Table 5 Model accuracy test
從表4可以看出,優(yōu)化隨機(jī)森林模型在各項(xiàng)指標(biāo)上均優(yōu)于全波段隨機(jī)森林模型,方差解釋率增加了7個(gè)百分點(diǎn),且優(yōu)化隨機(jī)森林模型建模變量要遠(yuǎn)低于全波段建模變量,大大提高了機(jī)器學(xué)習(xí)的運(yùn)算速率,降低了數(shù)據(jù)的冗余度,說(shuō)明提取特征波段對(duì)水體中亞硝酸鹽含量進(jìn)行預(yù)測(cè)可以大大減少干擾信息的影響,提高預(yù)測(cè)模型的性能,可適用于水體亞硝酸鹽含量的反演。
物質(zhì)的光譜強(qiáng)度與物質(zhì)的組成成分和性質(zhì)之間存在一定的聯(lián)系,從而可以建立光譜強(qiáng)度與樣品含量之間的關(guān)系模型。 基于透射光譜研究水體亞硝酸鹽含量的研究較少,多在紫外吸收光譜中研究,其中硝酸鹽氮(NO3-N)的紫外吸收峰在202.0 nm左右,而亞硝酸鹽氮(NO2-N)的紫外吸收峰在210 nm左右[7]。 在建立全波段隨機(jī)森林模型時(shí),利用隨機(jī)森林變量重要性得出191.5,968.1和221.2 nm等19個(gè)重要性較高變量,得出的波段與亞硝酸鹽氮(NO2-N)的紫外吸收峰210nm結(jié)果相近。
利用一種優(yōu)化后的隨機(jī)森林模型方法進(jìn)行水體亞硝酸鹽指標(biāo)的反演,通過(guò)隨機(jī)森林變量重要性法篩選的光譜指標(biāo),并利用交叉驗(yàn)證法進(jìn)一步縮小了變量個(gè)數(shù),建立了優(yōu)化隨機(jī)森林模型,優(yōu)化后隨機(jī)森林模型具有以下優(yōu)點(diǎn): (1)通過(guò)波長(zhǎng)或波長(zhǎng)區(qū)間選擇,可以有效減少參與建模的自變量數(shù)量,從而簡(jiǎn)化模型,降低建模預(yù)測(cè)時(shí)的計(jì)算量; (2)對(duì)待測(cè)組分具有光譜特征的波段處的信息進(jìn)行提取強(qiáng)化,同時(shí)弱化待測(cè)組分吸收不明顯或干擾物質(zhì)影響顯著的波段,以此提升模型的預(yù)測(cè)精度; (3)消除或減弱由于儀器和環(huán)境帶來(lái)的噪聲以及譜線中存在的冗余信息對(duì)回歸建模的影響。
優(yōu)化隨機(jī)森林模型不僅模型精度,穩(wěn)定性、 預(yù)測(cè)能力顯著高于全波段隨機(jī)森林模型,而且有效降低了光譜數(shù)據(jù)維度,綜合了有效波段的光譜特性。 結(jié)果表明本優(yōu)化方法,模型精度較高,可適用于反演水體亞硝酸鹽含量反演。
以上試驗(yàn)結(jié)果為水質(zhì)亞硝酸鹽指標(biāo)的快速估算提供了理論基礎(chǔ),為水體質(zhì)量評(píng)估提供更便利的方案。