徐小紅 李新鋒
摘要:為提高在線近紅外模型預(yù)測精度,本文分別采用全波長、連續(xù)投影方法、無信息變量消除方法、競爭性自適應(yīng)權(quán)重取樣法、間隔偏最小二乘方法選取有效波長,然后建立模型,對比5種方法的模型外部驗(yàn)證誤差,結(jié)果顯示在5種波長篩選方法中,采用競爭性自適應(yīng)權(quán)重取樣法外部驗(yàn)證絕對誤差和平均相對偏差最小,表明采用競爭性自適應(yīng)權(quán)重取樣法可有效提高模型預(yù)測精度。
關(guān)鍵詞:波長篩選;在線近紅外;模型外部驗(yàn)證
中圖分類號:TQ223文獻(xiàn)標(biāo)識碼:A文章編號:1672-9129(2020)13-0081-01目前,打葉復(fù)烤主要采用在線近紅外技術(shù)控制成品內(nèi)在質(zhì)量穩(wěn)定性。在在線近紅外檢測過程中由于光譜儀器噪聲影響,在某些波段下樣本光譜信噪比比較低,導(dǎo)致光譜質(zhì)量較差,且在某些波段下,樣本光譜信息與被測組成性質(zhì)間不存在多重相關(guān)性,若選用線性建模方法,會降低模型預(yù)測能力;另外,由于近紅外光譜波長之間存在多重相關(guān)性,導(dǎo)致光譜信息中存在冗余信息,計(jì)算復(fù)雜,這些問題將影響模型的預(yù)測精度和穩(wěn)定性;因此,需要在建模過程中對波長進(jìn)行選擇,通過波長選擇[1-5]進(jìn)一步簡化模型,提高模型預(yù)測精度和穩(wěn)健性。
1材料與方法
材料:2018年度不同產(chǎn)地、不同等級煙葉,其中建模集420個樣本,獨(dú)立驗(yàn)證集30個樣本。
儀器:Carl Zeiss ARMOR 711在線近紅外光譜儀,San++流動化學(xué)分析儀,F(xiàn)REAS-625烘箱,F(xiàn)T91研磨機(jī)。
方法(原理):
(1)SPA算法。以在線近紅外全波長256個波長點(diǎn)為例,連續(xù)投影方法主要算法原理是256個波長點(diǎn)中的第一個波長點(diǎn)開始,每次循環(huán)都計(jì)算它在剩余255條波長點(diǎn)下的投影,將投影向量最大的波長點(diǎn)引入到波長組合中。每一個新選入的波長,都與前一個線性關(guān)系最小。
(2)UVE算法。無信息變量消除方法選取波長的原理主要是將PLS回歸系數(shù)作為選取波長點(diǎn)的一個重要因素。具體算法主要是隨機(jī)生成一組噪聲矩陣,然后將該矩陣加入到420個樣本的建模光譜矩陣中,每次剔除一個樣品交互驗(yàn)證,建立模型,得到偏最小二乘回歸系數(shù),然后計(jì)算回歸系數(shù)矩陣的標(biāo)準(zhǔn)偏差和平均值,通過平均值和標(biāo)準(zhǔn)偏差的比值得到有效的波長點(diǎn)信息。
(3)CARS算法。競爭性自適應(yīng)權(quán)重取樣法也是將回歸系數(shù)作為波長點(diǎn)選擇依據(jù)的一種方法。該方法主要是模仿“適者生存”的原則來選取有效的波長點(diǎn)信息。主要步驟如下:①對于抽取的420個樣本的光譜距陣(n*m)和化學(xué)成分煙堿距陣Y(n*1),采用蒙特卡羅采樣100次,每次從樣品集中隨機(jī)抽取五分之四的樣品作為校正集,分別建立PLS回歸模型。② 對波長保留率的控制方法主要是應(yīng)用指數(shù)衰減函數(shù)。③ 選出在線近紅外256個波長點(diǎn)中回歸系數(shù)絕對值大的波長點(diǎn),將波長點(diǎn)中回歸系數(shù)較小的去掉,選出模型交互驗(yàn)證均方根誤差值最低的子集,得到最優(yōu)波長組合。
(4)IPLS算法。間隔偏最小二乘方法是一種波長區(qū)間選擇方法,其原理是將256條波長點(diǎn)等分成幾個相等的區(qū)間,然后再各個區(qū)間上進(jìn)行偏最小二乘回歸,找出均方根交叉驗(yàn)證標(biāo)準(zhǔn)差最小值所對應(yīng)的區(qū)間,然后再以該區(qū)間為中心,增加或者減少波長變量,最終選出最佳的波長區(qū)間。
2結(jié)果與分析
2.1 模型內(nèi)部驗(yàn)證情況。采用420個樣品作為校正集,其中預(yù)處理方法采用散射校正結(jié)合一階導(dǎo)數(shù)方法,波長選擇方法為全波長、連續(xù)投影方法、無信息變量消除方法、競爭性自適應(yīng)權(quán)重取樣法、間隔偏最小二乘方法,主因子數(shù)為12,采用偏最小二乘法建立模型,結(jié)果顯示:采用全波長相關(guān)系數(shù)0.8613,預(yù)測相對誤差為10.83;采用SPA相關(guān)系數(shù)0.8793,預(yù)測相對誤差8.68%;采用UVE相關(guān)系數(shù)0.8637,預(yù)測相對誤差9.87%;采用CARS相關(guān)系數(shù)0.9027,預(yù)測相對誤差7.28%;采用IPLS相關(guān)系數(shù)0.8936,預(yù)測相對誤差8.99%。從模型內(nèi)部指標(biāo)可以看出,不同波長選擇方法相關(guān)系數(shù)在0.86以上,其中CARS建立的模型中相關(guān)系數(shù)、SEC、預(yù)測絕對誤差及預(yù)測相對誤差均達(dá)到最優(yōu)狀態(tài),因此,在建立在線近紅外煙堿模型中,建議波長點(diǎn)選擇方法為CARS方法。
2.2 模型外部驗(yàn)證情況。選取不同產(chǎn)地,不同等級的30個樣本作為驗(yàn)證集,用于模型外部驗(yàn)證,結(jié)果顯示全波長、SPA、UVE、CARS、IPLS預(yù)測相對誤差分別為11.31%、9.81%、10.33%、8.18%、9.78%,不同波長選擇方法預(yù)測誤差均在可接受范圍內(nèi),但CARS波長選擇方法外部驗(yàn)證效果最好。
3結(jié)論
一些波段對外部環(huán)境因素、儀器噪聲、儀器內(nèi)部漂移等因素變化敏感,一旦這些因素發(fā)生變化,容易影響預(yù)測結(jié)果,導(dǎo)致樣本成為異常點(diǎn),因此在在線近紅外建模過程中,建議采用波長選擇方法來提高建模精度。各波長選擇方法在一定程度上都可以提高模型的預(yù)測能力,但對于煙堿而言,采用CARS算法能達(dá)到最優(yōu)預(yù)測結(jié)果。
參考文獻(xiàn):
[1]熊智新,馬璞璠,梁龍,等.近紅外光譜結(jié)合連續(xù)投影算法檢測綜纖維素含量[J].中國造紙學(xué)報(bào),2019,34(4):46-51.
[2]程介虹,陳爭光,張慶華.不同波長選擇方法在土壤有機(jī)質(zhì)含量檢測中對比研究[J].中國農(nóng)業(yè)科技導(dǎo)報(bào),2020,22(1):162-170.
[3]王鵬,趙潤,孟祥輝,等.近紅外漫反射光譜結(jié)合CARS-PLS規(guī)模化奶牛場糞便總氮定量分析模型的建立[J].天津農(nóng)學(xué)院學(xué)報(bào),2020,27(1):82-86.
[4]周竹,李小昱,高海龍,等.馬鈴薯干物質(zhì)含量高光譜檢測中變量選擇方法比較[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(2):128-133,185.
[5]李子文.蘋果醋釀造過程中關(guān)鍵參數(shù)的近紅外快速檢測方法研究[D].寧夏:寧夏大學(xué),2016.