張優(yōu)優(yōu),陳偉豪,唐志敏,辜 潔,莫麗娜,陳華舟,3*
(1.桂林理工大學(xué) 理學(xué)院,廣西 桂林 541004;2.重慶人文科技學(xué)院 機(jī)電與信息工程學(xué)院,重慶 401524;3.桂林理工大學(xué) 大數(shù)據(jù)處理與算法技術(shù)研究中心,廣西 桂林 541004)
魚(yú)粉是以一種或多種魚(yú)類(lèi)為原料加工而成的動(dòng)物飼料,包含許多動(dòng)物生長(zhǎng)所需營(yíng)養(yǎng)物質(zhì),蛋白質(zhì)含量(約占55%~70%)是評(píng)價(jià)其質(zhì)量的主要指標(biāo)[1]。但傳統(tǒng)方法測(cè)量魚(yú)粉中蛋白質(zhì)含量具有過(guò)程繁瑣、實(shí)驗(yàn)操作差異大,容易造成環(huán)境污染等問(wèn)題。近紅外(NIR)光譜通過(guò)分析待測(cè)樣品的光譜響應(yīng)數(shù)據(jù)來(lái)預(yù)測(cè)樣品中的有機(jī)物質(zhì)含量,具有快速、無(wú)污染和操作簡(jiǎn)單等優(yōu)點(diǎn)[2],已廣泛用于農(nóng)業(yè)、醫(yī)學(xué)、食品等領(lǐng)域[3-5]。NIR光譜定量分析時(shí)需建立分析模型,由于光譜數(shù)據(jù)中的波長(zhǎng)變量是連續(xù)的,且相鄰變量的相關(guān)性較強(qiáng),易導(dǎo)致光譜信息冗余[6],因此從測(cè)量波長(zhǎng)中篩選出具有代表性的特征波長(zhǎng),對(duì)NIR定量分析模型進(jìn)行波長(zhǎng)變量篩選具有重要意義。
區(qū)間偏最小二乘(iPLS)是近紅外光譜特征波段篩選的化學(xué)計(jì)量學(xué)方法[7-8],該法通過(guò)對(duì)實(shí)驗(yàn)波段進(jìn)行等間距劃分,在每個(gè)子區(qū)間上建立偏最小二乘(PLS)回歸模型,再根據(jù)模型預(yù)測(cè)精度選出最優(yōu)特征波段。iPLS操作簡(jiǎn)單、便于實(shí)現(xiàn),能夠快速地篩選出連續(xù)的特征波段,但由于不能選取離散波長(zhǎng)點(diǎn),在連續(xù)特征波段中仍存在信息冗余[9-11]。差分進(jìn)化(DE)算法是模仿自然界中生物的生存行為來(lái)構(gòu)造的優(yōu)化算法,具有收斂速度快、精準(zhǔn)度高等特點(diǎn)[12-13],種群中的個(gè)體通過(guò)變異、交叉和選擇產(chǎn)生新個(gè)體,再根據(jù)優(yōu)勝劣汰的原則優(yōu)選具有更好適應(yīng)能力的個(gè)體,使種群朝最優(yōu)方向進(jìn)化[14-15]。DE算法在信號(hào)處理、工程優(yōu)化等方面得到了較好的應(yīng)用[16-17],在解決連續(xù)實(shí)值變量問(wèn)題上展現(xiàn)出優(yōu)良的性能,然而在解決離散問(wèn)題時(shí)易出現(xiàn)早熟收斂。
基于此,本研究采用iPLS波段優(yōu)選模式結(jié)合二進(jìn)制變異策略的DE算法[18],提出區(qū)間偏最小二乘差分進(jìn)化(iPLS-DE)算法,以驗(yàn)證集樣品的均方根誤差最小為目標(biāo),在連續(xù)特征波段中進(jìn)一步篩選離散特征波長(zhǎng)組合,以尋找更具代表性的特征波長(zhǎng),并將該算法應(yīng)用于魚(yú)粉光譜數(shù)據(jù)的波長(zhǎng)篩選,通過(guò)與iPLS波段優(yōu)選對(duì)比,以期提高魚(yú)粉蛋白質(zhì)NIR定量分析模型的預(yù)測(cè)精度,驗(yàn)證iPLS-DE算法在NIR快速定量檢測(cè)中的應(yīng)用有效性。
收集來(lái)自不同廠家、不同批次的192份魚(yú)粉樣品,采用GB/T 6432-1994方法[19]測(cè)定各樣品中的蛋白質(zhì)含量作為參考化學(xué)值,其范圍為53.17%~67.03%,標(biāo)準(zhǔn)偏差和平均值分別為4.38%和60.65%。采用NIR Systems 5000光柵型光譜儀(FOSS公司)以PbS檢測(cè)器采集魚(yú)粉樣品在1 100~2 500 nm的近紅外光譜數(shù)據(jù),間隔為2 nm,共記錄700個(gè)波長(zhǎng)點(diǎn),實(shí)驗(yàn)在恒溫恒濕的條件下進(jìn)行,實(shí)驗(yàn)溫度為(25±1) ℃,相對(duì)濕度為49%±1%RH,每份樣品測(cè)量64次后輸出平均值。采用標(biāo)準(zhǔn)正態(tài)變換(SNV)對(duì)魚(yú)粉光譜數(shù)據(jù)進(jìn)行建模前降噪預(yù)處理,192份魚(yú)粉樣品的NIR原始光譜和SNV預(yù)處理后的光譜如圖1所示。
按2∶1∶1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,隨機(jī)抽取47個(gè)樣品為測(cè)試集,不參與建模訓(xùn)練;采用SPXY方法[20]將剩余樣品劃分為訓(xùn)練集(97個(gè))和驗(yàn)證集(48個(gè))。各樣品集的魚(yú)粉蛋白質(zhì)含量描述統(tǒng)計(jì)數(shù)據(jù)如表1所示。
表1 魚(yú)粉蛋白質(zhì)含量數(shù)據(jù)的描述性分析Table 1 Descriptive analysis of fishmeal protein content data
近紅外分析模型的評(píng)價(jià)分別包括驗(yàn)證集與測(cè)試集樣品對(duì)模型的評(píng)價(jià),本文選用均方根誤差(RMSE)和相對(duì)分析誤差(RPD)進(jìn)行評(píng)價(jià),計(jì)算公式如下:
iPLS是將全光譜檢測(cè)區(qū)域分割為n個(gè)等長(zhǎng)度子區(qū)間(n是一個(gè)可調(diào)試參數(shù))。對(duì)不能等分的情況,當(dāng)剩余波長(zhǎng)數(shù)超過(guò)子區(qū)間長(zhǎng)度的一半時(shí),則將其作為單獨(dú)子區(qū)間,否則將剩余波長(zhǎng)并入最后一個(gè)子區(qū)間。針對(duì)每個(gè)固定的n,基于訓(xùn)練集樣品分別對(duì)每一個(gè)子區(qū)間構(gòu)建PLS模型,將模型用于對(duì)驗(yàn)證集樣品的預(yù)測(cè),以驗(yàn)證集的RMSEV最小為原則選擇最優(yōu)光譜子區(qū)間內(nèi)的波段作為iPLS優(yōu)選的最優(yōu)特征波段。本文通過(guò)調(diào)試子區(qū)間數(shù)量n得到不同的最優(yōu)特征波段,選擇RMSEV最小的最優(yōu)特征波段所建立的模型為iPLS優(yōu)選模型。
iPLS-DE是將iPLS和DE相結(jié)合的基于iPLS差分進(jìn)化的特征波長(zhǎng)提取方法。首先對(duì)全光譜檢測(cè)區(qū)域通過(guò)iPLS提取最優(yōu)特征波段,然后在提取出的最優(yōu)特征波段內(nèi)采用二進(jìn)制變異策略的DE算法,以驗(yàn)證集的RMSEV最小為目標(biāo)篩選離散的特征波長(zhǎng)組合。iPLS-DE算法的主要參數(shù)包括種群規(guī)模(N)、迭代次數(shù)(G)和交叉概率(CR)。具體步驟如下:
Step 1編碼。對(duì)最優(yōu)特征波段中的每個(gè)波長(zhǎng)進(jìn)行0~1二進(jìn)制編碼,編碼0表示該波長(zhǎng)未被選中,編碼1表示被選中;設(shè)置0~1編碼的長(zhǎng)度等于最優(yōu)特征波段內(nèi)的波長(zhǎng)數(shù)量;
Step 2初始種群。隨機(jī)生成N個(gè)長(zhǎng)度為D的0~1編碼,用來(lái)確定待優(yōu)化最優(yōu)特征波段內(nèi)的波長(zhǎng)被選中的狀態(tài),形成N個(gè)初始種群個(gè)體;
Step 3適應(yīng)度函數(shù)?;谟?xùn)練集樣品,針對(duì)每個(gè)個(gè)體(i=1,2,…,N)所選擇的特征波長(zhǎng)組合建立PLS定標(biāo)模型,對(duì)驗(yàn)證集樣品進(jìn)行預(yù)測(cè),再以RMSEV作為個(gè)體i的適應(yīng)度函數(shù)值fit(i);
Step 4變異。父代個(gè)體xr0,g采用二進(jìn)制變異策略[18]進(jìn)行變異操作產(chǎn)生變異個(gè)體vi,g+1:
vij,g+1=xr0j,g+(-1)xr0j,g|xr1j,g-xr2j,g|
Step 5 交叉。采用DE傳統(tǒng)的單點(diǎn)交叉方式[21],變異個(gè)體vi,g+1和父代個(gè)體xi,g經(jīng)交叉算子作用產(chǎn)生新個(gè)體ui,g+1,具體如下:
式中,rand為[0,1]之間的隨機(jī)數(shù),uij,g+1為個(gè)體ui,g+1的第j個(gè)分量,CR為交叉概率,jrand為[1,D]中隨機(jī)數(shù)。由此定義的新個(gè)體ui,g+1同時(shí)包含有父代個(gè)體xi,g和變異個(gè)體vi,g+1的信息;
Step 6 選擇。采用貪婪策略對(duì)新個(gè)體ui,g+1和父代個(gè)體xi,g進(jìn)行選擇操作,即適應(yīng)度值小的個(gè)體xi,g+1作為子代個(gè)體進(jìn)入下一代的進(jìn)化,具體如下:
圖2 iPLS不同子區(qū)間數(shù)量對(duì)應(yīng)的RMSEVFig.2 RMSEV corresponding to different numbers of intervals by iPLS
采用iPLS算法對(duì)全譜篩選最優(yōu)特征波段,其中子區(qū)間數(shù)量n為可調(diào)試參數(shù)。為考察不同子區(qū)間數(shù)量n對(duì)iPLS優(yōu)選最優(yōu)特征波段和模型性能的影響,設(shè)置n從1依次連續(xù)增加至30,對(duì)每一個(gè)n所劃分的各個(gè)子區(qū)間建立PLS模型,將模型用于對(duì)驗(yàn)證集樣品的蛋白質(zhì)含量預(yù)測(cè),根據(jù)RMSEV最小原則可得到iPLS在每個(gè)n取值下所對(duì)應(yīng)的最優(yōu)特征波段,基于每個(gè)最優(yōu)特征波段所建立的定標(biāo)模型對(duì)驗(yàn)證集樣品的RMSEV如圖2所示。由圖2可以看出,當(dāng)n=5時(shí)最優(yōu)特征波段所建立的定標(biāo)模型的RMSEV達(dá)到最小(0.651%),表示iPLS模型訓(xùn)練效果達(dá)到最優(yōu),因此將700個(gè)波長(zhǎng)點(diǎn)等分為5個(gè)子區(qū)間,其波段范圍分別是1 100~1 378、1 380~1 658、1 660~1 938、1 940~2 218、2 220~2 498 nm,在每個(gè)子區(qū)間上構(gòu)建PLS定標(biāo)模型,再將模型用于對(duì)驗(yàn)證集樣品預(yù)測(cè),獲得定標(biāo)模型的RMSEV分別為0.651%、0.913%、1.606%、1.121%和0.922%,以最小RMSEV為原則選擇出第一個(gè)子區(qū)間為最優(yōu)子區(qū)間,其波段1 100~1 378 nm為iPLS在n=5時(shí)優(yōu)選的最優(yōu)特征波段,包含140個(gè)連續(xù)波長(zhǎng)點(diǎn)。
同時(shí),當(dāng)n=2、3、4、5、6、7、8、10時(shí),iPLS最優(yōu)特征波段內(nèi)所建立的定標(biāo)模型的RMSEV小于全譜PLS模型(n=1時(shí)的iPLS模型)的RMSEV,將其經(jīng)iPLS優(yōu)選的最優(yōu)特征波段分別標(biāo)記為iPLS(1)、iPLS(2)、iPLS(3)、iPLS(4)、iPLS(5)、iPLS(6)、iPLS(7)、iPLS(8)和iPLS(9),9個(gè)最優(yōu)特征波段的選擇如圖3所示。由圖3可知,9個(gè)最優(yōu)特征波段均出現(xiàn)在等分子區(qū)間的第一個(gè)子區(qū)間,即在第一個(gè)子區(qū)間中包含與魚(yú)粉蛋白質(zhì)相關(guān)的光譜信息,對(duì)9個(gè)最優(yōu)特征波段做進(jìn)一步的波長(zhǎng)篩選,可消除無(wú)關(guān)信息波長(zhǎng)對(duì)NIR定量分析模型的影響。
iPLS-DE特征提取是基于iPLS優(yōu)選的9個(gè)最優(yōu)特征波段分別采用二進(jìn)制變異策略的DE算法進(jìn)行特征波長(zhǎng)組合篩選,算法參數(shù)N、G、CR分別設(shè)置為100、500、0.5,迭代的初始適應(yīng)度函數(shù)值為iPLS模型的RMSEV值,經(jīng)500次優(yōu)化迭代后所得結(jié)果如圖4所示。由圖4可見(jiàn),算法迭代的初期收斂速度較快,后期逐漸趨于平穩(wěn),針對(duì)最優(yōu)特征波段iPLS(5)內(nèi)的光譜數(shù)據(jù)建立的iPLS-DE模型獲得最好的迭代優(yōu)化預(yù)測(cè)效果,此時(shí)驗(yàn)證集樣品的RMSEV值更新為0.511%。
基于9個(gè)iPLS優(yōu)選的最優(yōu)特征波段,iPLS-DE特征提取方法所建立的魚(yú)粉蛋白質(zhì)NIR光譜定量分析模型對(duì)驗(yàn)證集樣品的預(yù)測(cè)結(jié)果如表2所示。結(jié)果顯示,在9個(gè)最優(yōu)特征波段內(nèi),iPLS-DE模型的預(yù)測(cè)效果均優(yōu)于iPLS模型,且iPLS-DE的建模波長(zhǎng)數(shù)量遠(yuǎn)小于iPLS最優(yōu)特征波段長(zhǎng)度。圖5為最優(yōu)特征波段iPLS(5)上DE迭代篩選出的50個(gè)特征波長(zhǎng)所建立的iPLS-DE優(yōu)選模型,其RMSEV和RPDV分別為0.511%和8.302,而iPLS的RMSEV和RPDV分別為0.651%和6.593。
圖4 iPLS-DE迭代優(yōu)化效果Fig.4 Iteration results of iPLS-DE optimization
表2 iPLS-DE特征波長(zhǎng)和iPLS特征波段的建模結(jié)果對(duì)比Table 2 Comparison of the modeling results between the iPLS-DE feature wavelengths and the iPLS feature wavebands
(續(xù)表2)
圖5 iPLS-DE模型所篩選的50個(gè)特征波長(zhǎng)Fig.5 The 50 feature wavelengths selected by iPLS-DE
利用iPLS-DE近紅外光譜優(yōu)選模型對(duì)測(cè)試集樣品中魚(yú)粉蛋白質(zhì)含量定量進(jìn)行預(yù)測(cè)。結(jié)果顯示,測(cè)試集樣品的RMSET和RPDT分別為1.033%和4.058,而iPLS優(yōu)選模型的RMSET和RPDT分別為1.131%和3.855。由此可見(jiàn),iPLS-DE特征提取方法可有效地在全譜范圍內(nèi)篩選出與魚(yú)粉蛋白質(zhì)含量相關(guān)的特征波長(zhǎng)信息,降低分析模型的計(jì)算復(fù)雜度,同時(shí)提高了預(yù)測(cè)精度。
本文研究了iPLS-DE特征波長(zhǎng)篩選方法在魚(yú)粉蛋白質(zhì)NIR光譜定量檢測(cè)中的應(yīng)用,發(fā)現(xiàn)iPLS-DE可在全譜范圍內(nèi)篩選出50個(gè)離散特征波長(zhǎng)建立優(yōu)選模型,對(duì)測(cè)試集樣品的RMSET和RPDT分別為1.033%和4.058。與iPLS優(yōu)選模型相比,iPLS-DE可更有效地篩選出與魚(yú)粉蛋白含量相對(duì)應(yīng)的波長(zhǎng)信息,在簡(jiǎn)化模型的同時(shí)提高了模型的預(yù)測(cè)精度,克服了iPLS不能篩選離散波長(zhǎng)的不足,可嘗試推廣應(yīng)用到其他農(nóng)業(yè)的NIR光譜分析。