區(qū)間偏最小二乘結(jié)合差分進(jìn)化算法應(yīng)用于魚(yú)粉近紅外光譜波長(zhǎng)篩選

2020-11-09 04:04張優(yōu)優(yōu)陳偉豪唐志敏莫麗娜陳華舟

分析測(cè)試學(xué)報(bào) 2020年11期

張優(yōu)優(yōu)，陳偉豪，唐志敏，辜潔，莫麗娜，陳華舟,3*

(1.桂林理工大學(xué) 理學(xué)院，廣西桂林 541004；2.重慶人文科技學(xué)院機(jī)電與信息工程學(xué)院，重慶 401524；3.桂林理工大學(xué) 大數(shù)據(jù)處理與算法技術(shù)研究中心，廣西桂林 541004)

魚(yú)粉是以一種或多種魚(yú)類(lèi)為原料加工而成的動(dòng)物飼料，包含許多動(dòng)物生長(zhǎng)所需營(yíng)養(yǎng)物質(zhì)，蛋白質(zhì)含量(約占55%～70%)是評(píng)價(jià)其質(zhì)量的主要指標(biāo)[1]。但傳統(tǒng)方法測(cè)量魚(yú)粉中蛋白質(zhì)含量具有過(guò)程繁瑣、實(shí)驗(yàn)操作差異大，容易造成環(huán)境污染等問(wèn)題。近紅外(NIR)光譜通過(guò)分析待測(cè)樣品的光譜響應(yīng)數(shù)據(jù)來(lái)預(yù)測(cè)樣品中的有機(jī)物質(zhì)含量，具有快速、無(wú)污染和操作簡(jiǎn)單等優(yōu)點(diǎn)[2]，已廣泛用于農(nóng)業(yè)、醫(yī)學(xué)、食品等領(lǐng)域[3-5]。NIR光譜定量分析時(shí)需建立分析模型，由于光譜數(shù)據(jù)中的波長(zhǎng)變量是連續(xù)的，且相鄰變量的相關(guān)性較強(qiáng)，易導(dǎo)致光譜信息冗余[6]，因此從測(cè)量波長(zhǎng)中篩選出具有代表性的特征波長(zhǎng)，對(duì)NIR定量分析模型進(jìn)行波長(zhǎng)變量篩選具有重要意義。

區(qū)間偏最小二乘(iPLS)是近紅外光譜特征波段篩選的化學(xué)計(jì)量學(xué)方法[7-8]，該法通過(guò)對(duì)實(shí)驗(yàn)波段進(jìn)行等間距劃分，在每個(gè)子區(qū)間上建立偏最小二乘(PLS)回歸模型，再根據(jù)模型預(yù)測(cè)精度選出最優(yōu)特征波段。iPLS操作簡(jiǎn)單、便于實(shí)現(xiàn)，能夠快速地篩選出連續(xù)的特征波段，但由于不能選取離散波長(zhǎng)點(diǎn)，在連續(xù)特征波段中仍存在信息冗余[9-11]。差分進(jìn)化(DE)算法是模仿自然界中生物的生存行為來(lái)構(gòu)造的優(yōu)化算法，具有收斂速度快、精準(zhǔn)度高等特點(diǎn)[12-13]，種群中的個(gè)體通過(guò)變異、交叉和選擇產(chǎn)生新個(gè)體，再根據(jù)優(yōu)勝劣汰的原則優(yōu)選具有更好適應(yīng)能力的個(gè)體，使種群朝最優(yōu)方向進(jìn)化[14-15]。DE算法在信號(hào)處理、工程優(yōu)化等方面得到了較好的應(yīng)用[16-17]，在解決連續(xù)實(shí)值變量問(wèn)題上展現(xiàn)出優(yōu)良的性能，然而在解決離散問(wèn)題時(shí)易出現(xiàn)早熟收斂。

基于此，本研究采用iPLS波段優(yōu)選模式結(jié)合二進(jìn)制變異策略的DE算法[18]，提出區(qū)間偏最小二乘差分進(jìn)化(iPLS-DE)算法，以驗(yàn)證集樣品的均方根誤差最小為目標(biāo)，在連續(xù)特征波段中進(jìn)一步篩選離散特征波長(zhǎng)組合，以尋找更具代表性的特征波長(zhǎng)，并將該算法應(yīng)用于魚(yú)粉光譜數(shù)據(jù)的波長(zhǎng)篩選，通過(guò)與iPLS波段優(yōu)選對(duì)比，以期提高魚(yú)粉蛋白質(zhì)NIR定量分析模型的預(yù)測(cè)精度，驗(yàn)證iPLS-DE算法在NIR快速定量檢測(cè)中的應(yīng)用有效性。

1 實(shí)驗(yàn)部分

1.1 實(shí)驗(yàn)數(shù)據(jù)

收集來(lái)自不同廠家、不同批次的192份魚(yú)粉樣品，采用GB/T 6432-1994方法[19]測(cè)定各樣品中的蛋白質(zhì)含量作為參考化學(xué)值，其范圍為53.17%～67.03%，標(biāo)準(zhǔn)偏差和平均值分別為4.38%和60.65%。采用NIR Systems 5000光柵型光譜儀(FOSS公司)以PbS檢測(cè)器采集魚(yú)粉樣品在1 100～2 500 nm的近紅外光譜數(shù)據(jù)，間隔為2 nm，共記錄700個(gè)波長(zhǎng)點(diǎn)，實(shí)驗(yàn)在恒溫恒濕的條件下進(jìn)行，實(shí)驗(yàn)溫度為(25±1) ℃，相對(duì)濕度為49%±1%RH，每份樣品測(cè)量64次后輸出平均值。采用標(biāo)準(zhǔn)正態(tài)變換(SNV)對(duì)魚(yú)粉光譜數(shù)據(jù)進(jìn)行建模前降噪預(yù)處理，192份魚(yú)粉樣品的NIR原始光譜和SNV預(yù)處理后的光譜如圖1所示。

1.2 樣品集劃分與模型評(píng)價(jià)指標(biāo)

按2∶1∶1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集，隨機(jī)抽取47個(gè)樣品為測(cè)試集，不參與建模訓(xùn)練；采用SPXY方法[20]將剩余樣品劃分為訓(xùn)練集(97個(gè))和驗(yàn)證集(48個(gè))。各樣品集的魚(yú)粉蛋白質(zhì)含量描述統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 魚(yú)粉蛋白質(zhì)含量數(shù)據(jù)的描述性分析Table 1 Descriptive analysis of fishmeal protein content data

近紅外分析模型的評(píng)價(jià)分別包括驗(yàn)證集與測(cè)試集樣品對(duì)模型的評(píng)價(jià)，本文選用均方根誤差(RMSE)和相對(duì)分析誤差(RPD)進(jìn)行評(píng)價(jià)，計(jì)算公式如下：

1.3 區(qū)間偏最小二乘法

iPLS是將全光譜檢測(cè)區(qū)域分割為n個(gè)等長(zhǎng)度子區(qū)間(n是一個(gè)可調(diào)試參數(shù))。對(duì)不能等分的情況，當(dāng)剩余波長(zhǎng)數(shù)超過(guò)子區(qū)間長(zhǎng)度的一半時(shí)，則將其作為單獨(dú)子區(qū)間，否則將剩余波長(zhǎng)并入最后一個(gè)子區(qū)間。針對(duì)每個(gè)固定的n，基于訓(xùn)練集樣品分別對(duì)每一個(gè)子區(qū)間構(gòu)建PLS模型，將模型用于對(duì)驗(yàn)證集樣品的預(yù)測(cè)，以驗(yàn)證集的RMSEV最小為原則選擇最優(yōu)光譜子區(qū)間內(nèi)的波段作為iPLS優(yōu)選的最優(yōu)特征波段。本文通過(guò)調(diào)試子區(qū)間數(shù)量n得到不同的最優(yōu)特征波段，選擇RMSEV最小的最優(yōu)特征波段所建立的模型為iPLS優(yōu)選模型。

1.4 iPLS-DE波長(zhǎng)優(yōu)選算法

iPLS-DE是將iPLS和DE相結(jié)合的基于iPLS差分進(jìn)化的特征波長(zhǎng)提取方法。首先對(duì)全光譜檢測(cè)區(qū)域通過(guò)iPLS提取最優(yōu)特征波段，然后在提取出的最優(yōu)特征波段內(nèi)采用二進(jìn)制變異策略的DE算法，以驗(yàn)證集的RMSEV最小為目標(biāo)篩選離散的特征波長(zhǎng)組合。iPLS-DE算法的主要參數(shù)包括種群規(guī)模(N)、迭代次數(shù)(G)和交叉概率(CR)。具體步驟如下：

Step 1編碼。對(duì)最優(yōu)特征波段中的每個(gè)波長(zhǎng)進(jìn)行0～1二進(jìn)制編碼，編碼0表示該波長(zhǎng)未被選中，編碼1表示被選中；設(shè)置0～1編碼的長(zhǎng)度等于最優(yōu)特征波段內(nèi)的波長(zhǎng)數(shù)量；

Step 2初始種群。隨機(jī)生成N個(gè)長(zhǎng)度為D的0～1編碼，用來(lái)確定待優(yōu)化最優(yōu)特征波段內(nèi)的波長(zhǎng)被選中的狀態(tài)，形成N個(gè)初始種群個(gè)體；

Step 3適應(yīng)度函數(shù)?；谟?xùn)練集樣品，針對(duì)每個(gè)個(gè)體(i=1,2,…,N)所選擇的特征波長(zhǎng)組合建立PLS定標(biāo)模型，對(duì)驗(yàn)證集樣品進(jìn)行預(yù)測(cè)，再以RMSEV作為個(gè)體i的適應(yīng)度函數(shù)值fit(i)；

Step 4變異。父代個(gè)體xr0,g采用二進(jìn)制變異策略[18]進(jìn)行變異操作產(chǎn)生變異個(gè)體vi,g+1：

vij,g+1=xr0j,g+(-1)xr0j,g|xr1j,g-xr2j,g|

Step 5 交叉。采用DE傳統(tǒng)的單點(diǎn)交叉方式[21]，變異個(gè)體vi,g+1和父代個(gè)體xi,g經(jīng)交叉算子作用產(chǎn)生新個(gè)體ui,g+1，具體如下：

式中，rand為[0,1]之間的隨機(jī)數(shù)，uij,g+1為個(gè)體ui,g+1的第j個(gè)分量，CR為交叉概率，jrand為[1,D]中隨機(jī)數(shù)。由此定義的新個(gè)體ui,g+1同時(shí)包含有父代個(gè)體xi,g和變異個(gè)體vi,g+1的信息；

Step 6 選擇。采用貪婪策略對(duì)新個(gè)體ui,g+1和父代個(gè)體xi,g進(jìn)行選擇操作，即適應(yīng)度值小的個(gè)體xi,g+1作為子代個(gè)體進(jìn)入下一代的進(jìn)化，具體如下：

圖2 iPLS不同子區(qū)間數(shù)量對(duì)應(yīng)的RMSEVFig.2 RMSEV corresponding to different numbers of intervals by iPLS

2 結(jié)果與討論

采用iPLS算法對(duì)全譜篩選最優(yōu)特征波段，其中子區(qū)間數(shù)量n為可調(diào)試參數(shù)。為考察不同子區(qū)間數(shù)量n對(duì)iPLS優(yōu)選最優(yōu)特征波段和模型性能的影響，設(shè)置n從1依次連續(xù)增加至30，對(duì)每一個(gè)n所劃分的各個(gè)子區(qū)間建立PLS模型，將模型用于對(duì)驗(yàn)證集樣品的蛋白質(zhì)含量預(yù)測(cè)，根據(jù)RMSEV最小原則可得到iPLS在每個(gè)n取值下所對(duì)應(yīng)的最優(yōu)特征波段，基于每個(gè)最優(yōu)特征波段所建立的定標(biāo)模型對(duì)驗(yàn)證集樣品的RMSEV如圖2所示。由圖2可以看出，當(dāng)n=5時(shí)最優(yōu)特征波段所建立的定標(biāo)模型的RMSEV達(dá)到最小(0.651%)，表示iPLS模型訓(xùn)練效果達(dá)到最優(yōu)，因此將700個(gè)波長(zhǎng)點(diǎn)等分為5個(gè)子區(qū)間，其波段范圍分別是1 100～1 378、1 380～1 658、1 660～1 938、1 940～2 218、2 220～2 498 nm，在每個(gè)子區(qū)間上構(gòu)建PLS定標(biāo)模型，再將模型用于對(duì)驗(yàn)證集樣品預(yù)測(cè)，獲得定標(biāo)模型的RMSEV分別為0.651%、0.913%、1.606%、1.121%和0.922%，以最小RMSEV為原則選擇出第一個(gè)子區(qū)間為最優(yōu)子區(qū)間，其波段1 100～1 378 nm為iPLS在n=5時(shí)優(yōu)選的最優(yōu)特征波段，包含140個(gè)連續(xù)波長(zhǎng)點(diǎn)。

同時(shí)，當(dāng)n=2、3、4、5、6、7、8、10時(shí)，iPLS最優(yōu)特征波段內(nèi)所建立的定標(biāo)模型的RMSEV小于全譜PLS模型(n=1時(shí)的iPLS模型)的RMSEV，將其經(jīng)iPLS優(yōu)選的最優(yōu)特征波段分別標(biāo)記為iPLS(1)、iPLS(2)、iPLS(3)、iPLS(4)、iPLS(5)、iPLS(6)、iPLS(7)、iPLS(8)和iPLS(9)，9個(gè)最優(yōu)特征波段的選擇如圖3所示。由圖3可知，9個(gè)最優(yōu)特征波段均出現(xiàn)在等分子區(qū)間的第一個(gè)子區(qū)間，即在第一個(gè)子區(qū)間中包含與魚(yú)粉蛋白質(zhì)相關(guān)的光譜信息，對(duì)9個(gè)最優(yōu)特征波段做進(jìn)一步的波長(zhǎng)篩選，可消除無(wú)關(guān)信息波長(zhǎng)對(duì)NIR定量分析模型的影響。

iPLS-DE特征提取是基于iPLS優(yōu)選的9個(gè)最優(yōu)特征波段分別采用二進(jìn)制變異策略的DE算法進(jìn)行特征波長(zhǎng)組合篩選，算法參數(shù)N、G、CR分別設(shè)置為100、500、0.5，迭代的初始適應(yīng)度函數(shù)值為iPLS模型的RMSEV值，經(jīng)500次優(yōu)化迭代后所得結(jié)果如圖4所示。由圖4可見(jiàn)，算法迭代的初期收斂速度較快，后期逐漸趨于平穩(wěn)，針對(duì)最優(yōu)特征波段iPLS(5)內(nèi)的光譜數(shù)據(jù)建立的iPLS-DE模型獲得最好的迭代優(yōu)化預(yù)測(cè)效果，此時(shí)驗(yàn)證集樣品的RMSEV值更新為0.511%。

基于9個(gè)iPLS優(yōu)選的最優(yōu)特征波段，iPLS-DE特征提取方法所建立的魚(yú)粉蛋白質(zhì)NIR光譜定量分析模型對(duì)驗(yàn)證集樣品的預(yù)測(cè)結(jié)果如表2所示。結(jié)果顯示，在9個(gè)最優(yōu)特征波段內(nèi)，iPLS-DE模型的預(yù)測(cè)效果均優(yōu)于iPLS模型，且iPLS-DE的建模波長(zhǎng)數(shù)量遠(yuǎn)小于iPLS最優(yōu)特征波段長(zhǎng)度。圖5為最優(yōu)特征波段iPLS(5)上DE迭代篩選出的50個(gè)特征波長(zhǎng)所建立的iPLS-DE優(yōu)選模型，其RMSEV和RPDV分別為0.511%和8.302，而iPLS的RMSEV和RPDV分別為0.651%和6.593。

圖4 iPLS-DE迭代優(yōu)化效果Fig.4 Iteration results of iPLS-DE optimization

表2 iPLS-DE特征波長(zhǎng)和iPLS特征波段的建模結(jié)果對(duì)比Table 2 Comparison of the modeling results between the iPLS-DE feature wavelengths and the iPLS feature wavebands

(續(xù)表2)

圖5 iPLS-DE模型所篩選的50個(gè)特征波長(zhǎng)Fig.5 The 50 feature wavelengths selected by iPLS-DE

利用iPLS-DE近紅外光譜優(yōu)選模型對(duì)測(cè)試集樣品中魚(yú)粉蛋白質(zhì)含量定量進(jìn)行預(yù)測(cè)。結(jié)果顯示，測(cè)試集樣品的RMSET和RPDT分別為1.033%和4.058，而iPLS優(yōu)選模型的RMSET和RPDT分別為1.131%和3.855。由此可見(jiàn)，iPLS-DE特征提取方法可有效地在全譜范圍內(nèi)篩選出與魚(yú)粉蛋白質(zhì)含量相關(guān)的特征波長(zhǎng)信息，降低分析模型的計(jì)算復(fù)雜度，同時(shí)提高了預(yù)測(cè)精度。

3 結(jié) 論

本文研究了iPLS-DE特征波長(zhǎng)篩選方法在魚(yú)粉蛋白質(zhì)NIR光譜定量檢測(cè)中的應(yīng)用，發(fā)現(xiàn)iPLS-DE可在全譜范圍內(nèi)篩選出50個(gè)離散特征波長(zhǎng)建立優(yōu)選模型，對(duì)測(cè)試集樣品的RMSET和RPDT分別為1.033%和4.058。與iPLS優(yōu)選模型相比，iPLS-DE可更有效地篩選出與魚(yú)粉蛋白含量相對(duì)應(yīng)的波長(zhǎng)信息，在簡(jiǎn)化模型的同時(shí)提高了模型的預(yù)測(cè)精度，克服了iPLS不能篩選離散波長(zhǎng)的不足，可嘗試推廣應(yīng)用到其他農(nóng)業(yè)的NIR光譜分析。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡