陳華舟, 陳 福, 許麗莉, 溫江北, 李玲慧
(1.桂林理工大學理學院,廣西桂林 541004;2.上海優(yōu)久生物科技有限公司,上海 201600;3.欽州學院海洋學院,廣西欽州 535000)
魚粉是飼料中動物源性蛋白質(zhì)的主要來源,成為現(xiàn)今動物養(yǎng)殖平衡的重要組成部分,它作為高質(zhì)量動物飼料,尤其能夠提供動物生長所必需的營養(yǎng)合理配比,在養(yǎng)殖業(yè)中起著不可代替的作用[1]。飼料養(yǎng)殖中的魚粉用量在不斷增加,因此,如何選擇品質(zhì)好、性價比高的魚粉,是飼料企業(yè)期待解決的問題[2]。魚粉中灰分含量反映魚骨和魚肉的含量比,是衡量魚粉質(zhì)量的重要指標[3]?,F(xiàn)有的測量魚粉灰分成分的常規(guī)化學方法(GB/T 6438-2007)試劑消耗大,測量過程繁瑣,且有可能造成環(huán)境污染。
近紅外(NIR)光譜技術(shù)只需要配合簡單的物理過程即可測定包含樣品綜合信息的光譜,進一步利用大數(shù)據(jù)光譜矩陣可對待測成分進行定性或定量分析[4],具有快速簡便、無試劑、多組分同時測定、過程無污染等優(yōu)點,已經(jīng)被廣泛應(yīng)用到農(nóng)業(yè)、食品、環(huán)境、生物醫(yī)學等領(lǐng)域[5-7]。NIR光譜技術(shù)用于魚粉品質(zhì)的檢測已經(jīng)有報道[8,9]。隨著非線性分析技術(shù)的發(fā)展,支持向量機回歸算法已經(jīng)成功應(yīng)用于NIR定量模型[10]。最小二乘支持向量機(LSSVM)是一種基于統(tǒng)計學習理論的有效化學計量方法[11,12]。它利用核函數(shù)把待測樣品在高維非線性空間中的分布映射到一個低維特征空間,然后在特征空間上建立因變量與自變量之間的關(guān)系,進而建立定量分析模型。
本研究利用LSSVM參數(shù)優(yōu)化建模方法,建立了魚粉灰分的NIR光譜定量分析模型,提出基于網(wǎng)格搜索的支持向量機參數(shù)優(yōu)化方式,利用徑向基核函數(shù)進行建模,篩選針對于魚粉NIR定量的LSSVM核函數(shù)參數(shù),提高模型的預(yù)測精度。同時,提出運用去趨勢校正(DC)和標準正態(tài)校正(SNV)相結(jié)合方法[13,14]對飼料魚粉的NIR光譜數(shù)據(jù)進行建模前預(yù)處理,提高NIR數(shù)據(jù)的信噪比。
采用常規(guī)生化實驗方法測定116份魚粉樣品的灰分含量(GB/T 6438-2007),作為NIR光譜分析的參考化學值,所得檢測數(shù)據(jù)經(jīng)統(tǒng)計分析,其最大值、最小值、平均值、標準偏差分別為29.18、15.88、22.06、2.82。同時采用FOSS NIR Systems 5000型光柵光譜儀測量所有樣品的NIR光譜。光譜測量采用空氣作為系統(tǒng)背景,設(shè)置內(nèi)置光學系統(tǒng)對每個樣品(包括背景測量)自動掃描64次,實驗溫度為25±1 ℃,濕度(RH)為49±1%。為減少系統(tǒng)誤差和操作誤差,每個樣品重復(fù)測量5次,計算平均光譜作為該樣品的實測光譜。光譜測量范圍是1 100~2 500 nm,光譜數(shù)據(jù)采集間隔為2 nm,全譜段共包括700個波長點。所有116份魚粉樣本的實測近紅外光譜如圖1所示。
建模過程需要把樣品劃分為定標集和校正集。首先利用定標集樣品針對參數(shù)網(wǎng)格調(diào)試的所有取值建立若干定標模型,然后將所有模型應(yīng)用于校正集樣品,根據(jù)模型預(yù)測結(jié)果優(yōu)選模型參數(shù),進而確定魚粉近紅外分析優(yōu)化模型。模型評價過程主要是對已標定的優(yōu)化模型進行有效性檢驗,針對一個不參與建模過程的獨立的樣品集(預(yù)測集)進行魚粉灰分的成分含量預(yù)測,根據(jù)該預(yù)測結(jié)果評價模型的精準度和穩(wěn)定性。定標、校正、預(yù)測三個集合的樣品數(shù)量以2∶1∶1的比例進行劃分。從116個魚粉樣品中隨機選取30個樣品作為預(yù)測集,不參與建模過程;剩余樣品用于建模和參數(shù)優(yōu)化,而定標集和校正集的劃分采用SPXY方法[15]完成,指定定標集包含58個樣品,校正集包含28個樣品。
模型評價體系包括對校正集樣品的評價和對預(yù)測集樣品的評價,評價指標有均方根偏差(RMSE)、相對標準偏差(RSD)和相關(guān)系數(shù)(R),計算式分別如下:
(1)
(2)
(3)
定標校正過程的3個模型評價指標分別記為RMSEv、 RSDv和Rv;檢驗預(yù)測過程的指標分別記為RMSEp、RSDp和Rp。
(1)對原光譜Aj進行DC處理:基于最小二乘原則對原光譜吸收度完成數(shù)據(jù)擬合,然后從原光譜中減去光譜擬合趨勢線,即:
(4)
(5)
(6)
最小二乘支持向量機(LSSVM)是一種基于統(tǒng)計學習理論的結(jié)構(gòu)風險最小化的計量學方法,其核心是利用核函數(shù)把待測樣品在高維非線性空間中的分布映射到一個低維特征空間,然后在特征空間上建立因變量與自變量之間的關(guān)系。LSSVM回歸針對多變量數(shù)據(jù),通過降維映射以及最小二乘法來降低魚粉近紅外數(shù)據(jù)的復(fù)雜度,進而結(jié)合支持向量機回歸方法[13]構(gòu)造決策函數(shù),用以計算校正(或預(yù)測)樣品集的第j個樣品的或灰分含量?j,即
(7)
近紅外光譜的LSSVM模型通常選擇徑向基函數(shù)(RBF)作為數(shù)據(jù)分析的核函數(shù),RBF核對于光譜的非線性建模過程具備自適應(yīng)的穩(wěn)定性和魯棒性[14]。而Lagrange乘子αi由參數(shù)γ來決定。RBF核函數(shù)和αi分別可以表示為
(8)
其中,γ反映了建模過程的訓練誤差(即定標集的模型準確度),σ2代表核函數(shù)的閾值寬度,通過調(diào)試σ值可以調(diào)整核函數(shù)的延伸程度。
LSSVM回歸通過網(wǎng)格搜索法同時調(diào)試γ和σ兩個參數(shù)進行模型優(yōu)化,通過設(shè)置參數(shù)γ和σ在一定取值范圍內(nèi)變動,經(jīng)過定標建模和校正篩選,可為復(fù)雜對象(魚粉)的近紅外分析選擇合適的非線性回歸模型參數(shù)。
利用DC-SNV方法進行光譜預(yù)處理,在NIR全譜段區(qū)域(1 100~2 500 nm)消除由于系統(tǒng)不穩(wěn)定和操作差異而產(chǎn)生的噪音干擾,結(jié)合LSSVM算法建立非線性定量分析模型。為了驗證DC-SNV方法的有效性,把DC-SNV預(yù)處理的數(shù)據(jù)建模結(jié)果與Savitzky-Golay預(yù)處理的數(shù)據(jù)建模結(jié)果進行對比(表1),其效果略優(yōu)于Savitzky-Golay濾波平滑,證實了DC-SNV預(yù)處理方法應(yīng)用于魚粉灰分NIR光譜預(yù)處理的有效性,且算法復(fù)雜程度大大降低。
表1 DC-SNV和Savitzky-Golay預(yù)處理的LSSVM模型校正結(jié)果對比
基于DC-SNV預(yù)處理效果,建立魚粉灰分的NIR光譜分析的LSSVM模型。采用網(wǎng)格搜索法對LSSVM模型(RBF核函數(shù))的兩個重要參數(shù)γ和σ進行大范圍的調(diào)試并優(yōu)選??紤]到γ是影響Lagrange乘子α的關(guān)鍵參數(shù),條件優(yōu)化將限制核函數(shù)的映射作用;如果γ采用連續(xù)取值,則龐大的計算量使得NIR的快速分析功能得不到發(fā)揮。綜合考慮各種情況,設(shè)置γ的取值從10變化到300(步長為10)。而對參數(shù)σ的調(diào)試,將以σ2的方式影響RBF核函數(shù),因此設(shè)置σ的取值從1連續(xù)變化到20。使參數(shù)γ和σ在指定范圍內(nèi)變化,對所有可能的參數(shù)組合(γ,σ)分別建立LSSVM模型,所有模型的定標結(jié)果如圖2所示,根據(jù)RMSEv最小的原則,魚粉灰分的NIR最優(yōu)建模參數(shù)范圍是γ∈(160,210)和σ∈(5,13)。
為了研究參數(shù)γ和σ對LSSVM模型預(yù)測結(jié)果的影響,將兩個參數(shù)的所有取值對應(yīng)的建模結(jié)果做投影分析。一方面,使σ取值最優(yōu),觀察γ的變化對于模型效果的影響,每個γ的取值對應(yīng)得到不同的RMSEv如圖3(a)所示。另一方面,使γ取值最優(yōu),觀察σ的變化對于模型效果的影響,每個σ的取值對應(yīng)得到不同的RMSEv如圖3(b)所示。由圖3(a)和圖3(b)可以看出,最優(yōu)模型參數(shù)為γ=180,σ=11(圖3中的實心點),該模型的RMSEv、RSDv、Rv分別為1.149、12.9%、0.964。除此之外,在最優(yōu)取值附近的一些取值(圖3中虛線方框內(nèi)的點)也可以對應(yīng)得到接近最優(yōu)的模型預(yù)測效果,這為我們設(shè)計飼料魚粉品質(zhì)檢測專用的近紅外光譜分光系統(tǒng)提供了更多的選擇。
模型檢驗一般采用未參與建模的樣品,但性質(zhì)與建模樣品相似,通過比較這些未參與建模的預(yù)測集樣品的預(yù)測值與實測參考化學值的差異來判別模型的預(yù)測準確性。我們利用最優(yōu)LSSVM模型計算30個預(yù)測集樣品的灰分含量,其預(yù)測相關(guān)性如圖4所示。結(jié)果表明,NIR光譜預(yù)測值和國家標準方法實測值對比具有較高的相關(guān)程度,近紅外LSSVM參數(shù)網(wǎng)格搜索方法能夠為魚粉灰分含量檢測提供較高的精準度。
通過采用NIR光譜定量測定魚粉灰分的含量,評價飼料魚粉的品質(zhì)。在光譜預(yù)處理方面提出采用去趨勢校正與標準正態(tài)校正(DC-SNV)相結(jié)合的方法,降低噪音對光譜信號的干擾,進而利用基于RBF的LSSVM算法建立飼料魚粉的近紅外定標預(yù)測模型,研究LSSVM參數(shù)調(diào)試模式,在合適范圍內(nèi)對模型參數(shù)進行網(wǎng)格篩選優(yōu)化,獲得最優(yōu)建模參數(shù)(γ,σ)分別為(180、11)。經(jīng)過模型檢驗,最優(yōu)LSSVM建模參數(shù)組合具有提高NIR分析精度的能力。NIR光譜結(jié)合有效的化學計量學方法可以實現(xiàn)魚粉品質(zhì)的快速檢測,有利于飼料魚粉的生產(chǎn)控制與品質(zhì)提升,具有一定的推廣應(yīng)用價值。