張 娟 原 帥 張 駿
(1.煙臺(tái)汽車工程職業(yè)學(xué)院電子工程系山東煙臺(tái) 265500;2.煙臺(tái)大學(xué)文經(jīng)學(xué)院山東煙臺(tái) 264005;3.煙臺(tái)大學(xué)光電信息科學(xué)技術(shù)學(xué)院山東煙臺(tái) 264005)
草莓口感酸甜,營(yíng)養(yǎng)豐富,是一種人們普遍喜愛的水果。草莓糖度是決定口感和營(yíng)養(yǎng)的重要因素。傳統(tǒng)的水果糖度檢測(cè)的方法多采用理化分析法,檢測(cè)時(shí)間長(zhǎng)、步驟繁瑣、成本高。隨著近紅外光譜測(cè)量技術(shù)和近紅外光譜儀器的快速發(fā)展,近紅外光譜技術(shù)現(xiàn)已廣泛應(yīng)用于無(wú)損檢測(cè)領(lǐng)域[1]。新型便攜式近紅外光譜儀具有體積小、低功耗、高性能、高穩(wěn)定性等優(yōu)點(diǎn),適合現(xiàn)場(chǎng)檢測(cè)和在線分析,越來(lái)越廣泛應(yīng)用于水果生產(chǎn)中的管理監(jiān)測(cè)、產(chǎn)后加工和質(zhì)量評(píng)判中[2,3]?;诒銛y式-近紅外光譜測(cè)量分析技術(shù)可實(shí)現(xiàn)水果內(nèi)部品質(zhì)的簡(jiǎn)單、快速、無(wú)損檢測(cè),具有成本低、重現(xiàn)性好、分析效率高等優(yōu)勢(shì)[4]。
近年來(lái),國(guó)內(nèi)外利用近紅外光譜技術(shù)對(duì)草莓糖度的檢測(cè)和分析進(jìn)行了大量的研究工作,其中光譜數(shù)據(jù)預(yù)處理和預(yù)測(cè)模型的建立方法是研究熱點(diǎn)。金同銘等[5]采用一階導(dǎo)數(shù)逐步回歸的方法獲取定量分析定標(biāo)方程,對(duì)草莓的糖度、酸度等多指標(biāo)進(jìn)行分析;牛曉穎等[6]采用偏最小二乘法提取的潛在變量作為最小二乘-支持向量機(jī)和反向傳播人工神經(jīng)網(wǎng)絡(luò)的輸入變量,建立了草莓糖度的近紅外定量模型;ITO[7]將草莓原始近紅外光譜數(shù)據(jù)進(jìn)行二階導(dǎo)數(shù)處理,利用多元線性回歸法建立預(yù)測(cè)模型。為了獲得精確度更好、預(yù)測(cè)能力更高的紅外光譜模型,本研究采用小波變換(WT)去噪預(yù)處理,以遺傳算法(GA)并結(jié)合偏最小二乘法(PLS)實(shí)現(xiàn)波長(zhǎng)優(yōu)化選擇,建立草莓糖度的近紅外光譜模型,并進(jìn)行分析和驗(yàn)證。
實(shí)驗(yàn)所用的樣品為市場(chǎng)購(gòu)買的草莓,共選擇了果形均勻的55個(gè)樣本。將40個(gè)樣本分為校正集,15個(gè)樣本為預(yù)測(cè)集。為減小環(huán)境溫度和濕度對(duì)草莓樣品光譜測(cè)量的影響,將樣品放置在環(huán)境溫度為25 ℃,相對(duì)濕度為65%的實(shí)驗(yàn)室中5 h后測(cè)量。
草莓近紅外光譜數(shù)據(jù)的采集使用Avantes公司的AvaSpec-2048TEC便攜式光纖光譜儀,使用與儀器配套的AvaSoft7.0軟件。數(shù)據(jù)采集時(shí)光譜儀探頭距離草莓樣品正上方高度為5 mm。光譜檢測(cè)系統(tǒng)的參數(shù)設(shè)置為:測(cè)量波段范圍為600~1 100 nm,積分時(shí)間5 ms,光譜采樣間隔0.28 nm,光譜平滑階數(shù)為3階。為減小實(shí)驗(yàn)測(cè)量誤差,每一樣品的不同位置進(jìn)行3次光譜測(cè)量,取其平均值,得到的光譜數(shù)據(jù)以excel形式導(dǎo)出。
將采集完紅外光譜的草莓樣品榨汁,使用手持WZ113折射儀測(cè)量其糖度值。表1為校正集和預(yù)測(cè)集樣本的糖度測(cè)量值。
表1 校正集和預(yù)測(cè)集樣本糖度測(cè)量值Table 1 The measure results of calibration and prediction samples
采用具有較強(qiáng)抗干擾能力的偏最小二乘法(PLS)[8]建立校正模型,對(duì)草莓糖度進(jìn)行定量分析和預(yù)測(cè)。選擇校正集相關(guān)系數(shù)RC、預(yù)測(cè)集相關(guān)系數(shù)RP、校正集均方根誤差RMSEC和預(yù)測(cè)集均方根誤差EMSEP作為模型的評(píng)價(jià)指標(biāo)[9]。
對(duì)每一條光譜數(shù)據(jù)運(yùn)用極差標(biāo)準(zhǔn)歸一化公式進(jìn)行計(jì)算變換。
(1)
其中,i=1,2…n,n為校正集樣品數(shù);j=1,2…m,m為波長(zhǎng)點(diǎn)數(shù)。
采用極差標(biāo)準(zhǔn)歸一化處理后的光譜數(shù)據(jù)在(0,1)之間,分布更均衡[11]。目的是一方面降低同一草莓樣品多次測(cè)量之間的差別,減小因草莓大小差異引起的光散射和微小光程差變化帶來(lái)的影響,為后續(xù)分析提供可靠的數(shù)據(jù)源;另一方面,消除冗余信息,加快模型收斂速度,提高模型的穩(wěn)健性和預(yù)測(cè)能力。
由于受到各種因素的影響,檢測(cè)獲得的近紅外光譜信號(hào)夾雜噪聲干擾。利用小波變換多分辨率方法[12],對(duì)近紅外光譜信號(hào)進(jìn)行不同分辨尺度的變換分解。通過(guò)調(diào)節(jié)尺度因子,將原始信號(hào)c0(n)(n=1,2,…,N)分解成某尺度的銳化信號(hào)(d1(n),d2(n),…,d1(n))和平滑信號(hào)(c1(n),c2(n),…,c1(n))[11]。最大限度的去除掉高頻噪聲元素,提取各尺度下的有效細(xì)節(jié)信息特征,然后再進(jìn)行小波系數(shù)反變換,重構(gòu)得到需要的光譜。本實(shí)驗(yàn)采用Daubechies5濾波器5尺度分解,對(duì)草莓近紅外光譜信號(hào)進(jìn)行分解、重構(gòu)[13],實(shí)現(xiàn)濾波預(yù)處理。
利用具有自適應(yīng)的全局、快速搜索的遺傳算法(GA)[12]與最小二乘法(PLS)有機(jī)結(jié)合[14],對(duì)草莓光譜進(jìn)行波長(zhǎng)優(yōu)化選擇。遺傳算法是模擬生物進(jìn)化機(jī)制隨機(jī)優(yōu)化的算法,應(yīng)用于波長(zhǎng)選擇的實(shí)現(xiàn)主要包括染色體參數(shù)編碼、群體初始化、適應(yīng)度函數(shù)設(shè)計(jì)、遺傳操作設(shè)計(jì)和評(píng)價(jià)六個(gè)基本步驟[15]。GA-PLS波長(zhǎng)優(yōu)選的思路是通過(guò)交互驗(yàn)證法評(píng)價(jià)模型的預(yù)測(cè)能力來(lái)選擇適應(yīng)度函數(shù)[16]。實(shí)現(xiàn)方法是以所選特征波長(zhǎng)變量建立偏最小二乘回歸校正模型,得到交互驗(yàn)證均方根誤差RMSECV最小作為遺傳算法的適應(yīng)度函數(shù),通過(guò)遺傳算法的選擇、交換和突變等算子的操作,不斷的遺傳迭代,剔除不相關(guān)或非線性變量,選取最優(yōu)的有效特征波長(zhǎng)[17]。在保證精度的前提下,簡(jiǎn)化校正模型,提高校正模型的預(yù)測(cè)能力和穩(wěn)健性[18]。
(2)
其中,yi表示校正集中樣品含量的真實(shí)值,y′i表示模型的預(yù)測(cè)值,n表示對(duì)應(yīng)校正集的樣本數(shù)目。
圖1為隨機(jī)抽取的一個(gè)草莓樣品的原始近紅外光譜圖。在600~1 100 nm整個(gè)光譜區(qū)都有較高的信噪比,影響校正模型的精確性和穩(wěn)定性。故首先對(duì)光譜數(shù)據(jù)進(jìn)行極差歸一化處理,為后期光譜預(yù)處理提供可靠數(shù)據(jù)源。然后利用Daubechies5濾波器多尺度小波分析,對(duì)原始光譜進(jìn)行各個(gè)尺度下的分解重構(gòu)。圖2是草莓光譜小波分解第5階信號(hào)。可以看出,變換后的光譜很好的消除了高頻噪聲,光譜輪廓清晰平滑,在700、760 nm附近特征峰明顯。
圖1 草莓的原始近紅外光譜Fig.1 Original near infrared spectrum of strawberry
圖2 小波分解第5階信號(hào)Fig.2 The fifth order signal of wavelet transform
采用Visual C++編寫遺傳算法程序。便攜式光譜儀測(cè)量波長(zhǎng)范圍600~1 100 nm,共有2 001個(gè)波長(zhǎng)數(shù)據(jù)。以草莓近紅外光譜全部2 001個(gè)波點(diǎn)數(shù)作為選擇對(duì)象,考慮其有效特征波長(zhǎng)的個(gè)數(shù),經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證,確定遺傳算法的控制參數(shù):群體初始化為80,選擇算子為轉(zhuǎn)輪法,交叉概率pc為0.5,變異概率pm為0.01,選取遺傳迭代次數(shù)為100。迭代終止,選取累計(jì)貢獻(xiàn)率高于50%的201個(gè)波點(diǎn)數(shù)建立草莓糖度校正模型。
分別利用偏最小二乘法建立草莓糖度原始光譜全光譜模型(FS-PLS)、小波變換全光譜模型(WT-PLS)和小波變換與遺傳算法波長(zhǎng)選擇模型(WT-GA-PLS),通過(guò)Matlab編程實(shí)現(xiàn)。表2列出了三種校正模型的預(yù)測(cè)結(jié)果。由表2可見,F(xiàn)S-PLS模型預(yù)測(cè)精度最低,WT-GA-PLS模型精度明顯優(yōu)于FS-PLS和WT-PLS。由于全光譜數(shù)據(jù)比較復(fù)雜,含有冗余信息和噪聲,因此FS-PLS模型誤差較大,預(yù)測(cè)能力較低。利用小波濾波去除了其他干擾信息,采用遺傳算法選用包含重要信息的特征波長(zhǎng)建立WT-GA-PLS模型,明顯提高了模型的精確度和預(yù)測(cè)能力。
表2 草莓糖度的不同偏最小二乘校正模型結(jié)果Table 2 PLS calibration models for prediction of different methods
圖3是WT-GA-PLS模型40個(gè)校正集樣本的預(yù)測(cè)值與實(shí)測(cè)值的散點(diǎn)圖。從圖中可以看出各點(diǎn)均勻的散布在回歸線兩側(cè),預(yù)測(cè)值與實(shí)測(cè)值有很好的相關(guān)性。該模型校正集的相關(guān)系數(shù)RC為0.9395,校正集均方根誤差RMSEC為0.1615,具有較高的精度。
圖4是15個(gè)預(yù)測(cè)集樣本的預(yù)測(cè)值與實(shí)測(cè)值的散點(diǎn)圖。預(yù)測(cè)值與實(shí)測(cè)值同樣有很好的相關(guān)性。模型預(yù)測(cè)集相關(guān)系數(shù)RP為0.9652,預(yù)測(cè)集均方根誤差EMSEP為0.5042。表明校正模型具有較好的穩(wěn)定性和可靠性。WT-GA-PLS模型采用的波點(diǎn)數(shù)由2 001減少到201個(gè),在保證精度、穩(wěn)定度的前提下簡(jiǎn)化了建模變量,可見遺傳算法是一種有效的近紅外光譜特征波長(zhǎng)選擇方法。
圖3 校正集糖度預(yù)測(cè)值與實(shí)測(cè)值的散點(diǎn)圖Fig.3 Predictive and actual value of calibration set sugar degree
圖4 預(yù)測(cè)集糖度的預(yù)測(cè)值與實(shí)測(cè)值散點(diǎn)圖Fig.4 Predictive and actual value of prediction set sugar degree
采用小波濾波、遺傳算法和偏最小二乘回歸法三者有機(jī)結(jié)合,建立了草莓糖度的近紅外光譜的小波變換-遺傳算法-偏最小二乘(WT-GA-PLS)校正模型。該模型校正集的相關(guān)系數(shù)RC為0.9395,校正集均方根誤差RMSEC為0.1615,預(yù)測(cè)集的相關(guān)系數(shù)RP為0.9652,預(yù)測(cè)集均方根誤差EMSEP為0.5042,模型具有良好的穩(wěn)定性、可靠性和預(yù)測(cè)性能。研究表明,利用便攜式光譜儀檢測(cè)草莓糖度,不僅滿足品質(zhì)的檢測(cè)需求,還為長(zhǎng)期監(jiān)控果實(shí)動(dòng)態(tài)變化,實(shí)現(xiàn)果園生產(chǎn)中的管理提供了可能性。