張 湃,王麗俠,任麗棉
(唐山學(xué)院 智能與信息工程學(xué)院,河北 唐山 063000)
可溶性固形物含量(Soluble Solids Content,SSC)又稱為糖度,是評(píng)價(jià)水果內(nèi)部品質(zhì)的關(guān)鍵指標(biāo);同時(shí)含水率也是評(píng)價(jià)果蔬品質(zhì)的重要指標(biāo)之一,通過(guò)檢測(cè)含水率能夠判別果實(shí)的新鮮程度以及貯存時(shí)間等。近紅外光譜技術(shù)具有無(wú)損檢測(cè)、耗時(shí)短、易操作等特點(diǎn),近年來(lái)被廣泛應(yīng)用于果蔬內(nèi)部品質(zhì)檢測(cè)[1-3]。馬本學(xué)等[4]在西甜瓜內(nèi)部品質(zhì)無(wú)損檢測(cè)中,利用深度學(xué)習(xí)進(jìn)行光譜信息解析、建立多特征信息融合的綜合評(píng)價(jià)模型。宋雪健等[5]基于近紅外光譜技術(shù)對(duì)草莓品質(zhì)進(jìn)行快速檢測(cè)研究,其校正集RMSECV為0.713,R2為95.07%,驗(yàn)證集RMSEP為0.037 9,R2為98.75%。羅楓等[6]利用近紅外光譜建立櫻桃果實(shí)脆度校正模型,用于檢測(cè)冷藏過(guò)程中櫻桃品質(zhì)的變化。高升等[7]利用近紅外光譜測(cè)量紅提糖度和含水率,利用無(wú)信息變量消除法(UVE)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)以及聯(lián)合連續(xù)投影算法(SPA)篩選光譜的特征波長(zhǎng),再基于最小二乘支持向量機(jī)(LSSVM)建立全局預(yù)測(cè)模型,經(jīng)實(shí)驗(yàn)證明,該模型的預(yù)測(cè)集相關(guān)系數(shù)分別為0.969,0.942。王文霞等[8]通過(guò)遺傳算法(GA)和優(yōu)化極限學(xué)習(xí)機(jī)(ELM)建立GA-ELM模型給高光譜數(shù)據(jù)降維,并結(jié)合變量?jī)?yōu)選和模型來(lái)測(cè)量干制哈密大棗水分,證明了該模型的有效性,預(yù)測(cè)結(jié)果Rc和Rp分別為0.984 2和0.967 5,RMSECV和RMSEP分別為0.006 1和0.007 9,RPD為3.678 8。
櫻桃是一種營(yíng)養(yǎng)價(jià)值高、具有一定保健功效的水果,果實(shí)含水量較高且色彩紅潤(rùn)、口感脆嫩?,F(xiàn)有文獻(xiàn)關(guān)于櫻桃含水率檢測(cè)的研究較少,SSC檢測(cè)也多采用傳統(tǒng)方法。目前,櫻桃含水率檢測(cè)多采用烘干法,過(guò)程較繁瑣;SSC檢測(cè)的傳統(tǒng)方法是將櫻桃果實(shí)擠出汁水,再利用折射法進(jìn)行測(cè)定。另外,現(xiàn)有檢測(cè)方法大多只能進(jìn)行抽樣檢測(cè)并需要分別測(cè)定,要實(shí)現(xiàn)多指標(biāo)檢測(cè)就需要建立多個(gè)模型,增加了數(shù)據(jù)處理的復(fù)雜性。因此,開(kāi)發(fā)準(zhǔn)確、無(wú)損、快速的在線檢測(cè)技術(shù),建立多指標(biāo)檢測(cè)模型已成為提高在線檢測(cè)效率的實(shí)際需要。
以上研究證明了應(yīng)用光譜方法對(duì)果蔬的糖度和含水率進(jìn)行檢測(cè)是可行的。當(dāng)前,國(guó)內(nèi)外光譜檢測(cè)研究中罕有對(duì)櫻桃品質(zhì)的在線檢測(cè)。本文因此以山海關(guān)櫻桃為樣本提出一種櫻桃近紅外光譜在線檢測(cè)模型并以山海關(guān)櫻桃樣品為研究對(duì)象??紤]到利用變量特征波長(zhǎng)選擇方法可有效降低光譜數(shù)據(jù)的冗余,提高模型的預(yù)測(cè)精度,首先基于變分模式分解(Variational Mode Decomposition,VMD)[9]對(duì)近紅外反射光譜進(jìn)行多模態(tài)分解,并得到各個(gè)固有模態(tài)(Intrinsic Mode Function,IMF)層,通過(guò)對(duì)比各層與SSC以及含水率之間的相關(guān)系數(shù)大小確定最佳變量特征提取的IMF層;然后采用SiPLS[10]波長(zhǎng)篩選方法提取最佳波段,并通過(guò)奇異值分解(Singular Value Decomposition,SVD)[11]求得奇異熵,建立多元逐步回歸(Multiple Stepwise Regression,MSR)預(yù)測(cè)模型[12],該模型簡(jiǎn)稱為VMD-SVD-MSR模型。通過(guò)該模型可對(duì)櫻桃的SSC和含水率進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)對(duì)櫻桃內(nèi)部品質(zhì)進(jìn)行在線快速、無(wú)損檢測(cè)。
VMD是一種自適應(yīng)的時(shí)頻域分析方法,相比于傳統(tǒng)經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposi tion,EMD)理論,該算法能夠有效克服模態(tài)混疊、虛假分量和端點(diǎn)效應(yīng)等問(wèn)題。每個(gè)IMF層都被認(rèn)為具有不同的中心頻率和有限的帶寬。通過(guò)交替方向乘子法(Alternate Direction Methodof Multipliers,ADMM)對(duì)每個(gè)模態(tài)及其中心頻率進(jìn)行連續(xù)更新,從而使每個(gè)IMF層的估計(jì)帶寬的總和最小化,并以這種方式對(duì)各個(gè)模態(tài)進(jìn)行解調(diào),得到相應(yīng)的基頻帶,實(shí)現(xiàn)信號(hào)從低頻到高頻的分解。
(1)
式中,δ(t)為狄利克來(lái)函數(shù),uk(t)為IMF函數(shù),k是第k個(gè)模式,j是第j個(gè)分量,t是時(shí)間。
(2)
式中,ωk為IMF層的中心頻率。
(3)
式中,?t表示相對(duì)于t的梯度。
針對(duì)式(3),引入二次懲罰函數(shù)項(xiàng)α和拉格朗日算子λ,將其從約束方程等價(jià)為無(wú)約束方程進(jìn)行求解,如式(4)所示:
L({uk},{ωk},λ)=
(4)
采用ADMM算法進(jìn)行迭代,最終獲得各個(gè)IMF分量。
由于光譜數(shù)據(jù)量大,因此經(jīng)由VMD分解后,各個(gè)IMF分量仍存在大量冗余和共線信息,導(dǎo)致計(jì)算量大和模型復(fù)雜,不利于在線檢測(cè)。鑒于此,引入SVD算法篩選最優(yōu)變量,以降低數(shù)據(jù)的共線性和冗余,使構(gòu)建的模型簡(jiǎn)化。
通過(guò)SVD對(duì)數(shù)據(jù)進(jìn)行分解得到實(shí)數(shù)矩陣A∈R(m×n),該矩陣能夠被進(jìn)一步分解為三個(gè)矩陣的乘積,即
A=USVT。
(5)
式中,U為單位正交列矩陣;V為單位正交行矩陣;S為對(duì)角矩陣,S=[diag(σ1,σ2,…,σm),O],O為零矩陣。
奇異熵用來(lái)衡量信號(hào)經(jīng)SVD分解后得到的各信號(hào)分量信息量的大小。奇異熵Ek的求解如式(6)所示:
(6)
式中,i為奇異熵所對(duì)應(yīng)的階次,ΔEi為奇異熵在i階次時(shí)獲得的增量,其計(jì)算公式為:
(7)
由VMD和SVD聯(lián)合構(gòu)建VMD-SVD模型,用于櫻桃光譜的信息分析與特征參量反演等。其光譜特征信息提取步驟如下。
(1)VMD分解。對(duì)原始櫻桃光譜數(shù)據(jù)進(jìn)行VMD分解,得到若干IMF層分量。
(2)分量篩選。求解各IMF層分量與SSC及含水率之間的相關(guān)系數(shù),通過(guò)對(duì)比選擇能夠較好保留原始輸入光譜信息的IMF層分量。
(3)特征波段選擇。利用SiPLS算法將步驟(2)得到的IMF層分量平均分為幾個(gè)子間隔,通過(guò)所有排列組合建立PLSR模型,根據(jù)最低的交叉驗(yàn)證均方差(Root Mean Square Error of Cross-Validation,RMSECV)建立最佳的SiPLS模型,篩選得到相關(guān)變量波段作為特征波段進(jìn)行下一步的處理。
(4)SVD分解。構(gòu)造特征波段的二維時(shí)頻矩陣,進(jìn)行SVD分解,得到奇異值矩陣,并計(jì)算對(duì)應(yīng)的奇異熵,作為表征櫻桃SSC和含水率的光譜信息分量。
本研究是以山海關(guān)產(chǎn)的砂蜜豆櫻桃為對(duì)象,選擇果形勻稱、無(wú)損傷、無(wú)蟲(chóng)害的櫻桃共200顆作為樣本。單顆果實(shí)直徑范圍在15 ~20 mm,質(zhì)量范圍在10~15 g。將櫻桃表面擦拭干凈并編號(hào),置于實(shí)驗(yàn)室(室溫25 ℃)6 h,使樣本溫度和環(huán)境溫度達(dá)到一致。對(duì)同一樣本不同區(qū)域進(jìn)行3次近紅外光譜采集,取平均值作為樣本光譜。利用SPXY將200顆櫻桃樣本分為140個(gè)校正集和60個(gè)預(yù)測(cè)集,用于建模分析。
實(shí)驗(yàn)裝置由計(jì)算機(jī)、光譜儀(Nirquest512,美國(guó)海洋)、光源(鹵鎢燈,30 W,12 V)漫反射光纖、支架等組成。近紅外光譜范圍為900~1 700 nm,分辨率為3.1 nm。設(shè)置積分時(shí)間為20 ms,掃描次數(shù)為10次。
2.3.1 樣本采集
將櫻桃單個(gè)果實(shí)放置于載物臺(tái)上進(jìn)行近紅外漫反射光譜采集,重復(fù)取樣并測(cè)量3次,取平均值作為原始光譜數(shù)據(jù),如圖1所示。
圖1 櫻桃樣品的漫反射原始光譜
2.3.2 櫻桃SSC和含水率測(cè)定方法
樣本制備:用小刀從采集完光譜的櫻桃樣本上切下大約3 g果肉,進(jìn)行含水率測(cè)定;再將剩余的櫻桃樣本壓成汁,用玻璃棒攪拌均勻,立即測(cè)定SSC。SSC測(cè)定參照NY/T2637-2014《水果、蔬菜制品可溶性固形物含量的測(cè)定——折射儀法》進(jìn)行,含水率的測(cè)定依照GB5009.3-2016《食品中含水率的測(cè)定》進(jìn)行。取清潔的鋁盒,按國(guó)標(biāo)規(guī)定,加熱干燥后的鋁盒質(zhì)量為m3,加入櫻桃果肉剪切樣品,鋁盒與樣品總重為m1。隨后放入電熱鼓風(fēng)干燥箱進(jìn)行加熱,溫度設(shè)定為105 ℃,得到烘干后樣品加鋁盒的重量為m2。樣品含水率按式(8)計(jì)算:
(8)
式中,X為櫻桃試樣含水率,%。
為了降低櫻桃光譜數(shù)據(jù)的共線性和冗余,分別選取本文提出的VMD-SVD算法、SPA算法、CARS算法進(jìn)行變量篩選。SPA算法是一種前向選擇算法,當(dāng)校正模型的交叉驗(yàn)證均方根誤差RMSECV最低時(shí),相應(yīng)的波長(zhǎng)變量集為篩選出的共線性最小的最佳特征波長(zhǎng)變量集。CARS算法借助自適應(yīng)重加權(quán)采樣技術(shù)(Adaptive Reweighted Sampling,APS)、指數(shù)衰減函數(shù)(Exponentially Decreasing Function,EDP)和十折交互檢驗(yàn)確定最優(yōu)變量子集,可篩選出對(duì)櫻桃屬性較敏感的波長(zhǎng)變量,并可以解決變量篩選時(shí)的組合爆炸問(wèn)題。
分別基于原始光譜和進(jìn)行變量篩選后的光譜信息建立櫻桃SSC和含水率檢測(cè)的多元逐步回歸(MSR)模型。MSR是針對(duì)逐步回歸模型的改進(jìn)算法,該算法能夠建立多個(gè)自變量與因變量之間的關(guān)系模型。MSR模型適用于光譜變量數(shù)少于理化值數(shù)的情況。
回歸模型建立后,采用預(yù)測(cè)集的決定系數(shù)R、均方根誤差(Root Mean Square Error,RMSE)和相對(duì)分析誤差(Residual Predictive Deviation,RPD)來(lái)對(duì)櫻桃SSC和含水率的預(yù)測(cè)模型進(jìn)行評(píng)價(jià)。當(dāng)決定系數(shù)R越接近1、均方根誤差RMSE越小時(shí),表明模型預(yù)測(cè)效果越好。
采用VMD對(duì)櫻桃平均光譜曲線進(jìn)行分解,得到9個(gè)IMF層分量,用h取1-9表征對(duì)應(yīng)的1-9 IMF層分量,如圖2所示。
圖2 VMD 1-9層分解光譜
從圖2中可觀察到,IMF1-IMF5能量較大,可認(rèn)為其攜帶主要光譜信息,IMF6-IMF9能量較小,且變化劇烈,因此考慮其噪聲分量較多。根據(jù)模極大值理論,隨著分解次數(shù)增大,光譜噪聲越來(lái)越強(qiáng)。為確定各個(gè)分量對(duì)光譜特征信息提取的貢獻(xiàn)率,對(duì)IMF1-IMF9與SSC及含水率的相關(guān)性進(jìn)行分析,如表1所示。
表1 SSC及含水率與各IMF層特征光譜相關(guān)分析
表1中相關(guān)性均通過(guò)0.01(閾值為±0.507)的顯著性檢驗(yàn)。以SSC為例,其中IMF1與SSC之間有89個(gè)波段通過(guò)顯著性檢驗(yàn),IMF1-IMF4所對(duì)應(yīng)的顯著波段數(shù)呈遞增趨勢(shì),在IMF4時(shí)其波段數(shù)量為281個(gè),達(dá)到最大,當(dāng)進(jìn)行到IMF4時(shí)相關(guān)系數(shù)為0.614,達(dá)到最大正相關(guān),從IMF5開(kāi)始,顯著波段數(shù)逐漸遞減。由于IMF4在有效去除噪聲的同時(shí)能夠最大程度保留原光譜信息,因此選擇IMF4分量作為特征提取層并進(jìn)行后續(xù)分析。
為進(jìn)一步剔除IMF4分量中與SSC及含水率無(wú)關(guān)的光譜信息,分別采用區(qū)間偏最小二乘法(iPLS)、組合區(qū)間偏最小二乘法(SiPLS)和移動(dòng)窗口偏最小二乘法(MWPLS)建立模型并進(jìn)行光譜特征波段選擇,結(jié)果如表2所示。
三個(gè)模型中SiPLS預(yù)測(cè)結(jié)果最優(yōu):在SSC上,Rc和Rp分別為0.851和0.844;在含水率上,Rc和Rp分別為0.832和0.791。因此選定該模型對(duì)900~1 700 nm特征波段進(jìn)行選擇。通過(guò)對(duì)SSC及含水率的6個(gè)特征波段對(duì)應(yīng)的IMF4分量分別構(gòu)造時(shí)頻域矩陣,并對(duì)該矩陣進(jìn)行SVD分解,構(gòu)建VMD-SVD模型,最后求取模型的奇異熵并用于分析監(jiān)測(cè)效果。各特征波段對(duì)應(yīng)的奇異熵與櫻桃SSC及含水率的關(guān)系見(jiàn)表3。
表2 iPLS,SiPLS和MWPLS模型預(yù)測(cè)結(jié)果比較
表3 特征波段的奇異熵與櫻桃SSC及含水率的相關(guān)關(guān)系
由表3可見(jiàn),通過(guò)特征波段1 200~1 389 nm和1 401~1 509 nm計(jì)算求得的奇異熵與櫻桃SSC及含水率的相關(guān)系數(shù)分別為0.933和0.927,說(shuō)明經(jīng)過(guò)VMD分解后的1 200~1 389 nm和1 401~1 509 nm波段對(duì)應(yīng)的IMF4分量均對(duì)櫻桃SSC和含水率較為敏感。選取相關(guān)系數(shù)最大的特征波段計(jì)算得到的奇異熵分別與櫻桃SSC及含水率進(jìn)行擬合。
3.3.1 SPA特征波長(zhǎng)提取算法
為了驗(yàn)證VMD-SVD模型在變量波長(zhǎng)選擇方面的優(yōu)越性,基于原始光譜分別采用SPA算法和CARS算法篩選最優(yōu)變量并建立回歸模型。首先建立SPA算法的SSC模型,得出22個(gè)特征波長(zhǎng)作為SPA光譜的輸入信息,再以含水率作為輸出信息,得出12個(gè)特征波長(zhǎng)。這12個(gè)特征波長(zhǎng)可同時(shí)反映櫻桃SSC和含水率的信息。CARS算法特征波長(zhǎng)選擇方法操作過(guò)程同上。
采用SPA算法提取特征波長(zhǎng),如圖3所示。初始設(shè)定提取波長(zhǎng)變量范圍為5~30 nm,提取步長(zhǎng)為1。由圖3(a)可知,RMSECV值最小時(shí)為0.092 5,對(duì)應(yīng)模型中變量的個(gè)數(shù)為12個(gè),即經(jīng)SPA算法提取的最優(yōu)波長(zhǎng)點(diǎn)有12個(gè),優(yōu)選出的波長(zhǎng)點(diǎn)的位置在圖3(b)的原始光譜索引圖中顯示,所選波長(zhǎng)變量占總波長(zhǎng)的1.5%。
3.3.2 CARS特征波長(zhǎng)提取算法
利用CARS提取特征波長(zhǎng),設(shè)定蒙特卡羅采樣為50次,采用5折交叉驗(yàn)證法。由圖4可知,當(dāng)RMSECV值達(dá)到最小時(shí),各變量的回歸系數(shù)位于圖4(c)中豎直線位置,設(shè)置采樣次數(shù)為30次。
分別利用SPA,CARS和本文提出的VMD-SVD算法進(jìn)行光譜數(shù)據(jù)的變量篩選,將分別提取的特征波長(zhǎng)與原始光譜信息作為輸入量,建立MSR模型,獲取櫻桃SSC和含水率預(yù)測(cè)結(jié)果。計(jì)算每種模型在預(yù)測(cè)集中SSC和含水率的估算值,結(jié)果如表4所示??梢钥闯觯瑢?duì)于櫻桃SSC和含水率,VMD-SVD-MSR模型的預(yù)測(cè)性能都達(dá)到最優(yōu)。其中對(duì)于SSC預(yù)測(cè),決定系數(shù)Rc和Rp分別為0.951和0.925,RMSECV和RMSEP分別為0.069和0.098;對(duì)于含水率的預(yù)測(cè),決定系數(shù)Rc和Rp分別為0.943和0.919,RMSECV和RMSEP分別為0.077和0.102。
(a) (b)圖3 SPA特征波長(zhǎng)提取圖
(a) (b) (c)圖4 CARS特征波長(zhǎng)提取圖
表4 SSC和含水率模型預(yù)測(cè)結(jié)果
本文基于VMD和SVD理論提出了VMD-SVD-MSR模型,用于預(yù)測(cè)櫻桃近紅外光譜的SSC和含水率。研究結(jié)果表明,經(jīng)VMD得到的固有模態(tài)IMF能有效避免模態(tài)混疊現(xiàn)象。其中IMF4在有效去除噪聲的同時(shí)能夠最大程度保留原光譜信息;引入SiPLS進(jìn)行波段選擇后,再利用SVD得到奇異熵,在1 200~1 389 nm和1 401~1 509 nm兩波段求得的奇異熵與櫻桃SSC及含水率的相關(guān)系數(shù)分別為0.933和0.927,說(shuō)明這兩個(gè)波段均對(duì)櫻桃SSC和含水率較為敏感,選取相關(guān)系數(shù)最大的特征波段計(jì)算得到的奇異熵作為參數(shù),建立MSR模型,分別與櫻桃SSC和含水率進(jìn)行擬合。通過(guò)與原始光譜、SPA和CARS特征波長(zhǎng)提取算法的預(yù)測(cè)結(jié)果比較,驗(yàn)證了本文VMD-SVD-MSR模型在預(yù)測(cè)櫻桃品質(zhì)信息方面具有一定的優(yōu)越性和較好的解釋能力,為櫻桃品質(zhì)在線檢測(cè)提供了一種有效的手段。