李冬冬 賈柳君 鄧 鴻 單啟梅 何嘉琳 張海紅
(寧夏大學農學院 銀川750021)
靈武長棗(Zizphus jujube Mill cv.Lingwu changzao)為鼠李科棗屬植物,是寧夏特色優(yōu)勢果品,其果實色艷、肉質脆實、酸甜適口,富含糖、酸、維生素C、粗纖維及礦物元素等多種營養(yǎng)元素,其中尤以VC 含量最為豐富,素有“VC 之王”的美譽[1]。常將VC 含量作為評價靈武長棗品質的首選指標。
果品VC 含量的常用檢測方法為2,6-二氯靛酚滴定法等[2],該法雖然檢測精度高,但在樣品前處理、快速測定、檢測成本消耗等方面存在固有缺陷,檢測后的樣品,因組織遭到嚴重破壞而無食用和銷售價值。尋找一種快速、便捷、高效的VC 含量檢測方法對指導長棗生產,商品化推廣具有重要意義。
無損檢測技術[3]是近年來國內外最新發(fā)展的一種新型的品質檢測技術,具有操作方便、原理簡單、適應性強和非破壞等優(yōu)點,受到國內外學者的廣泛關注。近年來,眾多學者利用高光譜、近紅外技術檢測櫻桃、蜜桔、柑橘、鮮棗[4-7]等果品的VC含量,并取得較好的研究成果。介電無損檢測技術也被部分學者應用于蘋果[8-13]、獼猴桃[14]、火柿[15]、梨[16]、靈武長棗[17]、哈密瓜[18]等果品可溶性固形物、可滴定酸、含水率等品質指標的研究與分析,而利用介電特性檢測靈武長棗VC 含量的研究鮮見報道。
本文擬基于介電特性的靈武長棗VC 檢測的可行性,分析1 kHz~1 MHz 下長棗的介電頻譜(相對介電常數(shù)ε' 和介電損耗因子ε")。利用連續(xù)投影算法 (Successive Projection Aalgorithm,SPA)、無信息變量消除法(Uninformative Variables Elimination,UVE)、競爭性自適應重加權算法(Competitive Adaptive Reweighted Sampling,CARS) 和遺傳算法(Genetic Algorithm,GA)提取介電頻譜的有效信息;采用偏最小二乘 (Partial Least Squares,PLS) 和最小二乘支持向量機(Least square support vector machine,LSSVM)法分別建立長棗VC 含量的預測模型,通過比較各模型的預測精度和穩(wěn)定性,確定基于介電頻譜檢測靈武長棗VC 含量的最佳方法,優(yōu)選基于介電頻譜長棗VC 含量的預測模型。
供試靈武長棗采摘于寧夏回族自治區(qū)靈武市永寧長棗生產基地。挑選果形完好,平均單果重約(15±2)g,縱徑(4.2±0.5)cm,橫徑(2.5±0.5)cm,大小均勻、成熟度在九成熟和十成熟之間 (九成熟:綠色面積占長棗總面積的1/3 以下;十成熟:全紅果),無蟲害損傷的棗果100 個,常溫(20±3)℃條件下擦凈、貯藏、備用。
LCR 測試儀(HIOKI-3532-50 型),日本日置電機株式會社;Matlab R2014a (Math Works),美國;Unscrambler X 10.3(CAMO),挪威。
1.3.1 電學參數(shù)的測量 根據(jù)棗果尺寸選擇面積為4.5 cm×3.1 cm 的鋁制平行板電極。測試前首先對LCR 測試儀預熱1 h,并依次進行開路、短路校正,選擇測量電參數(shù)損耗系數(shù)D、并聯(lián)等效電容Cp。將棗果平放在兩極板間,調整極板距離,使極板與棗果剛好接觸且對棗果不造成擠壓為宜。在頻率1 kHz~1 MHz 范圍測量103,103.05,103.1,……,105.95,106Hz 時55 個點的棗果電參數(shù)D 和Cp值,測量數(shù)據(jù)以Microsoft Excel 2013 表格自動生成,以等效電容法推算棗果相對介電常數(shù)ε′和介電損耗因子ε″[19-20]。
1.3.2 維生素C 的測定 長棗VC 含量測定采用2,6-二氯靛酚法[21]。樣本總量為100 個,測定周期為10 d,每天從總樣中隨機選取10 個樣本測定。為避免偶然性誤差,各樣本均測3 次,取平均值作為最終測定結果。
1.4.1 特征頻率的提取
1) 連續(xù)投影算法(Successive Projection Aalgorithm,SPA) SPA[22-23]是一種前向循環(huán)的變量選擇方法,選定一個初始頻點,然后在每次迭代時加入新的頻點,直到達到指定的頻點數(shù),該法目的是解決信息重疊,選擇最小冗余信息量的頻點組合,解決共線性問題。
2) 無信息變量消除法 (Uninformative Variables Elimination,UVE) UVE 是基于偏最小二乘回歸系數(shù)選擇變量的一種方法[24-25],它把與自變量矩陣變量數(shù)目相同的隨機變量矩陣(即噪聲)加入頻譜矩陣中,通過交叉驗證在原始變量中逐一剔除無關變量,進而得到新的回歸系數(shù)矩陣,最終達到降維的目的。
3) 競爭性自適應重加權算法(Competitive Adaptive Reweighted Sampling,CARS) 該 法 是一種基于蒙特卡羅采樣 (Monte Carlo Sampling,MCS)法對模型取樣的新型變量選擇理論[26]。通過指數(shù)衰減函數(shù)及自適應重加權采樣技術(Adaptive Reweighted Sampling,ARS) 計算并比較每次產生的新變量子集的RMSECV 值,將該值最小的變量子集作為最優(yōu)變量子集。
4) 遺傳算法(Genetic Algorithm,GA) GA[27]使用選擇、交叉和變異三類遺傳算子把復雜的現(xiàn)象用繁殖機制結合簡單的編碼技術來表現(xiàn),通過隨機搜索算法得出復雜問題相對較好的解;從初始群體到根據(jù)變異、選擇和交叉等算子的作用而不斷迭代來優(yōu)勝劣汰,通過這樣的搜索過程來不斷逼近最優(yōu)解。
1.4.2 模型建立
1) 偏最小二乘(partial least squares,PLS)PLS 是一種經典的線性擬合方法,它通過最小化偏差平方和實現(xiàn)對曲線的擬合[28]。
2) 最小二乘支持向量機(Least square support vector machine,LSSVM) LSSVM 是由Suyken 等[29]提出的用于解決模式分類和函數(shù)估計問題的支持向量機,它采用最小二乘線性系統(tǒng)作為損失函數(shù),有效簡化了計算的復雜性,提高了運算速度。
模型性能以校正相關系數(shù)(Rc)和校正均方根誤差(RMSEC)及預測相關系數(shù)(Rp)和預測均方根誤差(RMSEP)為評價指標。評價原則:Rc和Rp越接近1,RMSEC、RMSEP 越接近0,模型效果越好。
為了提高模型的預測精度,采用Kennard-Stone(K-S)[29]法從測試完畢的100 個棗果樣本中隨機選取20 個用于檢驗模型的適用性,以3∶1 的比例對剩余80 個樣本進行樣本集和驗證集劃分,最終選擇校正集樣本60 個,驗證集樣本20 個。為考慮相對介電常數(shù)ε′和介電損耗因子ε″對預測結果的共線性影響,將兩者合并建立預測模型。樣本統(tǒng)計結果見表1。
表1 校正集與預測集樣本VC 的統(tǒng)計結果Table 1 Statistical results of VC contents in Calibration set and Predication set
校正集和預測集的樣本范圍分別為344.42~435.11 mg/100 g 和353.25~410.01 mg/100 g,校正集涵蓋預測集,說明樣本劃分合理。
將55 個頻率下的ε′值作為樣本的前55 個變量,55 個頻率下的ε″值作為樣本的后55 個變量,樣本的變量總數(shù)設為110 個。
圖1為某一棗果樣品在1 kHz~1 MHz 范圍的介電譜。由圖1可知,相對介電常數(shù)ε′隨頻率的增大先增大后減小,尤其在高頻率下減小迅速,其中6.31 kHz 時ε′為最大值;介電損耗因數(shù)ε″變化規(guī)律類似,10 kHz 時出現(xiàn)較小ε″值,22.39 kHz 時出現(xiàn)最大ε″值。
為了探尋介電參數(shù)與長棗VC 的線性關系,本文建立了55 個頻率點下的ε′和ε″與長棗VC的線性關系式y(tǒng)=aX+b,其中y 代表ε′或ε″,X代表VC 含量,a 和b 為擬合系數(shù)。如圖2所示,Rε′和Rε″分別表示各頻率點下ε′和ε″與VC 的線性相關系數(shù)。
圖1 某一棗樣品的介電譜隨頻率變化圖Fig.1 Variation of dielectric spectrum of a long jujube sample
圖2 長棗的介電特性與VC 含量的線性關系Fig.2 The linear relationship between the dielectric properties of Lingwu Long Jujube and VC content
由圖2可知,所有頻率點下的ε′和ε″與長棗VC 均呈正相關,且線性相關系數(shù)值均小于0.6,表明單一頻率下的ε′和ε″與長棗VC 相關性較弱,僅以單一頻率下的介電參數(shù)值很難用于預測長棗的VC 含量。有必要探討是否用更多的介電參數(shù)或全頻譜預測長棗內部的VC 含量。
2.4.1 CARS 算法提取有效信息 圖3顯示根據(jù)CARS 算法提取有效頻譜信息的結果。設定MC 采樣50 次,采用5 折交叉驗證法計算,因每次運行CARS 結果具有隨機性,故在每個設定的蒙特卡洛抽樣次數(shù)下運行20 次,取20 次建立的PLS 模型中最小RMSECV 值作為結果篩選標準。
由圖3可知,在1 次CARS 算法中,由于衰減指數(shù)函數(shù)的作用,隨著采樣次數(shù)的增加,在采樣前期變量數(shù)快速減少,表明算法"粗選"和"精選"的過程。隨著采樣次數(shù)的增加,單個PLS 模型的5 折交叉驗證RMSECV 值呈現(xiàn)由大到小再到大的變化過程。采樣7 次時RMSECV 值最小值為2.35。最終,從57 個變量中選定23 個變量(13 個ε′,10個ε″)作為特征頻譜組合,結果見表2。
2.4.2 GA 算法提取有效信息 長棗介電頻譜通過GA 算法篩選的有效信息如圖4所示。橫坐標為介電頻譜的各頻率點,縱坐標為不同頻率點被篩選的頻次,頻次越高表示該點適應性越強,與長棗VC 相關性越高。
GA 算法運算過程中,設定遺傳代數(shù)為100,以最小的RMSECV(交叉驗證均方根誤差)值和最高的R2值組合作為篩選標準。經20 次隨機搜索后,得到最大R2值為89.72,最小RMSECV 值為3.72。最終選定特征頻率35 個 (23 個ε′,12 個ε″)。
2.4.3 SPA 算法提取有效信息 應用SPA 算法對頻譜數(shù)據(jù)進行有效信息提取,結果如圖5所示。
SPA 算法運算過程中,設定變量數(shù)選擇范圍3~20,步長為1,根據(jù)RMSEC 值隨變量個數(shù)的變化確定最佳特征變量數(shù)。如圖5所示,當變量個數(shù)為14 時,RMSEC 值最小為2.95。變量個數(shù)大于14時其RMSEC 值不再減小。最終選定特征頻率14個(9 個ε′,5 個ε″)。
2.4.4 UVE 算法提取有效信息 因UVE 是基于偏最小二乘回歸系數(shù)選擇變量的一種方法,故在應用UVE 算法提取頻譜有效信息前,首先根據(jù)PLS 交互驗證模型中RMSECV 的最小值確定PLS模型的最佳主成分數(shù)。本研究設定主成分為10。UVE 算法提取有效信息結果見圖6。
圖3 長棗介電譜的CARS 篩選圖Fig.3 CARS screening of dielectric spectra of Long Jujube
圖4 長棗介電譜的GA 篩選圖Fig.4 GA screening of dielectric spectra of Long Jujube
圖5 長棗介電譜的SPA 篩選圖Fig.5 SPA screening of dielectric spectra of Long Jujube
圖6 長棗介電譜的UVE 篩選圖Fig.6 UVE screening of dielectric spectra of Long Jujube
圖6中,豎線左邊為110 個頻譜變量,右邊為110 個隨機變量,兩條水平虛線為變量選擇閾值。閾值的選擇標準為隨機變量穩(wěn)定性最大絕對值的99%。兩條虛線之內的信息被看作無用信息,虛線之外的信息被看作有用信息,其對應的頻譜點被作為有效信息提取出來。最終選定特征頻率38 個(30 個ε′,8 個ε″)。經各算法提取的特征頻率點見表2。
表2 特征頻率點列表Table 2 List of characteristic frequency points
2.5.1 建立長棗VC 預測模型 將各算法提取的特征介電參數(shù)作為輸入量,VC 值作為應變量,建立PLS、LSSVM 模型,見表3。
表3 基于長棗介電頻譜建立的VC 含量預測模型Table 3 Prediction model of VC content based on dielectric spectrum of Long Jujube
由表3可知,(1)PLS模型結果分析:經CARS、GA、SPA、UVE 對頻譜預處理后所建模型的Rc、Rp值均大于全頻譜-PLS 模型且各值均大于0.85,RMSEC、RMSEP 值基本小于全頻譜-PLS 模型,表明頻譜預處理對模型優(yōu)化是有意義的。
(2)對比4 種頻譜預處理方法提取特征頻率點個數(shù),SPA、CARS 算法對比GA、UVE 算法,兩者提取有效頻點數(shù)最少,分別占全頻譜的12.72%,20.90%,而兩者所建PLS 模型Rc、Rp值均小于GA-PLS、UVE-PLS 模型,RMSEC、RMSEP 值均大于GA-PLS、UVE-PLS 模型。其原因可能為:SPA算法在解決信息重疊的同時,將部分相關信息一并剔除,導致模型效果變差;CARS 算法只能衡量變量單區(qū)間PLS 模型優(yōu)劣,無法對整區(qū)間模型水平作出判斷。
(3)對比UVE-PLS、GA-PLS 模型可發(fā)現(xiàn),兩者在保留特征頻點個數(shù)基本一致的情況下,UVEPLS 模型和GA-PLS 模型Rc、Rp值分別為0.9871、0.9460 和0.9455、0.9209,RMSEC、RMSEP 值分別為3.9322、4.0400 和4.2485、4.1512;UVE-PLS 模型Rc、Rp 值略大于GA-PLS 模型,而RMSEC、RMSEP 值略小于GA-PLS 模型,故UVE-PLS 模型穩(wěn)定性及預測精度均優(yōu)于GA-PLS 模型。PLS建模過程中選定UVE-PLS 模型為最優(yōu)模型。
(4)LSSVM 模型結果分析:SPA-LSSVM 模型Rc、Rp值分別為0.8016、0.7567,均小于全頻譜-LSSVM 模型(Rc為0.8927,Rp為0.7931),故其校正及預測能力較全頻譜-LSSVM 稍差,經CARS、GA、UVE 對頻譜預處理后所建模型的效果明顯優(yōu)于全頻譜-SVM;GA-LSSVM 模型Rc、Rp值和RMSEC、RMSEP 值分別為0.9355、0.9037 和5.1347、6.7537,其Rc、Rp值 均 小 于UVE-LSSVM 和CARS-LSSVM 模型,而RMSEC、RMSEP 值均大于UVE-LSSVM 和CARS-LSSVM 模型;其在模型精度及穩(wěn)定性方面次于UVE-LSSVM 和CARSLSSVM,后兩者雖在模型校正能力方面相似,但UVE-LSSVM 模型的預測精度明顯好于CARSLSSVM。LSSVM 建模過程中選定UVE-LSSVM 模型為最優(yōu)模型。
(5)對比UVE-PLS、UVE-LSSVM 發(fā)現(xiàn),UVEPLS 模型在校正能力、預測能力及模型精度方面,均優(yōu)于后者,故UVE-PLS 為長棗VC 預測的最佳模型。分析原因可能為:UVE 是基于偏最小二乘回歸系數(shù)選擇變量的一種方法,計算過程中可通過引入噪聲變量達到逐一剔除無關原始變量的目的?!熬_”去除冗余信息的同時極大地保留了有效信息。
2.5.2 模型驗證 將隨機選出的20 個未參與建模的樣本作為獨立預測集,驗證UVE-PLS 模型的適用性,結果見圖7。
實測值與預測值點呈對角線分布且以小幅度在對角線上、下波動。t 檢驗表明,各項指標預測值與實測值無顯著差異。
圖7 UVE-PLS 模型驗證Fig.7 UVE-PLS model validation
以鮮摘靈武長棗為研究對象,在1 kHz~1 MHz 頻率范圍,通過CARS、GA、SPA、UVE 算法對以相對介電常數(shù)ε′和介電損耗因子ε″組成的110個變量進行優(yōu)化篩選,最終分別選定23、35、14、38 個特征頻率點,將其作為輸入變量建立長棗VC 的LSSVM、PLS 模型。結果表明:對PLS 模型,頻譜篩選方法的優(yōu)等級排名為UVE>GA>CARS>SPA;對LSSVM 模型,頻譜篩選方法的優(yōu)等級排名為UVE>CARS>GA>SPA;選定UVE-PLS 為最佳預測模型,其Rc、RMSEC、Rp、RMSEp 值分別為0.9871、3.9322、0.9460、4.0400,驗證模型R2值為0.9617,表明UVE-PLS 模型具有較好的預測精度、穩(wěn)定性及適用性,基于介電頻譜無損預測長棗VC 含量的方法是可行的。