魏雨晴,王毓寧,李紹佳,孫崇德,吳迪*
(1.浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院果樹科學(xué)研究所,杭州310058;2.江蘇太湖地區(qū)農(nóng)業(yè)科學(xué)研究所,江蘇 蘇州215106)
枇杷是一種酸甜爽口、軟糯多汁的薄皮型水果,不僅含有豐富的礦質(zhì)元素、蛋白質(zhì)等營養(yǎng)成分,還含有多種有益的活性物質(zhì)(如萜類化合物、苦杏仁苷、類黃酮化合物、酚類物質(zhì)、有機酸類等),是一種深受消費者喜愛的“明星”水果[1]。為了提高枇杷的經(jīng)濟價值和市場競爭力,需要對其進行分級銷售,使枇杷果實的商品價值最大化。這也將有利于引導(dǎo)市場定價和保障消費者的合法權(quán)益,還能間接推動水果產(chǎn)業(yè)的結(jié)構(gòu)化改革,提升水果產(chǎn)品的市場競爭力。
目前,枇杷市場缺乏能夠快速、準確、無損地獲取果實內(nèi)部品質(zhì)的檢測技術(shù)。市場上針對枇杷果實的分類大多基于對果實色澤和大小的觀察或者采用抽樣式破壞性的生理指標檢測方法[2]。前者主要憑借人工經(jīng)驗對枇杷果實進行分類,這容易造成分類結(jié)果的不準確,分類結(jié)果極大地依賴于果農(nóng)或者經(jīng)銷商的個人主觀經(jīng)驗,且無法大批量地對果實進行分級篩選,導(dǎo)致難以在產(chǎn)業(yè)上推廣應(yīng)用。而后者雖然可以取得較為準確的結(jié)果,但這種方法檢測過程復(fù)雜耗時,需要破壞水果,導(dǎo)致只能對抽樣果實進行檢測,同樣無法對枇杷果實進行大批量的品質(zhì)檢測,無法滿足市場上枇杷快速分級篩選的需要。因此,目前市場上的枇杷果實極少按照內(nèi)部品質(zhì)進行分級銷售,這使得優(yōu)質(zhì)的枇杷果實不能以優(yōu)價銷售,從而造成枇杷果實經(jīng)濟價值的浪費。
近紅外光譜技術(shù)作為一種快速、無損、簡便的檢測技術(shù),已在生物、食品、能源、農(nóng)業(yè)等領(lǐng)域得到廣泛的應(yīng)用[3-6]。由于近紅外光譜結(jié)合化學(xué)計量學(xué)方法可以實現(xiàn)水果的快速檢測,已被應(yīng)用于多種果實的內(nèi)部品質(zhì)檢測,如枇杷[7]、蘋果[8]、桃[9]、梨[10]、柑橘[11]等。但目前大多數(shù)應(yīng)用近紅外光譜技術(shù)進行的果實品質(zhì)檢測研究主要存在3 方面問題:一是采用的臺式光譜儀較昂貴,尚沒有開發(fā)出低成本的便攜式枇杷專用檢測儀,限制了儀器的產(chǎn)業(yè)化推廣;二是大多研究都只對同一時間段采集的建模集和預(yù)測集樣本進行建模,沒有考慮模型在不同年度樣本中的應(yīng)用效果;三是光譜采集大多由專業(yè)的檢測人員進行,采集過程非常小心,但在實際生產(chǎn)中,儀器的使用者往往不是專業(yè)檢測人員,導(dǎo)致基于實驗室里精心采集的光譜數(shù)據(jù)所建立的模型在實際應(yīng)用中檢測精度不佳。
針對上述問題,本研究擬采用自主研發(fā)的便攜式枇杷果實品質(zhì)無損檢測儀,分別采集2018和2019年的枇杷光譜數(shù)據(jù),然后采用化學(xué)計量學(xué)分析方法構(gòu)建枇杷果實中的重要品質(zhì)指標——可溶性固形物(total soluble solids,TSS)的檢測模型,并開展獨立樣本年度驗證,以實現(xiàn)枇杷果實的快速無損品質(zhì)分級。
枇杷果實品質(zhì)無損檢測儀的結(jié)構(gòu)示意和實物圖如圖1所示,其光譜范圍為900~1 700 nm,光譜分辨率為10 nm,單次1 s掃描,信噪比為5 000∶1,狹縫尺寸為1.69 mm×0.025 mm,傳感器為1 mm3的正方體非制冷銦鎵砷芯片,掃描形式為直線掃描。儀器上部開口,便于放置枇杷樣品及進行光譜采集。
無損檢測儀光路模擬如圖2 所示,大致的光路過程如下:在枇杷采集過程中將未吸收的反射光譜線導(dǎo)入狹縫,狹縫分散光經(jīng)過準直鏡后變?yōu)槠叫泄獠⑼渡涞狡矫婀鈻派线M行波段分光,然后將分光后的光線導(dǎo)入聚焦鏡,將平行光聚焦成線形光并在直線性探測器上進行感光,驅(qū)動點探測器移動和進行分光掃描,并將探測器上的信號通過通用串行總線(USB)接口導(dǎo)入電腦內(nèi)存,在電腦界面中顯示光譜信息,最終實現(xiàn)光譜數(shù)據(jù)的采集和分析處理。
圖1 枇杷果實品質(zhì)無損檢測儀結(jié)構(gòu)示意(A)和實物圖(B)Fig.1 Schematic diagram(A)and physical map(B)of nondestructive detector for loquat fruit quality
圖2 枇杷果實品質(zhì)無損檢測儀光路圖Fig.2 Light path of non-destructive detector for loquat fruit quality
以江蘇省蘇州地區(qū)主栽的‘白玉’枇杷品種為試驗材料,于2018 年5 月采摘并挑選出無病蟲害、無明顯機械損傷的八成熟‘白玉’枇杷作為研究對象。采摘后立即運回實驗室,在25 ℃條件下保存6 h,而后對其進行編號和光譜采集(采集積分時間為1 s,功率為20 W)。為減少樣品表面差異性帶來的誤差,每個枇杷樣品數(shù)據(jù)采集5次,平均處理后得到一條平均光譜,作為枇杷果實的樣本光譜。共對200顆枇杷果實進行光譜采集,得到200條光譜。每條光譜有100 個波段,即100 個變量。光譜采集過程由此前沒有經(jīng)過光譜采集訓(xùn)練的人員進行。完成近紅外光譜采集后,剪碎枇杷果肉,擠出果汁,使用手持式阿貝折射儀(PAL-1,日本愛拓公司)測定每個枇杷果實的TSS 值,作為數(shù)據(jù)建模的參考值。為了開展模型的年度驗證,于2019 年另外采摘30顆‘白玉’枇杷,獲取其光譜數(shù)據(jù),并測定其TSS 含量。光譜采集方法與2018年的一致。
為構(gòu)建枇杷果實TSS 值與光譜數(shù)據(jù)之間的定量關(guān)系,采用線性偏最小二乘(partial least squares,PLS)回歸模型[12]和非線性最小二乘支持向量機(least squares support vector machines,LS-SVM)模型[13]進行回歸模型的構(gòu)建,并對這2個模型的計算結(jié)果進行分析和對比,確定最優(yōu)回歸模型。PLS 采用蒙特卡洛交叉驗證來確定潛在變量個數(shù)。LS-SVM采用徑向基核函數(shù),其2個參數(shù)(γ和σ2)的最優(yōu)值通過基于留一法交叉驗證的網(wǎng)格搜索尋優(yōu)得到。
為進一步簡化模型計算,提升模型的預(yù)測精度,無信息變量消除法(uninformative variable elimination,UVE)[12]和競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)[14]2種常用的光譜變量選擇方法被采用。UVE主要用于消除那些無信息變量,留下信息變量,而CARS則主要是基于自適應(yīng)重加權(quán)采樣和交叉驗證來進行無信息變量的剔除?;谶x出的特征變量構(gòu)建更簡化的定量模型,并將模型表現(xiàn)與全變量模型進行對比,從而確定枇杷果實品質(zhì)檢測最優(yōu)模型策略。
本研究的建模思路是:首先對2018 年的200 個枇杷果實樣本按照建模集和預(yù)測集比值為3∶1 的比例,對樣本進行隨機劃分,建立2018 年度的枇杷果實預(yù)測模型。而后為進一步驗證模型的泛化能力,應(yīng)用2018 年的200 顆枇杷果實的光譜數(shù)據(jù)和TSS 值作為建模集構(gòu)建檢測模型,以2019 年的30顆枇杷果實作為獨立預(yù)測集來進行模型的年度驗證。
建模得到的結(jié)果評價采用2種思路進行。一種是常規(guī)的光譜模型評價方法,即基于建模集相關(guān)系數(shù)(Rc)、預(yù)測集相關(guān)系數(shù)(Rp)、建模集均方根誤差(root mean square error of calibration,RMSEC)、預(yù)測集均方根誤差(root mean square error of prediction,RMSEP)、剩 余 預(yù) 測 偏 差(residual prediction deviation,RPD)對建立的模型進行評價。另外一種思路則是以實際生產(chǎn)上更適合的好果率和選果率來評價,以更切合果農(nóng)需求。模型結(jié)果的評價指標主要包括:一類好果率(一類好果數(shù)除以總果數(shù))、二類好果率(二類好果數(shù)除以總果數(shù))、選果率。根據(jù)產(chǎn)業(yè)實際需求,一類好果被定義為TSS 值大于14°Brix,二類好果被定義為TSS 值大于13°Brix。選果率的定義為:通過模型無損選出的好果數(shù)除以全部樣本中實際的好果數(shù)。
2018 和2019 年度枇杷果實的近紅外光譜平均數(shù)據(jù)如圖3所示。從中可以看出,2018與2019年采集到的近紅外光譜線趨勢整體一致。900~1 400 nm波段范圍的整體光譜反射率在10%~40%之間;1 400~1 600 nm 范圍的整體光譜反射率在5%~20%之間;1 600~1 700 nm范圍內(nèi)的整體光譜反射率有一定的上升趨勢。在960、1 200和1 440 nm附近存在典型的枇杷果實光譜吸收峰。其中960 nm附近的吸收峰被歸屬于O—H 拉伸振動的二級倍頻,1 200 nm 附近的吸收峰被歸屬于C—H 拉伸振動的一級和二級倍頻以及C—H拉伸和伸縮振動的一級倍頻的合頻,1 440 nm 附近的吸收峰被歸屬于O—H拉伸振動的一級倍頻[7,15]。從光譜圖中雖然可以得到光譜波段響應(yīng)信息,但無法完成枇杷果實無損檢測的定量分析,因此還需結(jié)合化學(xué)計量學(xué)方法進行數(shù)據(jù)挖掘和建模分析。
圖3 2018和2019年度枇杷果實近紅外光譜平均響應(yīng)信號Fig.3 Average response signals of near-infrared spectra of loquat fruit harvested in 2018 and 2019
基于2018 年采集的200 顆枇杷果實的全變量光譜數(shù)據(jù)分別建立了PLS和LS-SVM回歸模型,結(jié)果如表1 所示??梢钥吹?,線性PLS 模型的結(jié)果優(yōu)于非線性LS-SVM 模型。其中PLS 模型的Rc和Rp值分別達到了0.802和0.765,RMSEP達到了1.358,RPD值為1.553。這些結(jié)果表明,采用相同年份的枇杷果實建立的預(yù)測模型可以對枇杷果實進行預(yù)測,其結(jié)果可用于枇杷果實品質(zhì)檢測。進一步基于2018年數(shù)據(jù)建立的全變量模型預(yù)測2019年的數(shù)據(jù)。結(jié)果(表1)顯示:LS-SVM 的Rc和Rp值分別達到了0.869 和0.796,RPD 值達到了1.577,優(yōu)于用2018 年數(shù)據(jù)所建立的回歸模型;而PLS回歸模型取得了更好的預(yù)測結(jié)果,其Rp值達到0.819,RPD 值達到1.729,相 比 于LS-SVM 模 型 的RPD 值 提 升 了9.638%,而且RMSEP 也從2.027 減小到了1.634。上述結(jié)果表明,在采用全變量進行建模時,PLS模型可以取得更好的預(yù)測精度,且在分析跨年度樣本時同樣可以取得較好的預(yù)測結(jié)果。
經(jīng)過UVE和CARS進行變量選擇后,分別從全變量中篩選出26和28個特征變量,相比于100個全變量,變量個數(shù)分別減少了74%和72%?;谶@2種方法選出的特征變量分別建立枇杷分級篩選模型,計算結(jié)果如表1所示。從中可以看出,經(jīng)過變量選擇后建立的模型,其RPD 值均在1.619~1.881 之間。通過綜合比較和分析,發(fā)現(xiàn)在這4個特征變量回歸模型中,UVE模型在不同程度上出現(xiàn)了欠擬合的現(xiàn)象,即Rc與Rp出現(xiàn)較大偏差。因此,雖然基于UVE建立的模型可以取得較高的預(yù)測精度,但由于模型欠擬合,UVE 模型并非最優(yōu)的枇杷篩選分級模型。導(dǎo)致UVE模型過擬合的原因主要是,雖然UVE能夠去除無信息的變量,從而將有信息的變量選擇出來,但無法解決變量冗余度高的問題,從而導(dǎo)致模型容易過擬合。而對比競爭性自適應(yīng)重加權(quán)算法-偏最小二乘法(competitive adaptive reweighted samplingpartial least squares,CARS-PLS)和競爭性自適應(yīng)重加權(quán)算法-最小二乘支持向量機(competitive adaptive reweighted sampling-least squares support vector machines,CARS-LS-SVM)的分析結(jié)果可以看出,CARS-LS-SVM 具有更好的預(yù)測效果,其RMSEP 值為1.453,Rp值為0.818,RPD 值為1.737。對比全變量定量分級模型可以看出,雖然CARSLS-SVM模型與全變量模型PLS在預(yù)測精度上無顯著性差異,但CARS-LS-SVM不僅可以減少變量個數(shù)、簡化計算,還能夠進一步降低模型的RMSEP值。這表明先進行CARS變量選擇再建立LS-SVM模型是建立枇杷果實品質(zhì)快速篩選模型的更好策略。
表1 枇杷果實品質(zhì)分級模型的回歸結(jié)果Table 1 Regression results of grading model for loquat fruit quality
基于2.1和2.2節(jié)的分析可以看到,在全變量和特征變量條件下的較優(yōu)模型分別為基于2018—2019跨年度的全變量PLS(FULL-PLS)模型和特征變量CARS-LS-SVM模型。為更準確地了解模型對枇杷果實的分類效果,進一步對這2個模型的好果識別率進行統(tǒng)計和分析。本研究中,在2019年所采集的30個枇杷果實中,有15 個一類枇杷(TSS>14°Brix),22個二類枇杷(TSS>13°Brix)?;谶@些信息,我們計算了預(yù)測集的好果率和選果率。從表2可以看出,對于FULL-PLS 模型,一類好果率從50.00%提升到了60.00%,而二類好果率則從73.33%提升到了78.57%,好果識別率提升了5.24%。值得注意的是,在分類模型中僅僅考慮好果率這一個指標是片面的。即模型在預(yù)測過程中,并不是所有的好果都被選擇出來,也有部分好果會被模型判定為差果。因此,為更準確地描述分類這一結(jié)果,我們還計算了一類和二類選果率。從表2可以看出:全變量PLS模型在一類枇杷和二類枇杷上的選果率均達到了100%。而最優(yōu)的特征變量模型CARS-LS-SVM 在一類好果率和二類好果率的結(jié)果上優(yōu)于全變量PLS模型;其預(yù)測集的一類好果率和二類好果率分別達到了71.43%和81.48%,而選果率則均達到了100.00%。
從表2 中還可以看出,雖然一類好果率和二類好果率在經(jīng)過模型分級后有一定的提升,但好果率提升程度有限。為更有把握地選擇出高品質(zhì)的好果,我們進一步將模型TSS 預(yù)測值在15°Brix 以上的枇杷果認定為一類好果(TSS>14°Brix),再根據(jù)其參考值是否大于14°Brix來判斷該樣本的預(yù)測是否正確。同理,將模型TSS 預(yù)測值在14°Brix 以上時挑選的枇杷果認定為二類好果(TSS>13°Brix),再根據(jù)其參考值是否大于13°Brix來判斷預(yù)測是否正確。根據(jù)上述原則,對2019 年的30 個獨立驗證集的枇杷果實進行統(tǒng)計分析,結(jié)果如表3 所示??梢钥吹?,經(jīng)過更加嚴格地篩選,好果率得到了進一步提升。一類好果率和二類好果率較分級前的提升幅度分別達到了30%和10%以上。雖然模型選果率有所下降,但仍然維持在一個較高的選果率水平(大于80%)?;谝陨戏治隹梢钥闯觯簩﹁凌斯麑嵃凑誘SS含量進行檢測可以取得較高的分選準確性,對于提升枇杷果實經(jīng)濟價值具有重要作用;更高標準的TSS 指標可以顯著地提升分級模型的好果率,同時能夠保證選果率維持在一個較高的水準。
表2 枇杷果實品質(zhì)分級模型的預(yù)測集分類結(jié)果Table 2 Classification results of prediction set of grading model for loquat fruit quality %
表3 提高分選標準后的枇杷果實品質(zhì)分級模型的預(yù)測集分類結(jié)果Table 3 Classification results of prediction set of grading model for loquat fruit quality after raising the sorting standard %
目前已有基于自制便攜式光譜儀進行農(nóng)產(chǎn)品品質(zhì)無損檢測的研究[16-17],但尚未有關(guān)于枇杷果實的光譜儀器開發(fā)的研究。本研究開發(fā)的枇杷果實品質(zhì)無損檢測儀具有低成本、便攜、專門適用于枇杷檢測等優(yōu)點,相比于實驗室常用的分辨率較高且性能較好,但價格昂貴的光譜儀,可以大大地節(jié)省硬件成本,便于后續(xù)的推廣應(yīng)用。結(jié)果表明,枇杷果實品質(zhì)無損檢測儀可以實現(xiàn)江蘇省蘇州地區(qū)‘白玉’品種枇杷的TSS 值檢測。同時,本研究在模型建立過程中采用2018和2019年度的枇杷果實數(shù)據(jù)作為獨立建模集和預(yù)測集,避免了單一時間采集枇杷樣本光譜造成的模型在實際生產(chǎn)中適用性不強的問題。結(jié)果顯示,儀器可以用于不同年度果實的檢測。此外,由于整個光譜采集過程是由非專業(yè)人員操作的,也模擬了實際產(chǎn)業(yè)應(yīng)用中儀器操作人員大多是非專業(yè)的情況,更加驗證了儀器的適用性。
進一步對檢測結(jié)果分析可以看出,基于全變量建模時,線性的PLS模型無論是在RPD值上還是在RMSEP 值上均優(yōu)于非線性的LS-SVM 模型,表明使用全變量建模時PLS 相比于LS-SVM 是更好的選擇。而經(jīng)過變量選擇后建立的模型則相反,即LS-SVM 得到的效果優(yōu)于PLS 模型。這表明在實際生產(chǎn)應(yīng)用中應(yīng)根據(jù)具體情況選擇適合的建模策略,以取得最好的預(yù)測效果。另外,對光譜數(shù)據(jù)進行變量選擇后可以看出,大部分的無信息變量都被消除了,但基于UVE選擇的特征變量進行建模分析時出現(xiàn)了欠擬合的現(xiàn)象。綜合比較全變量和特征變量6 個模型,確定最優(yōu)模型為CARS-LS-SVM 模型?;谠撃P偷乃诸惤Y(jié)果可以看出,一類好果率和二類好果率分別提升了21.43%和8.15%,而且選果率達到了100.00%。另外,當依據(jù)更高標準的TSS指標進行分選時,可以在選果率較高的水準下,顯著提升一類和二類好果率。這種分選策略將更有利于產(chǎn)業(yè)應(yīng)用中提升枇杷果實的經(jīng)濟價值。
雖然枇杷果實品質(zhì)無損檢測儀可以在一定程度上對枇杷果實品質(zhì)進行快速無損檢測,但分級篩選模型精度仍有待提升。造成這一結(jié)果主要有2方面的原因:一方面可能是不同年份采集的枇杷果實之間存在差異,使得基于某一天采集的樣本建立的模型的代表性不夠。針對這一問題,后續(xù)我們將進行更多年份的枇杷果實檢測,使樣本數(shù)據(jù)充分具有代表性。另一方面則可能是自主研發(fā)的近紅光譜儀在操作過程中存在的系統(tǒng)誤差和不同測量人員操作時帶來的差異。針對這一問題,我們將在后續(xù)的研究中測試多臺次的該款近紅外光譜儀,比較儀器生產(chǎn)的穩(wěn)定性;同時通過進一步提升儀器的硬件性能,盡量避免操作誤差帶來的影響。
本研究結(jié)果表明:使用自主研發(fā)的枇杷果實品質(zhì)無損檢測儀和建立的CARS-LS-SVM 模型獲得了較好的預(yù)測結(jié)果,其中CARS-LS-SVM 模型的RMSEP 值為1.453,Rp值為0.818,且分級后一類好果率和二類好果率分別從50.00%和73.33%提升到了86.67%和85.71%??傊?,使用自主研發(fā)的光譜儀不僅可以實現(xiàn)‘白玉’品種枇杷TSS 值的快速無損檢測,而且使用近紅外光譜無損檢測技術(shù)進行果實分級后,可以在少錯判好果的基礎(chǔ)上,顯著提高優(yōu)質(zhì)果實的選果比例,提升產(chǎn)品的商品價值。