張珮,王銀紅,李高陽,單楊,朱向榮*
1(湖南大學(xué) 研究生隆平分院,湖南 長(zhǎng)沙,410125)2(湖南省農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所,湖南 長(zhǎng)沙,410125)3(果蔬貯藏加工及質(zhì)量安全湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 長(zhǎng)沙,410125)
水蜜桃為亞熱帶水果,營(yíng)養(yǎng)豐富,味道鮮美,屬于呼吸躍變型果實(shí)[1],采后不耐貯,易腐爛變質(zhì)[2]。低溫可以抑制水蜜桃的呼吸強(qiáng)度,延長(zhǎng)其貯藏時(shí)間,但低溫貯藏易引起水蜜桃冷害的出現(xiàn)[3],果肉發(fā)生褐變、木質(zhì)化或絮敗等現(xiàn)象[4]。由于冷害發(fā)生在果實(shí)內(nèi)部,僅從外部不能判斷其是否發(fā)生冷害[5]。傳統(tǒng)桃果實(shí)冷害識(shí)別需將水蜜桃切開,人工觀察判斷是否發(fā)生冷害,操作繁瑣,具有破壞性。因此,亟需對(duì)冷藏期間的水蜜桃冷害進(jìn)行快速無損檢測(cè),監(jiān)測(cè)其質(zhì)量變化情況,減少冷害造成的損失。近紅外(near infrared,NIR)光譜是一種快速無損實(shí)時(shí)的檢測(cè)技術(shù),在果蔬采后冷害定性識(shí)別方面國內(nèi)外已有報(bào)道[6-9],但目前采用 NIR 光譜對(duì)桃果實(shí)低溫冷害進(jìn)行識(shí)別研究鮮有報(bào)道。
本文采集了水蜜桃在低溫貯藏期間的NIR光譜,篩選出最佳光譜預(yù)處理方法,采用偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)、K-最鄰近法(K-nearest neighbor,K-NN)、主成分判別分析(principal component discriminant analysis,PCA-DA)和簇類獨(dú)立軟模式(soft independent modeling of class analogy,SIMCA) 4種方法建立冷害褐變的分類模型,并比較不同建模方法的性能。本研究將為水蜜桃在低溫貯藏期間的冷害檢測(cè)及質(zhì)量控制提供依據(jù)。
試驗(yàn)選用水蜜桃進(jìn)行試驗(yàn),于2019年7月15日長(zhǎng)沙毛家橋水果市場(chǎng)購入,運(yùn)至冷庫進(jìn)行處理。挑選七成熟,無機(jī)械損傷,大小一致,達(dá)到食用要求的水蜜桃作為試驗(yàn)樣品。
1.2.1 水蜜桃低溫冷藏處理
用0.05 mm厚度的打孔聚乙烯(polyethylene,PE)保鮮袋進(jìn)行挽口包裝,每袋10個(gè)果實(shí),在(4±2) ℃冷庫中貯藏。貯藏時(shí)間為5周,每隔7 d取樣,共計(jì)取樣189個(gè)。然后在20 ℃,濕度90%左右條件下放置3 d后,進(jìn)行光譜采集及指標(biāo)測(cè)定。
1.2.2 水蜜桃冷害褐變指數(shù)測(cè)定
參考馮磊等[10]的桃果實(shí)冷害褐變分級(jí)方法,將水蜜桃沿縫合線縱切,并按果肉褐變程度分為 5 級(jí),即:0級(jí),褐變面積為0;1級(jí),褐變面積0~25%;2級(jí),褐變面積25%~50%;3級(jí),褐變面積50%~75%;4級(jí),褐變面積>75%。按照公式(1)計(jì)算褐變指數(shù):
(1)
兩分類模型:將無冷害褐變樣品標(biāo)為0,冷害褐變的樣品標(biāo)為1;多分類模型:將0、1、2、3和4級(jí)冷害桃果實(shí)樣品分別標(biāo)為1、2、3、4和5。
采用 Nicolet Antaris Ⅱ傅立葉變換近紅外光譜儀,選擇積分球固體采樣模塊采集樣品的漫反射光譜,波長(zhǎng)范圍為1 000~2 500 nm,掃描次數(shù)32,分辨率4 cm-1。在果實(shí)的赤道處每隔120°進(jìn)行采集,3次采集平均作為樣品的NIR光譜。
研究比較了均值中心化(mean centering, MC)、多元散射校正(multiplicative scatter correction, MSC)、標(biāo)準(zhǔn)正態(tài)變化(standard normal variate, SNV)、最小二乘平滑濾波器(savitzky-golay, SG) 以及相互組合的效果, 確定最優(yōu)光譜預(yù)處理方法, 采用 PLS-DA、K-NN、PCA-DA 和 SIMCA 4種方法建立水蜜桃冷害褐變的定性模型。
采用交叉驗(yàn)證準(zhǔn)確率、總未分配值對(duì)水蜜桃冷害定性模型進(jìn)行評(píng)價(jià)。交叉驗(yàn)證準(zhǔn)確率越接近100%,表明模型識(shí)別準(zhǔn)確性越高[11]。總未分配值越大,表明未能準(zhǔn)確識(shí)別樣品類別的個(gè)數(shù)越多,模型精確性越差[12]。
采用 TQ Analyst 9.5(Thermo Fisher)進(jìn)行數(shù)據(jù)采集,利用 MATLAB2017b 軟件(Mathwork Inc.)進(jìn)行分析處理。
2.1.1 果肉縱切面與冷害褐變指數(shù)的變化
圖1為貯藏期間果肉縱切面圖。水蜜桃在4 ℃下,第1周果實(shí)縱切面的顏色開始發(fā)生變化,果實(shí)縱切面的邊緣開始出現(xiàn)褐色,第2周縱切面的褐色果肉所占比例有所延長(zhǎng),邊緣部分的褐色面積逐漸增大。貯藏3周時(shí),水蜜桃縱切面的果肉開始出現(xiàn)絮狀,果實(shí)的褐色果肉面積開始蔓延到桃核。貯藏第4周的果實(shí)縱切面顯示,褐變果肉面積達(dá)50%,果肉開始出現(xiàn)腐爛現(xiàn)象。貯藏第5周,大部分果實(shí)的褐色果肉面積占比要大于75%,冷害褐變嚴(yán)重,喪失食用價(jià)值。隨著貯藏時(shí)間延長(zhǎng),冷害和褐變程度加劇,桃果實(shí)冷害褐變指數(shù)逐步上升,從20.8%升到 65%。
圖1 4 ℃下貯藏5周的水蜜桃果肉縱切面
圖2為低溫貯藏期間不同冷害程度的水蜜桃原始平均NIR光譜圖。由圖2可看出,5種不同冷害褐變程度的桃果實(shí)樣品近紅外光譜的波峰波谷出現(xiàn)位置一致,1 200 nm和1 450 nm 附近主要為 C—H鍵的相關(guān)吸收峰,這與桃果實(shí)中的糖、水分、淀粉、果膠和纖維素化合物相關(guān)。1 785 nm附近主要為纖維素中的—CH2官能團(tuán)伸縮振動(dòng)的相關(guān)光譜吸收[13],纖維素和果膠組成果肉組織,其含量影響著桃果實(shí)果肉硬度的大小。水蜜桃果發(fā)生冷害時(shí),果實(shí)軟化,細(xì)胞壁中果膠融化,果肉質(zhì)地發(fā)生變化,因此NIR光譜與桃果實(shí)的冷害現(xiàn)象相關(guān)[14]。不同褐變等級(jí)的光譜交叉重疊,無法直接從原始NIR光譜圖中對(duì)冷害褐變情況的樣品進(jìn)行直接的判斷識(shí)別,需采用化學(xué)計(jì)量學(xué)方法進(jìn)行解析。
圖2 不同冷害褐變指數(shù)的樣品近紅外光譜圖
圖3為樣品NIR光譜的主成分分析(principal component analysis,PCA)圖,前3個(gè)主成分分析表明,5種不同冷害褐變指數(shù)的水蜜桃樣品NIR光譜的第1主成分(PC1)、第2主成分(PC2)和第3主成分(PC3)的方差貢獻(xiàn)率分別為 84.5%、13.5%和1.72%。在三維圖上,不同類的水蜜桃樣品聚集在一起,重疊較為嚴(yán)重,無明顯分界線。使用無監(jiān)督學(xué)習(xí)的 PCA算法較難實(shí)現(xiàn)對(duì)不同冷害褐變指數(shù)的樣品進(jìn)行精確識(shí)別,因此需要對(duì) NIR光譜進(jìn)行光譜預(yù)處理,采用有監(jiān)督學(xué)習(xí)的建模方法對(duì)水蜜桃冷害進(jìn)行識(shí)別。
圖3 不同冷害褐變指數(shù)的樣品近紅外光譜主成分分析
按照校正集:驗(yàn)證集為3∶1的比例,利用KS算法[15]將142個(gè)水蜜桃作為校正集,47個(gè)作為驗(yàn)證集。189個(gè)樣品經(jīng)KS算法分類后的統(tǒng)計(jì)結(jié)果如表1所示。由表1可知,水蜜桃經(jīng)KS分類后,1級(jí)褐變的水蜜桃占總樣品比例最高為31.22%,4級(jí)褐變所占比例最少為6.88%。校正集和預(yù)測(cè)集均包含了 0~4 級(jí)褐變等級(jí),樣本分布均勻,數(shù)據(jù)適合后續(xù)建模分析。
由于 NIR 光譜存在著基線漂移、噪音等問題,影響預(yù)測(cè)模型的準(zhǔn)確性,因此需要對(duì) NIR 光譜進(jìn)行預(yù)處理[16]。本研究采用 MC、MSC、SNV 及相互組合方法對(duì)全光譜進(jìn)行預(yù)處理。表2 為不同預(yù)處理后的 PLS-DA 模型結(jié)果。
表1 樣本集的褐變等級(jí)劃分?jǐn)?shù)據(jù)統(tǒng)計(jì)
表2 不同預(yù)處理優(yōu)化的PLS-DA模型結(jié)果
由表2可知,多分類模式中,利用SG+MSC算法處理后建立的 PLS-DA模型效果最好,校正集準(zhǔn)確率0.70,驗(yàn)證集準(zhǔn)確率0.71,總準(zhǔn)確率為0.71,總未分配值為0.27,模型準(zhǔn)確率較好,未能識(shí)別樣品褐變等級(jí)的個(gè)數(shù)相對(duì)較多。兩分類模式經(jīng)SG+SNV算法預(yù)處理后的效果最佳,模型校正集準(zhǔn)確率、驗(yàn)證集準(zhǔn)確率、總準(zhǔn)確率、總未分配值分別為 0.95、0.91、0.93和0,模型預(yù)測(cè)準(zhǔn)確度好,識(shí)別精度高。兩分類模型效果優(yōu)于多分類模型,表明無冷害褐變與冷害褐變的樣品之間存在較大的光譜差異。這與XIA等[7]利用 NIR 對(duì)蘋果 4 種不同冷害等級(jí)的分類效果一致,其研究結(jié)果顯示,兩分類模型比多分類模型準(zhǔn)確性高。這可能因?yàn)槎喾诸惸J较?,冷害褐變等?jí)之間較為相近,易被錯(cuò)誤劃分,而二分類模型的等級(jí)之間差別較為明顯,具有較少的分類特征向量,更適合于選擇最優(yōu)信息點(diǎn),計(jì)算函數(shù)并進(jìn)行分類時(shí)誤差降低,從而提高分類準(zhǔn)確度[17-18]。因此 NIR光譜中含有與水蜜桃內(nèi)部冷害褐變有關(guān)的信息,可以對(duì)水蜜桃內(nèi)部有無冷害褐變進(jìn)行分類,但進(jìn)行更加精準(zhǔn)分級(jí)時(shí)準(zhǔn)確度略低。
2.5.1 PLS-DA 模型的建立
根據(jù)篩選出的最佳SG+MSC、SG+SNV算法分別對(duì)NIR全光譜進(jìn)行預(yù)處理,分別按照多分類模式、兩分類模式建立PLS-DA模型。同時(shí)采用十折法進(jìn)行交叉驗(yàn)證,對(duì)水蜜桃冷害褐變等級(jí)進(jìn)行分類[19]。根據(jù)準(zhǔn)確率和未分配樣本值選擇最佳潛變量數(shù)[12],分別確定了多分類最佳潛變量數(shù)為16,兩分類最佳潛變量數(shù)為7,兩分類和多分類的PLS-DA模型校正集和驗(yàn)證集的總正確率分別為0.71和0.93。
2.5.2 K-NN模型的建立
K-NN算法為有監(jiān)督模式識(shí)別法,屬于非參數(shù)分類方法[20]。其中K-NN模型的K值選擇極為重要,影響著定性結(jié)果[19]。利用K-NN算法并基于多分類和兩分類模式建立定性模型,同時(shí)進(jìn)行交叉驗(yàn)證。根據(jù)交叉驗(yàn)證后錯(cuò)誤率的大小來選擇合適的K值。2種分類模式的定性模型的K值選擇如圖4所示,分別確定了2種分類模式的定性模型最佳K值為2和8,交叉驗(yàn)證最低錯(cuò)誤率分別為0.52和0.14多分類模式下K-NN模型的總準(zhǔn)確率為0.55,兩分類模式下,K-NN模型的總準(zhǔn)確率為0.91。
a-多分類;b-兩分類
2.5.3 PCA-DA模型的建立
PCA-DA是基于主成分分析的一種判別方法,可適用于近紅外光譜重疊較嚴(yán)重的樣本集[21-22]。PCA-DA模型建立時(shí)需先對(duì)水蜜桃冷害褐變等級(jí)進(jìn)行主成分分析,再建立相關(guān)分類模型。分別建立多分類和兩分類模式下冷害褐變等級(jí)的PCA-DA定性模型,并進(jìn)行交叉驗(yàn)證。根據(jù)交叉驗(yàn)證后的錯(cuò)誤率作為指標(biāo),確定了多分類和兩分類主成分?jǐn)?shù)為18和16時(shí),交叉驗(yàn)證錯(cuò)誤率最低為0.46和0.05。多分類模式下PCA-DA模型的校正集的正確劃分樣品值為80,識(shí)別率為56.33%,兩分類的PCA-DA模型校正集準(zhǔn)確劃分樣品個(gè)數(shù)為135,識(shí)別率為95.07%。
2.5.4 SIMCA模型的建立
SIMCA算法是以主成分分析為基礎(chǔ)的一種判別方法[23],對(duì)水蜜桃的每一個(gè)褐變等級(jí)進(jìn)行主成分回歸之后進(jìn)行預(yù)測(cè),分別選擇每個(gè)分類等級(jí)的最佳主成分值,建立SIMCA模型。靈敏度和特異性曲線交叉時(shí),模型的假陽性與假陰性出現(xiàn)率最低[24]。因此交叉驗(yàn)證錯(cuò)誤率低,同時(shí)靈敏度、特異度交叉或較接近時(shí)對(duì)應(yīng)的主成分值建立模型效果最好。多分類中每個(gè)褐變等級(jí)的最佳主成分?jǐn)?shù)分別是3、4、2、3和3,此時(shí)模型的總準(zhǔn)確率和總未分配率分別為0.76和0.62。兩分類模型的主成分值為5和6時(shí)SIMCA模型效果最好,此時(shí)模型的總準(zhǔn)確率未分配率為0.94和0.28。
利用上述建立好的模型,對(duì)水蜜桃褐變等級(jí)進(jìn)行分類,比較了 PLS-DA、K-NN、PCA-DA和SIMCA 4種算法對(duì)水蜜桃冷害褐變等級(jí)的分類效果。表3為在多分類和兩分類模式下4種建模方法的效果。
表3 四種方法建模結(jié)果比較
由表3可知,多分類的分類模式中,SIMCA的總準(zhǔn)確率為0.76,未分配值0.62,SIMCA模型精確性較差,不適用于本研究中的樣品定性分析。PLS-DA模型校正集準(zhǔn)確率、驗(yàn)證集準(zhǔn)確率以及總準(zhǔn)確率分別為0.70、0.71和0.71,準(zhǔn)確率較好,模型的分類精確性優(yōu)于SIMCA。PCA-DA和K-NN的未分配值為0,總準(zhǔn)確性分別為0.61和0.55,水蜜桃冷害等級(jí)雖被定性,但正確分類的效果較差。因此多分類模式下最優(yōu)模型為PLS-DA定性模型。
兩分類模式中,4種算法的總準(zhǔn)確率均大于0.9,其中SIMCA模型的總準(zhǔn)確率和未識(shí)別率均最高為0.94和0.28,模型準(zhǔn)確性好,但精度較差。PLS-DA模型的總準(zhǔn)確率為0.93,未識(shí)別率為0,分類精度好。K-NN和PCA-DA模型總準(zhǔn)確率分別為0.91、0.92,準(zhǔn)確率低于PLS-DA模型,因此PLS-DA算法的分類效果最好。
K-NN算法的準(zhǔn)確率較低,可能與其為基于實(shí)例的無參數(shù)方法有關(guān)[19],K-NN算法適用于數(shù)量少且典型性較好的樣本,而水蜜桃的褐變等級(jí)之間差異較小,NIR光譜的典型性不足,因此使用K-NN方法時(shí),不能精確識(shí)別樣本,預(yù)測(cè)的準(zhǔn)確度相應(yīng)較低。SIMCA算法準(zhǔn)確度好,但未分配率較高,這可能與SIMCA需對(duì)每一類樣本進(jìn)行主成分分析,而水蜜桃褐變等級(jí)之間的品質(zhì)差別不明顯,不容易被SIMCA算法精確識(shí)別,因此模型的準(zhǔn)確度雖較高,但精度較差[25]。PCA-DA模型結(jié)果比PLS-DA差,可能因?yàn)镻CA-DA模型是基于主成分分析的一種有監(jiān)督分類方法,而PLS-DA算法是基于PLS的分類方法,預(yù)測(cè)時(shí)PLS-DA算法同時(shí)結(jié)合了光譜與水蜜桃褐變等級(jí)的信息,能夠充分對(duì)每個(gè)樣本之間的代表性與典型性進(jìn)行預(yù)測(cè),因此PLS-DA算法預(yù)測(cè)效果與精度較好。
圖5為多分類和兩分類模式下的最佳定性模型的樣本分類圖,圖中圓圈代表校正集,五角星代表驗(yàn)證集,縱坐標(biāo)為模型的PLS-DA的計(jì)算響應(yīng)得分,橫坐標(biāo)表示水蜜桃的樣本標(biāo)簽。由圖5-a PLS-DA的樣本分類圖可以看出,0級(jí)褐變能夠明顯區(qū)分,但1~4褐變等級(jí)沒有明顯的分界,冷害褐變1~4級(jí)區(qū)分不顯著;由圖5-b可以看出,無論是校正集還是驗(yàn)證集,PLS-DA模型均能將無褐變樣本與褐變樣本很好地區(qū)分,表明PLS-DA模型可以用于水蜜桃低溫貯藏期間,對(duì)果實(shí)內(nèi)部有無冷害褐變進(jìn)行準(zhǔn)確識(shí)別。
a-多分類;b-兩分類
(1)分析了水蜜桃低溫貯藏下的冷害癥狀,將冷害褐變分為 0~4 級(jí),利用近紅外光譜技術(shù)對(duì)不同冷害褐變等級(jí)的水蜜桃進(jìn)行預(yù)測(cè)分類。
(2)比較了PLS-DA、K-NN、PCA-DA和SIMCA 4種建模方法的模分類效果。多分類模式和兩分類模式下,PLS-DA 方法效果均為最好,總準(zhǔn)確率分別為 0.71 和 0.93。
(3)多分類模式下的分類準(zhǔn)確率低于兩分類,可能與多分類模式下類別之間的光譜差異較小有關(guān)。
本試驗(yàn)結(jié)果為水蜜桃在低溫貯藏期間的冷害褐變快速識(shí)別提供依據(jù)。