孟慶龍,馮樹南,譚濤,尚靜,黃人帥,曹森*
(1.貴陽學(xué)院食品與制藥工程學(xué)院,貴州 貴陽 550005;2.貴陽學(xué)院農(nóng)產(chǎn)品無損檢測工程研究中心,貴州 貴陽 550005)
開陽富硒枇杷富含微量元素硒,有助于增強人體的免疫力,其果皮及果肉均顯橙黃色,具有獨特的口感以及豐富的營養(yǎng)價值,被稱為貴州枇杷王[1]。枇杷糖度是衡量其內(nèi)部品質(zhì)的重要指標(biāo)之一,枇杷糖度傳統(tǒng)的測定方法是利用折射儀測定,然而該方法存在耗費時間、破壞樣本,以及難以實現(xiàn)大規(guī)模檢測等缺點[2]。因此,開展枇杷糖度的快速檢測研究對其品質(zhì)快速分級以及銷售等具有非常重要的指導(dǎo)意義。
基于光譜原理的快速無損檢測技術(shù)因具有檢測速度快、不破壞樣本等優(yōu)勢,受到國內(nèi)外科研學(xué)者的關(guān)注。近年來,該技術(shù)已被廣泛地應(yīng)用于水果內(nèi)、外部品質(zhì)的檢測領(lǐng)域[3-9]。目前,國內(nèi)外科研學(xué)者已研究了關(guān)于櫻桃[10]、橙子[4,11]、獼猴桃[2,5,12]、蘋果[13-14]、桃[6,15]、李子[16]、梨[17-18]以及藍莓[19]等水果糖度的快速無損檢測,并取得了較好的成果。Hu等[20]無損檢測了1-甲基環(huán)丙烯(1-methylcyclopropene,1-MCP)對“海沃德”獼猴桃中不同糖分含量積累的誘導(dǎo)機制。高升等[21]基于可見/近紅外透射光譜技術(shù)無損檢測了紅提糖度,得出采用最小二乘支持向量機所建模型的效果好,但模型的運算時間較長;對于采用偏最小二乘回歸所建模型的運算時間較短,但模型的預(yù)測性能較差。光譜技術(shù)在水果內(nèi)、外部品質(zhì)快速無損檢測的應(yīng)用中,面臨的主要瓶頸是數(shù)據(jù)冗余,這嚴重影響了檢測模型的運算效率。實現(xiàn)水果內(nèi)、外部品質(zhì)的無損檢測,亟需建立簡化的檢測模型,而且采用光譜技術(shù)以及反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)預(yù)測枇杷糖度的快速無損檢測研究也未見報道。
本文使用紫外/可見光纖光譜儀獲取開陽枇杷的反射光譜;利用標(biāo)準正態(tài)變換(standard normal variation,SNV)以及多元散射校正(multi-scatter calibration,MSC)預(yù)處理原始的反射光譜,選取較優(yōu)的預(yù)處理方法,應(yīng)用競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)、連續(xù)投影算法(successive projection algorithm,SPA)以及SPA+CARS 3種方法分別篩選特征變量,構(gòu)建簡化的BP神經(jīng)網(wǎng)絡(luò)檢測模型,依據(jù)模型的剩余預(yù)測偏差確定相對較優(yōu)的開陽枇杷糖度快速無損檢測模型,為研發(fā)開陽枇杷糖度的快速無損檢測裝備提供參考。
開陽富硒枇杷于2021年5月23日采摘自貴州省貴陽市開陽縣禾豐鄉(xiāng)枇杷果園。為使樣品具有代表性,從不同的果樹上隨機挑選出120個無病蟲害且無表面損傷的枇杷樣品。枇杷樣品采摘后馬上運送至貴州省農(nóng)產(chǎn)品無損檢測工程研究中心實驗室,并在(22±2)℃條件下進行試驗。試驗前先用軟紙輕輕擦掉枇杷表面的雜物,對其依次編號后進行反射光譜采集以及糖度的測定。
折射儀(ATAGO PAL-α):日本 Atago公司;光纖光譜儀(QEPro):蔚海光學(xué)儀器(上海)有限公司。
1.3.1 反射光譜采集
反射光譜采集前,利用適配器將反射探頭安裝在支架上,反射探頭離枇杷表面大約1cm。試驗依據(jù)標(biāo)準反射白板的光譜強度,通過調(diào)整積分時間等參數(shù),使采集到白板的反射率接近于100%。光譜儀的積分時間為110 ms,掃描平均次數(shù)為8次,滑動平均寬度為1。同時,確保采集枇杷反射光譜時的參數(shù)保持不變。
將標(biāo)記好的枇杷樣本緊靠在反射探頭支架上,每個枇杷樣本分A、B兩面,每面分別采集3次(靠近花萼部位、靠近赤道部位、靠近果梗部位),最終計算6次采集到反射率的平均值,作為該枇杷樣本原始的反射光譜。
1.3.2 糖度的測定
獲取完所有枇杷樣本的反射光譜后,立即進行枇杷糖度的測定。參照NY/T 2637—2014《水果和蔬菜可溶性固形物含量的測定折射儀法》的方法,分別將每個枇杷樣本A、B兩面的果肉壓成汁,隨后使用一次性滴管將果汁滴到折射儀的檢測凹槽中,讀出糖度的參考值。每個枇杷樣本以A、B兩面測定結(jié)果的算術(shù)平均值作為該枇杷樣本的糖度參考值。
1.3.3 光譜處理及模型評價
1.3.3.1 光譜預(yù)處理及特征變量篩選
試驗采用SNV和MSC預(yù)處理原始的反射光譜數(shù)據(jù),以消除原始的反射光譜中的噪聲信號,探究相對較優(yōu)預(yù)處理方法。應(yīng)用CARS以及SPA篩選特征變量。其中CARS應(yīng)用五折交叉驗證篩選出n個偏最小二乘模型的交叉驗證均方根誤差(root mean squares errors for cross validation,RMSECV)最小的子集,最終將這些子集確定為相對較優(yōu)的特征變量[17]。而SPA依據(jù)均方根誤差(root mean squares errors,RMSE)來確定相對較優(yōu)的特征變量。
1.3.3.2 建模方法及模型評價方法
試驗采用BP神經(jīng)網(wǎng)絡(luò)分別建立基于全光譜以及特征變量的開陽枇杷糖度無損檢測模型,BP神經(jīng)網(wǎng)絡(luò)是當(dāng)前應(yīng)用很廣泛的一種人工神經(jīng)網(wǎng)絡(luò)模型[22]。
將建模集和預(yù)測集的相關(guān)系數(shù)(rc)和(rp),建模集的均方根誤差(root mean squares errors for calibration,RMSEC)和預(yù)測集的均方根誤差(root mean squares errors for prediction,RMSEP),以及剩余預(yù)測偏差(residual predictive deviation,RPD)作為衡量模型優(yōu)劣的主要指標(biāo)。若RPD<1.4,證明構(gòu)建的檢測模型無法完成預(yù)測;1.4≤RPD<1.8,則模型僅可粗略地預(yù)測;1.8≤RPD<2.0,證明檢測模型可以完成相對較好的預(yù)測;RPD≥2,證明模型可以較好地完成預(yù)測[23],RPD的計算公式如下。
式中:SD為預(yù)測集中枇杷樣本糖度值的標(biāo)準偏差(standard deviation,SD)。
在建立無損檢測模型前,先基于反射光譜以及糖度參考值將所有枇杷樣本劃分為建模集和預(yù)測集,樣本集劃分優(yōu)劣的評判標(biāo)準是建模集中參考值范圍是否比預(yù)測集的范圍寬。本文應(yīng)用光譜-理化值共生距離方法[24]將120個枇杷樣本依照3∶1的比例劃分為90個建模集以及30個預(yù)測集。其中,建模集中枇杷糖度的范圍(8.50%~13.80%)比預(yù)測集中的范圍(9.30%~13.70%)寬,這樣劃分的樣本集有助于后期構(gòu)建相對較好的無損檢測模型。建模集以及預(yù)測集中枇杷糖度的頻率分布圖見圖1。
圖1 枇杷糖度頻率分布圖Fig.1 Probability distribution of loquat sugar content
選擇360 nm~1 000 nm波段作為有效原始光譜區(qū)域,該區(qū)域總共包含了835個波段。由于原始反射光譜中包含一些噪聲,為提高枇杷糖度無損檢測模型的精準度及穩(wěn)定性,分別運用SNV以及MSC對原始的反射光譜進行預(yù)處理。所有枇杷的原始的反射光譜以及經(jīng)過SNV、MSC預(yù)處理后的相對反射光譜見圖2。
圖2 枇杷的反射光譜Fig.2 Reflectance spectra of loquat
由圖2可知,預(yù)處理后的反射光譜曲線要比原始反射光譜曲線平滑,說明對原始反射光譜進行預(yù)處理去掉了部分噪聲以及背景干擾信息。為進一步分析比較SNV以及MSC兩種方法預(yù)處理原始的反射光譜效果,分別將原始的反射光譜(original reflectance spectra,ORR)以及經(jīng)過SNV和MSC預(yù)處理后的相對反射光譜輸入BP神經(jīng)網(wǎng)絡(luò)模型中,構(gòu)建枇杷糖度無損檢測模型,建模結(jié)果見表1。
表1 基于兩種預(yù)處理方法的BP神經(jīng)網(wǎng)絡(luò)模型對枇杷糖度的檢測結(jié)果Table 1 Detection results of loquat sugar content by BP neural network model based on the two preprocessed methods
由表1可知,基于兩種方法構(gòu)建的無損檢測模型的性能均優(yōu)于原始的反射光譜,而且經(jīng)SNV預(yù)處理后建立的BP神經(jīng)網(wǎng)絡(luò)檢測模型具有相對較大的rc(0.85)、rp(0.83)和RPD(1.73)以及較小的RMESC(0.72%)和RMSEP(0.79%),說明SNV預(yù)處理方法相對較好,因此本文應(yīng)用SNV預(yù)處理原始的反射光譜。
2.3.1 采用SPA篩選特征變量
應(yīng)用SPA篩選特征變量時,依據(jù)RMSE來確定相對較優(yōu)的特征變量。SPA篩選特征變量的結(jié)果見圖3。
圖3 SPA篩選特征變量的結(jié)果Fig.3 Characteristic variables selected by successive projection algorithm(SPA)
由圖3(a)可知,有效變量數(shù)小于5時,RMSE隨著有效變量數(shù)的增加而下降,然而有效變量數(shù)大于5時,RMSE減小的趨勢不明顯,因此將這5個變量(占總變量的0.59%)作為特征變量,圖3(b)即為篩選出的5個特征變量。
2.3.2 采用CARS篩選特征變量
應(yīng)用CARS篩選特征變量時,應(yīng)用五折交叉驗證方法計算所構(gòu)建的偏最小二乘模型的RMSECV(蒙特卡洛采樣次數(shù):50),相對較優(yōu)的特征變量通過RMSECV的最小值來確定。CARS篩選特征變量的結(jié)果見圖4。
圖4 CARS篩選特征變量的結(jié)果Fig.4 Characteristic variables selected by competitive adaptive reweighted sampling(CARS)
由圖4(a)可知,第24次采樣獲得的RMSECV值最小(0.67),該變量集包括了49個特征變量(占總變量的5.87%),圖4(b)即為篩選的49個特征變量。為進一步探究SPA+CARS篩選的特征變量對BP神經(jīng)網(wǎng)絡(luò)模型檢測性能的影響,將SPA篩選的5個特征變量以及CARS篩選的49個特征變量組合在一起,剔除重合的1個特征變量,構(gòu)成新的特征變量(包含53個特征變量,占總變量的6.34%)。SPA+CARS組合篩選的特征變量分布情況見圖5。
圖5 SPA+CARS篩選的特征變量Fig.5 Characteristic variables selected by SPA+CARS
將全光譜(full spectra,F(xiàn)S)以及應(yīng)用SPA、CARS和SPA+CARS篩選的特征變量作為自變量,建模集以及預(yù)測集中枇杷糖度參考值作為因變量,建立預(yù)測開陽枇杷糖度BP神經(jīng)網(wǎng)絡(luò)無損檢測模型?;谔卣髯兞繕?gòu)建的BP神經(jīng)網(wǎng)絡(luò)檢測模型對開陽枇杷糖度的預(yù)測結(jié)果見表2。
表2 基于特征變量構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型對枇杷糖度的預(yù)測結(jié)果Table 2 Detection results of loquat sugar content by BP neural network model based on the characteristic spectra
由表2可知,基于全光譜和SPA篩選的特征變量構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)檢測模型僅可粗略地預(yù)測枇杷糖度,其RPD值分別為1.73和1.76。而基于CARS篩選的特征變量構(gòu)建的CARS-BP神經(jīng)網(wǎng)絡(luò)檢測模型具有相對較大的rc(0.92)和rp(0.91)以及較小的RMSEC(0.55%)和RMSEP(0.56%),且 RPD 值(2.42)大于2,表明構(gòu)建的CARS-BP神經(jīng)網(wǎng)絡(luò)檢測模型具有較好的預(yù)測性能。同時采用CARS從835個全變量中篩選出了49個特征變量,占總變量的5.87%,大大提高了模型的運算效率。另外,基于SPA+CARS篩選的特征變量構(gòu)建的檢測模型的RPD值為2.33,相對于CARSBP神經(jīng)網(wǎng)絡(luò)檢測模型,并沒有提升BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測性能。綜上所述,CARS算法是一種較好的變量篩選方法,與文獻[17]報道一致,而且構(gòu)建的CARSBP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對檢測開陽枇杷糖度具有較好的檢測能力,且運算效率得到了明顯提升。CARSBP神經(jīng)網(wǎng)絡(luò)無損檢測模型對開陽枇杷糖度的檢測結(jié)果見圖6。
圖6 枇杷糖度的實測值與預(yù)測值Fig.6 Measured and predicted values of loquat sugar content
本研究以開陽富硒枇杷為研究對象,采用紫外/可見光纖光譜儀采集開陽枇杷的反射光譜,探究比較了兩種方法(SNV和MSC)對原始的反射光譜的預(yù)處理效果,得出經(jīng)SNV預(yù)處理后建立的BP神經(jīng)網(wǎng)絡(luò)檢測模型具有較大的rc(0.85)、rp(0.83)和RPD(1.73)以及較小的RMESC(0.72%)和RMSEP(0.79%),說明 SNV預(yù)處理效果相比于MSC較好;應(yīng)用SPA、CARS以及SPA+CARS分別篩選特征變量,進而基于篩選的特征變量構(gòu)建了預(yù)測開陽枇杷糖度的BP神經(jīng)網(wǎng)絡(luò)檢測模型,得出采用CARS從835個全光譜中篩選了49個特征變量,不僅很好地提高了檢測模型的運算效率,而且基于CARS篩選的特征變量構(gòu)建的CARS-BP神經(jīng)網(wǎng)絡(luò)檢測模型具有相對較大的rc(0.92)、rp(0.91)以及較小的RMSEC(0.55%)、RMSEP(0.56%),RPD 值(2.42)大于2,表明構(gòu)建的CARS-BP神經(jīng)網(wǎng)絡(luò)檢測模型具有較好的預(yù)測性能。為研發(fā)開陽枇杷糖度快速無損檢測裝備奠定較好的理論基礎(chǔ)。