未俊豐,高偉,程遠(yuǎn)欣,呂興娜,吉桂珍,石文杰*
1(晨光生物科技集團(tuán)股份有限公司,河北 邯鄲,057250) 2(河北省植物資源綜合利用重點(diǎn)實(shí)驗(yàn)室,河北 邯鄲,057250)
甜葉菊原產(chǎn)于南美洲高山草地,是菊科多年生草本植物,也是天然甜味劑的主要來源之一[1-2]。甜葉菊中含有豐富的功能性成分,如甜菊糖苷、黃酮類、綠原酸類等[3]。有研究表明,甜葉菊中的綠原酸含量可達(dá)到1.7%~7.2%,是綠原酸重要的來源之一[4]。綠原酸是一種重要的代謝物質(zhì),具有抗菌、抗病毒、增高白血球、保肝利膽、抗腫瘤、降血壓、降血脂、清除自由基和興奮中樞神經(jīng)系統(tǒng)等作用,目前已成功應(yīng)用于食品、飲料、保健、醫(yī)藥、日用化工等多個(gè)領(lǐng)域中[5-6]。
近紅外光譜檢測技術(shù)是一種操作簡單、快速、綠色、可滿足大批量樣品檢測的方法,已廣泛應(yīng)用在農(nóng)業(yè)、醫(yī)藥、食品、工業(yè)等領(lǐng)域[7-8]。張楠楠等[9]應(yīng)用近紅外光譜技術(shù)對土壤鹽分進(jìn)行了分析,模型的交互驗(yàn)證殘差均方根(root mean square error of cross validation,RMSECV)和相關(guān)系數(shù)分別為0.016 8和0.987 5,取得了較為理想的實(shí)驗(yàn)結(jié)果;張孝紅等[10]利用漫透射近紅外光譜對小麥面粉中的嘔吐毒素進(jìn)行了建模分析,模型的相關(guān)系數(shù)和均方根誤差為0.876和0.21,識別準(zhǔn)確率達(dá)到了90%;劉秋芳等[11]采用近紅外光譜對石腦油分子組成進(jìn)行了測定,建立了石腦油的族組成和單體烴分布比例預(yù)測模型,研究表明所建的模型的預(yù)測值與實(shí)測值吻合度高,預(yù)測準(zhǔn)確性好。近紅外光譜在甜葉菊檢測中也有應(yīng)用,湯其坤等[12]研究了使用近紅外光譜技術(shù)直接掃描甜葉菊干葉片,建立了甜菊苷和萊鮑迪苷A的檢測模型;高樂樂等[13]研利用近紅外光譜分析技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法對甜菊糖吸濕過程進(jìn)行表征、解析,從而揭示吸濕過程中水的吸附方式和鍵合作用;通過吸濕過程光譜并采用外部參數(shù)正交算法消除樣品中水分的影響,建立甜菊糖中萊鮑迪苷A含量的快速分析方法。目前甜葉菊中綠原酸含量的測定主要是通過高效液相色譜法,該方法雖然結(jié)果較為準(zhǔn)確,但是其操作復(fù)雜繁瑣,分析時(shí)間較長,成本較高,難以滿足大批量樣品的測定[14]。因此需要一種新的快速檢測方法,用來測定綠原酸含量。張?zhí)O蘋等[15]基于漫反射近紅外光譜法建立了甜葉菊中甜菊糖苷、綠原酸和水分的模型。但研究中未對光譜預(yù)處理和特征光譜選擇方法的深入研究和探討。本研究利用近紅外光譜技術(shù),對144個(gè)甜葉菊樣本原始光譜進(jìn)行了不同方式的預(yù)處理,隨后使用多個(gè)波長選擇算法提取特征波長,最后采用偏最小二乘法建立預(yù)測模型進(jìn)行比較,對近紅外檢測綠原酸的光譜處理和波長選擇進(jìn)行了比較和研究,以期為近紅外檢測檢測綠原酸過程中光譜預(yù)處理和特征波長選擇提供參考。
收集不同品種、不同種植地區(qū)的154個(gè)樣本(包括甘肅、新疆、內(nèi)蒙、河北等產(chǎn)地,包括普興1號、普興3號、普興6號等品種)。
波通 DA7250型近紅外分析儀,波通瑞華科學(xué)儀器(北京)有限公司;安捷倫1260液相色譜儀,安捷倫科技(中國)有限公司;CLF-02100克密封形手提式中草藥粉碎機(jī),溫嶺市創(chuàng)力藥材器械有限公司;SQP 電子天平,賽多利斯科學(xué)儀器(北京)有限公司。
確定的待檢樣品在混樣機(jī)中混合15 min,充分混勻。平行準(zhǔn)確稱取2份1.0~1.1 g(精確至0.1 mg)甜葉菊粉末樣品于150 mL或250 mL錐形瓶(廣口或磨口)中,用50 mL移液管準(zhǔn)確加入100 mL純凈水。用天平準(zhǔn)確稱取樣品瓶和液的總質(zhì)量m1(精確至0.01 g),然后使用保鮮膜密封錐形瓶瓶口,置于(80±2) ℃水浴鍋中水浴萃取1 h。水浴完成后取出錐形瓶,取下保鮮膜,擦干錐形瓶表面水滴,置于天平上補(bǔ)足樣品質(zhì)量至m2(m2和m1質(zhì)量差應(yīng)小于0.1 g),搖勻樣品液,過0.45 μm濾膜后,裝液相小瓶進(jìn)行檢測。留樣需4 ℃保存(樣品液需在8 h內(nèi)進(jìn)液相檢測)。
將上述確定的待檢含量樣品混合完全后裝入樣品杯中,輕輕壓平,將樣品杯放入旋轉(zhuǎn)臺上,采集樣品漫反射光譜信息。
為提高建立模型的準(zhǔn)確性和精度,減少光譜中摻雜的干擾信息、噪聲和大量的冗余,建模前需要對原始光譜進(jìn)行預(yù)處理[16-17]。本研究使用的預(yù)處理算法包括:無光譜處理(original)、標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、Savitzky-Golay卷積平滑(SG)、SNV+MSC、MSC+SG、SNV+SG、SNV+去趨勢校正(de-trending,DT)[18]。
由于光譜中存在著大量的干擾信號,如果使用全光譜建模,必定會降低模型的準(zhǔn)確性和精度。因此在建模之前,需要找到真正能反映目標(biāo)成分的波長或波段,改善模型的各項(xiàng)性能,降低計(jì)算成本[16]。本研究使用的特征波長選擇算法包括:競爭自適應(yīng)重加權(quán)采樣法(competitive adapative reweighted sampling,CARS)、無信息變量消除法(uninformative variables elimination,UVE)和連續(xù)投影算法(successive projections algorithm,SPA)[19-22]。
本研究使用偏最小二乘法(partial least squares,PLS)創(chuàng)建近紅外模型,通過交互驗(yàn)證相關(guān)系數(shù)(correlation coefficient in cross validation,RCV)和RMSECV來判斷模型的準(zhǔn)確性,一般來說,RCV越大,RMSECV越小,模型的準(zhǔn)確性和可信度就越高[23]。用驗(yàn)證集相關(guān)系數(shù)(correlation coefficient in validation,RP)和驗(yàn)證集殘差均方根(root mean square error of prediction,RMSEP)來驗(yàn)證模型的精度,RP越大,RMSEP越小,模型的準(zhǔn)度就越高,預(yù)測效果就越好[23]。
異常樣本會影響模型的準(zhǔn)確性和精度,因此在建模前需要剔除異常樣本。本研究使用馬氏距離法(mahalanobis distance,MD)剔除異常樣本,其可以計(jì)算2個(gè)未知樣本集的相似度,排除變量之間的相關(guān)性的干擾[24]。
本研究共使用了144個(gè)實(shí)驗(yàn)樣本,按照4∶1的比例隨機(jī)劃分為建模集和驗(yàn)證集,即建模集的樣本數(shù)量為115個(gè),驗(yàn)證集的樣本數(shù)量為29個(gè)(表1)。
表1 樣本劃分統(tǒng)計(jì)表
光譜在測量的過程中會產(chǎn)生噪聲和散射,因此在建模前需要對原始光譜進(jìn)行預(yù)處理(圖1)。預(yù)處理算法包括:SNV、SG平滑和MSC。由表2可知,與原始光譜相比,每一種預(yù)處理算法下的模型都有一定的提升,表明在建模之前進(jìn)行光譜預(yù)處理是非常有必要的。每個(gè)預(yù)處理下所建立模型的RCV均大于0.9,RMSECV均小于0.352,說明每個(gè)預(yù)處理均有較好的預(yù)測能力。但是每個(gè)預(yù)處理的模型評價(jià)參數(shù)之間的差異較小,因此選擇所有的預(yù)處理算法進(jìn)行后續(xù)的特征波長算法建模。
a-綠原酸原始光譜圖;b-SG平滑處理后的光譜圖;c-SNV處理后的光譜圖;d-SNV+SG平滑處理后的光譜圖;e-SNV+MSC處理后的光譜圖;f-MSC處理后的光譜圖;g-MSC+SG平滑處理后的光譜圖;h-SNV+DT處理后的光譜圖
2.4.1 基于UVE特征波長篩選
無信息變量消除法算法可有效去除與目標(biāo)物質(zhì)無關(guān)的波長,降低模型計(jì)算量,提高模型準(zhǔn)確性。與原始光譜建模效果相比,篩選之后每一種預(yù)處理算法下的模型性能均有一定幅度的提升,直接對原始光譜進(jìn)行UVE特征波長篩選的建模效果依然是最差的(表3)。在7個(gè)預(yù)處理算法中,MSC+SG平滑算法提升效果最為明顯,該算法只使用了22.7%的波長RMSECV卻提升了25.26%,該模型的RMSECV、RCV、RMSEP和RP分別為0.263 1、0.945 3、0.247 2和0.952 1。
表3 UVE特征波長篩選結(jié)果
2.4.2 基于CARS特征波長篩選
競爭自適應(yīng)重加權(quán)采樣法是一種結(jié)合蒙特卡洛隨機(jī)抽樣與PLS模型回歸系數(shù)的特征變量選擇方法,可有效篩選出最佳波長組合。從表4可知,每一種預(yù)處理算法下的模型的RCV均小于0.307,RMSECV均大于0.925,均優(yōu)于原始光譜的建模效果。通過比較不同預(yù)處理算法的建模效果,SNV+SG平滑算法優(yōu)化效果最好,該算法只使用了23.18%的波長RMSECV縮小了23.52%,該模型的RMSECV、RCV、RMSEP和RP分別為0.269 2、0.942 7、0.245 2和0.952 8。
表4 CARS特征波長篩選結(jié)果
2.4.3 基于SPA特征波長篩選
連續(xù)投影算法是一種矢量空間共線性最小化的前向變量選擇算法,它的優(yōu)勢在于提取全波段的幾個(gè)特征波長,能夠消除原始光譜矩陣中冗余的信息,可用于光譜特征波長的篩選。經(jīng)過SPA算法篩選之后,2個(gè)預(yù)處理算法下的模型性能不僅沒有得到提升,反而有所下降,其他預(yù)處理算法的模型性能只有小幅度提升(表5)。相對其他預(yù)處理算法的建模效果,MSC+SG平滑算法的建模效果最好,該算法只使用了6.38%的波長RMSECV縮小了19.63%,該模型的RMSECV、RCV、RMSEP和RP分別為0.300 5、0.928 6、0.298 7和0.930 0。
表5 SPA特征波長篩選結(jié)果
基于不同特征波長選擇算法的建模結(jié)果,3種波長選擇算法對模型性能均有一定的提升,UVE和CARS對模型性能的提升效果比較明顯,提高幅度也大致一致,SPA對建模效果的優(yōu)化稍差(表6)。經(jīng)過特征波長篩選之后,RMSECV和RMSEP均有所降低;RCV和RP均有所升高。MSC+SG平滑預(yù)處理算法和UVE特征波長選擇算法的結(jié)合下,RCV達(dá)到最大,RMSECV值最小,說明此時(shí)所建立的模型效果最佳。預(yù)測效果如圖2所示。
圖2 UVE-PLS模型甜葉菊綠原酸預(yù)測結(jié)果
表6 不同特征波長選擇算法的建模結(jié)果
本研究利用近紅外光譜技術(shù)結(jié)合PLS對甜葉菊綠原酸含量的光譜數(shù)據(jù)進(jìn)行了近紅外模型分析。使用了7種預(yù)處理算法和3種特征波長選擇算法,每一種預(yù)處理算法下的模型都有一定的提升,證明了在建模之前進(jìn)行光譜預(yù)處理的必要性。因?yàn)樘鹑~菊樣本顆粒的不均勻、采集樣本的條件不一致等因素影響,會對原始光譜產(chǎn)生影響,如果直接采用原始光譜及所有波長點(diǎn)建模效果會比較差,因此建模前有必要對樣本進(jìn)行預(yù)處理并對波長進(jìn)行選擇。MSC+SG平滑和SNV+SG平滑預(yù)處理效果接近,都比單一預(yù)處理效果好,SG平滑主要起到降低數(shù)據(jù)噪聲的作用,有效地提高了數(shù)據(jù)的信噪比。SNV和MSC雖然計(jì)算方式不一致,但都能起到消除顆粒大小不均勻,光程變化等因素的影響。UVE和CARS都大幅度減少建模使用的波長數(shù)量,從而降低模型的復(fù)雜度和計(jì)算量。UVE選擇的波長數(shù)建模主因子數(shù)更少,可以有效避免過擬合。連續(xù)投影算法下雖然也可以大量減少波長數(shù)量,但是波長減少一些有用信息也被剔除,導(dǎo)致光譜信息嚴(yán)重不足,模型的性能只有小幅度提升。
通過不同預(yù)處理算法和特征波長選擇算法建模后評價(jià)參數(shù)的比較,確定了綠原酸含量最佳的偏最小二乘法模型。預(yù)處理算法為:MSC+SG平滑,特征波長選擇算法為UVE,共選擇了32個(gè)特征波長,此時(shí)所建立的模型效果最佳。模型的RMSECV、RCV、RMSEP和RP分別為0.263 1、0.945 3、0.247 2和0.952 1。建模集、交叉驗(yàn)證和驗(yàn)證集的相關(guān)系數(shù)均大于0.94,殘差均方根均小于0.27,模型的準(zhǔn)確性和精度都較高,表明使用近紅外光譜技術(shù)快速檢測甜葉菊綠原酸含量是可行的。
為進(jìn)一步提高預(yù)測模型的準(zhǔn)確性和精度,應(yīng)該擴(kuò)大樣本數(shù)量,增加樣本的多樣性,使其滿足不同來源甜葉菊樣本的綠原酸含量預(yù)測。另外還可使用其他預(yù)處理算法和特征波長選擇算法,使模型的準(zhǔn)確性和精度得到提升。