熊雅婷,李宗朋,王健,張英,馮斯雯,陳峰,宋全厚
1(中國食品發(fā)酵工業(yè)研究院,北京,100015)
2(江蘇張家港釀酒有限公司,江蘇 張家港,215600)
黃酒作為世界三大釀造酒之一,因其歷史悠久、品種繁多、營養(yǎng)豐富而被譽(yù)為東方釀造界的典型代表和楷模[1]。其中酒精度、非糖固形物、總酸、氨基酸態(tài)氮等是黃酒質(zhì)量控制的關(guān)鍵因素,同時也是決定黃酒風(fēng)味的主要物質(zhì)[2]。目前常用的理化分析方法普遍存在操作繁瑣、分析周期長、效率低下等不足,無法滿足黃酒品質(zhì)監(jiān)控中快速檢測的需求[3]。
近年來,近紅外光譜分析技術(shù)作為一種無損、快速檢測手段而在國內(nèi)黃酒檢測行業(yè)快速發(fā)展:于海燕等[4]分析了不同光程近紅外透射光譜對黃酒中金屬元素的定量測定,并對1~5年酒齡的黃酒進(jìn)行了快速鑒別;劉飛等[5]采用可見/近紅外光譜對黃酒中非糖固形物、pH進(jìn)行了定量分析;胡小邦等[6]利用近紅外透射光譜技術(shù)結(jié)合連續(xù)投影算法(SPA)建立了干型、半干型黃酒中酒精度、酸度的定量檢測模型。以上研究均表明了近紅外光譜技術(shù)在黃酒品控中的巨大潛力,但是卻未全面覆蓋黃酒的多種指標(biāo),并未選擇出最佳的模型組合來解決黃酒自身吸收光信號強(qiáng)度較低,吸收帶較寬的問題[7]。
本實驗全面考慮了黃酒的酒精度、非糖固形物、總酸、氨基酸態(tài)氮等主要指標(biāo),采用連續(xù)投影算法(SPA)來提取各指標(biāo)特征波段,并利用特征波長分別建立偏最小二乘(PLS)模型以及多元線性回歸(MLR)模型,同時,添加無信息變量消除法(UVE)與SPA組合建模,通過對比建模結(jié)果,選取最佳波段優(yōu)化方法以及相應(yīng)的最佳建模組合,以此來降低模型復(fù)雜程度,提高模型精度和運(yùn)算速度,為黃酒品質(zhì)監(jiān)控的快速檢測提供一定參考。
本實驗所用黃酒樣品共135個,由某黃酒廠提供,涵蓋了黃酒成品與半成品(黃酒原漿酒)的干型、半干型、甜型、半甜型黃酒類型。為保證實驗可靠性及模型準(zhǔn)確性,對黃酒樣品進(jìn)行2次平行采樣,采用透反射方式掃描采集黃酒的近紅外光譜,并對光譜進(jìn)行平均。黃酒酒精度、非糖固形物、總酸、氨基酸態(tài)氮等指標(biāo)的化學(xué)值根據(jù)GB/T 13662-2008測得。
實驗使用QC-leader傅里葉變換近紅外光譜儀(北京中安信達(dá)科技有限公司)。光譜儀光源為鹵鎢燈,檢測器為溫控InGaAs,配有固體測量池及透反射蓋。光譜范圍為10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數(shù)為32次;利用配套軟件 NIRWare Operator采集樣品的近紅外光譜信息。
1.3.1 校正集與驗證集的劃分
本實驗采用 Kennard-Stone(K-S)法[8]來進(jìn)行樣本集劃分,原理是基于變量之間的歐氏距離,在特征空間中均勻選取樣本。將光譜進(jìn)行主成分分析后,選用主成分得分為特征變量選擇樣本,重復(fù)循環(huán),依次將距離最遠(yuǎn)的樣本選入校正樣本集。
在剔除掉個別異常點(diǎn)的基礎(chǔ)上,利用K-S法以3∶1的比例對保留的131個黃酒樣本進(jìn)行校正集與驗證集進(jìn)行樣本集劃分,最終得到校正集樣本100個,驗證集樣本31個。校正集樣本用于黃酒各指標(biāo)近紅外模型的建立,驗證集樣本用于驗證所建模型的準(zhǔn)確度與可靠性。其化學(xué)值統(tǒng)計結(jié)果如表1所示。
表1 校正集與驗證集統(tǒng)計結(jié)果Table 1 Statistical results of calibration set and validation set
1.3.2 連續(xù)投影算法 (successive projection algorithm,SPA)
連續(xù)投影算法是一種前向循環(huán)選擇方法,從一個波長開始,每次循環(huán)都計算其在未選入波長上的投影,將投影向量最大的波長引入到波長組合。使得每一個新選入的波長,都與前一個線性關(guān)系最?。?]。SPA能從光譜信息中充分尋找含有最低限度的冗余信息的變量組,消除波長變量間的共線性,有效提高光譜信噪比,從而提高模型預(yù)測能力和穩(wěn)健性[10-11]。
1.3.3 無信息變量消除法(elimination of uninformative variables,UVE)
UVE是一種常用的波段優(yōu)化方法,基本思想是將偏最小二乘回歸系數(shù)作為波長重要性的衡量指標(biāo),在選取波長時集噪聲和濃度信息于一體,比較直觀實用[12]。
1.3.4 數(shù)據(jù)處理與分析
SPA、UVE等程序均在MATLAB環(huán)境下運(yùn)行,多元線性回歸模型和偏最小二乘計算應(yīng)用UnscramblerX10.3光譜分析軟件(挪威CAMO公司)實現(xiàn),模型的精確度與穩(wěn)定性通過決定系數(shù)R2、預(yù)測標(biāo)準(zhǔn)偏差RMSEP來評價,R2越接近1,RMSEP越接近0,表明模型效果越好[13]。
2.1.1 連續(xù)投影算法(SPA)
圖1 SPA波段篩選最佳光譜變量總數(shù)Fig.1 Choice of the best number of selected wavelength using SPA
圖2 SPA波段篩選結(jié)果相應(yīng)波長點(diǎn)Fig.2 The corresponding wavelength points by SPA band selection of the result
分別對黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個指標(biāo)進(jìn)行SPA波段篩選,由圖1可知,經(jīng)SPA篩選,黃酒的4個指標(biāo)從1 501個波長點(diǎn)中分別篩選得20、23、19、13個特征波長點(diǎn),在圖2中,其波長點(diǎn)位置分布在 4 500、5 000、7 200、9 800 cm-1附近,分別與N—H、C—H、O—H分子結(jié)構(gòu)的倍頻與組合頻所在的吸收峰位置相對應(yīng)[14],說明SPA的波段篩選算法能合理有效提取有用的光譜信息[15]。
2.1.2 無信息變量消除法(UVE)
圖3 UVE變量穩(wěn)定性分析結(jié)果Fig.3 UVE variable stability analysis results
在全光譜基礎(chǔ)上,對黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個指標(biāo)的分別進(jìn)行UVE篩選,計算結(jié)果如圖3所示,豎直實線左邊是波長變量,右邊為引入的系統(tǒng)噪音變量。虛線表示變量穩(wěn)定性的上下閾值,處于兩閾值之間的變量可認(rèn)為是無關(guān)的信息量,超出閾值的部分為有用信息波長變量[16],因此本實驗選擇超出虛線閾值的光譜波段進(jìn)行后續(xù)建模。
2.2.1 SPA 模型建立
在SPA篩選結(jié)果基礎(chǔ)上,分別建立黃酒的非糖固形物、酒精度、總酸和氨基酸態(tài)氮4個指標(biāo)的SPAPLS模型以及SPA-MLR模型,與全光譜-PLS模型進(jìn)行比較[17],并通過決定系數(shù) R2、預(yù)測標(biāo)準(zhǔn)偏差 RMSEP來評價模型效果,模型計算結(jié)果如表2所示。
表2 黃酒各指標(biāo)定量模型計算結(jié)果Table 2 quantitative model calculation results of millet wine components
從表2可以看出,經(jīng)SPA波段優(yōu)選,黃酒的4個指標(biāo)的SPA-PLS和SPA-MLR模型效果較全光譜-PLS模型均有提高,決定系數(shù)R2相增大,預(yù)測標(biāo)準(zhǔn)偏差RMSEP相降低。說明SPA方法確實能有效剔除光譜中的無用信息,提取建模所需關(guān)鍵波長,在加快建模速度的同時增強(qiáng)模型的準(zhǔn)確度與穩(wěn)定性。
比較SPA-PLS和SPA-MLR兩種建模方法可知,SPA-MLR模型優(yōu)化更為顯著,非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個指標(biāo)的R2分別達(dá)到0.881、0.998、0.983 和0.924,且RMSEP 分別減少為2.457、0.183、0.430 和0.041,表現(xiàn)出更強(qiáng)的穩(wěn)定性與準(zhǔn)確度。多元線性回歸方法(MLR)作為近紅外光譜分析領(lǐng)域最基本的建模方法,更適用于線性關(guān)系好的簡單體系,要求波長數(shù)量簡潔[18-19],SPA篩選后的較少的波長點(diǎn)數(shù)正好滿足了其建模要求,并且可能選擇的波長與黃酒指標(biāo)含量之間主要呈線性關(guān)系,所以不僅達(dá)到了簡化模型的目的,而且提高了模型的準(zhǔn)確度。偏最小二乘法是將因子分析和回歸分析結(jié)合的方法,通過因子分析將光譜壓縮為較低維空間數(shù)據(jù)[20],然而,SPA在精簡波段的同時也必然伴隨著部分有用信息的丟失,導(dǎo)致偏最小二乘法(PLS)建模準(zhǔn)確度受到影響。
2.2.2 UVE 建模
在全光譜基礎(chǔ)上,對黃酒的非糖固形物、酒精度、總酸、氨基酸態(tài)氮4個指標(biāo)分別進(jìn)行UVE篩選,由表3可看出,經(jīng)UVE篩選后仍保留較多變量數(shù),因此,為進(jìn)一步提高模型準(zhǔn)確度,將UVE與SPA組合用于全光譜的波段優(yōu)選并建立MLR模型。同時,作為對照,另外單獨(dú)建立UVE-PLS模型與之對比。
表3 UVE波段篩選建模結(jié)果Table 3 The modeling results of selected wavelength by UVE
由表3可看出,UVE可將全光譜波段篩選至1/3,且UVE-PLS模型效果與表2中全光譜-PLS相比,有所改善。雖然經(jīng)UVE-SPA篩選,非糖固形物、酒精度、總酸以及氨基酸態(tài)氮的波長點(diǎn)數(shù)分別精簡為12、6、17 和 11 個,但 UVE-SPA-MLR 建模結(jié)果顯示,4個指標(biāo)的R2和RMSEP均顯示模型效果反而較差。說明,進(jìn)行UVE波段篩選雖然能達(dá)到簡化建模波長數(shù)的效果,但篩選過程可能造成光譜有用信息的丟失以及混入噪聲,導(dǎo)致光譜信噪比下降,影響了之后SPA的建模,使得模型準(zhǔn)確度反而降低。
綜合表2、表3可知,黃酒各成分含量檢測的最佳建模方法是SPA-MLR,增加UVE之后反而影響模型效果,說明,UVE與SPA組合進(jìn)行波段篩選并不適合黃酒成分檢測。
將30個未參與建模的樣品光譜帶入SPA-MLR模型中進(jìn)行驗證,由圖4可以看到各個理化指標(biāo)的實測值與預(yù)測值點(diǎn)呈對角線分布,且經(jīng)成對t檢驗,得到各項指標(biāo)預(yù)測值與實測值無明顯差異(P>0.05)。經(jīng)驗證,黃酒非糖固形物 R2為 0.875,RMSEP為2.704;酒精度 R2為 0.996,RMSEP 為0.286;總酸 R2為0.981,RMSEP 為 0.467;氨基酸態(tài)氮 R2為 0.917,RMSEP 為0.042 1。
圖3 黃酒各指標(biāo)SPA-MLR模型理化值與預(yù)測值分布Fig.3 Predicted vs.reference values of compositions in millet wine by SPA-MLR model
本文以黃酒成品與半成品(黃酒原漿酒)為研究目標(biāo),綜合考慮了多種黃酒種類,采用近紅外光譜法對其非糖固形物、酒精度、總酸和氨基酸態(tài)氮4個指標(biāo)進(jìn)行了定量檢測,利用連續(xù)投影算法(SPA)對波長變量進(jìn)行優(yōu)選建模,以提高模型運(yùn)算速度與準(zhǔn)確性。
結(jié)果表明,經(jīng)SPA篩選,極大簡化了黃酒的各指標(biāo)建模變量數(shù),并且篩選所得波長點(diǎn)位置與各指標(biāo)特征官能團(tuán)的倍頻與合頻吸收峰位置相對應(yīng),說明SPA能合理有效地優(yōu)選出黃酒各指標(biāo)的近紅外高信噪比特征波長。
通過建立SPA-PLS和SPA-MLR模型進(jìn)行對比,發(fā)現(xiàn)非糖固形物、酒精度、總酸和氨基酸態(tài)氮定量檢測的SPA-MLR模型明顯優(yōu)于SPA-PLS建模。在簡化模型加快運(yùn)算速度的同時增強(qiáng)了模型的準(zhǔn)確度,說明SPA-MLR建模方法更適用于指導(dǎo)黃酒品質(zhì)的快速檢測。
此外,對比發(fā)現(xiàn),UVE-SPA-MLR建模效果反而不如SPA-MLR模型,可見UVE與SPA結(jié)合導(dǎo)致了特征光譜信息的丟失,進(jìn)而說明只使用一種波段篩選方法效果更好,多種波段篩選方法結(jié)合反而可能會影響特征波段的準(zhǔn)確篩選。
[1]賴櫻花,成堅,李勇波,等.黃酒質(zhì)量指標(biāo)及其檢測技術(shù)的研究進(jìn)展[J].中國釀造,2011(11):21-25.
[2]朱宏霞,鄧德文,鄭校先.傅立葉變換近紅外透射法測定黃酒酒精度[J].中國釀造,2008(12):80 -82.
[3]陳郁,周小鋒,于文博,等.近紅外光譜法測定黃酒中氨基酸態(tài)氮和酒精度的研究[J].計算機(jī)與應(yīng)用化學(xué),2008,25(3):361 -364.
[4]于海燕,應(yīng)義斌,謝麗娟,等.光程對黃酒金屬元素近紅外透射光譜分析精度的影響[J].光譜學(xué)與光譜分析,2007,27(6):1 118 -1 120.
[5]劉飛,王莉,何勇,等.應(yīng)用可見/近紅外光譜進(jìn)行黃酒品種的判別[J].光譜學(xué)與光譜分析,2008,28(3):586-589.
[6]胡小邦,呂進(jìn),劉輝軍,等.基于近紅外透射光譜的黃酒酒精度、酸度檢測模型研究[J].光電工程2010,37(10):122-127.
[7]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預(yù)處理及波長選擇方法進(jìn)展與應(yīng)用[J].化學(xué)進(jìn)展,2004,14(4):528-542.
[8]陸婉珍.現(xiàn)代近紅外光譜分析技術(shù)[M].北京:中國石化出版社,2007:59 -90.
[9]謝廣發(fā),徐榕,樊阿萍,等.近紅外光譜技術(shù)在黃酒理化指標(biāo)快速檢測中的應(yīng)用[J].中國釀造,2011(11):182-185.
[10]Breitkreitz M,Raimundo I,Rohwedder J,et al.Determination of total sulfur in diesel fuel employing NIR spectroscopy and multivariate calibration[J].The Analyst(S0003 -2654),2003,128(9):1 204 -1 207.
[11]洪涯,洪添勝,代芬,等.連續(xù)投影算法在砂糖橘總酸無損檢測中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報,2010,2(26):380-384.
[12]S F Carreiro Soares,A A Gomes,M C Ugulino Araujo,et al.The successive projections algorithm[J].TrAC Trends in Analytical Chemistry,2013(42):84 -98.
[13]褚小立,許育鵬,田高友.近紅外光譜解析實用指南[M].北京:化學(xué)工業(yè)出版社,2009.
[14]高洪智,盧啟鵬,丁海泉,等.基于連續(xù)投影算法的土壤總氮近紅外特征波長的選?。跩].光譜學(xué)與光譜分析,2009,29(11):2 951 -2 954.
[15]Gomes A A,Galv?o R K,Araújo M C,et al.The successive projections algorithm for interval selection in PLS[J].Microchemical Journal,2013,110:202 -208.
[16]周林峰.黃酒主要品質(zhì)的近紅外光譜檢測模型建立與轉(zhuǎn)移的研究[D].杭州:中國計量學(xué)院,2013:1-82.
[17]陳定星.連續(xù)投影算法應(yīng)用于土壤有機(jī)質(zhì)NIR光譜分析的波長選擇[D].廣州:暨南大學(xué),2013:20-58.
[18]王爽,黃敏,朱啟兵.基于無信息變量和偏最小二乘投影分析的高光譜散射圖像最優(yōu)波段選擇[J].光子學(xué)報,2011,40(3):428 -432.
[19]CAI W,LI Y,SHAO X.Avariable selection method based on uninformative varable elimination for multivariate calibration of near-infrared spectra[J].Chemometrics and Intelligent Laboratory Systems,2008,90(2):188 -194.
[20]包春芳.近紅外光譜技術(shù)在液態(tài)食品非破壞質(zhì)量分析中的應(yīng)用研究[D].吉林:吉林大學(xué),2009:28-35.