買書魁,吳鎮(zhèn)君,陳紅光,張福艷,李子文,李宗朋,王瓊雅,尹建軍,王健*
1(中國食品發(fā)酵工業(yè)研究院,北京,100015) 2(東北農(nóng)業(yè)大學(xué)工程學(xué)院,黑龍江 哈爾濱,150030)3(紅牛維他命飲料有限公司,北京,100015) 4(河北衡水老白干酒業(yè)股份有限公司,河北 衡水,053000)
白酒是以糧谷為原料,以大曲、小曲或麩曲等為糖化發(fā)酵劑,經(jīng)蒸煮、發(fā)酵、蒸餾、陳釀、勾兌等釀造工藝而制成[1]。從白酒的組成成分上來看,其主要成分是乙醇和水,但白酒中含量僅占1%~2%的酯、酸、醛等微量有機(jī)物的組成及其含量卻是保持各自香型白酒質(zhì)量穩(wěn)定及區(qū)別于其他香型的關(guān)鍵因素。在這些微量有機(jī)物中,乙酸乙酯和乳酸乙酯是影響清香型、老白干香型和米香型等香型白酒風(fēng)味特征的2個重要指標(biāo)。因此在白酒釀造過程中,乙酸乙酯和乳酸乙酯含量的測定對白酒質(zhì)量控制尤為重要。
近紅外光譜分析技術(shù)作為一種快速無損檢測技術(shù),具有分析速度快,檢測效率高,操作簡便,無需前處理且無污染,可同時對樣品的多個指標(biāo)進(jìn)行檢測等優(yōu)點[2],近年來在白酒傳統(tǒng)釀造過程中白酒品質(zhì)檢測及組分定量分析等方面得到應(yīng)用。吳同等[3]學(xué)者利用區(qū)間偏最小二乘方法,實現(xiàn)了白酒中總酯和雜醇油含量的快速檢測。彭幫柱等[4]學(xué)者利用人工神經(jīng)網(wǎng)絡(luò)、偏最小二乘回歸等方法,實現(xiàn)了白酒中總酸、總酯含量的快速檢測。但是,關(guān)于近紅外光譜技術(shù)在作為影響白酒風(fēng)味特征重要指標(biāo)的乙酸乙酯和乳酸乙酯的定量分析的方面應(yīng)用研究相對較少,且未進(jìn)行深度的模型優(yōu)化。
本文對白酒原酒中乙酸乙酯和乳酸乙酯含量進(jìn)行近紅外快速檢測,利用間隔偏最小二乘法(interval PLS,iPLS)、組合間隔偏最小二乘法(synergy interval PLS,SiPLS)、遺傳算法(genetic algorithms,GA)和競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)對全光譜波長進(jìn)行篩選優(yōu)化,深入研究不同光譜波長篩選方法對白酒原酒中乙酸乙酯和乳酸乙酯指標(biāo)建模的影響,并通過對比確定最優(yōu)波段選擇方法,從而提高模型準(zhǔn)確度、穩(wěn)定性以及預(yù)測精度,為白酒中乙酸乙酯和乳酸乙酯快速檢測模型的建立提供一定參考。
本試驗所用白酒原酒樣品共379個,由某白酒企業(yè)提供,采用透反射方式掃描采集白酒原酒樣品的近紅外光譜。白酒原酒中乙酸乙酯和乳酸乙酯含量根據(jù)國標(biāo)GB/T 10345—2007《白酒分析方法》中的氣相色譜法進(jìn)行測定。
ABB MB3600傅里葉變換型近紅外光譜儀,ABB(中國)有限公司;光譜光源為鹵鎢燈,檢測器為溫控InGaAs。光譜范圍為3 795~10 005 cm-1,分辨率優(yōu)于0.7 cm-1,采集白酒原酒樣品的在近紅外光譜整個區(qū)域的光譜信息。
1.3.1 校正集與驗證集的劃分
本研究隨機(jī)保留79個白酒原酒樣品作為獨立測試集樣品,用于預(yù)測檢驗最終模型性能。以3∶1的比例對剩余300個樣品進(jìn)行樣本集和驗證集劃分。為了保證模型驗證的可靠性,所劃分的樣本集和驗證集中樣品分布應(yīng)該相似。本實驗采用SPXY算法來進(jìn)行校正集和驗證集劃分。(sample set partitioning based on joint x-y distances, SPXY)算法[5]是樣本集劃分的K-S算法的擴(kuò)展,可同時考慮光譜空間和濃度空間的分布。最終選擇校正集樣本225個,驗證集樣品75個。校正集和驗證集統(tǒng)計信息如表1所示。
表1 校正集與驗證集統(tǒng)計結(jié)果Table 1 Statistical results of calibration set and validationset
1.3.2 光譜預(yù)處理
為了去除儀器響應(yīng)、光的散射以及雜散光等因素對光譜的影響,需要選擇適當(dāng)?shù)念A(yù)處理方法來過濾近紅外光譜中的噪聲信息,提取有效信息[6]。常用的預(yù)處理方法有平滑、導(dǎo)數(shù)、多元散射校正(multiplicative scatter correction, MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variete transformation, SNV)等。本文選擇二階導(dǎo)數(shù)結(jié)合9點Savitzky-Golay平滑作為原始光譜預(yù)處理方法,以消除原始光譜的基線漂移、強化原始光譜譜帶特征、克服原始光譜譜帶重疊、提高信噪比。
1.3.3 光譜變量選擇
為剔除光譜數(shù)據(jù)中的無效信息,提高數(shù)學(xué)模型分析的準(zhǔn)確度和有效性,本實驗分別采用競爭性自適應(yīng)重加權(quán)算法(CARS)[10],以及間隔偏最小二乘法(iPLS)[7]、組合間隔偏最小二乘法(SiPLS)[8]對全光譜806個變量進(jìn)行預(yù)篩選,并根據(jù)預(yù)篩選情況結(jié)合遺傳算法(GA)[9]對建模變量進(jìn)一步篩選,同時采用偏最小二乘算法(partial least squares,PLS)建模。選取決定系數(shù)(R2)、校正標(biāo)準(zhǔn)偏差(root mean squared error of calibration,RMSEC)、預(yù)測標(biāo)準(zhǔn)偏差(root mean squared error of prediction,RMSEP)、相對分析誤差(ratio of performance to standard deviate,RPD)以及最佳主因子數(shù)來評價模型穩(wěn)定性與預(yù)測能力。決定系數(shù)(R2)越接近1,校正集標(biāo)準(zhǔn)偏差(RMSEC)和預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)相接近,且近于0,同時RPD>3時,則表明模型效果越好。
1.3.4 數(shù)據(jù)處理與分析
iPLS、SiPLS、GA、CARS等算法在MATLAB中運行,二階導(dǎo)數(shù)結(jié)合9點Savitzky-Golay平滑、偏最小二乘法則運用UnscramberX10.3光譜分析軟件(挪威CAMO公司)完成。
2.1.1 競爭性自適應(yīng)重加權(quán)波長篩選法(CARS)
本實驗中運用CARS方法依次對乙酸乙酯和乳酸乙酯的光譜進(jìn)行多次篩選,結(jié)果如圖1所示(蒙特卡羅采樣次數(shù)分別設(shè)定為350和150)。
a-乙酸乙酯;b-乳酸乙酯圖1 CARS篩選關(guān)鍵變量結(jié)果Fig.1 Key variable selection by CARS method
圖1-a和圖1-b中第1條曲線呈指數(shù)函數(shù)下降,表示隨著運行次數(shù)的增加,選擇變量個數(shù)由快到慢的遞減,提高了函數(shù)篩選變量的效率;第2條曲線為交叉驗證殘差(root mean square error of cross validation,RMSECV)的變化趨勢圖,從圖1可以看出,殘差圖的變化趨勢為先下降后上升,當(dāng)采樣次數(shù)為188次和104次時,RMSECV值最小,這表明光譜中的無關(guān)信息被剔除,進(jìn)一步采樣將剔除與脂肪和可溶性固形物指標(biāo)相關(guān)的關(guān)鍵變量,導(dǎo)致RMSECV的值增大;第3條曲線表示回歸系數(shù)的變化趨勢,其中的“*”表示殘差的最低點,與前2條曲線相對應(yīng)[11]。
2.1.2 間隔偏最小二乘波長篩選法(iPLS)
本實驗將白酒原酒光譜806個波點等分為n(取值10~30,間隔為5)個子區(qū)間。通過比較分析發(fā)現(xiàn),當(dāng)n取10時,分別對應(yīng)乙酸乙酯和乳酸乙酯含量所建立的iPLS模型的交叉驗證均方差(RMSECV)值最小,分別為0.338 0和0.456 8。如圖2所示,虛線對應(yīng)數(shù)值代表全譜的RMSECV值,則位于虛線下方區(qū)間段為iPLS所挑選出來的區(qū)間,圖2-a為乙酸乙酯波段篩選結(jié)果示意圖,挑選出來波段數(shù)為1、2、4。圖2-b為乳酸乙酯波段篩選示意圖,挑選出來的波段數(shù)為1、2、3、4。經(jīng)過iPLS處理后所篩選出的變量數(shù)分別為243和324個,有效波長區(qū)間的壓縮比例分別為30.1%和40.2%。
a-乙酸乙酯;b-乳酸乙酯圖2 各區(qū)間模型與全譜模型的RMSECV值比較Fig.2 Comparison of interval model’s and full spectrum’s RMSECV
2.1.3 組合間隔偏最小二乘波長篩選法(SiPLS)
本實驗將白酒原酒光譜806個波點均勻劃分為n(取值10~30,間隔為5)個子區(qū)間后,組合其中m(m取2、3、4)個區(qū)間進(jìn)行波段篩選進(jìn)行建模。經(jīng)過數(shù)據(jù)處理分析可知,乙酸乙酯和乳酸乙酯指標(biāo)分別當(dāng)n為30,m為4以及n為20,m為3時,篩選得到RMSECV值最小,分別為0.116 2和0.185 0。表2為波段的篩選結(jié)果,所篩選出波段分別為[2,3,4,6]和[2,3,4],乙酸乙酯和乳酸乙酯所對應(yīng)篩選出變量分別為108和123個,占全譜波段變量為13.4%和15.3%。
表2 SiPLS優(yōu)選結(jié)果Table 2 Optimal spectra regions by SiPLS method
2.1.4 遺傳偏最小二乘波長篩選法(GAPLS)
本實驗采用遺傳算法(GA)自然選擇挖掘出經(jīng)過iPLS和SiPLS挑選后的光譜波段中的最優(yōu)特征基因子集,并采用PLS進(jìn)行優(yōu)化建模。
設(shè)置GA-PLS運行參數(shù)為:群體數(shù)為30,變異概率為0.01,雜交概率為0.5,最大因子數(shù)為10,遺傳迭代次數(shù)100次,根據(jù)RMSECV值確定出最佳的建模變量。運行結(jié)束后,根據(jù)變量在迭代過程中的出現(xiàn)頻率,按照從高到低的方式逐一選擇特征波長參與建模,當(dāng)RMSECV值最小時,所選變量為最優(yōu)建模變量。經(jīng)GA-iPLS和GA-SiPLS對乙酸乙酯的篩選結(jié)果如圖3-a和圖3-b所示,對乳酸乙酯指標(biāo)篩選結(jié)果如圖3-c和圖3-d所示。圖中顯示所有變量被入選的頻次圖,分別選擇了182、89和62和98個波長點,占全光譜的22.6%和11.0%、7.7%和12.2%。
a-乙酸乙酯GA-iPLS;b-乙酸乙酯GA-SiPLS;c-乳酸乙酯GA-iPLS;d-乳酸乙酯GA-SiPLS圖3 迭代100次后被選用變量的頻次圖Fig.3 Cumulative frequency of variable selection after 100 times runs
在以上波長篩選方法的基礎(chǔ)之上,分別建立白酒原酒中乙酸乙酯和乳酸乙酯的全光譜-PLS、CARS、iPLS、SiPLS、GA-iPLS、GA-SiPLS定量模型,并通過比較所建立模型中的決定系數(shù)(R2)、校正標(biāo)準(zhǔn)偏差(RMSEC)、預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)、最佳主成分?jǐn)?shù)以及相對分析誤差(RPD)等相關(guān)參數(shù)來評價所建立的模型效果。各模型計算結(jié)果如表3所示。
表3 不同PLS模型性能Table 3 Performance of different PLS models
從表3中的數(shù)據(jù)可知,相比較全光譜模型而言,經(jīng)過多種波長篩選方法篩選后所建立模型,建模變量數(shù)明顯減少,模型的決定系數(shù)(R2)均增大,校正標(biāo)準(zhǔn)偏差(RMSEC)和預(yù)測標(biāo)準(zhǔn)偏差(RMSEP)均有所減小,有效地提高了模型的運算速度,因此可知本文所采取的波長篩選方法對乙酸乙酯和乳酸乙酯的有效建模光譜區(qū)域的篩選行之有效。
通過以上幾種建模變量篩選方法比較,雖然CARS方法篩選出的建模變量極大減少,但所建立模型中R2值較小,RMSEP較大,乙酸乙酯和乳酸乙酯相應(yīng)模型的RPD分別為4.7和5.8,可能由于此方法剔除了光譜中關(guān)鍵波長或背景信息等相關(guān)波長信息,導(dǎo)致模型的預(yù)測精度下降,該方法并不能完全準(zhǔn)確的篩選出光譜中有效信息。iPLS與SiPLS模型的R2均有所增加,建模變量數(shù)目得到明顯減少,并降低了主成分?jǐn)?shù),RPD均大于5,說明2種波長篩選的方法均對波長的篩選有一定的適用性。但分別因iPLS方法存在等距劃分區(qū)間的局限性,可能限制波長的篩選精度[12],而SiPLS方法因為其事先設(shè)置的組合區(qū)間數(shù),可能引入未包含相關(guān)有效光譜信息的區(qū)域等相關(guān)波長篩選的不足[13],經(jīng)過iPLS和SiPLS所篩選出的光譜段仍需要進(jìn)一步的波長篩選來提高模型預(yù)測能力和穩(wěn)健性。
為進(jìn)一步通過波長篩選來提高模型的預(yù)測能力和穩(wěn)健性,在iPLS和SiPLS篩選出的波段基礎(chǔ)之上,采用遺傳算法對其進(jìn)行更高精度的波長篩選,用以建立模型,所建立的乙酸乙酯及乳酸乙酯模型R2及RPD值均在iPLS及SiPL模型基礎(chǔ)之上有不同程度的增大,RMSEP值均明顯減小,說明GA-iPLS、GA-SiPLS方法進(jìn)一步提高光譜變量篩選的精度,同時避免了iPLS和SiPLS存在的等距劃分區(qū)間的局限性等相關(guān)波長篩選的不足,同時在進(jìn)一步減少建模波長變量個數(shù)的同時保留了光譜中關(guān)鍵波長信息,簡化了模型復(fù)雜程度,提高了光譜信息篩選的有效性。其中GA-SiPLS方法所對應(yīng)的模型最優(yōu),R2分別為0.989 7和0.991 0,RMSEP分別為0.085 4和0.143 4,RPD分別為8.5和8.6。
a-乙酸乙酯;b-乳酸乙酯圖4 篩選的波長變量分布圖Fig.4 The distribution diagram of variables selected
將79個獨立預(yù)測樣本帶入GA-SiPLS模型當(dāng)中,對模型的精準(zhǔn)性和穩(wěn)定性進(jìn)行驗證。如圖5所示,白酒原酒中乙酸乙酯和乳酸乙酯指標(biāo)的實測值與預(yù)測值呈對角線分布,又經(jīng)成對t檢驗,各項指標(biāo)預(yù)測值和實測值并無較大差異。經(jīng)驗證,R2分別達(dá)到0.979和0、985,RMSEP分別為0.093 1、0.154 3,RPD分別為7.84和8.03,說明GA-SiPLS模型的預(yù)測效果較為準(zhǔn)確。
a-乙酸乙酯;b-乳酸乙酯圖5 GA-SiPLS模型實測值與預(yù)測值的分布Fig.5 Distribution of predicted and predicted values in GA-SiPLS model
經(jīng)過對不同的建模變量的篩選,得到了與建模指標(biāo)相關(guān)的光譜區(qū)域,同時去除了大量的無效信息,達(dá)到了以優(yōu)選變量來提高模型預(yù)測精度的目的。同時,經(jīng)過變量篩選之后,建模變量明顯減少,簡化了建模的復(fù)雜度,實現(xiàn)了篩選相關(guān)建模變量的目的,大幅度提高了模型預(yù)測能力和穩(wěn)定性,并且證明建模變量篩選對模型優(yōu)化的重要性。
以GA-SiPLS法進(jìn)行波長篩選后建立的模型優(yōu)于其他波長篩選后所建模型。經(jīng)過驗證,所篩選出的光譜波長區(qū)域處近紅外吸收峰與乙酸乙酯和乳酸乙酯中所含主要官能團(tuán)相對應(yīng),說明該方法能篩選出與白酒原酒中乙酸乙酯和乳酸乙酯相關(guān)的重要波長變量。結(jié)果表明本研究所建立的白酒原酒中乙酸乙酯和乳酸乙酯指標(biāo)的定量分析模型,準(zhǔn)確度及穩(wěn)定性良好,說明近紅外光譜分析技術(shù)結(jié)合恰當(dāng)?shù)牟ǘ魏Y選能夠?qū)Π拙圃频馁|(zhì)量指標(biāo)進(jìn)行快速分析。