李子文,熊雅婷,王 健,李宗朋,張海紅,馮斯雯,尹建軍(.中國食品發(fā)酵工業(yè)研究院,北京 0005;.寧夏大學 農(nóng)學院食品科學系,寧夏 銀川 7500)
遺傳算法聯(lián)合LS-SVM的蘋果原醋成分定量分析
李子文1,2,熊雅婷1,王健1*,李宗朋1,張海紅2,馮斯雯1,尹建軍1
(1.中國食品發(fā)酵工業(yè)研究院,北京 100015;2.寧夏大學 農(nóng)學院食品科學系,寧夏 銀川 750021)
利用近紅外光譜技術對蘋果原醋中的重要指標進行定量分析,并進行模型優(yōu)化以提高性能。采用遺傳偏最小二乘法(GA-PLS)提取的特征波長作為最小二乘支持向量機(LS-SVM)的輸入變量,先后建立蘋果原醋中總酸、可溶性固形物的近紅外定量模型,并與建立的偏最小二乘(PLS)模型結(jié)果進行比較。用決定系數(shù)(R2)、預測均方根誤差(RMSEP)以及相對分析誤差(RPD)對模型進行評價,確定最佳建模方法。結(jié)果表明,相比于PLS模型,總酸及可溶性固形物指標的LS-SVM定量模型的R2、RMSEP以及RPD值均有更好的表現(xiàn),且在進行獨立測試集驗證時,LS-SVM模型的預測精度也明顯優(yōu)于PLS模型。說明遺傳算法聯(lián)合LS-SVM建立的定量模型有很高的準確度及穩(wěn)定性,可以應用于蘋果原醋總酸和可溶性固形物含量的快速檢測。
蘋果原醋;近紅外光譜技術;最小二乘支持向量機;遺傳算法;波段篩選
蘋果原醋發(fā)酵是蘋果醋飲料生產(chǎn)過程的重要環(huán)節(jié),以蘋果原醋為原料可調(diào)配形成蘋果原醋飲料,即為日常所講的“蘋果醋”。但由于我國在蘋果醋生產(chǎn)方面還遠不如生產(chǎn)糧食醋般成熟和完善,加上目前還沒有蘋果原醋生產(chǎn)的統(tǒng)一標準,致使市場上蘋果醋飲料魚目混雜,有的甚至是用糖精、醋精等調(diào)配而成,而蘋果原醋發(fā)酵直接影響蘋果醋的品質(zhì)生產(chǎn),因此,對于蘋果原醋的質(zhì)量監(jiān)控需要引起高度重視[1]。而原醋中的總酸及可溶性固形物等主要成分含量,是衡量蘋果原醋品質(zhì)的重要指標,目前常規(guī)的檢測過程復雜耗時,無法滿足蘋果醋飲料生產(chǎn)過程中品質(zhì)快速檢測的需求。
近紅外光譜分析技術是一種新興的綠色檢測技術,具有無需樣品前處理、分析速度快、分析效率高、操作簡單、易于實現(xiàn)生產(chǎn)過程中的在線控制等優(yōu)點[2],近年來在食醋及果醋安全檢測等方面得到了廣泛應用:鄒小波等[3]的研究表明,近紅外光譜與食醋總酸含量呈非線性關系,采用最小二乘支持向量機(leastsquares-supportvectormachine,LS-SVM)建立的模型預測性能良好,有很高的預測精度。LIU F等[4]利用連續(xù)投影算法結(jié)合最小二乘支持向量機等方法,實現(xiàn)了不同濃度梅子醋中醋酸、酒石酸和乳酸等指標的快速檢測。石吉勇等[5]采用模擬退火算法優(yōu)化,并結(jié)合偏最小二乘法(partial leastsquares,PLS)建立的模型能夠快速預測食醋中總酸指標含量。但是,目前對于蘋果醋中各項指標的近紅外研究分析仍較為少見,尤其是針對于蘋果原醋的研究更是未見報道。
本研究擬采用遺傳偏最小二乘法(genetic algorithmspartial leastsquares,GA-PLS)聯(lián)合最小二乘支持向量機對蘋果原醋中的重要品質(zhì)指標——總酸及可溶性固形物進行快速無損分析,建立蘋果原醋主要成分快速檢測模型,并與偏最小二乘法模型進行比較,觀察LS-SVM算法對蘋果原醋指標近紅外檢測模型性能的改善情況。提高模型運算速度、準確性及穩(wěn)定性,提高模型預測能力,為蘋果原醋品質(zhì)的快速檢測提供參考依據(jù)。
1.1料與試劑
本試驗所用蘋果原醋樣品共340個,由某飲料公司提供,采用透反射方式掃描采集蘋果原醋的近紅外光譜,標準正態(tài)變量變換(standard normal variate,SNV)方法對光譜進行預處理。利用WYT-32型手持折光儀測定蘋果原醋的可溶性固形物含量,重復測定3次,取平均值。蘋果原醋總酸值根據(jù)國標GB/T 12456—2008《食品中總酸的測定》,采用NaOH酸堿滴定法測定。
NaOH(分析純)、酚酞:西隴化工股份有限公司。
1.2器與設備
NIRMasterM 54P傅里葉變換近紅外光譜儀:瑞士步琪有限公司;光譜儀光源為鹵鎢燈,檢測器為溫控InGaAs,配有固體測量池及透反射蓋。光譜范圍為10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數(shù)為32次;利用配套軟件NIR WareOperator采集蘋果原醋樣品的近紅外光譜信息。
1.3驗方法
1.3.1正集與驗證集的劃分
在剔除掉5個個別異常點的基礎上,隨機保留56個蘋果原醋樣本作為獨立測試集,用于預測檢驗最終模型性能,以2∶1的比例對剩余279個樣本進行樣本集和驗證集劃分。本實驗采取Kennard-Stone(K-S)法[6]來進行樣本集劃分。最終選擇校正集樣本186個,驗證集樣本93個。校正集與驗證集統(tǒng)計信息如表1所示。
表1 校正集與驗證集統(tǒng)計結(jié)果Table 1 Statistical results of calibration setand validation set
1.3.2譜變量選擇及校正模型建立
最小二乘支持向量機(LS-SVM)是在經(jīng)典SVM基礎上擴展的一種新興的非線性校正方法,可以進行線性和非線性的多元建模,可以極大改善近紅外光譜定性、定量的預測能力[7]。但當變量數(shù)過大、數(shù)據(jù)存在噪聲時,其求解過程就會越復雜,計算速度也越慢,同時性能會大大降低[8-9]。因此本實驗采用遺傳偏最小二乘法(GA-PLS)篩選變量,減少建模變量數(shù)的同時剔除光譜無用信息,再結(jié)合LS-SVM建立蘋果原醋主要成分快速檢測模型。
GA-PLS[10]是以生物進化論為基礎,模擬生物界物種競爭選擇的進化機制而建立的一種優(yōu)化方法,以適應度函數(shù)為依據(jù),通過對群體中個體施加遺傳操作來實現(xiàn)群體的迭代優(yōu)化。但當變量數(shù)較多時,運行GA-PLS可能會導致過擬合的風險[11],因此本實驗先采用后向間隔偏最小二乘法(backward interval partial least squares,BiPLS)[12]對全光譜1 501個變量進行預選擇,再結(jié)合GA-PLS優(yōu)化建模變量。
1.3.3據(jù)處理與分析
BiPLS、GA-PLS、LS-SVM等程序均在MATLAB環(huán)境下運行,偏最小二乘計算應用UnscramblerX10.3光譜分析軟件(挪威CAMO公司)實現(xiàn),模型的精確度與穩(wěn)定性通過決定系數(shù)R2、預測均方根誤差(rootmean square error of prediction,RMSEP)及相對分析誤差(relative percentdeviation,RPD)來評價。R2越接近1,RMSEP越接近0,RPD越大,表明模型分辨能力越高、效果越好[13]。
2.1譜波段優(yōu)選
2.1.1向間隔偏最小二乘波段選擇法
將預處理后的整條光譜分為15個子區(qū)間,運行BiPLS程序采用留一法計算交叉驗證均方差RMSECV值進行變量預選??偹?、可溶性固形物兩個指標經(jīng)篩選后所得RMSECV值最小分別為0.045 2和0.027 4。兩個指標經(jīng)BiPLS分別共選擇了700、500個波長點,占全譜的46.6%和33.3%。
2.1.2傳偏最小二乘波段選擇法
本實驗采用GA-PLS分別對BiPLS刪選出的總酸及可溶性固形物兩個指標的波數(shù)變量進行進一步篩選。
GA-PLS運行參數(shù)設置為:種群大小30,變異概率Pm= 0.01,交叉概率Pc=0.5,最大因子數(shù)10,遺傳迭代次數(shù)100次,計算每個數(shù)據(jù)點標識為“1”的概率,以RMSECV值確定出最佳的建模變量。GAPLS運算過程中各變量被選用的頻次如圖1所示。
總酸、可溶性固形物兩個指標經(jīng)GA-PLS進一步篩選后分別得到56、46個波長點,占全譜的3.7%及3.1%,篩選所得特征波長點如表2所示,所選波數(shù)與C-H、C=O、O-H、C-O等主要官能團的基頻與倍頻振動吸收峰位置相對應,如總酸指標篩選出的4 460 cm-1處甲酸O-H伸縮振動和C-H彎曲振動的組合頻吸收,可溶性固形物篩選出的4 545 cm-1處碳水化合物C-H伸縮和C=O的組合頻吸收,4 760 cm-1處多糖O-H伸縮和C-O伸縮組合頻吸收等[14],反映出了蘋果原醋總酸和可溶性固形物的特征吸收。說明在經(jīng)GA-PLS篩選后保留了各指標中最主要的吸收譜帶,同時剔除了絕大部分的無用信息。
圖1 各變量被選用的頻次圖Fig.1 Frequency of each variable by chosen
表2 GA-PLS波點篩選結(jié)果Table 2 Results of GA-PLS wave point se lection
2.2最小二乘法定標模型建立
在BiPLS及GA-PLS變量篩選結(jié)果的基礎上,分別對蘋果醋總酸及可溶性固形物指標建立全光譜-PLS,BiPLS,GA-PLS定量模型,模型計算結(jié)果如表3所示。
表3 蘋果原醋兩項指標的不同PLS模型及性能評價結(jié)果Table 3 Different PLSmodels of two p roperties in apple vinegarand the results of performance evaluation
由表3可知,與全光譜相比,兩項指標經(jīng)光譜波段選擇之后,R2、RPD均有提高,RMSEP值明顯減小,變量數(shù)及主成分數(shù)均有不同程度的減小,PLS模型的準確性及穩(wěn)定性都有顯著的改善,說明波段篩選方法能夠在減少建模運算變量數(shù)、簡化模型的同時,有效地優(yōu)化模型性能。
比較BiPLS及GA-PLS兩種方法,GA-PLS是在BiPLS基礎上對變量進行進一步篩選,可有效避免BiPLS方法在一個小的區(qū)間或是兩個相鄰波段中存在的共線變量[15]。在保證模型穩(wěn)定性及準確度的同時,將變量數(shù)極大減少,分別從總酸及可溶性固形物兩項指標700、500個變量中進一步篩選出了56、46個變量。有效保留了關鍵特征波長,同時剔除了無用信息,進一步減少了模型的主成分數(shù)量,降低了模型復雜程度,同時加快了運算速度。
2.3小二乘支持向量機定標模型建立
根據(jù)前文GA-PLS篩選所得的結(jié)果,將所篩選出的有效波長分別作為總酸、可溶性固形物LS-SVM模型的輸入變量。本實驗在LS-SVM建模中,選取比較常用的徑向基函數(shù)(RBF)作為核函數(shù),以減少在訓練過程中計算的復雜性。其兩個重要調(diào)節(jié)參數(shù)為回歸誤差權重γ(gam)和RBF核函數(shù)的核參數(shù)σ2[3]。其中,γ是RBF核函數(shù)的正則化參數(shù),決定結(jié)構(gòu)風險和經(jīng)驗風險最小化之間的平衡,對于提高模型的泛化性起重要作用。而σ2則控制模型函數(shù)回歸誤差,關系模型的靈敏度,過小會導致過擬合,過大則會使模型過于簡單,影響預測精度[16]。對這兩個參數(shù)的選擇,本實驗采用了耦合模擬退火算法和留一交叉驗證的尋優(yōu)方法以確定優(yōu)化參數(shù)。具體建模結(jié)果如表4所示。
表4 蘋果原醋兩項指標LS-SVM建模結(jié)果Table 4 Results of LS-SVM modeling for the two p roperties in app le vinegar
由表4可知,將經(jīng)過GAPLS方法篩選所得到的有效波長作為LS-SVM模型的輸入變量,在保留準確有效信息的基礎上,去除了光譜間的噪聲及其他無用信息,顯著降低了模型復雜度,提高了模型性能及運算速度。蘋果原醋總酸及可溶性固形物兩項重要指標的LS-SVM模型效果良好,RPD值均>5,說明模型的預測分辨能力較高,同時R2分別達到了0.964與0.979,RMSEP值也具有很好的表現(xiàn),表明模型的準確性及穩(wěn)定性均達到了較高水準。
2.4較PLS模型與LS-SVM模型效果
比較PLS模型及LS-SVM模型效果,結(jié)果如圖2所示。由圖2可知,不論是R2、RMSEP還是RPD值之間的比較,對于蘋果原醋總酸及可溶性固形物兩項重要指標而言,LS-SVM模型均獲得了更好的效果,模型的準確度及性能均有較大的改善。可能是由于當蘋果原醋光譜信息與兩項理化指標總酸及可溶性固形物間的變化關系呈現(xiàn)非線性時,傳統(tǒng)的線性建模方法不如LS-SVM方法,憑借其更好的利用光譜數(shù)據(jù)中非線性信息的能力及廣泛的適應能力,能夠較好地解決處理蘋果原醋數(shù)據(jù)中的非線性數(shù)據(jù)集。
圖2 PLS模型與LS-SVM模型性能參數(shù)對比圖Fig.2 Com parison of perform ance parame ters of PLS m odels and LS-SVM models
2.5LS-SVM模型驗證
將56個未參與建模的蘋果原醋樣品光譜分別帶入已建立的PLS及LS-SVM模型中進行驗證,分別計算預測結(jié)果與理化檢測值的相對偏差并以此繪制箱線圖,結(jié)果如圖3所示。由圖3可知,與PLS模型相比較,LS-SVM模型預測結(jié)果與理化檢測值相對偏差的上下兩端極值線更為接近,差異更小,且平均值及中位數(shù)均基本接近0值,相對偏差分布更為集中,表明LS-SVM模型預測結(jié)果與理化檢測值之間的差異更小,更為接近,說明了LS-SVM模型在實際驗證中具有更強的預測能力。
圖3 PLS模型與LS-SVM模型預測效果對比圖Fig.3 Com parison of predictive effect of PLS m odels and LS-SVM models
本研究采用近紅外光譜技術對蘋果原醋的總酸和可溶性固形物指標進行了定量分析,用向后間隔偏最小二乘法(BiPLS)、遺傳偏最小二乘法(GA-PLS)對蘋果原醋光譜進行了特征區(qū)域和特征波長的選取,并結(jié)合偏最小二乘法(PLS)和最小二乘支持向量機法(LS-SVM)建立定標模型,得出以下結(jié)論:
兩種波段優(yōu)化方法所建PLS模型均獲得了較高的模型精度,充分說明了近紅外光譜分析技術可用于蘋果原醋成分分析,也證明了波段優(yōu)化對建模分析的重要性。而GA-PLS模型在保證穩(wěn)定性及準確性的同時,大大減少了建模變量數(shù),實現(xiàn)了波長選擇的目標。
比較在GA-PLS方法波段篩選基礎上建立的PLS模型與LS-SVM模型效果,發(fā)現(xiàn)不論是建模效果還是獨立的驗證效果,LS-SVM模型均更為理想,表明了LS-SVM方法在果醋品質(zhì)分析方面的巨大潛力。遺傳算法結(jié)合最小二乘支持向量機方法所建立的蘋果原醋成分定量分析模型,具有準確、穩(wěn)定的特點,可實現(xiàn)對蘋果原醋成分含量的快速無損檢測,為近紅外光譜技術在蘋果醋生產(chǎn)過程的應用提供了技術借鑒。
[1]宋靜,陳平,王玉瑩,等.蘋果酒、醋中香氣物質(zhì)分析[J].中國釀造,2013,32(6):145-150.
[2]張德濤,鄒小波,石吉勇,等.近紅外光譜結(jié)合不同偏最小二乘法快速檢測鎮(zhèn)江香醋的渾濁度[J].中國釀造,2012,31(1):169-172.
[3]鄒小波,陳正偉,石吉勇,等.基于支持向量機的食醋總酸近紅外光譜建模[J].中國釀造,2011,30(3):63-65.
[4]LIU F,HE Y.Application of successive projections algorithm for variable selection to determ ineorganicacidsofp lum vinegar[J].Food Chem,2009,115(4):1430-1436.
[5]石吉勇,鄒小波,王開亮,等.模擬退火算法用于食醋總酸含量近紅外光譜模型的波數(shù)點優(yōu)選[J].食品科學,2011,32(10):120-123.
[6]陸婉珍.現(xiàn)代近紅外光譜分析技術[M].北京:中國石化出版社,2007.
[7]劉飛,張帆,方慧,等.連續(xù)投影算法在油菜葉片氨基酸總量無損檢測中的應用[J].光譜學與光譜分析,2009,29(11):3079-3083.
[8]馬英芝.基于遺傳模擬退火算法的LS-SVM參數(shù)選?。跩].民營科技,2011(11):17-19,109.
[9]章海亮,劉雪梅,何勇.SPA-LS-SVM檢測土壤有機質(zhì)和速效鉀研究[J].光譜學與光譜分析,2014,34(5):1348-1351.
[10]屠振華,籍保平,孟超英,等.基于遺傳算法和間隔偏最小二乘的蘋果硬度特征波長分析研究[J].光譜學與光譜分析,2009,29(10):2760-2764.
[11]N?RGAARD L,SAUDLAND A,WAGNER J,et al.Interval partial leastsquares regression(iPLS):a comparative chemometric study w ith an examp le from near-infrared spectroscopy[J].App l Spectrosco,2000,54(3):413-419.
[12]吳靜珠,汪鳳珠,王麗麗,等.基于近紅外特征光譜的番茄苗氮含量快速測定方法研究[J].光譜學與光譜分析,2015,35(1):99-103.
[13]熊雅婷,李宗朋,王健,等.基于連續(xù)投影算法的黃酒成分檢測模型[J].食品與發(fā)酵工業(yè),2015,41(3):185-190.
[14]WORKMAN J,JrWEYER L.褚小立,許育鵬,田高友,譯.近紅外光譜解析實用指南[M].北京:化學工業(yè)出版社,2009.
[15]彭云發(fā),詹映,彭海根,等.用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長[J].食品工業(yè)科技,2015,36(3):303-307.
[16]SHAHLAEIM,F(xiàn)ASSIHIA,SAGHAIEL.Application of PC-ANN and PC-LS-SVM in QSAR of CCR1 antagonist compounds:A comparative study[J].Eur JM ed Chem,2010,45(4):1572-1582.
Quantitativeanalysisofapple vinegar compositionsbased on genetic algorithm combined with LS-SVM
LIZiwen1,2,XIONG Yating1,WANG Jian1*,LIZongpeng1,ZHANGHaihong2,F(xiàn)ENG Siwen1,YIN Jianjun1
(1.China NationalResearch Institute of Food&Fermentation Industries,Beijing 100015,China;2.DepartmentofFood Science,College ofAgriculture,NingxiaUniversity,Yinchuan 750021,China)
The compositionsof apple vinegarwere analyzed quantitatively by near infrared spectroscopy technology,and themodelwasoptim ized to improve theperformance.The characteristic wavelengthsextracted bygenetic algorithm partial leastsquares(GA-PLS)as leastsquaressupportvector machines(LS-SVM)of the inputvariables,NIR quantitativemodelsof total acid and soluble solid in apple original vinegarwere established,and the modelswere comparedwith partial leastsquares(PLS)model results.The establishedmodelswere evaluated using R2,RMSEPand RPD to determine the optimum modelingmethod.The results showed that R2,RMSEP,RPD and prediction accuracy in independent test set of LS-SVM quantitative model of total acid and soluble solid had better performance than PLSmodels.The quantitativemodel established by genetic algorithm combined w ith LS-SVM had high accuracy and stability.Itcould beused in the rapid detection of totalacid and solublesolidscontentin the applevinegar.
apple vinegar;near infrared spectroscopy;LS-SVM;genetic algorithm;band selection
TS261.7
0254-5071(2016)01-0120-05
10.11882/j.issn.0254-5071.2016.01.026
2015-10-09
科技部科研院所技術開發(fā)研究專項(2013EG111212)
李子文(1992-),男,碩士研究生,研究方向為農(nóng)產(chǎn)品無損檢測。
王?。?973-),男,高級工程師,博士,研究方向為農(nóng)產(chǎn)品無損檢測。