張 嚴(yán),趙忠蓋,劉 飛
?
黃酒總酚含量檢測:一種基于GA-LSSVM的近紅外光譜波段選擇方法
張 嚴(yán),趙忠蓋,劉 飛
(江南大學(xué)輕工過程先進(jìn)控制教育部重點實驗室,自動化研究所,江蘇 無錫 214122)
主要研究了近紅外光譜技術(shù)對成品黃酒中總酚含量快速檢測的可行性。針對近紅外光譜樣本少、非線性等特點,首次將最小二乘支持向量機(jī)(Least squares support vector machines, LSSVM)方法引入到傳統(tǒng)遺傳算法(genetic algorithms,GA)的波長選擇中,提出一種基于GA-LSSVM的近紅外光譜波段選擇方法。該方法采用LSSVM建立小樣本下不同波段的非線性模型,然后通過GA算法進(jìn)行波長的優(yōu)化選擇。應(yīng)用中,基于GA-LSSVM模型的總酚預(yù)測集相關(guān)系數(shù)(R)為0.9734,預(yù)測均方根誤差(RMSEP)為5.5596,相比于傳統(tǒng)方法,GA-LSSVM算法能夠較好地提取非線性信息,預(yù)測效果更好。
近紅外光譜;黃酒總酚;GA-LSSVM
近年來,多酚類物質(zhì)的研究受到高度關(guān)注,這類物質(zhì)來源廣泛,有較強(qiáng)的抗氧化能力,能清除人體內(nèi)源性的活性自由基,具有減少癌癥發(fā)病率,預(yù)防心血管疾病以及抗機(jī)體衰老等功效[1]。另外,酚類物質(zhì)還可以通過抑制氧化酶、絡(luò)合金屬離子、過氧化自由基結(jié)合成穩(wěn)定的化合物等方面起到重要的作用。因此,對黃酒中總酚含量快速測定十分必要,傳統(tǒng)的測量方法需要配置溶液等繁瑣耗時的操作,近紅外光譜利用相關(guān)基團(tuán)(例如C-H,O-H,N-H)的吸收,具有快速,無損,綠色等優(yōu)點,廣泛應(yīng)用于農(nóng)業(yè)、石油、醫(yī)藥、食品和環(huán)境等[2-5]諸多領(lǐng)域,能夠?qū)S酒中總酚含量進(jìn)行快速測定。
傳統(tǒng)觀點認(rèn)為基于全光譜數(shù)據(jù)建立的模型具有更高的預(yù)測精度和魯棒性,然而,大量的研究表明[6]適當(dāng)?shù)牟ㄩL選擇能夠取得更好的預(yù)測效果,經(jīng)適當(dāng)?shù)牟ㄩL選擇后,去除了光譜中大部分無效的信息,減少了建模數(shù)量,因此在一定程度上能夠提高預(yù)測精度和簡化模型復(fù)雜度。目前常用的波長選擇算法有間隔偏最小二乘法(interval partial least squares,iPLS)[7],聯(lián)合區(qū)間偏最小二乘法(synergy interval partial least squares,siPLS)[8],GA[9]等,這些波長選擇方法有一個共同的缺點,即它們均建立在線性模型的基礎(chǔ)上選擇有效波長,忽略了光譜中存在的非線性因素對有效波長選擇的影響,然而黃酒中總酚含量很低,能夠有效吸收的基團(tuán)較少,在含量很低的情況下,噪聲對近紅外光譜的吸光度影響較大,且在實際測量中存在溫度變化,傳感器靈敏度的變化,以及光源老化等[10]因素的影響,不可避免地引入噪聲,利用線性模型選擇有效波長無法獲得較好的效果,因此,引入非線性模型選擇有效波長十分必要。
支持向量機(jī)(support vector machine ,SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的學(xué)習(xí)方法,已被廣泛應(yīng)用于故障診斷,圖像分類,光譜分析等[11-12]多種領(lǐng)域。LSSVM[13]是對Vapnik提出的經(jīng)典支持向量機(jī)(SVM)的一種改進(jìn),極大地降低了求解復(fù)雜度,同時加快了計算速度。本文結(jié)合GA具有的細(xì)劃分策略與LSSVM具有的處理非線性問題具有的優(yōu)點,將GA與LSSVM方法相融合,提出一種新的非線性波長選擇算法,建立黃酒中總酚成分的近紅外光譜分析模型,降低非線性因素對模型精度的影響。
遺傳算法是一種用于解決最佳化的搜索算法,它包括遺傳、突變、自然選擇以及雜交等。該算法對結(jié)構(gòu)對象操作,全局尋優(yōu)能力強(qiáng),采用概率尋優(yōu)化方法,能自動獲取優(yōu)化空間,自動調(diào)整搜索方向[14]。
該算法用于近紅外光譜波長選擇是將需要進(jìn)行光譜波段優(yōu)選的原譜區(qū)分割成若干個子區(qū)間,然后采用遺傳算法優(yōu)選能夠獲取最大適應(yīng)度值的子區(qū)間組合即為優(yōu)選的光譜譜區(qū)。GA-LSSVM波段選擇流程如圖1所示,其主要步驟為:
1)編碼:將光譜數(shù)據(jù)分成個等距離的子區(qū)間,每個子區(qū)間作為染色體的一個基因,對基因進(jìn)行0-1二進(jìn)制編碼,若編碼是1表示選中此波段;若為0則相反。一種0-1編碼組合稱為一條染色體,其長度為被編碼的波段數(shù)。
2)選擇初始群體:選擇的目的是為了從當(dāng)前群體中選出優(yōu)良的個體,選擇的原則是適應(yīng)性強(qiáng)的個體為下一代貢獻(xiàn)一個或多個后代的概率大。如果初始群體包含個個體,則隨機(jī)產(chǎn)生個位的0-1二進(jìn)制數(shù)作為初始群體。
圖1 GA-LSSVM波段選擇流程
(gen代表迭代次數(shù),max代表最大迭代次數(shù))
3)適應(yīng)度函數(shù):采用完全交叉驗證法評價模型的預(yù)測性能。在每一個子區(qū)間中利用LSSVM建立模型,計算每一段的交叉驗證根均方誤差RMSECV。RMSECV值越小,則模型具有較高的穩(wěn)定性和較好的預(yù)測性能。為了使遺傳算法對適應(yīng)值較高的個體有更多的生存機(jī)會,設(shè)定適應(yīng)度函數(shù)為:
4)復(fù)制:復(fù)制采用“輪盤賭”的方式進(jìn)行正比選擇。
5)交叉:將配對的兩個編碼串的部分位進(jìn)行交換,從而得到下一代編碼串。本文采用的是普通單點交叉方式。
6)變異:變異是以一定的概率產(chǎn)生變異的基因數(shù),用隨機(jī)方法選出發(fā)生變異的基因。如果所選的基因的編碼為1,則變?yōu)?;反之編碼為0,則變?yōu)?。
重復(fù)4)、5)、6)直到最大繁殖代數(shù)時停止。
針對傳統(tǒng)算法忽略非線性因素的缺點,考慮將最小二乘支持向量機(jī)用于非線性建模。假設(shè)所采集到的光譜數(shù)據(jù)為={(1,1), …, (x,y)},其中x∈R為輸入向量,y∈為輸出變量,是輸入維數(shù),=1, 2, …,。
首先,由一非線性映射(×)將原空間R映射到高維特征空間(x),然后在高維特征空間構(gòu)造最優(yōu)決策函數(shù)()=w×()+,并以結(jié)構(gòu)風(fēng)險最小化原則優(yōu)化模型參數(shù),。
LSSVM算法的目標(biāo)優(yōu)化函數(shù)為:
式中:為權(quán)重向量;為偏差量;e為誤差變量;為正規(guī)化參數(shù)。
將以上優(yōu)化問題轉(zhuǎn)化為拉格朗日乘法求解:
式中:a為拉格朗日乘子。上述優(yōu)化問題可以轉(zhuǎn)化為求解線性方程:
式中:=[1, …, 1],為單位矩陣;=<(x),(x)>=(x,x)為核函數(shù),,=1, …,;=[1,2, …,a];=[1,2, …,y]。
令=+-1×,解矩陣方程可求得:
最終得到LSSVM的預(yù)測值為:
核函數(shù)有多種選擇,其中包括線性內(nèi)核、多項式內(nèi)核、多層感知內(nèi)核、徑向基內(nèi)核等,本文選用徑向基函數(shù)為LSSVM的核函數(shù)建立模型,其計算公式如下:
式中:2為徑向基核函數(shù)參數(shù)。當(dāng)采用LSSVM建模時,需要調(diào)節(jié)2和正規(guī)化參數(shù),本文中采用交叉驗證均方根誤差(RMSECV)為評價指標(biāo),通過網(wǎng)格搜索法,對2和進(jìn)行優(yōu)化調(diào)整。RMSECV計算公式如下:
實驗選用的黃酒樣品購自無錫本地超市,包括沙洲優(yōu)黃、古越龍山、和酒、石庫門、塔牌、會稽山六種類型,共96個樣本。
實驗所用儀器為Thermo Antaris MX傅里葉-近紅外快速分析儀,儀器的光譜范圍是10000~4000cm-1,最小光譜掃描分辨率為2cm-1;光源是11.9 W/7V鹵鎢燈;SabIR光纖探測器;設(shè)定的儀器參數(shù)光譜范圍是10000~4000cm-1,分辨率為8cm-1,工作電壓6V,掃描次數(shù)16次。
實驗時,取30mL的黃酒樣品依次放入編好號的50mL燒杯中,每次采集前用清水將光纖探頭洗凈,將光纖探頭緊貼燒杯底部并測量2次,取其平均值作為真實光譜,減少人為抖動的影響,測量時,保持溫度在20℃左右。
化學(xué)值測定:參考Slinkard等人的方法[15],使用福林-酚制劑,沒食子酸作為標(biāo)樣進(jìn)行測定。將1mL酒樣用46mL蒸餾水稀釋后,加入1mL的福林-酚制劑,充分加入3mL 2%的碳酸鈉溶液,室溫下放置2h,期間每隔一段時間震動一次,將混合液搖勻,以使反應(yīng)完全,然后于760nm處測得吸光度值。實驗重復(fù)3次,總酚含量根據(jù)下列公式進(jìn)行計算:
吸光度值=0.0009×總酚含量+0.0183 (9)
校正集和預(yù)測集的劃分采用Kennard-Stone(K-S)方法,該方法根據(jù)變量間的歐式距離,能夠均勻的在特征空間選取樣本。最終選取65個樣本作為校正集,31個樣本作為預(yù)測集。表1為總酚含量的分布情況。
表1 黃酒總酚分布情況
本文嘗試對原始光譜分別使用平滑、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、一階導(dǎo)、二階導(dǎo)預(yù)處理,通過RMSECV對比可知,原始光譜經(jīng)過SNV能取得更好的效果。原因如下:平滑能夠?qū)Ω咚拱自肼曈辛己玫南Ч?,但在采用移動平均平滑法過程中,不可避免地?fù)p失一些光譜吸收峰信息,造成光譜失真,導(dǎo)數(shù)能夠有效地消除基線漂移和其它背景的干擾,分辨重疊峰,但同時會引入噪聲,降低信噪比,影響建模效果,MSC能夠減小黃酒中物塊和顆粒等大小不一引起的光散射的影響,然而黃酒中無較大的物塊且顆粒大小差異不大,故影響較小。SNV能夠黃酒內(nèi)部固體懸浮物質(zhì)顆粒散射表面散射和光程等的影響,黃酒中懸浮顆粒較多,一定程度上影響了光譜的吸收,故本文采用原始光譜經(jīng)SNV預(yù)處理后對黃酒進(jìn)一步分析,如圖2所示。
圖2 SNV預(yù)處理后的光譜
由于有些光譜波段的吸光度和總酚成分并不相關(guān),且黃酒中存在大量的水分以及固體顆粒,將產(chǎn)生信息噪聲,因此需要對光譜波段進(jìn)行提取,消除無效光譜對建模精度的影響。遺傳算法參數(shù)設(shè)置如下:初始群體大小為30,交叉概率為0.5,變異概率為0.01。以1/1+RMSECV構(gòu)造適應(yīng)度函數(shù)。
圖3為經(jīng)過GA-LSSVM運(yùn)算后的波段選擇結(jié)果。經(jīng)過該算法優(yōu)化后的最佳個體染色體為001100001111101101010001101110。染色體中“1”的個數(shù)為16,表示30個區(qū)間中保留了16個子區(qū)間,總波長點數(shù)為829,再把相鄰(連續(xù)為“1”)的子區(qū)間合并后,所保留的譜區(qū)為7段,即為4400.8~4798.0cm-1,5604.1~6603.1cm-1,6807.5~7204.8cm-1,7409.2~7605.9cm-1,7810.3~8007.0cm-1,8612.5~9009.8cm-1,9214.2~9804.3cm-1。
圖3 GA-LSSVM波段選擇
文中將校正均方根誤差(RMSEC),預(yù)測均方根誤差(RMSEP)和校正集相關(guān)系數(shù)(c),預(yù)測集相關(guān)系數(shù)(p)作為模型評價指標(biāo)。評價校正集均方根誤差、預(yù)測均方根誤差及相關(guān)系數(shù)的計算公式如下:
為說明本文方法的優(yōu)越性,將GA-LSSVM方法與其它方法做對比,如表2所示。表2中,F(xiàn)ull表示全光譜,GA和GA-LSSVM分別為子區(qū)間利用PLS和LSSVM所建模型選出的2種波長選擇方法,PLS和LSSVM表示所用的分析模型。由表2可以得出如下結(jié)論:從p上看,GA-LSSVM所建立的模型比全光譜和siPLS選出的波長所建立的PLS和LSSVM模型都有一定程度的提高,從RMSEP上看,GA-LSSVM所建立的模型比全光譜使用PLS和LSSVM建立的模型分別提高了30.40%和18.43%,比iPLS和siPLS使用PLS建立的模型分別提高了14.70%,8.82%。特別地,與GA用PLS建立的模型相比,p上提高了3.19%,RMSEP上提高了9.58%。以上結(jié)果表明,對于存在非線性因素干擾的情況,線性波長選擇方法不能夠提取出最優(yōu)的波長,而非線性波長選擇方法能夠有效的篩選非線性因素下的波長區(qū)間,從而提高模型的魯棒性。
表2 GA-LSSVM方法與傳統(tǒng)方法的對比
圖4中為經(jīng)過GA-LSSVM方法選擇出829變量后經(jīng)過LSSVM建模取得的效果圖,總酚含量的校正集和預(yù)測集相關(guān)系數(shù)分別為0.9893、0.9734。校正集均方根誤差和預(yù)測集均分根誤差分別為3.6261、5.5596。兩個模型的擬合度和預(yù)測精度均取得了較好的效果。預(yù)測精度可以滿足近紅外在實際黃酒參數(shù)檢測中的要求。
圖4 總酚含量參考值與預(yù)測值對比圖
提出了一種新的基于GA和LSSVM相結(jié)合的波長篩選算法,克服了傳統(tǒng)的波長選擇方法忽略非線性因素的缺陷,將新的算法與近紅外光譜結(jié)合應(yīng)用到黃酒中總酚含量的檢測,同時與傳統(tǒng)的iPLS,siPLS,GA進(jìn)行比較。結(jié)果表明,新算法可以在減少變量規(guī)模的同時,能夠有效地提高預(yù)測精度,在近紅外光譜檢測黃酒總酚含量具有重要的實用價值。
[1] 袁珂. 從綠茶中提取茶多酚的工藝方法[J]. 林產(chǎn)化學(xué)與工業(yè), 1997, 17(1):56-60.
[2] 黃常毅, 范海濱, 劉飛, 等. 近紅外光譜法在紅曲菌固態(tài)發(fā)酵過程參數(shù)檢測中的應(yīng)用[J]. 分析測試學(xué)報, 2014, 33(1):13-20.
[3] Cozzolino D, Kwiatkowski M J, Parker M. Prediction of phenolic compounds in red wine fermentations by visible and near infrared spectroscopy[J]., 2004, 513(1):73-80.
[4] Chen H Z, Song Q Q, Tang G Q. Optimal scheduling of cyclic batch processes for heat integration-basic formulation[J]., 2014, 60(3):595-601.
[5] Fernandez-Novales J, Lopez M I, Gonzalez-Czballero V. Shortwave- near infrared spectrescopy for determination of reducing sugar content during grape ripening, winemaking, and aging of white and red wines[J]., 2009, 42(2): 285-291.
[6] Xu L, Lu J G, Yang Q M. A new method of information interval selection near infrared spectral[J]., 1997, 17(1): 56-60.
[7] Norgaard L, Saudland A, Wagner J, Interval partial least-squares regression (ipls): a comparative chemometric study with an example from near-infrared spectroscopy[J]., 2000, 54(3): 413-419.
[8] Wang X F, Bao Y F, Liu G L. Study on the best analysis spectral section of NIR to detect alcohol concentration based on sipls[J]., 2012, 29: 2285-2290.
[9] Durand A. Genetic algorithm optimisation combined with partial least squares regression and mutual information variable selection procedures innear-infrared quantitative analysis of cotton–viscose textiles[J]., 2007, 595(1):72-79.
[10] Zou H Y, Wu H L, Fu H Y. Variable-weighted least-squares support vector machine for multivariate spectral analysis[J]., 2010, 80(5):1698-1071.
[11] Alves J C, Poppi R J. Biodiesel content determination in diesel fuel blends using near infrared (NIR) spectroscopy and support vector machines (SVM)[J]., 2013, 104:155-161.
[12] 劉雪梅, 柳建設(shè). 基于LS-SVM建模方法近紅外光譜檢測土壤速效N和速效K的研究[J].光譜學(xué)與光譜分析, 2012, 11: 3019-3023.
[13] Chauchard F, Cogdill R, Rcussel S. Application of LS-SVM to non-linear phenomena in NIR spectroscopy: development of a robust and portable sensor for acidity prediction in grapes[J]., 2004, 72(2):141-150.
[14] 吳瑞梅, 王曉, 郭平, 等. 近紅外光譜結(jié)合特征變量篩選方法用于農(nóng)藥乳油中毒死蜱含量的測定[J]. 分析測試學(xué)報, 2013, 32(11):1359-1363.
[15] Slinkard K, Singleton V L. Total phenol analysis: automation and comparison with manual methods[J]., 1997, 28(1):49-55.
Detection of Total Phenol of Chinese Yellow Wine: A NIRS Band Selection Method Based on GA-LSSVM
ZHANG Yan,ZHAO Zhong-gai,LIU Fei
(,,214122,)
The objective of the paper is to achieve the rapid detection of the total phenol in the Chinese rice wine by NIRS. In order to develop the model for nonlinear NIRS with small sample, least squares support vector machine (LSSVM) is introduced into the genetic algorithm-based (GA-based) wavelength-selection method, and a GA-LSSVM method is proposed. In the proposed method, each segment of wavelength is modeled by the LSSVM method, and the optimal segments are determined by the GA algorithm. By employing the GA-LSSVM model, the prediction correlation coefficient of the total phenol is 0.9734, and the root mean square error for prediction (RMSEP) is 5.5596. The application results demonstrate that compared with the conventional methods, the proposed method can achieve better extraction of the nonlinear information hiding in the NIRS, and get the better prediction performance.
NIR,total phenol in the Chinese yellow wine,GA-LSSVM
O657.33
A
1001-8891(2015)07-0613-05
2015-04-17;
2015-06-03。
張嚴(yán)(1989-),男,碩士研究生,主要研究方向為近紅外光譜分析。
趙忠蓋,男,博士,副教授,碩士生導(dǎo)師,研究方向:間歇過程統(tǒng)計監(jiān)控、軟測量與狀態(tài)估計,E-mail:gaizihao@jiangnan.edu.cn。
國家自然科學(xué)基金項目,編號:61134007。