基于MC-UVE、GA算法及因子分析對葡萄酒酒精度近紅外定量模型的優(yōu)化研究

2018-09-10 08:02:04王怡淼朱金林趙建新顧小紅朱華新

發(fā)光學報 2018年9期

王怡淼，朱金林，張慧，趙建新，顧小紅，朱華新

(1．江南大學食品科學與技術國家重點實驗室，江蘇無錫 214122； 2．江南大學食品學院，江蘇無錫 214122;3．浙江大學控制科學與工程學院, 浙江杭州 310027; 4．張家港出入境檢驗檢疫局，江蘇張家港 215600;5. 食品安全國際合作聯(lián)合實驗室，江蘇無錫 214122； 6．江南大學理學院，江蘇無錫 214122)

1 引言

葡萄酒在我國起源較早，有著悠久的歷史。隨著人們生活條件的改善以及我國釀酒技術的提高，葡萄酒越來越被大眾所接受，成為餐桌上的必備飲品。葡萄酒的主要成分包括酒精、糖類、醇類、有機酸、維生素、多酚類物質(zhì)等，每天適量飲用能夠增強免疫力，抗氧化[1]，預防癌癥、動脈硬化[2]、糖尿病等。葡萄酒的品質(zhì)鑒定主要依靠專業(yè)的品酒師進行感官評定或是對其進行理化檢測，但是這兩種方法不僅耗時耗力，而且前期投入大，對樣品預處理要求高。因此為了快速智能地對葡萄酒品質(zhì)進行檢測，維護葡萄酒市場的穩(wěn)定，亟需一種快速無損精確的檢測方法。

近年來，國內(nèi)外已有許多針對葡萄酒快速檢測的研究。主要利用紅外光譜技術[3-4]、高效液相色譜法[5]、氣相色譜-質(zhì)譜聯(lián)用[6]等方法結合化學計量學對葡萄酒中的一些成分進行快速檢測，其中又以紅外光譜技術最為簡便快速，能滿足工業(yè)生產(chǎn)在線無損檢測的要求。目前，紅外光譜技術已經(jīng)作為一種常用手段應用于產(chǎn)地溯源、多組分檢測、過程控制等領域。吳正宗等[7]利用傅里葉紅外光譜技術實現(xiàn)了黃酒中17種自由氨基酸濃度的快速檢測；Basalekou[8]使用傅里葉紅外光譜技術作為檢測葡萄酒成熟的工具；Urbano-Cuadrado等[9]利用近紅外光譜技術對葡萄酒樣本的15個參數(shù)分別建立了PLS模型，大部分模型效果良好；Cozzolino[10]使用近紅外光譜結合化學計量學對葡萄酒中的酚類化合物濃度進行預測。

通常，在建立葡萄酒酒精度定量分析模型時會通過譜圖分析選擇建模變量，這對光譜分析能力有較高的要求。但如果直接使用全光譜區(qū)域建模，往往會包括一些與樣品無關的信息，導致模型的穩(wěn)定性和預測性下降，并且對于大數(shù)據(jù)量的樣本，使用全光譜建模會影響建模及檢測效率。因此，選擇合適的算法對變量進行篩選是很有必要的，不僅能夠簡化模型，還能提高建模和檢測效率。最常用的變量選擇方法有模擬退火(SA)[11]、遺傳算法(GAs)[12]、人工神經(jīng)網(wǎng)絡(ANN)[13]、無信息變量消除法(UVE)[14]和連續(xù)投影算法(SPA)[15]。本研究主要基于GA和MC-UVE算法選擇最有效的特征波長，進一步進行因子分析(FA)建立回歸模型，并與PLS回歸模型進行比較，探究葡萄酒酒精度定量模型的優(yōu)化方法。

2 實驗

2.1 樣品

試驗的樣品均來自張家港出入境檢驗檢疫局，117個樣品分別產(chǎn)自西班牙(n=11)、智利(n=38)、澳大利亞(n=16)、法國(n=42)、阿根廷(n=4)、美國(n=3)、意大利(n=3)，密封保存在4 ℃的冰箱中。

2.2 近紅外光譜采集

使用FT-NIR光譜儀(Thermo Fisher，USA)采集近紅外光譜，每次實驗前開機預熱1 h。光譜采集范圍為4 000～10 000 cm-1，掃描次數(shù)16次，分辨率8 cm-1。在透射模式下采集每個樣品的光譜信息。將樣品在20 ℃下放置1 h，然后將樣品置于光程1 mm的矩形石英比色皿中，使用RUSULT軟件采集光譜數(shù)據(jù)，光譜數(shù)據(jù)輸出格式為吸光度。每個樣品掃描10次，得到平均光譜作為最終譜圖。

2.3 參考值的測定

酒精度含量測定采用酒精計法，按照GB/T 15038-2006測定。

2.4 因子分析方法(FA)

因子分析是基于概率回歸模型框架下進行的[16]，與傳統(tǒng)的回歸分析模型相比，概率模型具有以下幾個優(yōu)勢[17]：(1)在概率建?？蚣芟?，能夠?qū)⒂行У淖畲笃谕?EM)化算法納入到參數(shù)學習中；(2)可以有原則的方式制定概率模型的混合形式；(3)可以通過概率模型解決數(shù)據(jù)遺漏問題；(4)可以對概率模型進行進一步的貝葉斯(Bayes)處理，用于自動確定潛變量模型的維度。但是，PCA和PCR的概率模型都有一個限制假設：不同的過程變量使用相同的噪聲方差。為了解決這個問題，將因子分析引入概率模型中。

傳統(tǒng)的FA模型集中在高斯分布的潛變量t上，而原始測量變量x被視為t和噪聲e的線性組合，其目的是找到最可能的參數(shù)集[18]。傳統(tǒng)的FA模型只集中在一個無監(jiān)督的數(shù)據(jù)集上，而監(jiān)督的FA分析試圖在一對數(shù)據(jù)集X和Y之間建立模型，X=[x1,x2,…,xn]T∈Rn×m，Y=[y1,y2,…,yn]T∈Rn×r，其中m代表X的測量變量的數(shù)量，r代表Y的測量變量的數(shù)量，監(jiān)督FA模型的結構如下述方程式所示：

x=Axt+ex，

(1)

y=Ayt+ey，

(2)

其中Ax∈Rm×k，Ay∈Rr×k，分別是X和Y的因子載荷矩陣。t∈Rk×1，是潛在因子向量，而ex∈Rm×1、ey∈Rr×1分別是x和y的測量噪聲。在本實驗中，x代表波長，y代表酒精度。

2.5 蒙特卡羅無信息變量消除法(MC-UVE)

UVE可以消除無用的信息變量，通常使用穩(wěn)定性來評估每個變量的可靠程度。在UVE算法中，使用leave-one-out(LOO)交叉驗證，而對于MC-UVE來說，是使用MC交叉驗證來獲得穩(wěn)定性的值，這兩者的區(qū)別在于，LOO交叉驗證一次只留一個樣本用于驗證，而MC交叉驗證一次篩選出大部分樣品以進行驗證。這增強了驗證對建模的影響，提高了選出最佳模型的可能性[19]。通過MC算法，從訓練集中隨機選擇一定量的樣本作為用于構建PLS子模型的訓練子集，并且該過程重復M次。然后，計算PLS回歸系數(shù)b(M×p)的矩陣，通過下式計算每個變量j的穩(wěn)定性：

(3)

其中mean(bj)和std(bj)是變量j的回歸系數(shù)的平均值和標準偏差。穩(wěn)定性Sj的絕對值越大，相應變量越重要。

2.6 遺傳算法(GA)

遺傳算法是基于自然遺傳和自然選擇過程建立的一種優(yōu)化方法，主要包括五個基本步驟：(1)變量編碼；(2)初始化群體；(3)計算適應度值；(4)復制；(5)變異。不斷重復步驟(3)～(5)，直到達到終止條件[20]。應用遺傳算法對近紅外建模波長進行優(yōu)化選擇是基于該算法能夠不斷地對模型進行簡化以及對有利于提高建模效果的波段或者波長點進行優(yōu)化組合，從而達到最佳的預測效果[21]。

2.7 模型的評估

3 結果與討論

3.1 葡萄酒近紅外光譜

圖1顯示了不同產(chǎn)地葡萄酒樣品的近紅外透射光譜圖，從圖中可以看出，不同產(chǎn)地的葡萄酒具有相似的近紅外吸收峰。其中，在4 996 cm-1處的吸收峰，其吸光度接近3，說明此時透過樣品的近紅外光很微弱，極易受到噪聲等外界環(huán)境的影響，因此在分析時應把其剔除。同時 5 200 cm-1附近的吸收峰已經(jīng)飽和，也應將其剔除。6 862 cm-1處較強的吸收峰與葡萄酒中碳水化合物和水的—OH基團的一級倍頻吸收相關，4 300～4 500 cm-1波段內(nèi)的小峰主要與樣品中各組分的C—H鍵的合頻吸收有關，而5 250～6 000 cm-1的峰則是與C—H鍵的二倍頻吸收有關[23]。

從以上分析可以看出，近紅外光譜吸收弱，大多與O—H、C—H、S—H和N—H等含氫基團的分子振動有關，并且譜帶寬、重疊現(xiàn)象嚴重，很難對單一譜帶進行精確歸屬。因此基于近紅外光譜建立定量模型時，對建模特征變量的選取是有一定難度的，而光譜區(qū)域的選擇又會直接影響模型的效果。

圖1 葡萄酒樣本近紅外透射光譜圖

3.2 樣品的酒精度含量

葡萄酒樣品中酒精度含量較為集中，符合用于建模的組分含量應盡量均勻分布的原則，因此可直接用于建模。參考國標法測定的葡萄酒樣品中酒精度含量，作為建模時的標準數(shù)據(jù)，產(chǎn)自7個產(chǎn)地的共117個葡萄酒樣品酒精度參考值如表1所示，將117個樣品分為78個訓練集樣品和39個預測集樣本。

表1 葡萄酒樣品酒精度參考值

3.3 使用全譜結合PLS分析方法建立的酒精度回歸模型

使用全譜范圍進行PLS分析，建立回歸模型。從表2可以看出，原始光譜建立的模型R2和RMSECV分別為0.891和0.301，表明基于近紅外光譜建立葡萄酒酒精度PLS回歸模型具有可行性，但是由于未對建模變量進行篩選，導致紅外光譜數(shù)據(jù)中包含較多的噪聲和無關信息，使得模型的預測能力不高。利用預測集樣本對該模型進行驗證，預測結果見表3。

表2訓練集樣本酒精度PLS模型參數(shù)

Tab.2 Main parameters in PLS models of alcohol content of training samples

PretreatmentCalibrationCross-validationRMSECR2RMSECVR2Full0.2380.9330.3010.891

表3 不同模型的酒精度預測集

3.4 基于MC-UVE方法的變量選擇

圖2 使用MC-UVE算法對酒精度預測的變量的穩(wěn)定性分布

Fig.2 Stability distribution of variables for prediction of the alcohol content by MC-UVE method

3.5 基于GA算法的變量選擇

圖3 RMSECV與所選變量數(shù)量的變化關系

Fig.3 Variation of RMSECV with the number of selected variables

3.6 因子分析

圖4為兩個模型的預測結果的相關性，從圖中可以看出，采用MC-UVE-GA-FAR模型的實測值和預測值的相關性明顯高于使用全光譜所建模型，說明MC-UVE、GA算法和FA分析能顯著提高模型的性能。并且MC-UVE和GA算法是對變量進行自動選擇，不需要有較強的紅外光譜分析能力；用于建模的變量數(shù)僅為6個，有效地提高了建模及檢測效率，更加適合于實際生產(chǎn)應用。

圖4 預測集酒精度實測值與預測值散點圖。 (a)全光譜PLS模型結果；(b)MC-UVE-GA-FAR模型結果。

Fig.4 Scatter plot of measuredversuspredicted alcohol content of the prediction set. (a)Results of full spectra-PLS model. (b)Results of MC-UVE-GA-FAR.

4 結論

本實驗是基于葡萄酒酒精度快速無損檢測要求的優(yōu)化研究。對117個葡萄酒樣本進行近紅外光譜采集，以采集到的光譜數(shù)據(jù)的平均值為基礎，利用MC-UVE和GA算法以選擇最佳變量，同時建立PLS回歸模型和FA回歸模型。結果表明，MC-UVE-GA-FAR模型的效果最佳，預測集R2為0.946，RMSEP為0.215，均優(yōu)于MC-UVE-GA-PLS模型，說明FA分析能夠提高模型的預測能力。并且所需的建模變量數(shù)僅為6個，簡化了模型，提高了預測效率。本實驗證明MC-UVE和GA算法是變量選擇的有效方法，結合FA分析能夠?qū)崿F(xiàn)模型的簡化及優(yōu)化，滿足實際生產(chǎn)應用的要求，實現(xiàn)葡萄酒酒精度在線快速無損檢測。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于MC-UVE、GA算法及因子分析對葡萄酒酒精度近紅外定量模型的優(yōu)化研究

1 引 言

2 實 驗