楊雙艷,周 瑾,沈彥文,楊紫剛,費(fèi) 宇,張四偉
(1.云南巴菰生物科技有限公司,云南 昆明 650000;2.云南財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,云南 昆明 650000;3.云南省煙草公司文山州公司,云南 文山 663000)
電子煙在傳遞尼古丁的過(guò)程中不需要對(duì)煙草進(jìn)行燃燒,相比傳統(tǒng)香煙更加安全且具有更少的有害成分,因此逐漸成為傳統(tǒng)香煙新的替代品[1]。煙堿作為電子煙煙油中最主要的成分,其含量決定了電子煙油的風(fēng)味口感及產(chǎn)品的安全性,一些國(guó)家和地區(qū)相繼將電子煙煙油中的煙堿納入監(jiān)管范圍。目前,對(duì)電子煙煙油中煙堿的檢測(cè)大多參考卷煙煙草的檢測(cè)方法,主要采用氣相色譜法和液相色譜法進(jìn)行測(cè)定,但這些方法存在檢測(cè)時(shí)間長(zhǎng)、樣品預(yù)處理繁瑣、費(fèi)用高、對(duì)操作人員要求高等缺點(diǎn)。因此,研究開發(fā)一種準(zhǔn)確、快速、無(wú)損的檢測(cè)方法獲得電子煙油的煙堿指標(biāo)對(duì)于控制電子煙油的品質(zhì)和工藝具有重大意義。
近紅外光譜(NIR)分析技術(shù)具有簡(jiǎn)便、快速、前處理簡(jiǎn)單、對(duì)樣品無(wú)破壞性、無(wú)污染并可多組分同時(shí)測(cè)定等優(yōu)點(diǎn)[2],在農(nóng)業(yè)[3-4]、石油[5-6]、煙草[7-9]等領(lǐng)域有著廣泛應(yīng)用,但目前尚未見采用近紅外光譜對(duì)電子煙油進(jìn)行檢測(cè)的研究。電子煙油中有機(jī)組分的化學(xué)和物理信息在近紅外光譜中均有體現(xiàn),因此近紅外光譜非常適合對(duì)電子煙油進(jìn)行分析檢測(cè)。
為了解決反向傳播算法(Backward probagation)學(xué)習(xí)效率低、參數(shù)設(shè)定繁瑣的問(wèn)題,2004年Huang等[10]提出極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)算法,并發(fā)表于當(dāng)年的IEEE國(guó)際交互會(huì)議(IEEE International Joint Conference)。ELM是一類基于前饋神經(jīng)網(wǎng)絡(luò)(Feedforward neuron network)的機(jī)器學(xué)習(xí)算法,其主要特點(diǎn)是隱含層節(jié)點(diǎn)參數(shù)可以隨機(jī)或人為給定且不需要調(diào)整,學(xué)習(xí)過(guò)程僅需計(jì)算輸出權(quán)重。ELM具有學(xué)習(xí)效率高和泛化能力強(qiáng)的優(yōu)點(diǎn),被廣泛應(yīng)用于分類[11]、回歸[12]、聚類[13]、特征學(xué)習(xí)[14]等問(wèn)題中,但尚未見應(yīng)用于電子煙油近紅外光譜分析的相關(guān)研究。
本文以近紅外光譜分析技術(shù)為基礎(chǔ),結(jié)合ELM算法對(duì)電子煙油的近紅外光譜數(shù)據(jù)和煙堿指標(biāo)進(jìn)行定量建模。與現(xiàn)有檢測(cè)方法相比,本文所提出的方法具有快速準(zhǔn)確、綠色無(wú)損等優(yōu)點(diǎn),能夠?qū)崿F(xiàn)電子煙油煙堿指標(biāo)的快速準(zhǔn)確測(cè)量,為電子煙油重要理化指標(biāo)的實(shí)時(shí)在線監(jiān)測(cè)和其它質(zhì)量參數(shù)的快速測(cè)量奠定了良好的基礎(chǔ)。
極限學(xué)習(xí)機(jī)與傳統(tǒng)的梯度下降學(xué)習(xí)算法相比具有較大優(yōu)勢(shì):(1)隨機(jī)給定隱含層的連接權(quán)值,訓(xùn)練過(guò)程不需要迭代調(diào)整,計(jì)算速度非??欤?2)傳統(tǒng)的梯度下降算法容易陷入局部極小,而ELM算法由于求解輸出權(quán)值最小二乘解的過(guò)程是一個(gè)凸優(yōu)化問(wèn)題,因此不會(huì)陷入局部最優(yōu);(3)參數(shù)選擇簡(jiǎn)單,只需選擇合適的隱含層結(jié)點(diǎn)便可獲得良好的性能,而傳統(tǒng)的梯度下降算法,如BP網(wǎng)絡(luò)等,需要選擇合適的學(xué)習(xí)率、訓(xùn)練步長(zhǎng)等,選擇不當(dāng)會(huì)影響網(wǎng)絡(luò)的泛化性。
對(duì)于一個(gè)單隱層神經(jīng)網(wǎng)絡(luò),假設(shè)有個(gè)任意的樣本(ti,Xi),其中:
Xi=[xi1,xi2,…,xin]T∈Rn
(1)
ti=[ti1,ti2,…,tin]T∈Rm
(2)
對(duì)于一個(gè)有N個(gè)隱層節(jié)點(diǎn)的單隱層神經(jīng)網(wǎng)絡(luò)可以表示為:
(3)
單隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)是使輸出的誤差最小,可以表示為:
(4)
即存在βi,Wi和bi,使得:
(5)
可以矩陣表示為:
Hβ=T
(6)
其中,H是隱層節(jié)點(diǎn)的輸出,β為輸出權(quán)重,T為期望輸出。
(7)
(8)
(9)
其中,i=1,…,L,這等價(jià)于最小化損失函數(shù):
(10)
傳統(tǒng)的一些基于梯度下降法的算法,可以用來(lái)求解式(10)中的問(wèn)題,但是基本的基于梯度的學(xué)習(xí)算法需要在迭代的過(guò)程中調(diào)整所有參數(shù)。而在ELM算法中,一旦輸入權(quán)重Wi和隱層的偏置bi被隨機(jī)確定,隱層的輸出矩陣H就被唯一確定。訓(xùn)練單隱層神經(jīng)網(wǎng)絡(luò)可以轉(zhuǎn)化為求解一個(gè)線性系統(tǒng)Hβ=T。并且輸出權(quán)重可以被確定:
(11)
樣本的近紅外光譜采集使用Antaris傅里葉變換近紅外光譜儀(Thermo Nicolet,USA),配有透射檢測(cè)器,采樣系統(tǒng)和Result、TQ Analyst等數(shù)據(jù)處理軟件;實(shí)驗(yàn)樣本由云南巴菰生物科技有限公司提供,共70個(gè)樣本。實(shí)驗(yàn)過(guò)程中,按照樣本煙堿含量從低到高均勻分布的原則選取40個(gè)樣本作為訓(xùn)練樣本,30個(gè)樣本作為測(cè)試樣本;使用氣相色譜儀/氫火焰離子化檢測(cè)器獲取電子煙油的煙堿含量,訓(xùn)練樣本的煙堿含量范圍為1~60 mg/g,平均值為27.98 mg/g,標(biāo)準(zhǔn)差為15.96;測(cè)試樣本的煙堿含量范圍為3~52 mg/g,平均值為27.37 mg/g,標(biāo)準(zhǔn)差為14.80。實(shí)驗(yàn)樣本的詳細(xì)信息見表1。
表1 實(shí)驗(yàn)樣本的詳細(xì)信息Table 1 Detail information of experimental samples
圖1 實(shí)驗(yàn)樣本的原始近紅外光譜數(shù)據(jù)Fig.1 Original NIR data of the samples
近紅外光譜儀的相關(guān)參數(shù)設(shè)置:光譜采集模式為透射模型,數(shù)據(jù)格式為Absorbance,掃描次數(shù)為32,分辨率為4 cm-1,光纖透射式探頭光程為2 mm,以空氣為參比,光譜掃描范圍為4 000~10 000 cm-1。將煙油樣本滴入石英皿中,每個(gè)樣本重復(fù)采樣3次,取3次光譜的平均值作為樣本的最終光譜。實(shí)驗(yàn)樣本的原始近紅外光譜數(shù)據(jù)如圖1所示。
首先對(duì)采集的電子煙油的近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理操作,并選擇合適的波段,分別采用主成分回歸(Principal component regression,PCR)[15]、偏最小二乘回歸(Partial least squares regression,PLSR)[16]和極限學(xué)習(xí)機(jī)回歸(Extreme learning machine regression,ELMR)建立近紅外光譜數(shù)據(jù)與煙堿含量之間的定量校正模型。使用決定系數(shù)(R2)、校正均方根誤差(Root mean square error of calibration,RMSEC)、預(yù)測(cè)均方根誤差(Root mean square error of prediction,RMSEP)為指標(biāo)優(yōu)化建模參數(shù),用以考察模型性能,以上參數(shù)的計(jì)算方法見文獻(xiàn)[17-18]。
圖2 原始光譜經(jīng)過(guò)多元散射校正和Savitzky-Golay一階導(dǎo)數(shù)(窗口大小為5,3次多項(xiàng)式)濾波后的預(yù)處理結(jié)果Fig.2 Pretreatment result of spectral data by means of using multiplicative scatter correction and Savitzky-Golay first derivative with a 5-point window and three polynomial order
對(duì)近紅外光譜數(shù)據(jù)進(jìn)行分析和處理時(shí),其中一個(gè)重要步驟是對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理操作。光譜的預(yù)處理操作能夠降低或消除非目標(biāo)因素對(duì)光譜信息的影響,通過(guò)對(duì)其進(jìn)行適當(dāng)?shù)臄?shù)學(xué)操作,能夠最大程度去除冗余信息,從而更利于從復(fù)雜光譜中提取有效信息,在一定程度上提高校正模型的穩(wěn)健性。本文通過(guò)多元散射校正和Savitzky-Golay一階導(dǎo)數(shù)(窗口大小為5,3次多項(xiàng)式)濾波的方法進(jìn)行預(yù)處理操作,處理結(jié)果如圖2所示??梢钥闯?,經(jīng)過(guò)預(yù)處理的光譜圖像有效消除了光譜的基線漂移現(xiàn)象。從圖2還可以看出,光譜的吸收波長(zhǎng)區(qū)間主要集中在4 492~7 864 cm-1。因此,隨后將主要使用此波長(zhǎng)區(qū)間對(duì)電子煙油的近紅外光譜數(shù)據(jù)與樣本的煙堿含量進(jìn)行定量建模。
分別采用PCR、PLSR和ELMR建立近紅外光譜數(shù)據(jù)和傳統(tǒng)化學(xué)方法測(cè)量所獲得的煙堿含量之間的定量校正模型,并以R2、RMSEC、RMSEP為指標(biāo)優(yōu)化建模參數(shù),建模結(jié)果和測(cè)試結(jié)果分別如表2和表3所示。其中,使用PCR和PLSR進(jìn)行光譜建模時(shí),首先對(duì)光譜數(shù)據(jù)進(jìn)行主成分降維處理,所選用的主成分?jǐn)?shù)為5。設(shè)置ELM算法的隱含層神經(jīng)元數(shù)為30,以Sigmoidal函數(shù)為隱含層神經(jīng)元激勵(lì)函數(shù)。由ELM算法的基本理論得知,輸入權(quán)重Wi和隱層的偏置bi將會(huì)在訓(xùn)練過(guò)程中隨機(jī)確定,不需人工設(shè)定。
由表2可以看出,使用ELMR算法所建立校正集模型的R2為0.950 0,遠(yuǎn)高于PCR和PLSR算法;同時(shí),ELMR算法的RMSEC為0.014 9,遠(yuǎn)低于PCR和PLSR算法。表3顯示,在預(yù)測(cè)方面,ELMR算法預(yù)測(cè)模型的R2為0.926 2,遠(yuǎn)高于PCR和PLSR算法;同時(shí),使用ELMR算法的RMSEP為0.026 8,遠(yuǎn)低于PCR和PLSR算法。因此,ELMR算法在建模效果和預(yù)測(cè)結(jié)果方面,都取得了最高的決定系數(shù)和最小的均方根誤差。上述結(jié)果證明,采用近紅外光譜技術(shù)快速測(cè)定電子煙油的煙堿含量時(shí),使用ELMR算法建立的模型性能優(yōu)于經(jīng)典的PCR和PLSR算法。相對(duì)于傳統(tǒng)方法,ELMR提高了訓(xùn)練集的數(shù)據(jù)利用率,具有更好的范化性能和更高的回歸預(yù)測(cè)精度,算法的預(yù)測(cè)精度高,泛化能力強(qiáng),不容易出現(xiàn)過(guò)擬合傾向。
表2 不同建模方法的煙堿訓(xùn)練結(jié)果Table 2 Training results of nicotine using different modeling methods
表3 不同建模方法測(cè)試樣本的預(yù)測(cè)結(jié)果Table 3 Prediction results of testing samples using different modeling methods
本文以近紅外光譜分析技術(shù)為基礎(chǔ),結(jié)合極限學(xué)習(xí)機(jī)算法對(duì)電子煙油進(jìn)行近紅外光譜定量建模。與現(xiàn)有檢測(cè)方法相比,本文所提出的檢測(cè)方法具有快速準(zhǔn)確、綠色無(wú)損等優(yōu)點(diǎn),能夠?qū)崿F(xiàn)電子煙油煙堿含量的快速準(zhǔn)確測(cè)量,為電子煙油煙堿含量的實(shí)時(shí)在線監(jiān)測(cè)和其它質(zhì)量參數(shù)的快速測(cè)量奠定了良好的基礎(chǔ)。