于曉陽 莫家慶 呂小毅 唐軍 陳程 陳晨
摘 ? 要:為了實(shí)現(xiàn)胡蘿卜汁品牌的快速無損鑒別,文章以市售兩種品牌的胡蘿卜汁為研究對(duì)象,通過采集拉曼光譜,并結(jié)合支持向量機(jī)算法,建立了快速判斷胡蘿卜汁品牌的分類模型。兩種品牌的胡蘿卜汁光譜主要在1 007 cm-1,1 157 cm-1,1 516 cm-1這3個(gè)譜峰存在差異。先對(duì)拉曼光譜進(jìn)行預(yù)處理,再選用蟻群優(yōu)化算法進(jìn)行特征選擇,最后結(jié)合SVM構(gòu)建分類模型。結(jié)果顯示,相比SVM直接分類,模型ACO-SVM的最優(yōu)分類準(zhǔn)確率為96.67%,提高了2.5%;其分類時(shí)間為7.17 s,縮短了163.31 s。研究表明,基于拉曼光譜分析技術(shù)和模式識(shí)別算法構(gòu)建的分類模型能夠有效地鑒別胡蘿卜汁品牌。
關(guān)鍵詞:拉曼光譜;蟻群優(yōu)化算法;胡蘿卜汁;特征選擇;支持向量機(jī)
假冒食品不僅損害了消費(fèi)者的利益,而且也對(duì)正常的市場經(jīng)濟(jì)秩序造成了極大危害。目前市售胡蘿卜汁品牌繁多,質(zhì)量也參差不齊,市場上缺少一種能簡單、快速、無損地鑒別胡蘿卜汁品牌的方法,來打擊假冒胡蘿卜汁。為此,本研究將拉曼光譜分析技術(shù)同模式識(shí)別算法相結(jié)合,構(gòu)造分類模型,鑒定胡蘿卜汁品牌。
目前,應(yīng)用在食品品種、品牌鑒別方面的光譜分析技術(shù)主要有熒光光譜分析技術(shù)、紅外光譜分析技術(shù)、拉曼光譜分析技術(shù)。本研究采用拉曼光譜分析技術(shù),原因如下:首先,作為胡蘿卜汁樣品中的一種主要成分,水在紅外區(qū)有強(qiáng)烈的吸收能力,而其拉曼光譜信號(hào)在一般感興趣的范圍內(nèi)則非常微弱。其次,胡蘿卜汁樣品中的類胡蘿卜素能產(chǎn)生共振拉曼光譜而不能產(chǎn)生熒光。與紅外光譜分析技術(shù)[1]相比,這種技術(shù)結(jié)合模式識(shí)別算法在眾多的分類問題中都取得了更好的效果。國內(nèi)外已有研究人員將拉曼光譜分析技術(shù)同模式識(shí)別算法結(jié)合對(duì)魚片種類[2]、奶酪真?zhèn)蝃3]和葡萄酒產(chǎn)地[4]等的鑒別進(jìn)行了研究,有效地實(shí)現(xiàn)了食品分類。在眾多模式識(shí)別算法中,專門針對(duì)小樣本學(xué)習(xí)問題提出的支持向量機(jī)(Support Vector Machine,SVM)[5-6]不僅非常適合處理非線性問題,而且具有良好的推廣能力。
鑒于此,本研究結(jié)合拉曼光譜分析技術(shù)和SVM構(gòu)造分類模型。為了在提高模型性能的同時(shí)避免出現(xiàn)過擬合現(xiàn)象,采用特征降維[7-8]簡化分類模型是十分必要的。常見的主成分分析法(Principle Component Analysis,PCA)降維后的特征集失去了原有的物理意義和一些有用的類間區(qū)分信息,而特征選擇通過選擇與分類密切相關(guān)的特征來降低所需特征維數(shù),彌補(bǔ)了PCA的不足。特征選擇本質(zhì)上是一個(gè)組合優(yōu)化問題,相比其他優(yōu)化方法,近年來迅速發(fā)展起來的智能優(yōu)化算法具有通用性強(qiáng)、穩(wěn)健、全局優(yōu)化能力強(qiáng)等突出優(yōu)點(diǎn)。因此,本研究選用極具代表性的智能優(yōu)化特征選擇算法—蟻群優(yōu)化算法(Ant Colony Optimization,ACO)[9-10]對(duì)光譜數(shù)據(jù)進(jìn)行降維。
本研究對(duì)打擊假冒胡蘿卜汁具有一定的借鑒意義,為其提供了技術(shù)支持。在一定程度上加強(qiáng)了品牌保護(hù),有利于維護(hù)市場的公平競爭、促進(jìn)市場的良性循環(huán)。
1 ? ?實(shí)驗(yàn)過程
1.1 ?實(shí)驗(yàn)材料和方法
實(shí)驗(yàn)以市售兩種品牌的胡蘿卜汁為實(shí)驗(yàn)材料,研究胡蘿卜汁品牌的鑒別方法。一種是神內(nèi)胡蘿卜汁,樣品個(gè)數(shù)為40個(gè);另一種是農(nóng)夫果園,樣品個(gè)數(shù)為50個(gè)。實(shí)驗(yàn)使用共聚焦顯微拉曼光譜儀(LabRAM HR Evolution RAMAN SPECTROMETER,HORIBA Scientific Ltd.)在532 nm激光源下測其拉曼光譜。操作時(shí),用毛細(xì)管吸取樣品放在載物臺(tái)上,先用10×鏡找到物像,再用50×鏡觀察,采集100~4 000 cm-1范圍內(nèi)的拉曼光譜信號(hào),數(shù)據(jù)采集的積分時(shí)間為5 s,積分次數(shù)為3次。本實(shí)驗(yàn)共采集了兩種品牌的胡蘿卜汁共計(jì)90個(gè)樣品的拉曼光譜。需要注意的是,為了校正儀器以保證結(jié)果的準(zhǔn)確性,光譜儀每次在使用前要測單晶硅片的拉曼光譜,使其峰位保持在(520.7±0.3)cm-1范圍內(nèi)。
1.2 ?光譜數(shù)據(jù)處理
因?yàn)槔庾V信號(hào)本身就比較弱,而且存在很多噪聲,所以應(yīng)對(duì)測得的拉曼光譜進(jìn)行去噪處理,提高其信噪比。拉曼光譜中往往也包含較強(qiáng)的熒光背景(即基線)。其存在會(huì)影響后續(xù)的光譜歸一化等操作,需提前將其去除。考慮到以上兩點(diǎn),首先,用FFT濾波器5點(diǎn)平滑法對(duì)各譜線進(jìn)行去噪處理,可以去除大部分的噪聲,使光譜曲線較為平滑,并完整保存了胡蘿卜汁樣品的拉曼特征峰。其次,用自適應(yīng)迭代重加權(quán)懲罰最小二乘(adaptive iteratively reweighted Penalized Least Squares,airPLS)法[11]校正基線如圖1—2所示。此方法能夠完整保留胡蘿卜汁樣品原始拉曼光譜的特征峰,并且提高了峰的對(duì)比度和辨識(shí)度。最后,將經(jīng)去噪和基線校正處理后的拉曼光譜數(shù)據(jù)歸一化,進(jìn)行特征選擇。
2 ? ?光譜分析
拉曼光譜技術(shù)早已被廣泛應(yīng)用于類胡蘿卜素研究中。Rimai在20世紀(jì)70年代研究了一系列不同長度、結(jié)構(gòu)類胡蘿卜素的拉曼光譜[12],解釋了拉曼活性模頻率隨分子鏈長度、結(jié)構(gòu)的變化規(guī)律,并提出了大量重要的物理思想。作為一種典型的類胡蘿卜素,β-胡蘿卜素的拉曼光譜主要由反映化學(xué)鍵不同振動(dòng)情況的3個(gè)拉曼峰(定義為υ1,υ2,υ3)組成,從圖3可直觀看到,在1 516 cm-1(υ1),1 157 cm-1(υ2),1 007 cm-1(υ3)處出現(xiàn)了明顯的β-胡蘿卜素的拉曼特征峰。其中,υ1帶與β-胡蘿卜素分子中多烯鏈的C=C鍵的伸縮振動(dòng)有關(guān)[13]。υ2帶則較復(fù)雜,對(duì)于其指認(rèn)有兩種觀點(diǎn),一種觀點(diǎn)是υ2帶只反映分子C-C鍵的伸縮振動(dòng)[14];另一種觀點(diǎn)將υ2帶指認(rèn)為C=C,C-C伸縮振動(dòng)與C-H擺動(dòng)的混合。υ1帶和υ2帶與β-胡蘿卜素分子的分子結(jié)構(gòu)相關(guān)。υ3帶與β-胡蘿卜素分子的對(duì)稱性和電子的分配有關(guān),反映了-CH基團(tuán)的彎曲振動(dòng)程度[15]。此外,這3個(gè)峰的線性組合頻分散在2 300~3 500 cm-1之間[16]。
兩種胡蘿卜汁的拉曼譜峰在相對(duì)強(qiáng)度上存在明顯差異,而在峰位、半峰寬方面無明顯差異。譜峰相對(duì)強(qiáng)度的差異揭示了這兩種胡蘿卜汁的β-胡蘿卜素含量的差異。譜峰主要出現(xiàn)在1 007 cm-1,1 157 cm-1,1 516 cm-1處。在這3個(gè)譜峰處,相比于農(nóng)夫果園,神內(nèi)胡蘿卜汁的譜峰強(qiáng)度較高,表明在這兩種胡蘿卜汁中,神內(nèi)胡蘿卜汁的β-胡蘿卜素含量比農(nóng)夫果園高。3處峰位的情況皆從光譜上說明了胡蘿卜汁品牌的可分性。
3 ? ?ACO-SVM分類模型的建立
3.1 ? ACO特征選擇
因?yàn)楹}卜汁拉曼光譜數(shù)據(jù)的特征維數(shù)較高,為避免“維數(shù)災(zāi)難”和過擬合現(xiàn)象,并提高模型的分類精度和效率,有必要進(jìn)行特征選擇。特征選擇本質(zhì)上是一個(gè)組合優(yōu)化問題,故可用ACO算法降維。胡蘿卜汁拉曼光譜數(shù)據(jù)的特征選擇核心步驟如下:
(1)蟻群參數(shù)初始化。本文中蟻群優(yōu)化算法的參數(shù)設(shè)置為最大迭代次數(shù)MaxIt=100;所選特征個(gè)數(shù)NF=10,群體中螞蟻數(shù)m=10,螞蟻循環(huán)一周所釋放的總信息素量Q=0.5,初始信息素τ0=1,信息啟發(fā)式因子α=1,期望啟發(fā)式因子β=1,信息素殘留系數(shù)ρ=0.2。
(2)確定轉(zhuǎn)移概率。每只螞蟻根據(jù)轉(zhuǎn)移概率決定前進(jìn)方向,在第t次迭代時(shí),螞蟻k從特征i轉(zhuǎn)移到特征j的概率為pkij(t),由跟蹤水平τα和期望信息ηβ這兩個(gè)參數(shù)決定。計(jì)算方法如式(1)所示:
(1)
(3)信息素更新。當(dāng)所有螞蟻都死亡時(shí),全部可行解中適應(yīng)值最小的解即為此次迭代的最優(yōu)解,并暫時(shí)將其作為全局最優(yōu)解保存,螞蟻按式(2)更新信息素并進(jìn)行新一輪迭代,若得到的最優(yōu)解比全局最優(yōu)解更好,則用本次最優(yōu)解替代;否則,全局最優(yōu)解保持不變:
(2)
其中,Δτkij為信息素增量,Δτkij=Q*Fkij,Q為總信息素量,ρ為信息素軌跡的衰減系數(shù),0<ρ<1。
3.2 ?支持向量機(jī)
3.2.1 ?線性可分情況與線性不可分情況
訓(xùn)練樣本集分為線性可分與線性不可分兩種情況。對(duì)于線性可分的樣本,最優(yōu)分類超平面的求解就是求(w, b)的最佳值??梢詫⒃搯栴}轉(zhuǎn)化為式(3)所示的二次規(guī)劃問題(Quadratic Programming,QP):
(3)
稱式(3)所述問題為原始問題,可以應(yīng)用拉格朗日乘子法構(gòu)造拉格朗日函數(shù)再通過求解其對(duì)偶問題得到原始問題的最優(yōu)解。構(gòu)造拉格朗日函數(shù)后問題轉(zhuǎn)化為:
(4)
其中,αi≥0, i=1, 2, ... , n代表樣本xi對(duì)應(yīng)的拉格朗日乘子。對(duì)于大多數(shù)情況,這些αi只有很少一部分不為零,不為零的αi所對(duì)應(yīng)的樣本xi就是支持向量。式(3)的等價(jià)優(yōu)化問題為:
(5)
根據(jù)拉格朗日對(duì)偶性,式(3)所述問題即原始問題的對(duì)偶問題是:
(6)
為了求得對(duì)偶問題的解,需要先求得L(w, b, α)對(duì)w和b的極小再求對(duì)α的極大。
(1)求:對(duì)拉格朗日函數(shù)求導(dǎo)并令其導(dǎo)數(shù)為0,可以得到:
(7)
將式(7)代入L(w, b, α),得:
(8)
所以:
(9)
(2)求對(duì)α的極大等價(jià)于式(9)取負(fù)數(shù)后對(duì)α求極小,即:
(10)
這意味著求解原始最優(yōu)化問題式(3)可以轉(zhuǎn)換為求解對(duì)偶最優(yōu)化問題(10)。不難發(fā)現(xiàn),式(10)是不等式約束條件下的QP問題。解出式(10)的最優(yōu)解α*后,求解式(7)得到最優(yōu)分類超平面:
(11)
則分類的決策函數(shù)為
(12)
對(duì)于線性不可分的樣本,構(gòu)建其最優(yōu)分類超平面時(shí),需要放松上述不等式中的約束條件,使之能用于線性不可分樣本的求解。在二次規(guī)劃問題的約束條件中增加松弛變量ξi可解決線性不可分問題,即:
(13)
當(dāng)出現(xiàn)分類錯(cuò)誤時(shí),ξi大于零,ξi可以用來度量一個(gè)樣本點(diǎn)錯(cuò)分的誤差,就是訓(xùn)練樣本劃分錯(cuò)誤的上界。為了使分類間隔和分類錯(cuò)誤有一個(gè)折中,在原目標(biāo)函數(shù)中加入一個(gè)錯(cuò)誤懲罰因子C,C的大小代表了對(duì)分類出錯(cuò)時(shí)的懲罰程度,則目標(biāo)函數(shù)變?yōu)椋?/p>
(14)
類似地,線性不可分樣本的最優(yōu)分類超平面的求解幾乎與線性可分時(shí)相同,不同的只是約束條件變?yōu)?≤αi≤C, i=1, 2, ... , n。
3.2.2 ?非線性情況及核函數(shù)
SVM對(duì)無法用線性方法劃分的訓(xùn)練樣本采用如下思想:在映射函數(shù)的作用下,將原空間的訓(xùn)練樣本映射到一個(gè)高維特征空間,在該空間中樣本線性可分,然后在該空間中構(gòu)建一個(gè)最優(yōu)分類超平面。
高維特征空間中分類函數(shù)的求解只需計(jì)算訓(xùn)練樣本之間的內(nèi)積,從而避免了復(fù)雜的高維計(jì)算;滿足Mercer條件的核函數(shù)可代替內(nèi)積運(yùn)算,在不增加計(jì)算復(fù)雜度的前提下實(shí)現(xiàn)線性分類。
首先,選取適當(dāng)?shù)暮撕瘮?shù)和適當(dāng)?shù)膮?shù)C,構(gòu)造最優(yōu)化問題:
(15)
其次,利用現(xiàn)成的二次規(guī)劃問題求解算法或者SMO算法求得最優(yōu)解α*。
再次,選擇α*的一個(gè)滿足0<α*j (16) 最后,構(gòu)造決策函數(shù): (17) 式(17)中,采用不同的核函數(shù)構(gòu)造出的SVM是不同的。支持向量機(jī)分類的重點(diǎn)在于核函數(shù)的構(gòu)建與選擇,合適的核函數(shù)可以巧妙解決高維空間維數(shù)災(zāi)難問題,降低高維空間中計(jì)算的復(fù)雜度。SVM常用的核函數(shù)有4種:線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)和Sigmoid核函數(shù)。
4 ? ?實(shí)驗(yàn)結(jié)果與分析
本文用ACO算法進(jìn)行特征選擇,并結(jié)合SVM建立胡蘿卜汁品牌的分類模型,進(jìn)行了對(duì)比仿真實(shí)驗(yàn):實(shí)驗(yàn)將所選特征的個(gè)數(shù)設(shè)置為10,最大迭代次數(shù)設(shè)置為100,把分類誤差率作為適應(yīng)度函數(shù)的適應(yīng)值,用分類器SVM(采用網(wǎng)格尋優(yōu)法計(jì)算最優(yōu)參數(shù)值)和十折交叉驗(yàn)證得到的適應(yīng)值來評(píng)價(jià)特征選擇算法的性能優(yōu)劣。適應(yīng)值越低說明該特征選擇算法性能越好。ACO迭代次數(shù)與適應(yīng)值的關(guān)系如圖4所示,其最優(yōu)結(jié)果為0.025,最優(yōu)結(jié)果最早出現(xiàn)的代數(shù)為39。若為了在優(yōu)化效果不大幅下降的前提下減少計(jì)算開銷,將最大迭代次數(shù)設(shè)為50較為合適。
在使用ACO-SVM分類時(shí),以分類準(zhǔn)確率和分類時(shí)間作為評(píng)價(jià)分類模型的有效指標(biāo),為了使結(jié)果更接近其真實(shí)性能,采用網(wǎng)格尋優(yōu)法和十折交叉驗(yàn)證。觀察圖5可以發(fā)現(xiàn),在分類精度方面,分類模型ACO-SVM在采用RBF核函數(shù)時(shí)的分類精度最高,且無論采用哪種核函數(shù),相比于直接使用SVM分類,其分類精度都有所提高,具體來說,在采用Linear,Polynomial,RBF,Sigmoid核函數(shù)時(shí),分類準(zhǔn)確率分別提高了1.67%,3.34%,2.5%,2.5%。由表1可直觀看出,在分類效率方面,無論使用哪種核函數(shù),模型ACO-SVM的分類效率都比直接分類時(shí)有顯著提高,說明使用分類模型ACO-SVM進(jìn)行胡蘿卜汁品牌的分類是非常有效的。
5 ? ?結(jié)語
為了鑒定胡蘿卜汁品牌,本文將拉曼光譜分析技術(shù)同模式識(shí)別算法相結(jié)合,建立了分類模型ACO-SVM,實(shí)現(xiàn)了對(duì)市售兩種品牌的胡蘿卜汁的有效分類。首先,對(duì)光譜進(jìn)行去噪、基線校正和歸一化處理;其次,進(jìn)行特征選擇;最后,用SVM進(jìn)行分類。經(jīng)特征選擇,特征數(shù)由最初的2 710個(gè)縮減到10個(gè),達(dá)到了去除冗余特征的目的,相比直接分類,ACO-SVM在提升分類精度的同時(shí),大大提高了分類效率。研究表明,分類模型ACO-SVM能夠有效地將兩種品牌的胡蘿卜汁分開,實(shí)現(xiàn)了胡蘿卜汁品牌的快速鑒別,為打擊假冒胡蘿卜汁提供了技術(shù)支撐。
[參考文獻(xiàn)]
[1]張海紅,張淑娟,王鳳花,等.應(yīng)用可見-近紅外光譜快速識(shí)別沙棘汁品牌[J].光學(xué)學(xué)報(bào),2010(2):574-578.
[2]BO?IDAR R,RALF H,PETRA R,et al.The potential of raman spectroscopy for the classification of fish fillets[J].Food Analytical Methods,2016(5):1301-1306.
[3]KAMILA DE S,CALLEGARO L D S,STEPHANI R,et al.Analysis of spreadable cheese by Raman spectroscopy and chemometric tools[J].Food Chemistry,2016(3):441-446.
[4]MANDRILE L,ZEPPA G,GIOVANNOZZI A M,et al.Controlling protected designation of origin of wine by Raman spectroscopy[J].Food Chemistry,2016(5):260-267.
[5]楊倩,孫雙林.基于粒子群優(yōu)化算法的雷達(dá)輻射源識(shí)別[J].激光雜志,2018(2):118-121.
[6]CHEN S G,WU X J,ZHANG R F.A novel twin support vector machine for binary classification problems[J].Neural Processing Letters,2016(3):795-811.
[7]EGHBAL G M,KHADIJEH S S.On fuzzy feature selection in designing fuzzy classifiers for high-dimensional data[J].Evolving Systems,2016(4):255-265.
[8]胡潔.高維數(shù)據(jù)特征降維研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2008(9):2601-2606.
[9]WANG G,HAICHENG E C,ZHANG Y X,et al.Multiple parameter control for ant colony optimization applied to feature selection problem[J].Neural Computing and Applications,2015(7):1693-1708.
[10]GONZ?LEZ P A,JUNG J J,CAMACHO D.ACO-based clustering for ego network analysis[J].Future Generation Computer Systems,2017(4):160-170.
[11]LIANG Y Z,CHEN S,ZHANG Z M.Baseline correction using adaptive iteratively reweighted penalized least squares[J].The Analyst,2010(5):1138-1146.
[12]RIMAI L,HEYDE M E,GILL D.Vibrational spectra of some carotenoids and related linear polyenes Raman spectroscopic study[J].Journal of the American Chemical Society,1973(14):4493-4501.
[13]MARTIN Q,MARC A,CELIN R,et al.β-carotene revisited by transient absorption and stimulated raman spectroscopy[J].ChemPhysChem,2015(18):3824-3835.
[14]里城祺,尚玉婕,孫琳,等.用高壓拉曼光譜方法研究β-胡蘿卜素相變[J].紅外,2018(11):34-38.
[15]楊宇,翟晨,彭彥昆,等.基于拉曼光譜的胡蘿卜中β-胡蘿卜素的快速無損檢測[J].食品安全質(zhì)量檢測學(xué)報(bào),2016(10):4016-4020.
[16]吳楠楠,歐陽順利,里佐威.高壓對(duì)β-胡蘿卜素分子結(jié)構(gòu)及π-電子離域影響的拉曼光譜研究[J].光譜學(xué)與光譜分析,2013(9):2429-2432.
Research on spectrum classification algorithm based on ACO-SVM
Yu Xiaoyang1, Mo Jiaqing1*, Lyu Xiaoyi1, Tang Jun2, Chen Cheng1, Chen Chen1
(1.College of Information Science and Engineerin, Xinjiang University, Urumqi 830046, China;
2.Center for Physical and Chemical Analysis, Xinjiang University, Urumqi 830046, China)
Abstract:In order to achieve rapid and non-destructive identification of carrot juice brands, two types of commercially available carrot juice brands were used as research objects in this paper. A classification model for quickly determining carrot juice brands was established by collecting Raman spectra and using support vector machine algorithm. The carrot juice spectra of two brands are mainly different in the three peaks of 1 007 m-1, 1 157 cm-1, and 1 516 cm-1. Firstly, preprocessing the Raman spectra, then the ant colony optimization algorithm were used for feature selection, finally, the classification model was built with SVM. The results show that compared with direct classification by SVM, the optimal classification accuracy of the model ACO-SVM is 96.67%, which is an improvement of 2.5%; the classification time is 7.17 s, which is shortened by 163.31 s. Research shows that a classification model based on Raman spectroscopy and pattern recognition algorithms can effectively identify carrot juice brands.
Key words:Raman spectroscopy; ant colony optimization algorithm; carrot juice; feature selection; support vector machine