(1.中國科學(xué)院空天信息創(chuàng)新研究院 傳感技術(shù)國家重點實驗室,北京 100190;2.中國科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 100049)
咖啡不僅與可可、茶并稱為世界三大飲料,而且咖啡豆含有包括咖啡因及衍生物、葫蘆巴堿和綠原酸等在內(nèi)的上千種物質(zhì),能夠促進排尿、擴張血管、提高心率、刺激中樞神經(jīng)系統(tǒng)和呼吸系統(tǒng),緩解肌肉和大腦疲勞[1,2]。黑咖啡風(fēng)味偏苦、澀、酸,普通大眾的接受程度較低,而在黑咖啡中加入風(fēng)味調(diào)劑品形成的如拿鐵、摩卡、卡布奇諾等多種風(fēng)味咖啡,其口感醇厚、香甜易入口。風(fēng)味速溶咖啡區(qū)別于沖泡方式較為繁復(fù)的傳統(tǒng)咖啡,以其方便快捷、耐儲存、口感多樣等優(yōu)點在全球獲得廣泛流行。風(fēng)味咖啡多在黑咖啡中加入植脂末、白砂糖、麥芽糊精、食用香精等物質(zhì),共同形成最終咖啡風(fēng)味,咖啡的品質(zhì)口感與之息息相關(guān)。各國對咖啡品質(zhì)評價標(biāo)準(zhǔn)不一,美國精品咖啡協(xié)會(SCAA)的評定標(biāo)準(zhǔn)主要包括香氣、酸度、醇厚度、余韻等指標(biāo),但這種評測標(biāo)準(zhǔn)帶有個人主觀意識,耗時較長,人為干擾因素較多,容易給評價結(jié)果帶來一些偏差。目前,風(fēng)味檢測主要采用氣相色譜、電子鼻以及氣相色譜-質(zhì)譜聯(lián)用技術(shù)等[3-6]。
氣相色譜-離子遷移譜(gas chromatography-ion mobility spectroscopy,GC-IMS)是一種高靈敏度、低檢測限、操作簡單的快速檢測技術(shù)[7-9],樣品不需要復(fù)雜的預(yù)處理過程,通過頂空進樣能夠獲取樣品中的痕量VOCs(低至μg/m^3,甚至ng/m^3級別)信息,利用物質(zhì)在GC中保留時間和其特征離子在IMS中漂移時間構(gòu)成的二維譜圖信息能夠?qū)悠窔怏w成分進行表征,形成特定指紋圖譜。目前該技術(shù)在咖啡檢測方面多集中在生咖啡豆品種、產(chǎn)地風(fēng)味檢測和不同烘焙工藝對咖啡豆風(fēng)味影響等方面,鮮見于風(fēng)味咖啡液的檢測[10-12]。
由于IMS不能直接識別未知物質(zhì),因此常采用主成分分析(PCA)、決策樹、支持向量機等分類算法對混合物進行定性分析,并且在疾病篩查[13,14]、食品分類及安全[15,16]等方面有較為廣泛的應(yīng)用。PCA是一種常用的數(shù)據(jù)降維方法,但在降維的同時也會損失部分信息,造成準(zhǔn)確度下降。隨機森林算法[17]是以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法,具有實現(xiàn)簡單、準(zhǔn)確性高、抗過擬合能力強、抗噪能力強等優(yōu)點,適合作為基準(zhǔn)模型。隨機森林模型在訓(xùn)練過程中能夠利用全部特征并給出不同特征對識別分類貢獻率的信息,進而可以進行特征篩選,有利于進一步探究樣本中的特征峰簇信息。
本實驗以4種不同風(fēng)味咖啡為對象,采用GC-IMS技術(shù)對咖啡液頂空氣進行快速分析,根據(jù)其中VOCs的差異建立樣本特征矩陣,并利用隨機森林等統(tǒng)計學(xué)方法實現(xiàn)咖啡風(fēng)味的快速鑒定。
實驗中所使用的4種速溶咖啡粉購自網(wǎng)絡(luò),分別為藍山、卡布奇諾、木糖醇和拿鐵4種風(fēng)味,樣品編號及對應(yīng)名稱、風(fēng)味添加物、共同添加物如表1所示。
GC-IMS檢測系統(tǒng)結(jié)構(gòu)如圖1所示,系統(tǒng)主要由GC與IMS構(gòu)成。GC部分包括直徑0.535mm、長15m、膜厚1.5μm的DB-5氣相色譜柱和六通閥以及5mL定量環(huán)。定量環(huán)和氣體導(dǎo)管均為1/16英寸聚四氟乙烯管。IMS為實驗室自制,主要由電暈放電電離源、漂移管和外部電路組成。電暈放電電離源由中空的放電針和對電極組成,樣品由放電針進入IMS漂移管。漂移管由聚四氟乙烯環(huán)和不銹鋼環(huán)交替堆疊而成,被離子門分為離化區(qū)和漂移區(qū),其中漂移區(qū)長度為13.65cm,內(nèi)徑3.6cm。漂移管末端的法拉第盤用于接收離子流信號,經(jīng)放大、AD轉(zhuǎn)化后傳輸?shù)缴衔粰C處理。漂移氣體和載氣均為潔凈空氣,由空氣源提供。
表1 咖啡樣品
取上述咖啡粉2g溶于25℃的50mL水中并密封保存在100mL的樣品瓶內(nèi),充分混合后,靜置20min。
GC-IMS條件:載氣流量恒定速率30mL/min,色譜柱恒溫40℃;IMS漂移區(qū)電場強度363V/cm,漂移管恒溫180℃。電暈放電電壓9kV,漂移氣流量恒定速率1000mL/min。
利用注射器在咖啡液容器中抽取頂空氣,加載入儀器中的5mL定量環(huán)中,切換六通閥模式,載氣推動定量環(huán)中樣品氣進入GC中,不同組分先后流出GC并進入IMS中檢測,獲得對應(yīng)譜圖。
實驗中獲取的譜圖噪聲對后續(xù)特征提取會造成干擾,故首先需對譜圖進行去噪平滑、去基線等預(yù)處理操作。經(jīng)預(yù)處理后獲取的4種咖啡樣品譜圖如圖2所示,其中縱坐標(biāo)表示物質(zhì)在GC中的保留時間,橫坐標(biāo)表示離子漂移時間;橫坐標(biāo)8.7ms處為RIP峰(反應(yīng)離子峰,經(jīng)歸一化處理),類圓形代表揮發(fā)性有機物的信號,分布在RIP兩側(cè);顏色表示離子峰的強度,在低濃度范圍內(nèi)顏色越深表示離子峰強度越高,濃度極高時在圖上顯示為白色。
圖1 GC-IMS檢測系統(tǒng)結(jié)構(gòu)示意圖1.注射器;2.廢氣排氣孔3.六通閥;4.定量環(huán);5.載氣;6.氣相色譜柱;7.排氣孔;8.電暈放電電壓源;9.遷移電場電壓源;10進樣結(jié)構(gòu);11.離子門;12.法拉第盤;13.漂移氣入口;14.信號處理電路;15.潔凈空氣源;16.上位機
為更加全面對比4種不同咖啡的揮發(fā)性成分差異,對每種咖啡分別重復(fù)取樣15次,獲得共60個樣本的數(shù)據(jù)集。在實際檢測過程中,咖啡液濃度隨時間變化和儀器穩(wěn)定性等產(chǎn)生的誤差使得譜圖中特征離子峰位置并不完全固定,而是在一定范圍內(nèi)波動。為確定譜峰所屬峰簇,進行樣本集譜圖數(shù)據(jù)分析時需進行聚類[18],認(rèn)為處于同一峰簇的特征離子峰表示同一種離子。從樣本集譜圖中提取的特征峰聚類結(jié)果呈現(xiàn)在圖3所示的差分譜圖(樣品譜圖減去空白譜圖)中,矩形框內(nèi)相同顏色點表示同一特征峰簇,經(jīng)聚類從樣本數(shù)據(jù)集共獲取77個特征峰簇。提取各特征峰簇位置(GC保留時間及IMS漂移時間)處樣本GC-IMS譜圖中特征峰強度信息,組成該樣本的特征向量用于樣本分類識別。圖4為從樣本集60個樣本提取的特征向量構(gòu)成的樣本特征矩陣,橫坐標(biāo)為特征向量中各特征簇的編號,縱坐標(biāo)為樣本編號。圖4每行表示一個樣本的特征向量,其中1~15行是咖啡風(fēng)味A,16~30行是風(fēng)味B,31~45行是風(fēng)味C,46~60行是風(fēng)味D。
圖3 樣本集特征峰聚類結(jié)果
從圖4中可以看出:特征峰簇31、32、33峰值比較大;對于峰簇46,風(fēng)味C、D樣本的峰值比風(fēng)味A、B略小;對于峰簇53,風(fēng)味B、C樣本的峰值略大于風(fēng)味A、D;對于峰簇64,風(fēng)味A、B、C樣本的峰值較大,風(fēng)味D樣本的峰值較小。雖部分特征峰簇有差異,能夠在一定程度上反應(yīng)不同風(fēng)味咖啡之間的區(qū)別,但還不能直觀的區(qū)分出咖啡風(fēng)味。
圖4 樣本集特征矩陣橫坐標(biāo):特征峰簇編號,縱坐標(biāo):樣本編號
2.3.1基于隨機森林區(qū)分不同風(fēng)味咖啡
為進一步實現(xiàn)對不同風(fēng)味咖啡的分類,利用樣本集特征矩陣構(gòu)建隨機森林分類模型,對未知風(fēng)味咖啡樣本進行識別,并利用識別準(zhǔn)確率來對模型性能進行評估。為提高模型的泛化能力,用較少的測試數(shù)據(jù)獲取較高的可靠性,采用10折交叉驗證方法[19],即將樣本等分為10份,輪流將其中9份作為訓(xùn)練集,1份作為測試集,采用10次測試準(zhǔn)確率的均值作為模型分類準(zhǔn)確率。經(jīng)測試隨機分類模型的準(zhǔn)確率為94%,表明該模型具有較好的分類性能,能對大部分樣本進行正確分類。
2.3.2特征篩選
隨機森林能夠根據(jù)森林中所有決策樹按照某一特征分枝前后基尼指數(shù)[20]變化量給出該特征峰簇對分類的重要性得分,該分值越高,表示該特征在隨機森林模型中的貢獻越大,按照該特征分枝進行分類的效果越好。圖5為77個特征峰簇的重要性得分情況。
圖5 隨機森林輸出的譜峰重要性得分
利用重要性得分比較高的特征峰簇peak35、peak37、peak66、peak70、peak73、peak76組成新的特征矩陣放入隨機森林模型進行訓(xùn)練,其準(zhǔn)確率為94%,與整個樣本集的特征矩陣的訓(xùn)練準(zhǔn)確率相同,說明這6個特征峰簇是主要風(fēng)味特征峰簇。表2給出了6個主要風(fēng)味特征峰簇對應(yīng)的漂移時間、保留時間和約化遷移率。
圖6是不同風(fēng)味咖啡樣本在這6個特征峰簇位置的局部譜圖,由圖可見peak35、peak37的特征峰強度比其余特征峰強度大;在peak35、peak70和peak73處,風(fēng)味C、D特征峰強度比風(fēng)味A更大;在peak76處,風(fēng)味B、D特征峰強度稍大;在peak66處,風(fēng)味A、C、D譜圖形狀較為相似,風(fēng)味B強度更大。
表2 主要風(fēng)味特征峰漂移時間與保留時間
這些差異是由不同風(fēng)味咖啡的風(fēng)味添加物造成的,在peak70和peak73處,風(fēng)味C、D譜圖信息豐富,而風(fēng)味A在該處的特征峰強度幾乎為0,可能與風(fēng)味C、D含有的風(fēng)味添加物食用鹽相關(guān);在peak73處,風(fēng)味C的譜圖信息最豐富,有可能與風(fēng)味C的風(fēng)味添加物木糖醇相關(guān);在peak76處,相較于風(fēng)味A、C,風(fēng)味B、D的峰強度較大,可能與風(fēng)味添加物白砂糖有關(guān)。
2.3.3風(fēng)味特征峰篩選結(jié)果評估
為評估隨機森林分類模型性能,對隨機森林篩選的6個特征峰簇構(gòu)成的樣本特征矩陣構(gòu)建支持向量機(Support Vector Machine,SVM)分類模型[21],實現(xiàn)對未知風(fēng)味咖啡樣本的預(yù)測,并用準(zhǔn)確率來對模型進行評估。經(jīng)訓(xùn)練后,SVM分類準(zhǔn)確率為94%,分類預(yù)測性能良好。
圖6 不同風(fēng)味咖啡在特征峰處的局部譜圖
從SVM分類結(jié)果可知,利用隨機森林模型篩選的6個特征峰簇是咖啡風(fēng)味分類的重要特征,并能夠有效地利用篩選后的樣本特征矩陣進行訓(xùn)練模型分類,降低了過擬合的可能性,驗證了本次實驗中隨機森林分類模型性能良好。
本研究以4種風(fēng)味咖啡液為檢測對象,利用GC-IMS分析了其頂空氣中VOCs差異性,根據(jù)特征峰信息構(gòu)建相對應(yīng)的特征矩陣,利用隨機森林實現(xiàn)對不同風(fēng)味樣本的預(yù)測,準(zhǔn)確率為94%,較好地實現(xiàn)了對咖啡風(fēng)味的正確分類。支持向量機分類較高的準(zhǔn)確率說明隨機森林模型性能良好,篩選出的6個特征峰簇是主要風(fēng)味特征峰簇,可能與風(fēng)味咖啡的特殊風(fēng)味添加物有關(guān)。該方法能夠找出不同物質(zhì)之間的差異性和造成差異性的主要風(fēng)味特征峰,對于不易區(qū)分的天然物質(zhì),利用此分析方法能夠快速實現(xiàn)類別區(qū)分。此外,該分析方法找出的風(fēng)味特征峰與相關(guān)數(shù)據(jù)庫聯(lián)用進行定性分析,能夠進一步探究不同物質(zhì)之間的差異性成分。