潘 曦,劉 輝,王 昊,劉 靜,何昀潞,黃偉初,邱昌桂*
(1.湖北中煙工業(yè)有限責任公司,湖北 武漢 430040;2.云南瑞升煙草技術(集團)有限公司,云南 昆明 650106)
卷煙的風格特征是卷煙產(chǎn)品品質(zhì)特征的重要組成部分,是卷煙品牌的核心競爭力,是區(qū)分卷煙品牌的主要標志。成品卷煙主要通過調(diào)配煙葉配方維持卷煙品牌的質(zhì)量與風格特征。長期以來,卷煙品質(zhì)和風格特征主要通過煙絲化學成分[1-2]、主流煙氣[3-4]和感官質(zhì)量評價[5]等方法進行判斷和鑒別。近年來,近紅外光譜技術逐漸成為區(qū)分和鑒別卷煙質(zhì)量和風格特征的重要分析方法[6-7]。卷煙牌號是在卷煙品牌發(fā)展的基礎上,根據(jù)產(chǎn)品的檔次、個性和品味,調(diào)整卷煙葉組配方、香精香料、卷煙輔料和卷煙焦油含量等,以凸顯產(chǎn)品質(zhì)量的差異,所以不同牌號卷煙具有不同的質(zhì)量品質(zhì)特點,這也是區(qū)分不同牌號卷煙的依據(jù)。卷煙牌號的分類鑒別對于卷煙品牌管理、生產(chǎn)質(zhì)量評價及卷煙質(zhì)量維護具有重要意義,探索和明確對不同牌號卷煙的分類有重要影響的因素,可為卷煙品牌維護、葉組配方設計、卷煙生產(chǎn)過程監(jiān)測提供理論依據(jù)。
近紅外光譜(NIRS)技術是一種綠色環(huán)保、無損分析技術,具有無需樣品預處理、無污染、操作簡便、檢測速度快以及樣品的非破壞性等優(yōu)點[8-9],可與化學計量學方法相結合實現(xiàn)樣品的定性和定量分析,已廣泛應用于農(nóng)業(yè)、食品、石化和制藥行業(yè)[10-12]。在煙草行業(yè),近紅外光譜法已成功地應用于煙草多種化學成分含量的測定和監(jiān)測等定量分析[13-16],同時,近紅外光譜還在煙葉類型識別[17]、卷煙配方結構預測[18]、產(chǎn)品質(zhì)量過程監(jiān)測[19-21]、卷煙質(zhì)量識別[6]和卷煙真?zhèn)舞b別[22]等模式識別方面得到廣泛應用,但在成品卷煙牌號類型鑒別上的應用研究鮮見報道。
本文以相同品牌的5種不同牌號卷煙的成品煙絲為研究對象,采用近紅外光譜技術結合主成分分析法(PCA)、偏最小二乘判別分析法(PLS-DA)和正交偏最小二乘判別分析法(OPLS-DA)等模式識別方法建立和優(yōu)化了5種不同牌號成品煙絲的分類識別模型,以期為不同牌號卷煙的風格及質(zhì)量特征快速分類鑒別提供參考,為進一步應用近紅外光譜技術進行卷煙配方設計、卷煙過程質(zhì)量監(jiān)測提供理論依據(jù)與指導。
Nicolet Antaris II型FT-NIR光譜儀(配備InGaAs檢測器的漫反射積分球、4.78 cm 石英采樣杯、樣品旋轉臺);KBF 540恒溫恒濕箱(德國 Binder公司);TQ Analyst 8.6 數(shù)據(jù)處理軟件(美國Thermo Fisher 公司);SIMCA-P 11.5+數(shù)據(jù)處理軟件(瑞典Umetrics公司)。
選取湖北中煙武漢卷煙廠黃鶴樓品牌卷煙的5種牌號(分別用JS、RL、JD、RH、DC表示不同的牌號)制絲線上的成品煙絲作為研究對象,在正常工況條件下,于葉絲線的加香工序后的某固定位置采集成品煙絲樣品,每批次取樣30次,每次取樣間隔時間約為90 s,每次取樣質(zhì)量約為200 g,將其置于密封袋中;每個牌號每個月只取1個批次的樣品作為近紅外光譜測定的樣品。其中JS牌號取了2個批次共60個成品煙絲樣品,RL、JD、RH、DC牌號各取了1個批次樣品,分別為30個成品煙絲樣品,總計180個成品煙絲樣本。
將每個成品煙絲樣品在低溫(25~30 ℃)條件下干燥,將成品煙絲樣品含水率控制在10%~12%,冷卻至室溫(20±2) ℃,在恒溫恒濕箱(22±2 ℃,60%±5% RH)平衡48 h后裝入密封袋低溫避光保存。
為保證成品煙絲樣品測定的穩(wěn)定性,實驗室相對濕度控制在20%~80%,溫度控制在18~26 ℃,成品煙絲樣品進行光譜掃描前,近紅外光譜儀開機預熱不小于1 h。設定近紅外光譜儀的主要工作參數(shù)為:光譜掃描范圍4 000~10 000 cm-1;掃描分辨率8 cm-1;掃描次數(shù)64 次。直接將成品煙絲樣品依次放置在旋轉杯中旋轉采集近紅外漫反射光譜,為了消除成品煙絲樣品不均勻性和其它環(huán)境因素的影響,每個成品煙絲樣品采集3次光譜,取平均光譜作為成品煙絲樣品的最終光譜數(shù)據(jù)。依次采集從生產(chǎn)線取制的JS、RL、JD、RH和DC牌號的180個成品煙絲樣品的近紅外光譜。
每種牌號成品煙絲樣品采用隨機的方法進行樣品集劃分,即每種牌號成品煙絲樣品的近紅外光譜均按照2∶1的比例隨機劃分成校正集和測試集,將每種牌號選取的校正集組合成總的煙絲樣品的校正集(共120個煙絲樣品,其中JS牌號40個樣品,其他牌號各20個樣品),用于煙絲分類模型的校正;每個牌號成品煙絲的測試集組合成總的煙絲樣品的測試集(共60個煙絲樣品,其中JS牌號20個樣品,其他牌號各10個樣品),用于煙絲分類模型的驗證。
由于成品煙絲成分復雜且由不同特性的片狀、絲條狀煙草物料在空間上混配而成,測量過程中存在著光譜噪聲以及因煙絲結構不均勻性所引起的散射影響,所以在光譜采集過程中,為減少成品煙絲厚度的不一致性和煙絲表面特征不均勻等因素的影響,提高譜圖與成品煙絲在化學成分之間的相關性,需對近紅外光譜進行預處理,最大程度地去除冗余信息,降低基線漂移和噪聲的影響,從而更利于從復雜的光譜中提取有效信息,優(yōu)化光譜信息,增強光譜的可用性,在一定程度上提高分類模型的穩(wěn)健性。所以需對煙絲光譜進行預處理,即采用數(shù)學方法減弱或消除干擾因素對煙絲光譜的影響,提取有用信息,以提高煙絲分類判別模型分析的準確性和可靠性。本文采用標準正態(tài)變量變換(SNV)、多元散射校(MSC)、一階導數(shù)(FD)、二階導數(shù)(SD)、Savitzky-Golay濾波器(SG)及算法組合的預處理方法[23-24]對光譜進行預處理,以此消除煙絲物理結構、環(huán)境噪聲、光程變化以及特征煙絲不均勻性等因素的影響。
1.5.1 主成分分析(PCA)PCA是一種常用的近紅外光譜數(shù)據(jù)降維方法,通過線性變換來提取近紅外光譜數(shù)據(jù)的主要特征分量,可有效去除近紅外光譜數(shù)據(jù)中的冗余信息以降低光譜數(shù)據(jù)分析的復雜度[25]。采用PCA結合預處理方法對成品煙絲樣品的漫反射光譜進行處理,通過近紅外光譜數(shù)據(jù)主成分的空間分布判斷能否區(qū)分各牌號成品煙絲樣品。
1.5.2 偏最小二乘判別分析法(PLS-DA)PLS-DA是一種廣泛應用的基于偏最小二乘法的有監(jiān)督模式識別方法,是采用已知的煙絲樣品近紅外光譜數(shù)據(jù)與煙絲分類變量進行訓練,讓計算機從這些煙絲樣本的近紅外光譜數(shù)據(jù)中“學習”,從而得到一個對同類煙絲近紅外光譜數(shù)據(jù)具有預測功能的判別模型,該方法特別適合于樣本數(shù)較少、變量數(shù)較多的近紅外光譜數(shù)據(jù)集。
1.5.3 正交偏最小二乘判別分析法(OPLS-DA)OPLS-DA是在PLS-DA基礎上發(fā)展的一種處理高維數(shù)據(jù)的判別分析算法[26-27]。相較于PLS-DA而言,該方法利用正交信號校正的思想,將煙絲近紅外光譜數(shù)據(jù)集X分解為兩部分,即與煙絲因變量Y的正交變量和非正交變量,并將正交變量移除,對修正后的X數(shù)據(jù)進行PLS-DA分析,從而得到更好的模式識別精度。
本研究以校正集和測試集的分類識別正確率作為模型效果和分析方法的評價指標。分類識別正確率越接近于100%,判別模型的精度越高,說明分類識別模型和分析方法越好。
5種牌號成品煙絲樣品的原始近紅外光譜如圖1A所示。從圖1A可知,同品牌的5種牌號成品煙絲的近紅外光譜無太大差異,吸收峰形和位置均較為相似,無法直觀鑒別不同牌號的成品煙絲,需要結合化學計法量學方法進行分析與判別。
本文采用SNV、MSC、FD、SD和SG及算法組合的預處理方法對不同牌號成品煙絲的近紅外光譜進行處理。通過比較,采用MSC結合SD預處理后的近紅外光譜能夠有效減小光譜的噪聲,預處理后的近紅外光譜如圖1B所示。從圖1B可以看出,預處理后的光譜圖像有效地消除了光譜的基線漂移現(xiàn)象。這主要是因為MSC可消除煙絲片狀、絲條狀的散射影響,修正光譜因散射所發(fā)生的線性變化,增強光譜有效信息;而經(jīng)SD預處理后的近紅外光譜能夠有效減小近紅外光譜的噪聲,有利于分類。
PCA方法是一種經(jīng)典的特征抽取和數(shù)據(jù)降維方法,它通過將成品煙絲的近紅外光譜高維數(shù)據(jù)降維到低維空間可視化,從而了解不同牌號成品煙絲樣本分布的基本情況和主要特點。在全光譜波長范圍內(nèi),對5種牌號成品煙絲樣品的原始近紅外光譜及MSC+SD預處理后的光譜進行主成分分析(見圖2A、B)。從圖2A中可以直觀地看出,5種牌號成品煙絲的原始光譜的主成分得分圖具有一定的聚類趨勢,但光譜點空間分布較為離散,各牌號的煙絲樣品相互交織在一起,無法分開。從圖2B可以看出,光譜經(jīng)MSC+SD預處理后,5種牌號成品煙絲的分類聚類趨勢更加明顯,JS牌號與其他牌號的煙絲能完全區(qū)分,說明通過近紅外光譜數(shù)據(jù)預處理方法可提高PCA模型的分辨能力。但其他牌號成品煙絲樣品交叉重疊,區(qū)分不明顯,說明采用近紅外光譜結合PCA方法的無監(jiān)督模式分類方法無法對5種牌號成品煙絲樣品進行準確識別,需要采用近紅外光譜結合有監(jiān)督的模式識別方法對成品煙絲光譜進行進一步的分類判別分析。
PLS-DA方法是基于PLS方法建立的不同牌號成品煙絲樣本分類變量與煙絲近紅外光譜特征變量間的回歸模型。首先按照不同牌號成品煙絲樣本的實際類別特征,賦予校正集樣本分類變量值,然后利用PLS-DA方法對120個成品煙絲校正集樣本的近紅外光譜與樣本對應的分類變量進行回歸分析,建立成品煙絲光譜特征與分類變量間的PLS-DA模型。將分類識別正確率作為模型分類性能的評價指標,校正集和測試集的分類識別正確數(shù)和分類識別正確率結果如表1所示。
表1 不同光譜預處理方法的PLS-DA模型的分類識別結果Table 1 Recognition results of PLS-DA with different preprocessing methods
從表1可知,所建立的PLS-DA模型較好地將不同牌號成品煙絲樣品分為5類,其主成分數(shù)(nLV)在6~15之間,對于校正集(Calibration set),各種近紅外光譜預處理方法的結果均較好,分類識別正確的樣品個數(shù)(Accurate number)均為120個,分類識別正確率(Accuracy)均為100%;對于測試集(Test set),其中效果最差的是“一階導數(shù)”預處理方法,分類識別正確率為90.0%,近紅外光譜預處理方法為“MSC+FD”時效果最好,分類識別正確率為98.8%,只有1個RH牌號的成品煙絲樣品誤分為JD牌號。結果表明,PLS-DA模型能很好地分類識別不同牌號的成品煙絲,但為了提高不同牌號煙絲分類模型的識別正確率,還需進一步采用其他模式識別方法對不同牌號的成品煙絲進行分類鑒別。
為進一步分析5種牌號成品煙絲的差異性,提高不同牌號成品煙絲的分類識別正確率,采用OPLS-DA方法對原始光譜和經(jīng)預處理后的近紅外光譜數(shù)據(jù)進行有監(jiān)督的模式識別,表2為不同近紅外光譜預處理方法的OPLS-DA模型的分類識別結果,表3是經(jīng)MSC+SD預處理后的OPLS-DA模型的統(tǒng)計結果。
表2 不同光譜預處理方法的OPLS-DA模型的分類識別結果Table 2 Recognition results of OPLS-DA with different preprocessing methods
表3 MSC+SD預處理后OPLS-DA 模型的統(tǒng)計結果Table 3 Statistical results of OPLS-DA with MSC+SD preprocessing method
從表2可知,采用OPLS-DA方法所建立的模式識別模型,各預處理方法的結果均較好,對于校正集,除SNV和MSC預處理的分類識別正確率較原始光譜稍有提高外,其他預處理的分類識別正確率(99.2%~100%)均有較大提高;對于測試集,除SNV和MSC預處理的分類識別正確率較原始光譜稍有降低外,其他的預處理方法的分類識別正確率均有較大的提高,特別是MSC+SD預處理方法,其分類識別正確率為100%,可以完全正確地識別出不同牌號的成品煙絲。結果表明,采用OPLS-DA方法所建立的模型可以很好地分類識別5種牌號的成品煙絲。
對校正集120個成品煙絲樣品的近紅外光譜經(jīng)MSC+SD預處理后構建的OPLS-DA模型,采用交叉驗證法對模型進行驗證。從表3可知,隨著篩選出的預測主成分(Prediction nLV)和正交主成分(Orthogonal nLV)增加,模型對自變量的擬合指數(shù)R2X(cum),因變量的擬合指數(shù)R2Y(cum)和模型預測指數(shù)Q2(cum)的值均逐漸增加,當篩選出4個預測主成分和5個正交主成分時,R2X(cum)=0.485,表明5個主成分對煙絲近紅外光譜變量變異的解釋能力為48.5%(其中預測主成分25.3%,正交主成分23.2%);R2Y(cum)=0.907,表明模型中4個預測主成分對不同牌號分類變量變異的解釋能力為90.7%,有較好的概括解釋能力;Q2(cum)=0.748,表明模型對不同牌號成品煙絲樣品的預測能力為74.8%。結合表2的結果可知,當篩選出4個預測主成分和5個正交主成分時,校正集和測試集的分類識別正確率均為100%,說明構建的OPLS-DA模型穩(wěn)定性和預測能力均較好,模型穩(wěn)定可靠,可用于5種牌號成品煙絲的分類識別。
近紅外光譜技術結合OPLS-DA方法可用于同品牌不同牌號成品煙絲的快速分類鑒別,成品煙絲的近紅外光譜經(jīng)過多元散射校正結合二階導數(shù)的預處理方法可以有效地提高OPLS-DA模型成品煙絲牌號識別精度,校正集和測試集的分類識別正確率均為100%;OPLS-DA模型對光譜自變量擬合指數(shù)R2X(cum)=0.485,對因變量的擬合指數(shù)R2Y(cum)=0.907,模型預測指數(shù)Q2(cum)=0.748,說明所建立的模型穩(wěn)定性和預測能力較好,模型穩(wěn)定可靠。近紅外光譜技術結合有監(jiān)督模式識別方法OPLS-DA模型為不同牌號卷煙成品煙絲分類提供了一種新的高效快速、準確無損的識別方法,同時可用于在線現(xiàn)場監(jiān)測成品煙絲樣品的質(zhì)量穩(wěn)定性。