招云芳王獻友黃文勇米津銳尚關蘭李克強秦家文李瑞東孫 莉
(1.云南煙葉復烤有限責任公司技術中心,云南 昆明 650031;2.美國賽默飛世爾科技(中國)有限公司,北京 100007)
基于k-means聚類挑選特征樣品建立煙草近紅外光譜模型
招云芳1王獻友1黃文勇1米津銳2尚關蘭1李克強1秦家文1李瑞東1孫莉1
(1.云南煙葉復烤有限責任公司技術中心,云南 昆明 650031;2.美國賽默飛世爾科技(中國)有限公司,北京 100007)
為突破建立近紅外光譜模型需要大量實驗數(shù)據(jù)這一瓶頸,實現(xiàn)快速建立煙草近紅外光譜預測數(shù)學模型,本研究利用k-means聚類分析算法挑選出具有代表性的特征樣品光譜,采用偏最小二乘(PLS)回歸法建立了煙草6項常規(guī)化學指標的近紅外光譜模型,并對模型進行了優(yōu)化及外部驗證。結果表明:煙草6項常規(guī)化學指標預測模型的相關系數(shù)(R)較大,在0.9356以上,交叉驗證均方差(RMSECV)在0.867以內(nèi),外部驗證均方差(RMSEP)小于1.71,預測值和標準值沒有顯著差異。同時,預測結果還與用大量樣品建立的模型的預測結果進行了t檢驗方式的比較,其結果無顯著性差異,說明用挑選特征樣品建立的模型和使用大量樣品建立的模型分析效果一致,可用于批量煙草樣品常規(guī)化學指標的快速檢測。
k-means聚類分析;近紅外光譜預測數(shù)學模型;化學指標;優(yōu)化驗證
目前,近紅外光譜法已被廣泛應用于煙草成分的定量測定。但目前近紅外光譜建模的研究都是依靠大量的樣品光譜及對應的樣品化學分析數(shù)據(jù),這給建模工作帶來了巨大的壓力,即要耗費大量的人力和物力,更要為之付出大量的時間,使得建模周期比較長。為突破建立近紅外光譜模型需要大量實驗數(shù)據(jù)這一瓶頸,本文采用k-means聚類分析算法對采集的光譜進行聚類分析,挑選出特征光譜進行化學分析檢測后,應用多元校正技術中的偏最小二乘法,建立了測定復烤行業(yè)常規(guī)化學指標:水溶性總糖、還原糖、煙堿、總氮、氯、鉀的校正模型,并對影響建模效果的光譜數(shù)據(jù)預處理方法、異常值等進行了討論。此外,校正模型分別采用交叉驗證和外部驗證進行預測評價,預測效果良好。
AntarisⅡ傅里葉變換NIR光譜儀(美國Thermo Nicolet公司,配有積分球漫反射采樣系統(tǒng)、Result操作軟件、TQ Analyst分析軟件);625烘箱(德國FREAS公司);AA3連續(xù)流動分析儀(德國SEAL公司)。青州標樣對照品(中國煙草總公司青州煙草研究所),蒸餾水,其余試劑為分析純。
2.1樣品的制備
以2014烤季云南煙葉復烤公司所屬10個復烤廠(石林廠、瀘西廠、麒麟廠、大理廠、楚雄廠、文山廠、保山廠、師宗廠、宣威廠、陸良廠)的烤煙為示范性研究對象。樣品來自云南省不同地區(qū)、不同品種、不同等級、不同部位的烤煙,樣品共計1534個,用粉碎機粉碎,過40目篩,樣品裝入密封袋中,在低溫(0~4℃)條件下密封避光保存。
2.26項化學指標標準值的測定
分別采用行業(yè)標準《煙草及煙草制品 鉀的測定 連續(xù)流動法》YC/T 217-2007,《煙草及煙草制品 氯的測定 連續(xù)流動法》YC/T 162-2011,《煙草及煙草制品 總氮的測定 連續(xù)流動法》YC/T 161-2002,《煙草及煙草制品 水溶性糖的測定 連續(xù)流動法》YC/T 159-2002,《煙草及煙草制品 總植物堿的測定 連續(xù)流動法》YC/T 160-2002,對煙草樣品進行6項指標的檢測。
2.3光譜采集
取預先制備好的煙草樣品,裝入樣品杯中,利用積分球漫反射采樣系統(tǒng)采集其NIR光譜。光譜采集條件:以儀器內(nèi)置背景為參比,波數(shù)范圍10000~3800cm-1,掃描次數(shù)為64次,分辨率為8cm-1,見表1。
2.4k-means聚類分析原理
k-means聚類算法是一種以距離為相似性依據(jù)的聚類方法,本研究在對近紅外光譜的主成因子進行歐氏距離計算,距離公式如式(1)所示。
其中:d為距離,P為主成分,下標a,b代表樣品編號,下標i代表第i維主成分因子。
之后對距離進行聚類,該聚類算法流程如圖1所示。
本研究取煙草的近紅外光譜貢獻率超過95%的前6維主成分因子,代入k-means矩陣算法中進行聚類計算。聚類后從每類中選取一個樣品光譜作為代表性樣品參與建模。
本實驗共采集樣品光譜1534條,使用k-means聚類選取的特征樣品光譜415條。
3.1定量校正模型中檢測指標的統(tǒng)計描述
表2為復烤行業(yè)主要化學指標常規(guī)方法檢測的標準值的統(tǒng)計描述。建立模型時全部樣品都用作校正集。由表2可知,校正集樣品化學指標的含量范圍較寬,且含量分布均勻。
3.2光譜數(shù)據(jù)的處理
煙草是一種復雜的天然產(chǎn)物,其近紅外光譜中譜峰重疊嚴重,因此建模前通常采用導數(shù)處理來消除光譜基線的平衡、漂移及平緩背景的干擾,但同時導數(shù)處理也放大了光譜信號,噪聲信號也被放大,因此在對原始光譜求導前,首先對光譜數(shù)據(jù)進行平滑處理,然后分別考察原始光譜、一階導數(shù)和二階導數(shù)光譜對所建校正模型的影響。
從圖2和圖3對比可以看出,光譜數(shù)據(jù)經(jīng)過導數(shù)處理后,可消除基線偏移,扣除本底吸收,從而更為細致地反映樣品的光譜特征。
經(jīng)過Norris導數(shù)平滑濾波后的光譜數(shù)據(jù)分別經(jīng)多元散射校正技術(MSC)和標準正態(tài)變量變換技術(SNV)處理后,又分別考察了原始光譜、一階導數(shù)和二階導數(shù)光譜對所建校正模型的影響,并采用偏最小二乘(PLS)回歸法建立定量校正模型??疾旖Y果如圖4所示,圖4為RMSEC/R的比值做的折線圖。由于校正集樣品的校正標準偏差(RMSEC)越小,相關系數(shù)(R)越大,說明模型優(yōu)化的越好,所以RMSEC/R值越小,模型效果越好。從圖4看出,總糖、煙堿、總氮、鉀的預測模型采用SNV處理光譜并對光譜進行二階導數(shù)后建立的模型的RMSEC/R值最??;還原糖、氯的預測模型采用SNV處理光譜并對光譜進行一階導數(shù)后建立的模型RMSEC/R值最小。
3.3定量校正模型的建立
應用TQ Analyst分析軟件中的偏最小二乘回歸(Partial least-square regression,PLS)算法,把采集的近紅外漫反射光譜與標準方法測定的烤煙水溶性總糖、還原糖、煙堿、總氮、氯、鉀的標準值,全部用做校正集來建立定量校正模型。由于PLS主因子數(shù)關系到模型的穩(wěn)定性,主因子選取太小會丟失有用信息,包含過多噪音,出現(xiàn)“欠擬合”,太大則會出現(xiàn)“過擬合”,因此,本研究按留一交叉驗證的方法確定最終的偏最小二乘因子數(shù)。采用校正標準偏差(Standard error of calibration,SEC)、外部驗證均方差即預測標準偏差(Standard error of prediction,RMSEP)、交叉驗證均方差(RMSECV)和決定系數(shù)(R2)對PLS模型的性能進行評價。RMSEC和RMSEP越小,R越大,表示模型的性能越好。所有參數(shù)的計算方法見文獻。校正模型初步建立以后,需要對模型進一步優(yōu)化,即用不同的樣品檢驗模型,剔除建模樣品中的異常值,修改建模的譜區(qū)和其他參數(shù),以提高模型的穩(wěn)定性和可靠性。本研究采用最直觀、最簡單的判別方法對異常值進行剔除,即用外部驗證樣品的真實值和擬合值(Ture/Fit)的散點圖進行查看,并結合馬氏距離和杠桿值等聯(lián)合判斷,采用交叉驗證(Cross validation)逐步剔除這些強影響點。
3.4PLS主因子數(shù)的選擇和交叉驗證結果
采用PLS法建立定量校正模型時,為避免出現(xiàn)“過擬合”現(xiàn)象,需要對主因子數(shù)進行合理選擇。本研究采用留一交叉驗證法,考察了主因子數(shù)對RMSECV的影響如圖5所示。由圖中可以看出,PLS主因子數(shù)依次為總糖17,還原糖18,煙堿18,總氮19,氯18,鉀21。
3.5模型的外部驗證
模型自身的外部驗證:將建立的定量校正模型用于對云南煙葉復烤公司所屬10個復烤廠挑選出的不同地區(qū)、不同品種、不同部位、不同等級的60個樣品進行6項化學指標的預測。預測值和標準值有較低的預測均方差和較高的相關系數(shù)(表3)。
與用大量樣品建立的成熟模型的對比驗證:為了進一步驗證模型的準確性,本研究還選取一些驗證樣品與其他單位用大量樣品建立的成熟的模型進行預測對比,預測樣品數(shù)為40個,同樣得到了較低的預測均方差和較高的相關系數(shù)(表4)。同時,預測結果使用t檢驗方式進行檢驗。假設兩種方法建立的預測模型檢測的6項化學指標的均值在風險水平α=0.05時,計算得到的t值均小于t臨界值,則說明兩種方法建立的預測模型的檢測結果無顯著差異。由表4看出,6項化學指標的t檢驗值均小于臨界值,兩種方法建立的模型檢測結果無顯著差異,說明挑選特征樣品建立的模型和使用大量樣品建立的模型分析效果一致。
采用k-means聚類分析選擇特征樣品光譜,用PLS法建立了煙草常規(guī)化學指標的近紅外定量預測模型,并用未參與建模的眾多樣品進行了外部驗證,驗證的均方差(RMSEP)分別為總糖1.71,還原糖1.35,煙堿0.18,總氮0.28,氯0.14,鉀0.32。與用原始方法建立的成熟模型相比,驗證均方差均在0.9403以上,兩種的檢測結果也無顯著差異。由此說明,本研究采用k-means聚類分析挑選特征樣品建立近紅外光譜模型的方法解決了實際建模過程中需要大量化學實驗數(shù)據(jù)的這一瓶頸,所建立的煙草近紅外光譜模型可運用于煙草化學6項化學指標的快速檢測。為了使模型具有更寬的檢測范圍,本研究還在收集不在模型范圍內(nèi)的檢測數(shù)據(jù)。從而獲得更完善的模型,指導復烤行業(yè)生產(chǎn)過程質量的在線監(jiān)測,為實現(xiàn)復烤行業(yè)均質化生產(chǎn)模式提供了理論依據(jù)。
[1]滑榮,韓建國,齊曉,等.近紅外漫反射光譜法預測紫花苜蓿草顆粒營養(yǎng)價值[J]. 光譜學與光譜分析,2008(12):2826-2829.
[2]陳昭,吳志生,史新元,等. Bagging 偏最小二乘和 Boosting 偏最小二乘算法的金銀花醇沉過程近紅外光譜定量模型預測能力研究[J].化學分析,2014(11):1679-1686.
[3]王冬,閔順耕,曹金莉,等.溫度對煙草總植物堿近紅外定量分析模型的影響[J].中國煙草科學,2013-08,34(4):103-106.
[4]王家俊,梁逸曾,汪帆.偏最小二乘法結合傅里葉變換近紅外光譜同時測定卷煙焦油、煙堿和一氧化碳的釋放量[J].化學分析,2005(6):793-797.
[5] Balabin R M, Safieva R Z. Biodiesel classification by base stock type (vegetable oil)using near infrared spectroscopy data[J]. Analytica Chimica Acta, 2011,689: 190-197.
[6]梁俐俐,吳正舉,蘇明亮,等.云貴產(chǎn)區(qū)煙葉近紅外檢測分模型和總模型的對比分析[J].中國煙草科學,2008,29(2):42-46.
[7]邱軍,王允白,張懷寶,等.近紅外光譜法預測煙氣總粒相物中的煙堿含量[J].中國煙草科學,2006(2):12-13.
[8] Barbin D F, Kaminishikawahara C M, Soares A L. Prediction of chicken quality attributes by near infrared spectroscopy[J]. Food Chemistry,2015, 168: 554-560.
[9] Haughey S A, Graham S F, Cancou?t E, et al. The application of Near-Infrared Reflectance Spectroscopy (NIRS) to detect melamine adulteration of soya bean meal[J]. Food Chemistry,2013, 136: 1557-1561.
[10] 邱軍,張懷寶,宋巖,等.近紅外光譜分析技術在煙草行業(yè)的應用[J].中國煙草科學,2008,29(1):55-59.
[11]董小衛(wèi),馬 強,厲昌坤,等.近紅外檢測把煙葉片化學成分技術研究[J].中國煙草科學,2008,29(4):10-14.
[12] 付秋娟,張懷寶,邱軍,等.近紅外光譜法快速測定煙草中的總揮發(fā)堿[J].中國煙草科學,2005,26(4):14.15.
[13] 王宏鋁,王筑臨,許小雙,等.基于在線煙堿預測模型的煙葉復烤均質化加工[J].煙草科技,2015,48(6):73-77.
[14] 溫亞東,王毅,王能如,等.近紅外光譜的投影分析方法在工業(yè)分級與復烤模塊配方中的應用[J].中國煙草學報,2009,15(5):6-10.
O657
A
中國煙草總公司云南省公司2015年度科技計劃項目(基于煙葉外觀與生化表征的均質化復烤控制技術開發(fā),NO.2015YN33)。