劉培江
(山東煙草研究院有限公司,山東 濟南 250098)
隨著人們對食藥安全關(guān)注的提升,經(jīng)常需要對農(nóng)作物進行化學(xué)成分檢測。目前常見的檢測方式主要通過化學(xué)手段進行定量或定性分析,但這種方式通常要以破壞農(nóng)作物為代價,而且化學(xué)試劑的生產(chǎn)、使用、處置都會對環(huán)境造成進一步污染。近紅外分析技術(shù)作為一種快速、無損、綠色的化學(xué)成分檢測手段,目前在很多領(lǐng)域已經(jīng)逐步替代化學(xué)方法成為主要的檢測方式。近紅外光譜儀最開始的用途是分子結(jié)構(gòu)理論的研究,隨著近紅外硬件技術(shù)的改進,獲得的近紅外光譜逐步趨于穩(wěn)定,光譜中包含的特征信息逐步被挖掘利用起來。尤其是隨著機器學(xué)習(xí)、人工智能分析技術(shù)的發(fā)展,近紅外光譜中信息的價值得到了越來越廣泛地重視和應(yīng)用。作為近紅外光譜分析技術(shù)的奠基人,Karl Norris 等人在20 世紀(jì)50 年代開始將近紅外分析技術(shù)應(yīng)用于谷物、飼料、水果、蔬菜等的化學(xué)成分定量檢測[1]。許祿在1992 年出版的《化學(xué)計量學(xué)方法》中將多元統(tǒng)計變量方法引入到近紅外光譜分析技術(shù)中來[2],為近紅外光譜分析技術(shù)應(yīng)用提供了理論和技術(shù)支撐。化學(xué)計量學(xué)成為當(dāng)時近紅外光譜數(shù)據(jù)預(yù)處理及定量定性分析的主流技術(shù)。經(jīng)過幾十年的研究發(fā)展,近紅外光譜分析技術(shù)已經(jīng)成為現(xiàn)在較具應(yīng)用前景的分析技術(shù)之一,歐美許多國家已經(jīng)將近紅外光譜分析技術(shù)廣泛應(yīng)用于食品、藥品等多個領(lǐng)域,取得了較好的經(jīng)濟和社會效益。
近紅外光譜分析技術(shù)被廣泛應(yīng)用于煙草行業(yè)[3-11],主要用來進行煙草化學(xué)成分分析及測試醋酸纖維濾棒中的三醋酸甘油酯等。山東煙草于2013 年立項“山東煙葉品質(zhì)快速檢測與分析網(wǎng)絡(luò)技術(shù)研究”重點科技項目,針對山東煙葉質(zhì)量評價滯后、缺乏快速檢測手段、質(zhì)量領(lǐng)域信息化薄弱等實際問題,項目將利用近紅外光譜分析等技術(shù),研究煙葉常規(guī)化學(xué)成分定量分析基本模型,搭建山東煙葉品質(zhì)快速分析網(wǎng)絡(luò)系統(tǒng),實現(xiàn)了煙葉常規(guī)六項化學(xué)成分的快速檢測,初步構(gòu)建了山東煙葉質(zhì)量數(shù)據(jù)庫與光譜數(shù)據(jù)庫,并開展質(zhì)量數(shù)據(jù)多維度分析,形成了“硬件終端+網(wǎng)絡(luò)+技術(shù)模型+軟件系統(tǒng)+分析應(yīng)用+標(biāo)準(zhǔn)規(guī)范”的體系化的成套技術(shù)方案。隨后該項目在山東煙葉產(chǎn)區(qū)進行了推廣應(yīng)用,2013~2021 年連續(xù)9 年組織開展全省6 個煙葉產(chǎn)區(qū)的煙葉質(zhì)量檢測與分析,每年采集數(shù)百煙葉樣品進行常規(guī)化學(xué)成分檢測,并利用檢測結(jié)果編制印發(fā)《山東煙葉品質(zhì)分析報告》,從煙葉樣品的總體質(zhì)量、年度質(zhì)量變化、化學(xué)成分協(xié)調(diào)性、產(chǎn)區(qū)差異性、存在的主要問題等方面對全省煙葉質(zhì)量進行了多視角分析。目前,已累計近紅外光譜信息19 000 余條、煙葉內(nèi)在品質(zhì)信息15 000 余條,可實現(xiàn)煙葉粉末樣品總糖、還原糖、總氮、總煙堿、鉀、氯、淀粉等常規(guī)化學(xué)成分的1 分鐘快速檢測。
本研究將在前期項目研究的基礎(chǔ)上進一步挖掘近紅外光譜特征的價值,因為近紅外光譜向量中每一維特征與煙葉化學(xué)成分定量分析的相關(guān)性(貢獻度)是不同的,本文將利用Relief-F 學(xué)習(xí)算法[12]對煙葉的近紅外光譜特征貢獻度進行綜合分析,對煙葉常規(guī)六項化學(xué)成分中每一項都找出最相關(guān)的光譜特征子集(光譜譜段),并分析之間的關(guān)系,為改進煙葉品質(zhì)近紅外光譜分析算法,進一步提高煙葉品質(zhì)檢測準(zhǔn)確率及執(zhí)行效率打好基礎(chǔ)。
為保證所采集煙葉近紅外光譜的質(zhì)量,在采集前需要對煙葉樣品進行一系列預(yù)處理工作,所有樣品制備方式與要求參考YC/T31-1996《煙草及煙草制品 試樣的制備》標(biāo)準(zhǔn)執(zhí)行。具體樣品制備流程,見圖1。
圖1 煙葉近紅外樣品制作流程
關(guān)鍵操作及其注意事項如下:
(1) 樣品抽樣:去除樣品中的雜質(zhì),比如紙屑、雜草及變質(zhì)煙葉等。(2)剔除煙梗:抽掉煙葉葉脈。
(3)烘干:使用鼓風(fēng)干燥箱以60 ℃烘干4 h,使樣品含水率達到基本一致。
(4)磨粉:使用旋風(fēng)磨磨粉,過濾網(wǎng)密度為40目。
(5)保存:將樣品粉末裝入干凈的密封瓶(或者密封袋)中密封起來,充分搖動,混合均勻,放低溫下避光保存。
其中,烘干與磨粉兩個步驟的時間間隔不超過1h;樣品制樣完成后,應(yīng)在2 mth 內(nèi)完成化學(xué)成分檢測和留樣粉末樣品掃描工作,以保障實驗數(shù)據(jù)的一致性。
1.2.1 儀器參數(shù)
選用福斯NIRS DS2500 近紅外光譜儀進行樣品光譜采集,光譜儀的主要技術(shù)參數(shù)見表1。
表1 NIRS DS2500 近紅外光譜儀技術(shù)參數(shù)
1.2.2 環(huán)境溫濕度
環(huán)境濕度對設(shè)備穩(wěn)定性和樣品物理狀態(tài)的影響較大。本次實驗環(huán)境溫濕度為:空氣相對濕度范圍保持20%~70%,溫度范圍為20 ℃~25 ℃,每小時的溫度變化不大于2 ℃,濕度變化不大于2%,以保證樣品檢測準(zhǔn)確性。
1.2.3 樣品光譜采集
在穩(wěn)定環(huán)境溫濕度條件下,將重量為20 g 左右樣品粉末倒入樣品杯中,放置壓樣器,將樣品杯放在近紅外設(shè)備上進行掃描。每個樣品重復(fù)裝樣測定兩次,兩次掃描結(jié)果的平均值作為最終結(jié)果。
新采集的煙葉近紅外光譜由于受樣品內(nèi)在狀態(tài)、外在環(huán)境等因素影響,存在著各種噪聲問題,這些噪聲如果不加以處理會對檢測結(jié)果的準(zhǔn)確性造成影響,這就需要對光譜進行預(yù)處理工作,常用的預(yù)處理技術(shù)包括:
(1)去噪聲:第一步,選擇合適的窗口通過移動平滑的辦法去掉高頻噪聲的干擾;第二步,使用微分過濾的方法去除由儀器原因產(chǎn)生的噪聲。
(2)數(shù)據(jù)清洗:剔除無效數(shù)據(jù),舍棄信息少的光譜頻段,減少后續(xù)計算量。
(3)歸一化:通過量綱變換消除樣品不均勻等變化造成的影響。
經(jīng)預(yù)處理后取波長在[1120,2600]的近紅外光譜作為我們的實驗數(shù)據(jù),樣例,見圖2。
圖2 預(yù)處理后煙葉近紅外光譜圖樣例
Relief-F 算法是一種有監(jiān)督的過濾式特征選擇算法,它的返回結(jié)果是關(guān)于全體特征的相關(guān)系數(shù)。Relief-F 算法的主要過程包括以下幾步:
(1)初始化相關(guān)系數(shù)向量W(a) = 0,以及一個自定義整數(shù)m。
(2)隨機選擇一個實例(樣本)Ri。
(3)在與Ri 同類的樣本中找到Ri的k 個最近鄰Hj。
(4)在其他每類樣本中找到Ri的k 個最近鄰Mj(C),其中C≠class(Ri)。
(5)對于a 中的每一維特征通過下面的公式計算其相關(guān)系數(shù)W(a):
(6)從步驟1 開始重復(fù)以上操作,直到返回所有特征的相關(guān)系數(shù)向量W(a)。
從以上算法的整個過程我們可以看到,Relief-F算法在計算特征相關(guān)系數(shù)時僅僅用到了訓(xùn)練數(shù)據(jù)的一些整體性質(zhì),并未涉及到任何分類器算法,這保證了算法的獨立性。
本次實驗共采集煙葉樣品202 個,使用福斯NIRS DS2500 近紅外光譜儀掃描得煙葉近紅外光譜202 條(波長區(qū)間[1 120,2 760]),采用化學(xué)流動分析方法檢測獲得樣品的總煙堿、總糖、還原糖、鉀和氯5項指標(biāo)數(shù)據(jù),采用凱氏定氮儀設(shè)備檢測獲得樣品總氮指標(biāo)數(shù)據(jù),所有指標(biāo)的檢測數(shù)據(jù)盡可能保證準(zhǔn)確、可靠,樣品參考化學(xué)成分測定和相應(yīng)光譜采集時間間隔不超過1 mth。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與總煙堿、總糖指標(biāo)的相關(guān)系數(shù),見圖3。從圖3 可以看出,波長區(qū)間[1 440,1 620]的近紅外光譜與總煙堿具有最強的相關(guān)性,區(qū)間[1 750,2 060]的近紅外光譜也具有較強的相關(guān)性;低波長[1 120,1 620]的近紅外光譜與總糖具有較強相關(guān)性,尤其是區(qū)間[1 430,1 600]。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與還原糖、總氮指標(biāo)的相關(guān)系數(shù),見圖4。從圖4可以看出,低波長[1 120,1 620]的近紅外光譜與還原糖具有較強相關(guān)性,尤其是區(qū)間[1 440,1 610],波長2 080 nm 附近部分光譜與還原糖具有一定的相關(guān)性;高波長[1 870,2 600]的近紅外光譜與總氮具有較強相關(guān)性,其中區(qū)間[1 910,2 000]的光譜相關(guān)性最強。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與鉀、氯指標(biāo)的相關(guān)系數(shù),見圖5。從圖5 可以看出,波長區(qū)間[1 430,1 610] 的近紅外光譜與鉀含量具有最強的相關(guān)性;波長區(qū)間[1 430,1 620]∪[1 910,1 985]∪[2 015,5 135]∪[2 430,2 600]的近紅外光譜與氯含量具有較強的相關(guān)性。對比分析發(fā)現(xiàn),除總氮外,其他五項化學(xué)成分與波長區(qū)間[1 430,1 620]的近紅外光譜都具有較高相關(guān)性,光譜價值較高;總糖與還原糖與近紅外光譜相關(guān)性較類似,不同的是,波長2 080 nm 附近部分光譜與還原糖具有一定的相關(guān)性,而總糖表現(xiàn)不明顯。
圖3 近紅外光譜與總煙堿(左圖)、總糖(右圖)指標(biāo)的相關(guān)系數(shù)
圖4 近紅外光譜與總還原糖(左圖)、總氮(右圖)指標(biāo)的相關(guān)系數(shù)
圖5 近紅外光譜與鉀(左圖)、氯(右圖)指標(biāo)的相關(guān)系數(shù)
本研究首先介紹了煙葉近紅外光譜的采集及預(yù)處理過程,簡單介紹了Relief-F 學(xué)習(xí)算法的運行機制,最后利用Relief-F 學(xué)習(xí)算法對煙葉近紅外光譜特征與常規(guī)六項化學(xué)成分的相關(guān)性進行了深入分析,找出了貢獻度最高的光譜子集(波長區(qū)間),這些光譜子集對于煙葉常規(guī)化學(xué)成分檢測的價值較高。如何妥善利用本研究的結(jié)論,提高煙葉品質(zhì)檢測準(zhǔn)確率及執(zhí)行效率,拓寬近紅外光譜在煙葉品質(zhì)方面的應(yīng)用范圍將是我們下一步的研究重點。