呂都,周帥,陳中愛,唐健波
貴州省農(nóng)業(yè)科學(xué)院生物技術(shù)研究所(貴陽 550006)
2020年,我國稻谷總產(chǎn)量約為2.1億 t,占全球稻谷產(chǎn)量的32.5%左右[1-2]。大米是稻谷經(jīng)過加工脫殼而來的產(chǎn)品,我國有超過一半的人口都以大米為主食[3]。稻谷籽粒具有完整的稻殼,起著保護(hù)穎果的作用,使其在儲藏過程中穩(wěn)定性較強,對防止蟲霉危害與緩解稻米吸濕有一定的作用,大米多以稻谷的形式來進(jìn)行儲存[4]。水分是稻谷儲存期間的重要指標(biāo),水分過高稻谷易發(fā)生霉變,稻谷水分的快速準(zhǔn)確檢測是稻谷良好收儲的關(guān)鍵。
常規(guī)檢測方法存在對樣品破壞度大,試驗操作繁瑣,試驗條件要求高,檢測結(jié)果時間長等問題[5]。近紅外光譜技術(shù)具有無損、前處理簡單、易操作、檢測時間短、檢測速度快等特點,近年來被廣泛應(yīng)用于農(nóng)業(yè)領(lǐng)域,尤其是谷物品質(zhì)分析[6-7]。近紅外光譜的吸收帶是有機物質(zhì)中能量較高的化學(xué)鍵(主要是C—H、O—H、N—H)在中紅外光譜區(qū)基頻吸收的倍頻、合頻和差頻吸收帶疊加而成,所以近紅外光譜的吸收譜帶重疊嚴(yán)重[8]。采用全波長近紅外光譜建立預(yù)測模型時,光譜中含有大量冗余信息會影響預(yù)測模型的質(zhì)量和精度,并對計算機的運行能力提出較高要求,增加了模型的解析難度,因此,從近紅外光譜中篩選出與分析目標(biāo)相關(guān)的特征波長是近紅外快速檢測技術(shù)的一個難點,也是一個研究熱點[9-10]。
近紅外光譜特征波長的篩選方法主要有間隔偏最小二乘法(iPLS)、連續(xù)投影算法(SPA)、移動窗(MW)、隨機蛙跳(RF)、無信息變量消除法(UVE),自適應(yīng)量加權(quán)采樣(CARS)和遺傳算法(GA)[11-12]。試驗采用逐步縮短波長優(yōu)中選優(yōu)的方法,選擇與分析目標(biāo)值相關(guān)性高的波數(shù)段,舍去相關(guān)性不高的波數(shù)段。將優(yōu)選出的近紅外光譜的波數(shù)段,再進(jìn)行劃分和優(yōu)選。減少模型的輸入變量,減少干擾變量,縮短模型的計算時間,提升模型的預(yù)測能力。為稻谷水分預(yù)測模型提供一種輸入變量少,模型預(yù)測精度高的特征波長篩選方法。
稻谷(貴州省湄潭縣茅壩御膳米業(yè)有限公司)。
MPA型傅里葉變換近紅外光譜儀(德國Bruker公司);FW-100型高速萬能粉碎機(天津市泰斯特儀器有限公司);WGL-125B型電熱鼓風(fēng)干燥箱(天津市泰斯特儀器有限公司)。
1.2.1 稻谷樣品的收集和水分測定
將收集的稻谷樣品228份,按照GB/T 20264—2006《糧食、油料水分兩次烘干測定法》推薦方法測定稻谷樣品中的水分。
1.2.2 稻谷樣品近紅外光譜的采集
將稻谷樣品倒入樣品杯中,使用積分球旋轉(zhuǎn)程序,在室溫條件下對稻谷樣品進(jìn)行近紅外光譜的采集。將鍍金漫反射體作為參比,每隔1 h掃描1次背景光譜。同一人操作,稻谷樣品裝入樣品杯中,以保證裝樣的緊密程度盡量保持一致。光譜掃描范圍設(shè)置為12 790.3~3 594.9 cm-1,分辨率為16 cm-1,掃描次數(shù)為64次,每個樣品重復(fù)3次,求每個樣品的平均光譜。
1.2.3 稻谷水分預(yù)測模型的建立與特征波長的篩選
采用主成分分析結(jié)合馬氏距離的方法[13],剔除異常樣品光譜。使用基于聯(lián)合x-y距離的樣本集劃分方法[14],按照訓(xùn)練集與驗證集樣品數(shù)量之比3∶1,將剔除異常樣品后的全部樣品光譜劃分為訓(xùn)練集和驗證集。對近紅外光譜進(jìn)行預(yù)處理后,使用偏最小二乘法和交互驗證,對訓(xùn)練集樣品進(jìn)行稻谷水分預(yù)測模型的建立,并對預(yù)測模型進(jìn)行驗證。
采用逐步縮短波長優(yōu)中選優(yōu)的方法,即將近紅外光譜先按照波長為300 cm-1進(jìn)行劃分,將劃分的波數(shù)段作為預(yù)測模型的輸入變量,選擇與響應(yīng)值相關(guān)性高的波數(shù)段,舍去相關(guān)性不高的波數(shù)段。將優(yōu)選出的近紅外光譜的波數(shù)段,按照波長為150,50和10 cm-1進(jìn)行劃分和優(yōu)選。減少模型的輸入變量,減少干擾變量,縮短模型的計算時間,提升模型的預(yù)測能力。以模型決定系數(shù)RCAL
2和模型交叉驗證決定系數(shù)RCV2,優(yōu)化稻谷水分預(yù)測模型。RCAL2和RCV
2,越接近1越好[15]。
試驗數(shù)據(jù)采用OPUS 7.5、Unscrambler 10.4和Oringin 9.5.0處理分析和作圖。
不同水分的稻谷樣品分布圖和樣品正態(tài)分布曲線圖,見圖1。稻谷樣品的水分在8.52%~25.76%之間,且稻谷樣品的水分主要分布于10%~16%,水分小于10%和大于19%的樣品量較少,表明收集的稻谷樣品代表性強。
圖1 稻谷樣品水分的分布直方圖和正態(tài)分布曲線
由圖2可知,在8 324,6 853,5 199,4 749,4 393, 4 299和4 010 cm-1處有吸收峰。不同水分稻谷樣品的近紅外光譜圖,在12 000~4 000 cm-1范圍內(nèi)譜圖趨勢相似,但是樣品譜圖不重合,表明不同含水量稻谷的近紅外光譜圖重現(xiàn)性好,且樣品存在差異。
圖2 稻谷樣品的近紅外光譜圖
采用馬氏距離剔除異常光譜,從228份樣品光譜中剔除20個樣品光譜,將剩余的208個樣品,按照3∶1的比例劃分獲得訓(xùn)練集156個樣品,驗證集52個樣品。采用不同的預(yù)處理方式處理近紅外光譜,使用偏最小二乘法建立模型,結(jié)果見圖3。近紅外光譜的最佳與處理方式為消除常數(shù)偏移量,模型決定系數(shù)RCAL2為0.997 5模型交叉驗證決定系數(shù)RCV2為0.994 8。量方式進(jìn)行預(yù)處理,按照波長300 cm-1進(jìn)行劃分,共
圖3 不同光譜預(yù)處理方式建立的預(yù)測模型
將稻谷樣品的近紅外光譜圖,使用消除常數(shù)偏移獲得8個波數(shù)段,分別采用偏最小二乘法建立模型,并用驗證集樣品進(jìn)行驗證,結(jié)果見表1。選擇交叉驗證決定系數(shù)(RCV2)和外部驗證決定系數(shù)(RVAL2)同時大于等于0.90的波數(shù)段為優(yōu)選波數(shù)段。由表1可知,第2~8個波數(shù)段為優(yōu)選波數(shù)段,共2 007個波數(shù)點,占全光譜87%。
表1 波長300 cm-1特征波數(shù)篩選結(jié)果
將第2~8個波數(shù)段按照波長為150 cm-1進(jìn)行分割,共獲得14段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進(jìn)行驗證,結(jié)果見表2。選擇交叉驗證決定系數(shù)(RCV
2)和外部驗證決定系數(shù)(RVAL2)同時大于等于0.90的波數(shù)段為優(yōu)選波數(shù)段。由表2可知,2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8個波數(shù)段為優(yōu)選波數(shù)段,共1 200個波數(shù)點,占全光譜52.02%。
表2 波長150 cm-1特征波數(shù)篩選結(jié)果
將2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8個波數(shù)段按照波長為50 cm-1進(jìn)行分割,共獲得24段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進(jìn)行驗證,結(jié)果見表3。選擇交叉驗證決定系數(shù)(RCV
2)和外部驗證決定系數(shù)(RVAL2)同時大于等于0.90的波數(shù)段為優(yōu)選波數(shù)段。由表3可知,5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11個波數(shù)段為優(yōu)選波數(shù)段,共550個波數(shù)點,占全光譜23.84%。
表3 波長50 cm-1特征波數(shù)篩選結(jié)果
將5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11個波數(shù)段按照波長為10 cm-1進(jìn)行分割,共獲得55段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進(jìn)行驗證,結(jié)果見表4。選擇交叉驗證決定系數(shù)(RCV2)和外部驗證決定系數(shù)(RVAL2)同時大于等于0.90的波數(shù)段為優(yōu)選波數(shù)段。由表4可知,5.2.1.2,5.2.1.3,7.1.1.4,7.1.1.5,7.1.2.2,7.2.1.4,7.2.1.5和7.2.2.1共8個波數(shù)段為優(yōu)選波數(shù)段,共80個波數(shù)點,占全光譜3.47%。
表4 波長10 cm-1特征波數(shù)篩選結(jié)果
將最終獲得的優(yōu)選波數(shù)段,標(biāo)注在樣品的近紅外光譜圖中,結(jié)果見圖4。最終波長為10 cm-1時,獲得優(yōu)選波數(shù)點80個,占全光譜3.47%,所建立的預(yù)測模型,其RCV2為0.978 1和RVAL2為0.970 0,表明僅利用全光譜3.47%的信息,就可以準(zhǔn)確預(yù)測97.81%的樣品。采用逐步縮短波長優(yōu)中選優(yōu)的方法,篩選出來的特征波數(shù)段為7 247.465~7 174.18,5 434.634~5 361.35,5 318.922~5 284.208和4 856.071~4 744.216 cm-1共4段合計80個波數(shù)點,即80個輸入變量,與分析目標(biāo)相關(guān)的特征波數(shù)段,與樣品近紅外光譜圖的強吸收峰并沒有重合,這說明僅依靠近紅外光譜進(jìn)行譜圖解析,并不能獲得理想的結(jié)果。
圖4 稻谷樣品的近紅外光譜圖
試驗利用傅里葉變換近紅外光譜儀采集稻谷的近紅外光譜圖,使用偏最小二乘法建立稻谷水分預(yù)測模型。采用逐步縮短波長優(yōu)中選優(yōu)的方法,篩選稻谷近紅外光譜圖與稻谷水分相關(guān)的特征波長。波長為300 cm-1時,篩選出的特征波長共2 007個波數(shù)點,占全光譜波數(shù)點總量的87%。將篩選出的特征波數(shù)段,進(jìn)一步縮短波長進(jìn)行篩選,波長為150 cm-1時,篩選出的特征波長共1 200個波數(shù)點,占全光譜波數(shù)點總量的52.02%。將篩選出的特征波數(shù)段,再進(jìn)一步縮短波長進(jìn)行篩選,波長為50 cm-1時,篩選出的特征波長共550個波數(shù)點,占全光譜波數(shù)點總量的23.84%。將篩選出的特征波數(shù)段,更進(jìn)一步縮短波長進(jìn)行篩選,波長為10 cm-1時,篩選出的特征波長共80個波數(shù)點,占全光譜波數(shù)點總量的3.47%,所建立的預(yù)測模型,其RCV
2為0.978 1和RVAL2為0.970 0,表明僅利用全光譜3.47%的信息,就可以準(zhǔn)確預(yù)測97.81%的樣品。即稻谷水分預(yù)測模型的輸入變量僅占全光譜信息的3.47%,大幅降低變量的輸入,提升模型的運算速度、縮短運算時間,為近紅外預(yù)測模型的優(yōu)化提供技術(shù)和方法支持。