国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于近紅外光譜與高斯過(guò)程的高粱單寧含量快速檢測(cè)

2024-09-11 00:00:00趙瑾熠陳爭(zhēng)光衣淑娟
分析化學(xué) 2024年7期
關(guān)鍵詞:近紅外光譜

關(guān)鍵詞近紅外光譜;化學(xué)計(jì)量學(xué);高粱單寧;高斯過(guò)程法;快速無(wú)損檢測(cè)

高粱是世界第五大糧食作物[1],也是我國(guó)重要的糧食作物之一[2]。高粱富含多種營(yíng)養(yǎng)物質(zhì),在我國(guó)主要用作釀酒原料,而在國(guó)際市場(chǎng)主要用于飼料行業(yè)[3-4]。高粱作為釀酒原料時(shí),籽粒中的單寧含量對(duì)產(chǎn)品品質(zhì)具有決定性作用。這主要是由于單寧在釀酒過(guò)程中會(huì)產(chǎn)生丁香酸和丁香醛等風(fēng)味物質(zhì),賦予白酒獨(dú)特的風(fēng)味。同時(shí),在發(fā)酵過(guò)程中,單寧還具有抑制有害微生物生長(zhǎng)和提高出酒率的功效[5]。然而,單寧也是一種抗?fàn)I養(yǎng)因子,味苦澀,具有收斂性。單寧可與蛋白質(zhì)、糖類和金屬離子形成難以吸收的復(fù)合物,從而降低動(dòng)物的攝食率,并影響營(yíng)養(yǎng)物質(zhì)的吸收利用率,但適量的單寧可以改善禽畜的生長(zhǎng)性能,提高飼料的利用率[6-7]。因此,快速、高效和低成本地檢測(cè)高粱中的單寧含量對(duì)于高粱農(nóng)業(yè)生產(chǎn)和質(zhì)量控制至關(guān)重要。目前,高粱中單寧含量的檢測(cè)方法主要有人工經(jīng)驗(yàn)判別法和實(shí)驗(yàn)室化學(xué)方法[8],人工經(jīng)驗(yàn)判別容易受主觀影響,效率低,難以形成統(tǒng)一的標(biāo)準(zhǔn);實(shí)驗(yàn)室化學(xué)方法操作繁瑣、費(fèi)時(shí)費(fèi)力,并且需要對(duì)樣品進(jìn)行破壞性處理。近紅外光譜技術(shù)通過(guò)測(cè)量樣品在近紅外光譜范圍內(nèi)的吸收和反射特性獲取樣品的化學(xué)信息,無(wú)需對(duì)樣品進(jìn)行破壞性處理[9]。作為一種高效無(wú)損的檢測(cè)技術(shù),近紅外光譜具有快速、無(wú)污染、無(wú)損傷和低成本等優(yōu)點(diǎn),并可以實(shí)現(xiàn)在線檢測(cè)[10]。

目前,研究人員已基于近紅外光譜構(gòu)建了多種谷物養(yǎng)分預(yù)測(cè)模型,余松柏等[11]利用偏最小二乘回歸(Partial least squares regression, PLSR)模型對(duì)高粱的多個(gè)成分進(jìn)行預(yù)測(cè),采用多元散射校正(Multiplicativescatter correction, MSC)對(duì)采集的高粱光譜數(shù)據(jù)進(jìn)行預(yù)處理,使用蒙特卡洛無(wú)信息變量消除法(Montecarlo-elimination of uninformative variables, MCUVE)選擇特征波長(zhǎng),建立的基于高粱完整籽粒的單寧PLSR回歸模型的預(yù)測(cè)集決定系數(shù)(Prediction set determination coefficient, RP 2 )為0.8841;使用MSC 結(jié)合Z-Score標(biāo)準(zhǔn)化進(jìn)行預(yù)處理,使用反向區(qū)間偏最小二乘法選擇特征波長(zhǎng),建立的基于高粱粉末的單寧含量的PLSR 回歸模型的RP 2 為0.9414。盡管基于高粱粉末樣本的單寧含量預(yù)測(cè)模型精度高于基于高粱籽粒的模型,但是檢測(cè)過(guò)程需要破壞樣本。劉敏軒等[12]測(cè)定了60 份高粱籽粒的4 個(gè)部位以及整粒種子所組成的300 份樣本的6 種酚類物質(zhì)的含量,其中,縮合單寧采用MSC 結(jié)合一階導(dǎo)數(shù)法(First derivative, FD)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,在此基礎(chǔ)上建立PLSR 模型,模型的RP 2 為0.9558。Dykes 等[13]對(duì)高粱籽粒的總酚、縮合單寧和3-脫氧花青素建立模型并進(jìn)行預(yù)測(cè),其中,縮合單寧的改進(jìn)PLSR 模型的R2P 僅為0.81。Zhang 等[14]對(duì)葡萄果皮和種子中的單寧進(jìn)行建模預(yù)測(cè),分別使用MSC 結(jié)合支持向量機(jī)和Savitzky-Golay卷積平滑(Savitzky-golay smoothing, SG 平滑)結(jié)合PLS 建立果皮和種子的單寧預(yù)測(cè)模型, R2P 分別為0.8960 和0.9243。

高斯過(guò)程回歸(Gaussian process regression, GPR)是一種非參數(shù)的統(tǒng)計(jì)建模方法,基于高斯過(guò)程(Gaussian process, GP)的概念,將數(shù)據(jù)點(diǎn)視為隨機(jī)變量,并假設(shè)數(shù)據(jù)點(diǎn)服從多元正態(tài)分布,通過(guò)對(duì)已觀測(cè)到的數(shù)據(jù)點(diǎn)進(jìn)行建模,可以預(yù)測(cè)未觀測(cè)到的數(shù)據(jù)點(diǎn)的值,并估計(jì)其不確定性,還可通過(guò)選擇合適的核函數(shù)而適應(yīng)不同類型的數(shù)據(jù)和問(wèn)題,從而提高模型的預(yù)測(cè)性能。GPR 對(duì)高維度、小樣本的數(shù)據(jù)具有較強(qiáng)的處理能力,并具有容易實(shí)現(xiàn)、收斂性好和超參數(shù)自適應(yīng)性等特點(diǎn)[15]。GPR 在許多實(shí)際問(wèn)題中都表現(xiàn)出色,已被應(yīng)用于機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和工程學(xué)等領(lǐng)域。李元等[16]提出了一種基于GPR 的絕緣紙老化分析算法,并獲得了較高的準(zhǔn)確率。張韜等[17]提出使用蜻蜓算法優(yōu)化GPR 對(duì)鋰電池健康狀態(tài)進(jìn)行預(yù)測(cè),結(jié)果表明,模型預(yù)測(cè)精度高,運(yùn)算速度快,尤其在處理小樣本方面更具優(yōu)勢(shì)。以上研究表明,基于GPR 建立高粱單寧預(yù)測(cè)模型具有可行性。

基于近紅外光譜分析技術(shù)的單寧含量快速檢測(cè)已有大量的研究報(bào)道,但這些研究的建模方法相對(duì)單一,多采用PLS 建模方法,模型在預(yù)測(cè)集上的性能仍有提升可能。為了建立高粱單寧的快速檢測(cè)模型,本研究利用近紅外光譜技術(shù)采集高粱光譜,使用多種預(yù)處理方法,過(guò)濾光譜中的噪聲信息。在預(yù)實(shí)驗(yàn)的基礎(chǔ)上,選用無(wú)信息變量消除法(Elimination of uninformative variables, UVE)選擇特征波長(zhǎng),提取光譜中的有效信息。在優(yōu)選核函數(shù)基礎(chǔ)上,建立GPR 回歸預(yù)測(cè)模型,并與PLSR 和支持向量機(jī)回歸(Support vectormachine regression, SVR)等模型對(duì)比。通過(guò)計(jì)算模型的決定系數(shù)(Coefficient of determination, R2)、均方根誤差(Root mean square error, RMSE)和相對(duì)分析誤差(Relative percent deviation, RPD),選擇最優(yōu)方案,建立高粱單寧含量的高性能預(yù)測(cè)模型,為高粱中單寧的快速檢測(cè)提供了技術(shù)支持。

1 實(shí)驗(yàn)部分

1.1 儀器與試劑

TANGO FT-NIR 近紅外光譜儀(德國(guó)Bruker 公司); UV-1800 紫外可見(jiàn)分光光度計(jì)(AOE 翱藝儀器上海有限公司);WH-71 電熱恒溫干燥箱(天津市泰斯特儀器有限公司);DM-50g 粉碎機(jī)(南京東邁科技儀器有限公司);雙杰JJ224BC 電子分析天平(常熟市雙杰測(cè)試儀器廠);MK-60 低速臺(tái)式離心機(jī)(湖南邁克爾實(shí)驗(yàn)儀器有限公司);VM-210 漩渦振蕩器(群安科學(xué)儀器浙江有限公司);HJ-1 磁力攪拌器(金壇區(qū)西城新瑞儀器廠)。實(shí)驗(yàn)用水為蒸餾水。

單寧酸和檸檬酸鐵銨(分析純,福晨天津化學(xué)試劑有限公司);8.0 g/L 氨溶液(分析純,以達(dá)科技泉州有限公司);75%二甲基甲酰胺溶液(分析純,中國(guó)石化公司)。

2 g/L 單寧酸溶液:稱取0.2 g 單寧酸溶于蒸餾水中,定容至100 mL;3.5 g/L 檸檬酸鐵銨:稱取0.35 g 檸檬酸鐵銨溶于蒸餾水中,定容至100 mL。

1.2 樣品采集與處理

本研究選取的高粱樣本為2022 年黑龍江八一農(nóng)墾大學(xué)農(nóng)學(xué)院收獲的高粱,包含65 個(gè)品種,共計(jì)305 個(gè)樣本。利用TANGO FTNIR 近紅外光譜儀先測(cè)得每個(gè)高粱樣本完整籽粒光譜數(shù)據(jù)后,將其粉碎,過(guò)40 目篩(篩孔直徑0.425 mm), 采用檸檬酸鐵銨法[18]測(cè)定單寧含量。

1.3 單寧含量測(cè)定

按國(guó)標(biāo)(GBT 15686—2008)方法[18]對(duì)單寧含量進(jìn)行測(cè)定。稱取適量高粱粉碎后的樣本,采用二甲基甲酰胺溶液提取高粱單寧,經(jīng)離心后,取兩份上清液,其中一份加水、檸檬酸鐵銨溶液和氨溶液,另一份只加水和氨溶液(檸檬酸鐵銨溶液替換成等體積水),顯色后,以水為空白對(duì)照,采用分光光度計(jì)測(cè)定525 nm 處吸光度值,采用單寧酸標(biāo)準(zhǔn)品繪制標(biāo)準(zhǔn)曲線。

單寧含量(X)以干基中單寧酸的質(zhì)量分?jǐn)?shù)(%)表示,按式(1)計(jì)算。

其中, C 為從標(biāo)準(zhǔn)曲線中讀取的試樣提取液中單寧酸的濃度(g/L);M 為試樣的質(zhì)量(g);H 為試樣的水分含量(%)。

1.4 水分測(cè)定

按國(guó)標(biāo)GB 5009.3—2016[19]中的直接干燥法測(cè)定水分含量,通過(guò)干燥前后的稱量數(shù)值計(jì)算出水分的含量。水分含量按式(2)計(jì)算:

其中, H 為試樣中水分的含量(%);M1 和M2 分別為干燥前和干燥后試樣的質(zhì)量(g)。

1.5 光譜采集

采用TANGO FT-NIR 近紅外光譜儀采集305 份高粱籽粒在11542~3940 cm?1 范圍的近紅外光譜,測(cè)量方式為漫反射和透射,分辨率為8 cm?1。掃描32 次獲得平均光譜。

1.6 數(shù)據(jù)處理

數(shù)據(jù)處理軟件為The Unscrambler X(10.4 版)、Matlab(R2021a 版本)和Microsoft Office Excel。

1.7 定量模型的構(gòu)建

以高粱的單寧作為分析指標(biāo),分別采用去趨勢(shì)(Detrending, Det)、標(biāo)準(zhǔn)正態(tài)變換(Standard normalvariate transformation, SNV)、去趨勢(shì)組合標(biāo)準(zhǔn)正態(tài)變換和去趨勢(shì)組合SG 平滑對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。使用蒙特卡洛交叉驗(yàn)證法(Monte Carlo cross-validation, MCCV)結(jié)合GPR 建模對(duì)原始光譜進(jìn)行異常樣本剔除。采用隨機(jī)法(Random selection, RS)按照8∶2 的比例將樣本集劃分為建模集和預(yù)測(cè)集。采用UVE選擇特征波長(zhǎng)。建立基于GP 的高粱中單寧含量預(yù)測(cè)模型,并與偏最小二乘法(Partial least squares, PLS)和支持向量機(jī)(Support vector machine, SVM)回歸模型進(jìn)行對(duì)比分析。通過(guò)對(duì)比不同模型的R2、RMSE和RPD 評(píng)價(jià)模型的性能。

1.8 建模方法

GPR 作為一種非參數(shù)的回歸方法,用于建模和預(yù)測(cè)數(shù)據(jù)的連續(xù)函數(shù)關(guān)系,適于處理高維數(shù)、小樣本和非線性等復(fù)雜問(wèn)題。在給定樣本光譜數(shù)據(jù)分布的前提下, GPR 用于推斷對(duì)應(yīng)樣本高粱單寧值的分布。所得分布函數(shù)的數(shù)學(xué)期望即為GPR 模型的預(yù)測(cè)結(jié)果。假設(shè)單寧值y 是高斯分布函數(shù)f(x),服從均值為m(x)、協(xié)方差為k(x, x′)的高斯過(guò)程分布,如式(3)所示:

其中,均值函數(shù)m(x)和協(xié)方差核函數(shù)k(x, x′)定義如下:

GPR 的關(guān)鍵是定義一個(gè)核函數(shù),用于衡量不同數(shù)據(jù)點(diǎn)之間的相似性。核函數(shù)的選擇可根據(jù)問(wèn)題的特點(diǎn)進(jìn)行調(diào)整,常用的核函數(shù)有指數(shù)核函數(shù)、平方指數(shù)核函數(shù)、有理二次核函數(shù)和matern 核函數(shù)等[20]。通過(guò)核函數(shù)可以計(jì)算出觀測(cè)數(shù)據(jù)點(diǎn)之間的協(xié)方差矩陣,進(jìn)而得到預(yù)測(cè)結(jié)果的均值和方差,在預(yù)實(shí)驗(yàn)的基礎(chǔ)上,本研究采用的核函數(shù)為matern32 核,由matern 核函數(shù)的參數(shù)v=3/2 得到[21], v 的大小影響函數(shù)的光滑性, matern52 核由v=5/2 得到, matern32 核函數(shù)公式見(jiàn)式(6):

其中, x 和x′是輸入變量;σf2 是信號(hào)方差參數(shù),用于控制局部相關(guān)性的程度;σl 是特征長(zhǎng)度尺度參數(shù),用于調(diào)節(jié)輸入變量之間的間隔;|| x ? x′||表示輸入變量之間的歐氏距離。

1.9 模型評(píng)價(jià)指標(biāo)

1.9.1 決定系數(shù)

R2 是一種用于衡量模型對(duì)觀測(cè)數(shù)據(jù)擬合程度的指標(biāo),通常用于比較不同模型的性能。R2 值越大,模型性能越好,建模集和預(yù)測(cè)集的R2 的比值應(yīng)控制在0.9~1.1 之間,小于0.9 表明模型存在欠擬合,大于1.1表明模型存在過(guò)擬合[22]。當(dāng)R2=1.0 時(shí),表明模型完美地預(yù)測(cè)了數(shù)據(jù)。在回歸分析過(guò)程中, R2 可評(píng)估模型的預(yù)測(cè)能力,并解釋變量對(duì)因變量的影響程度。R2 的計(jì)算公式如下:

其中, yi,actual 和yi,predicted 分別為第i 個(gè)樣本的真實(shí)值和預(yù)測(cè)值, yactual 為真實(shí)值的平均值, n 為樣本數(shù)。

1.9.2 均方根誤差

RMSE 表示預(yù)測(cè)值和實(shí)際觀測(cè)值之間的差值,用于測(cè)量模型的預(yù)測(cè)精度。RMSE 越小,模型精度越高,表明預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異越小。計(jì)算公式見(jiàn)式(8):

1.9.3 相對(duì)分析誤差

RPD 用于評(píng)估模型的預(yù)測(cè)能力。RPD 值越大,模型預(yù)測(cè)能力越好,當(dāng)RPDlt;2.0 時(shí),模型效果不理想;當(dāng)2.03.0 時(shí),模型能精準(zhǔn)預(yù)測(cè)所測(cè)成分含量,可用于預(yù)測(cè)分析[24]。計(jì)算公式見(jiàn)式(9):

2 結(jié)果與討論

2.1 高粱化學(xué)值的測(cè)定結(jié)果

高粱中的單寧(干基)含量和水分含量的統(tǒng)計(jì)特征見(jiàn)表1。本研究中,單寧含量最低為0.47%,最高為3.21%,可以認(rèn)為高粱單寧含量分布具有一定代表性。該結(jié)果與文獻(xiàn)[25]測(cè)得的高粱單寧含量分布(0.24%~4.76%)有一定的差異,這可能與高粱品種、土壤肥水和種植模式的差異有關(guān)[5]。

2.2 高粱的近紅外光譜圖

高粱完整籽粒的近紅外漫反射光譜如圖1 所示,在10075、8316、6821、5766、5186、4700、4321和4008 cm?1 處出現(xiàn)吸收峰。其中, 10075 cm?1 處為酚中O—H 的二級(jí)倍頻吸收峰;8316 cm?1 附近的吸收峰與甲基和亞甲基中的C—H 的二級(jí)倍頻有關(guān);6821 cm?1 附近的吸收峰與醇中氫鍵鍵合的O—H 的一級(jí)倍頻相關(guān);5766 cm?1 處的吸收峰為與芳環(huán)相連的甲基C—H 的反對(duì)稱和對(duì)稱伸縮振動(dòng)一級(jí)倍頻的吸收峰;5186 cm?1 處為酚和醇中O—H 的合頻和C=O 的二級(jí)倍頻的組合頻吸收峰;4700 cm?1 處的吸收峰為芳烴C—C伸縮振動(dòng)和C—H 伸縮振動(dòng)的組合頻吸收峰;4321 cm?1 處為甲基、亞甲基和芳烴C—H的組合頻吸收峰;4050 cm?1 處為苯環(huán)C—H 的伸縮振動(dòng)和彎曲振動(dòng)的組合頻吸收峰。

2.3 預(yù)處理方法的選擇

光譜中除了有用的化學(xué)信息外,還包含著大量的噪聲和無(wú)關(guān)信息,在前期預(yù)實(shí)驗(yàn)基礎(chǔ)上,本研究采用多種光譜預(yù)處理方法,包括Det、SNV、去趨勢(shì)組合標(biāo)準(zhǔn)正態(tài)變換(Det+SNV)以及去趨勢(shì)組合SG 平滑(Det+SG)分別對(duì)光譜進(jìn)行預(yù)處理。Det主要用于消除光譜的基線漂移,通過(guò)使用原始光譜減去多項(xiàng)式擬合出一條趨勢(shì)線,對(duì)光譜進(jìn)行去趨勢(shì)處理;SG 平滑適用于消除不規(guī)則的隨機(jī)噪聲,通過(guò)選擇合適的窗口大小和多項(xiàng)式階數(shù)對(duì)光譜數(shù)據(jù)進(jìn)行平滑處理,本研究選擇窗口大小為21,多項(xiàng)式階數(shù)為2;SNV 用于消除樣本顆粒大小、表面散射光以及光程變化等對(duì)近紅外光譜的影響,通過(guò)單個(gè)樣本光譜的標(biāo)準(zhǔn)偏差修正光譜的變化[26]。為了消除光譜的基線漂移和噪聲的影響,將Det 與SNV 和SG 結(jié)合,得到SNV、Det、Det+SNV 和Det+SG 4 個(gè)光譜預(yù)處理結(jié)果(圖2)。經(jīng)預(yù)處理的光譜圖像相比原始光譜呈現(xiàn)出較高的光譜平滑度和集中性, Det+SG(圖2D)較Det(圖2B)的噪聲明顯減少, 7000~7500 cm?1 和5000~5500 cm?1 處的光譜噪聲波動(dòng)消失,呈現(xiàn)出更高的平滑度。

2.4 異常值的剔除

為了避免在實(shí)驗(yàn)過(guò)程中因操作誤差造成的光譜異?;騿螌幒繖z測(cè)結(jié)果異常對(duì)模型的不利影響,以預(yù)處理后的光譜為輸入,使用MCCV 結(jié)合GPR 模型對(duì)樣品進(jìn)行異常值剔除,在建模1000 次后,得到殘差方差-均值圖(圖3)。本研究取殘差均值和方差最大的15%的樣本的殘差均值的平均值和殘差方差的平均值作為閾值,將樣本殘差均值或殘差方差大于閾值的樣本識(shí)別為異常樣本。

2.5 特征波長(zhǎng)選擇

近紅外光譜數(shù)據(jù)維度較高,包含有大量冗余信息。建模前進(jìn)行特征選擇,可以減少冗余信息,降低維度,減少計(jì)算復(fù)雜度,縮短模型訓(xùn)練時(shí)間,從而更好地利用近紅外光譜數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。

UVE 最初由Centner 等[27]提出,是一種基于回歸系數(shù)建立的波長(zhǎng)變量選擇算法,將回歸系數(shù)的穩(wěn)定性值作為波長(zhǎng)變量重要性的衡量指標(biāo)。首先對(duì)光譜數(shù)據(jù)中波長(zhǎng)變量的穩(wěn)定性值進(jìn)行評(píng)價(jià),然后根據(jù)每個(gè)波長(zhǎng)的穩(wěn)定性值(均值/方差)剔除對(duì)模型沒(méi)有貢獻(xiàn)的變量。相比于其它特征波長(zhǎng)選擇算法, UVE 能夠更好地處理存在異常值和噪聲的數(shù)據(jù),提高特征選擇的穩(wěn)定性和可靠性。該方法不依賴于具體的統(tǒng)計(jì)分布假設(shè),適應(yīng)性強(qiáng),并具有較好的魯棒性。

UVE 建模方法采用PLS 回歸, PLS 模型的主成分?jǐn)?shù)設(shè)置為15,閾值為0.995,采用留一法交叉驗(yàn)證。圖4 為各變量回歸系數(shù)統(tǒng)計(jì)分布,藍(lán)色實(shí)線為光譜變量矩陣的穩(wěn)定性值,紅色實(shí)線為隨機(jī)噪聲,紅色水平虛線為通過(guò)閾值0.995 選出的臨界值,絕對(duì)值大于臨界值的波長(zhǎng)為所選擇的波長(zhǎng)。圖5 為UVE 所選波長(zhǎng)(經(jīng)Det-SG 和剔除異常樣本的光譜),共選取了662 個(gè)特征波長(zhǎng),占總波長(zhǎng)的35.88%。每個(gè)波峰附近都有所選擇的波長(zhǎng),在4 個(gè)波峰(6821、5766、4700 和4321 cm?1)附近尤為聚集,其中, 6821 cm?1 附近的吸收峰與醇中氫鍵鍵合的O—H 的一級(jí)倍頻相關(guān), 5766 cm?1 處為與芳環(huán)相連的甲基C—H 的反對(duì)稱和對(duì)稱伸縮振動(dòng)一級(jí)倍頻的吸收峰;4700 cm?1 處的吸收峰為芳烴C—C 伸縮振動(dòng)和C—H 伸縮振動(dòng)的組合頻吸收峰;4321 cm?1 處為甲基、亞甲基和芳烴C—H 的組合頻吸收峰。

2.6 模型建立

數(shù)據(jù)預(yù)處理、剔除異常樣本和特征波長(zhǎng)選擇后建立GPR 模型,核函數(shù)為matern32 核,重復(fù)建模1000 次取平均值,以保證評(píng)價(jià)指標(biāo)的準(zhǔn)確性,建模結(jié)果如表2 所示。

表2 中GPR 模型的RPD 值均大于3,因此,模型均可用于預(yù)測(cè)單寧含量。其中, Det-SG 和Det-SNV最優(yōu)秀,并且兩個(gè)模型的RP 2 和RPD 值十分接近。Det-SG 的決定系數(shù)RP 2 略高于Det-SNV,但RPD 略低于Det-SNV,這表明Det-SG 相對(duì)于Det-SNV 更加穩(wěn)定,模型預(yù)測(cè)性能的波動(dòng)較小。在多次建模過(guò)程中, Det-SG 比Det-SNV 更加穩(wěn)定,能夠提供更一致的預(yù)測(cè)精度,故建立在Det-SG 預(yù)處理和UVE 進(jìn)行特征波長(zhǎng)選擇結(jié)果的GPR 為最優(yōu)模型,其建模集決定系數(shù)(RC 2)和RP 2 分別為0.9979 和0.9529,建模集和預(yù)測(cè)集R2 的比值為1.05,不存在過(guò)擬合和欠擬合, RPD 值為4.8453,大于3,說(shuō)明模型可以精確預(yù)測(cè)單寧含量。

對(duì)比表2 可知,未經(jīng)過(guò)光譜預(yù)處理的模型有輕微的過(guò)擬合現(xiàn)象,因此,光譜預(yù)處理能明顯提升模型性能[28],經(jīng)過(guò)光譜預(yù)處理后,模型的RPD 大于4,模型的過(guò)擬合現(xiàn)象明顯改善。建立在兩種預(yù)處理方法上的模型性能與單一預(yù)處理方法基礎(chǔ)上的模型相比,性能僅略有提升[29]。4 種不同預(yù)處理方法對(duì)單寧含量預(yù)測(cè)模型影響不大。文獻(xiàn)[11]建立的基于高粱籽粒的單寧含量預(yù)測(cè)模型MSC-MCUVE-PLSR 的RP 2 為0.8841,而本研究建立的Det-SG-UVE-GPR 模型的RP 2 為0.9529,對(duì)于整粒高粱單寧的預(yù)測(cè)性能有明顯提升,可以更精準(zhǔn)地預(yù)測(cè)整粒高粱中的單寧含量。

2.7 GPR 模型與其它模型的比較

PLS 是化學(xué)計(jì)量學(xué)的經(jīng)典方法,在近紅外光譜建模過(guò)程中廣泛應(yīng)用[30-32];此外,近年來(lái), SVM 在近紅外光譜建模方面取得了較好的效果[33-34]。為了說(shuō)明GPR 模型的優(yōu)勢(shì),本研究選取在近紅外光譜和機(jī)器學(xué)習(xí)算法方面使用較多的PLS 和SVM 建立回歸模型,并與GPR 模型進(jìn)行對(duì)比。其中, PLSR 模型通過(guò)計(jì)算RMSECV 的最小值選擇最優(yōu)主成分?jǐn)?shù),并進(jìn)行建模預(yù)測(cè);SVR 模型使用徑向基核函數(shù),通過(guò)網(wǎng)格尋優(yōu)法尋找最優(yōu)參數(shù),并進(jìn)行建模預(yù)測(cè),重復(fù)建模200 次取平均值,建模結(jié)果見(jiàn)表3。

對(duì)比表2 和表3 可知, PLSR 模型的RPD 值在2.40~2.75 之間,均小于3,最優(yōu)PLSR 模型的RP 2 和RPD 分別為0.8595 和2.7493,對(duì)于預(yù)測(cè)高粱單寧含量略顯牽強(qiáng)。SVR 模型的性能全面優(yōu)于PLSR 模型,并且性能接近GPR 模型(表3)。預(yù)處理可以明顯提升模型的預(yù)測(cè)精度,經(jīng)預(yù)處理后, SVM 模型RPD 值在3.31~3.41 之間,均大于3,因此,建立在預(yù)處理基礎(chǔ)上的SVM 模型可用于預(yù)測(cè)高粱單寧含量。在SVM模型性能參數(shù)方面,在4 種不同的預(yù)處理方法中, Det-SG 略顯優(yōu)勢(shì),其RP 2 和RPD 分別為0.9022 和3.3746,但其預(yù)測(cè)精度仍低于GPR 模型,建模過(guò)程耗時(shí)也遠(yuǎn)長(zhǎng)于GPR 模型。

綜合表2 和表3 可知,在相同的光譜預(yù)處理情況下, 3 種模型性能從高到低依次為GPRgt;SVRgt;PLSR,這與文獻(xiàn)[16-17]的研究結(jié)果類似?;谙嗤A(yù)處理方法(Det-SG)的GPR 模型的RPD 比PLSR 模型提升了76.24%,比SVR 模型提升了43.58%。這種預(yù)測(cè)準(zhǔn)確度的不同可能是由于高粱近紅外光譜受到多種因素(如復(fù)雜的化學(xué)成分、光譜峰重疊、儀器和環(huán)境等)的影響,這些因素會(huì)導(dǎo)致光譜數(shù)據(jù)間存在復(fù)雜的非線性關(guān)系和復(fù)雜數(shù)據(jù)分布,而GPR 模型在處理非線性關(guān)系和復(fù)雜數(shù)據(jù)分布方面更具有優(yōu)勢(shì),采用核函數(shù)適應(yīng)數(shù)據(jù)的非線性特征,不對(duì)數(shù)據(jù)進(jìn)行特定假設(shè)。相對(duì)于PLSR 和SVR, GPR 模型可以提供對(duì)預(yù)測(cè)的不確定性估計(jì),可更好地處理非相關(guān)的數(shù)據(jù),提高預(yù)測(cè)性能。相比之下, PLSR 的建模能力受限于其線性假設(shè),對(duì)于非線性關(guān)系的建模能力有限。SVR 雖然可用于解決小樣本、非線性和高維數(shù)據(jù)空間模式識(shí)別等問(wèn)題,但對(duì)數(shù)據(jù)的分布和特征的敏感度較高,如果數(shù)據(jù)的分布不符合其假設(shè)或者特征不顯著,可能會(huì)影響其預(yù)測(cè)效果。所有PLSR 模型的RPD 均小于3,并且多種預(yù)處理方法相差不大,由此可見(jiàn),預(yù)處理方法對(duì)于高粱單寧的PLSR 模型性能提升不明顯,而對(duì)GPR 和SVR 性能均有較大提升,這再次表明了PLSR 模型建模能力有限。

3 結(jié)論

采用近紅外光譜儀器結(jié)合化學(xué)計(jì)量學(xué)方法,建立了基于高粱完整籽粒的單寧的GPR 預(yù)測(cè)模型,對(duì)比PLSR 和SVR 兩種常用建模方法,本研究建立的GPR 高粱單寧預(yù)測(cè)模型準(zhǔn)確度最高,建模結(jié)果有顯著優(yōu)勢(shì),其RPD 值較PLSR 和SVR 分別提升了76.24%和43.58%,模型性能大幅提升,可用于高粱單寧含量的快速檢測(cè)。相比于傳統(tǒng)的人工經(jīng)驗(yàn)判別法和實(shí)驗(yàn)室化學(xué)方法,本方法檢測(cè)方便快捷且準(zhǔn)確,能夠更好地為高粱中單寧的快速檢測(cè)提供技術(shù)支持。

猜你喜歡
近紅外光譜
基于支持向量機(jī)及粒子群算法的臘肉品質(zhì)等級(jí)檢測(cè)
肉類研究(2017年3期)2017-03-23 18:31:35
基于近紅外光譜和LabVIEW技術(shù)的番茄抗灰霉病檢測(cè)系統(tǒng)
麥芽炒制過(guò)程中近紅外在線監(jiān)測(cè)模型的建立及“炒香”終點(diǎn)判斷研究
基于近紅外光譜法的藜麥脂肪含量快速檢測(cè)
中國(guó)當(dāng)代醫(yī)藥(2016年19期)2016-09-30 20:42:57
小麥子粒粗蛋白FT—NIRS分析模型建立的初步研究
近紅外光譜分析技術(shù)快速檢測(cè)冰溫貯藏牛肉品質(zhì)
肉類研究(2015年3期)2015-06-16 12:41:35
小麥子粒濕面筋FT—NIRS分析模型的建立與研究
近紅外光譜法青皮藥材真?zhèn)舞b別研究
利用油水穩(wěn)定化和支持向量回歸增強(qiáng)近紅外光譜測(cè)定油中水分的方法
宣城市| 南木林县| 灵寿县| 新闻| 剑川县| 霍邱县| 临夏县| 瑞安市| 偃师市| 乐东| 巨鹿县| 林口县| 富顺县| 秦安县| 聂拉木县| 开远市| 博客| 吴旗县| 丰台区| 阳泉市| 新平| 西宁市| 和田市| 清涧县| 洪雅县| 利川市| 奉贤区| 桐梓县| 三亚市| 东港市| 正宁县| 黄骅市| 泰兴市| 钦州市| 类乌齐县| 邹平县| 二手房| 阿巴嘎旗| 阿拉善右旗| 高密市| 平泉县|