国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

潛變量機(jī)器學(xué)習(xí)方法在咖啡NIR定量分析中的應(yīng)用

2021-05-11 07:22陳華舟許麗莉喬涵麗洪紹勇
光譜學(xué)與光譜分析 2021年5期
關(guān)鍵詞:定標(biāo)咖啡光譜

陳華舟,許麗莉,喬涵麗,洪紹勇

1.桂林理工大學(xué)理學(xué)院,廣西 桂林 541004 2.大數(shù)據(jù)處理與算法技術(shù)研究中心(桂林理工大學(xué)),廣西 桂林 541004 3.北部灣大學(xué)海洋學(xué)院,廣西 欽州 535011 4.廣州華商學(xué)院數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300

引 言

隨著生活質(zhì)量的提高,食品的生產(chǎn)質(zhì)量和品質(zhì)安全直接關(guān)系到人們的健康,越來越多地受到人們的密切關(guān)注。咖啡是最流行的非酒精飲料之一,咖啡成分復(fù)雜,包含多種化合物,礦物質(zhì)含量豐富,其中蛋白質(zhì)是咖啡為人類提供能量的主要成分[1-3]。由于生長環(huán)境和加工方法的影響,不同種類的咖啡中的蛋白質(zhì)含量存在一定差異,對(duì)于咖啡蛋白質(zhì)含量的檢測已經(jīng)有比較成熟的實(shí)驗(yàn)室方法[4],然而化學(xué)檢測技術(shù)成本高、耗時(shí)長,需要化學(xué)試劑,容易造成污染,不能滿足當(dāng)今社會(huì)快節(jié)奏的生活和高質(zhì)量的檢測需要,同時(shí),速溶咖啡粉末成品的制備和包裝過程中不可避免地添加了一些食品添加劑,這對(duì)于蛋白質(zhì)成分的提純和檢測增加了復(fù)雜度。因此,尋求一種快速檢測技術(shù)來完成對(duì)咖啡蛋白質(zhì)的檢測具有重要的社會(huì)意義。

隨著計(jì)算機(jī)和信息技術(shù)的發(fā)展,光譜快檢技術(shù)廣泛應(yīng)用于農(nóng)業(yè)、食品、生態(tài)環(huán)境、生物醫(yī)學(xué)等領(lǐng)域[5-7]。近紅外(NIR)光譜以其快速無損、無試劑、實(shí)時(shí)在線、多組分同時(shí)分析的特點(diǎn)得到相關(guān)行業(yè)認(rèn)可[8-10]。而近紅外光譜的分析過程是多變量定標(biāo)校正過程,需要結(jié)合化學(xué)計(jì)量學(xué)方法的研究和應(yīng)用。近些年,NIR分析技術(shù)在食品行業(yè)的應(yīng)用逐漸趨于成熟,利用近紅外光譜分析進(jìn)行食品安全和品質(zhì)檢測的精度要求越來越高,如多元回歸(MLR)、偏最小二乘法(PLS)等常規(guī)的線性分析方法已經(jīng)不能滿足建模定標(biāo)需求[11-12];大數(shù)據(jù)和智能計(jì)算技術(shù)的不斷更新,涌現(xiàn)出一系列非線性計(jì)量學(xué)分析方法,如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(ANN)、極限學(xué)習(xí)機(jī)(ELM)等,用于NIR光譜建模,在定量分析方面取得良好的預(yù)測效果,能夠提高模型預(yù)測精度的同時(shí)還肯定了機(jī)器學(xué)習(xí)方法在NIR分析中的可行性[13-15]。

針對(duì)速溶咖啡粉末的蛋白質(zhì)快速定量檢測的NIR光譜建模分析,提出利用SVM和ELM方法結(jié)合潛變量技術(shù)進(jìn)行建模,討論兩種方法的參數(shù)優(yōu)選和潛變量提取的聯(lián)合優(yōu)化模式,結(jié)合簡單的建模前預(yù)處理,以達(dá)到提高NIR光譜分析精度的目的。與常用的PLS方法進(jìn)行對(duì)比,驗(yàn)證潛變量機(jī)器學(xué)習(xí)方法在近紅外定量分析中的應(yīng)用優(yōu)勢。

1 實(shí)驗(yàn)部分

1.1 樣品采集與檢測

收集174份咖啡粉末樣品,采用常規(guī)食品蛋白質(zhì)檢測技術(shù)(GB/T 5009.5—2003)測定每個(gè)樣品的蛋白質(zhì)含量,作為NIR分析的參考化學(xué)值。所有樣品的蛋白質(zhì)百分比含量最小值為46.55%,最大值為73.35%,平均值為60.00%,標(biāo)準(zhǔn)偏差值為4.97%。使用FOSS NIR Systems 5000光柵型光譜儀采集咖啡粉末樣本的近紅外光譜,以空氣作為背景,每測一個(gè)樣品伴隨著測量一次背景,用于光譜數(shù)據(jù)的基線校正。實(shí)驗(yàn)環(huán)境溫度為(25±1) ℃,濕度為45%±1%RH的情況下,設(shè)置儀器內(nèi)置光學(xué)系統(tǒng)對(duì)每個(gè)樣品(包括背景測量)自動(dòng)掃描32次,波長范圍設(shè)置為1 000~2 500 nm,光譜分辨率為2 nm。光譜數(shù)據(jù)經(jīng)過基線校正處理,消除光譜漂移影響,所得174個(gè)咖啡樣本的NIR光譜如圖1所示。

圖1 174個(gè)咖啡粉末樣本的NIR光譜Fig.1 NIR spectra of 174 coffee powder samples

1.2 潛變量機(jī)器學(xué)習(xí)方法

采用SVM和ELM兩種機(jī)器學(xué)習(xí)方法,結(jié)合潛變量分析技術(shù),對(duì)174個(gè)咖啡蛋白質(zhì)的NIR光譜快速檢測進(jìn)行建模優(yōu)化。潛變量是通過分析光譜數(shù)據(jù)的信號(hào)分布情況,提取出來的包含特定待測成分信息最大的綜合變量[16]。潛變量分析常用的方法有因子分析(FA)、主成分分析(PCA)、隱馬爾可夫模型(HMM)等;本工作利用PCA算法思想提取潛變量,并將潛變量提取過程與SVM和ELM進(jìn)行聯(lián)合優(yōu)化,形成操作方便的新型數(shù)據(jù)優(yōu)化分析模型。

(1)潛變量支持向量機(jī)(LV-SVM)模型

LV-SVM的基本思路是采用PCA潛變量技術(shù),將原光譜數(shù)據(jù)X通過潛變量提取形成光譜特征的潛變量特征數(shù)據(jù)LX,進(jìn)一步利用非線性映射核函數(shù)將潛變量LX映射到一個(gè)更高維的特征變量空間,使得原來變量之間的非線性對(duì)應(yīng)關(guān)系轉(zhuǎn)換成高維空間中的線性關(guān)系;加入松弛變量ξ,在特征空間中基于線性最優(yōu)化理論構(gòu)建目標(biāo)函數(shù),

s.t.f=wTφ(lxj)+b+ξj,

lxj∈LX,j=1,2,…,p

其中γ為正則化參數(shù),ξj為松弛變量,lxj為潛變量矩陣LX的向量元素,b為偏差因子。此為凸二次規(guī)劃問題,可用Lagrange乘子法求解,經(jīng)整理可以得到LV-SVM算法針對(duì)NIR光譜定量分析的預(yù)測模型為

其中yi為樣本待測成分含量,αj是Lagrange乘子,lxj為潛變量變換之后的特征光譜,bi為基線校正偏差。

(2)潛變量極限學(xué)習(xí)機(jī)(LV-ELM)模型

ELM算法是基于單一隱藏層的反饋式神經(jīng)網(wǎng)絡(luò)(SLFN)權(quán)值優(yōu)化理論提出的一種機(jī)器學(xué)習(xí)方法,它可以為SLFN系統(tǒng)提供更優(yōu)化的模型訓(xùn)練機(jī)制,以便更快速地確定最佳優(yōu)化權(quán)值和最小訓(xùn)練誤差,使其具有更好的泛化應(yīng)用能力[17-18]。LV-ELM的基本思想是將PCA提取的潛變量(LX)作為SLFN的輸入變量,執(zhí)行ELM算法過程,構(gòu)建潛變量極限學(xué)習(xí)機(jī)模型,使得反饋式神經(jīng)網(wǎng)絡(luò)極限學(xué)習(xí)的模式完全作用于待測成分特征的光譜數(shù)據(jù)。

其中aj∈Rn和bj∈R(1,2,…,k)表示第j個(gè)隱含節(jié)點(diǎn)的學(xué)習(xí)參數(shù),βj∈Rp表示隱含層的第j個(gè)節(jié)點(diǎn)到輸出層的連接權(quán)值,g(aj,bj,lxi)表示第j個(gè)隱含節(jié)點(diǎn)輸出值與輸入樣本特征變量lxi之間的關(guān)系。

Hβ=T

其中H={hij=g(aj,bj,lxi)}為隱含層的輸出矩陣,β=(β1,β2,…,βk)為輸出權(quán)重矩陣,T=(t1,t2,…,tn)為目標(biāo)輸出矩陣。于是,SLFN系統(tǒng)方程轉(zhuǎn)化為線性模型,則輸出權(quán)重可通過最小二乘法來確定,即可以得到β的估計(jì)值為

其中H-1為H的廣義逆矩陣。利用ELM優(yōu)化估計(jì)的值來預(yù)測樣本待測成分的含量。

1.3 數(shù)據(jù)劃分與模型評(píng)價(jià)指標(biāo)

咖啡蛋白質(zhì)定量檢測的NIR建模采用定標(biāo)—驗(yàn)證—測試的模式進(jìn)行,將全部174個(gè)樣本按照大約2∶1∶1的比例隨機(jī)劃分為定標(biāo)集、驗(yàn)證集和測試集,其中定標(biāo)集樣本用于構(gòu)建定量模型,驗(yàn)證樣本用于對(duì)定標(biāo)模型進(jìn)行對(duì)比驗(yàn)證和參數(shù)優(yōu)選,然后將優(yōu)化模型應(yīng)用于測試集樣本進(jìn)行模型評(píng)價(jià)。經(jīng)過劃分之后的三個(gè)樣本集的統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 定標(biāo)集、驗(yàn)證集和測試集樣本的咖啡蛋白質(zhì)含量基本統(tǒng)計(jì)數(shù)據(jù)Table 1 The statistic data of coffee protein content for the calibrating, validating and testing sets

模型評(píng)價(jià)體系包括對(duì)驗(yàn)證集樣品的評(píng)價(jià)和對(duì)預(yù)測集樣品的評(píng)價(jià),評(píng)價(jià)指標(biāo)有均方根偏差(RMSE)和相關(guān)系數(shù)(r),通過以下公式計(jì)算

2 結(jié)果與討論

分別采用LV-SVM和LV-ELM兩種方法對(duì)咖啡粉末的NIR光譜建模,定量預(yù)測蛋白質(zhì)含量,有利于人們選擇咖啡蛋白能量的攝取。針對(duì)84個(gè)定標(biāo)集樣本建立LV-SVM模型進(jìn)行訓(xùn)練,首先基于全譜段數(shù)據(jù)提取潛變量信息,由于不同潛變量個(gè)數(shù)將影響建模效果,調(diào)試前30個(gè)潛變量,結(jié)合SVM學(xué)習(xí)過程進(jìn)行聯(lián)合優(yōu)化,設(shè)置正則化參數(shù)的調(diào)整范圍為γ=1,2,…,20,將每一個(gè)參數(shù)組合所對(duì)應(yīng)的模型應(yīng)用于45個(gè)驗(yàn)證集樣本蛋白質(zhì)含量的預(yù)測,通過比較不同潛變量個(gè)數(shù)(LV)、不同正則化參數(shù)(γ)取值,依據(jù)模型評(píng)價(jià)指標(biāo)(RMSEV)確定建模優(yōu)化參數(shù)。雙參數(shù)調(diào)試的LV-SVM建模驗(yàn)證結(jié)果如圖2所示,其中圖2(a)為雙參數(shù)聯(lián)合調(diào)試任一參數(shù)組合的預(yù)測偏差,圖2(b)和圖2(c)分別為該預(yù)測結(jié)果分別對(duì)應(yīng)r和LV兩個(gè)變量方向的最小預(yù)測偏差投影。依圖2可以選擇優(yōu)化的r為14,LV為15,對(duì)應(yīng)LV-SVM模型的優(yōu)化RMSEV為6.797,對(duì)應(yīng)的RV為0.877。

圖2 LV-SVM定標(biāo)驗(yàn)證模型的RMSEV優(yōu)選Fig.2 The optimization of RMSEV for the LV-SVM calibration models

利用LV-ELM模型針對(duì)定標(biāo)集樣本進(jìn)行訓(xùn)練,基于全譜數(shù)據(jù)提取潛變量LX,調(diào)試潛變量數(shù)量為1,2,…,30,結(jié)合ELM的學(xué)習(xí)優(yōu)化過程,設(shè)置SLFN網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)量可變,調(diào)試取值為k∈{5,10,15,20,25,30,35,40,45,50},通過反饋式迭代確定各個(gè)隱含節(jié)點(diǎn)的參數(shù),利用最小二乘回歸計(jì)算SLFN隱含層至輸出層的權(quán)值β,進(jìn)而完成對(duì)驗(yàn)證集樣本的蛋白質(zhì)含量預(yù)測。通過比較不同潛變量個(gè)數(shù)(LV)、不同隱含層節(jié)點(diǎn)個(gè)數(shù)(K)的取值,依據(jù)RMSEV確定建模優(yōu)化參數(shù)。雙參數(shù)調(diào)試的LV-ELM建模驗(yàn)證結(jié)果如圖3所示,其中圖3(a)為雙參數(shù)聯(lián)合調(diào)試任一參數(shù)組合的預(yù)測偏差,圖3(b)和圖3(c)分別為該預(yù)測結(jié)果分別對(duì)應(yīng)K和LV兩個(gè)變量方向的最小預(yù)測偏差投影。依圖3可以選擇優(yōu)化的K為40,LV為18,對(duì)應(yīng)LV-ELM模型的優(yōu)化RMSEV為6.118,對(duì)應(yīng)的RV為0.908。

圖3 LV-ELM定標(biāo)驗(yàn)證模型的RMSEV優(yōu)選Fig.3 The optimization of RMSEV for the LV-ELM calibration models

利用上述定標(biāo)和驗(yàn)證過程得到的最優(yōu)建模參數(shù),即15個(gè)潛變量、正則化參數(shù)為14的LV-SVM模型和18潛變量、40個(gè)隱含層節(jié)點(diǎn)的LV-ELM模型,分別對(duì)測試集的45個(gè)咖啡樣本的蛋白質(zhì)含量進(jìn)行預(yù)測,計(jì)算對(duì)應(yīng)的RMSET和RT,所得結(jié)果列于表2中;同時(shí)將常規(guī)PLS定標(biāo)的優(yōu)化模型預(yù)測結(jié)果也列于表中進(jìn)行比較。對(duì)比可知,LV-SVM和LV-ELM方法在咖啡蛋白的NIR光譜快速定量分析中能夠取得比常規(guī)PLS方法更優(yōu)的預(yù)測精度,且LV-ELM模型取得相對(duì)于LV-SVM模型更好的預(yù)測結(jié)果。經(jīng)過定標(biāo)—驗(yàn)證—測試結(jié)果可知,潛變量提取結(jié)合機(jī)器學(xué)習(xí)的方法在近紅外定量分析中具有一定的應(yīng)用優(yōu)勢,比常規(guī)的線性建模方法更有應(yīng)用前景。

表2 LV-SVM,LV-ELM和PLS方法對(duì)咖啡蛋白質(zhì)的NIR建模預(yù)測結(jié)果Table 2 The NIR model prediction results for coffee protein based on the LV-SVM, LV-ELM and PLS methods

3 結(jié) 論

采用NIR光譜快速檢測技術(shù)實(shí)現(xiàn)對(duì)速溶咖啡樣本中蛋白質(zhì)含量的定量檢測,在建模方法上采用潛變量結(jié)合機(jī)器學(xué)習(xí)的聯(lián)合優(yōu)化方法,建立LV-SVM和LV-ELM定標(biāo)預(yù)測模型,形成SVM或ELM關(guān)鍵參數(shù)和潛變量優(yōu)選的雙參數(shù)聯(lián)合調(diào)試模式,使建模預(yù)測偏差結(jié)果形成三維隨動(dòng)優(yōu)選結(jié)構(gòu)。該方法能夠在實(shí)現(xiàn)變量降維的同時(shí)優(yōu)選建模參數(shù),對(duì)咖啡蛋白質(zhì)的定量分析取得良好的預(yù)測效果,經(jīng)過定標(biāo)—驗(yàn)證—測試三個(gè)環(huán)節(jié)的建模對(duì)比,該方法普遍優(yōu)于常規(guī)PLS的建模預(yù)測。結(jié)果表明,潛變量結(jié)合機(jī)器學(xué)習(xí)聯(lián)合參數(shù)優(yōu)化方法能夠?yàn)镹IR快速檢測技術(shù)提供良好的建模分析手段,有望推廣應(yīng)用于其他類型的咖啡樣本進(jìn)行快速品質(zhì)鑒定。

猜你喜歡
定標(biāo)咖啡光譜
基于三維Saab變換的高光譜圖像壓縮方法
關(guān)于咖啡的9個(gè)真相
我國為世界大豆精準(zhǔn)選種“定標(biāo)”
基于恒星的電離層成像儀在軌幾何定標(biāo)
基于角反射器的機(jī)載毫米波云雷達(dá)外定標(biāo)實(shí)驗(yàn)
咖啡
4m直徑均勻擴(kuò)展定標(biāo)光源
星載近紅外高光譜CO2遙感進(jìn)展
苦味酸與牛血清蛋白相互作用的光譜研究
鋱(Ⅲ)與PvdA作用的光譜研究
涞源县| 安化县| 疏勒县| 舒兰市| 三河市| 吉安市| 阿拉善盟| 镇远县| 富川| 抚顺市| 冕宁县| 宁河县| 朔州市| 静乐县| 文化| 龙泉市| 安国市| 怀安县| 云龙县| 凤凰县| 东山县| 浦城县| 临城县| 昭觉县| 德安县| 高清| 祁门县| 印江| 赤壁市| 东辽县| 宜章县| 星座| 宁波市| 鹤壁市| 吉木萨尔县| 博湖县| 廊坊市| 澳门| 巴楚县| 左云县| 武汉市|