張冬妍,周寶龍,張瑞,韓睿,趙思琦
(東北林業(yè)大學(xué),黑龍江 哈爾濱 150040)
榛子作為四大堅(jiān)果之一,具有很高的營(yíng)養(yǎng)價(jià)值,目前我國(guó)榛子品種主要為平榛和毛榛兩大類,平榛與毛榛廣泛分布于我國(guó)北方各省,榛子果殼呈深褐色,表面光滑,形狀為圓球形,平榛直徑平均為1.44 cm,出仁率約33.3%。榛仁顆粒充實(shí),富含蛋白質(zhì)、脂肪酸、微量元素等營(yíng)養(yǎng)物質(zhì)。但對(duì)其蛋白質(zhì)的檢測(cè)仍以傳統(tǒng)化學(xué)檢測(cè)方法為主,而且化學(xué)檢測(cè)成本高、破壞樣本并且分析重現(xiàn)性差,難以滿足目前無損檢測(cè)的需求。近紅外光譜檢測(cè)技術(shù)作為一種新興的無損檢測(cè)方法已成功地應(yīng)用于水果、肉類等食品檢測(cè),具有快速、便捷、無污染、不破壞樣本等特點(diǎn)[1-4]。因此本文以近紅外光譜檢測(cè)技術(shù)為基礎(chǔ),結(jié)合極限學(xué)習(xí)機(jī)建立預(yù)測(cè)模型,對(duì)榛子的蛋白質(zhì)含量進(jìn)行分析。為榛子內(nèi)部品質(zhì)無損檢測(cè)提供新的方法和途徑。
本次試驗(yàn)選擇產(chǎn)自黑龍江省伊春市的平榛與產(chǎn)自小興安嶺的毛榛為試驗(yàn)樣本。所用光譜儀為德國(guó)INSION公司生產(chǎn)的NIR-NT-spectrometer-OEM-system光譜儀,波長(zhǎng)范圍為900 nm~1 700 nm。光譜采集軟件為海洋光學(xué)公司開發(fā)的spectrasuite軟件。
由于榛子蛋白質(zhì)與脂肪的化學(xué)檢測(cè)要求每組樣本至少20 g,所以挑選出約2 000個(gè)平榛與3 000個(gè)毛榛進(jìn)行去殼取仁,用電子秤進(jìn)行稱重,每20 g榛子仁分為一組,共制備90組毛榛榛子仁樣本和60組平榛榛子仁樣本進(jìn)行試驗(yàn)。
在對(duì)數(shù)據(jù)進(jìn)行采集前,先對(duì)軟件進(jìn)行初始化操作,并進(jìn)行暗、亮光譜校準(zhǔn),首先設(shè)置軟件初始積分時(shí)間為20 ms,平均次數(shù)為5次,將未開啟光源的探頭對(duì)準(zhǔn)校準(zhǔn)白板測(cè)量暗光譜。開啟光源,預(yù)熱20 min左右,將探頭對(duì)準(zhǔn)校準(zhǔn)白板,測(cè)量亮光譜。然后將儀器探頭置于黑盒子中固定好位置,并將待測(cè)榛子仁置于探頭直射光線下,對(duì)吸光度數(shù)據(jù)進(jìn)行采集。采集得到的榛子樣品光譜數(shù)據(jù)存儲(chǔ)在剪切板中,再將數(shù)據(jù)直接粘貼到Excel表格中,將20 g榛子分為一組樣本,以每組樣本中所有榛子的平均光譜作為該組榛子樣本的光譜數(shù)據(jù),最終在Matlab中繪制兩種榛子樣本的光譜圖。
通過凱氏定氮法測(cè)得榛子仁中的含氮量進(jìn)而得到其蛋白質(zhì)的含量,使用該方法進(jìn)行榛子蛋白質(zhì)真實(shí)值測(cè)定,得出真實(shí)值用于與后續(xù)建模預(yù)測(cè)值進(jìn)行比較分析[5-6]。
為了簡(jiǎn)化光譜數(shù)據(jù),通過一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、多元散射校正和標(biāo)準(zhǔn)正態(tài)變量變換預(yù)處理方法對(duì)榛子光譜進(jìn)行預(yù)處理,比較不同預(yù)處理方法的效果,選擇適合榛子光譜的預(yù)處理方式。通過反向間隔偏最小二乘法篩選出適用于蛋白質(zhì)預(yù)測(cè)的特征波段[7-10]。
極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)在結(jié)構(gòu)上與BP神經(jīng)網(wǎng)絡(luò)完全一樣屬于前向型神經(jīng)網(wǎng)絡(luò),而在算法上提出了新的思想。它的經(jīng)典結(jié)構(gòu)為單隱含層,包含一個(gè)輸入層和一個(gè)輸出層。極限學(xué)習(xí)機(jī)的第一層與第二層的連接權(quán)值和隱含層的閾值是隨機(jī)確定的且一旦設(shè)定就不需要調(diào)整,它與BP神經(jīng)網(wǎng)絡(luò)相比減少了一半的學(xué)習(xí)過程,極限學(xué)習(xí)機(jī)的第二層與第三層間的連接權(quán)值同樣不需要迭代訓(xùn)練,而是通過解方程組的方式一次性解出,因此相對(duì)于BP神經(jīng)網(wǎng)絡(luò),極限學(xué)習(xí)機(jī)的學(xué)習(xí)速度明顯更快[8-16]。極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)示意圖Fig.1 Schematic diagram of extreme learning machine
將兩種榛子經(jīng)過一階(1-der)導(dǎo)數(shù)、二階(2-der)導(dǎo)數(shù)、多元散射校正(multiplicative scatter correction,MSC)以及標(biāo)準(zhǔn)變量變換(standard normal variate,SNV)4種不同方法預(yù)處理后的光譜數(shù)據(jù)與原始光譜作為輸入,通過偏最小二乘法建立榛仁蛋白質(zhì)含量預(yù)測(cè)模型。比較不同預(yù)處理對(duì)模型精度產(chǎn)生的影響,本文選擇常用的模型精度評(píng)價(jià)指標(biāo)相關(guān)系數(shù)R、交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)以及預(yù)測(cè)均方根誤差(root mean square error of prediction,RMSEP)來刻畫,得到的榛仁蛋白質(zhì)模型評(píng)價(jià)結(jié)果如表1所示。毛榛與平榛光譜SNV預(yù)處理圖見圖2。
表1 不同預(yù)處理方法建模精度Table 1 Modeling accuracy of different preprocessing methods
經(jīng)過SNV預(yù)處理的毛榛蛋白質(zhì)預(yù)測(cè)模型,R為0.862 1,平榛的蛋白質(zhì)預(yù)測(cè)模型,R為0.860 5,均高于其它預(yù)處理結(jié)果,從圖2也可得出經(jīng)SNV處理的榛仁光譜圖波峰更加明顯。因此選擇SNV作為后續(xù)建模的光譜預(yù)處理方法。
試驗(yàn)原始光譜波長(zhǎng)范圍為900 nm~1 700 nm,輸入變量個(gè)數(shù)為500,將光譜區(qū)間分為20個(gè),每個(gè)區(qū)間包含25個(gè)輸入波長(zhǎng),用經(jīng)過SNV預(yù)處理后的光譜建立榛子蛋白質(zhì)PLS模型,精度RMSECV如表2、表3所示。
圖2 毛榛與平榛光譜SNV預(yù)處理Fig.2 Spectrum and flat hazel SNV pretreatment
表2 毛榛蛋白質(zhì)模型BiPLS特征選擇過程Table 2 BiPLS feature selection process of hair hazel protein model
表3 平榛蛋白質(zhì)模型BiPLS特征選擇過程Table 3 BiPLS feature selection process of flat hazel protein model
由表2、表3可得,毛榛光譜當(dāng)淘汰掉6號(hào)光譜區(qū)間時(shí),偏最小二乘模型的RMSECV為最小值0.581 0,這時(shí)蛋白質(zhì)預(yù)測(cè)模型淘汰的區(qū)間數(shù)為15,剩余的5個(gè)區(qū)間為最終特征選擇的結(jié)果:2、4、13、14、16,模型中變量數(shù)為125,平榛光譜淘汰掉13號(hào)光譜區(qū)間時(shí),偏最小二乘模型的RMSECV取最小值0.583 2,剩余4個(gè)最終特征選擇結(jié)果:2、4、12、14。結(jié)果表明兩種榛子具有相似的特征區(qū)間,波段選擇如圖3所示。
圖3 毛榛與平榛蛋白質(zhì)模型波段選擇Fig.3 Selection of protein bands for hair hazel and flat hazel protein
圖3中陰影部分表示選出的特征波段,用BiPLS選出的特征變量建立毛榛與平榛蛋白質(zhì)預(yù)測(cè)模型,模型精度相對(duì)較高??梢缘贸鰞煞N榛子的預(yù)測(cè)集的相關(guān)系數(shù)R與預(yù)測(cè)均方根誤差RMSEP分別為0.880 6和0.599 3,0.882 3 和 0.598 4。
以matlab為建模平臺(tái),激活函數(shù)選擇s函數(shù),當(dāng)隱含層神經(jīng)元個(gè)數(shù)等于訓(xùn)練樣本數(shù)時(shí)可以達(dá)到零誤差,因此設(shè)定神經(jīng)元個(gè)數(shù)為15,并以5為間隔增加到60。將60組毛榛與40組平榛校正集樣本光譜經(jīng)過BiPLS選擇的125與100個(gè)特征波長(zhǎng)作為輸入,校正集榛子樣本蛋白質(zhì)含量作為輸出。建立預(yù)測(cè)模型。得出隱含層神經(jīng)元個(gè)數(shù)從15變化到60的過程中,兩種榛子訓(xùn)練集的均方根誤差都不斷減小,而預(yù)測(cè)集的均方根誤差先減小再大幅度增大,當(dāng)隱含層神經(jīng)元個(gè)數(shù)為45時(shí)毛榛達(dá)到最小值0.40,平榛同樣達(dá)到最小值0.39,故取隱含層神經(jīng)元個(gè)數(shù)為45建立兩種榛子蛋白質(zhì)預(yù)測(cè)模型。取毛榛樣本30組和平榛20組測(cè)試集的預(yù)測(cè)結(jié)果如圖4和圖5所示。
圖4 極限學(xué)習(xí)機(jī)預(yù)測(cè)毛榛蛋白質(zhì)含量結(jié)果Fig.4 Results of extreme learning machine predicting protein content of hair hazel
圖5 極限學(xué)習(xí)機(jī)預(yù)測(cè)平榛蛋白質(zhì)含量結(jié)果Fig.5 Results of extreme learning machine prediction of flat hazel protein content
從蛋白質(zhì)含量預(yù)測(cè)結(jié)果圖分析可得出毛榛與平榛預(yù)測(cè)均方根誤差RMSEP分別為0.397與0.377,相關(guān)系數(shù)R分別為0.953與0.950,由此可知模型精確度很高。
本文基于近紅外光譜檢測(cè)技術(shù),結(jié)合極限學(xué)習(xí)機(jī)建模方法進(jìn)行了榛子蛋白質(zhì)的無損檢測(cè),利用一階求導(dǎo)、二階求導(dǎo)、SNV和MSC處理毛榛與平榛的原始光譜,求導(dǎo)處理在消除基線漂移的同時(shí)也會(huì)增加噪聲,MSC處理后能夠凸顯出光譜變化規(guī)律,SNV相比于MSC對(duì)每條光譜逐一進(jìn)行處理且不會(huì)產(chǎn)生噪聲,對(duì)毛榛與平榛原始光譜進(jìn)行SNV處理效果皆為最好。用BiPLS法分別對(duì)平榛與毛榛的蛋白質(zhì)建模進(jìn)行特征提取,將原始光譜劃分為20個(gè)區(qū)間,最后篩選出適合毛榛蛋白質(zhì)建模的5個(gè)區(qū)間,適合平榛蛋白質(zhì)建模的4個(gè)區(qū)間,減少了建模輸入量同時(shí)提高了模型的精度。應(yīng)用極限學(xué)習(xí)機(jī)建立預(yù)測(cè)模型相關(guān)系數(shù)大于0.95。應(yīng)用此種方法為榛子蛋白質(zhì)含量的預(yù)測(cè)提供了新的有效的途徑。