仇遜超 張春越 張怡卓 曹軍
摘要: 為研究檢測紅松籽仁蛋白質(zhì)含量的近紅外光譜分析技術,在用變量標準化校正+一階導數(shù)+小波變換對原始光譜進行預處理的基礎上,分別運用主成分分析、改進型局部線性嵌入、局部切空間對齊、黑塞特征映射進行光譜數(shù)據(jù)的降維處理,分別構(gòu)建偏最小二乘、嶺回歸、支持向量回歸、極度梯度提升數(shù)學模型。結(jié)果表明,改進型局部線性嵌入+支持向量回歸法建立的參數(shù)優(yōu)化模型質(zhì)量最佳。其降維方法優(yōu)化參數(shù)為:維度取4,鄰域數(shù)取50;驗證集均方差均值為0.568 1,驗證集皮爾遜相關系數(shù)均值達0.940 8??梢?,模型的預測結(jié)果是可靠的,能夠?qū)崿F(xiàn)對紅松籽仁蛋白質(zhì)含量的無損、準確檢測。
關鍵詞: 紅松籽仁;蛋白質(zhì);流形學習;近紅外光譜
中圖分類號: TS255.6 文獻標識碼: A 文章編號: 1000-4440(2023)01-0246-09
Application of manifold learning in quantitative detection of protein in Korean pine seed kernels using near-infrared quantitative detection
QIU Xun-chao1,2, ZHANG Chun-yue1, ZHANG Yi-zhuo2, CAO Jun2
(1.Department of Computer Engineering, Harbin Finance University, Harbin 150030, China;2.College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract: To study the near-infrared spectroscopy for protein content detection in Korean pine seed kernels, principal components analysis (PCA), modified locally linear embedding (MLLE), local tangent space alignment (LTSA) and Hessian based locally linear embedding (HLLE) were used separately to reduce dimensions of the spectroscopic data, based on pretreatment of the original spectrum by standard normalized variate (SNV)+first derivative (1st-Der)+Symlet4 (SNV+1st-Der+Sym4) method. Partial least square (PLS), ridge regression (Ridge), support vector regression (SVR) and extreme gradient boosting (XGBoost) were adopted separately to establish mathematical models. The results showed that, the quality of the parameter optimization model established by MLLE+SVR method was the best. The optimized parameters for dimension reducing were as follows: the dimension (n-components) was four, the neighborhood number (n-neighbors) was 50, the mean value of mean squared error of validation (mean-MSEV) was 0.568 1, and the mean value of Pearson correlation coefficient of validation (mean-PCCV) was 0.940 8. Therefore, the prediction results of the model is reliable, and non-destructive, accurate and quantitative detection of protein in Korean pine seed kernels can be realized.
Key words: Korean pine seed kernel;protein;manifold learning;near-infrared spectroscopy
紅松籽是紅松的種子,主要產(chǎn)于中國北方地區(qū),紅松籽市場需求旺盛,供不應求,紅松籽產(chǎn)業(yè)是促進農(nóng)林增收、拉動東北三省地區(qū)經(jīng)濟快速發(fā)展的重要產(chǎn)業(yè)之一。紅松籽仁味道鮮香,蛋白質(zhì)含量高,其總氨基酸中必需氨基酸占1/4,是優(yōu)質(zhì)的植物蛋白,能為人體提供豐富的營養(yǎng),紅松籽仁中蛋白質(zhì)的定量研究是植物種子營養(yǎng)成分和新舊判別的重要指標。傳統(tǒng)的凱式定氮蛋白質(zhì)定量法,是將樣品與硫酸銅和硫酸鉀混合溶液及濃硫酸揮發(fā)性溶劑進行融合的破壞性化學分析方法,其測試過程繁瑣、耗時長、會產(chǎn)生刺激氣體,危害檢測人員身體健康的同時,也無法滿足大規(guī)模測試和生產(chǎn)的需要。因此,非破壞性、快速、簡便、準確、綠色的近紅外光譜分析技術近年來被應用到堅果中蛋白質(zhì)的定量檢測研究中[1-3]。
在紅松籽仁蛋白質(zhì)近紅外檢測方面,前人開展的研究較少。蔣大鵬等[4]通過構(gòu)建的支持向量機模型,對紅松籽仁的蛋白質(zhì)品質(zhì)進行了分類。仇遜超等[5]前期運用無信息變量消除法、反向間隔偏最小二乘法,通過波段篩選建立了紅松籽仁蛋白質(zhì)偏最小二乘近紅外模型。全波段范圍內(nèi)包含的數(shù)據(jù)信息量大,且存在冗余信息,除采用波段篩選方法外,還可以采用降維方法來提高建模的效率和準確性。傳統(tǒng)的降維方法主要是通過主成分分析的線性變化來實現(xiàn),線性降維由于受到技術限制,在映射到低維空間的過程中無法很好地反映高維空間中的非線性信息[6]。非線性降維方法分支中的流形學習,其核心思想是高維歐式復雜空間的模型是由其內(nèi)在的低維流行模型生成的,因而降維為低維數(shù)據(jù)模型后,可以更好地反映映射關系,發(fā)掘低維特征,保證非線性信息的保留。
本研究在對原始光譜數(shù)據(jù)進行變量標準化校正+一階導數(shù)+小波變換的預處理基礎上,進一步利用主成分分析、改進型局部線性嵌入、局部切空間對齊、黑塞特征映射進行降維處理,以近紅外技術中最為廣泛采用的偏最小二乘為定標模型[7],比對嶺回歸、支持向量回歸、極度梯度提升的建模結(jié)果,探索不同降維、不同建模方法對紅松籽仁蛋白質(zhì)定量檢測精度的影響,以期找到最優(yōu)的降維和建模方法,構(gòu)建質(zhì)量較優(yōu)的近紅外模型,實現(xiàn)對紅松籽仁蛋白質(zhì)的準確、無損定量檢測。
1 材料與方法
1.1 材料
紅松籽樣品購買于涼水國家級自然保護區(qū),于當年采摘。對紅松籽進行手工去殼脫紅衣,并隨機選取完整的120粒作為樣品,將每個紅松籽仁樣品分別放入貼有1~120編號標簽的密封袋中。另隨機選取完整的20粒紅松籽仁樣品,用于建模后對模型的測試。將上述樣品置于恒濕恒溫(相對濕度和溫度分別為50%~60%、-1~2 ℃)的陰涼處保存。
1.2 方法
1.2.1 近紅外光譜數(shù)據(jù)的采集 近紅外光譜采集系統(tǒng)如圖1所示。經(jīng)過查閱相關文獻發(fā)現(xiàn),光譜波長范圍為950~1 700 nm時,包含的信息可以較理想地滿足本研究需求[8-9]。本研究采用德國INSION公司的NIR-NT-spectrometer-OEM-system微型近紅外光纖光譜儀,光譜適用波長范圍為900~1 700 nm,光譜分辨率在16 nm以下,具有抗震性和高集成性。鹵素燈光源工作電壓為24 V。在進行紅松籽仁近紅外光譜數(shù)據(jù)采集前,保持環(huán)境溫度在26 ℃左右,將樣品靜置在該環(huán)境下24 h以上。為使近紅外光譜儀處于穩(wěn)定的工作狀態(tài),將其打開預熱15 min左右。設定儀器參數(shù),其中,光譜儀積分時間設置為30 ms,平均掃描次數(shù)設置為3次。將探頭放入操作臺底端的孔洞內(nèi),保持探頭與樣品距離在3 mm左右,固定光纖。掃描紅松籽仁光譜數(shù)據(jù)時,將倒卵狀三角形的紅松籽仁平滑腹部置于探頭上,以實現(xiàn)光源的完全遮擋。
1.2.2 傳統(tǒng)蛋白質(zhì)的定量測定 紅松籽仁蛋白質(zhì)的定量測定參考GB 5009.5-2010《食品安全國家標準 食品中蛋白質(zhì)的測定》中的凱式定氮法。
2 結(jié)果與分析
2.1 紅松籽仁漫反射近紅外光譜分析
圖2為獲取到的紅松籽仁近紅外原始光譜圖像,實際采集的光譜波長范圍為906.90~1 699.18 nm,掃描間隔為6.83 nm。
蛋白質(zhì)是由氨基酸以“脫水縮合”的方式組成的多肽鏈,主要由碳(C,50%)、氫(H,7%)、氧(O,23%)、氮(N,16%)元素組成,具有一級、二級、三級、四級結(jié)構(gòu),分子中有O-H、C-H、N-H含氫基團。圖2中1 400 nm附近和1 550 nm附近的明顯吸收峰為一級胺基(-NH2)組合頻吸收峰和一級胺基與亞氨基(-NH)的倍頻吸收峰[10],1 100~1 200 nm附近的強烈吸收峰為C-H基團二級倍頻吸收峰[11],1 690 nm附近的微弱吸收峰為C-H基團一級伸縮振動吸收峰[12]。蛋白質(zhì)N-H標志性基團的一倍頻和二倍頻吸收峰分別分布在1 428~1 700 nm、1 000~1 428 nm[13]。由此可知,本研究選定的光譜范圍可以表征紅松籽仁的蛋白質(zhì)特征。
2.2 訓練集與驗證集的切分
紅松籽仁樣品蛋白質(zhì)含量分布情況如圖3所示,中位數(shù)為16.06%,標準差為2.46%,虛線內(nèi)樣品數(shù)占總樣品數(shù)的72.50%,蛋白質(zhì)含量為12.79%~24.98%,分散差異較大,且基本覆蓋了紅松籽仁蛋白質(zhì)含量常規(guī)分布范圍,表明試驗樣品合理,符合后續(xù)的模型建立要求。
為了測試本研究構(gòu)建模型的可靠性和穩(wěn)定性,對訓練集與驗證集按照4∶1的比例進行10次不同切分。為了保證每次切分結(jié)果的可重復性,通過為隨機種子分配10個固定取值,使得10次切分結(jié)果與該10個固定取值分別對應,進而保證每次切分結(jié)果是可重復的。分別在不同的訓練集上,進行10次近紅外紅松籽仁蛋白質(zhì)定量模型的建立,以10次模型的平均評價指標來評價模型。10次切分結(jié)果如表1所示。
觀察切分結(jié)果,發(fā)現(xiàn)10次切分的結(jié)果均不相同,并且每次切分后訓練集蛋白質(zhì)含量覆蓋范圍均大于驗證集,說明10個紅松籽仁訓練集樣品所建立的模型可以較好地適用于相應的驗證集樣品。
2.3 光譜預處理
原始光譜由于受到采樣環(huán)境、采集方式等影響,存在信噪比低、發(fā)生散射變化等現(xiàn)象,此外還發(fā)現(xiàn)原始光譜圖像存在較大方差、吸收寬度分散的現(xiàn)象,所以需要進行光譜預處理[14]。
在漫反射式光譜數(shù)據(jù)采集的過程中,由于紅松籽仁顆粒度不均勻,會使得光譜數(shù)據(jù)因散射影響而產(chǎn)生差異,采用變量標準化校正(SNV)可以進行有效校正[15]。光譜信息中吸收寬度存在重疊現(xiàn)象,會互相干擾,影響模型的穩(wěn)健性,因此在SNV預處理的結(jié)果上進行一階導數(shù)(1st-Der)處理[16]。光譜求導后會提高噪聲水平,降低信噪比,因此進一步進行小波變換平滑處理。近似對稱的緊支集正交小波(SymN)被實踐證明在近紅外濾波方面十分有效,SymN具備較好的正則性,作為一種對稱小波,在對信號進行分析和重構(gòu)時能夠減少相位失真[17]。因此,采用Sym4小波基函數(shù)進行2尺度分解來進行平滑處理。經(jīng)過SNV+1st-Der+Sym4預處理后的光譜圖像如圖4所示,隨機選取1條濾波前后的光譜曲線,并將濾波后的光譜曲線向上平移一段距離,進行直觀的對比觀察。由圖5可知,經(jīng)Sym4小波變換處理后,光譜曲線去掉了一些毛躁噪聲,變得較為平滑。
2.4 光譜數(shù)據(jù)的降維與建模
全光譜波長范圍內(nèi)的信息量大,含有與需求無關的信息,會降低建模效率,還會影響模型精準度。對數(shù)據(jù)進行降維處理后,可以保留有用信息,降低構(gòu)建定量模型的學習復雜程度。采用經(jīng)典的線性主成分分析(PCA)[18]及非線性流形學習中的改進型局部線性嵌入(MLLE)、局部切空間對齊(LTSA)、黑塞特征映射(HLLE)降維方法,對經(jīng)過預處理的光譜數(shù)據(jù)進行降維處理。為了研究不同建模方法對紅松籽仁蛋白質(zhì)定量預測模型的影響,進一步分別運用嶺回歸(Ridge)[19]、支持向量回歸(SVR)[20]、極度梯度提升(XGBoost)[21]方法構(gòu)建紅松籽仁蛋白質(zhì)定量模型,并以偏最小二乘法(PLS)建立的模型為定標,根據(jù)模型的評價指標確定最佳的降維和建模方法。
局部線性嵌入(LLE)[22]的中心思想是,找到每個數(shù)據(jù)點的原始高維領域線性關系,即假設高維空間數(shù)據(jù)點Xi的鄰域線性關系表達式為:
Xi=ωihXh+ωikXk+ωilXl(1)
其中,ωih、ωik、ωil為權(quán)重系數(shù),在經(jīng)過LLE降維處理后,在低維空間這種線性關系表達得到同樣的保持。權(quán)重系數(shù)(ωij)可以通過式(2)求?。?/p>
其中,Q(i)表示數(shù)據(jù)點Xi的k個鄰域數(shù)據(jù)點集合,m表示樣本個數(shù)。
低維空間數(shù)據(jù)點yi通過式(3)求取:
LLE只需確定鄰域數(shù),即可完成降維操作,但其存在當鄰域數(shù)大于輸入數(shù)據(jù)的維度時,權(quán)重系數(shù)矩陣不是滿秩的情況,為了解決類似問題,衍生出了MLLE、LTSA和HLLE方法。MLLE方法不僅尋找最近距離的鄰域數(shù),還對鄰域的分布權(quán)重進行度量,以期使鄰域的分布權(quán)重盡量在樣本的各個方向。LTSA方法用樣本點的近鄰區(qū)域的切空間來表示局部幾何結(jié)構(gòu),然后對局部切空間進行重新排列,得到非線性流形的、用自然參數(shù)刻畫的低維線性關系。HLLE方法不是通過線性關系來構(gòu)建鄰域內(nèi)的樣本,而是依據(jù)黑森矩陣的二次型關系展開構(gòu)建。
降維方法對建模效果的影響會因其參數(shù)的不同取值而有所差別,因此需要優(yōu)化降維方法的參數(shù),進而建立高質(zhì)量的紅松籽仁蛋白質(zhì)定量數(shù)學模型。
PCA需要確定方差累計貢獻率(n-contribution)的最優(yōu)取值,一般要求累積貢獻率達到85%以上,因而其參數(shù)取值情況為:n-contribution=[0.86,0.88,0.90,0.92,0.94,0.96,0.98,0.99]。MLLE、LTSA和HLLE方法需要對鄰域數(shù)(n-neighbors)和維度(n-components)進行最優(yōu)值的選取,n-neighbors越大,算法的復雜度會增加,建立樣本局部關系的時間會越長,但降維后樣本的局部關系會保持得更好。此外n-neighbors最大取值不能超過紅松籽仁訓練集樣品個數(shù)。MLLE方法要求n-neighbors>n-components,HLLE方法要求n-neighbors>n-components×(n-components+3)/2,因此將MLLE、LTSA方法參數(shù)取值情況設置為:n-neighbors=[20,30,40,50,60,70,80,90]、n-components=[3,4,6,8,10,12,14,16,18];HLLE參數(shù)的設定分為以下幾種情況,當n-components=[3,4]時,n-neighbors=[20,30,40,50,60,70,80,90];當n-components=6時,n-neighbors=[30,40,50,60,70,80,90];當n-components=8時,n-neighbors=[50,60,70,80,90];當n-components=10時,n-neighbors=[70,80,90]。
為了構(gòu)建出一個高質(zhì)量的PLS定標模型,需要對PLS主成分數(shù)(n-components)進行確定,根據(jù)方差累計貢獻率為86%~99%的需求,主成分數(shù)取值范圍為[3,4,5,6,7,8,9,10,11,12,13,14,15]。根據(jù)比對10次不同切分出的10個驗證集均方差(MSEV)的均值(mean-MSEV),確定最優(yōu)的主成分數(shù),比對結(jié)果如圖6所示。
需要說明的是,mean-MSEV越小,擬合效果越好。由圖6可知,當主成分數(shù)為5個時,PLS模型質(zhì)量最優(yōu),其mean-MSEV為1.150 7,驗證集皮爾遜相關系數(shù)(PCCV)均值(mean-PCCV)為0.889 8,mean-PCCV越接近1越好。由定標模型可知,采用近紅外光譜技術對紅松籽仁蛋白質(zhì)進行定量分析是可行的,結(jié)果是可靠的。
分別在全波段、光譜降維范圍下構(gòu)建紅松籽仁蛋白質(zhì)的Ridge、SVR、XGBoost、PCA+Ridge、PCA+SVR、PCA+XGBoost、MLLE+Ridge、MLLE+SVR、MLLE+XGBoost、LTSA+Ridge、LTSA+SVR、LTSA+XGBoost、HLLE+Ridge、HLLE+SVR、HLLE+XGBoost數(shù)學模型,并對降維方法進行參數(shù)優(yōu)化。為了測試模型的穩(wěn)定性,每個模型在10次不同切分出的10個訓練集上進行模型構(gòu)建,通過對比10次建模的mean-MSEV,進而確定降維、建模的選取方法,并找到相應降維方法的最優(yōu)參數(shù)。10次建模的mean-MSEV對比情況如圖7、圖8所示。
由圖7可知,不同建模方法構(gòu)建出的模型質(zhì)量不同,在全波段范圍內(nèi)XGBoost模型質(zhì)量最佳,其mean-MSEV為2.952 5,SVR模型質(zhì)量次佳,SVR與XGBoost均為非線性模型,而Ridge屬于線性模型,這說明紅松籽仁光譜數(shù)據(jù)中,包含了對蛋白質(zhì)定量分析建模有用的非線性信息。此外,由于PLS在建模過程中進行了PCA降維處理,去除了冗余信息,因此其模型質(zhì)量與全波段范圍下Ridge、SVR、XGBoost模型相比更佳。
由圖8可知,與全波段構(gòu)建的模型相比(圖7),經(jīng)過降維處理后模型的質(zhì)量均有所提升。其中,4種降維方法對XGBoost模型質(zhì)量的提升效果沒有其他2種建模方法明顯,這是由于XGBoost對數(shù)據(jù)維度的敏感度相對較弱。進一步以表格(表2)形式更清晰地比較各最優(yōu)參數(shù)模型。
需要說明的是,由于10次切分出的訓練集不同,因而依照方差累計貢獻率的PCA降維方法,在不同訓練集上降維后的維度不同。
由表2可知,與PLS最優(yōu)參數(shù)定標模型相比,其余最優(yōu)參數(shù)模型的質(zhì)量均更佳。此外,整體上非線性降維方法對模型質(zhì)量的提升效果優(yōu)于線性降維方法。這是因為,一方面經(jīng)典的PCA線性降維方法,當數(shù)據(jù)具有較復雜的非線性結(jié)構(gòu)時,只是簡單地將數(shù)據(jù)投射到低維空間中,會導致非線性信息的丟失;另一方面,PCA是關注數(shù)據(jù)方差的降維方法,而MLLE、LTSA、HLLE是關注數(shù)據(jù)局部線性關系的非線性降維方法,在降維時保持了數(shù)據(jù)的局部線性特征。
相同建模方法采用MLLE、LTSA、HLLE不同降維方法后,構(gòu)建的模型質(zhì)量相近但又略有不同。這是由于MLLE、LTSA、HLLE三種降維方法的原理均基于LLE降維方法,只是在低維數(shù)據(jù)進行恢復時遵循的優(yōu)化原理不同。其中,SVR建模方法經(jīng)MLLE最優(yōu)參數(shù)降維、XGBoost建模方法經(jīng)LTSA最優(yōu)參數(shù)降維后,構(gòu)建的模型質(zhì)量最佳,mean-MSEV分別為0.568 1、0.943 1;Ridge建模方法經(jīng)LTSA、HLLE最優(yōu)參數(shù)降維后,構(gòu)建出了質(zhì)量相當?shù)淖顑?yōu)預測模型,mean-MSEV均為1.049 4。
采用經(jīng)過參數(shù)優(yōu)化的PCA、MLLE、LTSA、HLLE降維方法后,SVR法構(gòu)建的模型質(zhì)量均優(yōu)于其他建模方法,其中MLLE+SVR模型質(zhì)量最佳,其10個驗證集上的MSEV分別為0.798 6、0.512 8、0.415 9、0.550 5、0.673 1、0.327 4、0.550 9、0.511 2、0.778 5、0.562 3,mean-MSEV為0.568 1,mean-PCCV達0.940 8,最優(yōu)參數(shù)的取值為:n-components=4,n-neighbors=50。
2.5 MLLE數(shù)據(jù)降維可視化
為了比較直觀地觀察MLLE降維處理后對紅松籽仁光譜特征性峰與形態(tài)提取等的影響,同時為了測試降維結(jié)果的可靠性和穩(wěn)定性,在10次不同訓練集與驗證集切分結(jié)果的基礎上,隨機選取2個訓練集,并對往年53粒紅松籽仁樣品進行光譜信息的獲取,在預處理的基礎上,將光譜數(shù)據(jù)降至二維,以散點圖的形式進行可視化展示。圖9為隨機選取的2個訓練集與往年紅松籽仁樣品降維數(shù)據(jù)的散點圖。
觀察圖9發(fā)現(xiàn),紅松籽仁近紅外光譜數(shù)據(jù)經(jīng)過MLLE降維處理后,試驗當年與往年的樣品數(shù)據(jù)點形成了較明顯的兩簇,且簇間幾乎無交叉現(xiàn)象。
2.6 MLLE+SVR模型的測試
采用最優(yōu)參數(shù)的MLLE+SVR模型,對用于測試的20粒紅松籽仁樣品蛋白質(zhì)含量進行定量預測。此外,為了測試MLLE+SVR模型的適用性,進一步對往年30粒紅松籽仁樣品進行蛋白質(zhì)含量的定量預測,其中往年MLLE降維方法的最優(yōu)參數(shù)為:n-components=4,n-neighbors=50。
由圖10可知,實測值與預測值均比較均勻地分布在45°線兩側(cè)。進一步計算實測值與預測值間的平均絕對誤差(MAE),來評估預測值和實測值間的接近程度,從而對預測結(jié)果的準確程度進行描述。MAE的計算公式為:MAE=1n∑ni=1xi-yi。其中,xi、yi分別表示第i粒紅松籽仁樣品蛋白質(zhì)含量的實測值和預測值。整體上,紅松籽仁樣品的實測值與預測值MAE=0.50%,表明預測結(jié)果具有可靠性和準確性,而試驗當年與往年紅松籽仁樣品的MAE分別為0.37%、0.59%。往年預測結(jié)果的準確性略低,這是由于最佳降維及建模方法是在當年紅松籽仁樣品的基礎上確定的,但仍可很理想地實現(xiàn)對往年紅松籽仁樣品蛋白質(zhì)含量的預測,這在一定程度上表明該MLLE+SVR模型的適用性。
3 討論
本研究利用NIR-NT便攜式近紅外光譜儀,通過在900~1 700 nm波長范圍內(nèi)獲取的紅松籽仁光譜數(shù)據(jù),開展了紅松籽仁蛋白質(zhì)定量無損檢測試驗。在訓練集與驗證集劃分的過程中,進行了10次不同的切分,分別在10個不同的訓練集上進行模型的建立,通過10個模型的平均評定指標來評價模型,保障了所建模型的穩(wěn)定性和可靠性。采用降維方法對光譜數(shù)據(jù)進行降維處理,可以提升模型的評價指標,表明光譜降維在模型訓練中具有重要作用,并且非線性降維方法由于可以更好地保留非線性信息,與線性降維方法相比,可以更好地優(yōu)化模型質(zhì)量。運用不同建模方法構(gòu)建預測模型,結(jié)果會存在很大差異,只有選取合適的建模方法才能構(gòu)建出高質(zhì)量的近紅外模型。降維方法參數(shù)的取值也會影響模型的預測結(jié)果,參數(shù)優(yōu)化可以有效地提高模型預測的準確性。試驗結(jié)果表明:(1)經(jīng)過SNV+1st-Der+Sym4預處理后的光譜數(shù)據(jù)分散程度得到降低,同時也抑制了部分噪聲信息,光譜數(shù)據(jù)變得較為平滑。(2)經(jīng)過參數(shù)優(yōu)化的MLLE+SVR模型,構(gòu)建的紅松籽仁蛋白質(zhì)定量預測模型質(zhì)量最優(yōu),降維方法優(yōu)化參數(shù)取值為:n-components=4,n-neighbors=50,mean-MSEV為0.568 1,mean-PCCV達0.940 8。(3)運用最優(yōu)參數(shù)模型,對選取的試驗當年20粒紅松籽仁樣品進行蛋白質(zhì)定量預測,比較預測結(jié)果與化學實測結(jié)果,得到MAE=0.43%;進一步用MLLE+SVR模型,對往年30粒紅松籽仁樣品進行蛋白質(zhì)定量預測,其中往年MLLE降維方法的優(yōu)化參數(shù)為:n-components=4,n-neighbors=50,得到MAE=0.43%。由此可見,采用本研究方法對紅松籽仁蛋白質(zhì)進行定量分析是可行的,該MLLE+SVR模型具有一定的適用性,并且預測結(jié)果是可靠的、穩(wěn)定的。
參考文獻:
[1] 馬文強,張 漫,李忠新,等. 基于近紅外光譜的核桃仁蛋白質(zhì)含量檢測分析[J].農(nóng)業(yè)機械學報,2017,48(S1):407-411.
[2] 劉 潔,李小昱,王 為,等. 基于近紅外光譜的板栗蛋白質(zhì)檢測方法研究[C]//汪慰華,朱 明,傅澤田,等. 中國農(nóng)業(yè)工程學會2011年學術年會論文集. 重慶:中國農(nóng)業(yè)工程學會,2011:1653-1656.
[3] 汪慶平,黎其萬,董寶生,等. 近紅外光譜法快速測定山核桃品質(zhì)性狀的研究[J].西南農(nóng)業(yè)學報,2009,22(3):873-875.
[4] 蔣大鵬,張冬妍,李丹丹,等. 基于近紅外的松子蛋白質(zhì)品質(zhì)分類處理[J].計算技術與自動化,2018,37(3):180-184.
[5] 仇遜超,曹 軍. 近紅外光譜波段優(yōu)化在東北松子蛋白質(zhì)定量檢測中的應用[J].現(xiàn)代食品科技,2016,32(11):303-309.
[6] 劉麗娜,馬世偉,芮 玲. 基于可信賴性和連續(xù)性的流形降維效果評價方法[J].計算機應用研究,2018,35(6):1707-1711.
[7] 黃建軍,李雪梅,滕宏泉. 基于偏最小二乘法的黃土濕陷性評價模型[J].災害學,2021,36(2):60-64.
[8] 趙思夢,于宏威,高冠勇,等. 花生蛋白組分及其亞基含量近紅外分析檢測方法[J].光譜學與光譜分析,2021,41(3):912-917.
[9] 方 彥,王漢寧. 近紅外光譜法在玉米粗蛋白含量測定研究中的應用[J].甘肅農(nóng)業(yè)大學學報,2004,39(1):32-35.
[10]邵學廣,寧 宇,劉鳳霞,等. 近紅外光譜在無機微量成分分析中的應用[J].化學學報,2012,70(20):2190-2114.
[11]王培培,張德全,陳 麗,等. 近紅外光譜法預測羊肉化學成分的研究[J].核農(nóng)學報,2012,26(3):500-504.
[12]TSENKOVA R, KOVACS Z, KUBOTA Y. Aquaphotomics: near infrared spectroscopy and water states in biological systems[J]. Subcell Biochem,2015,71:189-210.
[13]曹 璞,潘 濤,陳星旦. 小型近紅外玉米蛋白質(zhì)成分分析儀器設計的波段選擇[J].光學精密工程,2007,15(12):1952-1958.
[14]TSUCHIKAWA S, KOBORI H. A review of recent application of near infrared spectroscopy to wood science and technology[J]. Journal of Wood Science,2015,61(3):213-220.
[15]張怡卓,蘇耀文,李 超,等. 蒙古櫟抗彎彈性模量多模型共識的近紅外檢測方法[J].林業(yè)工程學報,2016,1(6):17-22.
[16]張 銀,周孟然. 然近紅外光譜分析技術的數(shù)據(jù)處理方法[J].紅外技術,2007,29(6):345-348.
[17]TIAN H, LI M, WANG Y, et al. Optical wavelength selection for portable hemoglobin determination by near-infrared spectroscopy method[J]. Infrared Physics and Technology, 2017,86:98-102.
[18]CORTES V, RODRIGUEZ A, BLASCO J, et al.Prediction of the level of astringency in persimmon using visible and near-infrared spectroscopy[J]. Journal of Food Engineering,2017,204(7):27-37.
[19]張素蘭,黃金龍,秦 林,等. 基于高光譜特征的松材線蟲嶺回歸估測模型研究[J].農(nóng)業(yè)機械學報,2019,50(4):196-202.
[20]沈廣輝,曹瑤瑤,劉 馨,等. 近紅外高光譜成像結(jié)合特征波長篩選識別小麥赤霉病癟粒[J].江蘇農(nóng)業(yè)學報,2021,37(2):509-516.
[21]曹立源,范勤勤,黃敬英. 基于特征選擇和XGBoost優(yōu)化的術中低體溫預測[J].數(shù)據(jù)采集與處理,2022,37(1):134-146.
[22]LOPEZ E, GONZALEZ D, AGUADO J V, et al. A manifold learning approach for integrated computational materials engineering[J]. Archives of Computational Methods in Engineering, 2018,25(1):59-68.
(責任編輯:張震林)