国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于近紅外的松子蛋白質(zhì)品質(zhì)分類處理

2018-12-10 12:12:56蔣大鵬張冬妍李丹丹曹軍
關(guān)鍵詞:松子支持向量機(jī)蛋白質(zhì)

蔣大鵬 張冬妍 李丹丹 曹軍

摘 要:為了探索松子基于近紅外光譜的無(wú)損品質(zhì)分類。建立松子蛋白質(zhì)品質(zhì)的分類數(shù)學(xué)模型。采用近紅外測(cè)量獲取松子光譜數(shù)據(jù),運(yùn)用SMO-SVM、Pegasos-SVM與LS-SVM方法建立松子蛋白質(zhì)分類相關(guān)性模型,并對(duì)相應(yīng)驗(yàn)證集上的數(shù)據(jù)進(jìn)行預(yù)測(cè)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明支持向量機(jī)精準(zhǔn)率略高,但耗費(fèi)時(shí)間比LS-SVM與Pegasos-SVM多。研究中所建模型均能達(dá)到一定程度上的良好分類,精準(zhǔn)度均達(dá)到80%以上,可有效實(shí)現(xiàn)依據(jù)近紅外光譜數(shù)據(jù)預(yù)測(cè)松子蛋白質(zhì)含量等級(jí)的目的。此模型對(duì)于其他干果類食品的等級(jí)品質(zhì)分類具有一定的實(shí)踐指導(dǎo)意義與應(yīng)用價(jià)值。

關(guān)鍵詞:松子;近紅外;支持向量機(jī);蛋白質(zhì)

中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract: In order to explore the non-destructive quality classification of pine nuts based on near-infrared.Establishment of classification mathematical model of protein quality.Measuring the near infrared spectrum data acquired pine nuts.The support vector machine and the least squares support vector machine were used to establish the correlation model of pine nut protein classification,and the data on the corresponding verification set were predicted and verified.The experimental results of SMO-SVM show that the precision of support vector machine was slightly higher,but it takes more than one third of the least squares support vector machine.The accuracy of the model was 80% or more,which can effectively achieve the purpose of predicting the protein content of pine nuts based on near infrared spectroscopy data.This model has certain practical significance and application value for the grade quality classification of other dried fruit.

Key words: pine nuts;near infrared;support vector machine;protein

1 引 言

松子(Pinus koraiensis Sieb.et Zucc)是一種營(yíng)養(yǎng)成分很高的食品,有極高的食用價(jià)值與藥用價(jià)值,是東北三省對(duì)外重要特產(chǎn)之一。但在松子的無(wú)損處理、產(chǎn)品分級(jí)方面,一直采用原始低效的分級(jí)方法。傳統(tǒng)的松子外部品質(zhì)等級(jí)劃分多采用人工分選或機(jī)械振動(dòng)篩選方法實(shí)現(xiàn)。人工分級(jí)勞動(dòng)強(qiáng)度大,工作者主觀經(jīng)驗(yàn)影響較大:震動(dòng)篩選噪聲大,功耗大,并且分級(jí)精準(zhǔn)度不高,且會(huì)產(chǎn)生磕碰損傷。因此建立一種快速,準(zhǔn)確,安全,非破壞性的松子品質(zhì)分級(jí)檢測(cè)系統(tǒng),是十分重要的。而近紅外光譜技術(shù)恰好是快速,準(zhǔn)確非破壞性的品質(zhì)分級(jí)檢測(cè)系統(tǒng)的選擇之一。雖然運(yùn)用近紅外光譜進(jìn)行松子無(wú)損品質(zhì)分類的相關(guān)文獻(xiàn)較少,但有相關(guān)學(xué)者研究過(guò)運(yùn)用近紅外光譜進(jìn)行干果類鑒定與品質(zhì)比較[1]。

近紅外光譜分析技術(shù)是一種利用有機(jī)化學(xué)物質(zhì)在近紅外光譜區(qū)的光學(xué)響應(yīng)特性,對(duì)物質(zhì)定量或定性快速測(cè)定的現(xiàn)代光譜技術(shù)。近紅外光譜的信息量極為豐富,幾乎包含了全部的含氫基團(tuán)的有關(guān)特征信息,物質(zhì)中的含氫基團(tuán)的同一成分或不同組分在近紅外區(qū)域存在豐富的吸收光譜[2]。動(dòng)植物體組織主要成分均含有豐富的含氫基團(tuán),在近紅外區(qū)都存在特定的吸收光譜,豐富的特征信息使得只需選擇一種良好的建模方法即可對(duì)樣本做到準(zhǔn)確高效的檢測(cè)分級(jí),并且近紅外光譜技術(shù)不需了解光譜具體特性,只需要了解輸入量與輸出量之間的關(guān)系就能做到灰箱建模[3-5],因此在近紅外光譜分類中,只需獲得實(shí)驗(yàn)樣本的光譜數(shù)據(jù)及品質(zhì)等級(jí)即可進(jìn)行建模。傳統(tǒng)的近紅外光譜灰箱建模方法有BP神經(jīng)網(wǎng)絡(luò)、多元線性回歸、主成分分析等[6],其中,仇遜超等采用反向間隔最小二乘法,無(wú)信息變量消除法選取特征波段,建立全波段和特征波段下的最小二乘模型[7],但諸如神經(jīng)網(wǎng)絡(luò)算法需要數(shù)據(jù)較多,并且極可能陷入局部極值而使得訓(xùn)練失敗;多元線性回歸算法存在模型限制過(guò)多,模型復(fù)雜度不夠等許多問(wèn)題。因此需要引入更良好的模型。而近年來(lái),在食品品質(zhì)分類領(lǐng)域,運(yùn)用支持向量機(jī)建立光譜數(shù)據(jù)與品質(zhì)等級(jí)的模型的方法應(yīng)用愈加廣泛。支持向量機(jī)是機(jī)器學(xué)習(xí)的一種非常經(jīng)典的分類模型,Cortes與Vapnik提出線性支持向量機(jī)[8]。同時(shí),Boser,Guyon與Vapnik又引入核技術(shù),提出非線性支持向量

機(jī)[9]。支持向量機(jī)的主要優(yōu)勢(shì)在于小規(guī)模數(shù)據(jù)的非線性建??梢垣@得極優(yōu)結(jié)果。而近紅外光譜數(shù)據(jù)樣本特性恰好是樣本數(shù)量規(guī)模小且非線性度高。迄今為止,支持向量機(jī)(SVM)已經(jīng)變成一門非常成熟的技術(shù),且在基于近紅外光譜分析的多種研究對(duì)象建模中獲得良好的結(jié)果[10-12]?;诮t外光譜分析,本文采用SMO-SVM、pegasos-SVM和LS-SVM對(duì)松子蛋白質(zhì)含量指標(biāo)進(jìn)行建模仿真研究,并對(duì)比分析探尋松子蛋白質(zhì)分類的有效途徑。

2 SVM與LS-SVM基本原理

支持向量機(jī)(SVM)的基本原理是將引入核函數(shù)的分割超平面轉(zhuǎn)化為一個(gè)凸優(yōu)化問(wèn)題,并使用拉格朗日對(duì)偶方法將求解權(quán)值的原問(wèn)題轉(zhuǎn)化為求拉格朗日乘子的對(duì)偶問(wèn)題[13]。

對(duì)于上述優(yōu)化,經(jīng)典支持向量機(jī)一般采用由Platt提出的序列最小最優(yōu)化算法(SMO)[15]。但SMO算法存在時(shí)間復(fù)雜度過(guò)高等問(wèn)題。根據(jù)Shalev-Shwartz等人的研究成果[16],基于隨機(jī)梯度下降較之SMO算法時(shí)間復(fù)雜度更小,本論文將對(duì)SMO算法與隨機(jī)梯度下降算法進(jìn)行比對(duì)并找出適宜當(dāng)前實(shí)驗(yàn)的最優(yōu)算法。

而最小二乘支持向量機(jī)的區(qū)別是LS-SVM將原問(wèn)題(SVM)約束條件由不等式化作等式

此時(shí)對(duì)拉格朗日函數(shù)求極值問(wèn)題會(huì)轉(zhuǎn)換成可運(yùn)用最小二乘法解決的線性方程組問(wèn)題,這會(huì)降低算法的時(shí)間復(fù)雜度[17]。

3 實(shí)驗(yàn)儀器材料及數(shù)據(jù)采集處理

3.1 儀器與樣品

實(shí)驗(yàn)儀器:NIR-NT-spectrometer-OEM-system近紅外光譜測(cè)試儀,德國(guó)INSION 公司,適用光譜波長(zhǎng)范圍:900 ~ 1700 nm,光譜分辨率 < 16 nm,探測(cè)器陣列為InGaAs陣列,入口光纖為300/330μm,體積為67 × 36 × 22 mm。光源為工作電壓6 V的鹵素光源。

實(shí)驗(yàn)樣品:100粒由伊春自然保護(hù)區(qū)出產(chǎn),生產(chǎn)年份相同,含水量相似的飽滿紅松子。

3.2 近紅外光譜采集

對(duì)松子進(jìn)行近紅外掃描檢測(cè)期間,要確保室內(nèi)溫度在26度左右,在獲取松子近紅外光譜前,需要對(duì)儀器進(jìn)行初始化處理。首先:在儀器關(guān)閉燈光電源的情況下進(jìn)行掃描獲得Dark基準(zhǔn),調(diào)整光譜儀積分時(shí)間30 ms,平均次數(shù)3次;隨后將儀器鏡頭緊貼傳遞標(biāo)準(zhǔn)白板掃描獲得Reference基準(zhǔn)。獲取松子光譜數(shù)據(jù)過(guò)程中,將取得的紅松子,放在儀器探頭下2 mm處進(jìn)行紅外光譜采集。為了防止松子與光源發(fā)生偏轉(zhuǎn)、松子無(wú)法完全遮住光源等因素影響實(shí)驗(yàn)效果,本實(shí)驗(yàn)對(duì)松子進(jìn)行比對(duì)測(cè)量后,選擇統(tǒng)一測(cè)量與松子頭部直接無(wú)棱相連的腹部,此處遮光最好,數(shù)據(jù)最準(zhǔn)確。對(duì)松子進(jìn)行10次掃描后,獲得圖像,保存數(shù)據(jù)。光譜數(shù)據(jù)曲線如圖1所示。

接下來(lái)采用食品安全國(guó)家標(biāo)準(zhǔn)GB 5009.5-2010 中的第一法-凱氏定氮法,測(cè)定松子樣品的蛋白質(zhì)。[]根據(jù)凱氏定氮法實(shí)驗(yàn)結(jié)果,樣本蛋白質(zhì)分布在12.79% ~ 24.98%之間,樣品蛋白質(zhì)分布差異較大,有一定代表性,通過(guò)圖1也可以看出紅松子近紅外光譜初始圖像走勢(shì)相似,分布集中。具有一定的規(guī)律性,因此能夠滿足建模要求。

圖1為隨機(jī)選取的一小組近紅外光譜測(cè)定紅松子的初始光譜數(shù)據(jù)。該數(shù)據(jù)未經(jīng)初始化處理。

3.3 蛋白質(zhì)數(shù)據(jù)處理與建模

本實(shí)驗(yàn)以紅松子的蛋白質(zhì)含量范圍為評(píng)級(jí)指標(biāo),根據(jù)運(yùn)用化學(xué)手段測(cè)得的松子蛋白質(zhì)含量的數(shù)據(jù)[18],將紅松子劃分為4等。本次試驗(yàn)100個(gè)紅松子的蛋白質(zhì)含量范圍大致為0.075 g至0.125 g之間。則蛋白質(zhì)含量劃分范圍如下:1等蛋白質(zhì)含量范圍為:0.1125以上;2等蛋白質(zhì)含量范圍為:0.1到0.1125之間;3等蛋白質(zhì)含量范圍為:0.0875到0.1之間;4等蛋白質(zhì)含量范圍為:0.0875以下,獲得輸出標(biāo)簽。

4 基于支持向量機(jī)的松子蛋白質(zhì)分類建模

本文研究建立的分類模型以近紅外光譜數(shù)據(jù)為輸入,以蛋白質(zhì)品質(zhì)分類為輸出,在以Python語(yǔ)言中的Sklearn科學(xué)計(jì)算庫(kù)為建模環(huán)境,建立蛋白質(zhì)品質(zhì)分類模型。Sklearn是一款功能非常強(qiáng)大的庫(kù),能夠進(jìn)行近乎所有的小規(guī)模數(shù)據(jù)的分類、回歸、聚類等數(shù)據(jù)處理。運(yùn)用Sklearn處理近紅外光譜數(shù)據(jù)簡(jiǎn)易方便,封裝性好。

4.1 基于近紅外光譜與支持向量機(jī)的分類建模

選取適當(dāng)波長(zhǎng),在進(jìn)行適當(dāng)數(shù)據(jù)預(yù)處理基礎(chǔ)上。采用SMO-SVM、Pegasos-SVM和其最小二乘支持向量機(jī)兩種方法進(jìn)行對(duì)比。以正則化參數(shù)C或γ 及高斯核函數(shù)中的σ2為控制模型好壞重要變量加以調(diào)整,運(yùn)用網(wǎng)格法搜索最佳參數(shù);以精確率,召回率,排序損失,F(xiàn)函數(shù)為指標(biāo),考察建模性能。具體實(shí)施步驟如下:

導(dǎo)入數(shù)據(jù)并使用Matplotlib制出近紅外光譜圖,見(jiàn)圖1;

將運(yùn)用化學(xué)手段測(cè)出松子蛋白質(zhì)含量標(biāo)簽化(即依照蛋白質(zhì)含量多少將松子分成四大類),并將標(biāo)簽賦予每個(gè)松子并確保每一大類松子數(shù)均為25粒。

對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,篩選出的優(yōu)良波長(zhǎng)片段為906.9 ~ 1128.34、1185.88 ~ 1284.55、1325.85 ~ 1548.81、

1648.16 ~ 1697.9,損失信息為5%。

接著對(duì)獲得數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)集分割成訓(xùn)練集,調(diào)整集,測(cè)試集。分割完畢后前期建模準(zhǔn)備工作告一段落。

對(duì)分割完畢的數(shù)據(jù)集進(jìn)行建模,本次實(shí)驗(yàn)擬定三種建模方法,首先運(yùn)用SVM經(jīng)典優(yōu)化算法SMO建模,由于Sklearn上專門的SVM模塊本身使用的優(yōu)化方法即SMO算法,因此可以直接調(diào)用SVM模塊的SVC函數(shù)。

而對(duì)于最小二乘支持向量機(jī)與基于隨機(jī)梯度下降的支持向量機(jī),Sklearn函數(shù)庫(kù)并沒(méi)有直接調(diào)用的模塊,需要事先進(jìn)行編程。

根據(jù)表1可知,基于SMO算法的支持向量機(jī)在各方面性能優(yōu)于最小二乘支持向量機(jī)與隨機(jī)梯度下降支持向量機(jī),而傳統(tǒng)SMO-SVM算法所耗時(shí)間為三種算法之最,幾乎達(dá)到隨機(jī)梯度下降算法的兩倍。這是由于最小二乘支持向量機(jī)與隨機(jī)梯度下降的支持向量機(jī)雖然在計(jì)算復(fù)雜度方面優(yōu)于支持向量機(jī),但這是以犧牲精度為前提的。

圖3為支持向量機(jī)算法分割樣本集的簡(jiǎn)圖,這張圖簡(jiǎn)單闡釋了模型訓(xùn)練完畢后,支持向量機(jī)各算法對(duì)標(biāo)簽為1、4的樣本集分割效果。該樣本集為集合內(nèi)高維空間粒子向二維空間的投影。其中投影點(diǎn)在X軸上的數(shù)值為原始向量的1維對(duì)應(yīng)的數(shù)值,在Y軸上的數(shù)值為原始向量的0維對(duì)應(yīng)的數(shù)值。從圖中可以看出,SMO-SVM所形成的分割超平面分類效果明顯好于其他算法形成的分割超平面。

對(duì)于支持向量機(jī),由于引入松弛變量與不等式方程組,所計(jì)算的最優(yōu)化問(wèn)題的解(非零向量)為稀疏解。因此擁有稀疏學(xué)習(xí)的優(yōu)點(diǎn),即過(guò)擬合風(fēng)險(xiǎn)低,魯棒性強(qiáng)等等。但對(duì)于最小二乘支持向量機(jī),由于引入誤差向量,導(dǎo)致解的稀疏性減弱。因此原本在支持向量機(jī)中為零向量的解,在最小二乘支持向量機(jī)中可能變?yōu)樘卣鹘獯嬖谟谧罱K的模型中。這會(huì)導(dǎo)致某些樣本中特定的誤差在建模過(guò)程中混入最終模型的幾率增強(qiáng),使得系統(tǒng)過(guò)擬合,泛化能力差,魯棒性差。并且由于近紅外光譜法本身屬于一種定量誤差很大的技術(shù),加之本實(shí)驗(yàn)所用的近紅外儀器精準(zhǔn)度不高,樣本誤差比較大,因此即便最小二乘支持向量機(jī)進(jìn)行過(guò)稀疏化近似,但本身稀疏性仍無(wú)法與經(jīng)典支持向量機(jī)相比,由于以上種種原因,最小二乘支持向量機(jī)擬合結(jié)果與經(jīng)典支持向量機(jī)擬合結(jié)果相差近十個(gè)百分點(diǎn)。

至于基于隨機(jī)梯度下降的支持向量機(jī)算法精確率不高的問(wèn)題,由于隨機(jī)梯度下降算法屬于求解局部最優(yōu)解的算法,因此極易陷入大量局部極值的困境中,雖然根據(jù)CD Sa等人的研究,針對(duì)低秩最小二乘問(wèn)題時(shí),隨機(jī)梯度下降大概率接近全局最優(yōu)解,但本實(shí)驗(yàn)所用的隨機(jī)梯度下降算法的實(shí)際建模效果并不出色,小樣本支持向量機(jī)模型最適宜的方法仍然是經(jīng)典算法SMO-SVM算法。

5 結(jié) 論

本次試驗(yàn)首先采用近紅外光譜儀對(duì)松子進(jìn)行快速測(cè)量得到光譜數(shù)據(jù),接著運(yùn)用SVM理論與LS-SVM理論,建立了紅松子蛋白質(zhì)分類模型。并對(duì)比了SMO-SVM、Pegasos-SVM與LS-SVM兩種算法在小規(guī)模近紅外光譜技術(shù)中的優(yōu)缺點(diǎn)。結(jié)果表明:SMO-SVM、Pegasos-SVM與LS-SVM都能夠通過(guò)近紅外光譜對(duì)松子進(jìn)行預(yù)測(cè)。但SMO-SVM支持向量機(jī)理論對(duì)小規(guī)模樣本分類效果更好;更具有普適性,可用作紅松子蛋白質(zhì)含量的快速鑒定。而Pegasos-SVM與LS-SVM更適用于大規(guī)模樣本快速鑒定。

參考文獻(xiàn)

[1] 賈昌路,高山.近紅外技術(shù)對(duì)南疆核桃品種的鑒定及品質(zhì)比較[J].湖北農(nóng)業(yè)科學(xué),2016,55(10):2559—2563.

[2] 吳建虎,黃鈞.可見(jiàn)/近紅外光譜技術(shù)無(wú)損檢測(cè)新鮮雞蛋蛋白質(zhì)含量研究[J].現(xiàn)代食品科技,2015,31(5):285—290.

[3] 張中衛(wèi),溫志渝,曾甜玲,等.微型近紅外光纖光譜儀用于奶粉中蛋白質(zhì)脂肪的定量檢測(cè)研究[J].光譜學(xué)與光譜分析,2013,7(33):1796—1800.

[4] 汪慶平,黎其萬(wàn).近紅外光譜法快速測(cè)定山核桃品質(zhì)性狀的研究[J].西南農(nóng)業(yè)學(xué)報(bào),2009,22(3):873—875.

[5] 馬文強(qiáng),張漫.基于近紅外光譜的核桃仁品種快速分類方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015(s1):128—133.

[6] 張玉榮,付玲.基于BP神經(jīng)網(wǎng)絡(luò)小麥含水量的近紅外檢測(cè)方法[J].河南工業(yè)大學(xué)學(xué)報(bào),2013,34(1):17—20.

[7] 仇遜超,曹軍.近紅外光譜波段優(yōu)化在東北松子蛋白質(zhì)定量檢測(cè)中的應(yīng)用[J].現(xiàn)代食品科技,2016,32(11):303—309.

[8] CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273—297.

[9] BOSER B E, GUYON I M,VAPINK V N.A training algorithm for optimal margin classifiers.[J] Workshop on Computational Learning Theory ,1992,5:144—152.

[10] THISSEN U,PEPERS M,USTUN B,et al.Comparing support vector machines to PLS for spectral regression applications[J] Chemometrics & Intelligent Laboratory Systems ,2004,73(2):169—179.

[11] CHAUCHARD F,COGDILL R,ROUSSEL S,et al.Application of LS-SVM to non-linear phenomena in NIR spectroscopy:development of a robust and portable sensor for acidity prediction in grapes[J]. Chemom.Intell.Lab.Syst.,2004,71(2):141—150.

[12] 黃莊榮,沙莎.基于近紅外技術(shù)快速無(wú)損分析整粒棉籽中的脂肪酸含量[J].分析化學(xué),2013,41(6):922—926.

[13] BOYD S, VANDENBERGHE L. Convex Optimization[M].Cambridge,UK Cambridge University Press,2004.

[14] 鄧乃楊,田英杰.數(shù)據(jù)挖掘中的新方法--支持向量機(jī)[M].北京:科學(xué)出版社,2004.

[15] PLATT J C.Fast training of svms using sequential minimal optimization[J].Cambridge,Mass.,MIT Press,1999,7:376.

[16] SHAI S,YORAM S. Pegasos:primal estimated sub-gradient solver for SVM[J].Mathematical Programming,2011,127(1):3—30.

[17] SUYKENS J,VANDEWALLE J.Least squares support vector machine classifiers.[J]Neural Processing Letters,1999,9(3):293—300.

[18] 吳曉紅,鄭月明.兩種提取紅松種子蛋白質(zhì)的工藝方法比較研究[J].中國(guó)林副特產(chǎn),2009,(4):1—5.

猜你喜歡
松子支持向量機(jī)蛋白質(zhì)
蛋白質(zhì)自由
肝博士(2022年3期)2022-06-30 02:48:48
松子兒有個(gè)神奇碗
人工智能與蛋白質(zhì)結(jié)構(gòu)
海外星云(2021年9期)2021-10-14 07:26:10
松子和小鳥(niǎo)
迷失黑白秀
童話世界(2017年31期)2017-12-04 12:02:12
蛋白質(zhì)計(jì)算問(wèn)題歸納
動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
永泰县| 龙泉市| 门源| 喀喇沁旗| 昌平区| 平山县| 江北区| 内黄县| 广灵县| 城固县| 大丰市| 盈江县| 余江县| 双柏县| 右玉县| 沽源县| 修水县| 宜良县| 旅游| 尼勒克县| 太原市| 邵武市| 利津县| 文水县| 九龙城区| 广南县| 安乡县| 磐安县| 宝坻区| 甘孜| 阳江市| 额尔古纳市| 三门县| 玛纳斯县| 宜兴市| 镇雄县| 承德市| 濉溪县| 泗水县| 庆城县| 怀柔区|