国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于貝葉斯優(yōu)化的SVM玉米品種鑒別研究

2022-06-06 10:06馮瑞杰陳爭(zhēng)光衣淑娟
光譜學(xué)與光譜分析 2022年6期
關(guān)鍵詞:貝葉斯光譜準(zhǔn)確率

馮瑞杰,陳爭(zhēng)光, 2*,衣淑娟

1.黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院,黑龍江 大慶 163319 2.黑龍江省現(xiàn)代農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)創(chuàng)新中心,黑龍江 大慶 163319 3.黑龍江省水稻生態(tài)育秧裝置及全程機(jī)械化工程技術(shù)研究中心,黑龍江 大慶 163319

引 言

作為世界的三大作物之一,玉米對(duì)于我國(guó)經(jīng)濟(jì)發(fā)展和社會(huì)穩(wěn)定具有非常重要的戰(zhàn)略意義。玉米品種繁多,同一地區(qū)種植的部分玉米品種外觀極其相似,很難通過肉眼區(qū)分,給農(nóng)民的采購(gòu)和市場(chǎng)的監(jiān)管帶來了一定的困難。因此,需要一種快速檢測(cè)技術(shù)對(duì)玉米品種進(jìn)行識(shí)別。

隨著化學(xué)計(jì)量學(xué)和儀器測(cè)量技術(shù)的飛速發(fā)展,光譜分析已經(jīng)被廣泛應(yīng)用于農(nóng)業(yè)[1-2]、食品[3-4]、醫(yī)藥[5]等領(lǐng)域。近紅外光譜分析具有分析速度快、分析效率高、分析成本低、對(duì)樣品無損害、便于實(shí)現(xiàn)在線分析等優(yōu)點(diǎn)。近年來,近紅外光譜在農(nóng)產(chǎn)品品種鑒別和產(chǎn)地溯源等方面得到廣大科研工作者的重視。李杰等[6]利用近紅外光譜結(jié)合無監(jiān)督的主成分分析和有監(jiān)督的線性判別分析方法分別構(gòu)建茶葉品種鑒別模型,采用標(biāo)準(zhǔn)正態(tài)變量變換結(jié)合一階導(dǎo)數(shù)預(yù)處理方式并結(jié)合無監(jiān)督的主成分分析法實(shí)現(xiàn)綠茶樣品種類鑒別分析,準(zhǔn)確率達(dá)到75%,采用有監(jiān)督的線性判別分析方法處理原始光譜數(shù)據(jù),準(zhǔn)確率可達(dá)到100%。高慧宇等[7]應(yīng)用近紅外光譜結(jié)合偏最小二乘判別分析建立轉(zhuǎn)基因大豆的快速鑒別模型,通過選擇樣品形態(tài)、波長(zhǎng)范圍和光譜預(yù)處理方法對(duì)鑒別模型進(jìn)行優(yōu)化,提高模型鑒別正確率。有研究探索了近紅外光譜結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立北方粳稻種子快速鑒別模型,通過小波變換對(duì)全譜進(jìn)行數(shù)據(jù)降維,分類準(zhǔn)確率可達(dá)100%。

基于高維數(shù)據(jù)的分類方法很多,其中采用二分類的支持向量機(jī)由于其優(yōu)越的表現(xiàn)得到廣泛的應(yīng)用。支持向量機(jī)(surport vector machine, SVM)是機(jī)器學(xué)習(xí)中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)算法,被廣泛應(yīng)用于農(nóng)業(yè)[8]、醫(yī)療[9]、工業(yè)設(shè)備故障檢測(cè)[10]及圖像分類[11]等領(lǐng)域。SVM的核心思想是將低維空間中不可分的數(shù)據(jù)點(diǎn)映射到更高維的空間維度中,在高維空間中進(jìn)行分離。為了簡(jiǎn)化計(jì)算過程,引入核函數(shù)定義從低維到高維空間的映射,以確保原始空間的變量可以很容易地計(jì)算內(nèi)積。在SVM中,懲罰因子C和徑向基核函數(shù)(radial basis function, RBF)參數(shù)γ兩個(gè)參數(shù)決定SVM模型性能,因此參數(shù)尋優(yōu)對(duì)SVM模型性能的表現(xiàn)至關(guān)重要。常用的參數(shù)尋優(yōu)方法如網(wǎng)格搜索(grid search, GS)、遺傳算法(genetic algorithm, GA)等普遍存在尋優(yōu)時(shí)間長(zhǎng),針對(duì)非凸問題易陷入局部最優(yōu)等不足。本研究采用貝葉斯優(yōu)化(Bayesian optimization, BO)對(duì)SVM模型的懲罰因子C和RBF核參數(shù)γ進(jìn)行尋優(yōu),以5種玉米種子作為研究對(duì)象,選擇模型十折交叉驗(yàn)證識(shí)別準(zhǔn)確率最高時(shí)對(duì)應(yīng)的參數(shù)建立SVM玉米品種鑒別模型,為農(nóng)產(chǎn)品的快速分類提供一種參考方法。

1 實(shí)驗(yàn)部分

1.1 樣本與儀器

試驗(yàn)所用玉米種子購(gòu)買于種子市場(chǎng),包括鄭單958、先玉335、京科968、登海605和德美亞五個(gè)品種。每個(gè)品種取200粒作為一個(gè)樣本,5個(gè)品種分別有22,23,63,85和100個(gè)樣本,共計(jì)293個(gè)樣本,去除有破損、癟粒的樣本。將玉米樣本放置于近紅外光譜實(shí)驗(yàn)室24 h之后進(jìn)行光譜掃描。

光譜采集設(shè)備是德國(guó)Bruker公司生產(chǎn)的TANGO品牌的近紅外光譜儀,測(cè)量波長(zhǎng)范圍為11 520~4 000 cm-1,測(cè)量樣本的方式為漫反射和透射,分辨率為8 cm-1,每個(gè)樣本掃描32次取平均值作為樣本的光譜數(shù)據(jù)。將每類樣本按照6∶1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,全部293個(gè)樣本最終劃分為251個(gè)訓(xùn)練集樣本和42個(gè)測(cè)試集樣本。

1.2 建模方法及評(píng)價(jià)指標(biāo)

1.2.1 支持向量機(jī)

SVM的基本思想是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,通過核函數(shù)將數(shù)據(jù)從原始特征空間映射到高維特征空間,使線性內(nèi)積運(yùn)算非線性化,然后在高維特征空間建立使分類間隔最大化的最優(yōu)超平面。懲罰因子C和RBF核函數(shù)參數(shù)γ是SVM中兩個(gè)重要的參數(shù)。懲罰因子C>0,C越大對(duì)錯(cuò)誤分類的懲罰越大,但容易出現(xiàn)過擬合;C越小則對(duì)錯(cuò)誤分類的懲罰減小,模型的復(fù)雜度降低,容易出現(xiàn)欠擬合。γ決定數(shù)據(jù)映射到新特征空間后的分布,γ越小,支持向量越多,模型平滑效應(yīng)增大,容易欠擬合;γ越大,支持向量越少,對(duì)未知樣本分類效果很差,模型容易過擬合。支持向量的個(gè)數(shù)影響模型訓(xùn)練與預(yù)測(cè)的速度,因此在使用SVM建立判別模型時(shí),懲罰參數(shù)C和核函數(shù)參數(shù)γ的選擇至關(guān)重要。

1.2.2 貝葉斯優(yōu)化

SVM模型參數(shù)C和γ與模型性能之間呈現(xiàn)黑箱特點(diǎn),即模型的性能與參數(shù)C和γ之間無法使用表達(dá)式描述,只能根據(jù)通過遍歷離散的自變量取值得到最優(yōu)SVM模型。貝葉斯優(yōu)化[12]是一種十分高效的全局優(yōu)化算法,主要用于機(jī)器學(xué)習(xí)調(diào)參,貝葉斯優(yōu)化是一種不需要計(jì)算導(dǎo)數(shù)的系統(tǒng)化調(diào)優(yōu)算法,采用高斯過程建立概率代理模型,考慮之前的參數(shù)信息,不斷更新先驗(yàn),使用采集函數(shù)來確定下一個(gè)評(píng)估點(diǎn),可以在較短的時(shí)間內(nèi)確定最佳參數(shù)。概率代理模型和采集函數(shù)是貝葉斯優(yōu)化算法的兩個(gè)核心組件。高斯過程是隨機(jī)變量的集合,用以代替目標(biāo)優(yōu)化函數(shù)。在本研究中,高斯過程用于優(yōu)化的SVM的參數(shù)組合,高斯過程的表達(dá)式如式(1)

f(x)~GP[m(x),k(x,x′)]

(1)

式(1)中,均值函數(shù)m(x)=E(f(x)),代表樣本f(x)的數(shù)學(xué)期望。協(xié)方差函數(shù)k(x,x′)=E{[f(x)-m(x)][f(x′)-m(x′)]},高斯過程根據(jù)已經(jīng)搜索的點(diǎn)估計(jì)其他點(diǎn)處目標(biāo)函數(shù)的均值和方差,通過均值和方差構(gòu)造采集函數(shù),用于決定下次迭代時(shí)的采樣點(diǎn)位置。

常見的超參數(shù)優(yōu)化算法包括網(wǎng)格搜索、遺傳算法,這些算法除了非常耗時(shí)之外,在遍歷下一個(gè)離散參數(shù)時(shí)不考慮之前的參數(shù)信息,針對(duì)非凸問題容易陷入局部最優(yōu)。而貝葉斯優(yōu)化側(cè)重于減少評(píng)估代價(jià),迭代次數(shù)少,速度快,而且考慮之前的參數(shù)信息,針對(duì)非凸問題不易陷入局部最優(yōu)。本研究選擇貝葉斯優(yōu)化作為SVM模型的參數(shù)尋優(yōu)算法。

貝葉斯優(yōu)化算法的過程如下:

(1)在SVM模型的C和γ的設(shè)定搜索范圍中隨機(jī)選取n0個(gè)采樣點(diǎn),以十折交叉驗(yàn)證的平均測(cè)試準(zhǔn)確率為目標(biāo)函數(shù)f,模型的不同參數(shù)組合作為自變量x,構(gòu)成代理模型框架,得到目標(biāo)函數(shù)的初始分布和采樣點(diǎn)集D;

(2)通過最大化采集函數(shù)選擇下一個(gè)采樣點(diǎn)xt,得到采樣點(diǎn)函數(shù)值f(xt);

(3)將新的采樣點(diǎn)[xt,f(xt)]添加到采樣點(diǎn)集D中,更新高斯過程代理模型,使得代理模型更加貼合目標(biāo)函數(shù)的分布;

(4)設(shè)定一個(gè)最大迭代次數(shù),當(dāng)?shù)螖?shù)達(dá)到最大次數(shù)時(shí),停止算法迭代,輸出最優(yōu)采樣點(diǎn)以及對(duì)應(yīng)的目標(biāo)函數(shù)最優(yōu)值,即SVM模型的最優(yōu)參數(shù)C和γ。

1.2.3 評(píng)價(jià)指標(biāo)

本研究基于混淆矩陣,引入f1評(píng)價(jià)指標(biāo)作為模型的評(píng)價(jià)標(biāo)準(zhǔn)。f1評(píng)價(jià)指標(biāo)的計(jì)算公式如式(2)

(2)

式(2)中,recall和precision分別叫做查全率和查準(zhǔn)率,其定義如式(3)和式(4)

(3)

(4)

式(3)和式(4)中,TP為將正類預(yù)測(cè)為正類的個(gè)數(shù);FN為將正類預(yù)測(cè)為負(fù)類的個(gè)數(shù);FP為將負(fù)類預(yù)測(cè)為正類的個(gè)數(shù)。查全率(recall)越高,說明模型對(duì)正樣本的識(shí)別能力越強(qiáng);查準(zhǔn)率(precision)越高,說明模型對(duì)負(fù)樣本的區(qū)別能力越強(qiáng)。f1是兩者的綜合,f1越高,說明所建立的分類模型越穩(wěn)健。recall和precision任何一個(gè)數(shù)值減小,f1的值都會(huì)減小。

本研究還選擇識(shí)別準(zhǔn)確率作為玉米品種判別模型的評(píng)價(jià)指標(biāo)。識(shí)別準(zhǔn)確率是指正確預(yù)測(cè)的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比率,不考慮預(yù)測(cè)的樣本是正類還是負(fù)類。

2 結(jié)果與討論

2.1 數(shù)據(jù)預(yù)處理

為了降低光譜數(shù)據(jù)中譜帶重疊、噪聲信號(hào)對(duì)建模的干擾,在建模前需要對(duì)采集的原始光譜進(jìn)行預(yù)處理。采用標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。SNV主要用來消除固體顆粒大小、表面散射以及光程變化等因素對(duì)光譜數(shù)據(jù)的影響。圖1(a,b)分別為樣本的原始光譜曲線和SNV處理后光譜曲線為全部玉米樣本光譜數(shù)據(jù)經(jīng)過SNV變換前后的光譜曲線。

圖1 玉米種子原始近紅外光譜圖(a)及SNV處理后的光譜圖(b)

2.2 不同優(yōu)化方法下模型性能對(duì)比

在SNV預(yù)處理后的數(shù)據(jù)基礎(chǔ)上,使用10折交叉驗(yàn)證分別建立GS-SVM,GA-SVM和BO-SVM模型,三種模型的參數(shù)以及性能指標(biāo)如表1所示。表1的結(jié)果表明,BO算法對(duì)SVM參數(shù)調(diào)優(yōu)表現(xiàn)相比于GS和GA算法表現(xiàn)不佳,分析認(rèn)為貝葉斯優(yōu)化依賴于高斯過程建立概率代理模型,高斯過程作為一種概率分布,是事件最終結(jié)果的分布。高斯過程中的協(xié)方差函數(shù)k(x,x′)控制采樣點(diǎn)的探索程度,對(duì)應(yīng)于全局搜索,k(x,x′)的計(jì)算依賴于已有樣本的協(xié)方差矩陣。在高維數(shù)據(jù)的情形下,要使樣本點(diǎn)布滿整個(gè)搜索空間,需要大量的樣本,有限的樣本點(diǎn)在高維空間中的距離都會(huì)比較遠(yuǎn),數(shù)據(jù)樣本稀疏,會(huì)導(dǎo)致k(x,x′)近乎為無效函數(shù)。因此貝葉斯優(yōu)化在高維數(shù)據(jù)中失去了其通過協(xié)方差函數(shù)進(jìn)行探索的意義,近乎于完全隨機(jī)搜索,算法不能通過采集函數(shù)進(jìn)行高效的探索,有可能導(dǎo)致SVM模型陷入局部最優(yōu),模型表現(xiàn)不佳。說明在高維數(shù)據(jù)尋優(yōu)方面,BO算法并不是一個(gè)好的選擇。

表1 不同優(yōu)化算法下的SVM模型性能對(duì)比

2.3 PCA降維對(duì)貝葉斯優(yōu)化及模型性能的影響

光譜數(shù)據(jù)經(jīng)過PCA處理后,消除了數(shù)據(jù)特征間的共線性,去除了數(shù)據(jù)中不重要的特征,使得各個(gè)維度之間的數(shù)據(jù)相互正交,降低了數(shù)據(jù)的復(fù)雜性,并且大幅降低算法的計(jì)算開銷。為了驗(yàn)證PCA降維對(duì)貝葉斯優(yōu)化算法的影響,將高維度玉米近紅外光譜數(shù)據(jù)利用PCA降維處理后保留10個(gè)主成分,前10個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了99.9%,在此基礎(chǔ)上使用貝葉斯優(yōu)化,對(duì)SVM模型參數(shù)C和γ進(jìn)行優(yōu)選并建立PCA-BO-SVM模型。采用十折交叉驗(yàn)證,計(jì)算模型的平均測(cè)試準(zhǔn)確率,得到SVM模型的全局最優(yōu)參數(shù)。同時(shí)在PCA降維的基礎(chǔ)上建立PCA-GS-SVM和PCA-GA-SVM兩種模型,三種模型性能參數(shù)如表2所示。由表2可知,對(duì)光譜數(shù)據(jù)使用PCA降維處理后,使用GS尋優(yōu)得到的SVM模型核參數(shù)γ相比于GA以及BO算法尋得的核參數(shù)γ較大,模型出現(xiàn)輕微的過擬合,導(dǎo)致在測(cè)試集上表現(xiàn)不佳。對(duì)于SVM模型這樣的連續(xù)型參數(shù),GS算法無法通過遍歷所有C與γ可能參數(shù)組合去驗(yàn)證SVM參數(shù)空間中的所有參數(shù),為了得到較優(yōu)的參數(shù)組合,GS算法必須加大網(wǎng)格搜索的密度,加之GS算法需要進(jìn)行的交叉驗(yàn)證次數(shù)十分驚人,因此GS搜索方法耗費(fèi)的時(shí)間成本巨大。

表2 降維后三種模型性能指標(biāo)對(duì)比

GA算法的本質(zhì)是隨機(jī)性搜索,其調(diào)參的效果依賴于采樣次數(shù),采樣次數(shù)越多,越有可能找到模型的全局最優(yōu)參數(shù),但隨機(jī)采樣點(diǎn)不容易落到最優(yōu)參數(shù)組合上,并且GA算法無法利用之前采樣點(diǎn)的評(píng)估效果進(jìn)行主動(dòng)尋優(yōu),尋優(yōu)效率較低[13],尋得的參數(shù)不一定是全局最優(yōu)參數(shù)。BO算法可以在很短的時(shí)間內(nèi)尋得SVM的全局最優(yōu)參數(shù),這是因?yàn)锽O算法使用采集函數(shù),通過采集函數(shù),在探索不確定區(qū)域和關(guān)注已知具有較優(yōu)目標(biāo)值的區(qū)域之間進(jìn)行權(quán)衡,來確定下一個(gè)評(píng)估點(diǎn)。使用采集函數(shù),可以使模型避開許多無用采樣點(diǎn)的評(píng)估,準(zhǔn)確描述出目標(biāo)函數(shù)的分布,從而高效找到模型的最優(yōu)參數(shù)組合。與PCA-GS-SVM和PCA-GA-SVM模型相比,PCA-BO-SVM模型在測(cè)試集上的準(zhǔn)確率和f1值均達(dá)到100%,說明經(jīng)BO算法尋優(yōu)后的SVM模型懲罰因子C和核參數(shù)γ均為全局最優(yōu)參數(shù),模型性能優(yōu)于其他兩種模型。

2.4 樣本數(shù)量對(duì)訓(xùn)練模型的影響

四種模型在測(cè)試集上分類結(jié)果的混淆圖如圖2,由混淆圖可以看到,圖2(a)PCA-GS-SVM,圖2(b)PCA-GA-SVM和圖2(c)BO-SVM三種模型的識(shí)別錯(cuò)誤率均與鄭丹958有關(guān),圖2(d)中PCA-BO-SVM模型在測(cè)試集中均可以正確識(shí)別各類玉米樣本,識(shí)別效果優(yōu)于其他三種模型。BO-SVM模型的識(shí)別錯(cuò)誤率與先玉335有關(guān),這可能是由于鄭丹958和先玉335樣本數(shù)量較少導(dǎo)致模型對(duì)該樣本的訓(xùn)練不夠,在測(cè)試集上表現(xiàn)不佳所致。

圖2 模型在光譜測(cè)試集上的混淆圖

為了驗(yàn)證這一猜想,剔除數(shù)據(jù)集中樣本數(shù)量較少的鄭丹958(22個(gè)樣本)和先玉335(23個(gè)樣本)兩類樣本,將剩余的248個(gè)玉米近紅外光譜樣本仍然按照6∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,使用PCA-GS-SVM,PCA-GA-SVM,BO-SVM和PCA-BO-SVM四種模型在訓(xùn)練集上建模,在測(cè)試集上進(jìn)行玉米種類的識(shí)別,得到四種模型在三類玉米樣本上的分類性能指標(biāo)(表3)。

表3 去除小樣本后模型性能指標(biāo)對(duì)比

由表3可以得出,在去掉鄭丹958和先玉335兩類小樣本之后四種模型的訓(xùn)練集和測(cè)試集上的識(shí)別準(zhǔn)確率均有顯著提高,在測(cè)試集上的識(shí)別準(zhǔn)確率均達(dá)到100%。說明在類間數(shù)據(jù)量不平衡的模型訓(xùn)練過程中,模型對(duì)樣本數(shù)據(jù)量較多的類別擬合的更好,對(duì)該類的分類準(zhǔn)確率較高[14],但模型的泛化性能較弱。某種類別數(shù)據(jù)量越多,對(duì)模型參數(shù)的修正就越細(xì)膩,使模型更能刻畫該類別的分布,對(duì)該類別數(shù)據(jù)的分類效果越好。

3 結(jié) 論

利用貝葉斯優(yōu)化算法對(duì)SVM模型的兩個(gè)超參數(shù)C和γ進(jìn)行優(yōu)化,結(jié)果表明,針對(duì)非凸優(yōu)化問題,相較于網(wǎng)格搜索和遺傳算法尋優(yōu),貝葉斯優(yōu)化通過概率代理模型和采集函數(shù)來達(dá)到尋找模型全局最優(yōu)參數(shù)的目的,充分利用完整的歷史信息,避免不必要的參數(shù)評(píng)估,實(shí)現(xiàn)參數(shù)的高效優(yōu)化,從而提高SVM模型的性能,基于貝葉斯優(yōu)化的SVM模型的性能達(dá)到最優(yōu)。由于貝葉斯優(yōu)化適用于低維數(shù)據(jù)的模型參數(shù)優(yōu)化,SVM適合于小樣本分類和回歸,因此,數(shù)據(jù)降維能顯著提高SVM模型的性能。此外,某類樣本數(shù)量偏少會(huì)影響SVM模型的分類效果,導(dǎo)致模型的泛化性能減弱。本文利用PCA,BO和SVM構(gòu)建了玉米品種的判別模型,為玉米品種的快速鑒別提供了一種新的方法。

猜你喜歡
貝葉斯光譜準(zhǔn)確率
基于三維Saab變換的高光譜圖像壓縮方法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
高光譜遙感成像技術(shù)的發(fā)展與展望
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于貝葉斯解釋回應(yīng)被告人講述的故事
基于動(dòng)態(tài)貝葉斯估計(jì)的疲勞駕駛識(shí)別研究
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
星載近紅外高光譜CO2遙感進(jìn)展
英超| 马鞍山市| 肇州县| 泰和县| 四会市| 陆良县| 来宾市| 略阳县| 南乐县| 博乐市| 油尖旺区| 潼南县| 德阳市| 邻水| 和龙市| 汝城县| 濮阳市| 平山县| 靖江市| 芦溪县| 襄樊市| 克东县| 临城县| 黄石市| 渭源县| 比如县| 白河县| 中方县| 丘北县| 华亭县| 吴江市| 鄂温| 桐柏县| 罗江县| 年辖:市辖区| 和顺县| 潞城市| 湘潭市| 柘城县| 浠水县| 盐池县|