国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)AdaBoost算法對(duì)環(huán)柄菇毒性判別研究*

2021-04-09 03:21:38李健熊琦胡雅婷
關(guān)鍵詞:權(quán)值分類器邏輯

李健,熊琦,胡雅婷

(吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長(zhǎng)春市,130118)

0 引言

隨著社會(huì)經(jīng)濟(jì)發(fā)展和人類對(duì)生活質(zhì)量要求的不斷提高,食用菌出現(xiàn)在人們的餐桌上的頻率越來(lái)越高,但食用菌的安全性問(wèn)題一直存在很大的爭(zhēng)議。由于中國(guó)地大物博,食用菌種類繁多,對(duì)食用菌毒性判定的方式也是多種多樣[1]。其中民間對(duì)蘑菇毒性的判別方式主要依賴觀察其外形外觀,顏色和菌類的特征,聞菌類的氣味等方法,這些方法對(duì)判別人的經(jīng)驗(yàn)有較大依賴性,判別誤差率高等缺點(diǎn)。學(xué)術(shù)界則是通過(guò)研究菌類的成分進(jìn)行毒性判別[2]。這類方法雖然準(zhǔn)確率大大提高,但是存在檢測(cè)效率不高,實(shí)驗(yàn)要求苛刻等缺點(diǎn)。

近年來(lái),隨著機(jī)器學(xué)習(xí)在人工智能領(lǐng)域的大火,近年來(lái),隨著機(jī)器學(xué)習(xí)在人工智能領(lǐng)域的大火,機(jī)器學(xué)習(xí)算法對(duì)解決工業(yè)問(wèn)題提供了新的思路,眾多學(xué)者[3-5]開始將機(jī)器學(xué)習(xí)模型開始與工業(yè)領(lǐng)域相結(jié)合,比如李卓識(shí)等[6]將機(jī)器學(xué)習(xí)算法引入到真菌分類問(wèn)題中,王聃,毛彥棟等[7-8]將機(jī)器學(xué)習(xí)算法引入到病蟲害識(shí)別問(wèn)題中,陳桂芬等[9]將機(jī)器學(xué)習(xí)算法引入到遙感圖像分類中,這些模型均能與各自領(lǐng)域的實(shí)際情況與存在的問(wèn)題相結(jié)合,提供了有效的解決辦法。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的種類、數(shù)量都有極大的提升,由于某些機(jī)器學(xué)習(xí)模型針對(duì)海量數(shù)據(jù)存在著運(yùn)行時(shí)間慢,準(zhǔn)確率低等問(wèn)題,特征篩選方法[10-12]被提出,該方法可以解決數(shù)據(jù)集高維度,高密集的問(wèn)題,降低了模型的復(fù)雜度,使得機(jī)器學(xué)習(xí)更好地融入各個(gè)領(lǐng)域之中。

由于菌類的特征值存在不連續(xù),多維度等特點(diǎn),非常適合用機(jī)器學(xué)習(xí)中的分類算法進(jìn)行判別,目前業(yè)界中有很多使用機(jī)器學(xué)習(xí)算法對(duì)蘑菇毒性判別的案例,均取得了不錯(cuò)的準(zhǔn)確率,對(duì)蘑菇毒性判別具有重要意義。劉斌等[13]將基于貝葉斯算法應(yīng)用到了蘑菇毒性判別之中,這種算法必須滿足樣本特征獨(dú)立分布的前提,且這種算法不存在很好的實(shí)際物理意義,不易于理解,對(duì)數(shù)據(jù)要求較高等缺點(diǎn)。樊哿等[14]利用了支持向量機(jī)算法,這種算法預(yù)測(cè)的準(zhǔn)確率很高,但是這種算法基于較小的數(shù)據(jù)集為前提才會(huì)獲取到較好的效果,不適用于規(guī)模較大的數(shù)據(jù)集。李旺等[15]提出了基于寬度學(xué)習(xí)的蘑菇毒性判別方法,該模型具有極高的準(zhǔn)確率,但是需要極高的數(shù)據(jù)量作為訓(xùn)練基礎(chǔ),對(duì)數(shù)據(jù)集的要求非??量?,適用的領(lǐng)域并不廣泛。因此,集成學(xué)習(xí)方法[16]被引入。集成學(xué)習(xí)是一種通過(guò)構(gòu)建多個(gè)弱分類,再將其組合成一個(gè)強(qiáng)分類器的學(xué)習(xí)方法,AdaBoost算法作為目前最具有價(jià)值的集成學(xué)習(xí)算法,眾多學(xué)者[17-18]將該算法引入工業(yè)界解決分類問(wèn)題。但該算法的權(quán)值更新機(jī)制容易造成不公平的權(quán)值分配,且容易導(dǎo)致噪聲樣本權(quán)值的無(wú)限增大,不少學(xué)者針對(duì)該缺點(diǎn)對(duì)算法進(jìn)行了改進(jìn)[19-20]。

本文針對(duì)AdaBoost算法存在的問(wèn)題,提出了一種改進(jìn)權(quán)值更新方式的AdaBoost算法,該算法基于邏輯回歸為弱分類器,在弱分類器訓(xùn)練階段和弱分類器的組合階段,兩部分對(duì)原算法進(jìn)行了改進(jìn),刪去了特征中權(quán)值系數(shù)過(guò)小的特征,針對(duì)多次分錯(cuò)的樣本,添加懲罰系數(shù)降低該樣本的權(quán)值,以提高整體分類的準(zhǔn)確度,為食用菌毒性判別問(wèn)題提供了新的思路和解決方案。

1 材料和方法

1.1 數(shù)據(jù)采集

本文使用的公用數(shù)據(jù)集是加州大學(xué)歐文分校提供的環(huán)柄菇數(shù)據(jù)集,該數(shù)據(jù)集中共包含8 124組樣本,共22個(gè)特征,分別為帽形,帽面,帽色,瘀傷,氣味,鰓附著,鰓間距,鰓大小,鰓顏色,莖形,莖根,莖表面在環(huán)上,莖—表面—環(huán)下,莖—顏色—環(huán)上,莖—顏色—環(huán)下,面紗類型,面紗顏色,環(huán)號(hào),環(huán)狀型,孢子印刷色,種群,棲息地。部分?jǐn)?shù)據(jù)集如表1所示。

表1 部分環(huán)柄菇數(shù)據(jù)集

1.2 研究方法

1.2.1 傳統(tǒng)AdaBoost算法

AdaBoost算法是一種通過(guò)迭代將多個(gè)弱分類器組合成一種強(qiáng)分類器的算法。算法本身是通過(guò)不斷改變數(shù)據(jù)的權(quán)值來(lái)實(shí)現(xiàn)的,針對(duì)弱分類器中錯(cuò)誤分類的樣本,算法會(huì)逐漸加大錯(cuò)誤分類樣本的權(quán)重,并降低分類正確的樣本的權(quán)值,使得算法在下一次弱分類器選定數(shù)據(jù)樣本時(shí),會(huì)著重于上一次迭代中錯(cuò)誤分類的樣本,通過(guò)這種方式,AdaBoost的訓(xùn)練過(guò)程會(huì)聚焦于容易分類錯(cuò)誤的樣本,最終將每次訓(xùn)練得到的弱分類器加權(quán)求和,形成了最終的決策強(qiáng)分類器。算法框架如圖1所示。

圖1 AdaBoost算法框架

相比較單個(gè)的分類器,經(jīng)過(guò)AdaBoost算法集成的最終決策強(qiáng)分類器具有更好的穩(wěn)定性和分類準(zhǔn)確率,但是AdaBoost算法的缺點(diǎn)也很明顯,在算法的數(shù)據(jù)劃分階段,AdaBoost算法的迭代次數(shù)不好確定,如果定的過(guò)少,算法擬合不足,如果迭代次數(shù)過(guò)多,則會(huì)導(dǎo)致弱分類器的運(yùn)行時(shí)間過(guò)長(zhǎng)。在算法的迭代過(guò)程中,噪聲樣本點(diǎn)在迭代的過(guò)程中權(quán)值會(huì)無(wú)限增大,從而使非噪聲樣本點(diǎn)選入到新的弱分類器的概率降低,從而降低最終的強(qiáng)分類器的準(zhǔn)確率。

1.2.2 邏輯回歸算法

邏輯回歸實(shí)際上是一種線性分類器,是基于線性回歸變化而來(lái)的一種模型,由于滿足線性規(guī)律的真實(shí)場(chǎng)景并不多,為了解決該問(wèn)題,線性回歸在實(shí)際應(yīng)用中引入了諸多變化形式,將對(duì)數(shù)函數(shù)融到線性回歸中就得到了邏輯回歸的基本表達(dá)式,函數(shù)如式(1)所示。

(1)

二元邏輯回歸的樣本服從伯努利分布(即0~1分布),由此可得預(yù)測(cè)標(biāo)簽分別為0和1時(shí)的概率如式(2)和式(3)所示。

P(y=1|x)=y(x)

(2)

P(y=0|x)=1-y(x)

(3)

由式(2)和式(3)可得P(y|x)的表達(dá)式如式(4)所示。

P(y|x)=y(x)y×[1-y(x)]1-y

(4)

假設(shè)樣本獨(dú)立且同分布,求得式(4)的最大對(duì)數(shù)似然估計(jì)就得到了最終的損失函數(shù),如式(5)所示。

(1-y)×log[1-yθ(xi)]}

(5)

采用梯度下降法求取損失函數(shù)的極小值,就可以得到該邏輯回歸算法的最優(yōu)的系數(shù),達(dá)到該邏輯回歸模型的最好效果,同樣邏輯回歸的缺點(diǎn)也很明顯:在特征空間很大時(shí),計(jì)算的復(fù)雜度會(huì)很高,會(huì)大大降低邏輯回歸算法的性能,所以在特征數(shù)目很多的數(shù)據(jù)集下,通常不使用邏輯回歸算法。

1.2.3 改進(jìn)的AdaBoost算法模型

通過(guò)分析作為弱分類器的邏輯回歸算法和AdaBoost算法,可以很直觀的得到算法的缺點(diǎn),針對(duì)上述問(wèn)題,本文提出了一種基于改進(jìn)數(shù)據(jù)特征篩選和弱分類器權(quán)值更新的AdaBoost算法,該算法分為弱分類器訓(xùn)練和弱分類器組合兩個(gè)階段。

在改進(jìn)之后的AdaBoost算法的弱分類器階段,針對(duì)作為弱分類器的邏輯回歸算法無(wú)法很好的處理樣本特征空間過(guò)大的問(wèn)題,本文提出了根據(jù)各個(gè)樣本特征所占的權(quán)重大小,逐步減去樣本特征數(shù)目的方法。本文提出了根據(jù)各個(gè)樣本特征所占的權(quán)重大小,逐步減去樣本特征數(shù)目的方法。該方法首先將全部特征帶入到算法中運(yùn)行,計(jì)算出每一個(gè)特征的特征權(quán)重,將特征權(quán)重最小的特征刪除,就能得到新的特征子集,將新的特征子集帶入算法之中重新計(jì)算新的特征權(quán)重并刪除特征權(quán)重最小的特征,重復(fù)執(zhí)行該過(guò)程,直到算法準(zhǔn)確率小于閾值,特征篩選結(jié)束,得到了最佳特征子集。流程如圖2所示。

圖2 數(shù)據(jù)集特征空間篩選方法

樣本特征的權(quán)值系數(shù)代表了每個(gè)特征在對(duì)樣本預(yù)測(cè)值得重要性,信息熵是度量樣本幾何純度的最常用的一種指標(biāo),假設(shè)樣本集合D中第k類樣本所占的比例為Pk,則D的信息熵如式(6)所示。

(6)

假定離散的屬性a有V個(gè)可能的取值,若使用a來(lái)對(duì)樣本D進(jìn)行劃分,則會(huì)產(chǎn)生V個(gè)子集,其中第V個(gè)子集包含了D中所有在屬性a上取值為av的樣本,記作Dv,根據(jù)式(6)得到信息增益的公式如式(7)所示。

(7)

假設(shè)樣本集D上第j個(gè)特征,可以計(jì)算出每個(gè)訓(xùn)練集D下的信息增益,在對(duì)得到的K個(gè)信息增益值進(jìn)行歸一化處理,就可以得到每個(gè)特征所占的權(quán)重,如式(8)所示。

(8)

根據(jù)式(8)對(duì)弱分類器數(shù)據(jù)集中的每個(gè)特征分別計(jì)算權(quán)重,并從大到小進(jìn)行排序,根據(jù)設(shè)定的權(quán)值系數(shù)的閾值ω0對(duì)特征空間進(jìn)行篩選,使得下一次迭代的弱分類器的數(shù)據(jù)集中刪去了權(quán)值系數(shù)過(guò)小的特征,從而提高了運(yùn)算效率,解決了弱分類器邏輯回歸中由于特征空間太大,使邏輯回歸算法效果不好的缺點(diǎn)。

針對(duì)迭代過(guò)程中噪聲點(diǎn)權(quán)值系數(shù)過(guò)大的問(wèn)題,本文提出了在權(quán)值過(guò)大的樣本點(diǎn)加上懲罰項(xiàng)的方法,如果迭代結(jié)束的樣本權(quán)重大于閾值w,則會(huì)在權(quán)重加上懲罰項(xiàng),降低該樣本的權(quán)重,減少了由于樣本噪聲點(diǎn)對(duì)整個(gè)模型的影響,如果迭代之后的樣本權(quán)重小于閾值w,則不會(huì)對(duì)該樣本點(diǎn)加上懲罰項(xiàng)。對(duì)于給定的數(shù)據(jù)集x={(x1,y1),(x2,y2},…(xn,yn)},首先計(jì)算出在第i次迭代后,樣本X的權(quán)重Dx并對(duì)所有樣本的權(quán)重進(jìn)行歸一化,本文使用了混淆矩陣中的FN值和FP值的比值作為權(quán)重的懲罰項(xiàng),混淆矩陣如表2所示。

表2 混淆矩陣

混淆矩陣中的列元素代表了真實(shí)樣本中的標(biāo)簽,所有的行元素代表了模型輸出的預(yù)測(cè)標(biāo)簽,將FN/FP的比值ψ作為懲罰項(xiàng)是為了能夠更好地看清該樣本是對(duì)標(biāo)簽為0的樣本分類能力較差還是標(biāo)簽為1的樣本分類能力較差,可以更好地鍛煉模型。每次迭代之后的樣本的錯(cuò)誤率如式(9)所示,根據(jù)錯(cuò)誤率可得樣本的權(quán)重如式(10)所示。

(9)

(10)

根據(jù)本文設(shè)計(jì)的改進(jìn)之后更新權(quán)值方法,當(dāng)預(yù)測(cè)值等于真實(shí)值時(shí),樣本在下一輪迭代時(shí)的權(quán)重如式(11)所示。

(11)

在預(yù)測(cè)值不等于真實(shí)值,權(quán)重小于等于閾值時(shí),樣本在下一輪迭代時(shí)的權(quán)重如式(12)所示。

hi(xi)≠yi,Dt(xj)≤Wt

(12)

在預(yù)測(cè)值不等于真實(shí)值,權(quán)重大于閾值時(shí),樣本在下一輪迭代時(shí)的權(quán)重如式(13)所示。

hi(xi)≠yi,Dt(xj)>Wt

(13)

1.2.4 改進(jìn)的AdaBoost算法模型

上述的兩點(diǎn)改進(jìn)措施分別針對(duì)了AdaBoost算法和邏輯回歸中的兩種缺點(diǎn),整個(gè)改進(jìn)后的算法流程如下。

輸入:訓(xùn)練數(shù)據(jù)集x={(x1,y1),(x2,y2),…,(xn,yn)},權(quán)值系數(shù)的閾值ω0。

輸出:最終得到的強(qiáng)分類器F(X)。

1)對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使樣本值分布在[0,1]之間。

2)初始化訓(xùn)練樣本的權(quán)值分布并初始化訓(xùn)練數(shù)據(jù)的權(quán)重分布值:Dm表示第m個(gè)弱學(xué)習(xí)器的樣本點(diǎn)的權(quán)值D1=(ω11,ω12,ω13,…,ω1N),ω1i=1/N,i=1,2,…,N。

2 結(jié)果與分析

2.1 環(huán)柄菇毒性判別模型

本文提出的環(huán)柄菇毒性判別模型首先將數(shù)據(jù)集的特征進(jìn)行數(shù)值化處理,再進(jìn)行歸一化處理,采用3∶7的比例,隨機(jī)劃分?jǐn)?shù)據(jù)集之后,得到了測(cè)試集和訓(xùn)練集,對(duì)訓(xùn)練集集樣本進(jìn)行特征篩選,建立起了改進(jìn)后的AdaBoost模型,將測(cè)試集帶入模型并對(duì)模型進(jìn)行評(píng)分,根據(jù)模型分?jǐn)?shù)再進(jìn)行調(diào)參,得到最終的模型,輸出最終的預(yù)測(cè)結(jié)果,如圖3所示。

圖3 模型流程圖

2.2 結(jié)果分析

本文為了突出改進(jìn)之后的AdaBoost模型的優(yōu)化效果,分別建立了單一的邏輯回歸分類器和傳統(tǒng)的AdaBoost分類器模型進(jìn)行比較,本文采用了混淆矩陣作為算法模型的評(píng)判指標(biāo),根據(jù)混淆矩陣可以得到該模型的準(zhǔn)確率,精度,召回率和F1-值。準(zhǔn)確率是混淆矩陣中的TP值和TN值的和除以樣本總數(shù),表示了分類模型中所有判斷正確的結(jié)果占總樣本數(shù)的比例,精度是由混淆矩陣中的TP值除以TP值和FP值的和,表示了在模型預(yù)測(cè)為1的所有樣本中,真實(shí)值也為1的比重,召回率是由混淆矩陣中TP值除以TP值和FN值的和,表示了真實(shí)值為1的所有樣本中,模型預(yù)測(cè)正確的比重,而F1-值是結(jié)合了精度和召回率的指標(biāo),取值范圍在0到1之間,越靠近1表示模型的預(yù)測(cè)效果越好。同時(shí)也分別計(jì)算了真實(shí)值為0和1時(shí)的各個(gè)指標(biāo)的大小,各項(xiàng)指標(biāo)的平均值和加權(quán)平均值。

按照上述試驗(yàn)流程分別對(duì)三種不同的算法進(jìn)行了測(cè)試,測(cè)試樣本總數(shù)為2 438個(gè)樣本,最后將三種算法的指標(biāo)值簡(jiǎn)化整合后,得到了最終的測(cè)試對(duì)比結(jié)果如表3所示。

表3 不同算法測(cè)試結(jié)果對(duì)比

由表3可以看出本文提出的改進(jìn)的AdaBoost算法在各項(xiàng)指標(biāo)中均有極高的評(píng)分,模型分類效果遠(yuǎn)超其他兩種算法。通過(guò)對(duì)比三種算法的準(zhǔn)確度可得,單一的邏輯回歸分類器達(dá)到了94.85%的準(zhǔn)確率,傳統(tǒng)AdaBoost算法易受噪聲點(diǎn)的影響只達(dá)到了91.76%的準(zhǔn)確率,而本文提出的改進(jìn)后的AdaBoost算法解決了這一問(wèn)題,準(zhǔn)確率達(dá)到了99.96%,比單一的弱分類器模型和傳統(tǒng)的AdaBoost分類器的準(zhǔn)確率平均提高了7.5%,且并不易受噪聲點(diǎn)影響??紤]到模型是為了判定環(huán)柄菇是否具有毒性這一目的,召回率的大小對(duì)模型優(yōu)劣起到了很大影響,邏輯回歸算法成功分類出95%的有毒樣本,傳統(tǒng)AdaBoost算法只成功分類出90%的有毒樣本,而改進(jìn)后的AdaBoost算法成功分出了所有的有毒樣本,改進(jìn)后的模型在判定環(huán)柄菇是否含有毒性的問(wèn)題上具有很高的穩(wěn)定性和安全性。

為了更直觀的觀察到改進(jìn)后的算法的性能,本文引入了ROC曲線,ROC曲線可以很容易的查出任意界限值時(shí)對(duì)性能的識(shí)別能力,從而選擇最佳的界限值,本文提出的改進(jìn)后的算法的ROC曲線如圖4所示。

圖4 改進(jìn)的AdaBoost分類器的ROC曲線

ROC曲線越靠近左上角,實(shí)驗(yàn)的準(zhǔn)確性就越高,亦可通過(guò)計(jì)算ROC曲線下的面積AUC進(jìn)行比較,AUC越大,模型的效果越好,由圖4可以觀察到,改進(jìn)后AdaBoost算法的ROC曲線下的面積AUC為1,達(dá)到了AUC的極大值。

通過(guò)在公用數(shù)據(jù)集的實(shí)驗(yàn)表明,本文提出的改進(jìn)后的AdaBoost算法性能遠(yuǎn)高于單一的邏輯回歸分類器和傳統(tǒng)的AdaBoost分類器,在對(duì)環(huán)柄菇毒性判定中取得了完美的效果,在一定程度上改進(jìn)了傳統(tǒng)AdaBoost分類器中權(quán)值更新中存在的缺陷導(dǎo)致拉低模型評(píng)分的局限性。

3 結(jié)論

1)本文提出的改進(jìn)后的AdaBoost分類器模型,通過(guò)添加了對(duì)數(shù)據(jù)樣本的特征篩選環(huán)節(jié)和在集成迭代的過(guò)程中調(diào)整樣本權(quán)值更新的方式,以避免樣本產(chǎn)生過(guò)大的權(quán)值并對(duì)新建的弱分類器產(chǎn)生影響為目標(biāo),運(yùn)用了混淆矩陣中的FN值和FP值,并將兩者的比值作為了懲罰項(xiàng),添加到了更新權(quán)值的公式中。

2)該改進(jìn)后的模型遠(yuǎn)優(yōu)于單一的邏輯回歸弱分類器和傳統(tǒng)的AdaBoost分類器模型,分類的準(zhǔn)確率平均提高了7.5%,在一定程度上解決了蘑菇毒性判定的問(wèn)題,并樹立了新的判別模型,但改進(jìn)之后的模型存在計(jì)算量較大,運(yùn)行時(shí)間較長(zhǎng)的問(wèn)題,將成為日后蘑菇毒性判別模型改進(jìn)的研究方向。總體而言,本文提出的模型確實(shí)提高了預(yù)測(cè)的準(zhǔn)確率,在蘑菇毒性分類問(wèn)題上有較高的實(shí)際利用價(jià)值。

猜你喜歡
權(quán)值分類器邏輯
刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
法律方法(2022年2期)2022-10-20 06:44:24
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
邏輯
創(chuàng)新的邏輯
CONTENTS
CONTENTS
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
女人買買買的神邏輯
37°女人(2017年11期)2017-11-14 20:27:40
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
南召县| 白沙| 滕州市| 阳谷县| 汉沽区| 安丘市| 新龙县| 张北县| 南丹县| 犍为县| 湖南省| 曲松县| 正定县| 寿阳县| 新巴尔虎左旗| 广安市| 孟连| 积石山| 海口市| 沂水县| 微博| 平塘县| 涟水县| 边坝县| 利辛县| 曲水县| 东宁县| 石棉县| 马公市| 乐山市| 饶阳县| 亳州市| 勐海县| 新疆| 荥阳市| 巴林右旗| 龙海市| 奉化市| 托克托县| 车致| 叶城县|