国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種半監(jiān)督機(jī)器學(xué)習(xí)的EM算法改進(jìn)方法

2020-05-09 03:02:42夏筱筠張笑東羅金鳴崔露露趙智陽(yáng)
關(guān)鍵詞:懲罰混合樣本

夏筱筠,張笑東,2,王 帥,2,羅金鳴,崔露露,2,趙智陽(yáng),2

1(中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)2(中國(guó)科學(xué)院大學(xué),北京 100049)3(沈陽(yáng)工程學(xué)院,沈陽(yáng) 110136)

1 引 言

期望最大化(Expectation Maximization,EM)算法是一種被廣泛應(yīng)用于極大似然估計(jì)的迭代計(jì)算方法,用于處理大規(guī)模數(shù)據(jù)不完整問(wèn)題.

EM算法實(shí)際上是一種基于梯度上升的方法,在應(yīng)用于模型參數(shù)估計(jì)時(shí)能夠保證迭代之后的似然函數(shù)是遞增的,因此有一個(gè)很大的弊端就是通常只能得到一個(gè)局部最優(yōu)解.對(duì)于EM算法,國(guó)內(nèi)外學(xué)者提出了很多改進(jìn)方式,比較經(jīng)典且應(yīng)用比較廣泛的有PX-EM算法、ECME算法、MCEM算法.PX-EM算法利用協(xié)方差對(duì)M步的計(jì)算進(jìn)行修正,通過(guò)獲取數(shù)據(jù)的額外信息達(dá)到加快收斂速度的目標(biāo),在應(yīng)用上更加簡(jiǎn)化,而且未破壞EM算法單調(diào)收斂性質(zhì).但PX-EM算法那也有其缺點(diǎn),在擴(kuò)充參數(shù)模型上很難找到一個(gè)通用的標(biāo)準(zhǔn),所以它在局部最優(yōu)解問(wèn)題上并沒(méi)有得到很好的優(yōu)化[1];ECME算法對(duì)E步進(jìn)行了簡(jiǎn)化處理,由于它在極大化過(guò)程中針對(duì)的一直是實(shí)際對(duì)象,而不是實(shí)際對(duì)象的附近量,其擁有的收斂速度比EM和PX-EM算法都要大.然而,ECME算法在局部收斂的問(wèn)題上依然沒(méi)有給出有效的處理方法,依然延續(xù)了EM算法所固有的性質(zhì)[2];MCEM算法用蒙特卡羅的方法對(duì)EM算法進(jìn)行優(yōu)化,對(duì)EM算法中的期望顯示表示進(jìn)行了改善,從而加速了收斂速度,但由于這種方法過(guò)于靈活,在模擬容量選擇和收斂性準(zhǔn)則的確認(rèn)上很難,而且失去了EM算法的單調(diào)性,難以對(duì)其收斂特性進(jìn)行估計(jì),依然在局部最優(yōu)問(wèn)題上沒(méi)有給出有效解決方案[3].

綜上所述,EM算法及其改進(jìn)算法存在在局部最優(yōu)化問(wèn)題上還存在著很大的不足,國(guó)內(nèi)外學(xué)者在改進(jìn)方法上側(cè)重于解決其收斂速度問(wèn)題,針對(duì)EM算法進(jìn)入局部最優(yōu)問(wèn)題還未提出有效方法.對(duì)此,本文將半監(jiān)督機(jī)器學(xué)習(xí)方法用于EM算法改進(jìn),首先在最大似然函數(shù)中加入最小二乘懲罰項(xiàng),引入非負(fù)約束作為先驗(yàn)信息,然后結(jié)合半監(jiān)督機(jī)器學(xué)習(xí)法,將EM算法改進(jìn)方法轉(zhuǎn)化為處理最小化的問(wèn)題,再采用最大似然算法求解EM問(wèn)題,有效地求解了混合矩陣和高斯混合模型參數(shù),實(shí)現(xiàn)EM算法的改進(jìn).通過(guò)實(shí)驗(yàn)理論與實(shí)驗(yàn)結(jié)果分析表明改進(jìn)后EM算法不會(huì)陷入局部最優(yōu),得到的結(jié)果更加可靠.

2 基于半監(jiān)督機(jī)器學(xué)習(xí)的EM算法改進(jìn)分析

2.1 改進(jìn)EM算法先驗(yàn)信息的獲取

以先驗(yàn)理論為基礎(chǔ)依據(jù)概率懲罰定理以及二項(xiàng)分布概率函數(shù)[4],將最大似然函數(shù)表示為:

(1)

公式(1)中,αji=αj(xi)=P(y=j|xi),yji是j×1的某一個(gè)一維向量,代表第i個(gè)觀測(cè)變量,xi=(x1,x2,…,xp)用于描述協(xié)變量.

通過(guò)計(jì)算,L對(duì)數(shù)似然函數(shù)課表示成:

(2)

對(duì)公式(2)關(guān)于j×p進(jìn)行一階偏導(dǎo)求解,那么得分函數(shù)表示為:

(3)

對(duì)S(β)=0進(jìn)行求解,從而獲取參數(shù)估計(jì)值β.

將懲罰項(xiàng)添加到最大似然函數(shù)中會(huì)大大減小得分函數(shù)所帶來(lái)的誤差[5],本文添加的懲罰項(xiàng)為最小二乘懲罰項(xiàng),公式為:

(4)

公式(4)中,p=[p1,p2,…,pi]T代表估計(jì)向量;f=[f1,f2,…,fj]T代表懲罰向量;Q(f)為懲罰項(xiàng);χ代表對(duì)懲罰項(xiàng)的影響程度,χ值可利用實(shí)驗(yàn)獲??;H為i×j系統(tǒng)概率矩陣;k代表迭代次數(shù).

利用最優(yōu)化法對(duì)上述懲罰項(xiàng)進(jìn)行求解,并且通過(guò)OSL算法獲取迭代公式:

(5)

需要指出,Q(f)主要包含二次與非二次,二次懲罰項(xiàng)結(jié)構(gòu)簡(jiǎn)單,通常會(huì)導(dǎo)致數(shù)據(jù)丟失,而非二次懲罰項(xiàng)可避免該弊端[6,7],本文選用非二次懲罰項(xiàng).

(6)

式中,M=Med(fzj,j′∈Nzj),Nzj代表fzj的鄰域.

將非二次懲罰因子加到最大似然函數(shù)中后,那么含有多個(gè)參數(shù)的估計(jì)誤差為:

(7)

事實(shí)上,就是在似然函數(shù)添加懲罰最小二乘項(xiàng)|Q(β)|0.5,似然函數(shù)可描述成:

L(β)*=L(β)|Q(β)|0.5

(8)

對(duì)數(shù)似然函數(shù)可描述成:

l(βj)*=S(β)0.5log|Q(β)|

(9)

得分函數(shù)的基本形式可描述成:

S(βj)*=S(β)-Ab(β)/n

(10)

其中,

b(β)/n=(XTWX)-1XTWε

(11)

A=XTWX

(12)

利用得分函數(shù)與添加懲罰項(xiàng)之后的最大似然函數(shù),得到先驗(yàn)信息如下:

S(β)*=S(β)-XTWε

(13)

2.2 EM算法改進(jìn)的實(shí)現(xiàn)

在上述處理最大似然函數(shù)的基礎(chǔ)上,本節(jié)首先對(duì)EM算法實(shí)現(xiàn)過(guò)程進(jìn)行分析,然后引入非負(fù)約束先驗(yàn)信息,采用半監(jiān)督機(jī)器學(xué)習(xí)的方式對(duì)EM算法實(shí)現(xiàn)改進(jìn).

EM算法指的是觀測(cè)數(shù)據(jù)是否含隱含變量條件下,也就是所用觀測(cè)數(shù)據(jù)是非完整數(shù)據(jù)的情況下,使用極大似然函數(shù)對(duì)這些數(shù)據(jù)進(jìn)行處理,經(jīng)過(guò)多次循環(huán),最終獲得最優(yōu)值的算法[9,10].

在傳統(tǒng)EM算法中,通常會(huì)使用最大似然準(zhǔn)則完成對(duì)參數(shù)估量.假設(shè)存在N個(gè)數(shù)據(jù)X=[x1,x2,…,xN],這些數(shù)據(jù)是通過(guò)特定分布p(X|θ)獨(dú)立采樣獲取[11],結(jié)合先驗(yàn)知識(shí),則似然函數(shù)可描述成:

(14)

最大似然準(zhǔn)則為找到符合以下條件的模型參數(shù):

θ*=arg maxL(θ|X)

(15)

為了簡(jiǎn)化計(jì)算過(guò)程,使用函數(shù)log(L(θ|X))進(jìn)行最終解的優(yōu)化,其中,log(L(θ|X))為對(duì)數(shù)似然.如果Z代表一個(gè)數(shù)據(jù)集,其中有兩組數(shù)據(jù),一組是已觀測(cè)數(shù)據(jù),另一組是未觀測(cè)數(shù)據(jù),用X代表已觀測(cè),用Y代表未觀測(cè),則Z=(X,Y)一般被稱作完全數(shù)據(jù)集與缺失數(shù)據(jù)集,則有:

p(z|θ)=P(x,y|θ)=p(y|x,θ)p(x|θ)

(16)

假定似然函數(shù)可表示成:

L(θ|Z)=p(X,Y|θ)

(17)

完整數(shù)據(jù)的對(duì)數(shù)似然函數(shù)一般是在E步驟中進(jìn)行的,這里X為已知量,那么針對(duì)未知變量Y的期望[12]用R函數(shù)表示:

(18)

在M-step中,通過(guò)下式對(duì)模型參數(shù)進(jìn)行更新處理:

(19)

EM算法通常不斷對(duì)E步與M步進(jìn)行循環(huán)處理,直至參數(shù)達(dá)到收斂.它在理想狀態(tài)下可獲得局部最優(yōu)化值[13].

EM能夠適應(yīng)不同的問(wèn)題環(huán)境,為了充分考慮不同應(yīng)用場(chǎng)景,統(tǒng)一表示成為:

y=Cx

(20)

其中,矢量y∈Rm×1代表測(cè)量數(shù)據(jù),矢量x∈Rn×1代表觀測(cè)對(duì)象密度分布估計(jì)值,矩陣C∈Rm×n代表映射矩陣.

考慮到大部分物理過(guò)程均為衰減過(guò)程,x與y均為非負(fù)矢量,然而矢量δU與δσ無(wú)法保證非負(fù)約束,為此,引入先驗(yàn)信息對(duì)δU進(jìn)行計(jì)算:

δU=(-1)q(Umea-Uref)

(21)

其中,Uref用于描述理論測(cè)量值,Umea用于描述實(shí)際測(cè)量值.q值主要取決于先驗(yàn)信息(1.1節(jié)得到),也就是如果Uref和Umea相比,Uref為較低的測(cè)量值,那么q=2;否則,q=1.

在上述非負(fù)約束先驗(yàn)信息下,將半監(jiān)督機(jī)器學(xué)算法思想應(yīng)用于EM算法的優(yōu)化之中.

通常來(lái)講,如圖1所示,在EM算法的每次循環(huán)中.

圖1 EM算法迭代過(guò)程示意圖Fig.1 Schematic diagram of iteration process of EM algorithm

設(shè)定沒(méi)有標(biāo)注樣本di按照權(quán)重P(cj|di;θ′)分配,也就是在確定c*值的情況下,下一輪計(jì)算di也僅可用于占其P(c*|di;θ′)部分參與和c*的訓(xùn)練,并且需考慮其和其余類(lèi)別相關(guān)P(cj|di;θ′)的可能性.EM算法不判斷為標(biāo)定樣本量,從而導(dǎo)致陷入局部最優(yōu),且收斂速度變慢.在EM算法中,P(cj|di;θ′)一直非零,所以本和其它種類(lèi)相關(guān)的未標(biāo)注的信息也在很大程度上會(huì)以P(cj|di;θ′)的部分對(duì)其余訓(xùn)練產(chǎn)生干擾,導(dǎo)致陷入局部最優(yōu).

半監(jiān)督機(jī)器學(xué)習(xí)方法在每次訓(xùn)練時(shí),可把確定結(jié)果引入到當(dāng)前標(biāo)注樣本集,使用已經(jīng)得到的結(jié)果訓(xùn)練,達(dá)到較好的訓(xùn)練效果,這是一種自訓(xùn)練的方式,大大避免了局部最優(yōu)化問(wèn)題.

本節(jié)把這種半監(jiān)督機(jī)器學(xué)習(xí)方法用于EM改進(jìn)中,在每次迭代,按照E步驟所得結(jié)果標(biāo)注確定的樣本數(shù)據(jù),M步驟訓(xùn)練新訓(xùn)練集下樣本[14,15].使得每次迭代未標(biāo)注樣本集U逐步減小,加大迭代速度,并且防止干擾.所以針對(duì)當(dāng)前剛被添加至標(biāo)注樣本集的文本di∈L,如圖2所示,依據(jù)訓(xùn)練結(jié)果直接設(shè)置P(cj|di;θ′)∈{0,1},其余信息不會(huì)對(duì)其它訓(xùn)練產(chǎn)生干擾.

本文給出半監(jiān)督機(jī)器學(xué)習(xí)改進(jìn)EM算法的方法,如下:

1)假設(shè)t=0.

2)定義θ′(0)=argmaxθP(θ|L).

3)當(dāng)U!=?時(shí),執(zhí)行E步驟,假設(shè)z′(t+1)=E[z|D;θ′(t)],則有:

P(i*,j*)=argmax(i,j){zij|di∈U}

(22)

令L=L∪{(di*,lj*)},U=U{di*},針對(duì)j=1~|C|,令zi*j=0,否則zi*j*=1

4)那么M步有,θ′(t+1)=argmaxθP(θ|D;z′(t+1)).

5)令t=t+1,循環(huán)進(jìn)行上述步驟,輸出θ′(t).

本節(jié)使用半監(jiān)督機(jī)器學(xué)習(xí)的方式,在每輪E步中都會(huì)選擇zj中最大的zi*j*,同時(shí)把di*從U中刪除,把(di*,lj*)添加至集合L,并且將zi*j(j≠j*)置0,將zi*j*置1.M-step在訓(xùn)練集上對(duì)θ′進(jìn)行估計(jì).事實(shí)上,每輪迭代不是只選擇一個(gè)沒(méi)有標(biāo)注的樣本進(jìn)行標(biāo)注,可依據(jù)差異原則,標(biāo)注若干可標(biāo)注樣本,實(shí)現(xiàn)標(biāo)注效率的大幅度提升.

半監(jiān)督機(jī)器學(xué)習(xí)方法在每輪迭代過(guò)程中會(huì)將完全確定的未標(biāo)注樣本添加標(biāo)簽,放入標(biāo)注樣本集合,為后續(xù)訓(xùn)練提供高質(zhì)量標(biāo)注樣本,大大減少循環(huán)次數(shù),從而避免了局部最優(yōu)化問(wèn)題的發(fā)生,提高訓(xùn)練性能.

圖2 改進(jìn)EM過(guò)程示意圖Fig.2 Modified EM process diagram

在上述分析的基礎(chǔ)上,將最大似然方法引入,利用其對(duì)EM模型進(jìn)行求解計(jì)算,構(gòu)造下述似然函數(shù):

(23)

上式中,λi=(Jδθ)i代表期望值.為了提高收斂速度,在似然函數(shù)中加入懲罰最小二乘,引入非負(fù)約束當(dāng)成先驗(yàn)信息,轉(zhuǎn)換成最小化問(wèn)題:

(24)

2.3 改進(jìn)EM算法的應(yīng)用

為更深入闡述本文優(yōu)化方法,現(xiàn)使用本文優(yōu)化后的方法對(duì)混合矩陣與高斯混合模型參數(shù)進(jìn)行計(jì)算估量.

首先對(duì)混合矩陣進(jìn)行剖析,x=[x1,x2,…,xd]T是d維隨機(jī)變量,它概率密度函數(shù)可表示成:

(25)

用θm代表某個(gè)變量的密度模型中的參數(shù),通過(guò)各p(x|θm),獲取差異混合矩陣.混合矩陣全部參數(shù)集合可描述成θm={(?m,θm)}.

混合高斯模型把各點(diǎn)出現(xiàn)的概率當(dāng)成多個(gè)混合模型得到的結(jié)果,這是一種聚類(lèi)的思維[16].混合高斯模型將每個(gè)模型經(jīng)過(guò)加權(quán)處理之后,可得其概率密度函數(shù)[17]:

(26)

(27)

其中,πk代表權(quán)重,代表模型被選中概率,μk、∑k分別代表均值和方差.

使用最大似然函數(shù)[18]的方式對(duì)混合高斯模型進(jìn)行訓(xùn)練,可表示成為:

(28)

針對(duì)上式及混合矩陣參數(shù)的直接求解非常困難,本節(jié)采用改進(jìn)EM算法迭代訓(xùn)練獲取.

給出有限標(biāo)記訓(xùn)練樣本集,用Gl={(X1,y1),…,(XL,yL)}進(jìn)行描述,其中Xi代表某樣本,該樣本是高斯混合模型,yi代表對(duì)應(yīng)類(lèi)標(biāo).在整個(gè)訓(xùn)練樣本集Gl中,共存在M個(gè)類(lèi)型,因此有yi∈{c1,c2,…,cM}.

X=〈x1,x2,…,xN〉,xn∈Rd.針對(duì)各Sl中的(Xi,yi),假設(shè)其均互相獨(dú)立同分布,并假設(shè)針對(duì)未標(biāo)記樣本X,如果最大后驗(yàn)概率為P(cj|X),那么j類(lèi)中包含X,可通過(guò)類(lèi)條件概率密度函數(shù)p(X|cj)與相關(guān)法則對(duì)后驗(yàn)概率進(jìn)行求解:

(29)

式中,P(cj)代表先驗(yàn)概率.

(30)

針對(duì)于變量分類(lèi)條件概率密度,使用混合高斯模型進(jìn)行表示[19],如公式(31)所示.

(31)

某一種混合變量的數(shù)量用K表示,混合權(quán)重用?jk進(jìn)行表示,使用p(x|μjk,∑jk)代表多元混合高斯模型的概率密度.

完整高斯混合模型,也就是X=〈x1,x2,…,xN〉的類(lèi)條件概率密度可寫(xiě)成公式(32)的結(jié)構(gòu)形式.

(32)

則可獲取后驗(yàn)概率,P(cj|X),令:

(33)

利用上述過(guò)程實(shí)現(xiàn)樣本標(biāo)記.

θj=(?jk,μjk,∑jk)代表混合高斯模型,θm={(?m,θm)}代表混合矩陣全部參數(shù)集合,使用EM算法對(duì)它們的參數(shù)進(jìn)行估量,在半監(jiān)督機(jī)器學(xué)習(xí)過(guò)程中,如果學(xué)習(xí)樣本集包含兩種不同的集合組,即:G=Gl∪Gu,可以為為標(biāo)記和已標(biāo)記兩個(gè)組.

G={(x1,y1),…,(xl,yl),(xl+1,yl+1),…,(xl+1,yl+u)}

(34)

針對(duì)各未標(biāo)記樣本xi,對(duì)描述類(lèi)別數(shù)量的M個(gè)隱含變量zij進(jìn)行定義:

(35)

θj代表混合矩陣和混合高斯模型參數(shù),使用改進(jìn)之后的EM算法進(jìn)行求解.其中,初始迭代參數(shù)θ0使用已經(jīng)做過(guò)標(biāo)注樣本進(jìn)行計(jì)算,再通過(guò)下述過(guò)程進(jìn)行迭代:

對(duì)于未分類(lèi)的樣本,在E步驟中使用最大后驗(yàn)概率進(jìn)行標(biāo)記,通過(guò)公式(36)計(jì)算:

(36)

在M步驟中,按照所作標(biāo)記的新樣本使用最大似然對(duì)參數(shù)進(jìn)行重新求解,得到新的結(jié)果.

基于上述過(guò)程,設(shè)計(jì)改進(jìn)EM算法估計(jì)參數(shù)流程為:

1)假設(shè)t=0.

4)針對(duì)M步驟,令θl+1=argmaxθP(G,z(l+1)|θ).

5)令t=t+1,對(duì)以上步驟循環(huán)至收斂.

6)輸出θl,需要注意的是,每一類(lèi)的混合高斯模型的參數(shù)都是通過(guò)當(dāng)前類(lèi)別中的樣本集進(jìn)行估計(jì)的.

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)理論

對(duì)于EM算的局部最優(yōu)化問(wèn)題,主要原因?yàn)槠涑跏贾档脑O(shè)置不夠合理.

在本次實(shí)驗(yàn)中,首先對(duì)EM算法的初始化值進(jìn)行訓(xùn)練學(xué)習(xí),同時(shí),將傳統(tǒng)方法作為對(duì)照實(shí)驗(yàn)組,與所提方法進(jìn)行對(duì)比,并給出對(duì)比結(jié)果.

衡量算法有效性的另一個(gè)參數(shù)為算法擬合值,所謂算法擬合效果即算法能否按照原設(shè)定進(jìn)行運(yùn)算和應(yīng)用.本次實(shí)驗(yàn)獲取文獻(xiàn)[4]算法、文獻(xiàn)[6]算法以及所提算法的擬合曲線,具體獲取方法如下:

將待測(cè)數(shù)據(jù)集H劃分為兩個(gè)子集H1與H2,其劃分規(guī)則如下:將每個(gè)待測(cè)數(shù)據(jù)隨機(jī)的劃分到兩個(gè)子集的其中任意一個(gè)中去.分別在兩個(gè)觀測(cè)樣本子集H1,H2上將算法目標(biāo)函數(shù)極大化,得到擬合值,并對(duì)多個(gè)擬合值進(jìn)行整合,得到擬合曲線.利用擬合曲線可以看出算法的擬合效果,擬合的吻合程度越高,則說(shuō)明實(shí)驗(yàn)方法的性能越高.

3.2 實(shí)驗(yàn)過(guò)程

針對(duì)EM方法在執(zhí)行過(guò)程中經(jīng)常會(huì)經(jīng)過(guò)很多次學(xué)習(xí)來(lái)篩選出最優(yōu)的初始值.表1為傳統(tǒng)方法和改進(jìn)之后的方法性能對(duì)比.

分析表1可知,初始化相同的情況下,改進(jìn)之后的方法對(duì)局部最優(yōu)化問(wèn)題起到了明顯的抑制作用.

利用復(fù)合抽樣法形成三階數(shù)據(jù),參數(shù)設(shè)置成,樣本數(shù)量是2000個(gè).樣本采樣序列以及理論曲線分別用圖3和圖4進(jìn)行描述.

在進(jìn)行實(shí)驗(yàn)過(guò)程中,本文分別將文獻(xiàn)[4]方法和文獻(xiàn)[6]方法作為對(duì)比進(jìn)行參數(shù)估計(jì),預(yù)設(shè)的研究模型的階數(shù)是3,但本文方法模型階數(shù)是4,這主要是由于復(fù)雜曲線可利用各種組成成分構(gòu)成.

表1 傳統(tǒng)方法和改進(jìn)后的方法性能對(duì)比
Table 1 Performance comparison between traditional
method and improved method

實(shí)驗(yàn)次數(shù)算法迭代次數(shù)迭代時(shí)間/s對(duì)數(shù)似然函數(shù)值1傳統(tǒng)算法5019-3.52e6改進(jìn)算法7826-3.44e62傳統(tǒng)算法5019-3.53e6改進(jìn)算法4318-3.48e63傳統(tǒng)算法8327-3.52e6改進(jìn)算法3617-3.48e6

圖3 樣本采樣序列Fig.3 Sample sampling sequence

010.008.006.004.002.0擬合值-20-100102030樣本值圖4 理論曲線Fig.4 Theoretical curve010.008.006.004.002.0擬合值-20-100102030樣本值原始曲線本文方法擬合結(jié)果圖5 本文方法擬合結(jié)果Fig.5 Fitting results of thismethod

為了將本文方法和文獻(xiàn)[4]方法、文獻(xiàn)[6]方法進(jìn)行比較,也把這兩種方法的階數(shù)設(shè)置成6.本實(shí)驗(yàn)利用不同方法擬合曲線和原始曲線相比,替代參數(shù)估計(jì)值與設(shè)定值的比較,從而便于分析.

010.008.006.004.002.0擬合值-20-100102030樣本值原始曲線文獻(xiàn)[]4方法擬合結(jié)果圖6 文獻(xiàn)[4]方法擬合結(jié)果Fig.6 Fitting results ofdocument[4]010.008.006.004.002.0擬合值-20-100102030樣本值原始曲線文獻(xiàn)[6]方法擬合結(jié)果圖7 文獻(xiàn)[6]方法擬合結(jié)果Fig.7 Fitting results ofdocument[6]

采用本文方法、文獻(xiàn)[4]方法、文獻(xiàn)[6]方法進(jìn)行擬合,得到的擬合曲線和原始曲線比較結(jié)果依次用圖5、圖6和圖7進(jìn)行描述.

本文實(shí)驗(yàn)樣本數(shù)量較為充足,將不同樣本初始條件劃分成6類(lèi),針對(duì)6種初始條件,獲取本文方法擬合結(jié)果和文獻(xiàn)[4]方法、文獻(xiàn)[6]方法相比的性能可通過(guò)表2進(jìn)行描述.

表2 源信號(hào)處理前后功率譜峰值及對(duì)應(yīng)頻率
Table.2 Comparison of fitting performance of three methods

初始條件采用方法迭代次數(shù)/次迭代時(shí)間/s似然函數(shù)值初始條件1本文方法4215-3.46E+06文獻(xiàn)[4]方法5323-3.59E+06文獻(xiàn)[6]方法8235-3.56E+06初始條件2本文方法4919-3.47E+06文獻(xiàn)[4]方法6828-3.61E+06文獻(xiàn)[6]方法7533-3.58E+06初始條件3本文方法3812-3.49E+06文獻(xiàn)[4]方法6531-3.55E+06文獻(xiàn)[6]方法8925-3.59E+06初始條件4本文方法3220-3.46E+06文獻(xiàn)[4]方法5139-3.54E+06文獻(xiàn)[6]方法5551-3.62E+06初始條件5本文方法4518-3.49E+06文獻(xiàn)[4]方法7237-3.59E+06文獻(xiàn)[6]方法8842-3.53E+06初始條件6本文方法4113-3.49E+06文獻(xiàn)[4]方法8921-3.62E+06文獻(xiàn)[6]方法6036-3.65E+06

3.3 實(shí)驗(yàn)結(jié)果分析

綜合分析不同方法擬合曲線和原始曲線比較結(jié)果可以看出,本文提出的基于半監(jiān)督機(jī)器學(xué)習(xí)的改進(jìn)EM算法得到的擬合曲線和原始曲線的重合程度比文獻(xiàn)[4]方法、文獻(xiàn)[6]方法明顯更優(yōu),表明本文方法擬合性能明顯高于其它兩種方法,這主要是因?yàn)楸疚母倪M(jìn)EM算法對(duì)傳統(tǒng)EM算法容易陷入局部最優(yōu)的弊端進(jìn)行了有效的優(yōu)化,使得本文方法得到的最優(yōu)解和實(shí)際值更加吻合,而文獻(xiàn)[4]方法、文獻(xiàn)[6]方法無(wú)法解決傳統(tǒng)EM算法容易陷入局部最優(yōu)的問(wèn)題,得到的解并非最優(yōu)解,導(dǎo)致擬合精度低.

分析不同方法擬合性能可以看出,在初始化相同情況下,本文方法對(duì)模型容易進(jìn)入局部最優(yōu)的問(wèn)題起到了明顯的抑制作用,能夠獲取更優(yōu)的擬合結(jié)果.不僅如此,本文方法迭代次數(shù)最少,迭代時(shí)間最短,整體性能優(yōu).

4 結(jié) 論

本文針對(duì)EM算法及其改進(jìn)改進(jìn)所存在的不足,使用半監(jiān)督機(jī)器學(xué)習(xí)機(jī)制對(duì)其進(jìn)行改進(jìn)和優(yōu)化.

使用二項(xiàng)分布概率函數(shù)以及懲罰概率定理以及,對(duì)最大似然函數(shù)進(jìn)行描述,將懲罰因子加入到最大似然函數(shù)之中,大大降低了模型的最大似然估計(jì)的誤差.

對(duì)EM算法實(shí)現(xiàn)過(guò)程進(jìn)行分析,引入非負(fù)約束先驗(yàn)信息,針對(duì)EM算法很難在全局量空間中求解出最優(yōu)解問(wèn)題,結(jié)合半監(jiān)督機(jī)器學(xué)習(xí)機(jī)制實(shí)現(xiàn)EM算法的優(yōu)化改進(jìn),利用其中的一種自訓(xùn)練學(xué)習(xí)模式,在每次的訓(xùn)練的過(guò)程中,把確定標(biāo)本放入到標(biāo)記集合之中,經(jīng)過(guò)自己所得到的結(jié)果進(jìn)行訓(xùn)練,獲得很好的訓(xùn)練結(jié)果,很好地避免了陷入局部最優(yōu).在此基礎(chǔ)上,EM算法數(shù)學(xué)模型參數(shù)通過(guò)最大似然方法進(jìn)行計(jì)算和優(yōu)化,構(gòu)造似然函數(shù),在最大似然函數(shù)增加懲罰最小二乘因子,引入非負(fù)約束當(dāng)成先驗(yàn)信息,轉(zhuǎn)換成最小化問(wèn)題.

仿真實(shí)驗(yàn)結(jié)果表明,本文所提的基于半監(jiān)督機(jī)器學(xué)習(xí)模式的改進(jìn)EM算法得到的擬合曲線和原始曲線的重合程度比其它方法明顯更優(yōu),說(shuō)明所提方法不會(huì)陷入局部最優(yōu),擬合性能好.除此之外,所提方法迭代次數(shù)最少,迭代時(shí)間最短,整體性能優(yōu).

猜你喜歡
懲罰混合樣本
混合宅
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
一起來(lái)學(xué)習(xí)“混合運(yùn)算”
神的懲罰
小讀者(2020年2期)2020-03-12 10:34:06
Jokes笑話
推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
懲罰
油水混合
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
村企共贏的樣本
滦平县| 阿拉尔市| 淮北市| 花莲市| 北宁市| 鄂尔多斯市| 宁陵县| 昌吉市| 平罗县| 施甸县| 彭阳县| 连江县| 英超| 镇沅| 酉阳| 威远县| 陵水| 格尔木市| 安多县| 丽江市| 东至县| 敦化市| 保德县| 新河县| 红安县| 明溪县| 乡城县| 含山县| 吉隆县| 通榆县| 常德市| 灵石县| 屏山县| 和林格尔县| 南江县| 新闻| 张家口市| 独山县| 湄潭县| 九江县| 蒙城县|