国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊向量機(jī)優(yōu)化的信息分類優(yōu)化模型設(shè)計(jì)

2021-11-17 08:37趙傳信
計(jì)算機(jī)仿真 2021年5期
關(guān)鍵詞:向量標(biāo)簽樣本

趙 誠(chéng),趙傳信,夏 蕓

(安徽師范大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 蕪州 241000)

1 引言

分類即通過訓(xùn)練樣本構(gòu)建模型,將測(cè)試樣本分為一種或多種類的方法,傳統(tǒng)單標(biāo)簽分類問題的所有實(shí)例都只存在一種單獨(dú)的類標(biāo),同時(shí)這個(gè)類標(biāo)來自于互不相交的有限標(biāo)簽集合。然而,在現(xiàn)實(shí)生活中,有很多問題都存在多種標(biāo)簽[1]。例如,一首歌曲可能存在多種標(biāo)簽,一則新聞可能同時(shí)涉及宗教與政治兩種不同的體系。除此之外,視頻與圖書的語義標(biāo)注、功能基因組學(xué)、文本分類以及其他應(yīng)用均具有多標(biāo)簽特性。由于多標(biāo)簽應(yīng)用問題的不斷出現(xiàn),對(duì)多標(biāo)簽的研究吸引了眾多學(xué)者的關(guān)注,其成為了數(shù)據(jù)挖掘領(lǐng)域中一種新的研究熱點(diǎn)之一[2]。

肖琳[3]等提出基于標(biāo)簽語義注意力的多標(biāo)簽文本分類方法,該方法通過雙向長(zhǎng)短時(shí)記憶得到不同單詞的隱性表示,并采用標(biāo)簽語義注意力機(jī)制獲取每個(gè)單詞的權(quán)重,在此基礎(chǔ)上利用標(biāo)簽的相關(guān)性,在文本數(shù)據(jù)集中實(shí)現(xiàn)文本分類。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)對(duì)不同類型文本信息的分類,但是分類結(jié)果中存在大量的重疊信息。李鋒和楊有龍[4]提出了基于標(biāo)簽特征和相關(guān)性的多標(biāo)簽分類算法,采用重采樣技術(shù)獲取正類實(shí)例,同時(shí),利用特征映射函數(shù)轉(zhuǎn)換特征空間,以此得到標(biāo)簽特征集,并尋找特征集中互為相關(guān)的標(biāo)簽,從而實(shí)現(xiàn)多標(biāo)簽分類。實(shí)驗(yàn)結(jié)果證明,該算法可以改善類不平衡的問題,但是分類結(jié)果準(zhǔn)確性不高。由于傳統(tǒng)的信息分類方法,大多只通過數(shù)據(jù)挖掘領(lǐng)域內(nèi)的支持向量機(jī)對(duì)信息進(jìn)行分類,但這類方法很容易會(huì)損傷信息標(biāo)簽,導(dǎo)致分類效果不佳。

針對(duì)上述問題,設(shè)計(jì)了一個(gè)基于模糊向量機(jī)優(yōu)化的信息分類優(yōu)化模型,通過模糊C劃分方法與信息增益,提升需要分類標(biāo)簽的特征,依靠模糊支持向量機(jī)與核聚類,實(shí)現(xiàn)信息分類優(yōu)化的目的。

2 基于模糊向量機(jī)優(yōu)化的信息分類優(yōu)化模型

2.1 模糊C劃分

把模糊C均值使用在信息分類優(yōu)化中,針對(duì)信息類型的多樣性,對(duì)多標(biāo)簽信息進(jìn)行分類,憑借隸屬度U描述一種標(biāo)簽歸于某一標(biāo)簽的程度。多標(biāo)簽空間L={l1,l2,…,ll}的模糊C劃分目標(biāo)函數(shù)是:

(1)

J(U,c1,…,cc,λ1,…,λj)

(2)

其中,λj=(j=1,…,q)代表q種約束式的拉格朗日乘子。對(duì)每一種輸入?yún)⒘窟M(jìn)行求導(dǎo),獲得隸屬度[5]的更新方程為:

(3)

2.2 信息增益

信息增益可量化隨機(jī)標(biāo)簽變量X與Y的關(guān)系程度,其值的運(yùn)算方式如下所示:

(4)

其中,p(x)代表x的概率密度;p(x,y)代表x與y的聯(lián)合概率密度。

信息增益能夠通過聯(lián)合熵[6]與熵進(jìn)行描述即:

IG(X,Y)=H(X)+H(Y)-H(X,Y)

(5)

信息增益可以有效地表示兩種或多種變量標(biāo)簽之間的關(guān)系程度,信息增益越大,代表變量之間的關(guān)系程度越高。

2.3 雙標(biāo)簽?zāi):蛄繖C(jī)模型

模糊支持向量機(jī)會(huì)在所有信息樣本中添加一種隸屬度,對(duì)于多標(biāo)簽信息,首先根據(jù)具體問題,選取一種合適的隸屬度函數(shù),這個(gè)函數(shù)需要能夠映射所有信息樣本xi對(duì)其所屬類別yi的隸屬度。因此,把原始訓(xùn)練集?={(x1,y1),(x2,y2),…,(xl,yl)}變換為模糊訓(xùn)練集:

?′={(x1,y1,μ1),(x2,y2,μ2),…,(xl,yl,μl)}

(6)

其中,xi∈Rd(i=1,2,…,l)代表在d維空間內(nèi)的第i種測(cè)試信息樣本。在多標(biāo)簽分類問題中,yi∈{-1,1},0≤μi≤1代表訓(xùn)練點(diǎn)(xiyiμi)隸屬于yi類的模糊隸屬度。

擬定參數(shù)ξi為測(cè)量錯(cuò)分程度的度量,模糊隸屬度μi即訓(xùn)練點(diǎn)(xiyiμi)歸屬于某種類的程度,因此,(μi,ξi)可以用于測(cè)試重要性不同的訓(xùn)練點(diǎn)錯(cuò)分程度。

針對(duì)模糊訓(xùn)練集[7],把運(yùn)算最優(yōu)分配超平面的問題,轉(zhuǎn)化為下列運(yùn)算優(yōu)化問題:

(7)

其中,把xi∈Rd映射到高維特征空間,C>0即懲罰因子,該因子可以表示錯(cuò)分的關(guān)鍵程度,ξi≥0為信息樣本的松弛向量,ξ=(ξ1,ξ2,…,ξl)T,w,b分別代表高維特征空間內(nèi)線性評(píng)測(cè)函數(shù)的常數(shù)項(xiàng)與權(quán)向量。

將式(7)的優(yōu)化問題對(duì)偶規(guī)劃成:

(8)

f(x)=sgn{(w*×x)+b*},x∈Rd

(9)

針對(duì)非線性問題,添加核函數(shù)K(xi,xj),能夠把式(8)轉(zhuǎn)換成:

(10)

經(jīng)過計(jì)算最優(yōu)化問題,進(jìn)一步得到最優(yōu)分類函數(shù)[8]為:

(11)

2.4 基于模糊向量機(jī)的多標(biāo)簽信息分類

根據(jù)得到的最優(yōu)分類函數(shù),使用一對(duì)一分解策略將分類的初始問題分解成k(k-1)/2種子問題,所有子問題均存在多種類的信息,則所有信息樣本具有三種情況:只含有第一種標(biāo)簽的信息樣本;只含有第二種信息標(biāo)簽的樣本;同時(shí)含有第一、二種信息標(biāo)簽的樣本。為了便于查找,在子問題里將含有第一種信息標(biāo)簽的樣本表示為正類樣本,設(shè)定其輸出yi=1,把含有第二種信息標(biāo)簽的樣本表示為負(fù)類樣本,設(shè)定其輸出yi=-1;將同時(shí)存在第一、第二種信息標(biāo)簽的樣本描述成混合類樣本,擬定其輸出是yi=0。

通過搜索支持向量機(jī)[9]構(gòu)建最優(yōu)超平面,繼而把信息樣本分化成相互獨(dú)立的兩大類。然而在現(xiàn)實(shí)使用中,在某些特定狀態(tài)下,信息樣本并不能完全規(guī)劃至某一類內(nèi),即樣本和類別之間具有某種模糊隸屬關(guān)系,因此,通過模糊支持向量機(jī)[10]經(jīng)過增添一種模糊隸屬關(guān)系,進(jìn)而充分地利用信息樣本。

擬定子集為Xmn={(x1,y1,μ1),…,(xl,yl,μl)},其中,m∈[1,k],n∈(m,k],xi∈Rd(i=1,2,…,l)代表在d維空間內(nèi)的第i種測(cè)試信息樣本;在多標(biāo)簽分類問題中,yi∈{-1,0,1},其中,訓(xùn)練子集信息樣本函數(shù)值為1、-1與0的信息樣本總量分別為l+,l-,l0(l++l-+l0=l),0≤μi≤1代表訓(xùn)練點(diǎn)(xiyiμi)隸屬于某種類的模糊隸屬度。

(12)

模糊支持向量機(jī)憑借訓(xùn)練信息樣本對(duì)分類作用的不同,給不同的信息樣本添加不同的錯(cuò)分懲罰,繼而克服噪聲對(duì)分類的干擾。模糊支持向量機(jī)在應(yīng)用中的難點(diǎn)在于怎樣確定信息樣本的隸屬度,如果確定不當(dāng),會(huì)造成分類器精度的降低,因此,需要對(duì)模糊向量機(jī)進(jìn)行優(yōu)化,從而實(shí)現(xiàn)對(duì)信息的準(zhǔn)確分類。

2.5 基于核聚類的模糊向量機(jī)優(yōu)化

模糊支持向量機(jī)訓(xùn)練效率較慢,其大部分運(yùn)算在于查找支持向量,進(jìn)而組建最優(yōu)超平面。而通過研究發(fā)現(xiàn),模糊支持向量通常會(huì)在特征空間的邊緣分布,位于類中心的向量大多都不是支持向量,對(duì)組建最優(yōu)超界面沒有任何意義,其具體流程如圖1所示。

圖1 支持向量分布圖

圖1內(nèi),黑色正方形為一類信息,圓點(diǎn)為另外一類信息,H為最優(yōu)分類超平面,其是經(jīng)過一組支持向量位移確定的。但是信息樣本里一般會(huì)存在一些不存在合理解釋的樣本,比如圖內(nèi)的噪聲點(diǎn)。這些噪聲點(diǎn)會(huì)對(duì)學(xué)習(xí)得到的最優(yōu)超平面造成嚴(yán)重的負(fù)面影響。而通常來講,信息樣本只是訓(xùn)練集中的一部分,因此較為現(xiàn)實(shí)的辦法就是刪除那些不可能是支持向量的點(diǎn),再訓(xùn)練支持向量機(jī),這樣就可以最大程度地減少運(yùn)算量,同時(shí)提升最優(yōu)超平面獲取結(jié)果。

由于核聚類算法具有收斂效率高的特點(diǎn),而模糊聚類對(duì)初始化問題不會(huì)過于敏感,同時(shí)其中的隸屬度函數(shù)還能夠?qū)⑿畔颖局g的相近信息進(jìn)行映射,因此,通過將半模糊劃分方法引入核聚類內(nèi),獲取半模糊核聚類算法來解決問題。

擬定核映射Φ(xi)為將信息樣本xi映射到高維特征空間H的非線性映射,模糊劃分矩陣為U={μji},1≤j≤C,1≤i≤n,vj代表第j種簇的聚類中心,m∈(1,∞)代表模糊加權(quán)指數(shù),那么兩點(diǎn)xi,xj在特征空間內(nèi)的尺寸d(xi,xj)為:

=Φ2(xi)-2Φ(xi)·Φ(xj)+Φ2(xj)

=K(xi,xi)-2K(xi,xj)+K(xj,xj)

(13)

半模糊核聚類方法的具體實(shí)現(xiàn)過程如下所示:

1)挑選迭代終止條件ε∈(0,1),最大迭代次數(shù)為T;

2)初始化類中心v1,v2,…,vc;

5)運(yùn)算K(xi,vj),K(vi,vj);

算法中m代表超過1的參數(shù),B為超過0的參數(shù),其值越大,評(píng)測(cè)信息樣本隸屬度達(dá)到1的標(biāo)準(zhǔn)就越困難,經(jīng)過測(cè)驗(yàn),其取值達(dá)到0.65時(shí),能夠獲得期望中的聚類效果。經(jīng)過核聚類,信息樣本被分類為若干個(gè)模糊類,其形式為(xi,μji)。

依靠μji的值,信息樣本可以被分成兩類:信息樣本完全歸于某一類,該類樣本對(duì)其他類的隸屬度為0,這種信息樣本一般都比較靠近某一類的中心,并且和其他類相距較遠(yuǎn),通常不會(huì)變成支持向量;另外一種即信息樣本至其他類的距離相差不大,其位于不同交界坐標(biāo),該類樣本存在一定幾率成為支持向量。對(duì)于前者,可以直接將其分類到最接近的類內(nèi),不需要考慮和其他類的關(guān)聯(lián),不需要再進(jìn)入到下一步支持向量機(jī)的訓(xùn)練內(nèi)。對(duì)于后者,需要憑借訓(xùn)練學(xué)習(xí)對(duì)其進(jìn)行評(píng)價(jià),然后將其分類到某一類內(nèi)。

3 實(shí)驗(yàn)證明

為了證明所提方法的實(shí)用性,擬定不同的信息數(shù)據(jù)集,并選取三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)即:漢明損失、準(zhǔn)確性以及信息重疊率,對(duì)基于標(biāo)簽語義注意力的多標(biāo)簽文本分類方法(方法1)、基于標(biāo)簽特征和相關(guān)性的多標(biāo)簽分類算法(方法2)以及所提方法的分類結(jié)果進(jìn)行評(píng)測(cè),具體的實(shí)驗(yàn)數(shù)據(jù)集如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集

以上述數(shù)據(jù)集中包含的樣本為實(shí)驗(yàn)對(duì)象,進(jìn)行信息分類,對(duì)比不同方法在分類過程中造成的漢明損失,結(jié)果如表2所示。

表2 漢明損失對(duì)比

從表2能夠看出,所提方法在五種信息數(shù)據(jù)集的兩種評(píng)價(jià)標(biāo)準(zhǔn)中,其評(píng)價(jià)結(jié)果都較為優(yōu)秀,這就證明,所提方法能夠較為精確地劃分多標(biāo)簽信息,且不會(huì)丟失太多的漢明信息。這是因?yàn)樵摲椒ㄍㄟ^模糊C劃分與信息增益,來提高需要分類信息的特征度,進(jìn)而能夠更為精確地搜索需要分類的信息。

以分類結(jié)果準(zhǔn)確性為指標(biāo),對(duì)比不同方法的分類效果,結(jié)果如圖2所示。

圖2 分類準(zhǔn)確率對(duì)比

分析圖2可知,所提方法在多標(biāo)簽信息分類過程中,能夠獲取更加準(zhǔn)確的分類結(jié)果,其準(zhǔn)確率最高值達(dá)到了80%以上,說明分類結(jié)果更加可靠。這是由于該方法利用模糊支持向量機(jī)給不同的信息樣本添加不同的錯(cuò)分懲罰,克服了噪聲對(duì)分類的干擾,從而提升了準(zhǔn)確率。

信息重疊率過高影響分類效果,以其為實(shí)驗(yàn)指標(biāo),對(duì)比不同方法的分類效果,結(jié)果如圖3所示。

圖3 信息重疊率對(duì)比

分析圖3可知,所提方法分類后信息重疊率均低于20%,與現(xiàn)有方法相比,具有明顯的優(yōu)勢(shì)性,說明該方法的分類效果能夠滿足實(shí)際需求,具有一定的使用價(jià)值。

4 結(jié)束語

為了解決信息分類時(shí)出現(xiàn)的準(zhǔn)確度低與信息重疊的問題,設(shè)計(jì)一種基于模糊向量機(jī)優(yōu)化的信息分類優(yōu)化模型,依靠模糊支持向量機(jī)與核聚類完成對(duì)多標(biāo)簽信息的分類。雖然所提方法能夠有效地分類多標(biāo)簽信息,但隨著研究的深入,也發(fā)現(xiàn)了一些弊端,因此下一步需要研究的課題即:擴(kuò)展、優(yōu)化所提方法,使方法的計(jì)算能力提升,同時(shí)還需要增加其算法容量。

猜你喜歡
向量標(biāo)簽樣本
向量的分解
聚焦“向量與三角”創(chuàng)新題
規(guī)劃·樣本
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
人大專題詢問之“方城樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
讓衣柜擺脫“雜亂無章”的標(biāo)簽
科學(xué)家的標(biāo)簽