毛銘澤,曹芮浩,閆春鋼
(同濟大學(xué)電子與信息工程學(xué)院,上海 201804)
(*通信作者電子郵箱yanchungang@#edu.cn)
近年來,機器學(xué)習(xí)領(lǐng)域的研究十分火熱,尤其是監(jiān)督學(xué)習(xí)的算法研究,更是在許多的應(yīng)用領(lǐng)域中取得了成功,但是取得完全監(jiān)督的訓(xùn)練數(shù)據(jù)是一件很困難且耗費巨大資源的事情,因此,弱監(jiān)督學(xué)習(xí)方法的研究引起了越來越多學(xué)者的關(guān)注。依據(jù)訓(xùn)練數(shù)據(jù)類型,弱監(jiān)督學(xué)習(xí)研究[1]主要分為以下三類:不完全監(jiān)督(incomplete supervision)、不明確監(jiān)督(inexact supervision)和不準(zhǔn)確監(jiān)督(inaccurate supervision)三種。不完全監(jiān)督是指在只有少量的標(biāo)注數(shù)據(jù)、大量未標(biāo)注數(shù)據(jù)的情況下進行學(xué)習(xí),主動學(xué)習(xí)(active learning)和半監(jiān)督學(xué)習(xí)(semisupervised learning)是研究中最常見的兩種方案。其中主動學(xué)習(xí)[2]是指利用方法對未標(biāo)注的數(shù)據(jù)打上假定正確的標(biāo)簽,使用標(biāo)簽補充完整的數(shù)據(jù)集進行模型的訓(xùn)練;而半監(jiān)督學(xué)習(xí)[3-5]是指在學(xué)習(xí)標(biāo)注數(shù)據(jù)的基礎(chǔ)上,再利用未標(biāo)注數(shù)據(jù)增強分類學(xué)習(xí)的性能。不明確監(jiān)督是指數(shù)據(jù)樣本僅僅具有粗粒度的標(biāo)簽,但沒有具體樣本的準(zhǔn)確標(biāo)注[6]。不準(zhǔn)確監(jiān)督是指訓(xùn)練數(shù)據(jù)的標(biāo)注并不完全置信[7-8],其中可能存在著錯誤標(biāo)注的樣本。也就是說在這種情形下,需要在存在噪聲數(shù)據(jù)的情況下學(xué)習(xí)分類模型。
相對不明確監(jiān)督和不準(zhǔn)確監(jiān)督而言,不完全監(jiān)督通過更好地利用未標(biāo)注數(shù)據(jù)來擴充訓(xùn)練空間,提升學(xué)習(xí)性能。其中,半監(jiān)督學(xué)習(xí)的方案是不需要人工干預(yù)的一種學(xué)習(xí)方法。半監(jiān)督學(xué)習(xí)方法一共分為四類,分別為生成方法(generative method)、基于圖的方法(graph-based method)、低密度分離法(low-density method)以及基于分歧的方法(disagreementbased method)。
生成方法認(rèn)為標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)都是來源于同一模型,其中有基于期望最大化(Expectation-Maximization,EM)算法的模型[9]、基于特征和標(biāo)簽混合聯(lián)合概率的方法[10],以及結(jié)合EM 算法和樸素貝葉斯(Naive Bayes)的模型[11]。基于圖的方法[12-14]的基本思路是對所有數(shù)據(jù)樣本構(gòu)建一張圖,其中節(jié)點表示數(shù)據(jù)樣本點,邊表示數(shù)據(jù)樣本點之間的某種距離度量,并設(shè)計某些標(biāo)準(zhǔn)來給未標(biāo)注的數(shù)據(jù)打上偽標(biāo)簽(pseudolabel)。低密度分離法認(rèn)為模型的分類邊界應(yīng)該穿過輸入特征空間下的低密度區(qū)域,以此更好地區(qū)分?jǐn)?shù)據(jù)樣本[15-17]?;诜制绲姆椒ㄊ抢枚鄠€學(xué)習(xí)器對未標(biāo)注樣本進行分類,并在訓(xùn)練過程中促使不同的學(xué)習(xí)器對同一未標(biāo)注樣本的預(yù)測結(jié)果不同,保證分歧是訓(xùn)練的基礎(chǔ)。協(xié)同訓(xùn)練(co-training)[18]、三體訓(xùn)練(tri-net)[19]是其中經(jīng)典的方法,在此之外還有利用將集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)結(jié)合的方法,進一步強化多個基學(xué)習(xí)器之間的分歧[20-21],利用未標(biāo)注數(shù)據(jù)來增加模型的多樣性,提升模型泛化性能。
相較于直接或間接對未標(biāo)注數(shù)據(jù)給出標(biāo)注的方法,基于分歧的半監(jiān)督集成方法表現(xiàn)出更好的客觀性與泛化性。例如基于未標(biāo)注數(shù)據(jù)強化集成多樣性(Unlabeled Data to Enhance Ensemble Diversity,UDEED)算法[22]利用未標(biāo)注數(shù)據(jù)進行數(shù)據(jù)特征與信息的學(xué)習(xí)。而且該算法基于集成模型多樣性的考慮,認(rèn)為不同的基學(xué)習(xí)器應(yīng)對同一未標(biāo)注數(shù)據(jù)給出不同的結(jié)果,使得基學(xué)習(xí)器對于未標(biāo)注數(shù)據(jù)的預(yù)測分歧不斷增加。在UDEED 算法的啟發(fā)下,本文提出了UDEED+——一種基于權(quán)值多樣性的半監(jiān)督分類算法,采用基于權(quán)值的基學(xué)習(xí)器多樣性度量模塊,使用未標(biāo)注數(shù)據(jù)擴展基學(xué)習(xí)器的多樣性。然后在損失函數(shù)中增加權(quán)值多樣性損失項,在模型訓(xùn)練過程中進一步鼓勵集成模型中基學(xué)習(xí)器的多樣性,在保證模型對于標(biāo)注數(shù)據(jù)學(xué)習(xí)效果的基礎(chǔ)上,利用未標(biāo)注數(shù)據(jù)擴充訓(xùn)練樣本空間,提升模型的泛化性能。
本文的工作主要有:1)基于余弦相似度提出基學(xué)習(xí)器之間多樣性分歧的度量方法;2)結(jié)合基學(xué)習(xí)器對未標(biāo)注數(shù)據(jù)的預(yù)測分歧以及基學(xué)習(xí)器之間的分歧,提出一種半監(jiān)督損失函數(shù),并使用梯度下降優(yōu)化該函數(shù),進一步提升基學(xué)習(xí)器的多樣性。
半監(jiān)督集成學(xué)習(xí)算法的基本思想是通過增大集成模型的多樣性來加強模型的泛化性能。該方法的基本步驟是通過在標(biāo)注數(shù)據(jù)上精確分類,學(xué)習(xí)得到一個初始算法模型,并在此基礎(chǔ)之上利用未標(biāo)注數(shù)據(jù)來增加模型的多樣性,最大化分類正確率的同時,也最大化模型的多樣性。
半監(jiān)督學(xué)習(xí)問題是不完全監(jiān)督研究方法中的一種,主要研究在僅有少量標(biāo)注訓(xùn)練樣本的情況下,如何利用大量的未標(biāo)注數(shù)據(jù)提升模型性能。
首先,訓(xùn)練數(shù)據(jù)集?∈Rd表示訓(xùn)練數(shù)據(jù)的輸入特征為實數(shù),且特征空間為d維列向量;標(biāo)簽Y={1,1},其中1 表示正樣本,-1 表示負(fù)樣本。在全集?中:標(biāo)注數(shù)據(jù)集合L={(xi,yi)|1 ≤i≤numL},L的大小為numL,其中xi∈?,yi∈Y,未標(biāo)注數(shù)據(jù)集U的 大 小 為numU,U={xi|numL+1 ≤i≤numL+numU},其中xi∈?。然后,利用數(shù)據(jù)集L和U,訓(xùn)練一組m個基學(xué)習(xí)器{fk(x)|1 ≤k≤m},將基學(xué)習(xí)器fk(x) 的輸出映射到區(qū)間[ -1,1]內(nèi),并且將(fk(xi)+1)/2 的值作為第k個基學(xué)習(xí)器將xi預(yù)測為正樣本的概率值,范圍在區(qū)間[0,1]內(nèi)。
以UDEED 算法為例,該算法的訓(xùn)練目標(biāo)在最大化分類正確率的同時,也最大化模型的多樣性,這是通過優(yōu)化一個全局損失函數(shù)(1)做到的:
其中:f={f1,f2,…,fm}是一組m個基學(xué)習(xí)器的集合。γ是經(jīng)驗損失和多樣性的重要性平衡參數(shù)。D是用作增加多樣性的訓(xùn)練數(shù)據(jù)集,有兩種選項,一種是用U填充;另一種是用L+={xi|1 ≤i≤numL}填充,L+表示的是去掉標(biāo)注信息,只保留輸入特征信息的原始標(biāo)注樣本集合L,所以D=U或者是D=L+。Vemp是經(jīng)驗損失函數(shù)項,該項是傳統(tǒng)的優(yōu)化標(biāo)注數(shù)據(jù)分類效果的一項,通過計算基學(xué)習(xí)器在標(biāo)注數(shù)據(jù)集合L上的損失值,來表征當(dāng)前迭代輪次的分類效果,值越小效果越好,用式(2)計算。Vdiv是多樣性損失函數(shù)項,基于未標(biāo)注數(shù)據(jù)集D使用式(3)計算得到。
其中:l(fk,L)計算的是一個基學(xué)習(xí)器的經(jīng)驗損失值。
在式(3)對基學(xué)習(xí)器多樣性的量化計算中,采用的是對基學(xué)習(xí)器兩兩配對組合的成對計算方式來衡量多樣性,對于d(fp,fq,D)的計算見式(4)。
由于f(xi)的輸出值是在區(qū)間[ -1,1]內(nèi)的,因此如果fp和fq對xi是否為正樣本的預(yù)測結(jié)果一致,那么fp(xi)fq(xi)的值是正的;相反地,如果fp和fq對xi是否為正樣本的預(yù)測結(jié)果不同,那么fp(xi)fq(xi)的值是負(fù)數(shù)。
UDEED 的目的是鼓勵基學(xué)習(xí)器的多樣性,也就是希望產(chǎn)生更多不同的、更多樣的m個基學(xué)習(xí)器。UDEED 認(rèn)為,這種多樣和不同是通過基學(xué)習(xí)器對同一樣本的預(yù)測結(jié)果不同來體現(xiàn)的,反映到損失函數(shù)的計算上,也就是通過梯度下降優(yōu)化式(3)的值,來鼓勵每一對基學(xué)習(xí)器產(chǎn)生不同的結(jié)果。這種基于結(jié)果分歧的鼓勵多樣性方法,在優(yōu)化計算時,沒有用到任何給未標(biāo)注數(shù)據(jù)打上偽標(biāo)簽的方法,相較于引言中提到的標(biāo)注偽標(biāo)簽的方法,能表現(xiàn)出更好的客觀性和可靠性;同時結(jié)合集成學(xué)習(xí)的基學(xué)習(xí)器的機制,也更能鼓勵模型的多樣性,以此取得更好的泛化效果。
除了以上全局損失函數(shù)的解釋之外,UDEED 在優(yōu)化(1)之前,先通過標(biāo)注樣本L初始化基學(xué)習(xí)器。對于第k個基學(xué)習(xí)器fk,使用bootstrap[23]對L采樣,形成一個新的樣本集合Lk={(xi,yi)|1 ≤i≤num},num為采樣的樣本規(guī)模,然后利用梯度下降對損失函數(shù)(5)迭代優(yōu)化,其中λ是平衡模型復(fù)雜度的參數(shù)。
UDEED 的訓(xùn)練流程中,在擴充多樣性時,先設(shè)D=L+,基于L+增加基學(xué)習(xí)器多樣性;然后再設(shè)D=U,基于U增加基學(xué)習(xí)器多樣性。使用這一機制的原因是為了確保標(biāo)注數(shù)據(jù)的優(yōu)先級大于未標(biāo)注優(yōu)先級,以此明確標(biāo)注數(shù)據(jù)對模型訓(xùn)練的貢獻度要大于未標(biāo)注數(shù)據(jù)集。
UDEED的訓(xùn)練過程可以概括為三點:
針對結(jié)構(gòu)化數(shù)據(jù)的半監(jiān)督分類學(xué)習(xí)模型中,基學(xué)習(xí)器使用的是邏輯回歸(Logistic Regression,LoR)算法,由于邏輯回歸的輸出值在區(qū)間[0,1]內(nèi),為了符合Vdiv多樣性損失這一項定義的計算需求,需要將其輸出映射到區(qū)間[ -1,1]內(nèi);同時為了簡化運算,將bk放到wk中,將wk增加一個維度,變?yōu)閐+1維的列向量,如式(6)所示:
接著,如式(7)所示,用BLH(fk(xi),yi)這一項表示xi的似然函數(shù):
基學(xué)習(xí)器的初始化函數(shù)(5)的梯度為:
根據(jù)式(8)~(9)便可以計算梯度公式,并據(jù)此使用梯度下降法,迭代更新基學(xué)習(xí)器。
接著推導(dǎo)全局損失函數(shù)(1)的梯度,如下所示:
根據(jù)式(10)~(11)分別計算模型在D上的經(jīng)驗損失的梯度和多樣性損失的梯度,然后據(jù)此使用梯度下降優(yōu)化基學(xué)習(xí)器參數(shù),最終得到一組基學(xué)習(xí)器f*=。
現(xiàn)有的半監(jiān)督學(xué)習(xí)(例如UDEED)算法對于模型多樣性的衡量,是基于成對的基學(xué)習(xí)器對于數(shù)據(jù)樣本的預(yù)測分歧來體現(xiàn)的。當(dāng)一對基學(xué)習(xí)器對于同一樣本預(yù)測值相同時,會使多樣性損失Vdiv(f,D)增大;預(yù)測值相反時,會使其減小。體現(xiàn)在梯度下降優(yōu)化的過程中,也就是鼓勵每對基學(xué)習(xí)器對于同一樣本的預(yù)測不同,以體現(xiàn)分歧,提升多樣性,本文將這種分歧稱為基于數(shù)據(jù)預(yù)測導(dǎo)向的外分歧。基于弱分類器的集成模型,可能會導(dǎo)致泛化性能變?nèi)酰虼薝DEED 利用未標(biāo)注數(shù)據(jù)的目的是在對標(biāo)注數(shù)據(jù)的訓(xùn)練效果影響相對較小的情況下,提升模型的泛化性能。
在此基礎(chǔ)上,本文提出了基于權(quán)值多樣性的半監(jiān)督分類算法(UDEED+),并引入了余弦相似度來衡量每對基學(xué)習(xí)器的相似度,該值表示一對基學(xué)習(xí)器之間基于模型參數(shù)的內(nèi)分歧,將其定義為基學(xué)習(xí)器的權(quán)值多樣性(weight diversity)。通過將基于未標(biāo)注數(shù)據(jù)的多樣性與基于基學(xué)習(xí)器的權(quán)值多樣性結(jié)合,進一步擴展基學(xué)習(xí)器的多樣性,進而更好地提升模型的泛化性。在全局損失函數(shù)(1)中加入權(quán)值多樣性的損失項,在迭代優(yōu)化的過程中鼓勵每對基學(xué)習(xí)器之間的余弦相似度越來越大,使得模型多樣性進一步提升,在保證標(biāo)注數(shù)據(jù)的預(yù)測效果的基礎(chǔ)上,提升模型泛化能力和模型的預(yù)測準(zhǔn)確性。
第k個基學(xué)習(xí)器的參數(shù)可以用d+1維的列向量wk表示,即如式(12)所示:
采用兩個基學(xué)習(xí)器之間的余弦相似度表示一對基學(xué)習(xí)器的分歧度的原因主要是:1)計算方便;2)余弦相似度輸出在區(qū)間[-1,1]內(nèi),可以表征兩條向量的相似度;3)有明確的物理含義,向量夾角越大分歧度越大,兩條向量越不相似。余弦相似度的計算如式(13)所示:
如果兩個向量在同一空間下比較相似,那么它們的余弦相似度就會接近1;相反,如果兩個向量相對不相似,那么它們的余弦相似度便會接近-1;如果從向量夾角的角度理解,當(dāng)wi和wj的夾角小于90°時,cos(wi,wj)的值便為正,當(dāng)wi和wj的夾角大于90°時,cos(wi,wj)的值便為負(fù)。兩個夾角越大的向量,越不相似,也意味著這一對基學(xué)習(xí)器的內(nèi)分歧越大,即集成的權(quán)值多樣性更大。
2.2.1 權(quán)值多樣性損失
為了在集成學(xué)習(xí)訓(xùn)練過程中鼓勵權(quán)值多樣性,本文在損失函數(shù)中增加權(quán)值多樣性損失項,如式(14)所示,成對觀察m個基學(xué)習(xí)器參數(shù)向量w,計算每對基學(xué)習(xí)器的分歧度,并求和,然后再作歸一化,將Vwdiv的值限制在區(qū)間[-1,1]內(nèi)。
在訓(xùn)練時,將Vwdiv加到全局損失函數(shù)(1)中,在每次迭代更新優(yōu)化時,同時計算每輪的外分歧和內(nèi)分歧,確保更新參數(shù)時在經(jīng)驗損失項的基礎(chǔ)上內(nèi)外分歧的同步。如式(15)所示:
相對于原來的V(f,L,D),改進后的V+(f,L,D),在保證初始模型的準(zhǔn)確率的基礎(chǔ)上,通過加上權(quán)值多樣性這一項,進一步提升了集成模型的多樣性。
2.2.2 梯度下降優(yōu)化推導(dǎo)
對于V+(f,L,D)的梯度下降優(yōu)化計算,其中Vemp(f,L)和Vdiv(f,D)的計算推導(dǎo)可參考1.3 節(jié)的內(nèi)容,不再贅述,本節(jié)主要描述V+(f,L,D)中第三項,也就是新添加的權(quán)值多樣性損失Vwdiv的梯度求導(dǎo)過程。
首先把cos(wi,wj)展開成向量乘積的形式,這里采用的是和UDEED 中一樣的成對約束,每次計算考慮一對基學(xué)習(xí)器的向量。
將θ視為整體的參數(shù),θ={w1,w2,…,wm},表示m個基學(xué)習(xí)器參數(shù)向量,也就是迭代優(yōu)化的對象。
將求導(dǎo)項展開,得到:
假設(shè)1 ≤p≤d+1,1 ≤q≤d+1,則式(20)的矩陣中的第p列、第q行的元素值為:
可以得到式(22)中的求導(dǎo)結(jié)果:
根據(jù)式(22),展開式(20)中的矩陣,可得:
對式(23)中的矩陣整理后,可得:
將式(24)代入式(18)~(19)可得最終的求導(dǎo)結(jié)果:
計算完所有的導(dǎo)數(shù)之后,接下去進行梯度下降的優(yōu)化:
其中:lr是梯度下降的學(xué)習(xí)率;γ1和γ2用來平衡內(nèi)外分歧對損失函數(shù)的貢獻程度,本文設(shè)置γ1=γ2,以此假定兩者對損失函數(shù)的貢獻程度相等。
基于權(quán)值多樣性的半監(jiān)督分類算法UDEED+如下:
算法 改進的基于權(quán)值多樣性的半監(jiān)督算法UDEED+。
同樣,本文保持了UDEED 中標(biāo)注數(shù)據(jù)的貢獻度高于未標(biāo)注數(shù)據(jù)這一假定。
本文在8 個UCI Machine Learning Repository[24]的公開數(shù)據(jù)集進行實驗,數(shù)據(jù)集的介紹如表1所示。
表1 實驗中使用的UCI數(shù)據(jù)集Tab.1 UCI datasets used in experiments
本節(jié)實驗首先通過展現(xiàn)隨著迭代次數(shù)的增加,損失函數(shù)的數(shù)值下降的優(yōu)化過程,驗證梯度下降優(yōu)化新增的多樣性權(quán)值損失項的可行性;接著通過圖例展現(xiàn)隨著迭代次數(shù)的增加,各個基學(xué)習(xí)器的內(nèi)分歧度也隨之增加,據(jù)此驗證基學(xué)習(xí)器內(nèi)分歧度,也就是通過余弦相似值來體現(xiàn)基學(xué)習(xí)器內(nèi)分歧度的可行性;最后,通過在8 個公開數(shù)據(jù)集上實驗結(jié)果的提升,驗證UDEED+整個算法的改進效果,并以一個數(shù)據(jù)集為例展示受試者工作特征(Receiver Operating Characteristic,ROC)曲線。
為了避免不均衡數(shù)據(jù)對實驗指標(biāo)的影響,本實驗以預(yù)測準(zhǔn)確率和F1 分?jǐn)?shù)兩個指標(biāo)衡量模型的性能改進。其中F1 分?jǐn)?shù)的計算是正確率precision和召回率recall的調(diào)和平均值,即:
其中:TP(True Positives)表示樣本真實標(biāo)簽為真,模型預(yù)測結(jié)果也為真的樣本數(shù);FN(False Negatives)表示樣本真實標(biāo)簽為真,但被模型錯誤預(yù)測為假的樣本數(shù);FP(False Positives)表示樣本真實標(biāo)簽為假,但被模型預(yù)測錯誤預(yù)測成了真的樣本數(shù);TN(True Negatives)表示樣本真實標(biāo)簽為假,模型預(yù)測結(jié)果也為假的樣本數(shù)。表2為具體的評價指標(biāo)定義。
表2 評價指標(biāo)定義Tab.2 Definition of evaluation indices
3.2.1 損失函數(shù)的優(yōu)化迭代
圖1 展示的是全局損失函數(shù)、樣本多樣性損失項和權(quán)值多樣性損失項的梯度下降過程,選取了實驗中的一個數(shù)據(jù)集qsar來展示這一過程,分別對應(yīng)式(15)中的V+(f,L,D)、Vdiv(f,D)、Vwdiv(f,D)這三項。從圖1中可以看到,隨著訓(xùn)練迭代次數(shù)的增加,損失函數(shù)的值隨之減少,從中可以看到梯度下降的作用,需要解釋的是,在迭代次數(shù)400~600,V+(f,L,D)和Vdiv(f,D)這兩項的值有一個驟降,這是因為在這一步,切換了訓(xùn)練步驟,從第2 步的D=L+切換到了第3 步的D=U訓(xùn)練,由于這兩項的計算中涉及到D,因此,會在這里出現(xiàn)一個數(shù)值的突然變化,但是對權(quán)值多樣性損失項沒有影響。從前后兩段,以及整體的更新情況來看,總體損失值下降的趨勢是沒有改變的,這也驗證了本文對于多樣性優(yōu)化的推導(dǎo)。
圖1 損失函數(shù)數(shù)值下降過程Fig.1 Decrease process of loss function
3.2.2 基學(xué)習(xí)器內(nèi)分歧
圖2 展示的是基學(xué)習(xí)器權(quán)值之間的相似度的熱點圖(截取10 個基學(xué)習(xí)器以展示這一過程),同樣選取數(shù)據(jù)集qsar 來展示這一熱點圖的變化過程,其中每張子圖的橫縱坐標(biāo)分別表示的是第i個基學(xué)習(xí)器和第j個基學(xué)習(xí)器之間的余弦相似度cos(wi,wj),也就是分歧度,相似度越數(shù)值越小,分歧度越大,圖中的顏色越深。圖2 中的每張子圖從左到右、從上到下分別表示迭代次數(shù)為0、100、200、300 時的相似度熱點圖。從圖2 可以看出:相同位置的方塊的顏色也越來越深,分歧度數(shù)值在減小,表示兩個基學(xué)習(xí)器越來越不相似方塊的顏色也越來越深。從整體上看,熱點圖的趨勢體現(xiàn)整體基學(xué)習(xí)器的分歧越來越大,這也驗證了本文對于基學(xué)習(xí)器內(nèi)分歧的考量,體現(xiàn)了在梯度下降優(yōu)化過程中,在樣本多樣性損失之外,結(jié)合基學(xué)習(xí)器本身的相似分歧度,進一步提高整體基學(xué)習(xí)器的多樣性,增強模型泛化性能。
3.2.3 實驗指標(biāo)對比
實驗參數(shù)設(shè)置上,基學(xué)習(xí)器個數(shù)m=20,學(xué)習(xí)率lr=0.1,其余幾個影響梯度優(yōu)化的參數(shù)分別設(shè)置為λ=1,γ1=1,γ2=1,此外,需要注意的是,梯度下降的停止條件設(shè)置為全局損失、樣本多樣性損失項和權(quán)值多樣性損失項,只要有一項不再繼續(xù)下降,就停止迭代,這一設(shè)置的目的主要是避免模型過度擬合,導(dǎo)致模型泛化性能變差。
表3 和表4 分別展示UDEED、UDEED+、S4VM(Safe Semi-Supervised Support Vector Machine)[25]、SSWL(Semi-Supervised Weak-Label)[26]四個半監(jiān)督分類模型的實驗結(jié)果對比。S4VM算法通過融合多個低密度分類器的預(yù)測結(jié)果來形成最終的預(yù)測模型;SSWL 在學(xué)習(xí)過程中同時考慮樣本和標(biāo)簽相似度,以此改進模型預(yù)測性能。通過與S4VM 和SSWL 的實驗結(jié)果對比,展示UDEED+算法對于未標(biāo)注樣本的學(xué)習(xí)效果,以此體現(xiàn)多樣性提升對于模型預(yù)測性能的正面效果。表3 展示的是正確率指標(biāo),從整體的平均結(jié)果來看,UDEED+相較于UDEED 提升明顯,提升了1.4 個百分點;對比其他模型,UDEED+也有很好的效果,正確率達到了79.2%,比第二名的SSWL 高了0.7個百分點,比S4VM高了1.3個百分點。在表4展示的F1分?jǐn)?shù)衡量指標(biāo)中,UDEED+比UDEED 平均提升了1.1 個百分點,僅在seismic數(shù)據(jù)集上有0.5個百分點的下降。同時對比其他模型,UDEED+的效果也很好,比SSWL 高了1.5 個百分點,比S4VM 高了3.1 個百分點,并在6 個數(shù)據(jù)集上都取得了最好的效果,平均的F1分?jǐn)?shù)達到了0.656。
表4 UCI數(shù)據(jù)集上的F1分?jǐn)?shù)對比Tab.4 Comparison of F1 score on UCI datasets
圖3以qsar數(shù)據(jù)集為例,展示了UDEED、UDEED+、S4VM、SSWL 的ROC 曲線。從圖3 中可以看出UDEED+算法的分類性能相對最優(yōu),ROC 曲線下的面積最大,對比其他三個算法,UDEED+算法的ROC曲線性能都有一定的改善。
綜上所述,圖1 中損失函數(shù)的下降過程表明了本文方法的可行性;圖2 中對權(quán)值多樣性可視化展示表明權(quán)值多樣性損失對基學(xué)習(xí)器內(nèi)分歧度有提升的作用;表3~4 中展現(xiàn)了UDEED+在正確率和F1 分?jǐn)?shù)上的性能提升;圖3 中展示了模型ROC 曲線上的改進,驗證了權(quán)值多樣性對于模型泛化性能的正面影響。
圖3 不同算法的ROC曲線Fig.3 ROC curve of different algorithms
表3 UCI數(shù)據(jù)集上的正確率對比Tab.3 Comparison of accuracy on UCI datasets
圖2 基學(xué)習(xí)器權(quán)值相似度的熱點圖Fig.2 Heatmap of similarity of weights of base learners
本文針對半監(jiān)督學(xué)習(xí)中利用多樣性提升模型性能的方法進行研究,并提出一種基于基學(xué)習(xí)器權(quán)值多樣性的半監(jiān)督分類算法UDEED+,該方法結(jié)合基于數(shù)據(jù)預(yù)測的外分歧和基于基學(xué)習(xí)器權(quán)值的內(nèi)分歧進一步提升了基學(xué)習(xí)器的多樣性,提升了算法性能。本文目前的實現(xiàn)主要是基于二分類問題,目前看來,之后可以根據(jù)多分類問題,探討不同的多樣性損失函數(shù)項,同時針對權(quán)值多樣性和樣本多樣性之間的關(guān)系也可以進行進一步的探討和研究。