国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源域分布下優(yōu)化權(quán)重的遷移學(xué)習(xí)Boosting方法

2023-06-07 08:30:44李赟波王士同
計(jì)算機(jī)與生活 2023年6期
關(guān)鍵詞:源域分類器權(quán)重

李赟波,王士同

1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122

2.江南大學(xué) 江蘇省物聯(lián)網(wǎng)應(yīng)用技術(shù)重點(diǎn)建設(shè)實(shí)驗(yàn)室,江蘇 無錫214122

遷移學(xué)習(xí)是為了解決源域與目標(biāo)域數(shù)據(jù)空間分布不一致情況下,從源域中抽取有用的知識(shí)訓(xùn)練模型。因其可以在目標(biāo)域訓(xùn)練數(shù)據(jù)不完備的情況下從源域遷移獲取知識(shí),減少了獲取標(biāo)注目標(biāo)域數(shù)據(jù)的成本。近年來,遷移學(xué)習(xí)在各個(gè)領(lǐng)域都有著高度的關(guān)注與廣泛的應(yīng)用[1]。當(dāng)一組數(shù)據(jù)很容易過時(shí),可能會(huì)出現(xiàn)遷移學(xué)習(xí)的需求。在這種情況下,在一個(gè)時(shí)間段內(nèi)獲得的標(biāo)記數(shù)據(jù)在以后的時(shí)間段內(nèi)可能不會(huì)遵循相同的分布[2]。此外,在目標(biāo)域沒有標(biāo)注或者標(biāo)注目標(biāo)域數(shù)據(jù)代價(jià)高昂的情況下,遷移學(xué)習(xí)可以節(jié)省大量的標(biāo)記工作[3]。

在遷移學(xué)習(xí)中,Liu等人[4]提出了一種Butterfly學(xué)習(xí)框架,該框架同時(shí)使用四個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),其中兩個(gè)負(fù)責(zé)所有域的適應(yīng)工作,剩下的兩個(gè)專門負(fù)責(zé)目標(biāo)域的分類。Wang 等人[5]給出了負(fù)遷移的定義,并提出了一種形式化的避免負(fù)遷移的方法。Scott[6]提出了一種新的可以強(qiáng)化領(lǐng)域適配表現(xiàn)的度量方法。Tokuoka 等人[7]提出了一種歸納遷移學(xué)習(xí)方法,通過基于Cycle-GAN(cycle-consistent generative adversarial networks)的無監(jiān)督域適應(yīng)使源域樣本的注釋標(biāo)簽應(yīng)用于目標(biāo)域數(shù)據(jù)樣例上。Bucci等人[8]提出了一種以監(jiān)督方式學(xué)習(xí)語義標(biāo)簽的模型,并使用相同圖像自監(jiān)督信號(hào)拓寬對(duì)數(shù)據(jù)的理解。Moreno-Mu?oz 等人[9]提出了一個(gè)基于模塊化變分高斯過程遷移學(xué)習(xí)框架,可以在不重新訪問任何數(shù)據(jù)的情況下,構(gòu)建集成變分高斯GP(Gaussian processes)模型。

Boosting方法在遷移學(xué)習(xí)中較為常見,通過多次迭代訓(xùn)練多個(gè)弱分類器從而集成輸出為一個(gè)強(qiáng)分類器[10]。Zhang等人[11]提出了一種新的加權(quán)技術(shù),生成具有加權(quán)源域和目標(biāo)域?qū)嵗募訖?quán)合成實(shí)例。Schapire等人[12]提出了經(jīng)典的AdaBoost(adaptive Boost)算法,在每一次迭代訓(xùn)練過程中,分類錯(cuò)誤的樣本權(quán)重或提高。更新權(quán)重過后的樣本會(huì)用于下一個(gè)基分類器的訓(xùn)練。Cortes 等人[13]提出了一種新的集成學(xué)習(xí)算法DeepBoost,它可以使用包含深度決策樹或其他豐富或復(fù)雜的家族成員的假設(shè)集作為基分類器,并在不過度擬合數(shù)據(jù)的情況下獲得較高的精度。Dai 等人[14]提出了TrAdaBoost(adaptive Boosting for transfer learning)算法,該算法對(duì)于分布不一致的訓(xùn)練數(shù)據(jù)做了優(yōu)化,可以自動(dòng)調(diào)整訓(xùn)練樣本的權(quán)重,利用Boosting來區(qū)分分布不一致的訓(xùn)練數(shù)據(jù)。但由于假設(shè)的固定性和高復(fù)雜度,TrAdaBoost 存在過擬合的問題,在遷移學(xué)習(xí)的場景下可能擬合與目標(biāo)域分布不一致的源域數(shù)據(jù)。為了彌補(bǔ)這一缺陷,Jiang 等人[15]提出了DTrBoost(deep decision tree transfer Boosting)算法,該方法根據(jù)Rademacher復(fù)雜度最小化源域和目標(biāo)域的數(shù)據(jù)依賴學(xué)習(xí)邊界來學(xué)習(xí)并分配給基礎(chǔ)學(xué)習(xí)者,這保證了該算法可以在不過度擬合的情況下學(xué)習(xí)深度決策樹。周晶雨等人[16]提出了一種可以在源域和目標(biāo)域的特征空間中過采樣的多源在線遷移學(xué)習(xí)算法,使用類別分布較為平衡的源域數(shù)據(jù)訓(xùn)練分類器,從而提升精度。徐光生等人[17]提出了一種借助具有完整模態(tài)的輔助數(shù)據(jù)集,通過跨模態(tài)或跨數(shù)據(jù)集方向的遷移學(xué)習(xí)來幫助模態(tài)或數(shù)據(jù)集之間的數(shù)據(jù)對(duì)齊,從而實(shí)現(xiàn)更好的分類效果。林佳偉等人[18]提出一種對(duì)抗域適應(yīng)深度對(duì)抗重構(gòu)分類網(wǎng)絡(luò)的遷移學(xué)習(xí)模型(deep adversarial reconstruction classification networks,DARCN)。DARCN 借鑒了自動(dòng)編碼器的思想,在對(duì)抗域適應(yīng)的基礎(chǔ)上,增加了自動(dòng)解碼器的解碼部分,因此可以提高從低維度特征重建原數(shù)據(jù)的效率。在實(shí)踐中,對(duì)于某數(shù)據(jù)集的數(shù)據(jù)按照某一或某些特征劃分出來的數(shù)據(jù)往往分布不一致。并且這些不同分布的數(shù)據(jù)對(duì)于最終模型的重要性也不一致,知識(shí)遷移的權(quán)重也因此不平等。這就導(dǎo)致了學(xué)習(xí)的模型收斂速度的下降,同時(shí)也導(dǎo)致了學(xué)習(xí)過程中的振蕩。并且DtrBoost 算法對(duì)多源域遷移學(xué)習(xí)情況適應(yīng)性不強(qiáng),在多源域數(shù)據(jù)情況下不能很好地完成分類任務(wù)。

因此,本文提出了一種針對(duì)多源域不同分布數(shù)據(jù)的優(yōu)化樣本權(quán)重遷移學(xué)習(xí)算法。該算法使用KL距離(Kullback-Leibler divergence)[19]衡量源域與目標(biāo)域的距離計(jì)算目標(biāo)函數(shù)的源域權(quán)重,從而增強(qiáng)相似的源域目標(biāo)函數(shù)權(quán)重,減少分布距離較大的源域目標(biāo)函數(shù)權(quán)重,將源域分配不同的學(xué)習(xí)權(quán)重可以減小梯度方向的振蕩,加快收斂速度。同時(shí)將不同的學(xué)習(xí)權(quán)重賦予不同的源域,使算法適應(yīng)多源域遷移學(xué)習(xí)。之后,由目標(biāo)函數(shù)導(dǎo)出梯度函數(shù),根據(jù)梯度下降最快的方向確定本批次的最佳梯度,并與之前的學(xué)習(xí)梯度進(jìn)行對(duì)比確定最優(yōu)基分類器,并更新最優(yōu)基分類器權(quán)重。完成了最優(yōu)基分類器后按照源域與目標(biāo)域不同的分布特點(diǎn),對(duì)所有的訓(xùn)練樣本進(jìn)行權(quán)重更新。

1 遷移學(xué)習(xí)簡介

本章簡要介紹單源域遷移學(xué)習(xí)算法DtrBoost,DeepBoost 提出了基于Rademacher 復(fù)雜度[20]的基分類器集的凸集學(xué)習(xí)邊界。DTrBoost在不同迭代時(shí)從源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)中學(xué)習(xí)不同復(fù)雜度的假設(shè)族,并對(duì)較低復(fù)雜度的假設(shè)族分配更多的權(quán)值,以避免過擬合。

對(duì)于不同的假設(shè)集合hj,j∈[1,2,…,N]。{h1,h2,…,hj,…,hN}是一組不同的假設(shè),F(xiàn)W是源域和目標(biāo)域中數(shù)據(jù)梯度的損失函數(shù),F(xiàn)S為目標(biāo)域內(nèi)數(shù)據(jù)梯度的損失函數(shù)。具體計(jì)算如下:

其中,αt,j為假設(shè)j在第t次迭代中的基分類器權(quán)重,Φ是一個(gè)非遞增的凸函數(shù)。式(1)、式(2)中的第二部分是假設(shè)Rademacher 復(fù)雜度的正則化,其中λ和β為參數(shù)。是標(biāo)準(zhǔn)的Rademacher 復(fù)雜度。d(ht)表示ht所屬的假設(shè)集的索引,即接下來就是訓(xùn)練的目標(biāo)函數(shù),目的是最小化FW與FS在ej方向上的梯度差值。

在第t次迭代中,通過式(4)梯度增強(qiáng)函數(shù)選擇一個(gè)新的函數(shù)ht(xi,at)作為當(dāng)前最優(yōu)的假設(shè)。

其中,ft←ft-1+αtht(x,at)。分別是FW與FS在ej方向上的導(dǎo)數(shù)。然后開始迭代訓(xùn)練,在每一個(gè)迭代次序內(nèi)計(jì)算目標(biāo)域的梯度值為:

上述算法只能從一個(gè)源域中學(xué)習(xí)知識(shí)轉(zhuǎn)移到目標(biāo)域中,在多個(gè)源域的情況下缺乏適應(yīng)性。下面介紹一種新的多源遷移算法,可以從不同分布的多個(gè)源域中按分布相似程度確定知識(shí)重要性,增加相似源域樣本權(quán)重,減少其余樣本權(quán)重,從而減少分類的錯(cuò)誤率。

2 多源域分布下的遷移學(xué)習(xí)

2.1 問題描述

在具有多個(gè)源域的遷移學(xué)習(xí)場景中,設(shè)X=XS?Xd1?Xd2?…?Xdp為實(shí)例空間,其中XS為目標(biāo)域?qū)嵗臻g,Xdp為p個(gè)分布不同的源域?qū)嵗臻g。源域的數(shù)據(jù)空間為Xdk×Ydk,其中1 ≤k≤p。目標(biāo)域的數(shù)據(jù)空間為Xs×Ys,其中,源域與目標(biāo)域使用相同的數(shù)據(jù)標(biāo)簽空間Ydk=Ys=Y={-1,+1}。測試數(shù)據(jù)是與目標(biāo)域同分布的數(shù)據(jù),記為Q。設(shè)q是將X映射到Y(jié)的布爾函數(shù),將訓(xùn)練數(shù)據(jù)L={X×Y} 分成,Ldk為不同源域上的訓(xùn)練數(shù)據(jù)空間,Ls為目標(biāo)域的訓(xùn)練數(shù)據(jù)空間。

因此,在給定少量帶標(biāo)記的目標(biāo)域訓(xùn)練數(shù)據(jù)Ls和大量帶標(biāo)記的p個(gè)源域訓(xùn)練數(shù)據(jù)Ld1,Ld2,…,Ldp的情況下,本文的目標(biāo)是學(xué)習(xí)一個(gè)布爾函數(shù)q從X到Y(jié),使測試集數(shù)據(jù)的預(yù)測誤差值最小化。

源域的訓(xùn)練數(shù)據(jù)來自p個(gè)不同的分布,如果將p個(gè)源域數(shù)據(jù)合并視為一個(gè)源域,在計(jì)算全局梯度的時(shí)候,不同源域上的知識(shí)重要程度是同等的。然而實(shí)際的數(shù)據(jù)相似程度并不一致,會(huì)導(dǎo)致相似程度較小的源域知識(shí)也同等學(xué)習(xí)。考慮到源域的相似程度,按照相應(yīng)的權(quán)重學(xué)習(xí)不同源域的知識(shí),提高相似源域的學(xué)習(xí)權(quán)重,減少相似程度較小源域的學(xué)習(xí)權(quán)重,從而獲得更高的測試精度。

2.2 多源域分配權(quán)重的Boosting遷移學(xué)習(xí)

本節(jié)提出一種稱為MtrBoost(multi-source decision tree transfer Boosting)的算法,該算法通過賦予不同源域不同的學(xué)習(xí)權(quán)重計(jì)算全局梯度從而提升目標(biāo)域決策函數(shù)的精確度。

首先計(jì)算KL距離式(7),根據(jù)源域的KL距離確定兩個(gè)源域的相似程度。計(jì)算距離的統(tǒng)計(jì)函數(shù)還有很多,例如Jen-sen Shannon 距離、Hellinger 等距離。只要計(jì)算距離的統(tǒng)計(jì)函數(shù)是凸函數(shù)且是一個(gè)閉函數(shù),都可以用來衡量數(shù)據(jù)分布情況[21]。但這兩種距離都具有上界,KL距離沒有上界,在數(shù)值上可以更為直觀地表達(dá)數(shù)據(jù)分布情況。通常情況下[13-15],遷移學(xué)習(xí)中較為普遍地使用KL距離衡量數(shù)據(jù)分布情況,因此本文也選擇KL距離確定源域與目標(biāo)域的相似程度。

其中,Ld(x)是源域上的樣本,Ls(x)是目標(biāo)域樣本。分別計(jì)算出源域Ld1,Ld2,…,Ldp到目標(biāo)域?qū)?yīng)的KL距離為KLd1,KLd2,…,KLdp,之后根據(jù)式(8)計(jì)算出對(duì)應(yīng)的學(xué)習(xí)權(quán)重ω1,ω2,…,ωp。式(8)可以根據(jù)這p個(gè)源域KL距離的大小分配對(duì)應(yīng)的權(quán)重,并且滿足ω1+ω2+…+ωp=1的約束。

其中,1 ≤j≤p,ωj表示第j個(gè)源域的學(xué)習(xí)權(quán)重。H={h1,h2,…,hj,…,hN}是N個(gè)不同的假設(shè)的集合。Qdk是第k個(gè)源域上的損失函數(shù),Qta是目標(biāo)域上的損失函數(shù)。

其中,n為目標(biāo)域訓(xùn)練集Ls上的實(shí)例數(shù)目,mk為源域訓(xùn)練集上第k個(gè)源域的實(shí)例數(shù)目,w(k)=n+m1+m2+…+mk-1為第k個(gè)源域樣本起始位置的映射函數(shù)。xi是輸入的實(shí)例,且i∈{1,2,…,n,…,n+m1,…,n+m1+…+mp},yi是xi真實(shí)類別。t∈{1,2,…,T}是迭代訓(xùn)練的次數(shù)。ht(xi,bt)是在第t次迭代時(shí)的假設(shè),bt是假設(shè)的參數(shù),包括最佳分割特征、剪枝節(jié)點(diǎn)位置。τt是假設(shè)ht的權(quán)重。ψ是非增凸函數(shù),與DtrBoost一致,這里選擇指數(shù)函數(shù)。式(9)、式(10)的第二部分是正則化后的Rademacher復(fù)雜度,rt=,其中f(ht)是將假設(shè)ht映射到該假設(shè)下標(biāo),σ、γ是參數(shù)。

在得到了源域與目標(biāo)域的損失函數(shù)后,在源域與目標(biāo)域總體上的全局損失函數(shù)如下:

式(11)中,在源域與目標(biāo)域的損失函數(shù)上增加了對(duì)應(yīng)的權(quán)重,從而強(qiáng)調(diào)了目標(biāo)域的損失。通常情況下目標(biāo)域的樣本重要程度大于各個(gè)源域,各源域的樣本重要程度相對(duì)一致。因此本文對(duì)于源域分配一定系數(shù)后,各源域平均分配剩下的系數(shù),使得各源域與目標(biāo)域系數(shù)和為1。本文參考DtrBoost算法,為了保持計(jì)算量綱的一致且便于后續(xù)的收斂性分析,對(duì)目標(biāo)域賦予0.5 的系數(shù),剩下的多個(gè)源域平均分配0.5 的系數(shù)。對(duì)于各個(gè)不同的源域也按照KL 距離分別賦予權(quán)重,由此可以得到目標(biāo)函數(shù)。

對(duì)于全部的樣本,使用式(11)進(jìn)行學(xué)習(xí),在方向μj上的導(dǎo)數(shù)可以通過式(13)計(jì)算得到。

至此,在經(jīng)過了t次迭代后,假設(shè)集合更新為H={h1,h2,…,hj,…,hN},其中N≤t≤T。之后,計(jì)算目標(biāo)域的梯度導(dǎo)數(shù),在每次的迭代計(jì)算過程中,計(jì)算在μj方向上的導(dǎo)數(shù),計(jì)算步驟與計(jì)算全局樣本上的梯度大小一致。

在搜索到最佳學(xué)習(xí)者h(yuǎn)l后,對(duì)hl的權(quán)重進(jìn)行更新?;镜母聦W(xué)習(xí)者權(quán)重思路是每次迭代僅更新當(dāng)前搜索到的最佳學(xué)習(xí)者h(yuǎn)l,并增加hl的權(quán)重,其他學(xué)習(xí)者的權(quán)重保持不變,更新公式如下:

式中,ηt是DtrBoost中提出的步長,可用線性方法計(jì)算[15]。在迭代過程的最后階段,對(duì)所有的樣本權(quán)重進(jìn)行更新,更新公式與DtrBoost 一致[15],增加目標(biāo)域中相同分布的樣本權(quán)重,減少源域中不同分布的樣本權(quán)重。目標(biāo)域樣本權(quán)重更新公式如下:

各源域樣本的更新公式如下:

決策函數(shù)只使用了T/2 次迭代之后的分類器權(quán)重,在T/2 次迭代之前,源域中不同分布的數(shù)據(jù)的權(quán)重沒有減少到非常小的數(shù)量。與目標(biāo)域?qū)W習(xí)梯度方向相比,它將在很大程度上阻礙學(xué)習(xí)相同的梯度方向。因此,使用T/2 次迭代后的分類器權(quán)重可以提高決策函數(shù)輸出的準(zhǔn)確性。多源域優(yōu)化權(quán)重的遷移學(xué)習(xí)框架如圖1所示,在這里展示的是兩個(gè)源域遷移情況下前4 個(gè)迭代過程,分類器數(shù)目為3。三角形樣本為目標(biāo)域樣本,菱形與正方形表示兩個(gè)源域的樣本,樣本的大小表示權(quán)重的大小。每次迭代后,都會(huì)增加錯(cuò)誤分類的目標(biāo)域數(shù)據(jù)的權(quán)重,降低錯(cuò)誤分類的源域數(shù)據(jù)的權(quán)重。在下一輪迭代學(xué)習(xí)時(shí),目標(biāo)域的錯(cuò)誤分類的樣本權(quán)重增加會(huì)使得分類器的權(quán)重錯(cuò)誤率增加,模型在選擇最佳分類器的時(shí)候會(huì)選擇對(duì)該樣本分類情況更好的分類器。相反的,降低錯(cuò)誤分類的源域數(shù)據(jù)的權(quán)重,使得模型選擇最佳分類器的時(shí)候降低對(duì)于源域分類錯(cuò)誤的情況的考察,從而變相地提高了目標(biāo)域分類情況的重要性?;谶@兩個(gè)樣本權(quán)重更新策略,MtrBoost算法可以逐步地提高目標(biāo)域的分類準(zhǔn)確性。

圖1 多源域優(yōu)化權(quán)重的遷移學(xué)習(xí)框架Fig. 1 Multi-source weight optimization transfer learning framework

下面論證本文提出的MtrBoost 算法的收斂性,DtrBoost算法是個(gè)單源域的遷移學(xué)習(xí)框架,而MtrBoost算法是一個(gè)多源域的遷移學(xué)習(xí)模型。

2.3 MtrBoost算法描述

算法1MtrBoost算法

算法的過程可以分為兩部分:第一部分是步驟1處的基分類器的迭代訓(xùn)練過程,該部分算法時(shí)間復(fù)雜度記為T1(n)。第二部分是步驟2 處的決策函數(shù)的集成輸出過程,該部分算法時(shí)間復(fù)雜度記為T2(n)。在第一個(gè)訓(xùn)練過程中又可以分為分類器訓(xùn)練和訓(xùn)練樣本權(quán)重更新兩個(gè)小的步驟,分別位于步驟1.1至步驟1.3,步驟1.4 至步驟1.6。這兩個(gè)步驟時(shí)間復(fù)雜度分別記為T1.1(n)、T1.2(n)。設(shè)目標(biāo)域訓(xùn)練集Ls的樣本數(shù)目為n,源域訓(xùn)練集Ld1,Ld2,…,Ldp的樣本數(shù)目分別為m1,m2,…,mp,訓(xùn)練批次數(shù)目為M,分類器集合數(shù)目為N。

3 實(shí)驗(yàn)及數(shù)據(jù)分析

本章對(duì)本文提出的算法與基線算法進(jìn)行性能比較,在多個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。為了使實(shí)驗(yàn)結(jié)果客觀公正,本章實(shí)驗(yàn)評(píng)價(jià)指標(biāo)均為進(jìn)行10 次實(shí)驗(yàn)后的平均值。結(jié)果表明,本文算法性能優(yōu)于對(duì)比算法。

3.1 數(shù)據(jù)集簡介

本文在9個(gè)數(shù)據(jù)集上進(jìn)行了測試,前4個(gè)數(shù)據(jù)集來自UCI 數(shù)據(jù)集網(wǎng)站(https://archive.ics.uci.edu/ml/datasets),后5個(gè)數(shù)據(jù)集來自Kaggle數(shù)據(jù)網(wǎng)站(https://www.kaggle.com/datasets)。如表1 所示,表中涵蓋了數(shù)據(jù)集特征數(shù)、訓(xùn)練樣本數(shù)、測試樣本數(shù)。因每個(gè)數(shù)據(jù)集按照類別分類下來的數(shù)據(jù)樣本數(shù)目各不相同,為保證從各個(gè)類別抽取的總體數(shù)據(jù)樣本數(shù)目大體一致,針對(duì)不同數(shù)據(jù)集不同類別設(shè)計(jì)了不同的抽取比例。

表1 UCI和Kaggle的9個(gè)數(shù)據(jù)集Table 1 Details of 9 datasets for UCI and Kaggle

Mammographic是一個(gè)多元多變量乳腺X射線數(shù)據(jù)集,由埃爾蘭根紐倫堡大學(xué)放射性研究中心在2003 年至2008 年間采集。該數(shù)據(jù)集包含了兩類標(biāo)簽,將惡性腫瘤樣本設(shè)置為陽性標(biāo)簽,良性腫瘤設(shè)置為陰性標(biāo)簽。每一個(gè)特征域都包含多個(gè)離散類別信息。根據(jù)腫塊的形狀特征的類別情況分為3類,依次分別從3類里抽取50%、25%、15%的樣本,抽取25%、50%、15%的樣本,抽取25%、25%、70%的樣本構(gòu)成1個(gè)目標(biāo)域與2個(gè)源域。

OCR是一個(gè)0到9手寫數(shù)字的圖片數(shù)據(jù)集,原圖像大小尺寸為32×32像素,通過劃分為64個(gè)4×4像素的圖像塊進(jìn)行降維得到8×8 像素的圖像。每個(gè)像素特征是0到16的整型灰度信息。根據(jù)手寫數(shù)字的形狀特征,抽取50%的數(shù)字8樣本與20%的數(shù)字6、25%的數(shù)字9樣本作為目標(biāo)域。抽取60%的數(shù)字6樣本與數(shù)字8、9 各25%的樣本作為第一個(gè)源域。抽取50%的數(shù)字9樣本與20%的數(shù)字6、25%的數(shù)字8樣本作為第二個(gè)源域。

BreastCancer 數(shù)據(jù)集的特征是根據(jù)乳房腫塊的細(xì)針穿刺(fine needle aspiration,F(xiàn)NA)的數(shù)字化圖像計(jì)算得出的,它們描述了圖像中存在的細(xì)胞核的特征,從而使得圖片信息降維成12 個(gè)維度的多變量分類信息。將每個(gè)樣本的灰度值的標(biāo)準(zhǔn)偏差作為特征域紋理特征,從低到高分為3個(gè)等級(jí)。根據(jù)這3個(gè)等級(jí),分別從3 類里抽取50%、25%、25%的樣本,抽取25%、50%、25%的樣本,抽取25%、25%、50%的樣本構(gòu)成1個(gè)目標(biāo)域與2個(gè)源域。

Wine 數(shù)據(jù)集是紅酒品質(zhì)的分類數(shù)據(jù)集,包括紅酒的固定酸度、殘?zhí)?、酒精度等信息。根?jù)酒精度的高低,依次設(shè)置3 個(gè)分界點(diǎn)9.5、10.2、11.2,將紅酒分為4 個(gè)等級(jí)。紅酒的評(píng)分以6 為界線,大于6 分為陽性樣例,反之為陰性樣例。根據(jù)這4個(gè)等級(jí),分別從4類里抽取55%、15%、15%、20%的樣本,抽取15%、55%、15%、20%的樣本,抽取15%、15%、55%、20%的樣本,抽取15%、15%、15%、40%的樣本構(gòu)成1個(gè)目標(biāo)域與3個(gè)源域。

Satisfaction 是一個(gè)部門員工對(duì)職業(yè)滿意度的調(diào)查統(tǒng)計(jì)數(shù)據(jù)集。該數(shù)據(jù)集包含員工薪資、部門、學(xué)歷、是否對(duì)工作滿意等信息。根據(jù)職工的部門不同劃分為4類。根據(jù)這4個(gè)類別,分別從4類里抽取46%、13%、18%、18%的樣本,抽取18%、61%、18%、18%的樣本,抽取18%、13%、46%、18%的樣本,抽取18%、13%、18%、46%的樣本構(gòu)成1個(gè)目標(biāo)域與3個(gè)源域。

TelecomChurn 是一個(gè)電信用戶流失信息數(shù)據(jù)集。該數(shù)據(jù)集包含客戶地區(qū)、客戶通話時(shí)間、電話推銷次數(shù)等信息。選擇累計(jì)通話1、2、6、7 次的客戶作為4 個(gè)類別。根據(jù)這4 個(gè)類別,分別從4 類里抽取40%、20%、20%、20%的樣本,抽取20%、40%、20%、20%的樣本,抽取20%、20%、40%、20%的樣本,抽取20%、20%、20%、40%的樣本構(gòu)成1 個(gè)目標(biāo)域與3 個(gè)源域。

Loan數(shù)據(jù)集是一個(gè)銀行對(duì)于客戶貸款業(yè)務(wù)信息的記錄,這些詳細(xì)信息包括性別、工作類別、婚姻狀況、教育、家屬人數(shù)、收入、貸款金額、信用記錄、是否通過貸款申請(qǐng)等。將通過貸款申請(qǐng)作為陽性標(biāo)簽,未通過貸款申請(qǐng)記為陰性。根據(jù)家屬人數(shù)情況,將數(shù)據(jù)集按照家屬人數(shù)遞減順序依次劃分為3類,依次分別從3類里抽取40%、30%、20%的樣本,抽取30%、40%、20%的樣本,抽取30%、30%、60%的樣本構(gòu)成1個(gè)目標(biāo)域與2個(gè)源域。

HeartAttack 數(shù)據(jù)集記錄了患者的身體狀況信息,包括年齡、性別、最大心率、血壓、胸痛類型,并記錄了患者心臟發(fā)作次數(shù)情況。將發(fā)作高頻度記為陽性標(biāo)簽,低頻段記為陰性。根據(jù)胸痛類型劃分為典型心絞痛、非典型心絞痛、非心絞痛3 個(gè)樣本類別。依次分別從3 類里抽取50%、25%、25%的樣本,抽取25%、50%、25%的樣本,抽取25%、25%、50%的樣本構(gòu)成1個(gè)目標(biāo)域與2個(gè)源域。

Marketing 是一個(gè)營銷情況數(shù)據(jù)集,記錄了客戶年齡、婚姻、職業(yè)、教育程度、是否參與過營銷活動(dòng)等信息。將客戶成功訂購業(yè)務(wù)記為陽性標(biāo)簽,未成功訂購記為陰性標(biāo)簽。客戶職業(yè)特征域有多種類別,從中選取藍(lán)領(lǐng)職業(yè)、學(xué)生、退休人員3 個(gè)類別。依次分別從3類里抽取60%、20%、20%的樣本,抽取20%、60%、20%的樣本,抽取20%、20%、60%的樣本構(gòu)成1個(gè)目標(biāo)域與2個(gè)源域。

本文實(shí)驗(yàn)基于Visual Studio 2019完成,操作系統(tǒng)為Windows 7 64 位,計(jì)算機(jī)處理器為Intel?CoreTMi7 4710MQ CPU@2.50 GHz,內(nèi)存16 GB。

3.2 實(shí)驗(yàn)設(shè)置

針對(duì)本文實(shí)驗(yàn)的9個(gè)不同數(shù)據(jù)集,分別按照各自特征的類別信息特點(diǎn)進(jìn)行了目標(biāo)域與源域的劃分,由于數(shù)據(jù)的分布的差異性,源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)相似性也不一致。本文使用式(7)對(duì)多個(gè)源域到目標(biāo)域的KL距離進(jìn)行了計(jì)算。KL距離計(jì)算結(jié)果具體情況如表2所示。

表2 UCI和Kaggle的數(shù)據(jù)集KL距離Table 2 KL divergence of datasets for UCI and Kaggle

對(duì)于算法的樣本權(quán)重初始值設(shè)定,考慮到普遍通用性[13-15],對(duì)于重要性未知的所有訓(xùn)練樣本應(yīng)當(dāng)使用平均權(quán)重初始化。本文與DtrBoost算法一致,使用平均權(quán)重初始化方法初始化樣本權(quán)重。由于各個(gè)數(shù)據(jù)的特征類別、特征數(shù)目、樣本分布情況的不一致,模型達(dá)到最優(yōu)情況的參數(shù)σ、γ的值也不同,這兩項(xiàng)參數(shù)共同決定了懲罰項(xiàng)的大小與振幅。由于多源域相對(duì)于單源域遷移學(xué)習(xí)而言,知識(shí)的遷移從不同分布的數(shù)據(jù)域向目標(biāo)域遷移,迭代學(xué)習(xí)過程更為復(fù)雜,更容易出現(xiàn)振蕩,為確保梯度計(jì)算的量綱一致,懲罰項(xiàng)的大小與Dtrboost算法的懲罰項(xiàng)參數(shù)相比,應(yīng)當(dāng)相對(duì)變小,從而避免權(quán)重更新可能出現(xiàn)的振蕩。因此σ的搜索空間為{10-16,10-17,…,10-20},參數(shù)γ的搜索空間為{2-17,2-18,…,2-20},均小于Dtrboost 算法的搜索空間。本文采用10 次實(shí)驗(yàn)的平均結(jié)果,逐步遍歷搜索空間,找到各數(shù)據(jù)集的最佳參數(shù)。以Marketing 數(shù)據(jù)集為例,圖2展示了參數(shù)搜索過程中不同參數(shù)設(shè)置對(duì)模型平均分類錯(cuò)誤率的影響。選擇恰當(dāng)?shù)膮?shù)σ、γ可以使得懲罰項(xiàng)大小與振幅更為合理,使模型更好地選擇最佳的基分類器并增加權(quán)重,最終降低集成模型的分類錯(cuò)誤率。

圖2 Marketing數(shù)據(jù)集上參數(shù)設(shè)置對(duì)平均分類錯(cuò)誤率的影響Fig. 2 Influence of parameter setting on average classification error rate on Marketing dataset

參數(shù)設(shè)置具體情況如表3 所示。實(shí)驗(yàn)的前6 個(gè)數(shù)據(jù)集設(shè)置了2個(gè)源域的遷移學(xué)習(xí),后3個(gè)數(shù)據(jù)集則設(shè)置為3個(gè)源域的遷移學(xué)習(xí)。

表3 UCI和Kaggle的數(shù)據(jù)集參數(shù)設(shè)置Table 3 Parameter setting of datasets for UCI and Kaggle

本文采用EasyTL、TrAdaBoost、Dtrboost、Dynamic-TrAdaBoost(adaptive Boosting for transfer learning using dynamic updates)[23]這4個(gè)主流遷移學(xué)習(xí)算法作為對(duì)比算法。EasyTL算法是一種無需超參數(shù)的遷移學(xué)習(xí)算法,該算法時(shí)間復(fù)雜度低,分類精度高。TrAdaBoost 算法是遷移學(xué)習(xí)中最具有代表性的算法,該算法將AdaBoost算法進(jìn)行了拓展,使其能夠在遷移學(xué)習(xí)的場景中使用。Dynamic-TrAdaBoost 算法通過引入動(dòng)態(tài)因子擴(kuò)展了算法,使得該算法滿足加權(quán)多數(shù)算法的設(shè)計(jì)預(yù)期。由于TrAdaBoost 與Dynamic-TrAdaBoost 算法決策樹深度可調(diào),為了更好地比較算法,將決策樹最大深度為1 的算法記為H1,最大深度為2 的算法記為H2。DTrBoost 算法根據(jù)Rademacher復(fù)雜度最小化源域和目標(biāo)域的數(shù)據(jù)依賴學(xué)習(xí)邊界來學(xué)習(xí)并分配給基礎(chǔ)學(xué)習(xí)者,這保證了該算法可以在不過度擬合的情況下學(xué)習(xí)深度決策樹。為公平起見,本文所有算法的迭代訓(xùn)練次數(shù)均為100次。

3.3 實(shí)驗(yàn)結(jié)果

本文在2 個(gè)源域與3 個(gè)源域數(shù)據(jù)集上的分類結(jié)果分別如表4、表5 所示。加粗?jǐn)?shù)據(jù)表示在該數(shù)據(jù)集上最低的分類錯(cuò)誤率,下劃線數(shù)據(jù)表示該組數(shù)據(jù)分類錯(cuò)誤率的次小值。各個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,MtrBoost算法均優(yōu)于各對(duì)比方法。對(duì)于特征維度較大的OCR 數(shù)據(jù)集,MtrBoost 算法分類錯(cuò)誤率明顯低于DtrBoost 算法,這是因?yàn)镸trBoost 算法具有兩個(gè)獨(dú)立更新訓(xùn)練樣本權(quán)重的源域,對(duì)于不同分布的源域數(shù)據(jù)可以根據(jù)相似性大小區(qū)別地將源域中的知識(shí)遷移至目標(biāo)域。DtrBoost算法只有一個(gè)源域,對(duì)于源域的訓(xùn)練樣本權(quán)重更新只通過一個(gè)更新公式進(jìn)行更新,導(dǎo)致源域樣本權(quán)重的更新不夠準(zhǔn)確,從而影響最終的分類精度。對(duì)于其余5 個(gè)二源域數(shù)據(jù)集,MtrBoost 算法提升的幅度并不是很大。主要是由于劃分的源域到目標(biāo)域的KL距離不是很大,這就說明源域數(shù)據(jù)分布相對(duì)于目標(biāo)域數(shù)據(jù)分布具有一定的相似度,MtrBoost算法的雙源域樣本權(quán)重獨(dú)立更新的優(yōu)勢(shì)相對(duì)被削弱。DtrBoost 算法在這幾個(gè)數(shù)據(jù)集上的分類錯(cuò)誤率并沒有比MtrBoost 算法高出很多,這是因?yàn)閮蓚€(gè)源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)均存在相似度,相對(duì)于MtrBoost算法,雙源域獨(dú)立更新權(quán)重,不同源域的樣本權(quán)重在每次更新迭代后差別并不是很大。因此,源域與目標(biāo)域KL距離的分布情況對(duì)于最終的分類錯(cuò)誤率有一定影響,較大的KL距離可以突出各源域樣本權(quán)重獨(dú)立更新的優(yōu)勢(shì)。對(duì)于3 個(gè)源域的數(shù)據(jù)集,MtrBoost 算法均比基線對(duì)比算法分類效果更好。這說明MtrBoost 算法在3 個(gè)源域分布情況的數(shù)據(jù)集上也能很好地完成分類任務(wù)。TrAdaBoost、Dynamic-TrAdaBoost 算法每次迭代會(huì)更新訓(xùn)練樣本權(quán)重,每次使用新的樣本權(quán)重訓(xùn)練基分類器,在100次迭代后模型節(jié)點(diǎn)數(shù)目均為固定的100個(gè)。圖3展示的是100次迭代訓(xùn)練后的MtrBoost算法模型平均節(jié)點(diǎn)數(shù)目與平均節(jié)點(diǎn)深度。與TrAdaBoost、Dynamic-TrAdaBoost算法對(duì)比,所有的模型節(jié)點(diǎn)數(shù)目都沒有達(dá)到迭代訓(xùn)練次數(shù),這說明MtrBoost算法具有自適應(yīng)能力,每一次迭代訓(xùn)練并不都是將新訓(xùn)練的基分類器加入模型中,也可能是選擇已經(jīng)存在的當(dāng)前梯度最大的基分類器作為最佳分類器并按照分類器權(quán)重式(16)增加基分類器的權(quán)重。節(jié)點(diǎn)的平均深度說明訓(xùn)練完的模型中有深度為1和2的兩種基分類器,在不同數(shù)據(jù)集上平均深度并不相同,這也體現(xiàn)了MtrBoost 算法對(duì)于不同訓(xùn)練數(shù)據(jù)的自適應(yīng)性。這種自適應(yīng)性使得模型可以增加當(dāng)前最優(yōu)的基分類器的權(quán)重,從而提高最終集成函數(shù)輸出結(jié)果中的比重,提高分類的準(zhǔn)確性。

表4 各種算法對(duì)于二源域數(shù)據(jù)集的分類錯(cuò)誤率Table 4 Classification error rates of various algorithms on 2-source domain datasets

表5 各種算法對(duì)于三源域數(shù)據(jù)集的分類錯(cuò)誤率Table 5 Classification error rates of various algorithms on 3-source domain datasets

圖3 MtrBoost模型平均節(jié)點(diǎn)數(shù)目與平均節(jié)點(diǎn)深度Fig. 3 MtrBoost model average number of nodes and average depth of nodes

總的來說,本文提出的MtrBoost 算法分類準(zhǔn)確率均高于對(duì)比算法。在樣本特征數(shù)目較多、源域到目標(biāo)域KL 距離較大時(shí)性能提升較為明顯。在源域與目標(biāo)域KL距離不大、樣本維度不多的情況下也有小幅的性能提升。

4 結(jié)束語

本文提出了一種多源域分布下優(yōu)化權(quán)重的遷移學(xué)習(xí)Boosting方法。同時(shí),根據(jù)不同源域到目標(biāo)域的KL距離設(shè)計(jì)了梯度學(xué)習(xí)函數(shù)。與單源域遷移學(xué)習(xí)的DtrBoost算法相比,本文算法在每一次迭代訓(xùn)練后可以獨(dú)立更新不同源域的樣本權(quán)重,增加誤分類的目標(biāo)域樣本權(quán)重,降低誤分類的源域樣本權(quán)重。實(shí)驗(yàn)證明,本文算法較對(duì)比算法在整體精確度上實(shí)現(xiàn)了更好的性能并且對(duì)于不同的訓(xùn)練數(shù)據(jù)能夠?qū)崿F(xiàn)自適應(yīng)效果。在將來的改進(jìn)中,可以使用部分?jǐn)?shù)據(jù)訓(xùn)練給目標(biāo)域數(shù)據(jù)打標(biāo)簽,從而實(shí)現(xiàn)無標(biāo)簽的目標(biāo)域訓(xùn)練數(shù)據(jù)遷移學(xué)習(xí)。此外,可以根據(jù)源域的KL距離相似程度分別設(shè)計(jì)源域樣本權(quán)重的更新公式,使得模型更快收斂。

猜你喜歡
源域分類器權(quán)重
多源域適應(yīng)方法綜述
基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
祁门县| 拉萨市| 张家界市| 棋牌| 平乐县| 家居| 渝中区| 定南县| 杭锦后旗| 普宁市| 日喀则市| 阳春市| 清徐县| 石狮市| 南乐县| 英德市| 湖北省| 崇阳县| 从化市| 定南县| 江山市| 全椒县| 泗洪县| 丹东市| 恭城| 顺昌县| 清水县| 磐安县| 柯坪县| 望城县| 康乐县| 新干县| 临汾市| 长宁县| 共和县| 邹城市| 嘉义市| 无极县| 伊宁县| 清水县| 衡东县|