劉建偉,孫正康,劉澤宇,羅雄麟
(1.中國石油大學(xué)(北京)自動化系,北京 102249;2.中國科學(xué)院軟件研究所基礎(chǔ)軟件國家工程研究中心,北京 100190)
核典型關(guān)聯(lián)性分析相關(guān)特征提取與核邏輯斯蒂回歸域自適應(yīng)學(xué)習(xí)
劉建偉1,孫正康1,劉澤宇2,羅雄麟1
(1.中國石油大學(xué)(北京)自動化系,北京 102249;2.中國科學(xué)院軟件研究所基礎(chǔ)軟件國家工程研究中心,北京 100190)
本文提出了一種利用核典型關(guān)聯(lián)性分析提取源域目標(biāo)域最大相關(guān)特征,使用核邏輯斯蒂回歸模型進(jìn)行域自適應(yīng)學(xué)習(xí)的算法,該算法稱為KCCA-DAML(Kernel Canonical Correlation Analysis for Domain Adaptation Learning).該算法基于特征集關(guān)聯(lián)性分析,有效的減小源域和目標(biāo)域的概率分布差異性,利用提取的最大相關(guān)特征通過核邏輯斯蒂回歸模型實現(xiàn)源域到目標(biāo)域的跨域?qū)W習(xí).實驗比較源域數(shù)據(jù)上核邏輯斯蒂學(xué)習(xí)模型、目標(biāo)域上核邏輯斯蒂學(xué)習(xí)模型 、源域和目標(biāo)域上核邏輯斯蒂學(xué)習(xí)模型和KCCA-DAML模型,結(jié)果顯示KCCA-DAML在真實數(shù)據(jù)集上成功的實現(xiàn)了跨域?qū)W習(xí).
域自適應(yīng);概率分布差異;相關(guān)分析;核邏輯斯蒂回歸;正則化模型
機器學(xué)習(xí)任務(wù)中,假定訓(xùn)練樣例-標(biāo)簽對組成的樣本集和測試樣例-標(biāo)簽對組成的樣本集通常來自同一概率分布,這是保證良好學(xué)習(xí)性能的基本假設(shè).但在現(xiàn)實應(yīng)用中,這種假設(shè)過于“嚴(yán)苛”,具有很大的局限性.我們經(jīng)常遇到訓(xùn)練樣例-標(biāo)簽對組成的樣本集與測試樣例-標(biāo)簽對組成的樣本集概率分布不一致的情況,例如命名實體識別(Named Entity Recognition,NER)中的文本標(biāo)注問題就是一種經(jīng)典的域自適應(yīng)學(xué)習(xí)問題.
遷移學(xué)習(xí)中,假定源域與目標(biāo)域輸入樣例的概率分布是一樣的,存在多個標(biāo)簽輸出預(yù)測函數(shù),而域自適應(yīng)學(xué)習(xí)做相反的假設(shè),即假定源域與目標(biāo)域樣例標(biāo)簽預(yù)測函數(shù)相同,源域與目標(biāo)域輸入樣例的概率分布不一樣.域自適應(yīng)學(xué)習(xí)通過已知源域信息對于未知目標(biāo)域進(jìn)行信息處理和挖掘.目前關(guān)于域自適應(yīng)學(xué)習(xí)產(chǎn)生了大量的理論研究成果,例如文獻(xiàn)[1]對統(tǒng)計分類中的域自適應(yīng)學(xué)習(xí)進(jìn)行了綜述;文獻(xiàn)[2~4]對域自適應(yīng)學(xué)習(xí)的各種誤差界理論進(jìn)行了討論;文獻(xiàn)[5~7]圍繞域自適應(yīng)核學(xué)習(xí)方法進(jìn)行了研究和改進(jìn);文獻(xiàn)[8~12]對多源域自適應(yīng)學(xué)習(xí)問題進(jìn)行了分析和討論.
域自適應(yīng)學(xué)習(xí)算法形式多樣[13~15],如核映射函數(shù)法、結(jié)構(gòu)對應(yīng)學(xué)習(xí)、維數(shù)約簡與協(xié)同聚類和遷移分量分析.其中核映射函數(shù)法應(yīng)用更為普遍,與域自適應(yīng)學(xué)習(xí)正則化技術(shù)關(guān)聯(lián)緊密.找到合適的域自適應(yīng)學(xué)習(xí)特征表示需要引入跨域數(shù)據(jù)依賴正則化項對新的特征空間進(jìn)行約束.域自適應(yīng)學(xué)習(xí)研究的重點和熱點是提出全新的域分布偏差度量判據(jù)和高效的域自適應(yīng)學(xué)習(xí)算法.基于特征表示的域自適應(yīng)學(xué)習(xí)是當(dāng)前使用最為廣泛的域自適應(yīng)學(xué)習(xí)方法,通過將源域和目標(biāo)域數(shù)據(jù)映射到新的特征空間中,使源域與目標(biāo)域的概率分布在新的特征空間下足夠接近.
本文提出的核典型關(guān)聯(lián)性分析域自適應(yīng)學(xué)習(xí) (Kernel Canonical Correlation Analysis for Domain Adaptation Learning,KCCA-DAML)的主要觀點是將源域和目標(biāo)域的樣本映射到再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中,保證源域和目標(biāo)域在新的特征空間下線性可分,同時引入KCCA約束,使核空間下源域分布和目標(biāo)域分布的相關(guān)性最大化,域自適應(yīng)學(xué)習(xí)場景下,若兩領(lǐng)域相關(guān),則兩域分布足夠靠近,進(jìn)而實現(xiàn)源域?qū)W習(xí)模型適應(yīng)于目標(biāo)域?qū)W習(xí)模型.
在Reuters 20 Newsgroups數(shù)據(jù)集、MNIST手寫數(shù)字識別數(shù)據(jù)集和UCI Dermatology數(shù)據(jù)集上進(jìn)行了實驗.針對四種不同分類模型,比較分析了影響域自適應(yīng)學(xué)習(xí)任務(wù)有效實現(xiàn)的各種因素和參數(shù)選擇問題.實驗結(jié)果表明KCCA-DAML通過對源域?qū)W習(xí)模型進(jìn)行分布偏差修正,使源域?qū)W習(xí)模型逐漸遷移為目標(biāo)域?qū)W習(xí)模型,能夠通過最大化源域和目標(biāo)域的特征相關(guān)性,保證了源域概率分布和目標(biāo)域概率分布的差異性足夠小,實現(xiàn)跨域?qū)W習(xí).
源域樣本集DS={(xS,1,yS,1),…,(xS,n,yS,n)},由源域樣例集XS={xS,1,…,xS,n}?Rn×d和源域類標(biāo)簽集YS={yS,1,…,yS,n}?Rn×1組成,其中每個樣例包含d維特征xS,i∈Rd,對應(yīng)類標(biāo)簽yS,i∈{+1,-1}.目標(biāo)域樣本集分為少量已標(biāo)識樣本DLT={(xT,1,yT,1),…,(xT,m,yT,m)}和大量未標(biāo)識樣例DUT={(xT,m+1,?),…,(xT,n,?)},其中每個樣例包含d維特征xT,i∈Rd,對應(yīng)未知類標(biāo)簽為yT,i∈{+1,-1}.
域自適應(yīng)分類任務(wù)的目的是利用源域已標(biāo)識樣本DS,目標(biāo)域少量已標(biāo)識樣本DLT和大量未標(biāo)識樣例XUT,學(xué)習(xí)一個模型能夠準(zhǔn)確地對目標(biāo)域未標(biāo)識樣例集DUT分配類標(biāo)簽.即學(xué)習(xí)判別函數(shù)f=sign(wTxi):X→Y,預(yù)測每個目標(biāo)域未標(biāo)識樣例XUT的類標(biāo)簽YUT,其中非線性映射函數(shù)φ:X→H將樣例映射到特定特征空間,增廣權(quán)向量w=(w1,…,wd)T∈Rd是確定分類平面的特征空間向量.
邏輯斯蒂模型為機器學(xué)習(xí)中常用的分類模型,邏輯斯蒂分類模型為如下無約束優(yōu)化問題:
(1)
其中σ(z)=ln(1+exp(-z)),對于給定的樣例xi∈Rd,使用相應(yīng)的邏輯斯蒂模型,能夠得到如下的邏輯斯蒂分類器:
yi=sign(wTxi)
(2)
其中定義符號函數(shù):
(3)
邏輯斯蒂模型置信度為:
(4)
域自適應(yīng)學(xué)習(xí)的基本觀點在于充分利用源域大量先驗信息,并通過源域和目標(biāo)域的偏差度量判據(jù)約束解空間,使學(xué)習(xí)得到的分類判別函數(shù)f(x,y;w)由源域判別函數(shù)fS(x,y;wS)逐步轉(zhuǎn)變?yōu)槟繕?biāo)域判別函數(shù)fT(x,y;w).
定義核矩陣:
(5)
核映射:
φ:XS={xS,1,…,xS,n}→φ(XS)=[φ(xS,1),…,φ(xS,n)]
(6)
學(xué)習(xí)判別函數(shù):
f=sign(wTφ(xi)):X→Y
(7)
源域核邏輯斯蒂分類模型為:
(8)
其中kS,i=[k(xS,i,xS,1),…,k(xS,i,xS,n)]=[kS,i,1,…,kS,i,n].
目標(biāo)域核邏輯斯蒂分類模型為:
(9)
其中kT,i=[k(xT,i,xT,1),…,k(xT,i,xT,n)]=[kT,i,1,…,kT,i,n].
源域和目標(biāo)域之間存在差異性導(dǎo)致源域邏輯斯蒂分類模型并不能很好的適用于目標(biāo)域?qū)W習(xí)任務(wù).需要引入跨域數(shù)據(jù)依賴正則化項約束邏輯斯蒂分類模型的解空間,將數(shù)據(jù)嵌入到再生核希爾伯特核空間中,通過最小化源域和目標(biāo)域的最大分布偏差,保證源域和目標(biāo)域足夠鄰近,使源域和目標(biāo)域在RKHS中具有相近的概率分布,解決跨領(lǐng)域?qū)W習(xí)問題.
當(dāng)前域自適應(yīng)學(xué)習(xí)常用的分布偏差度量為基于均值的偏差度量判據(jù)(Maximum Mean Discrepancy,MMD),是一種較為簡單直觀的度量判據(jù).但是,僅從均值特征來描述變量差異性并不能充分挖掘特征變量的差異性.典型相關(guān)分析(Canonical Correlation Analysis,CCA)是一種分析多變量相關(guān)性的有效方法.典型相關(guān)分析由Hotelling首次提出[16],并研究了兩組變量之間的相關(guān)系數(shù).用單變量Pearson系數(shù)難以從整體描述兩組多變量之間的關(guān)聯(lián)程度,而CCA很好的解決了這一問題.
(10)
(11)
KCCA數(shù)據(jù)依賴正則化項為:
(12)
得到KCCA-DMAL學(xué)習(xí)模型:
(13)
經(jīng)過核映射后源域判別函數(shù)fS=φ(wS)Tφ(XS)和目標(biāo)域判別函數(shù)fT=φ(wT)Tφ(XT)相關(guān)性較高,則能實現(xiàn)源域到目標(biāo)域的遷移學(xué)習(xí),fS與fT相關(guān)性越高,遷移學(xué)習(xí)效果越好.
使用標(biāo)準(zhǔn)CCA[16]對源域和目標(biāo)域進(jìn)行關(guān)聯(lián)性分析,對域的樣本進(jìn)行歸一化,其中源域樣本:
DS={(xS,1,yS,1),…,(xS,n,yS,n)}
(14)
目標(biāo)域樣本:
DT=({xT,1,yT,1),…,(xT,m,yT,m),(xT,m+1,?),…,(xT,n,?)}
(15)
定義如下向量運算:
(16)
(17)
最大化源域和目標(biāo)域關(guān)聯(lián)性:
(18)
其中,w1,w2為d×1維列向量,XS,XT分別為源域和目標(biāo)域的d×n維樣例矩陣,〈xS,xT〉表示向量內(nèi)積運算,CST表示源域樣例xS與目標(biāo)域樣例xT的協(xié)方差矩陣,CSS為源域樣例xS的方差矩陣,CTT為目標(biāo)域樣例xT的方差矩陣.
定義核函數(shù):K(xS,xT)=〈φ(xS),φ(xT)〉,則式(18)變?yōu)?
(19)
其中KS為源域樣本數(shù)據(jù)核矩陣,KT為目標(biāo)域樣本數(shù)據(jù)核矩陣.
通過求解式(8)得到核空間下源域分類向量wS,故域自適應(yīng)的KCCA求解與普通KCCA求解稍有不同,即wS已知.
(20)
引入a≥0,式(20)表示為無約束形式:
(21)
KCCA-DAML模型的優(yōu)化問題為:
(22)
該問題為帶正則化的L2范數(shù)邏輯斯蒂分類問題,優(yōu)化求解如下:
令
更新迭代公式:
w(t+1)=w(t)+a(t)d(t)
(23)
其中a(t)為第t次迭代的步長,d(t)為第t次迭代的搜索方向,▽L(w)為L(w)關(guān)于w的導(dǎo)數(shù):
(24)
其中:
(25)
由于:
σ(a)=ln(1+exp(-a))
(26)
(27)
故:
(28)
其中A=[y1x1,…,ynxn]T∈Rn×d,p(Y|X;w) =[p(y1|x1;w),…,p(yn|xn;w)]T∈Rn.
由等式(25)、式(28)可以確定搜索方向,式(23)中的步長可以通過如下優(yōu)化問題得到:
(29)
式(29)為單變量優(yōu)化問題,使用Carl Edward Rasmussen軟件包minFun求解.通過逐步迭代更新,可以求解上述問題.最后給出基于關(guān)聯(lián)性分析的域自適應(yīng)學(xué)習(xí)算法.
算法1 KCCA-DAML域自適應(yīng)學(xué)習(xí)算法
計算d(t)=-▽L(w(t))+g(t-1)w(t-1);
輸出:目標(biāo)域權(quán)向量w.
本節(jié)通過實驗對KCCA-DAML在分類方面的性能進(jìn)行研究.目前廣泛使用的域自適應(yīng)數(shù)據(jù)集有Reuters 20 Newsgroups數(shù)據(jù)集、Amazon reviews benchmark數(shù)據(jù)集和Wall Street Journal語料庫數(shù)據(jù)集等,這些數(shù)據(jù)集最先應(yīng)用于自然語言處理方面的研究,隨后被廣泛用于跨域?qū)W習(xí)問題的研究當(dāng)中,此外數(shù)據(jù)特征“飄移”導(dǎo)致的數(shù)據(jù)分布差異也是目前常見的域自適應(yīng)學(xué)習(xí)問題.本文選擇以下三種廣泛使用的真實數(shù)據(jù)集進(jìn)行實驗:Reuters 20 Newsgroups數(shù)據(jù)集(http://kdd.ics.uci.edu/databases/20newsgroups);MNIST手寫數(shù)字識別數(shù)據(jù)集(http://yann.lecun.com/exdb/mnist);UCI Dermatology數(shù)據(jù)集(http://archive.ics.uci.edu/ml/datasets.html);為討論跨域?qū)W習(xí)的影響因素,實驗按源域數(shù)據(jù)邏輯斯蒂學(xué)習(xí)模型(S-KLLM,Source-Kernel Logistic Model)、目標(biāo)域邏輯斯蒂學(xué)習(xí)模型(T-KLLM,Target-Kernel Logistic Model)、源域+目標(biāo)域邏輯斯蒂學(xué)習(xí)模型(ST-KLLM,Source and Target-Kernel Logistic Model)、KCCA-DAML模型進(jìn)行訓(xùn)練與測試,并給出KCCA-DAML在三種數(shù)據(jù)集上的實驗結(jié)果和參數(shù)選擇方案.
待調(diào)節(jié)參數(shù)設(shè)定為λ∈[2-4,…,2-1,1,2,…,210]和p∈[0.5,0.6,0.7,…,1.4,1.5],為簡化計算復(fù)雜度,實驗中使用網(wǎng)格搜索過程確定每組數(shù)據(jù)集參數(shù).對于每組參數(shù)取值,執(zhí)行算法1中的過程.
6.1 Reuters 20 Newsgroups數(shù)據(jù)集
Reuters 20 Newsgroups報文數(shù)據(jù)集具有層次結(jié)構(gòu),包含7個大類:共20個小類,實驗選擇comp和rec兩大類數(shù)據(jù),使用comp的4個小類:comp.windows.x、comp.os.ms-windows、comp.sys.ibm.pc.hardware和comp.sys.mac.hardware.路透社報文數(shù)據(jù)集的基本信息如表1所示.
表1 Reuters 20 Newsgroups報文數(shù)據(jù)集
按照如下方式構(gòu)造源域和目標(biāo)域數(shù)據(jù).包含comp域遷移學(xué)習(xí)rec域的兩類任務(wù).
任務(wù)1:comp.windows.x作為源域中的正類、rec.autos作為源域中的負(fù)類;comp.os.ms-windows作為目標(biāo)域中的正類、rec.motorcycles作為目標(biāo)域中的負(fù)類.
任務(wù)2:comp.sys.ibm.pc.hardware作為源域中的正
mac.hardware作為目標(biāo)域中的正類、rec.sport.hockey作為目標(biāo)域中的負(fù)類.源域和目標(biāo)域數(shù)據(jù)構(gòu)成如圖1所示.
20Newsgroups數(shù)據(jù)集為18774×61188的詞頻矩陣,選用comp和rec詞頻數(shù)據(jù)大于30次的特征作為樣本特征,并使用TI-IDF軟件對數(shù)據(jù)進(jìn)行處理,得到數(shù)據(jù)信息如表2所示:
表2 源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集構(gòu)成
表3是跨域?qū)W習(xí)任務(wù)Task1和Task2上的分類誤差率.從表中跨域?qū)W習(xí)任務(wù)Task1上的分類誤差率結(jié)果可以看出,在a=1.1處得到了最小分類誤差率8.31,此時參數(shù)λ=4,wKCCA與wT的相關(guān)性較大.說明在兩個域相關(guān)性較高的情況下,源域數(shù)據(jù)對目標(biāo)域數(shù)據(jù)具有較好的遷移效果.此外當(dāng)源域數(shù)據(jù)的遷移效果較好時,即當(dāng)已知源域和目標(biāo)域關(guān)聯(lián)性較高時,參數(shù)a的值可在0.8~1.2范圍內(nèi)選擇.從表中Task2上的分類誤差率結(jié)果可以看出,在a=1.1處得到了最小分類誤差率9.07,此時參數(shù)λ=2,此時兩個域相關(guān)性較不高,源域數(shù)據(jù)對目標(biāo)域數(shù)據(jù)具有較弱的遷移效果,如果過多考慮源域信息,會產(chǎn)生負(fù)遷移,使遷移學(xué)習(xí)退化為源域的學(xué)習(xí).
表3 Task1和Task2上的誤差率
表4是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在跨域?qū)W習(xí)任務(wù)Task1和Task2上的分類誤差率,其中T-KLLM訓(xùn)練樣本數(shù)目為150.從表中結(jié)果可以看出,任務(wù)Task1的源域與目標(biāo)域的相關(guān)性高于Task2,對應(yīng)的KCCA-DAML的Task1分類誤差率也小于Task2.此外樣本的遷移學(xué)習(xí)效果越差,源域的跨域?qū)W習(xí)性能越受限,跨域?qū)W習(xí)機的學(xué)習(xí)效果也會受到影響.當(dāng)源域和目標(biāo)域分布偏差足夠大,甚至源域和目標(biāo)域無顯著關(guān)聯(lián)時,實現(xiàn)跨域?qū)W習(xí)仍是十分困難的.
表4 不同模型下任務(wù)1和任務(wù)2的誤差率
目標(biāo)域訓(xùn)練樣本不足導(dǎo)致T-KLLM學(xué)習(xí)誤差較大,此外ST-KLLM的分類誤差與S-KLLM的分類誤差相接近,即將源域與目標(biāo)域合并訓(xùn)練,跨域?qū)W習(xí)誤差不一定減小,原因在于混合訓(xùn)練樣本中源域樣本在數(shù)量上占優(yōu),起到了主導(dǎo)作用.只有在充分考慮源域信息和域關(guān)聯(lián)信息的前提下,域自適應(yīng)學(xué)習(xí)機才能實現(xiàn)良好的跨域?qū)W習(xí).6.2 MNIST手寫數(shù)字識別數(shù)據(jù)集
MNIST手寫數(shù)字識別數(shù)據(jù)集由500個訓(xùn)練樣本和300個測試樣例組成,每個樣例的維數(shù)是784,采用構(gòu)造特征偏差(feature bias)數(shù)據(jù)集的方法構(gòu)造源域和目標(biāo)域數(shù)據(jù)集,使源域和目標(biāo)域分布不同,方法為:隨機選擇訓(xùn)練樣本的375個屬性列,按數(shù)值大小選各屬性值最大的375個訓(xùn)練樣本作為源域訓(xùn)練樣本,剩余樣本為目標(biāo)域樣本集,從中隨機選擇100個訓(xùn)練樣本構(gòu)成目標(biāo)域訓(xùn)練樣本集,剩余樣例作為目標(biāo)域測試.由于源域樣本偏差特征值為各樣本最大值,不能準(zhǔn)確反映目標(biāo)域特征的真實情況,導(dǎo)致源域判別函數(shù)不能準(zhǔn)確預(yù)測目標(biāo)域.同時,目標(biāo)域數(shù)已標(biāo)識樣本數(shù)據(jù)樣本數(shù)目太少,包含目標(biāo)域信息不完全,也不能準(zhǔn)確預(yù)測目標(biāo)域真實分布.
表5是MNIST數(shù)據(jù)集的分類誤差率.從表中結(jié)果可以看出,參數(shù)a在范圍0.6~1.4范圍內(nèi)變化時,對分類誤差率沒有產(chǎn)生明顯影響,但跨域數(shù)據(jù)依賴正則化項的引入能夠保證跨域?qū)W習(xí)分類誤差得以改善并不產(chǎn)生惡化.
表5 MNIST數(shù)據(jù)集誤差率
表6是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在MNIST數(shù)據(jù)集上的分類誤差率.
表6 不同模型下MNIST數(shù)據(jù)集誤差率
MNIST數(shù)據(jù)集實驗中,將源域與目標(biāo)域合并訓(xùn)練,跨域?qū)W習(xí)誤差減小,這受益于數(shù)據(jù)集特性以及構(gòu)造源域和目標(biāo)域的方法.和Reuters 20 Newsgroups數(shù)據(jù)集實驗相比較,構(gòu)造特征偏差數(shù)據(jù)集的方法引起的域分布差異性要小于Reuters 20 Newsgroups數(shù)據(jù)集子類差異.
6.3 UCI Dermatology數(shù)據(jù)集
本節(jié)使用UCI Dermatology據(jù)集進(jìn)行實驗,數(shù)據(jù)集由366個樣本數(shù)據(jù),每個樣例的維數(shù)是33,同MNIST數(shù)據(jù)一樣,采用構(gòu)造特征偏差數(shù)據(jù)集的方法對源域和目標(biāo)域數(shù)據(jù)進(jìn)行構(gòu)造,使源域和目標(biāo)域分布不同.
選擇acanthosis,hyperkeratosis,parakeratosis,clubbing of the rete ridges,elongation of the rete ridges,exocytosis,PNL infiltrate,spongiosis,follicular horn plug這9個特征作為偏差特征.選擇每個偏差特征值中最大的十個樣本(樣本大小為9×10)作為源域訓(xùn)練樣本,剩余樣本為目標(biāo)域樣本集,從中隨機選擇30個樣本構(gòu)成目標(biāo)域訓(xùn)練樣本集,選擇剩余240個樣例作為目標(biāo)域測試.
KCCA-DAML在Dermatology數(shù)據(jù)集上的類誤差率如表7所示.
表7 UCI Dermatology數(shù)據(jù)集誤差率
UCI Dermatology數(shù)據(jù)集實驗在a=1.1處得到了最小分類誤差率5.42,此時參數(shù)λ=0.0625.表8是模型S-KLLM,T-KLLM,ST-KLLM及KCCA-DAML在UCI Dermatology數(shù)據(jù)集上進(jìn)行跨域?qū)W習(xí)的分類誤差率.
表8 不同模型下UCI Dermatology數(shù)據(jù)集誤差率
本文提出的域自適應(yīng)學(xué)習(xí)算法KCCA-DAML及KCCA域自適應(yīng)度量判據(jù)能夠有效的揭示源域特征與目標(biāo)域特征變的潛在關(guān)聯(lián)性,從而對不同領(lǐng)域的差異性進(jìn)行度量.通過對源域模型進(jìn)行增量修正,使源域模型逐漸遷移至目標(biāo)域模型,實現(xiàn)跨域?qū)W習(xí).KCCA-DAML模型在跨域?qū)W習(xí)任務(wù)中具有可行性且學(xué)習(xí)性能良好.此外利用跨域?qū)W習(xí)中的已知先驗信息,合適的選擇模型參數(shù),可使KCCA-DAML獲得更好的遷移效果,實現(xiàn)更為精確的跨域?qū)W習(xí)任務(wù).邏輯斯蒂模型適用于多類學(xué)習(xí),因而KCCA-DAML可應(yīng)用于多域自適應(yīng)學(xué)習(xí)場景,這是我們下一步要做的工作.
[1]劉建偉,孫正康,羅雄麟.域自適應(yīng)學(xué)習(xí)研究進(jìn)展[J].自動化學(xué)報,2014,40(8):1576-1600. Liu Jianwei,SUN Zhengkang,LUO Xionglin.Review and research development on domain adaptation learning[J].Acta Automatica Sinica,2014,40(8):1576-1600.(in Chinese)
[2]Mansour Y,Mohri M,Rostamizadeh A.Multiple source adaptation and the Rényi divergence[A].Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence[C].Montreal,Canada:AUAI Press,2009.367-374.
[3]Blitzer J,Crammer K,Kulesza.A.Learning bounds for domain adaptation[A].Proceedings of the Twenty-First Annual Conference on Neural Information Processing Systems[C].Vancouver,British Columbia,Canada:Curran Associates,2007.129-136.
[4]Cortes C,Mansour Y,Mohri M.Learning bounds for importance weighting[A].Proceedings of the Twenty-Four Annual Conference on Neural Information Processing Systems[C].Vancouver,Canada:Curran Associates,2010.442-450.
[5]Tao Jianwen,Chung Fulai,Wang Shitong.A kernel learning framework for domain adaptation learning[J].Science China Information Sciences,2012,55(9):1983-2007.
[6]Malandrakis N,Potamianos A,Iosif E.Kernel models for affective lexicon creation[A].12th Annual Conference of the International Speech Communication Association[C].Florence,Italy:International Speech Communication Association,2011.2977-2980.
[7]Kulis B,Saenko K,Darrell T.What you saw is not what you get:Domain adaptation using asymmetric kernel transforms[A].Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].Colorado,USA:Springs,2011.1785-1792.
[8]Ben-David S,Blitzer J,Crammer K.A theory of learning from different domains[J].Machine Learning,2010,79(1-2):151-175.
[9]Joshi M,Cohen W W,Dredze M.Multi-domain learning:when do domains matter?[A].Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning[C].Jeju,Island,Korea:Association for Computational Linguistics,2012.1302-1312.
[10]Joshi M,Dredze M,Cohen W W.What’s in a domain? Multi-domain learning for multi-attribute data[A].Proceedings of the NAACL-HLT[C].Atlanta,Georgia,USA:Association for Computational Linguistics,2013.685-690.
[11]Mansour Y,Mohri M,Rostamizadeh A.Domain adaptation with multiple sources[A].Proceedings of the Twenty-Second Annual Conference on Neural Information Processing Systems[C].Vancouver,British Columbia,Canada:Curran Associates,2008.1041-1048.
[12]Chapelle O,Shivaswamy P,Vadrevu S.Boosted multi-task learning[J].Machine Learning,2011,85(1-2):149-173.
[13]Duan L,Xu D,Tsang I W.Domain adaptation from multiple sources:A domain-dependent regularization approach[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(3):504-518
[14]Sch?lkopf B,Smola A J,Williamson R C.New support vector algorithms[J].Neural Computation,2000,12(5):1207-1245.
[15]Joachims T.Transductive inference for text classification using support vector machines[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled,Slovenia:Morgan Kaufmann,1999.200-209.
[16]H Hotelling.Relations between two sets of variates[J].Biometrika,1936,28(3):312-377.
劉建偉(通信作者) 男,1966年出生.博士,中國石油大學(xué)(北京)副研究員,主要研究方向包括智能信息處理,機器學(xué)習(xí),非線性分析與控制,算法分析與設(shè)計等.
E-mail:liujw@cup.edu.cn
孫正康 男,碩士,1990 年出生.中國石油大學(xué)(北京)地球物理與信息工程學(xué)院碩士研究生,研究方向為機器學(xué)習(xí).
E-mail:sunzhengkang@126.com
Domain Adaptation Learning with Kernel Logistic Regression and Kernel Canonical Correlation Analysis
LIU Jian-wei1,SUN Zheng-kang1,LIU Ze-yu2,LUO Xiong-lin1
(1.DepartmentofAutomation,ChinaUniversityofPetroleum,Beijing102249,China; 2.NationalEngineeringResearchCenterforFundamentalSoftware,InstituteofSoftware,ChineseAcademyofSciences,Beijing100190,China)
The domain adaptive learning algorithm using kernel logistic regression model is proposed.The proposed approach use kernel canonical correlation analysis to extract the maximum relevant features of the source and target domain.We dub it as KCCA-DAML(Kernel Canonical Correlation Analysis for Domain Adaptation Learning,KCCA-DAML).Our algorithm is based on canonical correlation analysis,which simultaneously minimizes the incompatibility among source features,target features and instance labels,extract maximum relevant features from source features,target features and instance labels,and use kernel logistic regression domain adaptation learning.In experimental comparison of the kernel logistic model and KCCA-DAML model on source domain data,the target domain data,source and the target domain data,we demonstrate the power of our techniques with the following real-world data sets:Reuters 20 Newsgroups,MNIST handwritten-digits and UCI Dermatology.
domain adaptation;distribution discrepancy;correlation analysis;kernel logistic regression;regularization model
2015-05-25;
2015-11-18;責(zé)任編輯:覃懷銀
國家重點基礎(chǔ)研究發(fā)展規(guī)劃(973計劃)項目(No.2012CB720500)
TP181
A
0372-2112 (2016)12-2908-08
??學(xué)報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.12.014