董瑩瑩 鄧萬(wàn)宇 劉光達(dá)
(西安郵電大學(xué)計(jì)算機(jī)院 西安 710061)
遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)的前沿研究方向之一。其目標(biāo)是將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同的但相關(guān)的領(lǐng)域或問(wèn)題當(dāng)中。主要思想是從源域及目標(biāo)域相關(guān)的輔助領(lǐng)域中學(xué)習(xí)標(biāo)簽數(shù)據(jù)或知識(shí)結(jié)構(gòu),以改進(jìn)或?qū)崿F(xiàn)目標(biāo)領(lǐng)域或任務(wù)的學(xué)習(xí)效果。遷移學(xué)習(xí)試圖實(shí)現(xiàn)人通過(guò)類(lèi)比進(jìn)行學(xué)習(xí)的能力,例如學(xué)習(xí)走路的技能可以用來(lái)學(xué)習(xí)跑步、學(xué)習(xí)識(shí)別轎車(chē)的經(jīng)驗(yàn)可以用來(lái)識(shí)別卡車(chē)等。在自然語(yǔ)言處理[1]、計(jì)算機(jī)視覺(jué)[2~6]、醫(yī)療健康與生物信息[7]等領(lǐng)域,目標(biāo)任務(wù)的標(biāo)簽數(shù)據(jù)稀缺,域適應(yīng)[2~3,5,8]等問(wèn)題十分突出,遷移學(xué)習(xí)具有很強(qiáng)的現(xiàn)實(shí)需求。
其中無(wú)監(jiān)督域適應(yīng)[2,9~15]是特別具有挑戰(zhàn)性的。例如,歧視性訓(xùn)練的一般做法通常不適用。沒(méi)有標(biāo)簽,甚至不清楚如何定義目標(biāo)域上的正確區(qū)分損失。同樣,執(zhí)行模型選擇也很困難。因此,為了啟用域自適應(yīng),我們需要確定域是如何關(guān)聯(lián)的。一個(gè)被廣泛研究的范式是假設(shè)有一個(gè)域不變特征空間,在這個(gè)空間中,源域和目標(biāo)域具有相同(或類(lèi)似)的邊緣分布,且標(biāo)簽的后驗(yàn)分布在域間也是相同的。因此,在標(biāo)記源上訓(xùn)練的分類(lèi)器很可能在目標(biāo)上表現(xiàn)良好。
但現(xiàn)有方法僅限于通過(guò)一系列的數(shù)據(jù)變換[2,9,16~17]比較分布情況來(lái)判斷分布相似性。同時(shí),這些方法中,所有的樣本都會(huì)被使用以計(jì)算出所有的差異,但這也會(huì)導(dǎo)致學(xué)習(xí)效率低下,甚至?xí)斐梢恍┱`差,造成這些誤差的原因,可能是目標(biāo)域中存在離群點(diǎn)。
針對(duì)上述問(wèn)題,本文提出一種基于score樣本選擇的同構(gòu)域適應(yīng)遷移學(xué)習(xí)算法,來(lái)解決這一不同數(shù)據(jù)分布之間的分類(lèi)問(wèn)題。圖1給出了算法示意圖?;舅枷胧牵罕M管源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)或多或少會(huì)有些不同,但是源域數(shù)據(jù)中應(yīng)該還是會(huì)存在一部分樣本能夠用來(lái)訓(xùn)練一個(gè)有效的目標(biāo)域分類(lèi)模型。于是,本文的目標(biāo)就是從源域數(shù)據(jù)中找出那些與目標(biāo)域數(shù)據(jù)分布相似的樣本,然后利用這些樣本訓(xùn)練分類(lèi)器。我們方法的關(guān)鍵思想:不是所有樣本都能夠?qū)崿F(xiàn)域適應(yīng)。特別地,僅有特定的樣本通過(guò)一系列數(shù)據(jù)變換后能夠橋接源域和目標(biāo)域。我們的目的就是定義和選擇這些樣本以實(shí)現(xiàn)域適應(yīng)。因此,我們?cè)跇颖緦哟紊涎芯科湮⒂^(guān)分布相似性,選取最理想情況下的樣本子集作為橋梁實(shí)現(xiàn)源域到目標(biāo)域的域適應(yīng),從而能更加有效地實(shí)現(xiàn)了知識(shí)的遷移學(xué)習(xí)。
帶標(biāo)記樣本是源域數(shù)據(jù)集中的一些數(shù)據(jù)點(diǎn),對(duì)于這些樣本子集的分布進(jìn)行計(jì)算,可以發(fā)現(xiàn)這些子集的分布非常接近目標(biāo)域樣本集的分布。我們方法的關(guān)鍵就是利用這些標(biāo)記樣本作為連接源域和目標(biāo)域的橋梁。
如何定義這些樣本?針對(duì)此問(wèn)題,將源域中的帶標(biāo)簽數(shù)據(jù)表示為,其中不帶標(biāo)簽的目標(biāo)域數(shù)據(jù)別表示源域緣分布。一般來(lái)說(shuō),P和Q并不相等。同時(shí),定義N個(gè)二進(jìn)制向量d∈{0.1}作為指示器,每個(gè)指示器對(duì)應(yīng)源域中的每個(gè)樣本點(diǎn)。我們的目標(biāo)是選擇足夠多可能的源域樣本使得選擇出的源域標(biāo)記樣本分布和目標(biāo)域的樣本分布盡可能的相似。其中,1表示樣本被選擇,0表示樣本不被選擇,具體表示為
其中⊙表示元素相乘,而基于域適應(yīng)的樣本選擇的主要目標(biāo)是使得:
即經(jīng)過(guò)這樣的訓(xùn)練模型Xs的樣本分布能夠接近目標(biāo)域的分布。并有約束‖‖d0≤B,其中,B表示選擇的樣本數(shù)目,而‖‖d0≤B是一個(gè)0范數(shù)約束條件,使得最終解為稀疏。
對(duì)于非線(xiàn)性問(wèn)題,可以對(duì)樣本進(jìn)行核映射x←?(x),在接下來(lái)的計(jì)算中,經(jīng)過(guò)映射后的數(shù)據(jù)被定義為x。
為了確定兩個(gè)域的分布是否相似,我們利用非參數(shù)兩樣本測(cè)試進(jìn)行判斷。特別地,我們使用非線(xiàn)性特征映射函數(shù)?(?)將x映射到核空間中,并比較樣本均值之間的不同。同時(shí),我們通過(guò)確定二進(jìn)制向量d使得分布的不同最小。
由此,優(yōu)化目標(biāo)函數(shù)可表示為如下的一般化形式:
顯然,通過(guò)計(jì)算分布最小距離,可以確定二值向量d是0還是1,并獲得標(biāo)記樣本。
通常情況下,研究人員是使用標(biāo)準(zhǔn)的線(xiàn)性約束的二次規(guī)劃算法解決優(yōu)化問(wèn)題。由于其在約束求解過(guò)程計(jì)算代價(jià)較高,它是解決大規(guī)模問(wèn)題不切實(shí)際,因此我們需要解決的一個(gè)簡(jiǎn)單的方法。上述公式的目標(biāo)函數(shù)可以寫(xiě)成如下。
令
這樣目標(biāo)函數(shù)重寫(xiě)為
這樣,可以定義第j個(gè)樣本的域適應(yīng)得分為
將公式帶入,目標(biāo)函數(shù)重寫(xiě)為
這樣問(wèn)題轉(zhuǎn)化為線(xiàn)性整數(shù)規(guī)劃并有 ‖‖d1≤B作為約束條件。同時(shí),這個(gè)問(wèn)題的全局最優(yōu)解的獲得不需要利用一些現(xiàn)有的求解算法。僅僅利用score作歸類(lèi)即可,這里B相當(dāng)于d的和,即選擇樣本的數(shù)目。
基于選擇特征的相關(guān)算法,例如SVM,LIBLIN?EAR,ELM都可以在源域數(shù)據(jù)中被使用去建立模型,并將目標(biāo)域數(shù)據(jù)作為測(cè)試集。假設(shè)SVM能夠獲得最終的判別模型w,接下來(lái)就可以放入目標(biāo)域數(shù)據(jù)x,這樣預(yù)測(cè)函數(shù)可以寫(xiě)成:
具體算法流程如下:
2)對(duì)域適應(yīng)得分進(jìn)行降序排序,并選擇前B個(gè)樣本同時(shí)將對(duì)應(yīng)的d賦值0或1;
需要注意的是,如果用閾值代替選擇樣本數(shù)目B,那么樣本選擇二值分類(lèi)器就可以直接用域適應(yīng)得分是否大于或小于閾值作為判斷條件。
為了驗(yàn)證本文所提方法的有效性,本節(jié)將在不同類(lèi)型數(shù)據(jù)集上對(duì)其進(jìn)行性能評(píng)估,所采用的數(shù)據(jù)集主要包括 Amazon[18],Dslr[3]Caltech[19]Web?cam實(shí)驗(yàn)中將Score與相關(guān)的方法進(jìn)行了性能比較,用于比較的方法有 TCA[16],GFS[2],GFK[9]和SCL[17],以目標(biāo)域測(cè)試集分類(lèi)精度作為評(píng)價(jià)指標(biāo),具體描述為
我們選用四種圖像數(shù)據(jù)集:CALTECH、AMA?ZON、WEBCAM和DSLR。每個(gè)數(shù)據(jù)集都被處理為一個(gè)單獨(dú)域。AMAZON數(shù)據(jù)集中的圖像來(lái)自網(wǎng)絡(luò),DSLR和WEBCAM中的數(shù)據(jù)來(lái)自同一SLR數(shù)碼照相機(jī)的不同像素的照片。針對(duì)這四個(gè)數(shù)據(jù)集選取其中的10類(lèi)。每個(gè)數(shù)據(jù)集的每一類(lèi)圖片數(shù)目分別是 15(DSLR),30(WEBCAM),100(AMAZON 和CALRECH)。由于DSLR數(shù)據(jù)集中各類(lèi)樣本數(shù)目太少,DSLR不能作為源域數(shù)據(jù)集。我們的實(shí)驗(yàn)只有9種可能的遷移數(shù)據(jù)集。
我們按照之前研究所提供的方法進(jìn)行特征提取。通過(guò)對(duì)Amazon的一個(gè)子集圖像進(jìn)行k-均值計(jì)算并量化為800個(gè)類(lèi)作為提取的SURF特征。同時(shí),這些提取出的特征是標(biāo)準(zhǔn)化的,即每個(gè)維度在每個(gè)域內(nèi)都是零均值和單位標(biāo)準(zhǔn)偏差,并且公開(kāi)可用。
1)不同算法分類(lèi)精度比較。
表1列出了各算法在9個(gè)數(shù)據(jù)集上的分類(lèi)精度,其中,No Adaptation是直接利用未經(jīng)處理的源域數(shù)據(jù)訓(xùn)練分類(lèi)器??梢钥闯觯瑂core算法的分類(lèi)效果較為理想,在9個(gè)數(shù)據(jù)集上,有6個(gè)數(shù)據(jù)集分類(lèi)精度最高,另外3個(gè)分類(lèi)精度也與最優(yōu)值非常接近。對(duì)于A->D和W->A數(shù)據(jù)集,存在此誤差的原因是源域數(shù)據(jù)太少,經(jīng)過(guò)樣本選擇之后不足以達(dá)到理想精度,而對(duì)于C->A數(shù)據(jù)集,則是由于兩個(gè)域非常相似,并且包含不同成像分辨率的同一個(gè)對(duì)象實(shí)例的圖像。因此,在攝像頭中的許多數(shù)據(jù)點(diǎn)被選定為標(biāo)記樣本,使得在判別訓(xùn)練中只剩下很少的模型選擇實(shí)例。解決這個(gè)問(wèn)題留給今后的工作。
表1 各算法在不同數(shù)據(jù)集上的分類(lèi)精度
2)樣本數(shù)的變化對(duì)不同算法分類(lèi)精度的影響。
下面實(shí)驗(yàn)主要研究源域訓(xùn)練集樣本數(shù)變化算法分類(lèi)精度的影響。通過(guò)對(duì)樣本選擇數(shù)目設(shè)定不同的閾值,實(shí)驗(yàn)結(jié)果如圖1所示。
(1)隨著源域訓(xùn)練樣本數(shù)量的增加,在樣本數(shù)少量增加的前提下分類(lèi)精度呈上升趨勢(shì),當(dāng)樣本數(shù)目增加到一定程度時(shí),分類(lèi)精度最終趨于穩(wěn)定。
(2)當(dāng)源域樣本數(shù)目同目標(biāo)域樣本數(shù)目相差過(guò)大時(shí)。隨著源域訓(xùn)練樣本數(shù)量的變化,目標(biāo)域的樣本分類(lèi)精度變化不大,也就是說(shuō)源域樣本對(duì)目標(biāo)域樣本分類(lèi)的精度影響較低。
圖2 源域樣本數(shù)目變化的目標(biāo)域分類(lèi)精度趨勢(shì)圖
已知的遷移學(xué)習(xí)應(yīng)用到了文本分析,觀(guān)點(diǎn)分類(lèi),無(wú)線(xiàn)數(shù)據(jù)處理,自然語(yǔ)言處理等領(lǐng)域,處理的數(shù)據(jù)都是小規(guī)模的,不符合現(xiàn)實(shí)中大規(guī)模數(shù)據(jù)的特點(diǎn);另外以往的遷移學(xué)習(xí)重點(diǎn)關(guān)注源域和目標(biāo)域數(shù)據(jù)分布不同的情況,而假設(shè)數(shù)據(jù)特征空間和標(biāo)簽空間是相同的,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往不能滿(mǎn)足。因此,結(jié)合實(shí)際應(yīng)用中出現(xiàn)的異構(gòu)遷移學(xué)習(xí)和大規(guī)模數(shù)據(jù)處理問(wèn)題,研究高效的方法是未來(lái)值得進(jìn)一步研究的工作,努力將遷移學(xué)習(xí)方法推向更加廣泛的實(shí)際應(yīng)用領(lǐng)域。