佘 鳳, 曾遠(yuǎn)柔
(1. 黃岡職業(yè)技術(shù)學(xué)院 計算機(jī)系, 湖北 黃岡 438002; 2. 長江工程職業(yè)學(xué)院 計算機(jī)科學(xué)系, 湖北 武漢 430074)
分類器中的數(shù)據(jù)通常與要處理的數(shù)據(jù)不一樣,當(dāng)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)提出訓(xùn)練集和測試集來源于相同的數(shù)據(jù)分布時,許多應(yīng)用并不贊同此說法,如機(jī)器視覺[1]和自然語言處理等。為處理此情況,可使用從源頭到目標(biāo)的轉(zhuǎn)換,提出兩種領(lǐng)域間的分布傳輸,而域自適應(yīng)法[2-4]中的兩種主要類別都是可行的。如文獻(xiàn)[5]中顯示域自適應(yīng)法夠接觸到目標(biāo)領(lǐng)域中的一些被標(biāo)記過的例子以及數(shù)據(jù)。文獻(xiàn)[6]通過集中提出統(tǒng)計機(jī)器翻譯領(lǐng)域自適應(yīng)問題,并提出解決此類問題的新方法,針對雙語網(wǎng)站的識別和定位,提出一種基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識別方法,實驗結(jié)果證實,在相同測試集下,特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能獲得顯著提升,驗證該方法的有效性。文獻(xiàn)[7]中提出一種中間子空間的順序,此子空間沿著測地線路徑連接源子空間和目標(biāo)子空間。如文獻(xiàn)[8]中源數(shù)據(jù)與目標(biāo)數(shù)據(jù)都被輸入中間線性子空間中,此空間分布在鏈接2個原始空間的最短的測地線路徑周圍。這些子空間的方法雖然有效,成本卻很大,且會受到干擾。文獻(xiàn)[9]圍繞中文分詞領(lǐng)域自適應(yīng)的課題,針對大規(guī)模人工分詞訓(xùn)練語料難以獲得的問題,提出基于主動學(xué)習(xí)的中文分詞方法。文獻(xiàn)[10]中通過優(yōu)化單一線性繪圖函數(shù)直接將源子集與目標(biāo)子集連接起來。此方法不僅被證明比最新的其他方法要好,而且在閉合形式下也是可計算的。
文獻(xiàn)[10]面臨著兩個主要的問題。首先,文獻(xiàn)[11]方法指出兩種分布間的傳輸能通過線性傳輸?shù)靡约m正,但這很容易被許多現(xiàn)實世界的應(yīng)用所推翻;其次,此方法指出在實行、適應(yīng)時,需要所有的源案例及目標(biāo)案例,然而在大多數(shù)情況下,只有一個源數(shù)據(jù)的子集會與目標(biāo)域分布相似,反之亦然。為此,本文將用以下方式處理這2個問題:一是從兩種域中選取界標(biāo)來減少源分布與目標(biāo)分布的不一致性;二是使用關(guān)于界標(biāo)選取的高斯核函數(shù)將源數(shù)據(jù)與目標(biāo)數(shù)據(jù)輸入共享空間中,這使得從數(shù)據(jù)庫中捕捉到非線性變得容易;三是提出一個線性繪圖函數(shù)將源子空間與目標(biāo)子空間連接起來,這只需要簡單地計算出源維度數(shù)量與目標(biāo)維度數(shù)量之間的內(nèi)積。通過實驗證明該方法優(yōu)于當(dāng)前的域自適應(yīng)法。
自適應(yīng)法擬定的域是針對域自適應(yīng)的以界標(biāo)為基礎(chǔ)的子空間對接法,是完全無人監(jiān)督的,因此在執(zhí)行域自適應(yīng)時,不需要任何標(biāo)注。從源域中獲取的被標(biāo)注部分只用于隨后提出分類器。
源數(shù)據(jù)(S)和目標(biāo)數(shù)據(jù)(T)被認(rèn)為是分別從源分布DS和目標(biāo)分布DT中獲取而來。域自適應(yīng)指出,源分布與目標(biāo)分布是不一樣的,但它們也有一些相似之處,這使得將在源域中提出所得放入目標(biāo)域中成為可能。不一樣的是,若有一套LS的源案例,它們就能用于提出適合目標(biāo)域的分類器。
通過下述方法將兩種觀點結(jié)合起來。首先,將源案例與目標(biāo)案例輸入到有關(guān)選取好的界標(biāo)的普通子空間中。接著,在兩種域中運行子空間對齊。在S和T中選取出界標(biāo)后,使用高斯核將其所有的點輸入到界標(biāo)中,用KS和KT重新展現(xiàn)源點與目標(biāo)點,并通過子空間對齊法完成映射。
與文獻(xiàn)[11]相比,通過兩步法在捕捉非線性時,既保持準(zhǔn)確性,操作又簡單快捷。接著通過仔細(xì)分析從多尺度界標(biāo)選取到子空間對齊和分類方法中的每一個步驟。
本文方法的第一步就是選取一些點作為界標(biāo)。直觀來看,一套好的界標(biāo)能將源數(shù)據(jù)與目標(biāo)數(shù)據(jù)輸入到共享空間中,使得它們的分布更加相似。該方法從S和T中選取界標(biāo)且未使用過任何其他標(biāo)記。界標(biāo)選取最終輸出:A={α1,α2,...},其中A?S∪T,為避免昂貴的重復(fù)優(yōu)化法,通過提出一種直接法,其能判斷是否該保留某個點作為界標(biāo)。
事實中,通過界標(biāo)選取法把從特征選取(S∪T)的每一個c點都當(dāng)作備選界標(biāo),并獨立提出每一個備選界標(biāo)。對備選界標(biāo)執(zhí)行質(zhì)量檢測,若檢測高于閾值,就將其設(shè)定為界標(biāo)。為評估備選c的質(zhì)量,首先要用高斯分布的標(biāo)準(zhǔn)誤差s,計算其與p∈S∪T所有點的相似性,界標(biāo)K(c,p)公式如下:
(1)
式中p為核基半徑。
計算備選界標(biāo)c的質(zhì)量來作為源點與目標(biāo)點中K值分布的重復(fù)。因此,在使用核基以后,若源點與目標(biāo)點的分布是相似的,那它就是一個好界標(biāo)。
式(1)中的核基半徑p值很重要,因其設(shè)定備選界標(biāo)中相鄰界標(biāo)的大小,為給定的界標(biāo)選取準(zhǔn)確的s值,且能在準(zhǔn)確范圍內(nèi)捕捉到本地現(xiàn)象,并更好地將源分布與目標(biāo)分布對齊。由于s的極端值會將源點分配的目標(biāo)點完美地匹配起來:K值會變成0(當(dāng)s接近0的時候)或1(當(dāng)s非常大時),故應(yīng)當(dāng)避免。
計算備選界標(biāo)的質(zhì)量事實中是做一個多尺度分析:通過選取最佳的s來捕捉數(shù)據(jù)的本地屬性,同時避免s的極端值。為達(dá)到這個目的,通過計算所有元素對中歐幾里得距離的分布,并嘗試分布的每一個百分位數(shù)。有這個以百分位數(shù)為基礎(chǔ)的方法,通過嘗試一串s值,其結(jié)果貌似都是可信的。通過計算s中源分布和目標(biāo)分布之間的重復(fù),保留備選界標(biāo)中質(zhì)量檢測最佳的一個。
對于備選界標(biāo)c和標(biāo)尺(標(biāo)準(zhǔn)誤差)s,通過計算出2個K值集中的重復(fù)度:源點中的KVS和目標(biāo)點中的KVT。為降低計算成本,兩種分布都被近似為普通分布,并用標(biāo)準(zhǔn)誤差公式實施總結(jié):μS,σS,μT,σT。為能使用固定閾值并對其賦予意義,通過采用一種標(biāo)準(zhǔn)重復(fù)計算法以下:
(2)
(3)
(2)中的分母與給定σsum(由μS=μT中獲得)中分子的最大值一致。分母作為一種歸一元素,當(dāng)分布完美匹配且給出更簡單的解釋時,將重復(fù)設(shè)定為1,有助于閾值th的選取。
S∪T中的每一個核基半徑素p都通過使用有著標(biāo)準(zhǔn)誤差的高斯核基被投影到界標(biāo)αj∈A中,
(4)
整體來看,S和T中所有元素都被投影到普通空間內(nèi)。由于有界標(biāo),這些普通空間有許多維度。仿照其他非線性法,通過在隨機(jī)從S∪T中提取的要素對間將σ設(shè)定置成中間距離。也通過一些交叉驗證選取σ的值。在投影以后,最終獲得源與目標(biāo)的新代表,分別是KS和KT。
在采用非線性投影集KS和KT后,實施子空間對齊法。主成分分析(PCA)分別用于域中,提取擁有最大子空間維度數(shù)量的d子空間維度數(shù)量。根據(jù)文獻(xiàn)[11]中的理論,能設(shè)定d的最佳值,因文獻(xiàn)[11]中提出一個基于標(biāo)準(zhǔn)集中不平等的關(guān)于維度數(shù)量的一致性定理,其可以在2個連續(xù)維度數(shù)量的誤差中找到界限。通過利用此界限有效地調(diào)整主成分分析中的子空間維度數(shù)量d。源域和目標(biāo)域中的d子空間維度數(shù)量分別由XS和XT表示。域中的每個要素都能分別被投影到其子空間KSXS和KTXT中。
子空間對齊的目的是找到線性轉(zhuǎn)換M,M能將源子空間維度數(shù)量最好地投影到目標(biāo)子空間維度數(shù)量中。此外,通過找到M來減小源維度數(shù)量和目標(biāo)維度數(shù)量之間歐幾里得距離的數(shù)量。此減少等同于下列弗羅賓尼斯范數(shù):
(5)
對齊轉(zhuǎn)化M將要素從源特征空間中映射到目標(biāo)特征空間,其能通過計算KSXSM,將投影好的源要素KSXS作為投影好的目標(biāo)要素KTXT帶到相同的特征空間中。此算法是以選取的界標(biāo)為基礎(chǔ)的子空間對齊(LSSA),其偽代碼見如下算法:
算法1:LSSA:以界標(biāo)選取為基礎(chǔ)的子空間對齊和分類
要求:S,T,源標(biāo)記Ls, th,子空間維度d。
保證:Lt是T中要素的預(yù)估標(biāo)記
A←choose_landmarks(S,T,th)
σ←median_distance(S∪T)
KS←project_using_kernel(S,A,σ)
KT←project_using_kernel(T,A,σ)
XS←PCA(KS,d)
XT←PCA(KT,d)
PS←KSXSM
PT←KTXT
classifier←learn_classifier(PS,LS)
LT←classifier(pT)
本文實驗?zāi)康模旱谝?提出界標(biāo)選取法的表現(xiàn),即是處理與其他界標(biāo)選取法相比較而言的無人管理的圖像域自適應(yīng);第二,希望證明在與子空間對齊法聯(lián)合使用時,此法在自適應(yīng)領(lǐng)域有巨大的提升,包括文獻(xiàn)[10-11]中描述的最好、最新的方法。
本文在圖像域自適應(yīng)的標(biāo)準(zhǔn)數(shù)據(jù)集中實施實驗。通過所使用的辦公數(shù)據(jù)集[12]包括從攝像頭中獲取的圖像(用W表示),從數(shù)字SLR相機(jī)中取得的圖像(用D表示)和從百度中取得的圖像(用A表示)。此外,還運用一些大學(xué)實驗圖像[8](用C表示)。每一個數(shù)據(jù)集都為10種類別提供不一樣的圖像。因此,通過能從4個數(shù)據(jù)集(A,C,D,W)中獲取到12種域自適應(yīng)子問題。其中一個數(shù)據(jù)集扮演源S的角色,而另一個被看作是目標(biāo)T。本文通過符號S→T證實一個域自適應(yīng)問題。目的是從被標(biāo)注的源S中提出一個SVM分類器(使用SVM的線性核基),并將其配置到目標(biāo)T上。根據(jù)參考文獻(xiàn)[7-8,10, 12]中的標(biāo)準(zhǔn)協(xié)議得到源案例和目標(biāo)案例。
界標(biāo)選取法的比較:為完成這個實驗,通過將該方法(表1中的MLS)域下列3中基線實施比較。
隨機(jī)選?。和ㄟ^隨機(jī)選出500個界標(biāo)(每個域中250個),并重復(fù)5次,得到一個平均表現(xiàn)。
無界標(biāo)選取:通過將所有源案例與目標(biāo)案例作為界標(biāo)。
所有的備選界標(biāo)都采用相同的標(biāo)準(zhǔn)誤差σ。σ被設(shè)定為最標(biāo)準(zhǔn)的誤差(對此條基線有利),這有助于獲取兩種分布之間最大重復(fù)的平均值[13]。對于MLS和σ-LS,本文將重復(fù)率固定為0.3來選取界標(biāo)。由于規(guī)范化,0.3的閾值等同于30%的重復(fù)率。本文還將MLS域其他界標(biāo)選取法實施比較,即用界標(biāo)連接點法(CDL)。測地線流內(nèi)核(GFK)[8]中中間子空間的順序分布在連接源域與目標(biāo)域的測地線路徑兩旁。一步子空間對齊法(SA)方法經(jīng)過提出2個子空間的線性轉(zhuǎn)化而提出。文獻(xiàn)[12]中提到的轉(zhuǎn)化聯(lián)結(jié)匹配法(TJM),此方法是基于特征匹配和案例權(quán)重的最近提出的方法。
此外,本文在兩種基線下實施實驗。第一種并沒有實施任何的自適應(yīng)(NA);第二種在源域和目標(biāo)域中實行2個獨立的KPCA,并用SA算法(用KPCA+SA表示)提出線性轉(zhuǎn)化。
表1中RD 、ALL、σ-LS 、CDL、 MLS分別表示無人管理自適應(yīng)法的5種界標(biāo)。做出如下結(jié)論:首先,平均來說,本文的方法(使用學(xué)生成對測試)大大優(yōu)于其他方法(平均精確度Avg為48.1%),在12個域自適應(yīng)任務(wù)中,MLS在8個子問題中的精準(zhǔn)度都是最佳的;其次,對于兩種子問題(W→D和D→W),ALL更好些。這意味著將所有源案例和目標(biāo)案例保留在這兩種對稱情形中比試圖尋找界標(biāo)要好些。值得一提的是[14],這兩種子問題都是最簡單的問題,它們有著最高的精準(zhǔn)度,證明保留所有數(shù)據(jù)的好處。此外,通過的方法在12中問題中的10種中都比CDL有優(yōu)勢,而且CDL在半無人管理的域自適應(yīng)情境中是專門選取界標(biāo)的。最后,單一尺度法(采用固定σ)并不是很好。這證實在MLS中,為每一個界標(biāo)選取最好的活動半徑是多么重要。為MLS為每一個域自適應(yīng)子問題選取出界標(biāo)的分布。這證實即使沒有類別信息,本文的方法仍然能在各種類別中做出平衡選取。
表1 關(guān)于12個無人管理的域自適應(yīng)子問題的5種界標(biāo)選取法的比較
與當(dāng)前最新的無人管理自適應(yīng)法作比較。表2給出最新的無人管理子空間對齊域自適應(yīng)法的實驗結(jié)果。值得注意的是,本文的LSSA法在12種中的7種子問題上都比其他方法表現(xiàn)好,同時TJM在剩下的5中方法中表現(xiàn)更好。然而,平均來看,LSSA大大優(yōu)于TJM(52.6%對50.5%)。此外,TJM的時間復(fù)雜性遠(yuǎn)遠(yuǎn)大于其他方法,因其需要解決一個不小的優(yōu)化問題,而本文的方法包含的針對界標(biāo)選取的貪心策略和針對子空間對齊封閉解更加有效。TJM和LSSA的精準(zhǔn)度的差別在于,前者采用權(quán)重機(jī)制,主要能將兩種域移動得更近一些,而后者通過高斯假設(shè)定,同時考慮到方式及界標(biāo)數(shù)據(jù)分布的標(biāo)準(zhǔn)誤差。從表2中可以看到,LSSA遠(yuǎn)遠(yuǎn)優(yōu)于SA,LSSA能捕捉到非線性,這是SA難以與其比較的。然而,考慮非線性的方式也是一個關(guān)鍵。的確,正如KPCA+SA所表示的那樣,在子空間對齊之前執(zhí)行2個獨立的KPCA會導(dǎo)致最壞的結(jié)果。
表2 無監(jiān)督方法的比較
首先,從源S和目標(biāo)T中選取界標(biāo)將源分布與目標(biāo)分布間的映射最大化;然后,在選取好的界標(biāo)上應(yīng)用高斯核,以得到新的源點(KS)與新的目標(biāo)點(KT);接著,在執(zhí)行有關(guān)維度數(shù)量的子空間對齊之前,實行2個獨立的PCA;最后,從被標(biāo)注的源數(shù)據(jù)中提出分類器,并將其執(zhí)行到目標(biāo)域中。在圖像域自適應(yīng)的大量實驗證實:所提方法選取出的界標(biāo)能降低領(lǐng)域之間的不一致性,用于非線性項目,能呈現(xiàn)出有效子空間對齊的數(shù)據(jù),優(yōu)于其他無人管理域自適應(yīng)算法。