韓彥凈 馬米米 張淑莉
1(鄭州工商學(xué)院工學(xué)院 河南 鄭州 450000)2(河南工業(yè)大學(xué) 河南 鄭州 450000)
隨著深度學(xué)習(xí)研究和應(yīng)用,大數(shù)據(jù)領(lǐng)域中的數(shù)據(jù)挖掘算法也得到了飛速發(fā)展,其中訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集之間的認(rèn)知偏差是數(shù)據(jù)挖掘的一個(gè)關(guān)鍵問題[1]。因此,如何實(shí)現(xiàn)源域與目標(biāo)域之間的域自適應(yīng)成為了研究的熱點(diǎn)之一。
近年來,學(xué)者們研究提出了許多無監(jiān)督領(lǐng)域自適應(yīng)方法。它們可以歸納為三類:實(shí)例選擇、模型精化和表示自適應(yīng)[2]。實(shí)例選擇是解決目標(biāo)域中缺少標(biāo)簽問題的一種傳統(tǒng)方法,文獻(xiàn)[3]以高置信度選擇目標(biāo)實(shí)例指導(dǎo)無監(jiān)督域自適應(yīng),迭代降低目標(biāo)域標(biāo)簽預(yù)測的不確定性。文獻(xiàn)[4]針對由于類不平衡導(dǎo)致模型泛化性能差的問題,提出了一種基于平衡概率分布和實(shí)例的遷移學(xué)習(xí)算法。實(shí)例選擇方法雖然準(zhǔn)確率較好,但其計(jì)算代價(jià)高,應(yīng)用條件較為苛刻。模型精化是通過假設(shè)目標(biāo)模型是源模型的移位,從而在無監(jiān)督域自適應(yīng)中使用一些標(biāo)記的數(shù)據(jù)精化源模型來獲得目標(biāo)模型。文獻(xiàn)[5]通過對目標(biāo)數(shù)據(jù)的軟標(biāo)簽分配,源域深度學(xué)習(xí)網(wǎng)絡(luò)的迭代細(xì)化,從而實(shí)現(xiàn)了無監(jiān)督域自適應(yīng)。雖然上述方法取得了一定效果,但模型精化方法的靈活性較差,因?yàn)樵谟蚋缕陂g,模型體系結(jié)構(gòu)在源域和目標(biāo)域中都是固定的。另外,這些方法假設(shè)源域和目標(biāo)域共享相似的底層流形,但上述假設(shè)在實(shí)踐中難以保證。
表示自適應(yīng)通過對齊跨域的數(shù)據(jù)分布來學(xué)習(xí)域不變特征,這樣由對齊的源特征訓(xùn)練的模型可以應(yīng)用于對齊的特征空間中的目標(biāo)域。文獻(xiàn)[6]將跨域分布對齊建模為流形中子空間的移動,子空間也被建模為主成分分析的特征向量或字典學(xué)習(xí)模型,源域和目標(biāo)域分布通過在源和目標(biāo)域之間插入子空間來對齊。文獻(xiàn)[7]通過使用對抗性學(xué)習(xí)技術(shù)實(shí)現(xiàn)分布對齊,提出了對抗性適應(yīng)網(wǎng)絡(luò)來學(xué)習(xí)域之間的不可區(qū)分特征。文獻(xiàn)[8]沒有在每個(gè)域中保留幾何結(jié)構(gòu),而是應(yīng)用最大平均偏差(Maximum Mean Discrepancy,MMD)標(biāo)準(zhǔn)來匹配源域和目標(biāo)域中的幾何結(jié)構(gòu)。然而當(dāng)各域之間的幾何圖形不一致時(shí)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)依賴于不同的流形,源域和目標(biāo)域幾何體是不變的,這樣就會導(dǎo)致源數(shù)據(jù)和目標(biāo)數(shù)據(jù)無法對齊。即幾何體保留會導(dǎo)致較差的自適應(yīng)性能。另外,反映數(shù)據(jù)關(guān)系的幾何信息不夠具有代表性和可區(qū)分性,尤其是在沒有標(biāo)簽的目標(biāo)域中,因此,這種跨域幾何體的直接對齊僅限于域自適應(yīng)。
為了解決上述問題,提出一種基于幾何感知雙流網(wǎng)絡(luò)的無監(jiān)督域自適應(yīng)模型。提出的幾何感知雙流網(wǎng)絡(luò)用于學(xué)習(xí)相似表示和統(tǒng)一幾何結(jié)構(gòu)分布的源域目標(biāo)域特征。在該網(wǎng)絡(luò)中,統(tǒng)一準(zhǔn)則被設(shè)計(jì)為源域和目標(biāo)域幾何的差異損失。最后實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的有效性。
將源樣本和目標(biāo)樣本分別表示為Xs∈Rp×ns和Xt∈Rp×nt。p表示每個(gè)源/目標(biāo)樣本的維度,ns和nt分別表示源和目標(biāo)樣本的總數(shù)。待學(xué)習(xí)的源特征和目標(biāo)特征分別表示為Zs∈Rq×ns和Zt∈Rp×nt。通常,特征維數(shù)q遠(yuǎn)低于原始源/目標(biāo)樣本的維數(shù),即q<
式中:Lf和Lg分別是特征對齊和幾何對齊的損失函數(shù);Θ表示模型中要學(xué)習(xí)的一組參數(shù);γ表示平衡參數(shù)。
在式(1)中,在許多無監(jiān)督域自適應(yīng)方法中研究了用于特征對齊的損失函數(shù)Lf。因此,本文著重于幾何對齊建模,并使用先進(jìn)的對抗式學(xué)習(xí)技術(shù)來實(shí)現(xiàn)特征對齊。
1.2.1特征空間中的幾何建模
式中:Nc(·)是一種列規(guī)范化操作,用于規(guī)范化每個(gè)源特征。
1.2.2數(shù)據(jù)幾何的流形學(xué)習(xí)
式中:Dd是流形核的對角矩陣;Nc(·)表示列規(guī)范化。
在獲得源域和目標(biāo)域中的幾何體后,本文目標(biāo)是對齊εfs和εft以進(jìn)行域自適應(yīng)。但是目標(biāo)標(biāo)簽不可用,因此源幾何體和目標(biāo)幾何體之間的對應(yīng)關(guān)系是未知的。假設(shè)幾何體在域之間是一致的,即εs~εt,跨域?qū)R幾何體的一種方法是幾何體匹配,它學(xué)習(xí)對應(yīng)關(guān)系,同時(shí)保留每個(gè)域中的幾何體信息。優(yōu)化過程表達(dá)式為:
式中:F是一個(gè)0-1矩陣,表示Xt和Xs之間的對應(yīng)關(guān)系;Lps和Lpt分別是源域和目標(biāo)域中的幾何不變項(xiàng)。
然而,這種一致幾何形狀的假設(shè)在實(shí)踐中是無效的,因此,式(5)無法在實(shí)際場景中實(shí)現(xiàn)幾何對齊。為了處理跨域幾何不一致的問題,對每對源和目標(biāo)數(shù)據(jù)之間的對應(yīng)概率進(jìn)行估計(jì),并將目標(biāo)幾何與源域?qū)R。在數(shù)學(xué)上,通過以下方法優(yōu)化目標(biāo)特征的幾何結(jié)構(gòu)εft:
(7)
式中:Qdc∈Rnd×K記錄了屬于每個(gè)類別的樣本的概率;k、k1和k2為類別索引;K為類別總數(shù)。
在式(7)中,Qdc指的是式(6)中的對應(yīng)概率矩陣Q更容易估計(jì)的標(biāo)簽概率,但式(7)可能不收斂,因?yàn)樗钚』素?fù)平方項(xiàng)。為了避免不收斂,將式(7)改寫為:
(8)
將源特征Zs聚類為K組,同一組中的源要素具有相同的標(biāo)簽,并且分布緊密。相反,來自不同組的源要素具有不同的標(biāo)簽,并且來自不同組的源要素之間的幾何距離統(tǒng)一為。
與源域不同,標(biāo)簽在目標(biāo)域中不可用,因此無法直接獲取Qtc。在本文中,通過限制目標(biāo)特征位于一組源特征的鄰域來近似學(xué)習(xí)目標(biāo)域中的自適應(yīng)幾何。換言之,每個(gè)目標(biāo)特征對于一個(gè)類別具有高概率。結(jié)合式(9)的約束,每個(gè)目標(biāo)特征分布在靠近某個(gè)類別k的源樣本的位置,而遠(yuǎn)離其他類別的樣本的位置,固定距離為。這意味著εft中的值最小化或優(yōu)化為。對于每個(gè)目標(biāo)特征最小化兩個(gè)不同類別的高概率即其中k1≠k2。求所有樣品和類別的和通過最小化Lgt=Q′tcQtc-tr(Q′tcQtc)學(xué)習(xí)目標(biāo)域自適應(yīng)幾何。
但如果沒有目標(biāo)標(biāo)簽的約束,每個(gè)目標(biāo)樣本的特征將任意接近隨機(jī)類的源特征。為了避免任意對齊并使自適應(yīng)幾何學(xué)習(xí)更加可靠,本文為目標(biāo)域幾何集成了一致性損失。然后,目標(biāo)域幾何體的優(yōu)化更新為:
式中:Lpt(εt,εft)是幾何保持項(xiàng),它約束目標(biāo)特征和目標(biāo)數(shù)據(jù)之間的幾何一致性。
結(jié)合式(9)-式(10),研究了幾何對齊的自適應(yīng)幾何學(xué)習(xí)優(yōu)化問題:
Q′tcQtc-tr(Q′tcQtc)+Lpt(εt,εft)
(11)
為了實(shí)現(xiàn)式(1)中的總體目標(biāo)函數(shù),本文搭建了一個(gè)幾何感知的雙流網(wǎng)絡(luò),優(yōu)化了Lf和Lg。幾何感知雙流網(wǎng)絡(luò)由源CNN、目標(biāo)CNN、域鑒別器和分類器組成。在訓(xùn)練階段,給定帶標(biāo)簽的源圖像和未標(biāo)記的目標(biāo)圖像,對網(wǎng)絡(luò)進(jìn)行特征和幾何對齊的損失訓(xùn)練。在源域中,采用分類損失來進(jìn)行特征識別。為了獲得對齊特征,引入了對抗性學(xué)習(xí)算法,并使用域損失來區(qū)分目標(biāo)特征和源樣本特征。對于無監(jiān)督幾何對齊,設(shè)計(jì)了具有統(tǒng)一幾何標(biāo)準(zhǔn)的幾何一致性損失和差異損失,以滿足式(11)中自適應(yīng)幾何學(xué)習(xí)的目標(biāo)。訓(xùn)練后,利用訓(xùn)練后的源CNN提取源圖像的特征。在測試階段,使用訓(xùn)練的目標(biāo)CNN將目標(biāo)圖像映射到對齊的特征空間。然后,通過訓(xùn)練的分類器對目標(biāo)特征進(jìn)行分類以預(yù)測類別標(biāo)簽,或者與源特征匹配以進(jìn)行重新識別。整體結(jié)構(gòu)如圖1所示。
圖1 整體結(jié)構(gòu)
1.4.1源域中的分類丟失
本文將源CNN和目標(biāo)CNN的映射分別表示為Ms和Mt,即Zs=Ms(Xs),Zt=Mt(Xt)。分類器表示為C,源域分類損失表示為:
(12)
式中:ys表示源標(biāo)簽;k表示類的索引;C(Ms(Xs))∈Rns×K是概率矩陣;1[ys=k]是第k個(gè)元素中非零值的單位向量。
1.4.2非鑒別域損失
基于非鑒別域的思想,本文引入了域鑒別器D來對齊源和目標(biāo)特征。如果D不能正確預(yù)測源和目標(biāo)特征Z={Zs,Zt}的域標(biāo)簽,則將源特征Zs和目標(biāo)特征Zt視為對齊。域不區(qū)分損失表示為交叉熵?fù)p失函數(shù):
LfM(Xs,Xt,Ms,Mt,D)=-EXt[logD(Mt(Xt))]-
EXs[log(1-D(Ms(Xs)))]
(13)
式中:源樣本和目標(biāo)樣本的域標(biāo)簽分別為1和0。另外,將域鑒別器D設(shè)計(jì)為對抗網(wǎng)絡(luò),以確保其在分配期間的鑒別。域鑒別器D的損失函數(shù)為:
LfD(Xs,Xt,Ms,Mt,D)=-EXs[logD(Ms(Xs))]-
EXt[log(1-D(Mt(Xt)))]
(14)
同時(shí)更新源CNN、目標(biāo)CNN和域鑒別器的參數(shù),忽略式(14)的情況下學(xué)習(xí)判別鑒別器。受式(13)的約束,即使是判別式鑒別器也無法正確預(yù)測源和目標(biāo)特征的域標(biāo)簽。換言之,源特征Zs和目標(biāo)特征Zt是對齊的。
1.4.3無監(jiān)督幾何對齊損失
式(11)優(yōu)化以學(xué)習(xí)用于無監(jiān)督幾何對齊的自適應(yīng)幾何,優(yōu)化分為兩個(gè)損失:1) 達(dá)到域自適應(yīng)幾何統(tǒng)一標(biāo)準(zhǔn)的差異損失;2) 保留目標(biāo)域幾何信息的幾何一致性損失。在源域中,本文將差異損失設(shè)為式(9)中的Lgs。為了計(jì)算目標(biāo)域中的差異損失,引入式(12)中的分類器C來估計(jì)概率矩陣Qtc,即Qtc=C(Mt(Xt))∈Rnt×K。目標(biāo)域差異損失公式如下:
LgDt(Xt,Mt,C)=v′(C(Mt(Xt)))′C(Mt(Xt))v-
tr((C(Mt(Xt)))′C(Mt(Xt)))
(15)
式中:v∈RK×1是一個(gè)全為1的列向量;因此v′Av表示矩陣A中所有元素的總和。幾何一致性損失是式(11)中的幾何保留項(xiàng)Lpt,其計(jì)算公式為:
式中:H(ε,μ)=1/(1+e-(ε-μ))是一個(gè)具有Sigmoid函數(shù)中點(diǎn)μ的Logistic函數(shù);μt和μft分別是εt和εft的平均值。利用式(16),相似的目標(biāo)樣本保持在特征空間中近的位置。因此,在對齊的目標(biāo)特征之間保留目標(biāo)域中的幾何信息。
總之,幾何感知雙流網(wǎng)絡(luò)需要解決以下優(yōu)化問題:
-EXs[log(1-D(Ms(Xs)))]-
-EXt[log(D(Mt(Xt)))]+
γ(v′(C(Mt(Xt)))′C(Mt(Xt))v-
tr((C(Mt(Xt)))′C(Mt(Xt))))
(18)
EXt[log(1-D(Mt(Xt)))]
(19)
γ(v′(C(Mt(Xt)))′C(Mt(Xt))v-
tr((C(Mt(Xt)))′C(Mt(Xt))))
(20)
將源CNN、目標(biāo)CNN、域鑒別器和分類器的參數(shù)分別表示為θs、θt、θD和θC。為了解決上述優(yōu)化問題,通過保持其他模塊不變來優(yōu)化θs、θt、θD和θC。在每次迭代中,計(jì)算參數(shù)的梯度,并使用小批量隨機(jī)梯度下降(SGD)通過反向傳播更新參數(shù)。
1.5.1θD和θC的梯度
式(19)和式(20)是可推導(dǎo)的,因?yàn)長fD和LC是典型的交叉熵?fù)p失,而LgDt是二次損失。通過簡單地計(jì)算θD和θC的導(dǎo)數(shù),得到了θD和θC的梯度?LfD/?θD和?(LC+γLgDt)/?θC,如下:
1.5.2θs的梯度
(24)
其中:
(25)
總之,式(17)中θs的梯度是LfM、LC和Lgs梯度的總和:
1.5.3θt的梯度
類似地,采用無偏估計(jì)來降低式(18)中Lpt的復(fù)雜度,將Lpt的無偏估計(jì)表示為:
(29)
式(18)的梯度是LfM、LgDt和Lpt梯度的組合:
算法1域自適應(yīng)算法
輸入:原始域Xs∈Rp×ns;目標(biāo)域Xt∈Rp×nt,源標(biāo)簽ys,概率矩陣C(Ms(Xs))∈Rns×K,鄰接矩陣εs∈Rns×ns和εt∈Rnt×nt,權(quán)衡系數(shù)γ。
輸出:分類器C和域鑒別器D。
2.forido
3.forjdo
5.根據(jù)式(19)最小化LfD;
6.end for
7.end for
8.forido
9.forjdo
11.根據(jù)式(18)最小化LfM(Xt,Mt,D)+γLgDt(Xt,Mt,C)+γLpt(εft,εt);
12.end for
13.end for
14.forido
15.forjdo
17.根據(jù)式(17)最小化LfM(Xs,Ms,D)+LC(Xs,Ms,D)+γLgs(εfs);
18.end for
19.end for
20.forido
21.forjdo
23.根據(jù)式(20)最小化LC+γLgDt;
24.end for
25.end for
1) 跨數(shù)據(jù)集數(shù)字識別:MNIST、USPS和SVHN數(shù)據(jù)集包含十類數(shù)字的圖像。簡而言之,M、U和S字符分別用于表示MNIST、USPS和SVHN數(shù)據(jù)集[9]。根據(jù)文獻(xiàn)[10]無監(jiān)督域自適應(yīng)模型中的設(shè)置,在四個(gè)自適應(yīng)方向上對所提出的模型進(jìn)行評估:M→U、M→S、U→M和S→M。
2) 跨數(shù)據(jù)集對象識別:本文方法也在Office Home數(shù)據(jù)集上進(jìn)行了評估。該數(shù)據(jù)集由四個(gè)領(lǐng)域組成:Art(Ar)、Clipart(Cl)、Product(Pr)和Real-World(Rw)。每個(gè)域都有65種常見的圖像。通過所有12項(xiàng)適應(yīng)任務(wù)來評估本文方法。
3) 跨模態(tài)行人再識別:本文在RegDB數(shù)據(jù)集上驗(yàn)證了本文方法,該數(shù)據(jù)集包含由雙攝像頭系統(tǒng)捕獲的412位人的圖像。RegDB數(shù)據(jù)集中包含兩個(gè)子數(shù)據(jù)集:(1) 可見數(shù)據(jù)集(V),每個(gè)人有10個(gè)可見光圖像;(2) 熱成像數(shù)據(jù)集(T),每個(gè)人有10個(gè)不同的熱圖像。按照文獻(xiàn)[11]中的實(shí)驗(yàn)方案,將可見光圖數(shù)據(jù)集和熱成像數(shù)據(jù)集隨機(jī)分成兩份,用于訓(xùn)練和測試。通過重新識別訓(xùn)練和測試數(shù)據(jù)集中的人員來評估幾何對齊特征。
4) 合成數(shù)據(jù)圖像分類:Syn2Real是視覺領(lǐng)域適應(yīng)的數(shù)據(jù)集。該數(shù)據(jù)集由從三維對象模型渲染的合成數(shù)據(jù)集和具有相同對象類別的真實(shí)圖像數(shù)據(jù)集組成,從合成和真實(shí)數(shù)據(jù)集中選擇12類對象進(jìn)行實(shí)驗(yàn),合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集分別是源域和目標(biāo)域。
對于跨數(shù)據(jù)集數(shù)字識別實(shí)驗(yàn),源CNN和目標(biāo)CNN由LeNet實(shí)現(xiàn)。在跨數(shù)據(jù)集對象識別中,ResNet-50用于特征提取。在其他識別任務(wù)中,選擇由五個(gè)卷積層和三個(gè)全連接層組成的AlexNet來實(shí)現(xiàn)源和目標(biāo)CNN。按照文獻(xiàn)[12]中搭建的神經(jīng)網(wǎng)絡(luò),將域鑒別器D設(shè)計(jì)為具有3個(gè)全連接層、500個(gè)隱藏層和輸出層的深度學(xué)習(xí)網(wǎng)絡(luò)。用于標(biāo)簽預(yù)測的分類器C是一個(gè)全連接層,其輸出是類標(biāo)簽的概率向量。在本實(shí)驗(yàn)中,平衡參數(shù)γ設(shè)為1。本文所有實(shí)驗(yàn)均在MATLAB2016上進(jìn)行,計(jì)算機(jī)的配置為2.5 GHz處理器和8 GB內(nèi)存。
將本文方法與各種無監(jiān)督域自適應(yīng)模型進(jìn)行了比較,包括:深度自適應(yīng)網(wǎng)絡(luò)(DAN)[2]、加權(quán)最大平均差異(WMMD)[7]、區(qū)分域自適應(yīng)(ADDA)[4]、聯(lián)合幾何和統(tǒng)計(jì)對齊(JGSA)[13]、分層對抗性深域自適應(yīng)(HAND)[14]、最大分類器差異(MCD)[15]、條件對抗域自適應(yīng)(CDAN)[9]、隨機(jī)鄰域嵌入(d-SNE)[10]和切片Wasserstein差異(SWD)[11]模型等。為了公平起見,實(shí)驗(yàn)過程中,這些方法采用相同的深度學(xué)習(xí)模型骨干網(wǎng)絡(luò),源CNN的結(jié)果也作為基準(zhǔn)方法進(jìn)行比較分析。
2.3.1跨數(shù)據(jù)集數(shù)字識別
跨數(shù)據(jù)集數(shù)字識別的實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,與其他模型相比,該模型在四位數(shù)字識別實(shí)驗(yàn)中表現(xiàn)良好。該模型的平均準(zhǔn)確率為80.0%,是所有無監(jiān)督域自適應(yīng)模型中準(zhǔn)確性最高的。
表1 跨數(shù)據(jù)集的數(shù)字識別性能(%)
2.3.2跨數(shù)據(jù)集對象識別
表2總結(jié)了跨Office Home數(shù)據(jù)集的對象識別結(jié)果。結(jié)果表明,該模型在目標(biāo)域的識別性能提高了17.1百分點(diǎn)。對于大多數(shù)自適應(yīng)任務(wù),本文方法也優(yōu)于其他無監(jiān)督域自適應(yīng)模型。得到的平均準(zhǔn)確率為63.2%,高于表2中列出的其他無監(jiān)督適應(yīng)模型。
表2 Office Home數(shù)據(jù)集上跨數(shù)據(jù)集對象識別性能(%)
2.3.3跨模態(tài)行人再識別
如3.1節(jié)所述,可視和熱數(shù)據(jù)集中的人員隨機(jī)分成兩半進(jìn)行訓(xùn)練和測試。在訓(xùn)練階段,將帶有標(biāo)簽的模態(tài)的訓(xùn)練圖像(源域)和另一個(gè)沒有標(biāo)簽的模態(tài)的訓(xùn)練圖像(目標(biāo)域)作為網(wǎng)絡(luò)中的輸入。在測試階段,目標(biāo)域中的圖像用作測試集,而源域中的圖像用作庫集,對目標(biāo)域訓(xùn)練和測試數(shù)據(jù)集都進(jìn)行了驗(yàn)證,進(jìn)行了十次實(shí)驗(yàn)。在每次訓(xùn)練中,都會挑選不同的人員進(jìn)行訓(xùn)練。表3總結(jié)了每個(gè)實(shí)驗(yàn)的平均準(zhǔn)確率(mAP)結(jié)果。本文方法在目標(biāo)域訓(xùn)練和測試數(shù)據(jù)集的所有實(shí)驗(yàn)中都取得了最好的結(jié)果,在目標(biāo)域訓(xùn)練和測試數(shù)據(jù)集中,分別改善了16.0%和7.3%。
表3 RegDB數(shù)據(jù)集上跨模式人員重新識別的mAP(%)
表4中總結(jié)了Top20的匹配分?jǐn)?shù)。結(jié)果表明,在目標(biāo)域訓(xùn)練數(shù)據(jù)集中,AlexNet特征比人工特征(HOG和mLBP)獲得了更好的性能。但是,目標(biāo)域測試數(shù)據(jù)集中AlexNet的性能與人工制作的性能一樣差。相比之下,該模型在目標(biāo)域的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集上都達(dá)到了最高的平均準(zhǔn)確率,這表明所提出的幾何對齊特征具有更好的泛化能力。此外,標(biāo)準(zhǔn)累積匹配特性(CMC)曲線如圖2所示,以進(jìn)一步說明幾何對齊特征的性能。與每個(gè)實(shí)驗(yàn)中的其他模型相比,本文模型在幾乎所有級別上都獲得了最高的匹配分?jǐn)?shù)。
表4 RegDB數(shù)據(jù)集上跨模態(tài)行人重識別的性能(%)
(a) 源:可視,目標(biāo):熱
(b) 源:可視,目標(biāo):熱
(c) 源:熱,目標(biāo):可視
2.3.4合成圖像分類
在十次實(shí)驗(yàn)中也包含了合成圖像的分類實(shí)驗(yàn),并計(jì)算了平均結(jié)果。在每個(gè)實(shí)驗(yàn)中,從Syn2Real數(shù)據(jù)集中隨機(jī)選擇十分之一的合成圖像和真實(shí)圖像進(jìn)行實(shí)驗(yàn)。圖3說明了真實(shí)圖像數(shù)據(jù)集中(目標(biāo)域)每個(gè)類別的識別準(zhǔn)確率。結(jié)果表明,本文方法不僅提高了平均準(zhǔn)確率,而且提高了目標(biāo)域中大多數(shù)圖像類別(12個(gè)類別中的9個(gè))的識別性能。
圖3 算法在真實(shí)圖像分類中的性能
2.4.1消融研究
無監(jiān)督幾何對齊通過三種損失獲得:源域和目標(biāo)域差異損失(Lgs和LgDt)和幾何一致性損失(Lpt)。為了分析這些損失對性能的影響,消融實(shí)驗(yàn)通過在幾何感知雙流網(wǎng)絡(luò)中部分應(yīng)用這些損失來完成。表5總結(jié)了跨數(shù)據(jù)集對象識別的結(jié)果,以供分析。源域CNN作為基線模型,從這些表中,可以發(fā)現(xiàn)本文方法通過僅使用源域差異損失(Lgs)來提高性能。這是因?yàn)樵贚gs約束下,特征對類標(biāo)簽更具區(qū)分性。通過應(yīng)用參考自適應(yīng)幾何體統(tǒng)一標(biāo)準(zhǔn)的Lgs和LgDt,可以實(shí)現(xiàn)更大的準(zhǔn)確率提高。本文方法的平均結(jié)果從56.2%進(jìn)一步提高到59.5%。結(jié)合目標(biāo)域幾何一致性損失(Lpt),本文方法的性能得到進(jìn)一步提高,平均準(zhǔn)確率達(dá)到63.2%。
表5 交叉數(shù)據(jù)集識別中消融實(shí)驗(yàn)的性能(%)
2.4.2穩(wěn)定性分析
本節(jié)分析十次實(shí)驗(yàn)的準(zhǔn)確率方差,以證明本文方法的穩(wěn)定性。交叉數(shù)據(jù)集數(shù)字識別的結(jié)果與表6中現(xiàn)有的無監(jiān)督方法進(jìn)行了比較。對于每對數(shù)據(jù)集,最高方差以加粗顯示。結(jié)果表明,本文方法的方差不是最大的,這表明該模型的方差是可以接受的。此外,與同樣由對抗網(wǎng)絡(luò)組成的ADDA相比,本文方法獲得了更低的方差。因此,本文方法的性能相對穩(wěn)定。
表6 數(shù)據(jù)集之間數(shù)字識別的準(zhǔn)確度誤差(%)
2.4.3參數(shù)靈敏度
本文模型的總體目標(biāo)函數(shù)如式(1)所示,包括一個(gè)超參數(shù)γ,用于平衡表示和幾何對齊。本節(jié)分析了參數(shù)敏感性實(shí)驗(yàn)的結(jié)果,以說明本文模型中參數(shù)γ對性能的影響。參數(shù)敏感性實(shí)驗(yàn)在數(shù)字?jǐn)?shù)據(jù)集(MNIST、USPS和SVHN數(shù)據(jù)集)上進(jìn)行。取不同的γ值,并保持其他實(shí)驗(yàn)參數(shù)值不變。γ值是通過指數(shù)函數(shù)選擇的,范圍為10-3至103,隨γ值變化的跨域識別準(zhǔn)確率如圖4所示。結(jié)果表明,在大多數(shù)成對數(shù)據(jù)集中,當(dāng)γ值從10開始增加時(shí),本文方法的性能逐漸從10-3提高至10-1,這驗(yàn)證了學(xué)習(xí)自適應(yīng)幾何在提高域自適應(yīng)性能方面的有效性。當(dāng)γ>1時(shí),本文方法的準(zhǔn)確性降低,這意味著不需要對幾何對齊(Lg)賦予較大的權(quán)重。特別是如果γ太大(γ>102),幾何對齊(Lg)會損害表示對齊(Lf)??梢栽趫D4中發(fā)現(xiàn),當(dāng)γ設(shè)置為103時(shí),跨數(shù)據(jù)集識別準(zhǔn)確率顯著下降。
圖4 隨γ值變化的跨域識別準(zhǔn)確率比較
本文重點(diǎn)解決閉集域適配問題,其中源域和目標(biāo)域的標(biāo)簽空間相同。為了說明域共享標(biāo)簽數(shù)量的影響,在標(biāo)簽移位設(shè)置下進(jìn)一步評估了本文模型。實(shí)驗(yàn)在數(shù)字?jǐn)?shù)據(jù)集上進(jìn)行,借鑒開放集合域適配的實(shí)驗(yàn)設(shè)置,其中源域和目標(biāo)域的標(biāo)簽空間部分重疊。非重疊標(biāo)簽在源域和目標(biāo)域中用作“未知”類。測試了不同域標(biāo)簽的不同重疊率(20%、40%、60%和80%)。實(shí)驗(yàn)中選擇數(shù)字0-1、0-3、0-5和0-7作為域共享標(biāo)簽,重疊率分別為20%、40%、60%和80%。源域和目標(biāo)域都包含域共享標(biāo)簽的示例。除重疊標(biāo)簽外,其余標(biāo)簽的一半樣本包含在源域中,而另一半標(biāo)簽的樣本包含在目標(biāo)域中,具有不同標(biāo)簽重疊率(LOR)的開放集域適配結(jié)果如表7所示。表7中報(bào)告了域共享類的準(zhǔn)確率、目標(biāo)域“未知”類的結(jié)果、目標(biāo)域中所有類的平均結(jié)果,還總結(jié)了源模型(表示為CNN)的結(jié)果以供比較。
表7 數(shù)字?jǐn)?shù)據(jù)集的開放集域自適應(yīng)結(jié)果(%)
表7中的結(jié)果表明,一般而言,隨著域共享標(biāo)簽數(shù)量的增加(LOR的增加),源模型(CNN)在識別域共享類方面的性能降低。這是因?yàn)樵诖笮蚅OR的情況下,需要識別更多的域共享類,這增加了目標(biāo)域中數(shù)字識別的難度。目標(biāo)域“未知”類別上的源模型性能(CNN)也隨著LOR的增加而降低。原因可能是,隨著域共享標(biāo)簽數(shù)量的增加,“未知”類的目標(biāo)樣本可能更容易錯(cuò)誤分類到某個(gè)域共享類中。
可以發(fā)現(xiàn),與源模型(CNN)的結(jié)果相比,當(dāng)LOR大于20%時(shí),本文模型在大多數(shù)開放集域自適應(yīng)實(shí)驗(yàn)中提高了跨域識別性能。但在LOR為20%的某些情況下,本文方法對于域共享類的準(zhǔn)確率較低,例如,當(dāng)M→S,僅為2.9%。這是因?yàn)楫?dāng)LOR較小時(shí),目標(biāo)域包含許多帶有新標(biāo)簽的樣本。因此,域共享類的樣本很可能通過跨域的幾何對齊被誤分類為“未知”類的樣本。雖然本文方法的性能不如在閉集域自適應(yīng)實(shí)驗(yàn)中穩(wěn)定,但在某些情況下,本文方法表現(xiàn)較好。例如,當(dāng)LOR為80%、U→M時(shí),本文方法將平均準(zhǔn)確度提高了34.1百分點(diǎn)。這一結(jié)果表明了學(xué)習(xí)自適應(yīng)幾何在開放集域自適應(yīng)中的有效性。
本節(jié)通過可視化幾何對齊的特征并在特征空間中列出目標(biāo)樣本的最近鄰域源來考察本文方法的性能。
2.6.1特征可視化
使用圖5中的t-SNE可視化本文方法的源和目標(biāo)特征。選擇數(shù)據(jù)集U→M和M→U作為圖示。原始像素值的數(shù)據(jù)分布作為基線,圖5中還說明了從LeNet[16]和ADDA中提取的特征進(jìn)行比較。符號°和+分別用于標(biāo)記源域和目標(biāo)域中的數(shù)據(jù)/要素。
(a) U→M原始特征
在圖5(a)、圖5(e)中,獨(dú)立分布源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的樣本,可見源數(shù)據(jù)域和目標(biāo)數(shù)據(jù)域之間存在較大的域偏移。圖5(b)、圖5(f)為LeNet特征的分布。結(jié)果表明,LeNet特征對于類別標(biāo)簽更容易區(qū)分,因?yàn)檫@些特征是從源圖像及其標(biāo)簽中學(xué)習(xí)的。但源特征和目標(biāo)特征仍然沒有很好地匹配,這意味著深度學(xué)習(xí)特征中仍然存在數(shù)據(jù)集偏差問題。因此,一些目標(biāo)樣本會被源模型使用深度學(xué)習(xí)特征錯(cuò)誤分類。
與LeNet特征相比,來自源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的ADDA特征的邊緣分布的一致性更強(qiáng),如圖5(c)-圖5(g)所示。這反映了對抗性適應(yīng)的特征對齊效果。然而,可以發(fā)現(xiàn)每個(gè)目標(biāo)樣本都是任意對齊到一個(gè)源樣本簇。因此,源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的幾何形狀(鄰域關(guān)系)是不同的。另外,來自不同類別的一些目標(biāo)樣本在ADDA特征空間中緊密分布,導(dǎo)致這些類別的樣本分類困難。
相比之下,本文模型在源域和目標(biāo)域之間對齊表示和幾何體,如圖5(d)、圖5(h)所示,源與目標(biāo)的幾何對齊特征具有相似的分布。此外,在統(tǒng)一幾何準(zhǔn)則的約束下,同一類的樣本以小方差聚類,分別單獨(dú)分布不同類的樣本。結(jié)果表明,由于目標(biāo)樣本的映射受到幾何一致性約束的指導(dǎo),目標(biāo)樣本映射到錯(cuò)誤類的可能性較小。因此,目標(biāo)數(shù)據(jù)集的幾何對齊特征對類標(biāo)簽的區(qū)別更大。
2.6.2最近鄰域源的可視化
本文將一些目標(biāo)樣本及其五個(gè)最近鄰域源進(jìn)行可視化,從而說明了特征空間中的鄰域關(guān)系。如圖5所示,選取跨模態(tài)行人再識別(V→T,T→V)的結(jié)果進(jìn)行說明??梢钥闯?目標(biāo)樣本與其鄰域中的源圖像具有相似的特征。
(a) T→V
為了克服幾何信息不具有代表性和可區(qū)分性等缺點(diǎn),提出一種基于幾何感知雙流網(wǎng)絡(luò)的無監(jiān)督域自適應(yīng)模型。最后分析實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:
(1) 提出的域自適應(yīng)模型能夠在跨數(shù)據(jù)集對象識別、跨模態(tài)行人再識別、開放集合域自適應(yīng)中均表現(xiàn)出較好的識別準(zhǔn)確率,證明了幾何對齊有效提高了識別模型在目標(biāo)域的泛化能力。
(2) 提出的模型獲得了更低的方差,因此驗(yàn)證了該模型具有相對穩(wěn)定的識別性能。另外由于目標(biāo)樣本的映射受到幾何一致性約束的指導(dǎo),目標(biāo)樣本映射到錯(cuò)誤類的可能性較小。因此,目標(biāo)數(shù)據(jù)集的幾何對齊特征對類標(biāo)簽的區(qū)別更大。
(3) 隨著域共享標(biāo)簽數(shù)量的增加,源模型在識別域共享類方面的性能降低。目標(biāo)域“未知”類別上的源模型性能也隨著域共享標(biāo)簽數(shù)量的增加而降低。