摘 要:基于元學習的單源域泛化(single domain generalization,SDG)已成為解決領域偏移問題的有效技術之一。然而,源域和增強域的語義信息不一致以及域不變特征和域相關特征難以分離,使SDG模型難以實現(xiàn)良好的泛化性能。針對上述問題,提出了一種單源域泛化中基于域增強和特征對齊的元學習方案(meta-learning based on domain enhancement and feature alignment,MetaDefa)。利用背景替換和視覺損害技術為每一張圖像生成多樣且有效的增強圖像,保證了源域和增強域之間的語義信息一致性;多通道特征對齊模塊通過關注源域和增強域特征空間之間的相似目標區(qū)域和抑制非目標區(qū)域的特征表示充分挖掘圖像信息,進而有效地提取充足的可遷移性知識。通過實驗評估,MetaDefa在office-Caltech-10、office31和PACS數(shù)據(jù)集上分別取得了88.87%、73.06%和57.06%的精確度。結果表明,MetaDefa方法成功實現(xiàn)了源圖像和增強圖像之間的語義一致性和對域不變特征的充分提取,從而顯著提升了單源域泛化模型的泛化性能。
關鍵詞:單源域泛化; 元學習; 域增強; 特征對齊
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2024)08-020-2392-06
doi:10.19734/j.issn.1001-3695.2023.11.0585
Meta-learning based on domain enhancement and feature alignment for single domain generalization
Sun Can, Hu Zhigang, Zheng Hao
(School of Computer Science & Engineering, Central South University, Changsha 410083, China)
Abstract:The single domain generalization(SDG) based on meta-learning has emerged as an effective technique for solving the domain-shift problem. However, the inconsistent semantic information between source and augmented domains and difficult separation of domain-invariant features from domain-related features make SDG model hard to achieve great generalization. To address the above problems, this paper proposed a novel meta-learning method based on domain enhancement and feature alignment(MetaDefa) to improve the model generalization performance. This method utilized background replacement and visual damage techniques to generate diverse and effective augmented images for each image, ensuring the consistency of semantic information between the source domain and the enhanced domains. The multi-channel feature alignment module fully mines image information by focusing on similar target regions between the source and enhanced domains feature spaces and suppressing feature representations of non-target areas, thereby effectively extracting sufficient transferable knowledge. Through experimental evaluation, MetaDefa achieved 88.87%, 73.06% and 57.06% accuracy on office-Caltech-10, office31 and PACS datasets, respectively. The results show that the MetaDefa method successfully achieves semantic consistency between the source and augmented images and adequate extraction of domain-invariant features, which significantly improves the generalization performance of single domain generalization models.
Key words:single domain generalization; meta-learning; domain enhancement; feature alignment
0 引言
被大量標簽數(shù)據(jù)所驅動的深度神經網絡在各種計算機視覺任務中取得了顯著的進展[1, 2]。然而,當源域和目標域之間的數(shù)據(jù)分布存在明顯差異時,源域上已訓練好的模型在目標域上的性能會顯著下降[3],這便是領域偏移問題。事實上,由于不能收集到輸入圖像每一種可能的變化(如光照、背景和天氣等),領域偏移問題在現(xiàn)實場景中普遍存在。
單源域泛化是解決領域偏移問題的有效方法之一。SDG方法通過在單一源域中訓練模型以學習可遷移性知識,并將這些知識應用于未知的多個目標域,從而提升模型的泛化性能[4]。在單源域泛化中,域增強技術是一種常見的方法。該方法在模型訓練過程中通過合成多個增強域,提升了源域數(shù)據(jù)的復雜性和多樣性[5~9]。差異多樣的源域能夠使模型有效地區(qū)分特定于域和語義的信息,消除模型預測與輸入圖像之間的虛假相關性。文獻[5]通過將輸入圖像與另一個圖像以一定的比例混合,生成了新的訓練樣本。文獻[8]通過改變對象的位置、形狀、紋理等信息以及向圖像中添加不同類型的噪聲隨機生成增強域。這些方法擴充了訓練數(shù)據(jù),減少了模型過擬合的風險,但卻破壞了輸入圖像的語義信息。另外一些研究者基于源域數(shù)據(jù)的特征表示來研究SDG,力求減小源域和增強域特征空間之間的表示差異,使模型更關注域不變特征[10~12]。Shu等人[10]引入了額外的熵正則化,通過最小化不同訓練域數(shù)據(jù)分布之間的Kullback-Leibler散度推動模型學習域不變特征。Segu等人[11]使用依賴于域的批處理歸一化層將圖像樣本映射到一個潛在空間以收集源域的統(tǒng)計信息,并利用領域特定屬性來學習域潛在空間。Hou等人[12]設計了一個領域解耦與組合模塊,通過傅里葉變換將源域特征解耦為域相關特征和域不變特征,同時引入了反向傳導機制不斷識別和更新域不變參數(shù)。上述方法嘗試從特征空間中學習域不變特征,但當源域和目標域的數(shù)據(jù)分布存在顯著差異時,該方法難以確保模型在未知目標域上的泛化效果。
uwRsXO40S2uQzL0B272dPyRPBmA0FL3VWqZg6Z0n4W8=為使模型更好地表征特征,提高對未知場景的適應性,近年來元學習單源域泛化備受關注[13~16]。在元學習單源域泛化方法中,源域數(shù)據(jù)被劃分為虛擬訓練域和虛擬測試域,兩者組合構成虛擬任務。模型在虛擬任務中持續(xù)地學習和識別域不變特征,以期在面對未知的復雜目標域時能夠實現(xiàn)出色的泛化效果。文獻[13]在元學習過程中利用對抗性訓練來創(chuàng)建虛構但具有挑戰(zhàn)性的增強域,并使用Wasserstein自動編碼器來放松最壞情況約束。文獻[15]設計了一個特征評價網絡,該網絡評價特征提取器所生成特征的質量,并構建了一個可學習的輔助損失,為特征提取器提供額外的反饋。然而,上述方法在特征提取過程中主要側重于簡單地對齊域不變特征,存在著域相關特征抑制不足的問題。
針對上述問題,本文提出了一種單源域泛化中基于域增強和特征對齊的元學習方案。首先,引入了基于背景替換和視覺損害技術的域增強模塊,通過考慮增強域的有效性和多樣性,生成的增強域在保證語義信息一致性的同時也能更好地模擬目標域中的不同數(shù)據(jù)分布。其次,設計了多通道特征對齊模塊,旨在減小源域和增強域特征空間中目標類別區(qū)域之間的距離,并壓縮非目標類別區(qū)域,以提高模型對域不變特征的關注以及對域相關特征的抑制。
本文的主要貢獻如下:
a)提出了域增強模塊,通過在元學習訓練過程中使用背景替換和視覺損害技術生成了多樣且有效的增強域。該模塊旨在模擬未知目標域數(shù)據(jù)分布時,不破壞源域的語義信息。
b)設計了一個多通道特征對齊模塊,通過約束模型在相同輸入圖像的不同視圖中識別一致且通用的視覺線索,并在未知目標域中重新利用這些線索,以期模型更關注域目標類別特征,并抑制非目標類別特征表達。
c)三個基準數(shù)據(jù)集上進行的大量實驗顯示了MetaDefa卓越的綜合性能。
1 方法
在單源域泛化的元學習中,存在著單一源域S和多個目標域T。源域S和目標域T包含相同的任務,即具有相同的標簽空間與輸入特征空間,但兩者的數(shù)據(jù)分布不同。源域S將被劃分為虛擬訓練域Strain和虛擬測試域Stest。引入函數(shù)f:Sx→y,用于將S中的輸入圖像x映射到類標簽的熱向量y,其中模型參數(shù)需要被學習。在每次迭代中,首先進入元訓練階段。模型開始在Strain上進行訓練,計算損失和梯度,并更新參數(shù)=→i。隨后,執(zhí)行元測試階段。在這個階段中,使用更新后的參數(shù)i在Stest上訓練模型以計算損失Euclid Math OneLAp(fi),然后計算并保存梯度。最后,重復整個過程n次,所有存儲的梯度被累積并用于更新初始參數(shù)。
圖1展示了MetaDefa的域增強和多通道特征對齊模塊。其中,f表示參數(shù)為的模型骨干。wik表示完全連接層(fully connected layer,F(xiàn)C)中第k個特征圖對應于類別i的權重。MetaDefa的算法細節(jié)如算法1所示。
算法1 單源域泛化中一種基于域增強和特征對齊的元學習方案
輸入:源域S;超參數(shù)β;學習率lr;模型參數(shù)φ;跳躍點k;超參數(shù)λ1、λ2。
輸出:訓練好的模型參數(shù)。
1 extract data from source domain S for building task pool with N size, which contain Strain,Stest
2 randomly initialize
3 for epoch to epochs do
4 sample n tasks Ti from task pool
5 for all Ti do
6 if i≤k
7Euclid Math OneLAp=Euclid Math OneLApCE+λ1Euclid Math OneLApCAM
8 else
9Euclid Math OneLAp=Euclid Math OneLApCE+λ1(Euclid Math OneLApCAM+Euclid Math OneLAporiminor+Euclid Math OneLApaugminor)-λ2Euclid Math OneLApstyle
10 end if
11 //元訓練階段
12 carry out background substitution on Strain //保持有效性
13 carry out visual corruption on Strain //保持多樣性
14 output Strainand Saugtrain
15 use Strainand Saugtrainto compute the loss:Euclid Math OneLApTi(fi)
16 compute the adapted parameters with gradient descent:
i=- lr*Euclid Math OneLApTi(fi)
17 //元測試階段
18 carry out background substitution on Stest
19 carry out visual corruption on Stest
20 output Stestand Saugtest
21 use Stestand Saugtestdataset to compute the loss:Euclid Math OneLApTi(fi)
22 compute the gradient: iEuclid Math OneLApTi(fi)
23 end for
24 //真正參數(shù)更新
25 update =-β*∑n1Euclid Math OneLApTi(fi)/n
26 end for
1.1 域增強模塊
為確保Strain與虛擬增強訓練域Saugtrain,Stest與虛擬增強測試域Saugtest之間的語義信息一致性,考慮多樣性和有效性,域增強模塊通過背景替換和視覺損害技術生成最優(yōu)的增強域。
1.1.1 背景替換
大量的研究表明,優(yōu)先考慮圖像的多樣性而忽略有效性的數(shù)據(jù)增強方法會導致模型性能下降[17]。本文利用背景替換技術確保圖像的有效性。在替換過程中,首先利用實例掩碼注釋來獲得圖像的對象區(qū)域并保持其位置不變。然后,從Strain中選擇不同類的另一張圖像,從該圖像中隨機裁剪一個補丁。最后,使用該補丁替換源圖像背景,生成有效的增強圖像。執(zhí)行背景替換之后,圖像的多樣性得以增加,且不引入更多噪聲,保證了增強圖像的有效性。
1.1.2 視覺損害
引入視覺損害導致的圖像多樣性可以提升模型在處理未知的多個目標域時的泛化能力[18,19]。對圖像施加視覺損害不僅會創(chuàng)建不同樣式的增強域,還會引入大量與任務無關的視覺變化,這有助于模型在訓練過程中忽略虛假模式。為進一步擴大增強域的多樣性,即擴大Strain與Saugtrain、Stest與Saugtest之間的數(shù)據(jù)分布差異,使模型對于輸入圖像的變化、扭曲和噪聲具有更好的魯棒性。本文利用視覺損害技術來更好地模擬目標域的數(shù)據(jù)分布,并設計了一個最小閾值,只有隨機損害概率高于閾值的視覺損害才會被執(zhí)行?;镜囊曈X損害包括自動對比度、顏色、清晰度、傅里葉變換、ImageNet-C[19]等。
1.2 多通道特征對齊模塊
Strain與Saugtrain、Stest和Saugtest之間的可遷移性知識會顯著地影響模型的泛化性。在多通道特征對齊模塊中,模型將關注域不變特征與抑制域相關特征,以提取充足的可遷移性知識。由于對Strain與Stest執(zhí)行相同的特征對齊操作,故下文使用Strain表示虛擬域、Saugtrain表示增強虛擬域。
1.2.1 關注域不變特征
當模型聚焦于Strain和Saugtrain特征空間中對預測最有貢獻的空間區(qū)域時,模型能夠捕捉與域無關的普遍特征和模式,而不僅僅關注于特定的風格樣式,這將顯著提高模型的泛化性。類激活圖(class activation maps,CAM)能夠可視化給定特征圖中對輸出貢獻最大的空間區(qū)域,為模型預測提供視覺解釋[20]。與CAM-loss[21]不同,本文通過最小化Strain與Saugtrain的CAM之間的距離,旨在約束模型在相同輸入圖像的不同視圖中找到一致且通用的視覺線索。模型將在未知的多個目標域中重用這些線索,以提高對域不變特征的捕捉能力。
形式上,模型最后一層的卷積層將輸出一定數(shù)量的特征圖,其中fk(x,y)代表第k個特征圖在空間位置(x,y)處的激活值。對第k個特征圖的高度H和寬度W執(zhí)行全局平均池化:Fk=1H×W∑x,yfk(x,y)。對于給定的類別i,執(zhí)行softmax操作以得到類別分數(shù)zi=∑kwikFk,其中wik表示在完全連接層FC中第k個特征圖對應于類別i的權重。將Fk和zi合并得到:
zi=1H×W∑x,yfk(x,y)
=1H×W∑x,y∑kwikfk(x,y)
(1)
定義CAMi為類別i的類激活圖,其中每一個空間元素為
CAMi(x,y)=∑kwikfk(x,y)(2)
其中:CAMi(x,y)表示空間位置(x,y)處的激活值對圖像屬于類別i的可能性。為使模型在Strain和Saugtrain的CAM中找尋一致且通用的視覺線索,使用Jensen-Shannon散度構建Euclid Math OneLApCAM損失:
Euclid Math OneLApCAM(MCAM,MaugCAM,i)=DJS(MCAM‖MaugCAM)(3)
其中:MCAM為給定類別i的虛擬域Strain的CAM;MaugCAM為增強虛擬域Saugtrain的CAM。
1.2.2 抑制域相關特征
如圖2所示,(a)表示虛擬域Strain,(b)(c)分別表示Strain的CAM和CAAM。同樣,(d)表示增強虛擬域Saugtrain,(e)(f)表示Saugtrain的CAM和CAAM。通過對比圖2(a)與(b),(d)與(e),由于目標類別和非目標類別的CAM在某些區(qū)域中可能重疊,僅考慮CAM,模型在非目標類別和圖像類別數(shù)據(jù)之間的復雜關系方面存在局限。與CAM相比,圖2(c)(f)所示的類別不可知激活圖(class agnostic activation maps,CAAM)展現(xiàn)出更顯著的激活區(qū)域和更豐富的特征,其中每個空間元素表示為CAAM(x,y)=∑kfk(x,y)。不幸的是,CAAM中包含的冗余特征可能導致非目標類別的置信度得分超過目標類別的置信度得分,從而引起難以接受的誤分類。為抑制非目標類別(域相關)特征的表達,鼓勵圖像的CAAM與目標類別的CAM密切對齊。Euclid Math OneLAporiminor損失、Euclid Math OneLApaugminor損失被定義為
Euclid Math OneLAporiminor(MCAAM,MCAM,i)=1H×W
∑x,y‖MCAAM-MCAM‖(4)
Euclid Math OneLApaugminor(MCAAM,MaugCAM,i)=1H×W∑
x,y‖MaugCAAM-MaugCAM‖(5)
其中:MCAAM、MaugCAAM分別為Strain和Saugtrain的CAAM;MCAM、MaugCAM為Strain和Saugtrain的CAM;Euclid Math OneLAporiminor和Euclid Math OneLApaugminor代表著Strain與Saugtrain中的次要區(qū)域。相比于文獻[21],為進一步提高模型對非目標類別(風格樣式)的感知和抑制,虛擬域Strain和增強虛擬域Saugtrain之間的次要區(qū)域應盡可能不同,構建了Euclid Math OneLApstyle損失:
Euclid Math OneLApstyle(Euclid Math OneLAporiminor,Euclid Math OneLApaugminor,i)=Euclid Math OneLAporiminor-Euclid Math OneLApaugminor(6)
根據(jù)式(3)~(6),考慮到Euclid Math OneLApCAM、Euclid Math OneLAporiminor和Euclid Math OneLApaugminor都與特征之間的相關性有關,而Euclid Math OneLApstyle為兩個數(shù)值之差,通過引入超參數(shù)λ1、λ2,最終的目標函數(shù)定義為
Euclid Math OneLAp=Euclid Math OneLApCE+λ1(Euclid Math OneLApCAM+Euclid Math OneLAporiminor+Euclid Math OneLApaugminor)-λ2Euclid Math OneLApstyle(7)
確定何時引入Euclid Math OneLAporiminor、Euclid Math OneLApaugminor和Euclid Math OneLApstyle損失成為了一個需要解決的問題。直觀地說,模型在訓練的早期階段獲得的CAM過于離散,難以有效引導CAAM靠近CAM。而在訓練后期,CAM獲得了顯著的目標類別特征,具備足夠的能力引導CAAM。此次選擇經過精心設計,形成了一個簡明而有效的跳躍過程。具體而言,在每一輪訓練的前k個任務中選擇不應用Euclid Math OneLAporiminor、Euclid Math OneLApaugminor和Euclid Math OneLApstyle損失,而在第k個任務之后引入這些損失。本文采用ResNet-18模型,在office-Caltech-10和office31數(shù)據(jù)集上進行了圖像分類實驗,以研究跳躍點k與模型精度之間的關系。每輪任務的數(shù)量設定為50,實驗結果如圖3所示。
在office-Caltech-10上的實驗結果表明,隨著k值的增加,模型精度逐漸提高,直至在k=40時到達最高值,之后開始下降。第一次訓練時(k=0),由于前期模型學習到的CAM過于簡單和離散,未能有效引導CAAM,甚至導致CAM向CAAM靠攏。隨著k值的增加,模型學到的目標類別特征越加清晰和顯著,CAM能夠更有效地引導CAAM靠攏。然而,當k值過大時,考慮CAAM的時間過晚,模型對于非目標類別特征的學習較差。因此整體精度曲線呈現(xiàn)出先上升,達到最高值后再下降的趨勢。在office31上模型精度與跳躍點k值的相關性與office-Caltech-10總體趨勢一致。不同之處在于,在office31數(shù)據(jù)集上,達到最高點的k值為20。這表明所提出的MetaDefa方案在關注目標類別特征表達的基礎上,還廣泛抑制了非目標類別特征的表達。由此導致在面對數(shù)據(jù)量更多,域差異更大的數(shù)據(jù)集時,模型在訓練前期學到的CAM會更加詳細和聚集,這也意味著只需要較少的任務模型就能夠學習到足夠的可遷移性知識,從而有效地引導CAAM靠攏CAM。
2 實驗
2.1 數(shù)據(jù)集和實驗設置
為了評估MetaDefa在元學習單源域泛化中的可行性和有效性,本文進行了廣泛的實驗分析,選取了三個具有挑戰(zhàn)性的基準數(shù)據(jù)集:office-Caltech-10(office10)[22]、office31[23]和PACS[24]。office-Caltech-10數(shù)據(jù)集包含分布在四個域的2 533張圖像,這些域包括C(Caltech)、A(Amazon)、W(Webcam)、D(DSLR)。而office31包含來自三個域(A,W,D)的4 110張圖像,涵蓋31個類別。與只有10個類別的office-Caltech-10相比,office31的類別更多,域之間的分布差異也更大,因而更具挑戰(zhàn)性。PACS數(shù)據(jù)集包含來自4個不同領域的9 991張圖像,涵蓋7個類別。這些領域分別是photo(照片)、art(藝術繪畫)、cartoon(卡通)和sketch(素描)。相比其他數(shù)據(jù)集,PACS所包含的四個域之間存在較大的風格差異,故被認為是一個更具挑戰(zhàn)性的數(shù)據(jù)集。
在所有的設置中,本文將RGB圖像的大小統(tǒng)一調整為224×224。office-Caltech-10和office31數(shù)據(jù)集選擇域DSLR作為源域,PACS選擇photo為源域。模型使用在ImageNet上預訓練的ResNet-18模型,并使用SGD優(yōu)化器,設置學習率、批次大小和訓1EqXmV2yiul7vzrGAmi0uA==練批次分別為4×10-3、32和30。所有實驗均重復五次,最終結果取平均值?!癆VG”列表示方法在多個目標域上的平均性能。
2.2 基線和比較方法
為了評估MetaDefa的有效性,從域增強和特征對齊兩方面進行了比較,包括:a)基線,只使用交叉熵損失而不使用任何域增強的元學習;b)CutOut[6]和RandAugment(RandAug) [8]使用先進域增強技術,而其他模塊設置與MetaDefa一致;c)L2D[25],基于語義一致性來對齊領域不變特征;d)ACVC[18],基于類激活圖但不抑制非目標類別特征表達;e)CAM-loss[21],僅約束CAAM靠攏CAM。
2.3 在office-Caltech-10、office31和PACS上的比較
如表1所示(表中黑體數(shù)據(jù)為最優(yōu)值,下同),MetaDefa在offiv2lUxr8fCDEmeNqYoOqKrg==ce-Caltech-10的三個目標域上均取到了最優(yōu)的泛化效果,模型精度分別為88.44%、80.21%和97.97%。通過考慮增強的有效性,MetaDefa相比于僅關注多樣性的CutOut和RandAugment分別提高了2.62%和2.8%的性能,這驗證了所提出域增強模塊的有效性。此外,MetaDefa在特征對齊過程中抑制了非目標類別特征表達,模型獲得了更多的可遷移性知識,使得MetaDefa的性能比L2D、ACVC和CAM-loss分別提高了2.54%、1.66%和1.43%。
如表2所示,MetaDefa相比于對比方法在office31數(shù)據(jù)集上獲得了更優(yōu)的泛化性能,僅使用簡單的域增強方法如CutOut和Rangdug,模型的泛化性能提升有限,分別為-0.74%和0.43%。而MetaDefa方法實現(xiàn)了顯著的3.82%精度提升,這凸顯了考慮增強有效性的重要性和所提出域增強模塊的有效性。在與源域DSLR有較大差異的Amazon域上,MetaDefa相較于性能排名第二的CAM-loss方法提升了2.04%,這表明抑制非目標類別特征的表達能大幅度地提升模型的泛化性能。通過縮小圖像的次要區(qū)域,相比在office-Caltech-10上只提升了2.76%的精度,MetaDefa 在類別更多且域差異更顯著的office31數(shù)據(jù)集上表現(xiàn)得更為優(yōu)越,模型精度提升了3.82%。結合圖4(a)(b)可知,MetaDefa在office-Caltech-10和office31數(shù)據(jù)集上都展現(xiàn)出了通用性和先進性。
根據(jù)表3所示,MetaDefa在PACS數(shù)據(jù)集上獲得了最佳的泛化性能,達到了57.06%。與office-Caltech-10和office31相比,PACS上的基線精度較低。這表明僅使用CE損失在數(shù)據(jù)量更多且域差異更大的PACS數(shù)據(jù)集上難以學到泛化性能良好的模型。在域差異較大的cartoon和sketch目標域上,MetaDefa方法顯示出了顯著的性能提升,相比于性能排名第二的RandAug方法分別提升了5.23%和7.55%。這驗證了所提出的域增強模塊不僅確保了語義信息一致性,還生成了更符合未知目標域數(shù)據(jù)分布的樣本。而在域差異較小的art域上,MetaDefa方法相比基線也提升了6.04%,但弱于ACVC等方法。這表明MetaDefa為防止模型過擬合,主要關注于與源域差異較大的目標域。
為定性分析MetaDefa在PACS數(shù)據(jù)集上的性能表現(xiàn),本文可視化展示了各方法在PACS數(shù)據(jù)集上的CAM,如圖5所示。從圖5中可以看出,經典的CutOut方法會混合圖像區(qū)域,這破壞了圖像的語義信息,導致了更大的激活區(qū)域,使得模型的關注焦點偏離了對象目標區(qū)域。ACVC和L2D等方法成功找到了目標區(qū)域,但存在著非目標類別特征表達,而RandAug方法也存在抑制非目標類別不顯著的問題。相比之下,MetaDefa方法不僅準確識別到了目標類別區(qū)域,還廣泛抑制了非目標類別特征的表達。
3 消融實驗
在MetaDefa中,基于多通道特征對齊構建的不同損失項Euclid Math OneLApCAM、Euclid Math OneLAporiminor、Euclid Math OneLApaugminor、Euclid Math OneLApstyle對于模型精度有著至關重要的影響。因此,本文在三個基準數(shù)據(jù)集上進行了充分的消融實驗以評估這些損失項的有效性和適用性。同時,通過實驗結果觀察和驗證了超參數(shù)λ1和λ2對元學習過程中模型訓練的影響。
3.1 不同損失項對模型精度的影響
如表4所示,設計的損失項在交叉熵損失的基礎上都顯著提高了模型的預測精度。在office-Caltech-10上,選擇在Euclid Math OneLApCAM、Euclid Math OneLAporiminor、Euclid Math OneLApaugminor基礎上加入Euclid Math OneLApstyle損失,模型精度提升了1.86%。這體現(xiàn)了提高模型對非目標類別敏感度的優(yōu)越性。在office31上測試時,僅加入Euclid Math OneLApCAM時,準確度略微提高了1.97%,而在同時加入Euclid Math OneLApCAM、Euclid Math OneLAporiminor、Euclid Math OneLApaugminor時,精度卻提升了2.91%,這表明簡單地讓模型關注圖像的主要目標類別特征對于模型的泛化性提升有限。而當引入CAAM后,通過約束CAAM靠攏CAM并抑制更廣泛的非目標區(qū)域(例如背景),模型精度有了顯著的提升。圖6可視化展示了在PACS數(shù)據(jù)集上不同損失項的CAM。對比圖6(a)與(b)可知,Euclid Math OneLApCAM使模型的關注焦點從錯誤的激活區(qū)域主要集中于目標類別區(qū)域。對比圖6(b)與(c),在Euclid Math OneLApCAM基礎上加入Euclid Math OneLAporiminor和Euclid Math OneLApaugminor,錯誤的激活區(qū)域進一步減少。而對比圖6(a)與(d),設計的損失項使模型更加集中表達目標類別特征,并廣泛抑制了非目標類別特征。
3.2 超參數(shù)對模型精度的影響
超參數(shù)λ1代表著Euclid Math OneLApCAM、Euclid Math OneLAporiminor、Euclid Math OneLApaugminor的權重,而λ2代表Euclid Math OneLApstyle的權重。為更好地提高模型的泛化性,本文進行了大量的消融實驗以研究λ1、λ2對模型精度的影響。首先,固定λ2為0.5,然后設置λ1的取值為{0.005,0.01,0.06,0.1,0.2},以評估模型在office-Caltech-10和office31上的性能表現(xiàn)。如圖7(a)所示,可以看出當λ1=0.06時,模型都取得了最好的精度。關于λ2的影響描述在圖7(b)中,設置λ2的取值為{0.1,0.2,0.5,1.0},并且固定λ1=0.06??梢钥闯觯?在這兩個數(shù)據(jù)集上的最好取值并不相同。在office-Caltech-10上,當λ2=0.5時模型性能最佳。而在office31時,λ2的最佳取值為0.2。這是因為與office-Caltech-10相比,office31域之間的分布差異較大,即圖像的風格樣式差異較大,導致Euclid Math OneLApstyle取值也較大。因此,較小的權重能夠有效地抑制非目標類別特征的表達。
4 結束語
為解決元學習單源域泛化中源域和增強域語義信息不一致以及域不變特征和域相關特征難以分離的難題,本文提出了一種基于域增強和特征對齊的元學習方案。其核心思想是利用背景替換和視覺損害技術構建多樣且有效的增強域,并約束模型關注于圖像的主要目標類別特征和驅使類不可知激活圖靠攏類激活圖,使模型更傾向于表達目標類別特征并抑制非目標類別特征。實驗結果表明,MetaDefa方法在三個基準數(shù)據(jù)集上實現(xiàn)了良好的泛化性能。改進后的網絡模型實現(xiàn)了對特征空間良好的分離,但引入的損失項較多,如何度量各損失之間的相關性并沒有被詳細討論。因此在未來的工作中,將進一步研究如何為構建的損失項自適應分配權重,以更好地解決元學習單源域泛化問題。
參考文獻:
[1]潘雪玲, 李國和, 鄭藝峰. 面向深度網絡的小樣本學習綜述 [J]. 計算機應用研究, 2023, 40(10): 2881-2888,2895. (Pan Xueling, Li Guohe, Zheng Yifeng. Survey on few-shot learning for deep network[J]. Application Research of Computers, 2023, 40(10): 2881-2888,2895.)
[2]楊朋波, 桑基韜, 張彪, 等. 面向圖像分類的深度模型可解釋性研究綜述[J]. 軟件學報, 2023, 34(1): 230-254. (Yang Pengbo, Sang Jitao, Zhang Biao, et al. Survey on interpretability of deep models for image classification[J]. Journal of Software, 2023, 34(1): 230-254.)
[3]Wang Mei, Deng Weihong. Deep visual domain adaptation: a survey[J]. Neurocomputing, 2018, 312: 135-153.
[4]Wang Jindong, Lan Cuiling, Liu Chang, et al. Generalizing to unseen domains: a survey on domain generalization[J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(8): 8052-8072.
[5]Zhang Hongyi, Cisse M, Dauphin Y N, et al. mixup: beyond empirical risk minimization[EB/OL]. (2017). https://arxiv.org/abs/1710.09412.
[6]DeVries T, Taylor G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. (2017-08-15). https://arxiv.org/abs/1708.04552.
[7]Yun S, Han D, Oh S J, et al. Cutmix: regularization strategy to train strong classifiers with localizable features[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6023-6032.
[8]Cubuk E D, Zoph B, Shlens J, et al. RandAugment: practical automated data augmentation with a reduced search space[C]//Proc of IEEE International Conference on Computer Vision and Pattern Re-cognition Workshops. Piscataway, NJ: IEEE Press, 2020: 702-703.
[9]邢艷, 魏接達, 汪若飛, 等. MaskMix: 用于變化檢測的掩碼混合數(shù)據(jù)增強方法[J]. 計算機應用研究, 2023, 40(12): 3834-3840,3847. (Xing Yan, Wei Jieda, Wang Ruofei, et al. MaskMix: mask mixing augmentation method for change detection[J]. Application Research of Computers, 2023, 40(12): 3834-3840,3847.)
[10]Shu Yang, Cao Zhangjie, Wang Chenyu, et al. Open domain gene-ralization with domain-augmented meta-learning[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 9624-9633.
[11]Segu M, Tonioni A, Tombari F. Batch normalization embeddings for deep domain generalization[J]. Pattern Recognition, 2023, 135: 109115.
[12]Hou Feng,Zhang Yao,Liu Yang,et al. Learning how to learn domain-invariant parameters for domain generalization[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2023: 1-5.
[13]Qiao Fengchun, Zhao Long, Peng Xi. Learning to learn single domain generalization[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 12556-12565.
[14]Balaji Y, Sankaranarayanan S, Chellappa R. MetaReg: towards domain generalization using meta-regularization[J]. Advances in Neural Information Processing Systems, 2018, 31: 998-1008.
[15]Li Yiying, Yang Yongxin, Zhou Wei, et al. Feature-critic networks for heterogeneous domain generalization[C]//Proc of the 36th International Conference on Machine Learning.[S.l.]: PMLR, 2019: 3915-3924.
[16]Zhao Yuyang, Zhong Zhun, Yang Fengxiang, et al. Learning to ge-neralize unseen domains via memory-based multi-source meta-learning for person re-identification[C]//Proc of IEEE International Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 6277-6286.
[17]Deng Weijian, Zheng Liang. Are labels always necessary for classifier accuracy evaluation?[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15069-15078.
[18]Cugu I, Mancini M, Chen Y, et al. Attention consistency on visual corruptions for single-source domain generalization[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 4165-4174.
[19]Hendrycks D, Dietterich T. Benchmarking neural network robustness to common corruptions and perturbations[EB/OL].(2019). https://arxiv. org/abs/1903.12261.
[20]Zhou Bolei, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proc of IEEE International Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 2921-2929.
[21]Wang Chaofei, Xiao Jiayu, Han Yizeng, et al. Towards learning spatially discriminative feature representations[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 1326-1335.
[22]Gong Boqing, Shi Yuan, Sha Fei, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 2066-2073.
[23]Saenko K, Kulis B, Fritz M, et al. Adapting visual category models to new domains[C]//Proc of the 11th European Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2010: 213-226.
[24]Li Da, Yang Yongxin, Song Y Z, et al. Deeper, broader and artier domain generalization[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5542-5550.
[25]Wang Zijian, Luo Yadan, Qiu Ruihong, et al. Learning to diversify for single domain generalization[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 834-843.