摘要:現(xiàn)有深度度量學(xué)習(xí)方法通過構(gòu)造困難樣本生成方法指導(dǎo)模型高效訓(xùn)練,基于代數(shù)計算的困難樣本生成方法具有簡單、高效的優(yōu)勢。然而這類方法缺乏對數(shù)據(jù)整體分布的考慮,導(dǎo)致生成的樣本隨機(jī)性較強(qiáng)、模型收斂緩慢。針對該問題,將三元組中的正樣本以其所屬的類中心為軸,旋轉(zhuǎn)至錨點與該類中心連線的反向延長線上,提出一種基于樣本旋轉(zhuǎn)的困難樣本生成方法,給出了一種新的損失函數(shù),構(gòu)建了一種基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(RHS-DML),有效提升了模型的訓(xùn)練效率。在Cars196,CUB200-2011 以及Stanford OnlineProducts 數(shù)據(jù)集上進(jìn)行了圖像檢索的實驗,與代數(shù)計算方法中對稱生成樣本方法進(jìn)行了比較,結(jié)果表明,本文提出算法的檢索性能相較于對稱樣本生成方法,在三個數(shù)據(jù)集上分別高出2.4%,0.7%,1.4%。
關(guān)鍵詞:深度度量學(xué)習(xí);困難樣本生成;多類N元組損失;代數(shù)計算
中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A 文章編號:0253-2395(2024)05-0973-09
0 引言
機(jī)器學(xué)習(xí)算法中往往使用歐氏距離度量樣本間的相似性,然而歐氏距離度量平等地對待樣本屬性中的所有成分,忽略了特征重要性的差異。為解決該問題,Xing 等[1]提出距離度量學(xué)習(xí)(Distance Metric Learning),通過將同類樣本之間的距離拉近,異類樣本之間的距離推遠(yuǎn),學(xué)習(xí)更好的距離度量,提升模型性能。然而,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)變得越來越復(fù)雜,傳統(tǒng)度量學(xué)習(xí)算法已經(jīng)無法應(yīng)對復(fù)雜的數(shù)據(jù)。隨著深度學(xué)習(xí)的發(fā)展,深度度量學(xué)習(xí)應(yīng)運(yùn)而生。憑借深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力,深度度量學(xué)習(xí)在圖像檢索[2]、人臉識別[3-4]、行人重識別[5-7]等領(lǐng)域得到了廣泛的應(yīng)用。
現(xiàn)有深度度量學(xué)習(xí)方法普遍利用神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)映射到一個嵌入空間,在該嵌入空間中,同類樣本之間的距離更近,異類樣本之間的距離更遠(yuǎn)。以孿生網(wǎng)絡(luò)為例,如圖1 所示,Hu 等[8]在訓(xùn)練集中使用隨機(jī)采樣方法隨機(jī)選擇樣本構(gòu)造Batch,Batch 中的樣本兩兩組合形成樣本對,樣本對中的每個樣本通過孿生網(wǎng)絡(luò)得到嵌入表示,依據(jù)得到的嵌入表示,利用損失函數(shù)計算樣本對之間的相似性,從而拉近正樣本對之間的距離,推遠(yuǎn)負(fù)樣本對之間的距離。
然而現(xiàn)有深度度量學(xué)習(xí)的訓(xùn)練過程存在以下三個問題[9]:(1)若訓(xùn)練集中有n 個樣本,將會產(chǎn)生n2 個樣本對,若訓(xùn)練樣本很多,將會導(dǎo)致模型收斂緩慢;(2)如果Batch 中多數(shù)為損失較小的容易樣本對,少數(shù)為損失較大的困難樣本對,所得到的模型的判別能力弱;(3)若訓(xùn)練集中僅包含容易樣本對,將會導(dǎo)致?lián)p失函數(shù)無梯度,則不利于模型收斂;因而困難樣本挖掘方法的研究具有一定的理論價值。
困難樣本挖掘方法有一些主流的工作,Ge[10]引入層次樹的思想,首先將訓(xùn)練集中的每個類作為葉子節(jié)點,并將相似度高的類合并為父節(jié)點,最終基于樹結(jié)構(gòu)在相似度高的類中隨機(jī)選擇樣本構(gòu)造Batch。Xu 等[11]構(gòu)建一種非對稱度量學(xué)習(xí)框架,通過設(shè)計兩路數(shù)據(jù)流交錯對齊結(jié)構(gòu),在相同采樣規(guī)模下建立了更豐富的數(shù)據(jù)關(guān)系,從而提升了模型的泛化能力。由于現(xiàn)有困難樣本挖掘方法的計算成本較高,Suh等[12]依據(jù)類到樣本之間的距離在訓(xùn)練集中挖掘一些難負(fù)類,并從所選的類中選擇樣本構(gòu)造Batch,以提高模型的訓(xùn)練效率。然而,現(xiàn)有困難樣本挖掘方法往往只關(guān)注數(shù)據(jù)集中部分損失較大的困難樣本對,而忽視數(shù)據(jù)集中損失較小的容易樣本對,導(dǎo)致模型無法準(zhǔn)確刻畫嵌入空間的全局結(jié)構(gòu)。
為解決上述問題,研究人員利用生成對抗網(wǎng)絡(luò)[13-14]、自編碼器[15-16]以及代數(shù)計算[17-18]生成困難樣本。為解決負(fù)樣本中困難樣本數(shù)量較少的問題,Duan 等[13]提出深度對抗度量學(xué)習(xí)(Deep Adversarial Metric Learning,DAML)框架,基于對抗訓(xùn)練方式利用容易負(fù)樣本生成困難負(fù)樣本,該方法有效地提升了算法性能。在基于三元組的深度度量學(xué)習(xí)方法中,現(xiàn)有困難樣本挖掘方法大多挖掘?qū)τ诋?dāng)前網(wǎng)絡(luò)困難樣本的三元組,而非在全局優(yōu)化網(wǎng)絡(luò)方面真正重要的三元組,為解決該問題,Zhao 等[14]提出用于困難三元組生成的對抗性網(wǎng)絡(luò)以提升模型性能。由于現(xiàn)有困難樣本挖掘方法僅利用訓(xùn)練集的子集,不足以全面地表征嵌入空間的全局幾何,Zheng 等[15]提出難度感知的深度度量學(xué)習(xí)框架(Hardness-aware Deep Metric Learning,HD?ML),該框架對嵌入進(jìn)行線性插值,自適應(yīng)地調(diào)節(jié)生成樣本的困難程度,并為再循環(huán)訓(xùn)練生成相應(yīng)標(biāo)簽,從而充分利用所有樣本的隱藏信息訓(xùn)練模型。
上述方法將被忽視的損失較小的容易樣本合成為困難樣本,從而得到容易樣本攜帶的隱藏信息,利用攜帶的隱藏信息訓(xùn)練模型。這些方法有效地提升了模型性能,但需要一個額外的子網(wǎng)絡(luò)生成困難樣本,使得模型尺寸變大、超參數(shù)變多,最終導(dǎo)致模型訓(xùn)練緩慢。因而引入了使用代數(shù)計算生成困難樣本的方法[17-18],Ko 等[18]受到Query Expansion 和Dataset Aug?mentation 的啟發(fā),提出了嵌入擴(kuò)張的方法,該方法通過樣本組合生成包含增強(qiáng)信息的樣本,并進(jìn)行困難樣本挖掘,以使用信息量最大的嵌入表示訓(xùn)練模型。在對稱生成樣本[17]方法中,以坐標(biāo)原點與其中每一個正樣本的連線為對稱軸,錨點與正樣本按照該對稱軸分別生成對稱樣本(如圖2 所示),該方法不需要額外的子網(wǎng)絡(luò),且沒有超參數(shù)。然而在生成樣本時,缺乏對數(shù)據(jù)整體分布的考慮,導(dǎo)致生成樣本隨機(jī)性較強(qiáng)、模型收斂緩慢。
為解決上述問題,本文提出一種基于樣本旋轉(zhuǎn)的困難樣本生成方法。結(jié)合該方法,給出了一種新的損失函數(shù),構(gòu)建了一種基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(DeepMetric Learning model for generating Hard samplesbased on Sample Rotation,RHS-DML)。本文的主要貢獻(xiàn)如下:
(1)通過將三元組中的正樣本以其所屬的類中心為軸旋轉(zhuǎn)至錨點與該類中心連線的反向延長線上,提出了一種新的困難樣本生成方法,結(jié)合類中心約束,保證了生成的困難樣本與同類樣本之間的一致性。
(2)提出了基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(RHS-DML),有效地提升了模型的訓(xùn)練效率。
(3)通過在Cars196、CUB200-2011 以及Stanford Online Products 三個數(shù)據(jù)集上進(jìn)行圖像檢索的實驗,證明了相較于對稱樣本方法,本文算法性能在三個數(shù)據(jù)集上分別高出2.4%,0.7%,1.4%。
本文其余部分的內(nèi)容如下,第1 節(jié)介紹了相關(guān)工作的背景,第2 節(jié)講述了基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型,第3 節(jié)給出了所提方法在圖像檢索任務(wù)的實驗結(jié)果,最后,在第4 節(jié)中描述了結(jié)論。
1 相關(guān)工作
1.1 深度度量學(xué)習(xí)
深度度量學(xué)習(xí)算法憑借高效的性能受到了人們的廣泛關(guān)注。Kaya 等[19]將深度度量學(xué)習(xí)模型劃分為三個部分,分別是采樣策略、損失函數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)。其中,損失函數(shù)與網(wǎng)絡(luò)結(jié)構(gòu)通常聯(lián)合使用,Chopra 等[20]提出對比損失的概念,對比損失首先通過孿生網(wǎng)絡(luò)將數(shù)據(jù)映射到嵌入空間,在該嵌入空間中,使用歐氏距離拉近同類樣本之間的距離,推遠(yuǎn)異類樣本之間的距離。由于對比損失沒有考慮同類樣本與異類樣本之間的相對關(guān)系,Schroff 等[3]提出三元組損失,該損失通過選擇一個錨點,使得包含該樣本的負(fù)樣本對之間的距離能夠比包含該樣本的正樣本對之間的距離大于一個間隔,但該方法僅考慮一個負(fù)類,未考慮其他負(fù)類。因而,Sohn[21]提出多類N元組損失,在多類N 元組損失中,選取N 個類,每類選擇兩個樣本,在其中一個類中的樣本作為錨點及其正樣本時,其他N-1 類的正樣本作為該類中錨點的負(fù)樣本,因此多類N 元組損失是將錨點與N-1 個負(fù)樣本進(jìn)行配對,從而實現(xiàn)同類樣本對的相似度高于所有異類樣本對的相似度。Song 等[22]提出提升結(jié)構(gòu)化損失,他們針對三元組損失未曾充分利用Batch 中所有樣本對的問題,提出提升結(jié)構(gòu)化損失的概念,該損失對于Batch 中每個正樣本對中的每個樣本,分別計算距離它們最近的負(fù)樣本,選擇其中距離最近的負(fù)樣本計算其損失。而Wen 等[4]提出中心損失的概念,這種損失通過將樣本特征、樣本到類中心的距離以及Softmax 損失一同作為損失函數(shù)。隨后,Mishchuk 等[23]提出了成對聚類損失的概念,該損失是所有正樣本到聚類中心的距離加上一個間隔之和小于異類樣本到此聚類中心的距離。同年,代理損失被提出[24],它解決了三元組損失采樣困難的問題,將原始樣本用代理點來近似,因而,約束同類樣本對和異類樣本對的距離就轉(zhuǎn)化為約束錨點與同類樣本對應(yīng)代理點和錨點與異類樣本對應(yīng)代理點的距離。
1.2 困難樣本挖掘
Ge[10]引入層次樹的思想,首先將訓(xùn)練集中的每個類作為葉子節(jié)點,并將相似度高的類合并為父節(jié)點,最終基于樹結(jié)構(gòu)在相似度高的類中隨機(jī)選擇樣本構(gòu)造Batch。由于現(xiàn)有深度度量學(xué)習(xí)對所有的數(shù)據(jù)學(xué)習(xí)單個度量,導(dǎo)致模型過擬合及泛化能力弱,Sanakoyeu 等[25]受到分治法的啟發(fā),將數(shù)據(jù)聚類,在每個類中學(xué)習(xí)一個度量構(gòu)造Batch?,F(xiàn)有的困難樣本挖掘方法需要復(fù)雜的計算成本,導(dǎo)致現(xiàn)有深度度量學(xué)習(xí)方法需要在訓(xùn)練速度與預(yù)測精度之間進(jìn)行權(quán)衡,Suh 等[12]依據(jù)類到樣本之間的距離從訓(xùn)練集中選擇一些難負(fù)類,而后在所選的類中搜索樣本構(gòu)造Batch。Gaji?等[26]對譜哈希方法進(jìn)行改進(jìn),使用改進(jìn)之后的譜哈希方法對數(shù)據(jù)劃分,之后提出負(fù)樣本集(Bagof Negatives,BON)策略構(gòu)造Batch。Xu 等[11]構(gòu)建一種非對稱度量學(xué)習(xí)框架,通過設(shè)計兩路數(shù)據(jù)流交錯對齊結(jié)構(gòu),在同等采樣規(guī)模下建立了更豐富的數(shù)據(jù)關(guān)系,從而提升了模型的泛化能力。Wang 等[27]認(rèn)為無論采樣方案有多復(fù)雜,困難樣本挖掘方法在本質(zhì)上都受到Batch 大小的限制。因此提出跨批處理內(nèi)存(Cross Batch Memory,XBM)結(jié)構(gòu),跨Batch 構(gòu)建樣本對。
1.3 困難樣本生成
然而,現(xiàn)有困難樣本挖掘方法通常只關(guān)注數(shù)據(jù)集中部分損失較大的困難樣本對,而忽視數(shù)據(jù)集中損失較小的容易樣本對,導(dǎo)致模型無法準(zhǔn)確刻畫嵌入空間的全局結(jié)構(gòu)。因而引入了困難樣本生成方法,現(xiàn)有的困難樣本生成方法分為三類,使用生成對抗網(wǎng)絡(luò)生成困難樣本,使用自編碼器生成困難樣本以及使用代數(shù)計算生成困難樣本。
為解決負(fù)樣本中困難樣本數(shù)量較少的問題,Duan 等[13]提出深度對抗度量學(xué)習(xí)(DAML)框架,利用對抗訓(xùn)練的方式將容易的負(fù)樣本生成為困難負(fù)樣本,該方法有效提升了算法性能。在基于三元組的深度度量學(xué)習(xí)方法中,現(xiàn)有困難樣本挖掘方法大多挖掘?qū)τ诋?dāng)前網(wǎng)絡(luò)困難的三元組,而不是在全局優(yōu)化網(wǎng)絡(luò)方面真正重要的三元組的問題。針對該問題,Zhao 等[14]提出用于困難三元組生成的對抗性網(wǎng)絡(luò)以提升算法性能。Wang 等[28]認(rèn)為改進(jìn)度量形式的方法無法在測試集上生成可靠的度量,提出一個自適應(yīng)間隔深度對抗性度量學(xué)習(xí)框架(AM?DAML),利用大量常見的容易負(fù)樣本生成潛在的困難負(fù)樣本,并應(yīng)用它們來促進(jìn)穩(wěn)健的度量學(xué)習(xí),為防止模型在訓(xùn)練過程中出現(xiàn)過擬合或欠擬合的問題,提出一種自適應(yīng)間隔損失,在負(fù)樣本(包括對抗性負(fù)樣本和原始負(fù)樣本)和正樣本之間保留了一個靈活的間隔。Zhu 等[29]提出一種穩(wěn)健樣本生成方法來構(gòu)造信息三元組。所提出的困難樣本生成方法是一個兩階段合成框架,通過有效的正、負(fù)樣本生成器分別在兩個階段產(chǎn)生困難樣本。第一階段用分片線性操作拉近錨點與正樣本對,并通過巧妙設(shè)計條件生成對抗網(wǎng)絡(luò)提高生成困難樣本的質(zhì)量,以降低模型塌縮的風(fēng)險。第二階段利用一個自適應(yīng)反向度量約束來生成最終的困難樣本。
Lin 等[16]為解決由于不區(qū)分類內(nèi)差異而使得模型過擬合的問題,提出深度變分度量學(xué)習(xí)(Deep Variational Metric Learning,DVML)框架,明確對類內(nèi)方差進(jìn)行建模,并拆分出類內(nèi)不變性,通過學(xué)習(xí)到的類內(nèi)方差分布,同時生成困難樣本,以提高模型的魯棒性。由于現(xiàn)有困難樣本挖掘方法僅利用訓(xùn)練集子集,不足以全面地表征嵌入空間的全局幾何,Zheng 等[15]提出難度感知的深度度量學(xué)習(xí)框架(HDML),該框架對嵌入進(jìn)行線性差值,自適應(yīng)調(diào)節(jié)生成樣本的困難程度,并為再循環(huán)訓(xùn)練生成相應(yīng)的標(biāo)簽,從而充分利用所有樣本的隱藏信息訓(xùn)練模型。
Ko 等[18]為解決使用生成對抗網(wǎng)絡(luò)或自編碼器導(dǎo)致模型尺寸變大、超參數(shù)變多、訓(xùn)練速度變慢等問題,提出嵌入擴(kuò)張的方法,該方法通過樣本組合生成包含增強(qiáng)信息的合成樣本,并進(jìn)行困難樣本挖掘,以使用信息量最大的嵌入表示訓(xùn)練模型。實驗證明,該方法效果明顯好于使用其他困難樣本生成方法。同年,Gu等[17]提出對稱生成困難樣本的方法來解決上述生成對抗網(wǎng)絡(luò)或自編碼器所存在的問題,該方法將樣本對中每個樣本與坐標(biāo)軸之間的連線作為對稱軸對稱生成樣本,之后進(jìn)行困難樣本挖掘,其實驗結(jié)果可以看出,對稱生成困難樣本方法的性能較優(yōu)。然而,在生成樣本時缺乏對數(shù)據(jù)整體分布的考慮,導(dǎo)致生成的樣本隨機(jī)性較強(qiáng)、模型收斂緩慢。
2 基本原理
本節(jié)首先介紹了符號定義以及本文使用的深度度量學(xué)習(xí)損失函數(shù),之后提出了一種新的困難樣本生成方法,即基于樣本旋轉(zhuǎn)的困難樣本生成方法。其次,在提出了基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(RHSDML)后,講述了模型訓(xùn)練過程。
假設(shè)I 是數(shù)據(jù)空間,X 是d 維嵌入空間。定義一個映射f:I → X,該映射為從數(shù)據(jù)空間I 到嵌入空間X 的映射,其參數(shù)由深度神經(jīng)網(wǎng)絡(luò)決定。對數(shù)據(jù)集I 映射到d 維嵌入空間X 的特征樣本X = { x1,x2,…,xn },n 為樣本個數(shù)。假設(shè)樣本xi 的類標(biāo)簽記為li,l i ∈ { 1,2,…,m },其中m為類的個數(shù)。類中心的集合為C ={ c1,c2,…,cm }。
本文所使用的損失函數(shù)為多類N 元組損失(Multi-class N-pair),具體描述如下:
其中P 表示正樣本對集合,| ? | 表示集合內(nèi)包含的樣本對的數(shù)量,Sxi,xj = f Txi fxj 表示樣本xi 與xj在嵌入空間中的相似度。
2.1 基于樣本旋轉(zhuǎn)的困難樣本生成方法
對于任意給定樣本xi,將其設(shè)置為錨點。選擇與xi 來自同一類的樣本xj 作為正樣本構(gòu)建正樣本對( xi,xj )。樣本xi 與xj 的類標(biāo)簽相同,即li = lj,記樣本xi 所屬類的類中心為ci,則樣本xj 所屬類的類中心也為ci。為充分考慮樣本所在類的整體分布情況,以樣本所屬類的類中心為約束,將正樣本xj 以類中心ci 為軸進(jìn)行旋轉(zhuǎn);此外,為生成在類中心約束下最困難的正樣本,將正樣本xj 旋轉(zhuǎn)至錨點xi 與類中心ci 連線反向延長線上,生成困難樣本xj '。此時初始正樣本xj 與生成樣本xj ' 到類中心ci 的距離相等,同時,樣本xj ' 到錨點xi 的距離最遠(yuǎn),以此保證該樣本為最困難的樣本。如圖3 所示,橢圓形表示類的整體分布,不同形狀表示為不同類的樣本,下圖中三角形與正方形即為兩個類的樣本,圖中紅色形狀為生成的困難樣本,在橢圓中心的橙色三角形表示樣本xi 的類中心ci,紅色三角形表示生成的困難樣本xj '。
利用向量的相關(guān)知識,通過下列方法可得到生成的困難正樣本:
樣本在通過神經(jīng)網(wǎng)絡(luò)得到嵌入向量后,可知錨點xi,原始正樣本xj 以及該類的類中心ci。假設(shè)錨點xi 到生成的困難正樣本xj ' 之間的向量為rxi,xj ',其單位向量為uxi,xj ',錨點xi 到該類的類中心ci 之間的向量為rxi,ci,類中心ci 到原始正樣本xj 之間的向量為rci,xj,類中心ci 到生成的困難正樣本xj '之間的向量為rci,xj '。
通過上述公式的計算,即可得到生成的困難正樣本xj '。
2.2 基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(RHS-DML)
為了更好地利用生成的困難正樣本,在生成困難正樣本之后,進(jìn)行困難樣本挖掘,選擇損失值大的樣本對參與訓(xùn)練。本文的損失函數(shù)在原始的多類N 元組損失(Multi-class N-pair)上進(jìn)行了改進(jìn),提出了新的損失函數(shù)如下:
其中P 表示正樣本對集合,N? li ≠ lk 表示不同類的負(fù)樣本對集合,xp 與xn 分別表示為在生成正樣本之后,兩個類中的錨點與正樣本進(jìn)行兩兩組合,形成負(fù)樣本對,在進(jìn)行困難樣本挖掘之后找到的最難的負(fù)樣本對,| ? | 表示集合內(nèi)含有的樣本對的數(shù)量,Sxp,xn = f Txp fxn 表示樣本xp 與xn在嵌入空間中的相似度。
本文提出的基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型圖如下所示:
本文首先將訓(xùn)練集及類中心通過神經(jīng)網(wǎng)絡(luò),得到樣本集X 和類中心集C。之后隨機(jī)選擇N對正樣本對(圖4 中,不同形狀表示不同類),并基于類中心旋轉(zhuǎn)生成困難樣本的方法生成困難正樣本(如圖4 中,所有紅色形狀均為生成的樣本),而后進(jìn)行困難樣本挖掘,選擇損失值大的樣本對,使用提出的損失函數(shù)計算損失。
3 實驗分析
本節(jié)首先介紹實驗所用的數(shù)據(jù)集和實驗設(shè)置,并將提出的方法與目前代表性的方法進(jìn)行對比分析,然后進(jìn)行了消融實驗分析和收斂速度的分析。
3.1 實驗數(shù)據(jù)集
本文采用的數(shù)據(jù)集為深度度量學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)集,分別為Cars196[30],CUB200-2011[31]以及Stanford Online Products[22]數(shù)據(jù)集。
Cars196 數(shù)據(jù)集共有16 185 張圖片,分為196個類,實驗時使用前98 個類的8 054 張圖片用于訓(xùn)練,使用剩下98 個類的8 131 張圖片用于測試。
CUB200-2011 數(shù)據(jù)集共有11 788 張圖片,分為200 個類,實驗時使用前100 個類的5 864 張圖片用于訓(xùn)練,使用剩下100 個類的5 924 張圖片用于測試。
Stanford Online Products 數(shù)據(jù)集共有120 053張圖片,分為22 634 個類,實驗時使用前11 318個類的59 551 張圖片用于訓(xùn)練,使用剩下11 316 個類的60 502 張圖片用于測試。
3.2 實驗設(shè)置
在實驗中,利用Python 編程語言和Tensor?Flow 深度學(xué)習(xí)框架實現(xiàn),在Nvidia GeforceRTX 3090 24 G 服務(wù)器上運(yùn)行。
使用ImageNet 預(yù)訓(xùn)練的GoogLeNet 和Xavi?er 方法來隨機(jī)初始化一個全連接層。此外,模型采用Adam 優(yōu)化器進(jìn)行優(yōu)化,其學(xué)習(xí)率設(shè)置為0.000 1。所有圖像均歸一化為256×256,水平翻轉(zhuǎn)并隨機(jī)裁剪為227×227,所有特征向量的嵌入大小設(shè)置為512 維。
3.3 實驗結(jié)果
實驗所采用的任務(wù)是深度度量學(xué)習(xí)中經(jīng)典任務(wù)之一,圖像檢索任務(wù)。所采用的評價指標(biāo)為召回率,即R@K。在Cars196 和CUB200-2011數(shù)據(jù)集上,所設(shè)置的K 分別為1、2、4、8,而在Stanford Online Products 數(shù)據(jù)集上,所設(shè)置的K分別為1、10、100。
本文將提出的基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)方法(RHS-DML)與代表性的方法進(jìn)行了比較,分別是Sohn[21]提出的多類N 元組損失(Multi-class N-pair),Duan 等[13]提出的DAML,Gu 等[17]提出的Symmetrical Syn?thesis(Symm+N-pair),Ko 等[18]提出的Embed?ding Expansion(EE+N-pair),Song 等[32]提出的Facility Location(FacilityLoc)以及Chen 等[33]提出的深度連通圖度量學(xué)習(xí)(Deep ConsistentGraph Metric Learning,CGML)。其中DAML 屬于深度度量學(xué)習(xí)使用生成對抗網(wǎng)絡(luò)生成困難樣本,Symm+N-pair 和EE+N-pair 屬于深度度量學(xué)習(xí)使用代數(shù)計算生成困難樣本的方法。表1—表3 分別是在Cars196,CUB200-2011 以及Stan?ford Online Products 三個深度度量學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)集上所提出的模型(RHS-DML)與對比的方法進(jìn)行比較的結(jié)果(表中將召回率最高的數(shù)據(jù)加粗表示)。由表1— 表3 可知,在三個數(shù)據(jù)集上提出的模型(RHS-DML)都具有較為明顯的優(yōu)勢。
3.4 消融實驗
表4 為在Cars196 數(shù)據(jù)集上進(jìn)行的消融實驗結(jié)果,提出的方法使用的損失函數(shù)為多類N 元組損失(Multi-class N-pair),在得到類中心后,錨點按照類中心將原始正樣本旋轉(zhuǎn)到錨點的反向延長線上,因此在進(jìn)行消融實驗時,所采用的對比方法是多類N 元組損失(Multi-class N-pair)以及按照坐標(biāo)原點,錨點將原始正樣本旋轉(zhuǎn)到錨點反向延長線上的方法,即RHS-DML-O。
由表4 可知,按照坐標(biāo)原點旋轉(zhuǎn)的方法(Deep Metric Learning model for generating HardSamples based on Origin Rotation ,RHS-DML-O)相較于未旋轉(zhuǎn)的Multi-class N-pair 方法效果更好,說明樣本旋轉(zhuǎn)在困難樣本生成方法中起到了積極作用,而提出的基于樣本旋轉(zhuǎn)的困難樣本生成方法(RHS-DML)比按照坐標(biāo)原點旋轉(zhuǎn)的方法(RHS-DML-O)效果好,說明按照類中心旋轉(zhuǎn)對于模型訓(xùn)練起到了積極作用。
圖5 展示了提出的方法與對稱生成方法在Cars196 數(shù)據(jù)集上的損失,從圖中可以看出提出的方法在1 200 步左右就已經(jīng)變得很平緩,而對稱生成方法在3 400 步開始才開始收斂,實驗結(jié)果說明,提出的方法具有更快的收斂速度。
4 結(jié)論
本文通過借鑒代數(shù)計算的思想,提出了基于樣本旋轉(zhuǎn)的困難樣本生成方法,設(shè)計了一種新的損失函數(shù),構(gòu)建了基于樣本旋轉(zhuǎn)的生成困難樣本的深度度量學(xué)習(xí)模型(RHS-DML),通過在三個數(shù)據(jù)集上進(jìn)行圖像檢索任務(wù)的實驗,驗證了提出的方法性能優(yōu)于代表性的深度度量學(xué)習(xí)的方法,緩解了基于代數(shù)計算的困難樣本生成的模型收斂速度慢的問題。
參考文獻(xiàn):
[1] XING E P, NG A Y, JORDAN M I, et al. Distance MetricLearning, with Application to Clustering with Sideinformation[C]//Proceedings of the 15th InternationalConference on Neural Information Processing Systems.New York: ACM, 2002: 521-528. DOI: 10.5555/2968618.2968683.
[2] GORDO A, ALMAZáN J, REVAUD J, et al. Deep ImageRetrieval: Learning Global Representations for ImageSearch[M]//Computer Vision-ECCV 2016. Cham:Springer International Publishing, 2016: 241-257. DOI:10.1007/978-3-319-46466-4_15.
[3] SCHROFF F, KALENICHENKO D, PHILBIN J.FaceNet: a Unified Embedding for Face Recognition andClustering[C]//2015 IEEE Conference on Computer Visionand Pattern Recognition (CVPR). New York: IEEE,2015: 815-823. DOI: 10.1109/cvpr.2015.7298682.
[4] WEN Y D, ZHANG K P, LI Z F, et al. A DiscriminativeFeature Learning Approach for Deep Face Recognition[M]//Computer Vision-ECCV 2016. Cham: Springer InternationalPublishing, 2016: 499-515. DOI: 10.1007/978-3-319-46478-7_31.
[5] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learnedPart-aligned Representations for Person re-identification[C]//2017 IEEE International Conference on ComputerVision (ICCV). New York: IEEE, 2017: 3219-3228.DOI: 10.1109/iccv.2017.349.
[6] ZHAO H Y, TIAN M Q, SUN S Y, et al. Spindle Net:Person re-identification with Human Body RegionGuided Feature Decomposition and Fusion[C]//2017IEEE Conference on Computer Vision and Pattern Recognition(CVPR). New York: IEEE, 2017: 1077-1085.DOI: 10.1109/CVPR.2017.103.
[7] 葉鈺, 王正, 梁超, 等. 多源數(shù)據(jù)行人重識別研究綜述[J].自動化學(xué)報, 2020, 46(9): 1869-1884. DOI: 10.16383/j.aas.c190278.
YE Y, WANG Z, LIANG C, et al. A Survey on MultisourcePerson re-identification[J]. Acta Autom Sin, 2020,46(9): 1869-1884. DOI: 10.16383/j.aas.c190278.
[8] HU J L, LU J W, TAN Y P. Discriminative Deep MetricLearning for Face Verification in the Wild[C]//2014IEEE Conference on Computer Vision and Pattern Recognition.New York: IEEE, 2014: 1875-1882. DOI:10.1109/CVPR.2014.242.
[9] 劉冰, 李瑞麟, 封舉富. 深度度量學(xué)習(xí)綜述[J]. 智能系統(tǒng)學(xué)報, 2019, 14(6): 1064-1072. DOI: 10.11992/tis.201906045.
LIU B, LI R L, FENG J F. A Brief Introduction to DeepMetric Learning[J]. CAAI Trans Intell Syst, 2019, 14(6):1064-1072. DOI: 10.11992/tis.201906045.
[10] GE W F. Deep Metric Learning With Hierarchical TripletLoss[C]//Proceedings of the European Conferenceon Computer Vision. Cham: Springer, 2018: 269-285.DOI: 10.1007/978-3-030-01231-1_17.
[11] XU X Y, YANG Y H, DENG C, et al. Deep AsymmetricMetric Learning via Rich Relationship Mining[C]//2019IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). New York: IEEE, 2019: 4076-4085. DOI: 10.1109/CVPR.2019.00420.
[12] SUH Y, HAN B, KIM W, et al. Stochastic Class-basedHard Example Mining for Deep Metric Learning[C]//2019 IEEE/CVF Conference on Computer Vision andPattern Recognition (CVPR). New York: IEEE, 2019:7251-7259. DOI: 10.1109/CVPR.2019.00742.
[13] DUAN Y Q, ZHENG W Z, LIN X D, et al. Deep AdversarialMetric Learning[C]//2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition. New York:IEEE, 2018: 2780-2789. DOI: 10.1109/CVPR.2018.00294.
[14] ZHAO YIRU, JIN ZHONGMING, QI GUOJUN, et al.An Adversarial Approach to Hard Triplet Generation[C]//Proceedings of the European Conference on ComputerVision. Cham: Springer, 2018: 508-524. DOI:10.1007/978-3-030-01240-3_31.
[15] ZHENG W Z, LU J W, ZHOU J. Hardness-aware DeepMetric Learning[C]//IEEE Transactions on PatternAnalysis and Machine Intelligence. New York: IEEE,2020: 72-81. DOI: 10.1109/TPAMI.2020.2980231.
[16] LIN XUDONG, DUAN YUEQI, DONG QIYUAN, et al.Deep Variational Metric Learning[C]//Proceedings of theEuropean Conference on Computer Vision. Cham: Springer,2018: 714-729. DOI: 10.1007/978-3-030-01267-0_42.
[17] GU G, KO B. Symmetrical Synthesis for Deep MetricLearning[J]. Proc AAAI Conf Artif Intell, 2020, 34(7):10853-10860. DOI: 10.1609/aaai.v34i07.6716.
[18] KO B, GU G. Embedding Expansion: Augmentation inEmbedding Space for Deep Metric Learning[C]//2020IEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR). New York: IEEE, 2020: 7253-7262. DOI: 10.1109/CVPR42600.2020.00728.
[19] KAYA M, BILGE H ?. Deep Metric Learning: a Survey[J].Symmetry, 2019, 11(9): 1066. DOI: 10.3390/sym11091066.
[20] CHOPRA S, HADSELL R, LECUN Y. Learning a SimilarityMetric Discriminatively, with Application to FaceVerification[C]//2005 IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition(CVPR'05). New York: IEEE, 2005: 539-546. DOI:10.1109/CVPR.2005.202.
[21] SOHN K. Improved Deep Metric Learning with MulticlassN-pair Loss Objective[C]//Proceedings of the 30thInternational Conference on Neural Information ProcessingSystems. New York: ACM, 2016: 1857-1865.DOI: 10.5555/3157096.3157304.
[22] SONG H O, XIANG Y, JEGELKA S, et al. Deep MetricLearning via Lifted Structured Feature Embedding[C]//2016 IEEE Conference on Computer Vision andPattern Recognition (CVPR). New York: IEEE, 2016:4004-4012. DOI: 10.1109/CVPR.2016.434.
[23] MISHCHUK A, MISHKIN D, RADENOVI? F, et al.Working Hard to Know Your Neighbor's Margins: LocalDescriptor Learning Loss[C]//Proceedings of the 31stInternational Conference on Neural InformationProcessing Systems. California, USA: Curran AssociatesInc, 2017: 4829-4840.
[24] MOVSHOVITZ-ATTIAS Y, TOSHEV A, LEUNG T K,et al. No Fuss Distance Metric Learning Using Proxies[C]//2017 IEEE International Conference on ComputerVision (ICCV). New York: IEEE, 2017: 360-368. DOI:10.1109/ICCV.2017.47.
[25] SANAKOYEU A, TSCHERNEZKI V, BüCHLER U, etal. Divide and Conquer the Embedding Space for MetricLearning[C]//2019 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). New York: IEEE,2019: 471-480. DOI: 10.1109/CVPR.2019.00056.
[26] GAJI? B, AMATO A, GATTA C. Fast Hard NegativeMining for Deep Metric Learning[J]. Pattern Recognit,2021, 112: 107795. DOI: 10.1016/j.patcog.2020.107795.
[27] WANG X, ZHANG H Z, HUANG W L, et al. CrossbatchMemory for Embedding Learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). New York: IEEE, 2020: 6387-6396.DOI: 10.1109/CVPR42600.2020.00642.
[28] WANG Z Y, WANG Y G, DONG B, et al. Adaptive MarginBased Deep Adversarial Metric Learning[C]//2020 IEEE6th Intl Conference on Big Data Security on Cloud (Big‐DataSecurity), IEEE Intl Conference on High Performanceand Smart Computing, (HPSC) and IEEE Intl Conferenceon Intelligent Data and Security (IDS). New York: IEEE,2020: 100-108. DOI: 10.1109/BigDataSecurity-HPSCIDS49724.2020.00028.
[29] ZHU C, HU Z, DONG H H, et al. Construct InformativeTriplet with Two-stage Hard-sample Generation[J].Neurocomputing, 2022, 498(C): 59-74. DOI: 10.1016/j.neucom.2022.05.032.
[30] KRAUSE J, STARK M, JIA D, et al. 3D Object Representationsfor Fine-grained Categorization[C]//2013IEEE International Conference on Computer VisionWorkshops. New York: IEEE, 2014: 554-561. DOI:10.1109/ICCVW.2013.77.
[31] WAH CATHERINE, BRANSON STEVE, WELINDERPETER, et al. The Caltech-UCSD Birds-200-2011 Dataset[R]. CNS-TR-2010-001, Pasadena: California Institute ofTechnology, 2010.
[32] SONG H O, JEGELKA S, RATHOD V, et al. Deep MetricLearning via Facility Location[C]//2017 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR).New York: IEEE, 2017: 2206-2214. DOI: 10.1109/CVPR.2017.237.
[33] CHEN B H, LI P Y, YAN Z Y, et al. Deep Metric Learningwith Graph Consistency[J]. Proc AAAI Conf Artif Intell,2021, 35(2): 982-990. DOI: 10.1609/aaai.v35i2.16182.
基金項目:國家自然科學(xué)基金(61976184)