国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于度量學習的跨模態(tài)人臉檢索算法

2022-07-08 01:50:00沃焱梁籍云韓國強
關鍵詞:三元組人臉檢索

沃焱 梁籍云 韓國強

(華南理工大學 計算機科學與工程學院,廣東 廣州 510006)

跨模態(tài)人臉檢索是一種根據(jù)人臉圖像或視頻查詢不同模態(tài)的相關人臉數(shù)據(jù)的檢索方式。在日常生活中,跨模態(tài)人臉檢索可以根據(jù)人臉圖像定位到相關的影視作品,并且推薦更多的相關信息;也可以根據(jù)嫌疑人圖像檢索相關的監(jiān)控視頻獲得嫌疑人的運動軌跡,或者根據(jù)監(jiān)控視頻在人臉圖像數(shù)據(jù)庫中對嫌疑人進行有效識別。

跨模態(tài)人臉檢索任務的難點在于人臉圖像和人臉視頻之間的模態(tài)差異較為復雜,不僅包含時空域差異,還包含視角差異和域差異,難以計算不同模態(tài)特征之間的相似性。如圖像和視頻中的人臉可能存在較大的視角差異,會涉及遮擋、非線性扭曲以及位置變化等復雜情況[1],使得特征空間中的不同模態(tài)的特征分布差異大,進而影響跨模態(tài)檢索的正確性;同一人臉類別具有多種不同的表現(xiàn)方式,即證件照、藝術照、生活照甚至是肖像或漫畫等,不同的表現(xiàn)方式對應的圖像顏色、紋理和風格差異較大,本文將每種表現(xiàn)方式對應的人臉圖像看作一個域,人臉圖像和人臉視頻可能來源于完全不同的域,因此存在較大的域差異,很難準確地度量特征之間的相似性。

度量學習的基本思想是根據(jù)任務學習一種距離度量以度量樣本之間的相似性。相比于直接使用歐氏距離度量樣本相似性,度量學習可以結合數(shù)據(jù)自身特點,學習更有效的度量方式用于求解目標問題?;诙攘繉W習的跨模態(tài)檢索方法是跨模態(tài)檢索的一種主要技術手段,一般使用深度神經(jīng)網(wǎng)絡將不同模態(tài)的特征映射到一個共同空間中,通過最大化同類特征的相似性關系和最小化異類特征的相似性關系來學習映射網(wǎng)絡的參數(shù)。Qiao等[2]提出了一種端到端的深度異構哈希方法,使用協(xié)方差矩陣表示視頻特征,將圖像特征提取、視頻特征提取和異構哈希方法結合在一個框架中,采用三元組損失學習圖像特征和視頻特征的公共表達。Zhen等[3]提出了一種深度監(jiān)督跨模態(tài)檢索算法,將兩種特征映射到共同空間中,使用類似極大似然函數(shù)的損失保持模態(tài)內(nèi)和模態(tài)間的可分性,并且通過最小化圖像特征矩陣和文本特征矩陣的距離生成模態(tài)不變表示,學習了具有模態(tài)魯棒性和類別可分性的共同表達。Wang等[4]提出了一種圖像與視頻混合的哈希方法用于人臉視頻檢索,采用三元組損失保持視頻模態(tài)內(nèi)的關系,并且通過對齊圖像中心和視頻特征來提升視頻單模態(tài)檢索和跨模態(tài)檢索的準確性。上述基于度量學習的跨模態(tài)檢索方法可以有效地減少模態(tài)差異,但其應用于跨模態(tài)人臉檢索任務主要存在兩個問題:首先,忽略了樣本對中包含的信息量不同,構建了大量冗余三元組,有些文獻使用困難三元組篩選[5]或半困難三元組篩選[6]的方法來提升訓練效率,然而這類方法只能利用當前批次的樣本對信息,因此只能進行局部的優(yōu)化;其次,對于人臉圖像和人臉視頻,模態(tài)間差異不僅包含時域與空域的差異,也包含兩者的視角差異和域差異,已有方法在構建共同空間的過程中缺乏對視角差異和域差異的關注。

為了能生成在模態(tài)內(nèi)和模態(tài)間都具有魯棒性、可辨別性的圖像和視頻共同表達,本文提出了一種兩階段的跨模態(tài)共同表達生成算法:在第一個階段,使用偏航角等變模塊提取魯棒的圖像特征,同時使用多層注意力機制提取可分的視頻特征;在第二個階段,使用交叉熵損失保持模態(tài)內(nèi)相似性關系,結合半困難全局三元組和半困難局部三元組損失保持模態(tài)間相似性關系;然后,提出了一種域適應算法,該算法使用域校準和遷移學習微調(diào)圖像共同表達生成網(wǎng)絡的參數(shù),以提升跨模態(tài)人臉檢索的準確性。最后,在PB、YTC和UMD人臉視頻數(shù)據(jù)集上驗證本文算法的有效性。

1 跨模態(tài)人臉檢索算法

為實現(xiàn)快速準確的跨模態(tài)人臉檢索,本文提出了一種基于度量學習的跨模態(tài)人臉檢索算法,該算法包括跨模態(tài)共同表達生成算法和域適應算法。首先,如圖1所示,跨模態(tài)共同表達生成算法通過特征提取網(wǎng)絡和共同表達映射網(wǎng)絡組成的跨模態(tài)共同表達生成網(wǎng)絡提取不同模態(tài)樣本的共同表達,該網(wǎng)絡的優(yōu)化分為特征提取和共同表達映射兩個階段;其次,本文使用域適應算法對跨模態(tài)共同表達生成網(wǎng)絡進行微調(diào)。

圖1 跨模態(tài)共同表達生成算法框架Fig.1 Framework of cross-modal common representation generation algorithm

1.1 跨模態(tài)共同表達生成算法

1.1.1 特征提取

在特征提取階段需要將圖像樣本和視頻樣本分別從樣本空間XI和XV映射到特征空間YI和YV中,特征提取的目標是使不同模態(tài)的特征在各自的特征空間內(nèi)具有類內(nèi)魯棒性和類間可分性。

圖像特征提取的主要目標是在提取魯棒可分的圖像特征的基礎上保證特征空間YI對視角變化的魯棒性。視角變化主要包含偏航角、滾轉角和俯仰角的變化,其中對特征魯棒性影響最大的是偏航角變化。文獻[7]構造了偏航角等變殘差映射,用于減小不同偏航角人臉圖像的特征差異,將其用于不同的網(wǎng)絡結構中都取得了較好的結果;本文采用類似的方式根據(jù)不同偏航角對特征進行補償,以保證圖像特征對偏航角的魯棒性。

(1)

(2)

(3)

(4)

(5)

(6)

(7)

綜上所述,特征提取階段總的損失函數(shù)為

(8)

1.1.2 共同表達映射

(9)

模態(tài)間相似性保持的目標是使不同模態(tài)的特征在共同空間中保持同類特征相似、異類特征不相似的關系。學習模態(tài)間相似性關系的難點在于,常用的度量學習損失[1,3-4]無法關注全局的相似性關系,并且構建了大量冗余三元組。為了解決上述問題,在保持模態(tài)間的相似性關系時,本文通過半困難三元組篩選[6]來減少冗余三元組數(shù)量,同時構建全局三元組和局部三元組以保持模態(tài)間特征關系,提升損失函數(shù)的收斂速度以及共同表達在共同空間中位置的準確性。

半困難三元組篩選[6]選擇所有的正樣本對以及在大于正樣本對距離dth范圍內(nèi)的負樣本對:

d(ri,rj)

(10)

式中,dth為正樣本對和負樣本對的相對距離閾值參數(shù),d(ri,rj)為樣本ri和rj的特征距離。采用半困難三元組訓練網(wǎng)絡可使網(wǎng)絡更容易學習到樣本對中的信息,同時避免網(wǎng)絡陷入模式崩潰和局部最小。

(11)

綜上所述,共同表達映射階段總的損失函數(shù)為

Lm=LC1+LC2+α(Ll+Lg)

(12)

其中,α為模態(tài)內(nèi)模態(tài)間損失函數(shù)的比例因子。

1.2 域適應算法

(13)

(14)

(15)

在域適應算法中,整體優(yōu)化的損失函數(shù)為

(16)

2 實驗結果與分析

2.1 數(shù)據(jù)集與訓練過程

為驗證本文算法的有效性,選擇了Prison Break(PB)數(shù)據(jù)集[12]、YouTube Celebrities(YTC)數(shù)據(jù)集[13]和UMD人臉數(shù)據(jù)集[14]3個人臉視頻數(shù)據(jù)集進行試驗。本文的檢索流程與文獻[2]相同,YTC和UMD 人臉數(shù)據(jù)集的規(guī)模較大,本文采用70%的數(shù)據(jù)用于訓練,30%的數(shù)據(jù)用于測試,在檢索時使用測試集作為查詢集,使用訓練集作為檢索集;PB數(shù)據(jù)集采樣自劇集,規(guī)模較小,本文僅采用前3集的數(shù)據(jù)用于訓練,其余19集的數(shù)據(jù)用于測試,在檢索時使用訓練集作為查詢集,使用測試集作為檢索集。

跨模態(tài)共同表達生成網(wǎng)絡包括特征提取網(wǎng)絡和共同表達映射網(wǎng)絡,其中特征提取網(wǎng)絡包括CNN、偏航角殘差映射網(wǎng)絡和視頻注意力機制網(wǎng)絡。該網(wǎng)絡的訓練過程描述如下:在特征提取階段,使用式(8)作為損失函數(shù)訓練特征提取網(wǎng)絡,采用自適應矩估計(Adam)優(yōu)化器訓練1個迭代周期;在共同表達映射階段,使用式(12)作為損失函數(shù)訓練共同表達映射網(wǎng)絡,微調(diào)前一階段預訓練的特征提取網(wǎng)絡。由于本文使用了三元組損失函數(shù)保持模態(tài)間相似性關系,訓練前期的損失函數(shù)曲面較為陡峭,直接使用隨機梯度下降(SGD)優(yōu)化會導致梯度爆炸問題,因此本文結合Adam和SGD優(yōu)化用于共同表達映射算法中的梯度更新,在訓練前期使用Adam優(yōu)化器訓練10個迭代周期,在后期切換為SGD優(yōu)化器訓練10個迭代周期,在保證損失函數(shù)快速收斂的同時保證了算法的泛化能力[15]。

實驗中使用的主要參數(shù)設置如下:三元組損失中正樣本和負樣本對的相對距離dth=1,式(12)和式(16)中的模態(tài)內(nèi)模態(tài)間損失函數(shù)比例因子α=1,Adam優(yōu)化器中β1和β2分別設置為0.9和0.99,SGD中的Momentum參數(shù)設為0.9,SGD優(yōu)化器的L2正則化系數(shù)設置為0.002 5,特征提取網(wǎng)絡和共同表達映射網(wǎng)絡的Dropout正則化的概率分別為0.4和0.7。

本文采用平均精度(mAP)和P-R曲線(P為查準率,R為查全率)兩種評價指標來評估跨模態(tài)人臉檢索的性能,其中mAP代表算法的P-R曲線下方的面積。

2.2 對比實驗

本文實驗選擇6種跨模態(tài)檢索算法(HER[16]、CMDN[17]、ACMR[18]、DSCMR[3]、DHH[2]、HVIH[4])作為對比,其中HER、DHH、HVIH是解決人臉圖像和視頻跨模態(tài)檢索問題的算法,可以直接生成二值哈希;其余算法是解決圖像和文本跨模態(tài)檢索問題的算法,提取的特征為實值表達,為公平比較,本文使用平均池化將圖像幀特征融合為視頻特征,并采用主成分分析(PCA)算法[19]和迭代量化(ITQ)算法[20]對特征進行降維與量化,生成48位的二值哈希用于檢索。

表1展示了在PB、YTC和UMD數(shù)據(jù)集中使用圖像檢索視頻和使用視頻檢索圖像的mAP指標值,由表中可以看出,本文算法在不同數(shù)據(jù)集的跨模態(tài)檢索任務中都取得了較好的結果。

表1 PB、YTC和UMD數(shù)據(jù)集中跨模態(tài)檢索的mAPTable1 mAP of cross-modal retrieval in PB,YTC and UMD datasets

圖2展示了在PB數(shù)據(jù)集中圖像檢索圖像、視頻檢索視頻、圖像檢索視頻和視頻檢索圖像任務的P-R曲線。盡管PB數(shù)據(jù)集中的人臉圖像大多取景于戶外,光照條件和背景條件多變,但由于PB數(shù)據(jù)集是在劇集中采樣得到的,因此數(shù)據(jù)集中的圖像分辨率相對較為清晰且噪聲較少,風格較為統(tǒng)一。從圖2(a)可以看出,本文算法在圖像的單模態(tài)檢索中的結果明顯優(yōu)于對比算法,證明了本文的偏航角等變模塊可以較好地利用人臉視角信息生成具有魯棒性的圖像特征。如圖2(b)所示,由于DHH、HER使用黎曼流形上的點表示視頻特征,并且流形空間中的距離度量比歐氏空間中的距離度量更加準確,而本文算法使用注意力機制提升了視頻特征的魯棒性,因此這3種算法在視頻的單模態(tài)檢索中都取得了較為準確的結果。由圖2(c)、圖2(d)可以看出,魯棒的視頻特征也間接提升了跨模態(tài)檢索的效果。同時,相比于其他跨模態(tài)算法,ACMR和DSCMR除了使用度量學習損失保持模態(tài)間的相似性關系外,還使得生成的共同表達具備模態(tài)不變的性質(zhì),也提升了跨模態(tài)檢索的準確率。本文算法和HVIH都利用了類中心思想來減少模態(tài)間差異,不同于HVIH直接使用圖像特征平均值作為類中心,本文算法使用的語義類中心更能反映全局模態(tài)間的關系,并且結合局部模態(tài)間的關系保持在跨模態(tài)檢索中取得了更好的結果。

圖2 PB數(shù)據(jù)集中單模態(tài)檢索和跨模態(tài)檢索的P-R曲線Fig.2 P-R curves of single modal and cross-modal retrieval in PB dataset

圖3展示了在YTC數(shù)據(jù)集中使用圖像檢索視頻和使用視頻檢索圖像的P-R曲線。相比于PB數(shù)據(jù)集,YTC數(shù)據(jù)集的光照條件、姿態(tài)、表情和圖像質(zhì)量更加多變,模態(tài)內(nèi)差異較大。HER方法在YTC數(shù)據(jù)集中的檢索準確率相比于在PB數(shù)據(jù)集中下降明顯,主要原因是YTC數(shù)據(jù)集規(guī)模較大,在構建共同空間之前,需要先將異構空間投影到再生希爾伯特空間中,但由于計算資源的限制,HER只能利用部分樣本對進行訓練。從表1和圖3可知,在多數(shù)情況下,本文算法的檢索性能優(yōu)于所有對比算法,這是因為對比算法缺乏了對圖像特征空間和視頻特征空間的魯棒性約束以及對模態(tài)間信息的充分利用。

圖3 YTC數(shù)據(jù)集中跨模態(tài)檢索的P-R曲線Fig.3 P-R curves of cross-modal retrieval in YTC dataset

圖4展示了在UMD數(shù)據(jù)集中使用圖像檢索視頻和使用視頻檢索圖像的P-R曲線。相比于PB和YTC數(shù)據(jù)集,UMD數(shù)據(jù)集中的類別數(shù)量最多,同時人臉的姿態(tài)、圖像質(zhì)量、背景仍然差異較大,因此所有算法在該數(shù)據(jù)集上的表現(xiàn)有所下降。DHH和HER將視頻看作黎曼流形空間中的點,但UMD數(shù)據(jù)集中每個類別用于訓練的樣本數(shù)量相對較少,因此無法滿足密集采樣的假設條件,本文算法通過魯棒的特征提取方法以及結合半困難全局三元組損失和半困難局部三元組損失的模態(tài)間關系保持保證了跨模態(tài)檢索的準確性。

圖4 UMD數(shù)據(jù)集中跨模態(tài)檢索的P-R曲線Fig.4 P-R curves of cross-modal retrieval in UMD dataset

2.3 消融實驗

為了驗證本文提出的偏航角等變模塊(M1)、視頻注意力機制模塊(M2)和半困難全局三元組損失(M3)的有效性,本文使用不添加上述模塊的方法作為基準方法,以驗證添加各個模塊之后的效果?;鶞史椒ㄖ苯邮褂霉蚕頇嘀氐腃NN提取的特征作為圖像特征,對視頻幀特征采用平均池化進行融合,使用交叉熵損失保持模態(tài)內(nèi)相似性關系,同時僅使用局部三元組損失保持模態(tài)間的相似性關系。

本文使用YTC數(shù)據(jù)集提取48維的二值哈希進行消融實驗,結果如表2所示。從表中可以觀察到:①由于本文使用了交叉熵損失和度量學習損失來保持模態(tài)內(nèi)模態(tài)間關系以及使用Adam和SGD切換的優(yōu)化方法,基準方法在跨模態(tài)檢索任務中的mAP達到了0.586 9和0.644 8;②在添加偏航角等變模塊后,圖像檢索圖像的mAP值提升了3.60%,圖像檢索視頻和視頻檢索圖像的mAP值分別提升了4.33%和2.12%,說明偏航角等變模塊增強了圖像特征的單模態(tài)魯棒性,進一步提升了跨模態(tài)檢索的準確性;③添加視頻注意力機制模塊后,視頻檢索視頻的準確率提升了1.72%,視頻檢索圖像和圖像檢索視頻的mAP分別提升了3.68%和0.90%,說明基于注意力機制的視頻特征融合方法提升了視頻的單模態(tài)檢索準確性,進一步提升了模態(tài)間相似性關系的準確性;④使用全局三元組損失后,圖像和視頻的跨模態(tài)檢索準確率分別提升了7.50%和3.64%,說明了使用本文的跨模態(tài)語義中心保持全局相似性關系的有效性。

表2 消融實驗的mAP值Table 2 mAP values of ablation experiments

2.4 域適應算法的有效性驗證

為了驗證本文域適應算法的有效性,將前面用于訓練的YTC圖像數(shù)據(jù)集看作源域圖像數(shù)據(jù)集,使用文獻[2]中收集的YTC泛化數(shù)據(jù)集作為目標域圖像數(shù)據(jù)集,其中每個類別包含額外的100個圖像樣本用于泛化驗證。

本文使用式(16)作為損失函數(shù)微調(diào)跨模態(tài)共同表達生成網(wǎng)絡(使用源域圖像數(shù)據(jù)集訓練生成的網(wǎng)絡)的方法如下:在未使用域適應算法的情況下,直接對網(wǎng)絡進行微調(diào);在使用域適應算法的情況下,先凍結類中心和視頻共同表達生成網(wǎng)絡的參數(shù),再結合域校準和遷移學習微調(diào)網(wǎng)絡。使用0、5、10、25、50和80個樣本微調(diào)跨模態(tài)共同表達生成網(wǎng)絡,在未使用和使用域適應算法的情況下,使用目標域圖像檢索源域視頻任務的mAP如表3所示。

表3 使用與未使用域適應算法時跨模態(tài)檢索的mAP值Table 3 mAP values of cross-modal retrieval with and without the domain adaptation algorithm

如表3所示,在未使用目標域樣本進行微調(diào)的情況下,盡管使用L2正則化和Dropout來提升了模型的泛化性能,但使用目標域圖像進行跨模態(tài)檢索時準確率下降比較大;在僅使用5個樣本進行微調(diào)時,本文算法保持類中心和視頻共同表達生成網(wǎng)絡的參數(shù)不變,通過分布校準和遷移學習使目標域分布盡量接近源域分布,泛化性能有顯著提升;當更多的樣本參與實驗時,跨模態(tài)檢索的準確率持續(xù)上升,說明本文算法可以有效地利用增加的樣本信息來提升跨模態(tài)檢索的準確性。

3 結論

本文提出了一種基于度量學習的跨模態(tài)人臉檢索算法,通過改進偏航角等變模塊獲得了對偏航角變化具有魯棒性的人臉特征,使用時域注意力機制獲得了具有可分性的視頻特征;結合半困難全局三元組和半困難局部三元組損失提升了跨模態(tài)度量學習的一致性和準確性;使用域校準和遷移學習作為域適應算法以減少域差異,提升了使用目標域圖像進行跨模態(tài)人臉檢索的準確性。但本文提出的跨模態(tài)域適應算法主要適用于小樣本微調(diào)的場景下,缺乏對零樣本場景下域差異問題的解決方案,今后可以進一步提升在零樣本場景下共同表達的泛化性。

猜你喜歡
三元組人臉檢索
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
有特點的人臉
特征標三元組的本原誘導子
關于余撓三元組的periodic-模
2019年第4-6期便捷檢索目錄
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
馬面部與人臉相似度驚人
長得象人臉的十種動物
奇聞怪事(2014年5期)2014-05-13 21:43:01
三元組輻射場的建模與仿真
稷山县| 潞西市| 乌兰县| 成安县| 西宁市| 宁蒗| 凤翔县| 察雅县| 清新县| 吉安县| 金山区| 张家口市| 从江县| 扎鲁特旗| 咸宁市| 卓尼县| 溆浦县| 西吉县| 宝山区| 吴川市| 祁东县| 巴南区| 汽车| 塔河县| 启东市| 北川| 故城县| 宁陕县| 开远市| 惠东县| 蒙山县| 临沂市| 望江县| 托里县| 商水县| 永年县| 滨州市| 新营市| 五寨县| 怀来县| 西乌珠穆沁旗|