陳志奎,蔣昆侖,鐘芳明,原 旭,張堯臣
1(大連理工大學(xué) 軟件學(xué)院,遼寧 大連 116620) 2(大連理工大學(xué) 遼寧省泛在網(wǎng)絡(luò)與服務(wù)軟件重點實驗室,遼寧 大連 116620) 3(浪潮軟件科技有限公司,濟南 250100)
隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的快速發(fā)展,多媒體數(shù)據(jù)呈現(xiàn)指數(shù)級增長,而且不同模態(tài)的數(shù)據(jù)之間往往具有相關(guān)性.例如,用戶在社交平臺上發(fā)布圖片或視頻信息時,通常附帶一段相關(guān)的文字描述;用戶在搜索引擎中輸入某個主題信息后,期望返回相關(guān)且盡可能豐富的圖片、視頻等模態(tài)的信息.因此,如何有效地挖掘多模態(tài)數(shù)據(jù)的關(guān)聯(lián)信息,實現(xiàn)不同模態(tài)間的跨模態(tài)檢索已經(jīng)成為信息檢索[2,19]和多媒體分析[20-22]領(lǐng)域的研究熱點.
現(xiàn)有的跨模態(tài)檢索方法依據(jù)是否利用樣本的標(biāo)簽信息可分為兩類:有監(jiān)督跨模態(tài)檢索方法和無監(jiān)督跨模態(tài)檢索方法.有監(jiān)督方法需要語義標(biāo)簽輔助模型的訓(xùn)練,由于引入了額外的指導(dǎo)信息,有監(jiān)督方法通常能獲得更高的檢索精度.例如,相似度保持跨模態(tài)哈希[3]利用多模態(tài)實例的語義標(biāo)簽構(gòu)建目標(biāo)函數(shù)的約束信息,再使用聯(lián)合矩陣分解學(xué)習(xí)多模態(tài)實例間的統(tǒng)一潛在語義空間.這類方法需要預(yù)先對數(shù)據(jù)進行人工標(biāo)記,在面對海量數(shù)據(jù)時代價十分昂貴.與此相比,無監(jiān)督方法直接利用多模態(tài)實例間的語義關(guān)聯(lián)來指導(dǎo)模型訓(xùn)練,省去了費時費力的標(biāo)記工作,在應(yīng)對大規(guī)模無標(biāo)記的多模態(tài)數(shù)據(jù)場景時,更有研究和應(yīng)用的價值.其中,基于哈希學(xué)習(xí)的無監(jiān)督方法將復(fù)雜的數(shù)據(jù)特征編碼為簡短的二進制碼,具有存儲開銷小、檢索速度快的優(yōu)點,成為了跨模態(tài)檢索的研究熱點.
最近,一些無監(jiān)督跨模態(tài)哈希方法首先構(gòu)造表征多模態(tài)數(shù)據(jù)間語義關(guān)聯(lián)的相似度矩陣S,再將各模態(tài)數(shù)據(jù)編碼為哈希碼,并將S作為各模態(tài)哈希碼在漢明空間中的相似度約束[10-13],取得了較好的檢索效果.例如,深度聯(lián)合語義重構(gòu)哈希[10]將一階聯(lián)合模態(tài)相似度的每一行視為多模態(tài)實例的新特征,進而計算實例的高階鄰居信息,最后導(dǎo)出聯(lián)合模態(tài)相似度S.基于聯(lián)合模態(tài)分布的相似性哈希[12]先使用各模態(tài)內(nèi)的一階相似度信息構(gòu)造跨模態(tài)相似度,再將跨模態(tài)相似度與兩個模態(tài)內(nèi)的一階相似度融合至S.
圖1 流形結(jié)構(gòu)示意圖Fig.1 Manifold structure illustration
然而,這些方法忽略了數(shù)據(jù)特征空間的流形結(jié)構(gòu)信息,生成的相似度矩陣S無法準(zhǔn)確地表示多模態(tài)數(shù)據(jù)間的語義關(guān)聯(lián),以其作為哈希編碼關(guān)系重構(gòu)的目標(biāo)難免引入噪聲數(shù)據(jù).例如,圖1為給定查詢點(由四角星形表示)和其余樣本(由空心圓表示)的分布示意圖,查詢點的k最近鄰(基于余弦相似度計算)由實心圓表示.數(shù)據(jù)分布形成了上下兩個帶狀簇,直觀上應(yīng)具有不同的語義信息.然而,若不考慮數(shù)據(jù)本身的流形結(jié)構(gòu)特征,僅僅以相似度來度量樣本間的語義相似性,則圖1中下方簇中的某些樣本點會被當(dāng)做與查詢的語義相似的數(shù)據(jù),進而引入噪聲,無法指導(dǎo)哈希編碼網(wǎng)絡(luò)生成高質(zhì)量的哈希碼.
本章節(jié)簡要介紹一些具有代表性的無監(jiān)督跨模態(tài)哈希檢索方法.依據(jù)是否使用深度神經(jīng)網(wǎng)絡(luò),可分為非深度跨模態(tài)哈希方法和深度跨模態(tài)哈希方法.
作為早期非深度方法的代表,跨視圖哈希[1](Cross-View Hashing,CVH)和跨媒體哈希[4](Inter-Media Hashing,IMH)可以被視為譜哈希[5]的泛化,將單模態(tài)場景擴展為多模態(tài).這兩種方法通過保持模態(tài)內(nèi)和模態(tài)間相似度的一致性來指導(dǎo)哈希函數(shù)的學(xué)習(xí),并將其轉(zhuǎn)化為重構(gòu)相似度矩陣的特征值分解問題進行求解.協(xié)同矩陣分解哈希[6](Collective Matrix Factorization Hashing,CMFH)將各模態(tài)的特征矩陣進行分解,顯式地為同一實例的多模態(tài)特征構(gòu)建統(tǒng)一的哈希碼以彌補模態(tài)間的差異.潛在語義稀疏哈希[7](Latent Semantic Sparse Hashing,LSSH)使用稀疏編碼和矩陣分解分別提取圖像和文本的潛在語義特征,用其指導(dǎo)哈希函數(shù)的學(xué)習(xí).這些非深度方法在訓(xùn)練時通常需要同時加載整個訓(xùn)練集,以獲得魯棒性更好的哈希函數(shù),造成了較大的訓(xùn)練時間和空間消耗.同時,這些方法大都使用手工標(biāo)注的特征和較淺的網(wǎng)絡(luò)架構(gòu),限制了模型的檢索性能.
早期的非深度方法采用較淺的網(wǎng)絡(luò)模型架構(gòu),難以有效的挖掘多模態(tài)數(shù)據(jù)間復(fù)雜的非線性語義關(guān)聯(lián)信息.隨著近幾年深度神經(jīng)網(wǎng)絡(luò)在非線性表示學(xué)習(xí)領(lǐng)域不斷取得進步,越來越多的跨模態(tài)哈希方法開始使用深度網(wǎng)絡(luò)模型學(xué)習(xí)哈希函數(shù),并在許多跨模態(tài)檢索任務(wù)上取得了很好的效果.深度二值重構(gòu)跨模態(tài)哈希[8](Deep Binary Reconstruction for Cross-modal Hashing,DBRC)使用自適應(yīng)的tanh函數(shù)來解決跨模態(tài)哈希方法中的離散限制優(yōu)化問題,并可直接用于目標(biāo)函數(shù)優(yōu)化.無監(jiān)督深度跨模態(tài)哈希[9](Unsupervised Deep Cross-Modal Hashing,UDCMH)在網(wǎng)絡(luò)訓(xùn)練中使用矩陣分解技術(shù),并將圖拉普拉斯限制引入損失函數(shù),保持了各模態(tài)數(shù)據(jù)在原始空間的關(guān)聯(lián)信息.深度聯(lián)合語義重構(gòu)哈希[10](Deep Joint-Semantics Reconstructing Hashing,DJSRH)和基于聯(lián)合模態(tài)分布的相似性哈希[12](Joint-modal Distribution-based Similarity Hashing,JDSH)采用不同的策略將各模態(tài)的相似度信息融合至聯(lián)合模態(tài)語義相似度矩陣,再使用哈希碼重構(gòu)該相似度關(guān)系.深度語義對齊哈希[11](Deep Semantic-Alignment Hashing,DSAH)設(shè)計了多種自監(jiān)督語義對齊損失函數(shù)約束哈希函數(shù)的學(xué)習(xí),有效地挖掘了樣本多模態(tài)特征中的關(guān)聯(lián)和共現(xiàn)信息.高階非局部哈希[13](High-order Nonlocal Hashing,HNH)利用各模態(tài)內(nèi)的高階相似度信息對低階相似度進行修正,并引入公共表示來關(guān)聯(lián)不同的模態(tài),有效彌補了不同模態(tài)的差異并保持了模態(tài)內(nèi)部一致性.
然而,上述深度方法忽略了數(shù)據(jù)特征空間中的流形結(jié)構(gòu)信息對相似度的影響,無法準(zhǔn)確挖掘多模態(tài)實例間的語義關(guān)聯(lián),導(dǎo)致模型無法生成高質(zhì)量的哈希碼.
本節(jié)首先給出無監(jiān)督跨模態(tài)哈希的具體問題定義及相關(guān)符號說明;隨后詳細(xì)介紹本文提出的基于聯(lián)合模態(tài)語義相似度修正的無監(jiān)督跨模態(tài)哈希算法的具體流程.本文出現(xiàn)的主要符號及其解釋如表1所示.
表1 主要符號解釋Table 1 Explanation of main symbols
(1)
其中<·,·>表示二值向量的內(nèi)積.性能優(yōu)異的哈希編碼網(wǎng)絡(luò)需要滿足以下要求:語義相近實例的文本和圖像特征,經(jīng)過哈希網(wǎng)絡(luò)編碼后有較小的漢明距離;語義不相近實例的文本和圖像特征,經(jīng)過哈希網(wǎng)絡(luò)編碼后有較大的漢明距離.
本文提出的方法包含4個過程:各模態(tài)特征抽取、聯(lián)合模態(tài)語義相似度構(gòu)建、聯(lián)合模態(tài)語義相似度修正、哈希碼重構(gòu)聯(lián)合模態(tài)語義相似度.圖2簡要說明了模型的具體流程.
圖2 模型流程示意圖Fig.2 Pipeline of JSSR
3.2.1 各模態(tài)特征抽取
各模態(tài)特征抽取過程與文獻[10-12]一致,對于圖像模態(tài)的數(shù)據(jù),本文抽取經(jīng)過AlexNet[18]的ReLU函數(shù)激活的fc7層的4096維輸出作為圖像的原始特征FI∈Rm×4096.對于文本模態(tài)的數(shù)據(jù),本文使用數(shù)據(jù)集中提供的標(biāo)簽共現(xiàn)向量作為文本的原始特征FT∈Rm×DT.此階段獲得的圖像特征FI和文本特征FT包含了豐富的語義信息,是指導(dǎo)哈希編碼網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ).
3.2.2 聯(lián)合模態(tài)語義相似度構(gòu)建
(2)
(3)
Sf=φ1SI+φ2ST+φ3Shigh
(4)
其中φ1、φ2、φ3為平衡各模態(tài)信息的超參數(shù),最后對Sf進行放縮:
Sf←μSf
(5)
式(5)中,μ為放縮參數(shù),可以使得之后的哈希碼重構(gòu)過程更加靈活.
3.2.3 聯(lián)合模態(tài)語義相似度修正
聯(lián)合模態(tài)語義相似度Sf將不同模態(tài)的關(guān)聯(lián)信息有效地結(jié)合在統(tǒng)一的矩陣中,使得來自圖像模態(tài)和文本模態(tài)的低階和高階相似度信息互相補充,是多模態(tài)數(shù)據(jù)實例間語義關(guān)聯(lián)的有效表征.然而,基于余弦相似度計算得到的聯(lián)合模態(tài)相似度Sf中可能包含噪聲,即不相似的樣本對可能被賦予了較高的相似度.受文獻[14]在圖像檢索中使用流形相似度降噪的啟發(fā),本文引入數(shù)據(jù)特征空間中的流形結(jié)構(gòu)信息,以消除聯(lián)合模態(tài)語義相似度Sf中的噪聲.
(6)
(7)
(8)
(9)
經(jīng)過簡單的變換,最終可得:
(10)
(11)
3.2.4 哈希碼重構(gòu)聯(lián)合模態(tài)語義相似度
ImgNet:本文基于預(yù)訓(xùn)練的Alexnet[18]抽取的圖像特征FI∈Rm×4096,然后構(gòu)造一個含有n個隱藏單元的全連接層fch,將FI變換為具有連續(xù)值的特征表示HI∈Rm×n.
TxtNet:基于數(shù)據(jù)集中提供的文本特征FT∈Rm×DT,本文構(gòu)造兩個全連接層fct1和fct2(DT→4096→n)將其變換為具有連續(xù)值的特征表示HT∈Rm×n.
然后,使用符號函數(shù)sign(·)將HI和HT和變換為二進制哈希碼BI和BT:
BI=sign(HI)
(12)
BT=sign(HT)
(13)
BI,BT∈{-1,+1}m×n
(14)
隨后,定義如下兩個模態(tài)內(nèi)哈希碼相似度重構(gòu)損失函數(shù):
(15)
(16)
模態(tài)間哈希碼相似度重構(gòu)損失函數(shù)定義如下:
(17)
此外,由于單個實例ok的多模態(tài)表示Ik和Tk具有相同的語義,經(jīng)哈希網(wǎng)絡(luò)編碼后也應(yīng)保持相同的語義.為了讓哈希編碼網(wǎng)絡(luò)保持這種性質(zhì),增加語義對齊損失函數(shù)lossalign,定義如下:
(18)
最終的損失函數(shù)如下:
loss=losscross+λ1lossI2I+λ2lossT2T+λ3lossalign
(19)
上式中λ1、λ2、λ3為平衡各個哈希碼重構(gòu)損失函數(shù)與語義對齊損失函數(shù)之間權(quán)重的超參數(shù).
為了獲得各個模態(tài)的哈希碼BI和BT,本文使用符號函數(shù)sign(·)將圖像和文本的連續(xù)表示HI和HT二值化至同一維度n.然而對于所有的非零輸入,符號函數(shù)sign(·)的梯度均為0,使得反向傳播算法無法有效地更新網(wǎng)絡(luò)權(quán)重.為了解決梯度消失問題,參考文獻[8]的工作,本文使用縮放的tanh(·)函數(shù):
BI=tanh(δHI)
(20)
BT=tanh(δHT)
(21)
上式中δ為縮放系數(shù),隨著訓(xùn)練輪數(shù)的增加不斷增大.縮放的tanh(·)函數(shù)與符號函數(shù)sign(·)在極限情況下存在以下等價關(guān)系:
(22)
隨著δ的增大,縮放的tanh(·)的輸出逐漸逼近于sign(·)的輸出,有效地解決了梯度消失問題,網(wǎng)絡(luò)權(quán)重得以順利更新.
本文在兩個公開的跨模態(tài)檢索數(shù)據(jù)集上進行實驗,包含MIR Flickr[17]和NUS-WIDE[16].
MIR Flickr:包含25,000個帶標(biāo)注實例,每個實例由一張圖像和配對的文本標(biāo)簽組成,共可分為24類.每個實例的圖像特征由SIFT描述向量給定,而文本特征則由標(biāo)簽共現(xiàn)向量給定.
NUS-WIDE:包含269,648個帶標(biāo)注的多模態(tài)實例,每個實例由一張圖像和對應(yīng)的文本標(biāo)簽組成.按照已有工作的設(shè)定,本文選取了原始的81個類別中出現(xiàn)頻率最高的10個類別,保留了相應(yīng)的186,577個帶標(biāo)注實例.每個實例的圖像特征由500維的SIFT向量給定,而文本特征則由1,000維的標(biāo)簽共現(xiàn)向量給定.
按照文獻[10-12]對數(shù)據(jù)集的劃分,本文從MIR Flickr和NUS-WIDE中隨機抽取2000個實例作為查詢集,剩余的部分作為檢索集.此外,本文隨機抽取檢索集中的5000個實例用于訓(xùn)練.在模型評估階段,訓(xùn)練完畢的哈希編碼網(wǎng)絡(luò)將為檢索集和查詢集中的每個實例生成哈希碼,并基于下文中的評價指標(biāo)對模型性能進行評估.
為了與基線方法進行公平比較,本文的各模態(tài)特征抽取過程與文獻[10-12]的設(shè)定一致,使用預(yù)訓(xùn)練的模型AlexNet[18]提取實例原始圖像的4096維特征,并采用數(shù)據(jù)集中提供的標(biāo)簽共現(xiàn)向量作為實例的文本特征.
本文選取了幾個具有代表性的基線方法與JSSR進行比較,包含CVH[1],IMH[4],CMFH[6],LSSH[7],DBRC[8],UDCMH[9],DJSRH[10],JDSH[12],HNH[13],DSAH[11].這些方法中,前4個為非深度方法,后面以及本文提出的方法為深度方法.
4.3.1 評價標(biāo)準(zhǔn)
為了驗證本文提出的方法的有效性,以及與基線方法進行公平的比較,本文采用兩種廣泛使用的檢索評價指標(biāo):mAP(Mean Average Precision)和topN準(zhǔn)確率.對于一次查詢,如果返回了R個檢索結(jié)果,則AP(average precision)計算如下:
(23)
其中,n表示檢索結(jié)果中相關(guān)實例的數(shù)量;P(r)表示前r個檢索結(jié)果的準(zhǔn)確率;δ(r)表示第r個檢索結(jié)果是否與查詢實例相關(guān).對于兩個實例而言,如果它們至少擁有一個相同標(biāo)簽,就認(rèn)為它們是相關(guān)的,即δ(r)=1,反之則為0.mAP即定義為多次查詢后AP的平均值,本文將檢索返回的數(shù)據(jù)量設(shè)置為50,即比較mAP@50指標(biāo).
topN準(zhǔn)確率表示在不同數(shù)量的檢索實例下的檢索準(zhǔn)確率.總體而言,上述兩個評價指標(biāo)的值越大表示檢索效果越好.
4.3.2 mAP@50指標(biāo)
首先與各基線方法比較mAP@50指標(biāo),結(jié)果如表2所示(為了便于比較,本文將表中最優(yōu)檢索結(jié)果采用加粗標(biāo)注,次優(yōu)結(jié)果采用下劃線標(biāo)注).由表2可得知,相較于同樣采用深度特征作為圖像模態(tài)表示的非深度方法CVH,IMH,CMFH和LSSH,深度方法憑借其優(yōu)異的非線性表達(dá)能力,可以使模型學(xué)習(xí)到更有效的哈希編碼函數(shù),因此獲得了更好的檢索結(jié)果.這些深度方法中DJSRH,JDSH,HNH,DSAH和本文提出的方法JSSR均通過構(gòu)建聯(lián)合模態(tài)相似度矩陣來挖掘不同模態(tài)的語義關(guān)聯(lián),其檢索性能明顯高于其他方法,故下文主要將JSSR與這4個基線方法進行比較.
在MIR Flickr上的結(jié)果:JSSR以及各個基線方法在MIR Flickr數(shù)據(jù)集上的mAP@50指標(biāo)如表2右列所示.通過表2可以發(fā)現(xiàn):
1)JSSR在MIR Flickr數(shù)據(jù)集上的圖像檢索文本任務(wù)(I→T)和文本檢索圖像任務(wù)(T→I)中,在不同的哈希編碼長度的設(shè)定下,mAP@50指標(biāo)均高于所有基線方法.
2)在DJSRH,JDSH,HNH,DSAH這4個方法中,DSAH在MIR Flickr數(shù)據(jù)集上效果普遍較好,這可能是由于DSAH通過設(shè)計各種語義對齊損失函數(shù),有效的減少了模態(tài)間語義鴻溝.本文提出的方法JSSR,與4個方法的最優(yōu)結(jié)果相比,在圖像檢索文本任務(wù)(I→T)和文本檢索圖像任務(wù)(T→I)中,在16bits,32bits,64bits和128bits的哈希編碼長度設(shè)定下,仍有1.3%,1.5%,0.3%,1.0%和1.3%,0.7%,0.9%,1.5%的提升,證明通過引入特征空間的流形信息可以進一步降低聯(lián)合模態(tài)相似度矩陣中的噪聲,提升了模型的檢索性能.
表2 JSSR與各方法在公開數(shù)據(jù)集上的mAP@50對比Table 2 mAP@50 of JSSR and baseline methods on two public datasets
在NUS-WIDE上的結(jié)果:JSSR以及各個基線方法在NUS-WIDE數(shù)據(jù)集上的mAP@50指標(biāo)如表2左列所示.通過表2可以得出以下結(jié)論:
1)JSSR在NUS-WIDE數(shù)據(jù)集上的圖像檢索文本任務(wù)(I→T)和文本檢索圖像任務(wù)(T→I)中,在不同的哈希編碼長度的設(shè)定下,mAP@50指標(biāo)都高于所有基線方法.
2)在DJSRH,JDSH,HNH,DSAH這4個方法中,當(dāng)哈希編碼長度較短時(16bits和32bits),DSAH有較好的檢索效果;當(dāng)哈希編碼長度較長時(64bits和128bits),JDSH和HNH有較好的檢索效果.本文提出的方法JSSR,與4個方法的最優(yōu)結(jié)果相比,有著顯著的提升:在圖像檢索文本任務(wù)(I→T)中,在16bits,32bits,64bits,128bits的哈希編碼長度設(shè)定下,JSSR有6.0%,5.9%,4.4%,4.5%的檢索性能提升;在文本檢索圖像任務(wù)(T→I)中,分別有1.4%,1.1%,1.7%,1.3%的檢索性能提升.在兩個任務(wù)(I→T,T→I)中,相較于最優(yōu)結(jié)果顯著的檢索性能提升,充分說明了本文提出的方法JSSR的有效性.
另外,從表2可以得知,隨著哈希編碼長度的提升(16bits→128bits),模型的檢索性能在兩個任務(wù)(I→T,T→I)中均不斷提升,表明通過提升模型哈希編碼長度,可以降低各模態(tài)哈希碼重構(gòu)聯(lián)合模態(tài)相似度的精度損失,使哈希碼存儲更豐富的語義信息,有效提升模型的檢索性能.
4.3.3 topN準(zhǔn)確率
圖3顯示了JSSR與各基線方法的topN準(zhǔn)確率變化情況.由圖3可得知,在128bits哈希編碼長度的設(shè)定下,在數(shù)據(jù)集MIR Flickr和NUS-WIDE的圖像檢索文本和文本檢索圖像任務(wù)中,JSSR的topN準(zhǔn)確率仍然優(yōu)于所有基線方法,進一步說明了JSSR能更好的挖掘多模態(tài)實例的語義關(guān)聯(lián),生成更高質(zhì)量的哈希編碼.
為了驗證本文提出的“引入特征空間中的流形結(jié)構(gòu)信息對聯(lián)合相似度矩陣進行修正”策略的有效性,本文使用3種不同的聯(lián)合相似度矩陣構(gòu)建策略,設(shè)計了JSSR的幾個變體進行對比實驗:
-JSSR-1:使用各模態(tài)內(nèi)的相似度計算聯(lián)合模態(tài)相似度:
S=αSI+(1-α)ST
(24)
-JSSR-2:在JSSR-1的基礎(chǔ)上引入特征空間的流形信息
-JSSR-3:使用DJSRH的聯(lián)合模態(tài)相似度融合策略:
(25)
(26)
-JSSR-4:在JSSR-3的基礎(chǔ)上引入特征空間的流形信息
-JSSR-5:使用JDSH的聯(lián)合模態(tài)相似度融合策略:
S=αSI+βST+γShigh
(27)
-JSSR:在JSSR-5的基礎(chǔ)上引入特征空間的流形信息
表3展示了JSSR的各個變體在NUS-WIDE數(shù)據(jù)集上的圖像檢索文本任務(wù)(I→T)和文本檢索圖像任務(wù)(T→I)中,在64bits的哈希編碼長度的設(shè)定下的mAP@50指標(biāo).從表3中的數(shù)據(jù)可以得到以下信息:
圖3 公開數(shù)據(jù)集上的topN準(zhǔn)確率曲線Fig.3 topN-precision curve on two public datasets
圖4 參數(shù)敏感性分析Fig.4 Parameter sensitivity analysis
1)對比JSSR-1,JSSR-3,JSSR-5可以獲知:通過充分融合實例的模態(tài)內(nèi)和模態(tài)間相似度,可以更有效的挖掘?qū)嵗g的語義關(guān)聯(lián)信息,為哈希編碼網(wǎng)絡(luò)提供更好的指導(dǎo).
2)對比(JSSR-1,JSSR-2),(JSSR-3,JSSR-4),(JSSR-5,JSSR)可以獲知:在采用不同的聯(lián)合模態(tài)相似度融合策略時,引入特征空間中的流形結(jié)構(gòu)信息均可以有效的減少原有相似度矩陣中的噪聲,使模型獲得更好的檢索性能.
3)本文提出的方法(JSSR)使用JDSH的聯(lián)合模態(tài)相似度融合策略并引入特征空間中的流形結(jié)構(gòu)信息進行修正,在充分挖掘?qū)嵗g的語義關(guān)聯(lián)信息的同時,盡可能的消除了噪聲信息,進而獲得了最好的檢索性能.
表3 不同相似度融合策略的流形相似度修正對比實驗Table 3 mAP@50 of three similarity fusion strategies with/without manifold similarity refining
本文在損失函數(shù)中引入了多個超參數(shù)和平衡參數(shù),下面對于參數(shù)的敏感性進行分析.由于平衡參數(shù)取值相對固定,僅用于平衡各個目標(biāo)函數(shù)間的影響權(quán)重,通常不分析敏感性.因此,本文僅對超參數(shù)k和p進行分析,它們分別用于控制余弦相似度最近鄰和流形相似度最近鄰的數(shù)量.圖4展示了在NUS-WIDE數(shù)據(jù)集上將哈希編碼長度固定為128bits時,圖像檢索文本任務(wù)的mAP@50值隨超參數(shù)變化的情況.
為了探究超參數(shù)k的影響,首先固定k=p,并設(shè)定k的變化范圍為[0.01N,0.5N](N為訓(xùn)練集樣本數(shù)量),結(jié)果如圖4(a)所示,模型的mAP@50隨著k的變化呈現(xiàn)先上升后下降的趨勢,當(dāng)k取[0.08N,0.10N]時效果較好.
為了探究超參數(shù)p的影響,固定k=0.08N,圖4(b)展示了p與k的比值變化范圍為[0.25,4]時,模型的mAP@50指標(biāo)變化情況.可以發(fā)現(xiàn),當(dāng)p=1.5k時,JSSR取得最好的檢索性能.由此,JSSR最終設(shè)定k=0.08N,p=0.12N.
本文針對無監(jiān)督跨模態(tài)哈希檢索任務(wù),提出一種基于聯(lián)合模態(tài)語義相似度修正的深度哈希方法JSSR.JSSR引入特征空間中的流形結(jié)構(gòu)信息對聯(lián)合模態(tài)語義相似度矩陣S進行修正,有效的消除單一相似度度量方法可能帶來的噪聲信息,同時增強了同一潛在類別樣本的親和力,使模型生成的哈希碼更具判別性.在公開的數(shù)據(jù)集NUS-WIDE和MIR Flickr上進行的實驗表明,JSSR在各種跨模態(tài)檢索任務(wù)下均優(yōu)于以往的最好方法.此外,本文還基于3種不同的相似度融合策略設(shè)計對比實驗,在引入流形相似度修正后模型的檢索性能均較之前有明顯提升,證明了本文提出的方法的有效性.