国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于判別性矩陣分解的多標(biāo)簽跨模態(tài)哈希檢索

2023-05-24 03:18王小琴藍(lán)如師劉振丙羅笑南
計算機(jī)應(yīng)用 2023年5期
關(guān)鍵詞:哈希相似性檢索

譚 鈺,王小琴,藍(lán)如師*,劉振丙,羅笑南

(1.廣西圖像圖形與智能處理重點(diǎn)實驗室(桂林電子科技大學(xué)),廣西 桂林 541004;2.衛(wèi)星導(dǎo)航定位與位置服務(wù)國家地方聯(lián)合工程研究中心(桂林電子科技大學(xué)),廣西 桂林 541004)

0 引言

隨著多媒體數(shù)據(jù)數(shù)量和種類的快速增長,不同類型的檢索數(shù)據(jù)為檢索任務(wù)帶來了新挑戰(zhàn),由此需要更有效的算法解決多樣化跨模態(tài)檢索問題。跨模態(tài)檢索需要解決異構(gòu)數(shù)據(jù)的表示及比較問題,如給定一個圖像樣本,如何有效且快速地檢索出相關(guān)的文本、視頻等其他模態(tài)數(shù)據(jù)。為獲得更好的性能,跨模態(tài)檢索引入了哈希學(xué)習(xí)方法[1-5]以降低存儲成本并獲得更快的檢索速度。通常,跨模態(tài)哈希方法可分為兩類:有監(jiān)督方法[6-10]和無監(jiān)督方法[11-15]。無監(jiān)督方法旨在挖掘數(shù)據(jù)之間的結(jié)構(gòu)關(guān)系;而有監(jiān)督方法可以充分利用標(biāo)簽信息,在構(gòu)建相似關(guān)系時獲取更多的語義關(guān)系信息。

近些年來,一些現(xiàn)有的跨模態(tài)哈希方法[16-21]認(rèn)為,可以通過協(xié)同矩陣分解將原始特征的語義關(guān)系保留在隱式子空間中。此外,部分哈希方法[22-27]對哈希向量的平衡性進(jìn)行了研究,并認(rèn)為哈希向量的平衡性可以最大化信息熵。

在現(xiàn)實場景中,多標(biāo)簽的檢索樣本占總檢索樣本的絕大部分,卻很少有哈希方法關(guān)注構(gòu)建多標(biāo)簽數(shù)據(jù)下的平衡哈希向量,并且丟棄了大部分的標(biāo)簽信息,導(dǎo)致哈希碼的可信度和語義保持性降低。

為解決這些問題,本文提出一種簡單而有效的哈希方法——判別性矩陣分解的多標(biāo)簽跨模態(tài)哈希(Discriminative Matrix Factorization Hashing,DMFH)。本文目標(biāo)是通過矩陣分解獲得具有模態(tài)特性的公共隱式子空間,并為成對的異構(gòu)數(shù)據(jù)生成統(tǒng)一的哈希碼。為使生成的哈希碼更具判別性,本文進(jìn)一步構(gòu)造了一個可以精確度量數(shù)據(jù)關(guān)系的多標(biāo)簽相似矩陣。此外,本文還引入哈達(dá)瑪矩陣以保持哈希向量的平衡狀態(tài)。最后,通過量化子空間的數(shù)據(jù)表示獲得目標(biāo)哈希碼。

1 相關(guān)研究

近些年來,協(xié)同矩陣分解(Collective Matrix Factorization,CMF)方法被應(yīng)用于跨模態(tài)哈希檢索中。CMF 旨在使用兩個低秩矩陣的乘積來逼近一個非滿秩的高階矩陣。不同于傳統(tǒng)跨模態(tài)哈希方法直接將數(shù)據(jù)投影到漢明空間,CMF 方法將數(shù)據(jù)投影到所分解出來的隱式子空間中。例如,協(xié)同矩陣分解哈希(Collective Matrix Factorization Hashing,CMFH)[21]方法首次將CMF 方法應(yīng)用于跨模態(tài)檢索領(lǐng)域,通過矩陣分解對原始特征進(jìn)行分解并獲得潛在隱式子空間,從而比較異構(gòu)數(shù)據(jù)的相似性。Tang 等[18]通過CMF 得到隱式語義特征,并將原始空間的標(biāo)簽相似性與局部結(jié)構(gòu)相似性保持到子空間中。Li 等[28]將核化特征進(jìn)行矩陣分解,同時利用標(biāo)簽下的語義嵌入獲取更優(yōu)子空間,并將模態(tài)間和模態(tài)內(nèi)的相似性保持于子空間中。Wang 等[29]首次將模態(tài)獨(dú)立矩陣分解與模態(tài)聯(lián)合矩陣分解融合:模態(tài)獨(dú)立矩陣分解側(cè)重于獲取不同模態(tài)內(nèi)特有的數(shù)據(jù)特征;模態(tài)聯(lián)合矩陣分解側(cè)重于獲取不同模態(tài)間共有的數(shù)據(jù)特征。

在哈希學(xué)習(xí)中,二值碼的質(zhì)量是提升模型效果的關(guān)鍵。傳統(tǒng)哈希方法通過模型最終獲得的精度來評價所學(xué)哈希碼的優(yōu)劣,而模型的效果受多方面因素影響,由此對哈希碼質(zhì)量的判斷并不準(zhǔn)確。近些年來有研究人員對哈希碼的質(zhì)量作了進(jìn)一步研究,Liu 等[22]通過哈希比特的平衡度與相似關(guān)系保持能力對哈希碼的質(zhì)量進(jìn)行評價,認(rèn)為好的二值碼應(yīng)當(dāng)擁有平衡的二值占比,并證明了哈希比特的平衡性有助于保持原始數(shù)據(jù)的相似性關(guān)系。由此可知,平衡的哈希碼能夠攜帶更多的原始語義信息,有利于哈希學(xué)習(xí)獲得更好的效果。此外,為了生成更具判別性的哈希碼,Lin 等[24]將哈達(dá)瑪矩陣引入哈希學(xué)習(xí),利用哈達(dá)瑪矩陣的每一行作為每個類的聚類中心,以最大化不同類別的差距。由于哈達(dá)瑪矩陣為二值正交矩陣,每一行(列)在性質(zhì)上與二值哈希碼相同,且每一行(列)均為平衡向量,有利于生成更具平衡性的哈希碼。

2 判別性矩陣分解哈希

2.1 符號及定義

2.2 方法描述

本文方法旨在利用CMF 方法獲取到一個隱式子空間,以挖掘多模態(tài)數(shù)據(jù)之間的潛在關(guān)系。顯然,若異構(gòu)數(shù)據(jù)之間是語義相近的,它們在空間分布上也存在聯(lián)系。有鑒于此,假設(shè)給定兩個模態(tài)數(shù)據(jù)矩陣X和T,它們的矩陣分解可寫作以下形式:

其中:UI∈Rp×d和UT∈Rq×d分別對應(yīng)圖像模態(tài)和文本模態(tài)的隱式向量矩陣;矩陣V∈Rd×n記錄異構(gòu)的成對數(shù)據(jù)在子空間中的統(tǒng)一表示形式。

檢索時,需要將檢索樣本的原始特征投影到已獲得的子空間中。為此,分別定義兩個線性投影函數(shù)PI∈Rd×p和PT∈Rd×q,將圖像和文本模態(tài)數(shù)據(jù)映射到子空間中。本文認(rèn)為,具有相同標(biāo)簽的成對異構(gòu)數(shù)據(jù)在子空間中擁有相同表示形式?;谶@個思想,可通過式(2)實現(xiàn)異構(gòu)模態(tài)數(shù)據(jù)X和T的子空間映射:

在單標(biāo)簽樣本的情況下,傳統(tǒng)的相似性矩陣構(gòu)造方法僅通過異構(gòu)數(shù)據(jù)之間是否有相同標(biāo)簽來判斷相似性,但該方法在多標(biāo)簽樣本檢索中顯得粗糙許多。區(qū)別于傳統(tǒng)構(gòu)造方法,針對多標(biāo)簽跨模態(tài)哈希檢索問題,本文通過比較兩個樣本的共有標(biāo)簽占比來衡量樣本間的相似程度,并構(gòu)造出多標(biāo)簽樣本下的相似性矩陣。對于兩個樣本xi和tj,相似性關(guān)系可以表示為以下形式:

其中:si,j∈[0,1];N是數(shù)據(jù)xi擁有的標(biāo)簽總數(shù)。通過標(biāo)簽向量的內(nèi)積計算得到兩個樣本共有的標(biāo)簽數(shù),若兩個樣本完全不同,分子為0,則si,j=0;若兩個樣本相似,則si,j趨向于1,當(dāng)共有標(biāo)簽達(dá)到xi擁有的標(biāo)簽總數(shù)時,認(rèn)為兩個樣本一致。通常情況下,數(shù)據(jù)的相似性關(guān)系是相互的,相似性矩陣是對稱矩陣。因此,在構(gòu)造該相似性矩陣時,只對矩陣的上三角進(jìn)行運(yùn)算,即1 ≤i≤j≤n,矩陣的下三角部分通過si,j=sj,i得到。

本文方法認(rèn)為,數(shù)據(jù)在子空間中的語義關(guān)系與數(shù)據(jù)在原始空間中的語義關(guān)系應(yīng)當(dāng)相近。因此,異構(gòu)數(shù)據(jù)投影到子空間后的語義相似性損失寫作以下形式:

為了保持多標(biāo)簽下向量的平衡性,本文方法引入2k階哈達(dá)瑪矩陣構(gòu)造一個新穎的平衡矩陣C∈Rd×n,其中每一個ci都通過標(biāo)簽聚合的方式獲得。更具體地說,哈達(dá)瑪矩陣的每一行都可作為一個特定的類,通過計算d*=min{b|b=2k,m≤b,d≤b,k=1,2,3,…}獲得哈達(dá)瑪最短編碼長度,最后執(zhí)行函數(shù)hadamard(d*)構(gòu)造出相應(yīng)哈達(dá)瑪矩陣。對于樣本xi,需要從預(yù)構(gòu)造的哈達(dá)瑪矩陣中選擇出對應(yīng)的類向量,并將所有的類向量相加作為最終的平衡向量:

此后,為使目標(biāo)哈希碼具有平衡性,本文方法將式(5)構(gòu)造出的平衡矩陣C替換式(4)中的一個子空間表示V。由此,式(4)可以被改寫成:

2.3 目標(biāo)函數(shù)

結(jié)合式(1)、(2)、(6),本文方法的總目標(biāo)函數(shù)可以寫作:

最后,通過量化子空間中的統(tǒng)一表示V得到目標(biāo)哈希碼B。

當(dāng)輸入值為正數(shù)時,二值函數(shù)sgn 的返回值為1,否則為-1。

基于上述方法,目標(biāo)哈希碼同時保留了異構(gòu)數(shù)據(jù)的語義關(guān)系和平衡特性。

2.4 模型優(yōu)化

由于矩陣變量V、PI、PT、UI和UT的存在,式(7)屬于非凸優(yōu)化問題,無法直接優(yōu)化求解。但當(dāng)任何一個變量是可變的,而其他變量是固定不變時,式(7)變成凸優(yōu)化問題。因此,本文通過迭代優(yōu)化的方式求解。求解步驟如下:

1)更新UI和UT。固定除UI和UT外其他變量,并移除無關(guān)項,式(7)可被改寫為:

將式(9)、(10)對UI和UT的導(dǎo)數(shù)分別取為零,可以得到UI和UT的閉式解:

其中I∈Rd×d是單位矩陣。

2)更新PI和PT。固定其他變量并移除與PI和PT無關(guān)的項,式(7)可被改寫為:

將式(13)、(14)中關(guān)于PI和PT的導(dǎo)數(shù)分別取為零,可以得到PI和PT的閉式解:

3)更新V。固定其他變量并將V的導(dǎo)數(shù)取為零,式(7)可以改寫為:

具體算法流程如算法1 所示。

算法1 判別性矩陣分解的多標(biāo)簽跨模態(tài)哈希。

3 實驗與結(jié)果分析

為驗證本文方法的有效性,在兩個文本-圖像模態(tài)的多標(biāo)簽數(shù)據(jù)集MIRFlickr 和NUS-WIDE 上進(jìn)行實驗。實驗采用平均精度均值(mean Average Precision,mAP)進(jìn)行評估,并對比了幾種最先進(jìn)的跨模態(tài)哈希方法。

3.1 數(shù)據(jù)集

MIRFlickr 數(shù)據(jù)集由25 000 對圖像-文本數(shù)據(jù)樣本組成,來源于Flickr。每一個樣本都為多標(biāo)簽數(shù)據(jù),并屬于規(guī)定的24 個種類其中一個或多個。在訓(xùn)練前,去除出現(xiàn)次數(shù)少于20 次的標(biāo)簽類別后剩下20 015 對數(shù)據(jù);此外,去除缺失文本標(biāo)簽的樣本,最終剩下16 738 對樣本數(shù)據(jù)。劃分出15 902 對樣本作為訓(xùn)練集,836 對樣本作為測試集。數(shù)據(jù)集中的圖像樣本由512 維的邊緣直方圖特征進(jìn)行表示,文本樣本由主成分分析(Principal Component Analysis,PCA)產(chǎn)生的500 維特征表示。在訓(xùn)練模型時,從訓(xùn)練集中隨機(jī)抽取出5%的樣本作為檢索樣本,其余樣本作為訓(xùn)練集。

NUS-WIDE 數(shù)據(jù)集是源于Flickr 的真實場景數(shù)據(jù)集。完整的數(shù)據(jù)集包含269 648 對圖像-文本樣本,每個樣本屬于規(guī)定的81 個種類中的一個或多個。數(shù)據(jù)集中的圖像樣本由500 維的尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征表示,文本樣本由1 000 維的詞袋特征表示。在實驗前,對數(shù)據(jù)集的海量樣本進(jìn)行處理,篩選出屬于最常見10 類的標(biāo)簽中的樣本,得到大小為186 577 的成對數(shù)據(jù)集,并隨機(jī)取出5%作為測試集,剩下部分作為訓(xùn)練集。

3.2 實驗設(shè)置及對比方法

對于本文提出的方法,根據(jù)經(jīng)驗對實驗中的參數(shù)進(jìn)行以下的設(shè)置:λ=0.5,μ=1 000,γ=5 和e=500。在對比實驗中,所有比較方法均運(yùn)行了10 次,表中給出的所有數(shù)值都是平均性能的結(jié)果。此外,實驗的二進(jìn)制代碼的長度設(shè)置在{32,64,128}的范圍內(nèi),在配置3.4 GHz CPU、64 GB 內(nèi)存的電腦和軟件Matlab R2018b 上運(yùn)行。

7 種先進(jìn)的跨模態(tài)哈希方法包括:4 種基于CMF 的方法,即協(xié)同矩陣分解哈希(CMFH)算法[21]、有監(jiān)督矩陣分解哈希(Supervised Matrix Factorization Hashing,SMFH)算法[18]、廣義語義保持哈希(Generalized Semantic Preserving Hashing,GSePH)算 法[16]和聯(lián)合與獨(dú)立矩陣分解哈 希(Joint and Individual Matrix Factorization Hashing,JIMFH)算法[29];以及3 種非CMF 的方法,即語義相關(guān)性最大化(Semantic Correlation Maximization,SCM)算 法[31]、判別性 二值哈 希(Discriminative binary Codes Hashing,DCH)方法[20]和子空間下語義標(biāo)簽哈希(Subspace Relation in semantic Labels for Cross-modal Hashing,SRLCH)算法[32]。特別說明,本文方法從NUS-WIDE 數(shù)據(jù)集的訓(xùn)練集中隨機(jī)抽取15 000 個樣本來訓(xùn)練本文提出的模型。

3.3 實驗結(jié)果

實驗部分分別完成了任務(wù)“以圖搜文”(Image to Text,I2T)和“以文搜圖”(Text to Image,T2I)的比較,結(jié)果如表1,加粗表示最優(yōu)結(jié)果,下劃線表示次優(yōu)結(jié)果。由表1 可知,本文方法DMFH 在兩個任務(wù)中均取得了最高的mAP。還可以看出,針對I2T 任務(wù):

表1 I2T和T2I任務(wù)在實驗數(shù)據(jù)集MIRFlickr和NUS-WIDE上的mAP對比 單位:%Tab.1 mAP results comparison for I2T and T2I tasks on experimental datasets MIRFlickr and NUS-WIDE unit:%

1)在MIRFlickr 數(shù)據(jù)集的實驗中,對比使用簡單方法構(gòu)造相似性矩陣的方法GSePH,當(dāng)二進(jìn)制代碼的長度分別為32 b、64 b 和128 b 時,本文方法的mAP 分別獲得了6.21、6.22、5.45 個百分點(diǎn)的提升。這說明本文提出的多標(biāo)簽相似矩陣和平衡矩陣有助于學(xué)習(xí)到更具區(qū)分性的哈希碼。

2)當(dāng)二進(jìn)制代碼的長度分別為32 b、64 b 和128 b 時:在MIRFlickr 數(shù)據(jù)集的實驗中,本文方法的mAP 比次優(yōu)方法DCH 分別提高了5.58、5.71、4.21 個百分點(diǎn);在NUS-WIDE數(shù)據(jù)集的實驗中,本文方法的mAP 比次優(yōu)方法GSePH 分別提高了4.87、4.92 和4.64 個百分點(diǎn)。

針對T2I 任務(wù):

1)在MIRFlickr 和NUS-WIDE 數(shù)據(jù)集上,本文方法 的mAP 均高于I2T 任務(wù)的mAP,說明本文方法能夠更有效地利用文本模態(tài)中的多標(biāo)簽語義信息,有助于提高T2I 任務(wù)的檢索性能。

2)當(dāng)二進(jìn)制代碼的長度分別為32 b、64 b 和128 b 時:在MIRFlickr 數(shù)據(jù)集上,本文方法的mAP 比次優(yōu)方法JIMFH 分別提高了6.67、5.36、2.73 個百分點(diǎn);在NUS-WIDE 數(shù)據(jù)集上,本文方法的mAP 比次優(yōu)方法JIMFH 分別提高了8.05、4.52、3.96 個百分點(diǎn)。

3.4 討論與分析

3.4.1 參數(shù)敏感性分析

為研究參數(shù)λ、μ和γ對模型的影響,本節(jié)對參數(shù)的敏感性作進(jìn)一步的實驗分析。在兩個多標(biāo)簽數(shù)據(jù)集上,均使用長度為32 b 的哈希碼進(jìn)行參數(shù)λ和μ的實驗;在模型訓(xùn)練時,依據(jù)實踐經(jīng)驗設(shè)置正則項系數(shù)γ的值,并在所有實驗中設(shè)定γ=5。

實驗中設(shè)定參數(shù)λ的取值為{0,0.1,0.3,…,1},實驗結(jié)果如圖1(a)、(b)所示。顯而易見,兩個數(shù)據(jù)集在λ=0.5 前后有較明顯的波動。在I2T 任務(wù)中,NUS-WIDE 數(shù)據(jù)集在λ=0.5 達(dá)到峰值;在T2I 任務(wù)中,MIRFlickr 數(shù)據(jù)集λ=0.5 達(dá)到峰值。可以得出,在矩陣分解方法中,圖像和文本兩個模態(tài)的數(shù)據(jù)對子空間的生成有著近似等同的影響,兩個模態(tài)的平衡有利于找到更優(yōu)的子空間。

圖1 實驗綜合分析曲線Fig.1 Comprehensive analysis curves of experiments

參數(shù)μ的實驗取值范圍為{10-3,10-2,10-1,…,103},實驗結(jié)果如圖1(c)、(d)所示。對于數(shù)據(jù)集MIRFlickr 和NUSWIDE,當(dāng)μ的取值越大,mAP 值趨于直線上升;對于數(shù)據(jù)集NUS-WIDE,當(dāng)μ取值增大時,敏感性曲線較數(shù)據(jù)集MIRFlickr 更陡。結(jié)果表明,數(shù)據(jù)集越大對子空間與哈希投影近似程度越敏感;且哈希投影越接近所學(xué)習(xí)到的子空間,能夠保留的相關(guān)性信息便越多,模型的效果越好。

3.4.2 收斂性分析

圖2 展示了本文方法在最大的數(shù)據(jù)集NUS-WIDE 上的收斂曲線??梢杂^察到,隨著訓(xùn)練時間的增加,本文方法能從初始值收斂到趨于不變,并且可以在20 次迭代時間內(nèi)快速收斂,驗證了本模型的有效收斂性。為此,在進(jìn)行兩個多標(biāo)簽數(shù)據(jù)集的訓(xùn)練中,均設(shè)置訓(xùn)練的迭代次數(shù)為20。

圖2 本文方法在NUS-WIDE數(shù)據(jù)集上的收斂曲線Fig.2 Convergence curve of DMFH on dataset NUS-WIDE

3.4.3 平衡矩陣分析

對比方法DCH 在實驗中引入了線性分類器,以使目標(biāo)哈希碼更具辨別性,但該方法的檢索性能受到訓(xùn)練后分類器的影響和限制。相比之下,本文方法使用平衡矩陣代替需要訓(xùn)練的分類器,保留哈希向量的平衡條件以最大化哈希碼的信息熵??偟膩碚f,與方法DCH 相比,本文方法可以保證哈希碼的可區(qū)分性,同時避免了分類器性能差帶來的影響。

為進(jìn)一步驗證本文提出的平衡矩陣對實驗結(jié)果的影響,將式(4)代替式(5),按位更新哈希碼以優(yōu)化求解,并重新進(jìn)行模型訓(xùn)練。去除平衡矩陣項的前后實驗結(jié)果由表2 給出,可以看到,去掉平衡矩陣后,在MIRFlickr 和NUS-WIDE 數(shù)據(jù)集上的檢索精度都有較大幅度的下降。這說明平衡矩陣能夠在一定程度上保持?jǐn)?shù)據(jù)的原始語義關(guān)系,在本文提出的模型中能有效提高跨模態(tài)哈希檢索的效率。

表2 平衡矩陣項C對模型mAP的影響 單位:%Tab.2 Influence of balanced matrix term C on mAP unit:%

3.4.4 相似性矩陣分析

傳統(tǒng)方法利用標(biāo)簽一致性來判斷語義相似性,即若兩個實例共享至少1 個標(biāo)簽,則它們是相似的。因此,在傳統(tǒng)的相似度矩陣中,相似的兩個實例的相似度關(guān)系將被指定為1,否則為0。

為了進(jìn)一步討論本文提出的相似性程度矩陣的有效性,表3 展示了傳統(tǒng)相似性矩陣S'與本文提出的精確相似程度矩陣S在本文方法中的性能比較。對比結(jié)果表明,精確數(shù)值相較于用0 或1 來描述相似程度關(guān)系更有助檢索性能提升。

表3 傳統(tǒng)相似性矩陣S'與本文相似性矩陣S的mAP比較 單位:%Tab.3 Comparison of mAP between traditional similarity matrix S' and proposed similarity matrix S unit:%

4 結(jié)語

為了進(jìn)行多標(biāo)簽跨模態(tài)檢索,本文提出了一種新穎的判別性矩陣分解哈希方法。該方法通過協(xié)同矩陣分解獲得異構(gòu)數(shù)據(jù)可共享的隱式子空間,并保持異構(gòu)數(shù)據(jù)之間的語義相關(guān)性。此外,通過量化隱式子空間中的數(shù)據(jù)統(tǒng)一表示,直接生成目標(biāo)二進(jìn)制碼,不僅保持了所學(xué)習(xí)哈希碼的精確相似程度關(guān)系,還保持了哈希向量的平衡性。在兩個多標(biāo)簽基準(zhǔn)數(shù)據(jù)集上進(jìn)行了兩種任務(wù)的對比實驗,結(jié)果表明本文提出的方法在多標(biāo)簽跨模式檢索中是有效的。

猜你喜歡
哈希相似性檢索
一類上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫的相似性
2019年第4-6期便捷檢索目錄
低滲透黏土中氯離子彌散作用離心模擬相似性
專利檢索中“語義”的表現(xiàn)
基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
基于維度分解的哈希多維快速流分類算法
基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
一種基于Bigram二級哈希的中文索引結(jié)構(gòu)
V4國家經(jīng)濟(jì)的相似性與差異性