国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨尺度Vision Transformer的深度哈希算法

2024-12-31 00:00:00姚佩昀于炯李雪李梓楊陳鵬程
計(jì)算機(jī)應(yīng)用研究 2024年11期
關(guān)鍵詞:圖像檢索

摘 要:為了解決當(dāng)前深度哈希算法提取跨尺度特征能力不足以及難以擬合數(shù)據(jù)的全局相似度分布問(wèn)題,提出了一種基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷積和跨尺度注意力機(jī)制構(gòu)建了一種多層次編碼器,來(lái)捕獲圖像豐富的語(yǔ)義信息;其次,提出了一種基于代理的深度哈希算法,該算法為每個(gè)類(lèi)別生成哈希代理,使得哈希碼可以學(xué)習(xí)具有鑒別性的類(lèi)別特征,從而縮小與同類(lèi)別哈希代理的距離并擬合數(shù)據(jù)全局相似性分布;最后,在哈希代理與哈希碼之間添加角度邊距項(xiàng),擴(kuò)大類(lèi)內(nèi)相似性和類(lèi)間差異性,以生成具有高判別性的哈希碼。通過(guò)在CIFAR-10、ImageNet-100、NUS-Wide、MS COCO上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,該算法的平均檢索精度比次優(yōu)方法分別提升4.42%、19.61%、0.35%、15.03%,驗(yàn)證了該算法的有效性。

關(guān)鍵詞:深度哈希; 視覺(jué)注意力; 哈希代理; 跨尺度; 圖像檢索

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2024)11-040-3477-07

doi: 10.19734/j.issn.1001-3695.2024.01.0062

Deep hashing method based on cross-scale Vision Transformer

Yao Peiyuna, Yu Jiongb?, Li Xueb, Li Ziyanga, Chen Pengchenga

(a. School of Software, b. School of Computer Science amp; Technology, Xinjiang University, rümqi 830046, China)

Abstract:To solve the problems of insufficient ability of current deep hashing algorithms to extract cross-scale features and difficulty in fitting the global similarity distribution of data, this paper proposed a deep hashing method based on cross-scale Vision Transformer. Firstly, the method utilized pyramid convolution and cross-scale attention mechanism to construct a multi-level encoder to capture the rich semantic information of the image. Secondly, the method proposed a proxy based deep hashing algorithm. This algorithm generated hash proxies for each category, allowing hash codes to learn discriminative class features to reduce the distance from hash proxies of the same category and fit the global similarity distribution of the data. Finally, the method added an angle margin term between the hash proxy and the hash code to expand intra class similarity and inter class differences to generate hash codes with high discriminability. The experimental results conducted on CIFAR-10, ImageNet-100, NUS Wide, and MS COCO show that the average retrieval accuracy of the algorithm is 4.42%, 19.61%, 0.35%, and 15.03% higher than the suboptimal method, respectively, demonstrating the effectiveness of the algorithm.

Key words:deep hashing; Vision Transformer; hash proxy; cross scale; image retrieval

0 引言

隨著技術(shù)不斷進(jìn)步和應(yīng)用需求不斷提高,人們?nèi)粘I詈凸ぷ髦挟a(chǎn)生了大量的圖像數(shù)據(jù),如何從海量圖像數(shù)據(jù)庫(kù)中檢索到相似或相同的圖片成為當(dāng)前研究的熱點(diǎn)。哈希學(xué)習(xí)將高維圖像特征向量編碼為低維的哈希碼,通過(guò)計(jì)算檢索圖像與數(shù)據(jù)庫(kù)圖像哈希碼的漢明距離并排序,返回最相似的檢索結(jié)果,大大提高了檢索效率。

深度神經(jīng)網(wǎng)絡(luò)的提出使得提取的圖像特征不再依靠傳統(tǒng)人工標(biāo)注。卷積神經(jīng)網(wǎng)絡(luò)利用其局部連接和權(quán)重共享機(jī)制,提取圖像局部特征的能力強(qiáng),但難以捕獲圖像長(zhǎng)距離依賴關(guān)系和多尺度特征。近年來(lái),Transformer在自然語(yǔ)言處理方向取得了顯著的進(jìn)展,掀起了計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)ransformer方法研究的熱潮。視覺(jué)注意力(vision transformer, ViT)[1]利用自注意力機(jī)制學(xué)習(xí)圖像中的所有圖像塊(image patches),能夠更好地捕獲全局信息,因此在許多計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)出色。然而,現(xiàn)實(shí)世界中的圖像尺度并不固定,因此單純利用卷積神經(jīng)網(wǎng)絡(luò)或Vision Transformer來(lái)提取圖像特征存在一定的局限性[2]。針對(duì)這一問(wèn)題,本文考慮融合卷積神經(jīng)網(wǎng)絡(luò)的局部特征提取能力和Vision Transformer的長(zhǎng)距離依賴關(guān)系捕獲能力,提取圖像跨尺度的特征信息。

現(xiàn)有的深度哈希算法通過(guò)構(gòu)建圖像對(duì)[3]或三元組[4]的方式來(lái)學(xué)習(xí)其內(nèi)部相似性關(guān)系。然而受到小批量學(xué)習(xí)的限制,同一批次生成的相似樣本對(duì)數(shù)量遠(yuǎn)小于不相似樣本對(duì)。這種數(shù)據(jù)不平衡問(wèn)題使得模型難以擬合全局?jǐn)?shù)據(jù)分布,導(dǎo)致生成次優(yōu)的哈希碼,限制了檢索性能。同時(shí),僅僅依靠圖像之間是否共享同一個(gè)標(biāo)簽來(lái)構(gòu)建相似度矩陣,使得標(biāo)簽所包含的語(yǔ)義信息無(wú)法得到充分利用,因此生成的哈希碼很難具有高判別性。因此,在這項(xiàng)研究中,本文考慮提出一種以構(gòu)建哈希代理來(lái)進(jìn)行的方式,通過(guò)學(xué)習(xí)哈希碼與哈希代理之間的相似性,使得哈希碼能夠更靠近同類(lèi)別的哈希代理,不僅能充分利用圖像所包含的類(lèi)別信息,還可以使模型所學(xué)習(xí)到的相似性關(guān)系不局限于圖像對(duì)或三元組內(nèi)部。

針對(duì)上述問(wèn)題,本文提出了一種基于跨尺度Vision Transformer的深度哈希算法。首先,為了提取圖像的跨尺度信息,本文構(gòu)建了一種多層次特征提取模型。在編碼部分,通過(guò)不同大小的卷積核來(lái)捕獲圖像不同尺度的特征信息,并對(duì)不同patch使用窗口自注意力機(jī)制和空洞自注意力機(jī)制,來(lái)捕獲圖像的長(zhǎng)距離依賴關(guān)系。卷積與Transformer的結(jié)合,使得模型能更好地提取圖像的跨尺度特征。其次,為了擬合數(shù)據(jù)的全局相似度分布,提出了一種基于代理的深度哈希算法。本文在圖像標(biāo)簽的指導(dǎo)下為每個(gè)類(lèi)別的哈希碼生成哈希代理,并度量哈希碼與哈希代理之間的距離。通過(guò)這種方式,模型可以直接學(xué)習(xí)標(biāo)簽對(duì)應(yīng)的特征表示,所學(xué)習(xí)到的哈希碼也可以包含更多具有鑒別性的類(lèi)別信息。最后,為了進(jìn)一步提升哈希碼的類(lèi)內(nèi)緊湊性和類(lèi)間差異性,本文在哈希碼和哈希代理之間添加了一個(gè)角度邊距項(xiàng)。通過(guò)壓縮同一類(lèi)別哈希碼和哈希代理之間的距離,相同類(lèi)別的哈希碼和哈希代理能夠彼此接近,進(jìn)而使得不同類(lèi)別間的哈希碼具有區(qū)分度。綜上所述,本文的主要貢獻(xiàn)可歸納為:

a)提出了一種基于跨尺度Vision Transformer的深度哈希算法,利用金字塔卷積和自注意力機(jī)制捕獲圖像跨尺度特征信息,提升模型的特征表示能力。

b)充分利用標(biāo)簽,為每個(gè)類(lèi)別的哈希碼生成對(duì)應(yīng)的哈希代理,優(yōu)化哈希碼和對(duì)應(yīng)哈希代理之間的距離,使哈希碼包含豐富的語(yǔ)義信息,擬合數(shù)據(jù)全局相似度分布。

c)在哈希碼和哈希代理之間添加角度邊距項(xiàng),縮小類(lèi)內(nèi)距離,擴(kuò)大類(lèi)間距離,生成具有高判別性的哈希碼。

1 相關(guān)工作

1.1 Vision Transformer

Transformers在處理計(jì)算機(jī)視覺(jué)任務(wù)方面取得了長(zhǎng)足的進(jìn)步。2020年,谷歌提出的Vision Transformer成為圖像處理領(lǐng)域新骨干網(wǎng)絡(luò)。Vision Transformer會(huì)將圖像劃分為固定大小的patches,并將每個(gè)patch轉(zhuǎn)換為嵌入向量表示整個(gè)圖像。這些嵌入向量隨后輸入到自注意力模塊中,最終輸出圖像的特征表示。該方法在捕捉圖像上下文信息并建立長(zhǎng)距離依賴關(guān)系方面具有明顯的優(yōu)勢(shì)。然而ViT的訓(xùn)練過(guò)程需要大量的計(jì)算資源,對(duì)部署資源要求高,因此DeiT[5]使用知識(shí)蒸餾來(lái)壓縮模型,同時(shí)加速訓(xùn)練過(guò)程。Swin Transformer[6]提出了基于滑動(dòng)窗口的自注意力機(jī)制,同時(shí)通過(guò)下采樣層,使模型能夠處理超分辨率的圖片,節(jié)省計(jì)算量的同時(shí)能夠關(guān)注全局和局部的信息。上述ViT及其改進(jìn)方法實(shí)現(xiàn)了局部和全局特征信息之間的交互,然而現(xiàn)實(shí)生活中所產(chǎn)生的圖像特征具有不同尺度。本文考慮設(shè)計(jì)一種多層級(jí)編碼器,融合卷積神經(jīng)網(wǎng)絡(luò)和Vision Transformer,通過(guò)模型的學(xué)習(xí)來(lái)捕獲圖像的跨尺度信息,并進(jìn)一步結(jié)合圖像檢索任務(wù),以捕獲更豐富的視覺(jué)特征。

1.2 哈希學(xué)習(xí)

傳統(tǒng)哈希算法依賴于人工標(biāo)注特征并且需要復(fù)雜的計(jì)算過(guò)程和較長(zhǎng)的比特串才能實(shí)現(xiàn)較高的精確率。近年來(lái),隨著深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolution neural network, DCNN)的廣泛使用,基于深度學(xué)習(xí)的圖像檢索方法取得了重要突破。CNNH[7]最早使用AlexNet作為提取特征的骨干網(wǎng)絡(luò),相比傳統(tǒng)基于手工設(shè)計(jì)特征方法取得了顯著的性能提升。但這種方法不是端到端的方法,學(xué)到的圖像表示不能反作用于哈希碼更新,因此不具備較強(qiáng)的適應(yīng)性和泛化能力。DPSH[8]基于貝葉斯框架設(shè)計(jì)了基于圖像對(duì)的交叉熵?fù)p失函數(shù),以端到端方式將網(wǎng)絡(luò)輸出映射為二進(jìn)制哈希碼。HashNet[9]設(shè)置一個(gè)添加于成對(duì)交叉熵?fù)p失的權(quán)重來(lái)平衡正負(fù)樣本對(duì),同時(shí)優(yōu)化tanh函數(shù),使得特征向量能夠逐漸逼近哈希碼。DCH[10]進(jìn)一步改進(jìn)概率生成函數(shù),聯(lián)合優(yōu)化柯西交叉熵?fù)p失和柯西量化損失,在恒定時(shí)間復(fù)雜度下實(shí)現(xiàn)高效漢明空間檢索。GreedyHash[11]將sgn函數(shù)內(nèi)嵌在訓(xùn)練過(guò)程中,并設(shè)計(jì)一種貪心反向傳播算法,緩解了二值化過(guò)程中的梯度消失問(wèn)題。CSQ[12]提出了一種中心相似度的度量方式,鼓勵(lì)相似圖像之間的哈希碼能夠接近一個(gè)共同的哈希中心,不相似圖像的哈希碼可以收斂到不同的哈希中心,顯著提升了檢索的性能。LSCSH[13]考慮到不同標(biāo)簽在圖像中的不同主導(dǎo)地位,通過(guò)word2vector技術(shù)自適應(yīng)地生成和更新哈希中心,以異步的方式學(xué)習(xí)哈希碼的表示。

然而上述方法都是基于經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò)所提出的,ViT在圖像檢索領(lǐng)域的應(yīng)用進(jìn)一步提升了檢索的精確率。TransHash[14]在ViT之上創(chuàng)新地提出了雙通道特征學(xué)習(xí),以學(xué)習(xí)有區(qū)別的全局和局部特征,同時(shí)實(shí)現(xiàn)端到端的生成圖像哈希碼。HashFormer[15]構(gòu)建了一個(gè)基于ViT的深度哈??蚣?,并將檢索精度納入訓(xùn)練目標(biāo),使得哈希碼具有類(lèi)間可分離性和類(lèi)內(nèi)緊湊性。VTS[16]使用預(yù)訓(xùn)練的Vision Transformer模型作為編碼器,并在當(dāng)前最先進(jìn)的深度哈希算法上進(jìn)行了大量的實(shí)驗(yàn),論證了以VTS作為骨干網(wǎng)絡(luò)的哈希算法相比傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)具有更高的檢索精度。然而Vision Transformer擅長(zhǎng)捕獲圖像的長(zhǎng)距離依賴關(guān)系,卻忽略了圖像特征的尺度差異,因此不僅限制了模型的跨尺度特征提取能力,還增加了計(jì)算量。筆者期望模型能具有圖像的跨尺度特征融合和多層次編碼能力,使哈希碼可以包含更豐富的特征信息,進(jìn)一步改善檢索的性能?;赟win Transformer的深度有監(jiān)督哈希圖像檢索方法[17]設(shè)計(jì)了一種多層次的特征提取結(jié)構(gòu),并提出了一種貪心非對(duì)稱損失,提高了哈希碼學(xué)習(xí)的精確率。與本文不同的是,基于Swin Transformer的深度有監(jiān)督哈希圖像檢索方法更側(cè)重于保留模型所提取的底層特征,并且針對(duì)反向傳播梯度消失的問(wèn)題進(jìn)行算法設(shè)計(jì),而本文更關(guān)注圖像不同尺度的特征融合以及哈希碼類(lèi)間差異性和類(lèi)內(nèi)相似性的優(yōu)化方向。因此在學(xué)習(xí)圖像的語(yǔ)義信息并生成具有鑒別性類(lèi)別信息的高質(zhì)量哈希碼方面具有一定優(yōu)勢(shì)。MSViT[18]提出了一種基于ViT的多尺度特征融合圖像檢索方法,同時(shí)優(yōu)化了三元組數(shù)據(jù)的構(gòu)造規(guī)則,提高了檢索的性能。為了進(jìn)一步擴(kuò)大類(lèi)間距離,縮小類(lèi)內(nèi)距離,本文考慮一種基于代理的度量學(xué)習(xí)方式,為每個(gè)類(lèi)別的哈希碼生成對(duì)應(yīng)的哈希代理,優(yōu)化哈希碼和對(duì)應(yīng)哈希代理之間的距離,生成包含圖像豐富的語(yǔ)義信息并具有高判別性哈希碼。

2 本文方法

2.1 模型架構(gòu)

本文提出基于跨尺度Vision Transformer的深度哈希算法(deep hashing method based on cross-scale vision transformer, CVPH)主要包含兩個(gè)部分:a)一個(gè)用于提取特征的骨干網(wǎng)絡(luò);b)通過(guò)不斷優(yōu)化網(wǎng)絡(luò)參數(shù)來(lái)獲得具有高判別性哈希碼的損失函數(shù)。具體的模型架構(gòu)如圖1所示。

2.1.1 跨尺度特征提取層

主流的深度卷積神經(jīng)網(wǎng)絡(luò)采用固定大小的卷積核提取圖像的特征,然而真實(shí)世界的圖像往往具有不同的尺度。因此,為了更加準(zhǔn)確地提取圖像不同尺度[19]的特征信息,本節(jié)設(shè)計(jì)了一個(gè)跨尺度特征提取層,如圖2所示。在這一層中,輸入圖像分別經(jīng)過(guò)四個(gè)不同大小的卷積核(保持步長(zhǎng)一致),大的卷積核具有更大的感受野,而較小的卷積核能較好地捕獲圖像細(xì)節(jié)信息。通過(guò)將運(yùn)算所得的四個(gè)特征向量在空間維度進(jìn)行拼接,該層輸出包含圖像跨尺度信息的特征表示。

在后續(xù)的圖像塊合并(patch merging)層,使用兩個(gè)不同大小的卷積核(保持步長(zhǎng)一致)降低特征圖的分辨率并增加通道數(shù),分層次捕獲、學(xué)習(xí)數(shù)據(jù)的特征。

2.1.2 跨尺度Vision Transformer block

跨尺度Vision Transformer的編碼塊(block)部分如圖3所示,它是由歸一化層、多頭自注意力機(jī)制和多層感知機(jī)交替組成。其中,多頭自注意力機(jī)制包括窗口多頭自注意力機(jī)制(window multi-head self attention,W-MSA)[18]和空洞窗口多頭自注意力機(jī)制(dilated multi-head self-attention,D-MSA)。

W-MSA機(jī)制將特征圖按照窗口大小的定義均勻劃分為相鄰且非重疊的M×M個(gè)patch,這樣使得每個(gè)窗口內(nèi)部可以單獨(dú)進(jìn)行自注意力計(jì)算,能夠降低自注意力機(jī)制的計(jì)算量。D-MSA以空洞的形式間隔選擇M×M個(gè)patch并單獨(dú)計(jì)算注意力,如圖4所示,通過(guò)設(shè)置窗口大小和空洞率,在減少計(jì)算量的同時(shí)捕獲圖像的長(zhǎng)距離依賴關(guān)系。具體計(jì)算過(guò)程如下:

為了獲得用于圖像檢索的哈希碼,本文設(shè)計(jì)了一個(gè)包含k個(gè)隱藏單元的全連接層作為哈希層,將跨尺度Vision Transformer提取的特征zl轉(zhuǎn)換為K維連續(xù)的編碼hi∈RK,如式(2)所示。

h(zl)=whTzl+bh∈RK(2)

2.2 損失函數(shù)

2.2.1 哈希代理?yè)p失

現(xiàn)有深度哈希算法采用成對(duì)或者三元組的方式構(gòu)建相似度矩陣,這類(lèi)方式往往需要復(fù)雜的初始化過(guò)程,并且樣本空間的量級(jí)非常大,占用了較多內(nèi)存空間。因此,基于這一問(wèn)題本文設(shè)計(jì)了一種基于代理[20]的深度哈希方法。通過(guò)優(yōu)化哈希碼與哈希代理之間的距離,模型能夠縮小類(lèi)內(nèi)距離,擴(kuò)大類(lèi)間距離,以擬合樣本的全局相似度分布。

本章為每一個(gè)類(lèi)別C隨機(jī)初始化了一個(gè)對(duì)應(yīng)的哈希代理P={pi}Ci=1∈RK×C。本文期望每張圖像的哈希碼hi能夠與其對(duì)應(yīng)的哈希代理pi彼此接近,并與其他哈希代理彼此遠(yuǎn)離,因此計(jì)算兩者之間的余弦相似度關(guān)系sim(pi,hi),如式(3)所示。

sim(pi,hi)=pi·hi‖pi2·‖pi2(3)

在訓(xùn)練過(guò)程中,通過(guò)遍歷所有哈希代理,并與圖像xi所對(duì)應(yīng)的哈希碼進(jìn)行計(jì)算,可以獲得圖像在每一類(lèi)別上的相似度集合Si

Si={S(p1,hi),S(p2,hi),…,S(pNcls,hi)}Ni=1(4)

為了衡量圖像類(lèi)別的預(yù)測(cè)概率與真實(shí)標(biāo)簽的差異,本文通過(guò)計(jì)算交叉熵?fù)p失來(lái)進(jìn)一步優(yōu)化模型的參數(shù),使得哈希碼可以包含更為豐富的語(yǔ)義信息,并保持?jǐn)?shù)據(jù)的全局相似度分布,計(jì)算方式如下:

其中:yi,j為第i個(gè)樣本在第j類(lèi)上的真實(shí)標(biāo)簽,如果圖像xi屬于第j類(lèi),則yi,j=1,否則yi,j=0;Softmax(Si)計(jì)算得到的結(jié)果為第i個(gè)樣本對(duì)第j類(lèi)的預(yù)測(cè)概率。通過(guò)損失函數(shù)的反向傳播,網(wǎng)絡(luò)輸出的哈希碼可以包含更多的具有鑒別性的類(lèi)別語(yǔ)義表示。

2.2.2 角度邊距項(xiàng)

為了使模型學(xué)習(xí)到更加豐富的圖像語(yǔ)義信息[20],有效擴(kuò)大類(lèi)間距離,縮小類(lèi)內(nèi)距離,本文為哈希代理和哈希碼添加了一個(gè)角度邊距項(xiàng)。在計(jì)算哈希代理和哈希碼余弦相似度的過(guò)程中所得到的sim(pi,hi)即為哈希代理和哈希碼的夾角θip的余弦值cos θip,因此可以求得夾角θip的值。其次為θip添加角度邊距項(xiàng)m,如圖5所示,這一過(guò)程使得哈希代理pi由藍(lán)色向量轉(zhuǎn)移到紅色向量pi′(參見(jiàn)電子版),相當(dāng)于擴(kuò)大哈希代理與哈希碼之間的距離,損失函數(shù)計(jì)算結(jié)果隨之增大,因此網(wǎng)絡(luò)可以通過(guò)其反向傳播機(jī)制來(lái)修正模型的參數(shù)。生成的哈希碼為了更靠近移動(dòng)后哈希代理pi′,會(huì)進(jìn)行更新,從而實(shí)現(xiàn)從hi到hi′的變換。基于角度邊距項(xiàng)的哈希代理?yè)p失計(jì)算方式為

LAP=-1N∑Ni=1loges(cos(θip+m))es(cos(θip+m))+∑nj=1,j≠ipes×cos(θj(6)

其中:s為自定義的超參數(shù)。相比于未添加角度邊距項(xiàng)的hi與pi,變換后的hi′與pi之間的距離明顯縮小,從而使得屬于同一類(lèi)別的圖像哈希碼更加集中,而不同類(lèi)別之間的哈希碼間距明顯擴(kuò)大。

2.2.3 量化約束

圖像經(jīng)過(guò)哈希層后得到的輸出是連續(xù)的,然而理想的哈希碼應(yīng)該是二值化的。為了使hi的每一位hik能夠接近于-1或1,本文設(shè)計(jì)了量化損失,如式(7)所示。

其中:1代表全是1的向量。通過(guò)控制量化損失,hi可以更接近于圖像真實(shí)的哈希碼。

整合式(6)(7),得到了CVPH的目標(biāo)函數(shù),如式(8)所示。

其中:超參數(shù)λ代表量化損失在目標(biāo)函數(shù)中的權(quán)重。通過(guò)最小化式(8),利用反向傳播機(jī)制不斷更新網(wǎng)絡(luò)的參數(shù),以提取到具有高判別性的圖像特征。

3 實(shí)驗(yàn)

為了驗(yàn)證CVPH算法在圖像檢索中的有效性,本文在四組公開(kāi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。本章首先介紹了所使用的數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置和評(píng)價(jià)指標(biāo),其次展示了CVPH與一些最先進(jìn)圖像檢索算法的對(duì)比。然后通過(guò)消融實(shí)驗(yàn)分別驗(yàn)證各個(gè)組件的有效性。最后將學(xué)習(xí)到的哈希碼可視化并展示實(shí)際的檢索結(jié)果。

3.1 數(shù)據(jù)集

本文在四個(gè)廣泛用于類(lèi)別級(jí)圖像檢索的公開(kāi)數(shù)據(jù)集上驗(yàn)證了本文方法的有效性。CIFAR-10[22]是一個(gè)包含來(lái)自現(xiàn)實(shí)世界的彩色圖像的單標(biāo)簽數(shù)據(jù)集,包含60 000張32×32像素的圖像。ImageNet-100[23]單標(biāo)簽數(shù)據(jù)集,是從ImageNet數(shù)據(jù)集中抽取其中常用的100個(gè)類(lèi)別所得到的128 503張圖像。NUS-Wide[24]是來(lái)自Flickr照片分享網(wǎng)站的多標(biāo)簽數(shù)據(jù)集,涵蓋81個(gè)類(lèi)別的主題和場(chǎng)景。根據(jù)文獻(xiàn)[25]中的實(shí)驗(yàn)設(shè)置,本文選擇了21個(gè)最常用的標(biāo)簽。MS COCO[26]是一個(gè)用于多個(gè)任務(wù)的多標(biāo)簽數(shù)據(jù)集。本文實(shí)驗(yàn)從給出的122 218個(gè)樣本中刪除了沒(méi)有任何類(lèi)別信息的樣本。具體數(shù)據(jù)集劃分如表1所示。

3.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)中使用到的CPU和GPU型號(hào)分別為Intel?Xeon?Gold 5117 CPU @ 2.00 GHz 和Tesla V100 16 GB。在訓(xùn)練中使用單張GPU,加載預(yù)訓(xùn)練模型所用的深度學(xué)習(xí)框架為PyTorch 1.13.1,并使用Adam優(yōu)化器,設(shè)置學(xué)習(xí)率和權(quán)重衰減均為1E-5。實(shí)驗(yàn)的batch size設(shè)置為128,訓(xùn)練epoch為100。對(duì)于訓(xùn)練集圖像,所有圖像首先被調(diào)整為256×256大小,然后隨機(jī)剪裁為224×224大小。對(duì)于測(cè)試集圖像,本文只將其隨機(jī)剪裁為224×224大小。

3.3 評(píng)價(jià)指標(biāo)

本文選擇平均精度均值mAP、PR曲線、P@N、P@H≤2作為評(píng)價(jià)指標(biāo)[27]。AP是前n個(gè)返回圖像的平均精確率,計(jì)算方式如式(9)所示。

AP=∑NK=1p(k)·rel(k)R(9)

其中:R表示從檢索返回的總數(shù)N中與查詢圖像相似的圖像個(gè)數(shù);P(k)是檢索到的前k個(gè)圖像的精確率;rel(k)是一個(gè)指標(biāo)函數(shù),如果第k位內(nèi)的圖像是相似圖像,則rel(k)等于1,否則為0。

mAP(mean average precision)表示所有查詢圖像的平均檢索精確率,計(jì)算方式如式(10)所示,其中Q代表查詢圖像的數(shù)量:

mAP=1Q∑Qq=1AP(q)(10)

P-R曲線是精確率為橫坐標(biāo),召回率為縱坐標(biāo)繪制的。如果一個(gè)算法的P-R曲線被另一個(gè)算法的P-R曲線完全包住,則可斷言后者的性能優(yōu)于前者。如果性能無(wú)法直接判斷,可以根據(jù)曲線下方的面積大小來(lái)進(jìn)行比較,曲線的覆蓋面積即為AP。

P@N是前n個(gè)檢索結(jié)果精度。這個(gè)曲線反映了前N個(gè)檢索結(jié)果的精確率變化,可以在圖像檢索中有效衡量算法的魯棒性和穩(wěn)定性。

P@H≤2是漢明距離小于2的精度值。這個(gè)指標(biāo)可以反映哈希碼在半徑為2的漢明球中的聚合程度。通過(guò)不同長(zhǎng)度哈希碼P@H≤2值來(lái)評(píng)價(jià)哈希碼位數(shù)對(duì)精確率的影響。

3.4 對(duì)比實(shí)驗(yàn)

本文將CVPH的mAP值與九種最先進(jìn)的深度哈希方法進(jìn)行對(duì)比,包括三種基于ViT的方法,如MSViT-B[16]、HashFormer[15]以及TransHash[14],和六種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,如GreedyHash[11]、DCH[10]、CSQ[12]、DPN[28]、PSLDH[29]、DHD[19],并選擇ResNet50[30]作為骨干網(wǎng)絡(luò),并使用在ImageNet上預(yù)訓(xùn)練的權(quán)重。

表2、3展示了在單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集上不同長(zhǎng)度的哈希碼的mAP值。對(duì)于單標(biāo)簽數(shù)據(jù)集,如表2所示,在CIFAR-10數(shù)據(jù)集上,CVPH方法相比于深度神經(jīng)網(wǎng)絡(luò)編碼器的方法,在不同的哈希碼長(zhǎng)度上分別提升11.85%、9.63%、10.2%、9.17%,因此證明通過(guò)卷積神經(jīng)網(wǎng)絡(luò)與Vision Transformer的結(jié)合既能提取圖像的局部特征,又能利用自注意力機(jī)制捕獲圖像的長(zhǎng)距離依賴關(guān)系,獲得具有判別性的圖像表示。在ImageNet-100數(shù)據(jù)集上,與最新的深度哈希算法MSViT-B相比,在不同的哈希碼長(zhǎng)度上分別提升16.18%、8.15%、5.05%、3.96%。雖然在多標(biāo)簽數(shù)據(jù)集NUS-Wide上,本文方法在64位哈希碼的檢索效果略低于MSViT-B,但在其他數(shù)據(jù)集上均有一定程度的提升。分析其原因,MSViT-B作為使用Transformer為編碼器的深度哈希算法,盡管利用雙通道將圖像劃分成大小兩種patch來(lái)提取特征,但本文算法利用四種大小的卷積核以及兩種注意力機(jī)制捕獲圖像的跨尺度特征信息,因此具有較高的檢索精度。此外,本文方法在16位哈希碼上的檢索精確率取得了較大的提升。16位哈希碼相比其他長(zhǎng)度的哈希碼來(lái)說(shuō),所能包含的特征信息更加有限。而本文方法能在ImageNet-100和MS COCO上取得較大提升,主要原因是這兩個(gè)數(shù)據(jù)集分別包含100類(lèi)和80類(lèi),類(lèi)別數(shù)目較多。所提出的哈希代理?yè)p失利用標(biāo)簽信息指導(dǎo)哈希碼的學(xué)習(xí)過(guò)程,因此模型通過(guò)類(lèi)別標(biāo)簽生成哈希代理,很容易學(xué)習(xí)到不同標(biāo)簽對(duì)應(yīng)的圖像特征表示。這種方式不僅省去構(gòu)建圖像對(duì)或三元組的復(fù)雜過(guò)程,同時(shí)還能擬合數(shù)據(jù)的全局相似度分布。同時(shí)所添加的角度邊距項(xiàng)可以縮小同類(lèi)別哈希碼和哈希代理之間的距離。類(lèi)內(nèi)距離的縮小,進(jìn)而擴(kuò)大了類(lèi)間差異性,以此生成具有高判別性的哈希碼。

圖6、7分別展示了在64 bit上不同方法在三個(gè)數(shù)據(jù)集上的P-R曲線、P@N以及16 bit、32 bit、48 bit和64 bit的P@H≤2(參見(jiàn)電子版)曲線,其中紅色曲線代表CVPH方法的結(jié)果。在CIFAR-10上,本文的方法在三個(gè)評(píng)價(jià)指標(biāo)上的結(jié)果明顯優(yōu)于其他對(duì)比方法,P-R曲線下方的面積顯著大于其他方法。對(duì)于NUS-Wide數(shù)據(jù)集,在相同召回率下,CVPH的精確率仍能高于其他對(duì)比方法,并且在前1 000張返回的圖像中,本文方法獲得90.12%的精確度。盡管隨著召回率的增加,多標(biāo)簽圖像的精度下降得更快,但CVPH仍然比其他方法獲得更好的性能。這是因?yàn)橥ㄟ^(guò)跨尺度Vision Transformer可以提取圖像豐富的語(yǔ)義特征,同時(shí)利用哈希代理與角度邊距項(xiàng)的優(yōu)化,使得不同類(lèi)別的哈希碼之間獲得了顯著的邊距,從而產(chǎn)生可區(qū)分的語(yǔ)義哈希碼。

3.5 消融實(shí)驗(yàn)

本節(jié)針對(duì)模型中不同組件分別驗(yàn)證其對(duì)檢索精確率的影響,設(shè)計(jì)了四種不同的變體,并與本文方法進(jìn)行對(duì)比:

a)CVPH-v1:一個(gè)使用ResNet骨干網(wǎng)絡(luò)作為編碼器和基于哈希代理的角度邊距項(xiàng)損失的變體。

b)CVPH-v2:一個(gè)使用所提出的跨尺度Vision Transformer編碼器與成對(duì)損失的變體。

c)CVPH-v3:一個(gè)使用所提出的跨尺度Vision Transformer編碼器與三元組損失的變體。

d)CVPH-v4:一個(gè)使用所提出的跨尺度Vision Transformer編碼器與哈希代理?yè)p失的變體。

e)CVPH-v5:本文方法。

表4展示了哈希碼長(zhǎng)度64的算法在四個(gè)不同數(shù)據(jù)集上消融實(shí)驗(yàn)的結(jié)果。當(dāng)不使用基于跨尺度Vision Transformer編碼器時(shí),即CVPH-v1,檢索mAP值分別下降了7.96%、5.48%、7.7%、10.56%,這種現(xiàn)象表明金字塔卷積和兩種自注意力機(jī)制的串聯(lián)結(jié)構(gòu)相比于卷積神經(jīng)網(wǎng)絡(luò),能夠捕獲圖像的跨尺度特征信息,提高模型的特征表達(dá)能力。而將成對(duì)損失、三元組損失與所提出的哈希代理?yè)p失進(jìn)行對(duì)比,即CVPH-v2、CVPH-v3、CVPH-v4,可以看出哈希代理?yè)p失具有更高的檢索精確率,這是因?yàn)橥ㄟ^(guò)為每個(gè)類(lèi)別的哈希碼生成哈希代理,使得同類(lèi)別的哈希碼和哈希代理彼此接近,相似性關(guān)系不再局限于圖像對(duì)或三元組之間,更好地?cái)M合了數(shù)據(jù)的全局相似度分布。當(dāng)不添加角度邊距項(xiàng)時(shí),即為CVPH-v4,與所提出方法相比均有不同程度的精度下降,因此證明角度邊距項(xiàng)能夠擴(kuò)大類(lèi)間差異性,提高類(lèi)內(nèi)緊湊性,以生成包含豐富語(yǔ)義信息的高判別性哈希碼。消融實(shí)驗(yàn)結(jié)構(gòu)表明,CVPH的各個(gè)組件均對(duì)模型的檢索精確率有一定的影響,論證了組件的有效性。

3.6 可視化實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文方法的有效性,本節(jié)從模型的特征提取能力以及檢索精確率兩個(gè)角度出發(fā)進(jìn)行實(shí)驗(yàn)設(shè)計(jì)。

本節(jié)選擇ImageNet-100中五個(gè)常見(jiàn)類(lèi)別的單張圖像進(jìn)行測(cè)試,并與最先進(jìn)的四個(gè)深度哈希算法對(duì)比,生成對(duì)應(yīng)的類(lèi)激活圖(class activation map, CAM),以展示模型對(duì)圖像不同區(qū)域的關(guān)注程度,提高模型的可解釋性。如圖8所示,類(lèi)激活圖中的紅色區(qū)域?yàn)槟P透雨P(guān)注的位置,本文方法與其他方法相比,能夠捕獲圖像的多尺度特征,因此在“蝸牛”“鳥(niǎo)”等類(lèi)別中,類(lèi)激活圖重點(diǎn)位置均在類(lèi)別主體上,而不局限于某一特定的翅膀、顏色等特征,進(jìn)一步說(shuō)明CVPH算法能減少背景噪聲的干擾,同時(shí)關(guān)注到其具有鑒別性的特征。

此外,本節(jié)在CIFAR-10數(shù)據(jù)集上分別選擇十張查詢圖像,生成64 bit的哈希碼并進(jìn)行檢索,可視化了返回的前十張相似度最高的圖像。如圖9所示,本文方法在不同類(lèi)別上均能返回較為相似的同類(lèi)別圖像。尤其是在“汽車(chē)(automobile)”與“卡車(chē)(truck)”類(lèi)別特征較為相似的情況下,CVPH方法均返回了檢索正確的圖像。因此,實(shí)驗(yàn)結(jié)果進(jìn)一步說(shuō)明CVPH算法可以利用角度邊距項(xiàng)擴(kuò)大類(lèi)間距離,縮小類(lèi)內(nèi)距離,學(xué)習(xí)到圖像的語(yǔ)義信息,并生成具有鑒別性類(lèi)別信息的高質(zhì)量哈希碼。

4 結(jié)束語(yǔ)

針對(duì)現(xiàn)有深度哈希算法難以捕捉圖像豐富的跨尺度語(yǔ)義特征以及擬合數(shù)據(jù)的全局相似度分布問(wèn)題,本文提出了一種基于跨尺度Vision Transformer的深度哈希算法。首先,本文利用金字塔卷積和自注意力機(jī)制構(gòu)建了一個(gè)多層次編碼器,捕獲圖像的跨尺度特征信息,提升模型的特征表示能力。其次,為每個(gè)類(lèi)別的哈希碼生成對(duì)應(yīng)的哈希代理,并在哈希碼和哈希代理之間添加角度邊距項(xiàng),利用標(biāo)簽所包含的豐富語(yǔ)義信息,生成具有高鑒別性的哈希。實(shí)驗(yàn)結(jié)果表明,所提出的算法在單標(biāo)簽和多標(biāo)簽數(shù)據(jù)集上均取得了較好的檢索結(jié)果。然而,由于圖像來(lái)源的多樣性,具有相同語(yǔ)義信息的圖像可能會(huì)有較大的視覺(jué)差異,如何降低哈希碼對(duì)圖像變換的敏感性,提升模型的泛化能力,成為下一階段研究的重點(diǎn)。

參考文獻(xiàn):

[1]Dosovitskiy A, Beyer L, Kolesnikov A,et al. An image is worth 16x16 words: transformers for image recognition at scale [C]// Proc of the 9th International Conference on Learning Representations. Washington DC:ICLR,2020.

[2]Chen Chunfu, Fan Quanfu, Panda R. CrossViT: cross-attention multi-scale vision transformer for image classification [C]// Proc of the 18th IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 357-366.

[3]李雪, 于炯, 李梓楊,等. 基于成對(duì)標(biāo)簽的深度哈希圖像檢索方法 [J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2021, 42 (7): 1981-1988. (Li Xue, Yu Jiong, Li Ziyang, et al. Deep hashing image retrieval based on pairwise label [J]. Computer Engineering and Design, 2021, 42 (7): 1981-1988.)

[4]李玉強(qiáng), 陸子微, 劉春. 基于對(duì)比學(xué)習(xí)的無(wú)監(jiān)督三元哈希方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40 (5): 1434-1440. (Li Yuqiang, Lu Ziwei, Liu Chun. Unsupervised ternary hash method based on contrastive learning [J]. Application Research of Computers, 2023, 40 (5): 1434-1440.)

[5]Touvron H, Cord M, Douze M,et al. Training data-efficient image transformers amp; distillation through attention [C]// Proc of the 38th International Conference on Machine Learning. New York:ICML,2021: 10347-10357.

[6]Liu Ze, Lin Yutong, Cao Yue,et al. Swin Transformer: hierarchical vision transformer using shifted windows [C]// Proc of the 18th IEEE/CVF International Conference on Computer Vision. Piscat-away, NJ: IEEE Press, 2021: 10012-10022.

[7]Lai Hanjiang, Pan Yan, Liu Ye,et al. Simultaneous feature learning and hash coding with deep neural networks [C]// Proc of the 28th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 3270-3278.

[8]Li Wujun, Wang Sheng, Kang Wangcheng. Feature learning based deep supervised hashing with pairwise labels [C]// Proc of the 25th International Joint Conference on Artificial Intelligence. Freiburg:IJCAI,2016: 1711-1717.

[9]Cao Zhangjie, Long Mingsheng, Wang Jianmin,et al. HashNet: deep learning to hash by continuation [C]// Proc of the 16th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5608-5617.

[10]Cao Yue, Long Mingsheng, Liu Bin,et al. Deep Cauchy hashing for Hamming space retrieval [C]// Proc of the 31st IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1229-1237.

[11]Su Shupeng, Zhang Chao, Han Kai,et al. GreedyHash: towards fast optimization for accurate hash coding in CNN [C]// Proc of the 32nd Conference on Neural Information Processing Systems. San Diego:NIPS,2018.

[12]Yuan Li, Wang Tao, Zhang Xiaopeng,et al. Central similarity quantization for efficient image and video retrieval [C]// Proc of the 33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 3083-3092.

[13]Xie Yanzhao, Wei Rukai, Song Jingkuan,et al. Label-affinity self-adaptive central similarity hashing for image retrieval [J]. IEEE Trans on Multimedia, 2023, 25: 9161-9174.

[14]Chen Yongbiao, Zhang Sheng, Liu Fangxin,et al. TransHash: transformer-based hamming hashing for efficient image retrieval [C]// Proc of International Conference on Multimedia Retrieval. New York :ICML,2022: 127-136.

[15]Li Tao, Zhang Zheng, Pei Lishen,et al. HashFormer: vision transformer based deep hashing for image retrieval [J]. IEEE Signal Processing Letters, 2022, 29: 827-831.

[16]Dubey S R, Singh S K, Chu W T. Vision transformer hashing for image retrieval [C]// Proc of IEEE International Conference on Multimedia and Expo.Piscataway, NJ: IEEE Press, 2022: 1-6.

[17]苗壯, 趙昕昕, 李陽(yáng),等. 基于Swin Transformer的深度有監(jiān)督哈希圖像檢索方法 [J]. 湖南大學(xué)學(xué)報(bào):自然科學(xué)版, 2023, 50 (8): 62-71. (Miao Zhuang, Zhao Xinxin, Li Yang, et al. Deep supervised hashing image retrieval method based on Swin Transformer [J]. Journal of Hunan University: Natural Science, 2023, 50 (8): 62-71.)

[18]Li Xue, Yu Jiong, Jiang Shaochen,et al. MSViT: training multiscale vision Transformers for image retrieval [J]. IEEE Trans on Multimedia, 2023, 26:2809-2823.

[19]Wang Wenxiao, Chen Wei, Qiu Qibo,et al. CrossFormer++: a versatile vision transformer hinging on cross-scale attention [J]. IEEE Trans on Pattern Analysis and Machine Intelligence. 2023, 46(5):3123-3136.

[20]Jang Y K, Gu G M, Ko B S,et al. Deep hash distillation for image retrieval [C]// Proc of the 21st European Conference on Computer Vision. Berlin: Springer, 2022: 354-371.

[21]Deng Jiankang, Guo Jia, Xue Niannan,et al. ArcFace: additive angular margin loss for deep face recognition [C]// Proc of the 32nd IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 4690-4699.

[22]Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images [J]. Communications of the ACM, 2009,60(6): 84-90.

[23]Deng Jia, Dong Wei, Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of the 22nd IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2009: 248-255.

[24]Chua T S, Tang Jinhui, Hong R,et al. NUS-Wide: a real-world Web image database from National University of Singapore [C]// Proc of the 26th ACM International Conference on Image and Video Retrieval. New York: ACM Press, 2009: 1-9.

[25]趙昕昕, 李陽(yáng), 苗壯,等. 貪心非對(duì)稱深度有監(jiān)督哈希圖像檢索方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (10): 3156-3160. (Zhao Xinxin, Li Yang, Miao Zhuang, et al. Greedy asymmetric depth supervised hash image retrieval method [J]. Application Research of Computers, 2022, 39 (10): 3156-3160.)

[26]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context [C]// Proc of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 740-755.

[27]Li Xue, Yu Jiong, Wang Yongqiang,et al. DAHP: deep attention-guided hashing with pairwise labels [J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32 (3): 933-946.

[28]Fan Lixin, Ng K W, Ju Ce,et al. Deep polarized network for supervised learning of accurate binary hashing codes [C]// Proc of the 29th International Joint Conference on Artificial Intelligence. Freiburg:IJCAI,2020: 825-831.

[29]Tu Rongcheng, Mao Xianling, Guo Jianan, et al. Partial-softmax loss based deep hashing [C]// Proc of the 30th Web Conference. New York: ACM Press, 2021: 2869-2878.

[30]He Kaiming, Zhang Xiangyu, Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of the 29th IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.

猜你喜歡
圖像檢索
基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛檢索方法研究
圖像特征在區(qū)域范圍內(nèi)提取方法的研究
基于Hadoop平臺(tái)的圖像檢索模型
基于顏色特征的行李箱檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
基于內(nèi)容的圖像檢索算法技術(shù)研究
基于SIFT算法的二進(jìn)制圖像檢索技術(shù)研究
基于Hadoop分布式計(jì)算的圖像檢索方法
基于分塊顏色核特征的圖像檢索方法
服裝圖像檢索研究綜述
基于金字塔梯度方向圖像特征的檢索模型設(shè)計(jì)
泸州市| 昭苏县| 南昌市| 重庆市| 乌苏市| 新蔡县| 闽侯县| 玛曲县| 黑山县| 漳州市| 广水市| 酒泉市| 长治市| 长岭县| 茶陵县| 韶关市| 罗源县| 耒阳市| 郸城县| 当阳市| 莱州市| 海宁市| 大连市| 博客| 射洪县| 禹城市| 湖南省| 南漳县| 开鲁县| 合江县| 麻阳| 永安市| 自贡市| 呼和浩特市| 景宁| 满洲里市| 灵川县| 抚宁县| 紫云| 米脂县| 灵寿县|