摘要:傳統(tǒng)的基于深度哈希圖像檢索方法在獲取圖像的特征信息時,會關(guān)注到部分冗余信息,影響最終的圖像檢索精度。針對上述問題,提出一種應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中的融合跨維度交互注意力機(jī)制模塊,該模塊可以提高網(wǎng)絡(luò)的性能,學(xué)習(xí)到更多有利于圖像檢索的特征信息。在深度哈希圖像檢索任務(wù)中,選用VGG16與ResNet18兩種經(jīng)典模型作為圖像檢索的基礎(chǔ)模型,加入注意力模塊并且重新設(shè)計哈希碼目標(biāo)損失函數(shù)后,在CIFAR-10和NUS-WIDE數(shù)據(jù)集上進(jìn)行了對比實驗,實驗結(jié)果表明添加了注意力機(jī)制后的圖像檢索精度有較大提高,驗證了所提出方法的有效性。
關(guān)鍵詞:圖像檢索;注意力模塊;卷積神經(jīng)網(wǎng)絡(luò);深度哈希
中圖分類號:TP391" " " 文獻(xiàn)標(biāo)志碼:A" " " 文章編號:1008-4657(2024)04-0033-07
0" " " " 引言
深度哈希圖像檢索方法是將哈希方法與卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional" Nerual" Network)相結(jié)合,利用CNN學(xué)習(xí)到更多更豐富的圖像特征信息,在特征提取的同時進(jìn)行哈希碼的學(xué)習(xí),最終生成圖像特征哈希碼。經(jīng)典的基于CNN的深度哈希算法是CNNH(Convolutional" Nerual" Network" Hashing)[ 1 ],它先學(xué)習(xí)哈希碼再利用CNN學(xué)習(xí)到圖像的深度特征,最后對二進(jìn)制代碼進(jìn)行擬合[ 2 ]。2016年,Li Wujun等[ 3 ]提出深度成對監(jiān)督哈希方法(Deep" Supervised" Hashing" with" Pairwise" Labels,DPSH),利用成對標(biāo)簽指導(dǎo)哈希碼的生成,并通過端到端的監(jiān)督學(xué)習(xí)生成保持相似性的哈希碼。同樣使用了成對標(biāo)簽信息的哈希方法還有深度離散監(jiān)督哈希算法(Deep" Supervised" Discrete" Hashing,DSDH)[ 4 ]。Zheng" Xiangtao等[ 5 ]提出了一種深度平衡離散哈希方法(Deep" Balanced" Discrete" Hashing,DBDH),使用直通估計器(Straight-through" Estimator,STE)與離散梯度傳播計算離散值,來提高圖像檢索性能。
但已有的基于深度哈希圖像檢索方法利用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征語義信息時得到的是全局特征信息,其中存在部分與目標(biāo)特征信息無關(guān)的區(qū)域,不利于最終的檢索任務(wù)。因此,為了提升模型的特征提取性能,有些文獻(xiàn)引入了注意力機(jī)制。注意力機(jī)制的優(yōu)點(diǎn)是在復(fù)雜的視覺信號中捕捉有效的特征信息,并通過權(quán)重分配,給重要的特征信息賦予更多的權(quán)重值,進(jìn)而達(dá)到提高神經(jīng)網(wǎng)絡(luò)模型的特征表示能力的目的[ 6 ]。
Jie" Hu等[ 7 ]首先提出了通道注意力的概念,并提出了SENet(Squeeze-and-Excitation" Networks),其核心是通過擠壓和激勵塊(SE模塊)來對全局空間信息進(jìn)行壓縮并捕獲通道關(guān)系,給不同的通道分配不同的權(quán)重。Sanghyun" Woo等[ 8 ]提出了CBAM(Convolutional" Block" Attention" Module),將通道注意力和空間注意力串聯(lián)起來,強(qiáng)調(diào)有效的通道信息并增強(qiáng)了信息豐富的空間區(qū)域。Misra D等[ 9 ]提出了三重注意力,有效捕捉了具有豐富判別性的特征表示。Yang L等[ 10 ]將數(shù)學(xué)與神經(jīng)科學(xué)理論相結(jié)合,在不引入額外參數(shù)情況下得到了輸入圖的3D注意力權(quán)重,提高了許多卷積網(wǎng)絡(luò)的特征表達(dá)能力。
為了降低網(wǎng)絡(luò)模型對冗余特征信息的關(guān)注度,并從海量數(shù)據(jù)中篩選出高質(zhì)量的圖像語義信息,本文提出一種融合跨維度交互注意力機(jī)制的模塊。
1" " " " 跨維度交互的注意力機(jī)制結(jié)構(gòu)
已有的計算通道注意力方法通常是計算權(quán)重值,再利用此權(quán)重統(tǒng)一分配給輸入特征圖,進(jìn)而捕捉重要的特征信息。但是,在計算通道注意力的權(quán)重值時,通常會在空間維度上引入全局平均池化將輸入圖像張量分解成單個像素通道,單通道的計算過程使得空間和通道兩個維度的相互依賴性丟失,造成部分信息受到忽略。在文獻(xiàn)[ 9 ]中提到,雖然常見的混合注意力機(jī)制將空間注意力和通道注意力進(jìn)行結(jié)合,但其設(shè)計過程中仍然存在一個問題,空間注意力與通道注意力模塊是獨(dú)立分開的。本文引入的跨維度交互注意力機(jī)制由三個分支組成,其整體結(jié)構(gòu)如圖1所示。
給定一張大小為C × H × W的輸入特征圖,注意力機(jī)制的頂部分支負(fù)責(zé)計算通道維度C和空間維度W上的交互作用以及注意力權(quán)重,依此,中間分支負(fù)責(zé)計算通道維度C和空間維度H上的交互作用以及權(quán)重,底部的分支則用于捕獲空間維度H和W的相關(guān)性,即一個傳統(tǒng)的獨(dú)立的空間注意力分支。在前兩個分支中,通過旋轉(zhuǎn)和殘差變換操作建立不同維度之間的依存關(guān)系,最后將三個分支的權(quán)重值取平均值,即得到最終的注意力權(quán)重。文本中將上述跨維度交互的注意力模型稱為CDAM(Cross Dimension Attention Module)。
每一個分支中都有一個Z - pool層,這一層是對輸入進(jìn)行平均池化和最大池化,并將兩個結(jié)果聚集連接在一塊,保留特征張量的豐富表示。與此同時,這一過程也使得將輸入張量的通道維度降至為2維。Z - pool層的數(shù)學(xué)表示如公式(1)所示。
Z - pool = [Maxpool0d(x),Avgpool0d(x)](1)
其中,0d是平均池化和最大池化操作中的第0維度,一個大小為C × H × W的輸入張量經(jīng)過Z - pool層之后會變成一個大小為2 × H × W的張量。
下面詳細(xì)介紹三個分支的具體計算過程。
1)第一分支用于捕獲通道維度C和空間維度H的交互依賴性。先對輸入特征圖進(jìn)行旋轉(zhuǎn)操作,讓其沿著H軸逆時針旋轉(zhuǎn)90°,使得特征圖的大小形狀變?yōu)閃 × H × C。接著經(jīng)過Z - pool層,其大小形狀變?yōu)? × H × C。然后通過一個核大小為7 × 7的卷積層和BN(Batch Normalization)層,并使用Sigmoid激活函數(shù)得到相應(yīng)的注意力權(quán)重值。最后沿著軸順時針旋轉(zhuǎn)90°對其進(jìn)行殘差變換,再將注意力權(quán)重值乘以原始的特征圖,從而得到與原始特征圖大小一致的C × H × W的特征圖。其中Z - pool層、卷積層、BN層以及激活層在每一個分支中重復(fù)利用,這三個步驟的具體計算過程如公式(2)所示。
Fattention" =" σ[BN(conv7 × 7(Cat([Maxpool0d(x),Avgpool0d(x)])))](2)
其中,Cat(·)操作表示將特征圖在通道維度進(jìn)行拼接,conv(·)是卷積操作,BN(·)操作表示歸一化,用于調(diào)整上一層的輸出分布情況,為后續(xù)的激活過程做鋪墊,σ(·)操作表示Sigmoid激活函數(shù),其作用是將計算的權(quán)重值約束在(0,1)之間。
2)第二分支用于捕獲通道維度C和空間維度W的交互依賴性。先讓輸入的特征圖沿著W軸逆時針旋轉(zhuǎn)90°,得到大小為H × C × W的特征圖。接著經(jīng)過Z - pool層、卷積層、BN層和激活層,再通過繞著W軸順時針旋轉(zhuǎn)90°,得到與原始特征圖大小一致的特征圖。
3)第三分支為空間注意力的計算,即空間維度H和W的交互依賴性。輸入特征圖經(jīng)過Z - pool層、卷積層、BN層以及激活層生成空間注意力權(quán)重值,將權(quán)重乘以原始特征圖得到大小形狀為C × H × W的特征圖,保持與輸入特征圖一致。
總之,對于一個輸入張量x∈RC × H × W,經(jīng)過此跨維度交互的三重注意力后獲得精細(xì)注意力張量y的過程可以由公式(3)表示。
y = () + () + xσ(φ3()))(3)
其中,與表示90°逆時針旋轉(zhuǎn)后的張量,、 與表示經(jīng)過Z - pool層之后的張量,σ(·)表示Sigmoid激活函數(shù),φ1(·)、φ2(·)、φ3(·)表示卷積操作與BN批量歸一化操作。其簡化公式如公式(4)所示。
y = ( + "+ xω3) = ( + "+ y3)(4)
其中,ω1、ω2和ω3是三個分支的注意力權(quán)重(取值范圍0到1),y1和y2表示經(jīng)過90°順時針旋轉(zhuǎn)后的張量,與原始輸入保持一致的C × H × W的形狀。
在進(jìn)行卷積操作時,卷積核的大小會影響獲得的感受野。本文采用了ECA(Efficient Channel Attention)通道注意力模塊[ 11 ]中的動態(tài)卷積核。ECA的卷積核大小自適應(yīng)函數(shù)如公式(5)所示。
k = ψ(C) = "+ (5)
其中,C表示輸入特征圖的通道數(shù),| t |odd表示離 t最近的奇數(shù)。γ與b的作用是調(diào)節(jié)通道數(shù)C與卷積核大小 k之間的比例,γ設(shè)置為2,b設(shè)置為1。
2" " 融合注意力機(jī)制的深度哈希圖像檢索
深度哈希圖像檢索主要是利用卷積網(wǎng)絡(luò)模型提取圖像特征,這個圖像特征表示往往是高維的,再通過哈希編碼生成低維的二進(jìn)制編碼表示,并通過設(shè)計損失函數(shù)來降低編碼誤差,最后通過度量圖像間的距離檢索出目標(biāo)圖像。圖2展示了深度哈希方法的基本框架結(jié)構(gòu)。
本文選用VGG16與ResNet18兩種經(jīng)典模型作為深度哈希圖像檢索方法中的CNN模型,將本文研究的注意力模塊添加到這兩個模型中去,針對不同CNN模型中不同的通道數(shù)生成不同大小的卷積核來捕獲通道之間的交互信息,注意力模塊可以靈活應(yīng)用到CNN模型的不同層中。
本文將CDAM模塊放在VGG16模型的第四層和第五層卷積模塊之后,構(gòu)成VGG-CDAM模塊,模型結(jié)構(gòu)如圖3所示。對于ResNet18模型,本文將CDAM模塊放在ResNet18模型的卷積層最后一層之后,構(gòu)成ResNet-CDAM模塊,模型結(jié)構(gòu)如圖4所示。
本文的哈希編碼學(xué)習(xí)將通過一個含有K個隱藏的全連接層完成,替換VGG16和ResNet18網(wǎng)絡(luò)的最后一個全連接層,此全連接層通過Tanh激活函數(shù)將上一層的高維特征向量映射為k位哈希碼,將網(wǎng)絡(luò)層的輸出控制在[-1,1]之間,即近似閾值化過程,最后得到一個近似二進(jìn)制編碼ui。
為了學(xué)習(xí)到保留圖像特征相似性的哈希碼,本文使用了文獻(xiàn)[ 3 ]中LS提出的二元組損失函數(shù)來對樣本對進(jìn)行監(jiān)督學(xué)習(xí),利用標(biāo)簽對來約束哈希層中哈希碼學(xué)習(xí)過程,減少其產(chǎn)生的哈希碼誤差,生成高質(zhì)量的哈希碼。對于兩個輸入樣本xi和xj,其二進(jìn)制哈希碼為bi和bj,兩者的漢明距離與內(nèi)積之間的線性關(guān)系如公式(6)所示。
distH(bi,bj) = (K - 〈bi,bj〉)(6)
其中,distH為二進(jìn)制哈希碼的漢明距離。由上述公式可知,二進(jìn)制碼的內(nèi)積越大,其漢明距離越小,說明兩幅圖像越相似,反之則說明兩者越不相似。
對于訓(xùn)練中成對的語義標(biāo)簽(xi,xj,sij),其中sij表示兩個樣本間的相似度,取值為1或0,1表示兩者相似,0表示兩者不相似??梢远xp(sij | bi,bj |)為基于相似標(biāo)簽sij的兩個哈希碼的條件概率,如公式(7)所示。
p(sij | bi,bj |) = σ(Ωij),sij = 11 - σ(Ωij),sij(7)
其中σ表示Sigmoid函數(shù),Ωij = 〈bi,bj〉 = bbj。結(jié)合公式(6)可以看出,當(dāng)兩幅圖像哈希碼的漢明距離越小,其內(nèi)積越大,值越大,p(1 | bi,bj)即兩幅圖像越相似;反之,p(0 | bi,bj)值越大,兩幅圖像越不相似。
本文的目標(biāo)損失函數(shù)可以定義為公式(8)。
minL = -log p(S | B) = -Σsij∈S p(sij | bi,bj) = -Σsij∈S(sijΩij - log(1 + e))(8)
在實際訓(xùn)練中并沒有直接使用(bi,bj),而是使用Tanh函數(shù)得到一個近似二進(jìn)制碼,將{-1,1}松弛到[-1,1],因此,目標(biāo)函數(shù)可以表示為:
minL = -Σsij∈S(sij ?覬ij - log(1 + e))(9)
其中,?覬ij" = uuj,ui為訓(xùn)練中通過Tanh函數(shù)得到的向量。輸出的二進(jìn)制碼bi通過sgn符號函數(shù)得到,即bi = sgn(ui)。
為了生成更緊湊的哈希碼,讓原本相似的兩幅圖像的哈希碼之間的距離更近,不相似圖像的哈希碼間的距離更遠(yuǎn),本文在設(shè)計的損失函數(shù)上添加一個正則項進(jìn)行約束。優(yōu)化后的目標(biāo)損失函數(shù)定義如下:
minL = -Σsij∈S(sij ?覬ij - log(1 + e)) + aΣ‖bi - ui‖(10)
其中,a為超參數(shù),取值為0.1。
3" " 實驗與分析
3.1" " 實驗數(shù)據(jù)集
實驗中使用了CIFAR-10數(shù)據(jù)集[ 12 ]與NUS-WIDE數(shù)據(jù)集[ 13 ]兩個標(biāo)準(zhǔn)數(shù)據(jù)集。
CIFAR-10數(shù)據(jù)集:該數(shù)據(jù)集是一個有著60 000張彩色圖像的標(biāo)準(zhǔn)圖像數(shù)據(jù)集,每張圖像的大小是32 × 32,共有十種類別,包括“airplane”“bird”“ship”等類別標(biāo)簽。該數(shù)據(jù)集將數(shù)據(jù)平均分配給10個類別,合計60 000幅圖像。本文用CIFAR-10數(shù)據(jù)集中的50 000張圖像作為訓(xùn)練集,10 000張圖像作為測試集。
NUS-WIDE數(shù)據(jù)集:該數(shù)據(jù)集來自Flickr.com,是一個公共網(wǎng)絡(luò)圖像數(shù)據(jù)集,共有269 648張圖像。此數(shù)據(jù)集包括81個類別標(biāo)簽,包括“sky”“airport”“car”等。這是一個多標(biāo)簽數(shù)據(jù)集,每張圖像帶有一個標(biāo)簽或者多個標(biāo)簽,合計195 834幅圖像。本文用NUS-WIDE數(shù)據(jù)集中的100 000張圖像作為訓(xùn)練集,90 000張圖像作為測試集。
3.2" " 實驗性能評估標(biāo)準(zhǔn)
本文使用圖像檢索任務(wù)中常用的平均精度均值(mean Average Precision,mAP)作為圖像檢索性能的評估標(biāo)準(zhǔn)。平均精度均值mAP是指平均檢索正確率(Average Precision, AP)的均值,AP和mAP的計算公式如公式(11)和公式(12)所示。
APq = ΣPq(r)R(r)(11)
mAP = ΣAPq(12)
在公式(11)中,q表示檢索中的查詢圖像,len(q)表示整個查詢結(jié)果中與查詢圖像q相似的樣本總體數(shù),N為整個查詢集大小。Pq(r)表示前r個圖像中返回的正確率,R(r)表示第r個返回圖像與查詢圖像的相似情況,只能取0或1,1代表相似,0代表不相似。在公式(12)中,Q表示數(shù)據(jù)集中總類別數(shù)。
3.3" " 實驗訓(xùn)練環(huán)境與參數(shù)設(shè)置
本文深度哈希網(wǎng)絡(luò)模型是在PyTorch1.9.1的深度學(xué)習(xí)框架下搭建的,使用的CNN模型是VGG16與ResNet18,ResNet18使用了在ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù)。本文模型在英偉達(dá)Tesla P100 GPU機(jī)器上進(jìn)行預(yù)訓(xùn)練的,兩個模型的訓(xùn)練中共160個epoch,設(shè)置的最小批次是64。使用的優(yōu)化器是SGD(Stochastic Gradient Descent),初始學(xué)習(xí)率設(shè)為0.001,權(quán)值衰減率設(shè)為5 × 10-5,動量設(shè)為0.9。
3.4" " 實驗結(jié)果與分析
本文選擇了一些經(jīng)典的哈希方法和近年來提出的深度哈希方法與本文的方法進(jìn)行對比,其中SDH[ 14 ]和KSH[ 15 ]是經(jīng)典的哈希方法,DHN[ 16 ]、IDHN[ 17 ]、DPN[ 18 ]和DBDH[ 5 ]是深度哈希方法,結(jié)果如表1所示。
由表1中的數(shù)據(jù)結(jié)果可以看出,在CIFAR-10和NUS-WIDE數(shù)據(jù)集上,本文提出的CDAM-DH方法相比于其他哈希方法有更好的檢索結(jié)果。與對比哈希方法中最好的結(jié)果相比,本文的VGG-CDAM_DH方法和ResNet-CDAM-DH方法在CIFAR-10數(shù)據(jù)集上檢索精度分別提升了4.65%和4.18%,在NUS-WIDE數(shù)據(jù)集上分別提升了2.35%和2.28%。
不同模型在2個數(shù)據(jù)集上的mAP如表2所示。
由表2的結(jié)果可以看出,在VGG16和ResNet18網(wǎng)絡(luò)模型中,添加了CDAM注意力模塊的深度哈希方法相比于未添加CDAM注意力模塊的深度哈希方法,在CIFAR-10和NUS-WIDE數(shù)據(jù)集上都有更高的檢索精度。
4" " 結(jié)論
深度哈希圖像檢索的方法是將哈希方法與CNN結(jié)合,利用CNN學(xué)習(xí)更多更豐富的圖像特征信息,在特征提取的同時進(jìn)行哈希碼的學(xué)習(xí),進(jìn)而生成圖像特征的哈希碼。在深度哈希圖像檢索方法中,為了獲得更好的圖像檢索精度,將本文研究的跨維度交互的注意力模塊應(yīng)用到CNN模型中,可以得到更多有利于圖像檢索的重要特征信息,進(jìn)而提升圖像檢索精度。為了不降低生成的哈希編碼精度,本文重新設(shè)計了哈希碼目標(biāo)損失函數(shù)。在兩個標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,注意力模塊的加入能有效提高傳統(tǒng)深度哈希圖像檢索方法的圖像檢索精度。
參考文獻(xiàn):
[1]Xia R,Pan Y,Lai H,et al. Supervised hashing for image retrieval via image representation learning[C]. Proceedings of the AAAI Conference on Artificial Intelligence,2014, 28(1):2156-2162.
[2]劉穎,程美,王富平,等.深度哈希圖像檢索方法綜述[J].中國圖象圖形學(xué)報,2020,25(7):1296-1317.
[3]Li Wujun,Wang Sheng,Kang Wangcheng. Feature learning based deep supervised hashing with pairwise labels[C]. Proceedings of the 25th International Joint Conference on Artificial Intelligence,2016:1711-1717.
[4]Li Q,Sun Z,He R,et al. Deep supervised discrete hashing[C]. Proceedings of the 22nd Advances in Neural Information Processing Systems,2017,30:2482-2491.
[5]Zheng Xiangtao,Zhang Yichao,Lu Xiaoqiang. Deep balanced discrete hashing for image retrieval[J]. Neurocomputing,2020, 403:224-236.
[6]Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473,2014.
[7]Jie Hu,Shen Li,Albanie Samuel,et al. Squeeze-and-excitation networks[C]. Proceedings of the IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[8]Sanghyun Woo,Park Jongchan,Lee Joon-Young,et al. CBAM:Convolutional block attention module[C]. Proceedings of the European Conference on Computer Vision,2018:3-19.
[9]Misra D,Nalamada T,Arasanipalai A U,et al. Rotate to attend:convolutional triplet attention module[C]. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision,2021:3139-3148.
[10]Yang L,Zhang R Y,Li L,et al. SimAM:a simple, parameter-free attention module for convolutional neural networks[C]. Proceedings of the 38th International Conference on Machine Learning,2021:11863-11874.
[11]Wang Qilong,Wu Banggu,Zhu Pengfei,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:11531-11539.
[12]Krizhevsky A,Hinton G. Learning multiple layers of features from tiny images[J]. Handbook of Systemic Autoimmune Diseases,2009,1(4):1152-1158.
[3]Chua T S,Tang J,Hong R,et al. NUS-WIDE:a real-world web image database from national university of singapore[C]. Proceedings of the ACM International Conference on Image and Video Retrieval,2009:1-9.
[14]Shen Fumin,Shen Chunhua,Liu Wei,et al. Supervised discrete hashing[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:37-45.
[15]Wei Liu,Wang Jun,Jiang Rongrong,et al. Supervised hashing with kernels[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2012:2074–2081.
[16]Zhu Han,Long Mingsheng,Wang Jianmin,et al. Deep hashing network for efficient similarity retrieval[C]. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016,30(1):2415-2421.
[17]Zhang Zheng,Zou Qin,Lin Yuewei,et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval[J]. IEEE Transactions on Multimedia,2020,22(2):540-553.
[18]Fan L,Ng K W,Ju C,et al. Deep polarized network for supervised learning of accurate binary hashing codes[C]. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence,2020:825-831.
Deep Hash Image Retrieval Method Integrating
Attention Mechanism
JIN" Chuan1, FU" Xiaosi2
(1. School of Art and Design, Anhui Broadcasting Movie and Television College, Hefei 230001, China;
2. School of Computer, Central China Normal University, Wuhan 430001, China)
Abstract:Traditional deep hash-based image retrieval methods focus on some redundant information when obtaining feature information of images, which affects the final image retrieval accuracy. In response to the above issues, this article proposes a fusion cross dimensional interactive attention mechanism module, which can be applied to convolutional neural networks to improve network performance and learn more feature information that is conducive to image retrieval. In the deep hash image retrieval task, two classic models, VGG16 and ResNet18, were selected as the basic models for image retrieval. After adding an attention module and redesigning the hash code target loss function, comparative experiments were conducted on the CIFAR-10 and NUS-WIDE datasets. The experimental results showed that the addition of attention mechanism significantly improved the accuracy of image retrieval, verifying the effectiveness of the proposed method.
Key words:image retrieval;attention module;convolutional neural network;deep hash