結(jié)合Transformer與非對(duì)稱學(xué)習(xí)策略的圖像檢索

2023-02-21 03:50:06賀超魏宏喜

中國(guó)圖象圖形學(xué)報(bào) 2023年2期

賀超，魏宏喜

1.內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院，呼和浩特 010010；2.內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室，呼和浩特 010010；3.蒙古文智能信息處理技術(shù)國(guó)家地方聯(lián)合工程研究中心，呼和浩特 010010

0 引言

在大數(shù)據(jù)時(shí)代，互聯(lián)網(wǎng)等媒介中的圖像數(shù)量呈指數(shù)級(jí)增長(zhǎng)，如何從海量圖像中快速查找出所需圖像是值得研究的問題。近似最近鄰(approximate nearest neighbor，ANN)搜索(Andoni和Indyk，2008；Zhang等，2010)是解決此問題的常用方法。作為一種廣泛使用的近似最近鄰搜索技術(shù)，哈希方法(Wu等，2019；Guo等，2017，萬方等，2021)的目的是將原始空間上的數(shù)據(jù)點(diǎn)映射到漢明空間上的離散2進(jìn)制哈希碼。同時(shí)，原始空間上的相似性也保留在漢明空間上。哈希碼具有存儲(chǔ)空間占用小、計(jì)算速度快等優(yōu)點(diǎn)，廣泛應(yīng)用于圖像的大規(guī)模檢索。

哈希方法分為與數(shù)據(jù)無關(guān)的方法和與數(shù)據(jù)相關(guān)的方法兩種(劉穎等，2020)。前者將圖像隨機(jī)投影在特征空間中，用2進(jìn)制方法生成哈希碼(Gionis等，1999)。后者通過機(jī)器學(xué)習(xí)方法學(xué)習(xí)哈希函數(shù)，將圖像特征映射為2進(jìn)制代碼(Lai等，2015)。對(duì)于依賴數(shù)據(jù)的方法，維數(shù)較少的哈希碼可以很好地表示圖像特征并獲得更好的結(jié)果，因此與數(shù)據(jù)相關(guān)的哈希方法在現(xiàn)實(shí)中廣泛使用。與數(shù)據(jù)相關(guān)的哈希方法分為有監(jiān)督的哈希方法和無監(jiān)督的哈希方法。最具代表性的無監(jiān)督哈希方法是迭代量化(iterative quantization，ITQ)(Gong等，2013)，它根據(jù)給定的訓(xùn)練樣本，通過迭代投影和閾值法對(duì)投影矩陣進(jìn)行優(yōu)化。為了更好地利用語義標(biāo)記進(jìn)行特征表示學(xué)習(xí)，研究人員提出了監(jiān)督學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)方法分為非深度監(jiān)督哈希和深度監(jiān)督哈希。傳統(tǒng)的非深度監(jiān)督哈希算法利用圖像的顏色和紋理學(xué)習(xí)哈希函數(shù)。具有代表性的非深度監(jiān)督哈希方法有核監(jiān)督哈希法(supervised hashing with kernels，KSH)(Liu等，2012)、隱因子哈希法(latent factor hashing，LFH)(Zhang等，2014)和快速監(jiān)督哈希法(fast supervised hashing，F(xiàn)astH)(Lin等，2014)等。隨著深度學(xué)習(xí)的發(fā)展，哈希函數(shù)的學(xué)習(xí)嵌入到深度學(xué)習(xí)框架中。

隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)在圖像分類、目標(biāo)檢測(cè)和文字識(shí)別等方面的優(yōu)異表現(xiàn)，許多基于CNN的深度監(jiān)督哈希方法相繼提出?；诰矸e神經(jīng)網(wǎng)絡(luò)的哈希算法(convolutional neural networks based hashing，CNNH)(Xia等，2014)是利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希碼的早期工作之一。在CNNH的基礎(chǔ)上，網(wǎng)中網(wǎng)哈希(network in network hashing，NINH)(Lai等，2015)提出了一種利用三重排序損失保持相對(duì)相似性的深層結(jié)構(gòu)。之后，一些基于成對(duì)標(biāo)簽的深度哈希方法應(yīng)用于相關(guān)任務(wù)中。深度成對(duì)監(jiān)督哈希(deep pairwise supervised hashing，DPSH)(Li等，2016)在使用成對(duì)標(biāo)簽的同時(shí)學(xué)習(xí)特征表示和哈希函數(shù)。深度哈希網(wǎng)絡(luò)(deep hashing network，DHN)(Zhu等，2016)優(yōu)化了語義相似性損失和更緊湊的哈希碼量化損失。為了更好地利用標(biāo)簽信息，深度監(jiān)督離散哈希(deep supervised discrete hash，DSDH)(Li等，2017)綜合了語義相似性損失和分類損失。對(duì)稱式深度監(jiān)督哈希方法目前取得了相對(duì)較好的效果，如果想進(jìn)一步提升性能，可以使用更大規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)。但是大規(guī)模模型的訓(xùn)練周期較長(zhǎng)，并且待檢索圖像參與網(wǎng)絡(luò)訓(xùn)練也會(huì)增加訓(xùn)練時(shí)間。為了解決上述問題，Jiang和Li(2018)提出了非對(duì)稱深度監(jiān)督哈希(asymmetric deep supervised hashing，ADSH)，這是第1個(gè)以非對(duì)稱方式學(xué)習(xí)訓(xùn)練圖像和待檢索圖像哈希碼的基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的算法，待檢索圖像哈希碼可直接由訓(xùn)練圖像哈希碼計(jì)算得到，這使得訓(xùn)練效率大幅提升?；诼?lián)合學(xué)習(xí)的深度監(jiān)督哈希算法(joint learning based deep supervised hashing，JLDSH)(Gu等，2020)以ADSH為基礎(chǔ)，將分類損失與哈希損失結(jié)合起來，更加充分利用了監(jiān)督信息。

一些研究人員嘗試將 Transformer(Vaswani等，2017)應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域。Transformer在自然語言處理任務(wù)中有著十分出色的表現(xiàn)，在機(jī)器翻譯和語音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。主流方法大都是在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練，然后在較小的特定任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào)。Transformer具有出色的計(jì)算效率和擴(kuò)展性，使得訓(xùn)練規(guī)模龐大的模型成為可能。這些特性使得將Transformer應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的研究變得流行起來。VIT(vision transformer)(Dosovitskiy等，2021)在圖像分類領(lǐng)域有著突出表現(xiàn)，它將圖像切成小塊輸入到Transformer中，并加入圖像塊的位置信息和分類位，經(jīng)過Transformer編碼器可以對(duì)圖像進(jìn)行分類，在海量的訓(xùn)練數(shù)據(jù)下，達(dá)到了很高的分類正確率，性能超過現(xiàn)有的分類模型。圖像處理Transformer(image processing transformer，IPT)(Chen等，2021a)可以應(yīng)用于圖像去噪和超分辨率等圖像處理任務(wù)，在大規(guī)模數(shù)據(jù)集上訓(xùn)練的該模型可在上述任務(wù)中獲得最先進(jìn)的性能?；赥ransformer的端到端目標(biāo)檢測(cè)網(wǎng)絡(luò)(detection transformer，DETR)(Carion等，2020)使用2進(jìn)制匹配和Transformer編碼器—解碼器進(jìn)行預(yù)測(cè)，極大簡(jiǎn)化了目標(biāo)檢測(cè)過程。

受VIT和ADSH的啟發(fā)，本文提出了一種基于 Transformer的非對(duì)稱監(jiān)督深度哈希方法(asymmetric deep hashing method based on transformer，ADSHT)。本文的主要貢獻(xiàn)如下：1)使用Transformer生成圖像的哈希表示，結(jié)合非對(duì)稱學(xué)習(xí)策略將Transformer應(yīng)用到大規(guī)模圖像檢索任務(wù)中，在提高訓(xùn)練效率的同時(shí)，提升了檢索性能。2)為了更加充分地利用監(jiān)督信息，將哈希損失與分類損失相結(jié)合，使模型能夠更好地學(xué)習(xí)哈希函數(shù)，使圖像的哈希表示更加真實(shí)。3)在兩個(gè)公開數(shù)據(jù)集CIFAR-10(Krizhevsky，2009)(該數(shù)據(jù)集為單標(biāo)簽數(shù)據(jù)集)和NUS-WIDE(Chua等，2009)(該數(shù)據(jù)集為多標(biāo)簽數(shù)據(jù)集)上進(jìn)行實(shí)驗(yàn)，通過與主流的對(duì)稱式方法和最優(yōu)的非對(duì)稱式方法進(jìn)行比較，驗(yàn)證了所提出方法的有效性。

1 問題定義

2 提出方法

2.1 模型架構(gòu)

本文提出的ADSHT模型主要包括圖像塊嵌入部分、特征提取部分(Dosovitskiy等，2021)和損失函數(shù)部分(Gu等，2020)，結(jié)構(gòu)圖如圖1所示。特征提取模塊是提取圖像的特征，并將特征轉(zhuǎn)換為哈希編碼表示。損失函數(shù)部分是使圖像特征更接近真實(shí)的哈希碼，并保持查詢圖像與待檢索圖像的相似性。原始的Transformer只能處理1維數(shù)據(jù)。為了能夠處理2維圖像，本文將圖像x∈RH×W×C重塑為一系列扁平的2維圖像塊xp∈RN×(P2×C)。H、W和C為原始圖像的高度、寬度和通道數(shù)，(P,P)是每個(gè)圖像塊的高度和寬度,p為圖像的序號(hào)。N=HW/P2是Transformer輸入的序列長(zhǎng)度。

圖1 ADSHT模型結(jié)構(gòu)圖

本文使用線性投影層E∈R(P2×C)×D將每個(gè)圖像塊向量映射到D維空間。隨后，拼接所有圖像塊向量，使之成為一個(gè)完整的圖像向量，并在該圖像向量第1位加入分類位向量xclass。最后，將每個(gè)圖像塊的位置信息Epos∈R(N+1)×D與圖像塊向量xp相加，最終得到嵌入的圖像向量sq∈R(N+1)×D。上述過程稱為圖像塊嵌入，如圖2所示。

圖2 圖像塊嵌入

本文方法的特征提取部分使用Transformer的編碼器模塊，并在該模塊后加入哈希模塊。編碼器模塊在 ImageNet1k數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，該模塊由多層交替的多頭注意力模塊(multi-head self-attention，MSA)(Vaswani等，2017)和全連接模塊(fully-connected network，MLP)組成，具體為

(1)

(2)

式中，B表示編碼器模塊的層數(shù)。在每個(gè)模塊之前使用規(guī)范化層(layernorm，LN)(Wang等，2019)，在每個(gè)模塊之后均使用殘差連接。最后通過哈希模塊HASH輸出圖像的哈希表示h∈Rc，具體為

(3)

傳統(tǒng)的對(duì)稱式學(xué)習(xí)方法只利用監(jiān)督信息獲得相似矩陣，很少關(guān)注監(jiān)督信息對(duì)圖像的分類作用。本文對(duì)檢索圖像添加分類約束，充分利用監(jiān)督信息，使待檢索圖像得到更真實(shí)的哈希表示。為了使損失函數(shù)最小化，在待檢索圖像哈希碼與查詢圖像哈希碼均不更新的情況下，對(duì)損失函數(shù)求導(dǎo)，計(jì)算分類損失函數(shù)參數(shù)。模型結(jié)束訓(xùn)練時(shí)，會(huì)輸出查詢圖像的哈希碼和分類損失函數(shù)的參數(shù)，令上述兩個(gè)參數(shù)不更新，計(jì)算待檢索圖像的哈希碼。

2.2 損失函數(shù)

為了更好地學(xué)習(xí)能夠保持查詢圖像和待檢索圖像相似性的哈希碼，可以優(yōu)化監(jiān)督信息的相似度矩陣與查詢—待檢索圖像哈希碼對(duì)的內(nèi)積之間的損失。損失函數(shù)(Jiang和Li，2018)定義為

(4)

式中，qi=h(xi)很難學(xué)習(xí)，它分布是離散的，因此設(shè)置h(xi)=sign(F(xi;Θ))，F(xiàn)(xi;Θ)∈R，而h(xi)分布依然是離散的，很難通過反向傳播來優(yōu)化網(wǎng)絡(luò)參數(shù)。其中，F(xiàn)(xi;Θ)是Transformer編碼器網(wǎng)絡(luò)的輸出，Θ是該網(wǎng)絡(luò)的參數(shù)。因此，本文使用tanh(F(xi;Θ))代替h(xi)來解決上述問題。ξ={1,2,…,n}表示所有待檢索圖像的索引值，Ω={1,2,…,m}?ξ表示所有查詢圖像的索引值。損失函數(shù)(Jiang和Li，2018)為

(5)

由于X?Y，xi有兩種表示，分別是待檢索圖像中的2進(jìn)制代碼rj和查詢圖像中的2進(jìn)制代碼tanh(F(xi;Θ))。本文添加另一個(gè)約束來減少它們之間的差異。新的損失函數(shù)(Jiang和Li，2018)定義為

(6)

式中，γ是超參數(shù)。為了更好地利用監(jiān)督信息，本文采用簡(jiǎn)單的線性分類器對(duì)檢索圖像的哈希碼和對(duì)應(yīng)的標(biāo)簽信息進(jìn)行建模，利用標(biāo)簽信息約束待檢索圖像的哈希碼的學(xué)習(xí)，讓學(xué)習(xí)到的待檢索圖像哈希碼更接近真實(shí)的哈希碼。令L={i1,i2,i3,…,in}表示真實(shí)圖像標(biāo)簽信息的One-hot編碼。ii∈{0,1}h,i=1,…,n是每幅圖像的標(biāo)簽信息組成的向量，h表示類別的數(shù)量。元素1表示圖像包含此標(biāo)簽，元素0則相反。用W表示分類器的權(quán)重，將分類損失和哈希損失結(jié)合起來。最終的損失函數(shù)(Gu等，2020)為

(7)

式中，μ和φ為超參數(shù)。

2.3 優(yōu)化方法

2.3.1 優(yōu)化參數(shù)Θ

當(dāng)R和W不改變時(shí)，令zi=F(xi;Θ)，ui=tanh(F(xi;Θ))，zi的梯度計(jì)算為

(8)

2.3.2 優(yōu)化參數(shù)W

當(dāng)Θ和R不改變時(shí)，式(7)變?yōu)?/p>

(9)

這是一個(gè)具有封閉解的最小化問題，對(duì)其求解，解得W為

(10)

式中，L代表真實(shí)圖像標(biāo)簽信息的One-hot編碼。

2.3.3 優(yōu)化參數(shù)R

當(dāng)Θ和W不改變時(shí)，式(7)變?yōu)?/p>

(11)

(12)

式(12)用來更新R。最后可以得到整個(gè)數(shù)據(jù)庫對(duì)應(yīng)的哈希碼。

2.4 學(xué)習(xí)算法

ADSHT學(xué)習(xí)算法的具體步驟如下：

輸出：待檢索圖像的哈希碼R，神經(jīng)網(wǎng)絡(luò)參數(shù)Θ。

1)初始化Θ、R和W，批處理大小M，迭代次數(shù)Tout和Tin。

2)FORi→ToutDO;

(1)從待檢索圖像中隨機(jī)選取查詢圖像X=YΩ，并獲取查詢圖像的相似矩陣SΩ。

(2)FORj→TinDO;

FORs=1,2,…,m/MDO;

①從X中隨機(jī)選取M幅圖像，構(gòu)建一次批處理。

②通過前向傳播計(jì)算批處理中各幅圖像的zi和ui。

③計(jì)算批處理的哈希損失，并根據(jù)式(8)計(jì)算梯度。

④根據(jù)反向傳播算法更新網(wǎng)絡(luò)參數(shù)Θ，并根據(jù)式(10)更新W。

3)FORk=1,2,…,cDO；

根據(jù)式(12)更新R*j。

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

CIFAR-10是單標(biāo)簽數(shù)據(jù)集，包含60 000幅圖像，50 000幅為查詢圖像，10 000幅為測(cè)試圖像，共10個(gè)類別，每個(gè)類別包含6 000幅圖像，每幅圖像的大小為32×32像素。NUS-WIDE是大規(guī)模圖像檢索任務(wù)常用的多標(biāo)簽數(shù)據(jù)集，包含269 648幅圖像，共81個(gè)類別。

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用全局平均精度(mean average precision，mAP)作為評(píng)價(jià)指標(biāo)。mAP是圖像檢索中最重要的衡量模型檢索性能的指標(biāo)，是一組查詢中每個(gè)查詢的平均精度(AP)相加所取的平均值，定義為

(13)

式中，N表示數(shù)據(jù)集的大小，R是數(shù)據(jù)集中相關(guān)圖像的數(shù)量，c是進(jìn)行檢索以后，數(shù)據(jù)集中返回圖像的數(shù)量，Rc是前c中返回相關(guān)圖像的數(shù)量，如果排名在第c位置的圖像是相關(guān)的，則relc為1，否則為0(Zheng等，2020)。

3.3 實(shí)現(xiàn)細(xì)節(jié)

深度監(jiān)督哈希算法大多基于對(duì)稱式方法，少部分基于非對(duì)稱式方法，目前非對(duì)稱式方法都是基于CNN實(shí)現(xiàn)的。實(shí)驗(yàn)通過與目前最優(yōu)的對(duì)稱、非對(duì)稱深度監(jiān)督哈希算法對(duì)比，驗(yàn)證本文方法的性能。

在CIFAR-10數(shù)據(jù)集上，選擇Transhash(Chen等，2021b)、ADSH(Jiang和Li，2018)、DBDH(deep balanced discrete hashing)(Zheng等，2020)、JLDSH(Gu等，2020)、DFH(deep Fisher hashing)(Li等，2019)、DSDH(Li等，2017)和DSHSD(deep supervised hashing based on stabe distribution)(Wu等，2019)進(jìn)行對(duì)比。實(shí)驗(yàn)中，遵循Jiang和Li(2018)的方法，隨機(jī)選取1 000 幅圖像(每個(gè)類別100幅)用做測(cè)試集，其余59 000幅圖像用做檢索集，并從檢索集中隨機(jī)抽取5 000幅圖像(每個(gè)類別500幅)作為訓(xùn)練集。

在NUS-WIDE數(shù)據(jù)集上，選擇Transhash(Chen等，2021b)、ADSH(Jiang和Li，2018)、DBDH(Zheng等，2020)、DFH(Li等，2019)、DSDH(Li等，2017)和DSHSD(Wu等，2019)進(jìn)行對(duì)比。與Li等人(2017)的方法類似，共選擇195 969幅圖像，包含21個(gè)常見類別，每個(gè)類別至少有5 000幅圖像。實(shí)驗(yàn)隨機(jī)選取2 100幅(每類100幅圖像)作為測(cè)試集，其余圖像作為檢索集，并從檢索集中隨機(jī)抽取10 500幅(每類500幅圖像)圖像作為訓(xùn)練集。特別說明，mAP結(jié)果是基于NUS-WIDE數(shù)據(jù)集返回的Top-5K樣本計(jì)算的。

實(shí)驗(yàn)參數(shù)參考Jiang和Li(2018)使用的參數(shù)，為了避免過擬合，權(quán)重衰減參數(shù)設(shè)為10-5。批處理數(shù)量為128，學(xué)習(xí)率的調(diào)試范圍為[10-6,10-2]，超參數(shù)γ為200，Tout為60，Tin為3。本文將S中元素-1的權(quán)重設(shè)為元素1的數(shù)量與元素-1的數(shù)量之比。

3.4 實(shí)驗(yàn)結(jié)果

ADSHT-R和ADSHT模型的提取特征模塊分別為ResNet50網(wǎng)絡(luò)和Transformer編碼器網(wǎng)絡(luò)。實(shí)驗(yàn)使用Tesla P40 GPU，兩個(gè)模型都在ImageNet1k數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，設(shè)置訓(xùn)練輪數(shù)為60，批處理大小為32，都使用隨機(jī)梯度下降方法，超參數(shù)γ為200。兩個(gè)模型在32位哈希碼上的訓(xùn)練效率對(duì)比如表1所示。可以看出，在相同訓(xùn)練輪數(shù)下，ADSHT的參數(shù)量大約是ADSHT-R的13倍，但訓(xùn)練時(shí)間少于ADSHT-R，表明ADSHT的訓(xùn)練效率更高。

表1 不同網(wǎng)絡(luò)下模型的效率對(duì)比

本文方法結(jié)合了分類損失函數(shù)和哈希損失函數(shù)，分類損失函數(shù)是式(7)的最后兩項(xiàng)，超參數(shù)分別為μ和φ。若μ為0，則最小化分類權(quán)重為

(14)

這樣求得的分類權(quán)重為0或任意值。若φ為0，則最小化分類權(quán)重為

(15)

超參數(shù)μ不會(huì)影響分類權(quán)重，在求解當(dāng)中會(huì)被消掉。因此兩項(xiàng)要一起存在，本文令p=φ/μ，對(duì)不同的p值(0，0.05，0.1，0.2，1，5，10，20)進(jìn)行實(shí)驗(yàn)，得到的結(jié)果如圖3所示，本文取φ=1。

從圖3可以看出，在CIFAR-10數(shù)據(jù)集上，模型在p=0.2時(shí)，μ=5，得到最好的性能。在NUS-WIDE數(shù)據(jù)集上，在p=5時(shí)，μ=0.2，模型獲得最好的性能。

圖3 兩個(gè)數(shù)據(jù)集的超參數(shù)取值

不同方法的檢索性能如表2所示。ADSHT為僅使用哈希損失函數(shù)的模型，ADSHT-F代表結(jié)合分類損失函數(shù)的模型。從24位、32位和48位3種不同的哈希位數(shù)與其他方法對(duì)比，可以發(fā)現(xiàn)ADSHT-F在CIFAR-10和NUS-WIDE數(shù)據(jù)集上的mAP值都高于其他方法。尤其在CIFAR-10數(shù)據(jù)集上，與表中mAP值最高的JLDSH相比，ADSHT-F在24位時(shí)提升高達(dá)5.06%。在NUS-WIDE數(shù)據(jù)集上，ADSHT-F與ADSH相比，在24位時(shí)提升了4.17%。ADSHT-F模型相對(duì)于ADSHT模型，性能也有一定提升，說明監(jiān)督信息得到充分利用，分類損失會(huì)產(chǎn)生一定貢獻(xiàn)。從表2可以看出，隨著哈希表示位數(shù)的增加，模型性能會(huì)逐漸提升，因?yàn)槲粩?shù)增加可以更好地表示圖像特征。表中前5行的DSDH(Li等，2017)、DFH (Li等，2019)、DSHSD(Wu等，2019)、DBDH (Zheng等，2020)和Transhash(Chen 等，2021b)模型均使用對(duì)稱式方法，第6—10行的JLDSH(Gu等，2020)、ADSH(Jiang和Li，2018)、ADSHT-R、ADSHT和ADSHT-F模型均使用非對(duì)稱式方法，可以看出除了ADSHT-R模型因未完全收斂導(dǎo)致性能偏低以外，非對(duì)稱式方法的性能明顯優(yōu)于對(duì)稱式方法。將ADSHT與ADSHT-R對(duì)比，可以看出，ADSHT模型性能遠(yuǎn)高于ADSHT-R，并且從實(shí)驗(yàn)結(jié)果中可以觀察到，訓(xùn)練輪數(shù)設(shè)置為60的情況下，ADSHT-R模型并沒有完全收斂，因此其性能偏低。這也說明ADSHT模型的收斂速度快于ADSHT-R模型。

表2 不同方法的mAP對(duì)比

4 結(jié) 論

本文提出了一種Transformer與非對(duì)稱學(xué)習(xí)策略相結(jié)合的圖像檢索方法。一方面，利用哈希損失學(xué)習(xí)哈希函數(shù)，并使用Transformer生成查詢圖像的哈希表示，使查詢圖像的哈希表示更加真實(shí)；另一方面，采用非對(duì)稱式學(xué)習(xí)策略，根據(jù)查詢圖像的哈希表示與分類損失函數(shù)直接計(jì)算得到待檢索圖像的哈希表示。在此過程中，將哈希損失與分類損失相結(jié)合，充分利用監(jiān)督信息，提高訓(xùn)練效率。與目前最優(yōu)的對(duì)稱、非對(duì)稱深度監(jiān)督哈希算法的對(duì)比實(shí)驗(yàn)表明，本文方法在CIFAR-10和NUS-WIDE數(shù)據(jù)集上均獲得了最優(yōu)性能，驗(yàn)證了本文方法的有效性。但是本文方法使用的Transformer模型未關(guān)注圖像局部信息，且模型參數(shù)量較大，解決這些問題是后續(xù)工作的重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡