賀超,魏宏喜
1.內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院,呼和浩特 010010;2.內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,呼和浩特 010010;3.蒙古文智能信息處理技術(shù)國(guó)家地方聯(lián)合工程研究中心,呼和浩特 010010
在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)等媒介中的圖像數(shù)量呈指數(shù)級(jí)增長(zhǎng),如何從海量圖像中快速查找出所需圖像是值得研究的問題。近似最近鄰(approximate nearest neighbor,ANN)搜索(Andoni和Indyk,2008;Zhang等,2010)是解決此問題的常用方法。作為一種廣泛使用的近似最近鄰搜索技術(shù),哈希方法(Wu等,2019;Guo等,2017,萬方 等,2021)的目的是將原始空間上的數(shù)據(jù)點(diǎn)映射到漢明空間上的離散2進(jìn)制哈希碼。同時(shí),原始空間上的相似性也保留在漢明空間上。哈希碼具有存儲(chǔ)空間占用小、計(jì)算速度快等優(yōu)點(diǎn),廣泛應(yīng)用于圖像的大規(guī)模檢索。
哈希方法分為與數(shù)據(jù)無關(guān)的方法和與數(shù)據(jù)相關(guān)的方法兩種(劉穎 等,2020)。前者將圖像隨機(jī)投影在特征空間中,用2進(jìn)制方法生成哈希碼(Gionis等,1999)。后者通過機(jī)器學(xué)習(xí)方法學(xué)習(xí)哈希函數(shù),將圖像特征映射為2進(jìn)制代碼(Lai等,2015)。對(duì)于依賴數(shù)據(jù)的方法,維數(shù)較少的哈希碼可以很好地表示圖像特征并獲得更好的結(jié)果,因此與數(shù)據(jù)相關(guān)的哈希方法在現(xiàn)實(shí)中廣泛使用。與數(shù)據(jù)相關(guān)的哈希方法分為有監(jiān)督的哈希方法和無監(jiān)督的哈希方法。最具代表性的無監(jiān)督哈希方法是迭代量化(iterative quantization,ITQ)(Gong等,2013),它根據(jù)給定的訓(xùn)練樣本,通過迭代投影和閾值法對(duì)投影矩陣進(jìn)行優(yōu)化。為了更好地利用語義標(biāo)記進(jìn)行特征表示學(xué)習(xí),研究人員提出了監(jiān)督學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)方法分為非深度監(jiān)督哈希和深度監(jiān)督哈希。傳統(tǒng)的非深度監(jiān)督哈希算法利用圖像的顏色和紋理學(xué)習(xí)哈希函數(shù)。具有代表性的非深度監(jiān)督哈希方法有核監(jiān)督哈希法(supervised hashing with kernels,KSH)(Liu等,2012)、隱因子哈希法(latent factor hashing,LFH)(Zhang等,2014)和快速監(jiān)督哈希法(fast supervised hashing,F(xiàn)astH)(Lin等,2014)等。隨著深度學(xué)習(xí)的發(fā)展,哈希函數(shù)的學(xué)習(xí)嵌入到深度學(xué)習(xí)框架中。
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在圖像分類、目標(biāo)檢測(cè)和文字識(shí)別等方面的優(yōu)異表現(xiàn),許多基于CNN的深度監(jiān)督哈希方法相繼提出?;诰矸e神經(jīng)網(wǎng)絡(luò)的哈希算法(convolutional neural networks based hashing,CNNH)(Xia等,2014)是利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)哈希碼的早期工作之一。在CNNH的基礎(chǔ)上,網(wǎng)中網(wǎng)哈希(network in network hashing,NINH)(Lai等,2015)提出了一種利用三重排序損失保持相對(duì)相似性的深層結(jié)構(gòu)。之后,一些基于成對(duì)標(biāo)簽的深度哈希方法應(yīng)用于相關(guān)任務(wù)中。深度成對(duì)監(jiān)督哈希(deep pairwise supervised hashing,DPSH)(Li等,2016)在使用成對(duì)標(biāo)簽的同時(shí)學(xué)習(xí)特征表示和哈希函數(shù)。深度哈希網(wǎng)絡(luò)(deep hashing network,DHN)(Zhu等,2016)優(yōu)化了語義相似性損失和更緊湊的哈希碼量化損失。為了更好地利用標(biāo)簽信息,深度監(jiān)督離散哈希(deep supervised discrete hash,DSDH)(Li等,2017)綜合了語義相似性損失和分類損失。對(duì)稱式深度監(jiān)督哈希方法目前取得了相對(duì)較好的效果,如果想進(jìn)一步提升性能,可以使用更大規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)。但是大規(guī)模模型的訓(xùn)練周期較長(zhǎng),并且待檢索圖像參與網(wǎng)絡(luò)訓(xùn)練也會(huì)增加訓(xùn)練時(shí)間。為了解決上述問題,Jiang和Li(2018)提出了非對(duì)稱深度監(jiān)督哈希(asymmetric deep supervised hashing,ADSH),這是第1個(gè)以非對(duì)稱方式學(xué)習(xí)訓(xùn)練圖像和待檢索圖像哈希碼的基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的算法,待檢索圖像哈希碼可直接由訓(xùn)練圖像哈希碼計(jì)算得到,這使得訓(xùn)練效率大幅提升?;诼?lián)合學(xué)習(xí)的深度監(jiān)督哈希算法(joint learning based deep supervised hashing,JLDSH)(Gu等,2020)以ADSH為基礎(chǔ),將分類損失與哈希損失結(jié)合起來,更加充分利用了監(jiān)督信息。
一些研究人員嘗試將 Transformer(Vaswani等,2017)應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域。Transformer在自然語言處理任務(wù)中有著十分出色的表現(xiàn),在機(jī)器翻譯和語音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。主流方法大都是在大型文本語料庫上進(jìn)行預(yù)訓(xùn)練,然后在較小的特定任務(wù)數(shù)據(jù)集上進(jìn)行微調(diào)。Transformer具有出色的計(jì)算效率和擴(kuò)展性,使得訓(xùn)練規(guī)模龐大的模型成為可能。這些特性使得將Transformer應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的研究變得流行起來。VIT(vision transformer)(Dosovitskiy等,2021)在圖像分類領(lǐng)域有著突出表現(xiàn),它將圖像切成小塊輸入到Transformer中,并加入圖像塊的位置信息和分類位,經(jīng)過Transformer編碼器可以對(duì)圖像進(jìn)行分類,在海量的訓(xùn)練數(shù)據(jù)下,達(dá)到了很高的分類正確率,性能超過現(xiàn)有的分類模型。圖像處理Transformer(image processing transformer,IPT)(Chen等,2021a)可以應(yīng)用于圖像去噪和超分辨率等圖像處理任務(wù),在大規(guī)模數(shù)據(jù)集上訓(xùn)練的該模型可在上述任務(wù)中獲得最先進(jìn)的性能?;赥ransformer的端到端目標(biāo)檢測(cè)網(wǎng)絡(luò)(detection transformer,DETR)(Carion等,2020)使用2進(jìn)制匹配和Transformer編碼器—解碼器進(jìn)行預(yù)測(cè),極大簡(jiǎn)化了目標(biāo)檢測(cè)過程。
受VIT和ADSH的啟發(fā),本文提出了一種基于 Transformer的非對(duì)稱監(jiān)督深度哈希方法(asymmetric deep hashing method based on transformer,ADSHT)。本文的主要貢獻(xiàn)如下:1)使用Transformer生成圖像的哈希表示,結(jié)合非對(duì)稱學(xué)習(xí)策略將Transformer應(yīng)用到大規(guī)模圖像檢索任務(wù)中,在提高訓(xùn)練效率的同時(shí),提升了檢索性能。2)為了更加充分地利用監(jiān)督信息,將哈希損失與分類損失相結(jié)合,使模型能夠更好地學(xué)習(xí)哈希函數(shù),使圖像的哈希表示更加真實(shí)。3)在兩個(gè)公開數(shù)據(jù)集CIFAR-10(Krizhevsky,2009)(該數(shù)據(jù)集為單標(biāo)簽數(shù)據(jù)集)和NUS-WIDE(Chua等,2009)(該數(shù)據(jù)集為多標(biāo)簽數(shù)據(jù)集)上進(jìn)行實(shí)驗(yàn),通過與主流的對(duì)稱式方法和最優(yōu)的非對(duì)稱式方法進(jìn)行比較,驗(yàn)證了所提出方法的有效性。
本文提出的ADSHT模型主要包括圖像塊嵌入部分、特征提取部分(Dosovitskiy等,2021)和損失函數(shù)部分(Gu等,2020),結(jié)構(gòu)圖如圖1所示。特征提取模塊是提取圖像的特征,并將特征轉(zhuǎn)換為哈希編碼表示。損失函數(shù)部分是使圖像特征更接近真實(shí)的哈希碼,并保持查詢圖像與待檢索圖像的相似性。原始的Transformer只能處理1維數(shù)據(jù)。為了能夠處理2維圖像,本文將圖像x∈RH×W×C重塑為一系列扁平的2維圖像塊xp∈RN×(P2×C)。H、W和C為原始圖像的高度、寬度和通道數(shù),(P,P)是每個(gè)圖像塊的高度和寬度,p為圖像的序號(hào)。N=HW/P2是Transformer輸入的序列長(zhǎng)度。
圖1 ADSHT模型結(jié)構(gòu)圖
本文使用線性投影層E∈R(P2×C)×D將每個(gè)圖像塊向量映射到D維空間。隨后,拼接所有圖像塊向量,使之成為一個(gè)完整的圖像向量,并在該圖像向量第1位加入分類位向量xclass。最后,將每個(gè)圖像塊的位置信息Epos∈R(N+1)×D與圖像塊向量xp相加,最終得到嵌入的圖像向量sq∈R(N+1)×D。上述過程稱為圖像塊嵌入,如圖2所示。
圖2 圖像塊嵌入
本文方法的特征提取部分使用Transformer的編碼器模塊,并在該模塊后加入哈希模塊。編碼器模塊在 ImageNet1k數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,該模塊由多層交替的多頭注意力模塊(multi-head self-attention,MSA)(Vaswani等,2017)和全連接模塊(fully-connected network,MLP)組成,具體為
(1)
(2)
式中,B表示編碼器模塊的層數(shù)。在每個(gè)模塊之前使用規(guī)范化層(layernorm,LN)(Wang等,2019),在每個(gè)模塊之后均使用殘差連接。最后通過哈希模塊HASH輸出圖像的哈希表示h∈Rc,具體為
(3)
傳統(tǒng)的對(duì)稱式學(xué)習(xí)方法只利用監(jiān)督信息獲得相似矩陣,很少關(guān)注監(jiān)督信息對(duì)圖像的分類作用。本文對(duì)檢索圖像添加分類約束,充分利用監(jiān)督信息,使待檢索圖像得到更真實(shí)的哈希表示。為了使損失函數(shù)最小化,在待檢索圖像哈希碼與查詢圖像哈希碼均不更新的情況下,對(duì)損失函數(shù)求導(dǎo),計(jì)算分類損失函數(shù)參數(shù)。模型結(jié)束訓(xùn)練時(shí),會(huì)輸出查詢圖像的哈希碼和分類損失函數(shù)的參數(shù),令上述兩個(gè)參數(shù)不更新,計(jì)算待檢索圖像的哈希碼。
為了更好地學(xué)習(xí)能夠保持查詢圖像和待檢索圖像相似性的哈希碼,可以優(yōu)化監(jiān)督信息的相似度矩陣與查詢—待檢索圖像哈希碼對(duì)的內(nèi)積之間的損失。損失函數(shù)(Jiang和Li,2018)定義為
(4)
式中,qi=h(xi)很難學(xué)習(xí),它分布是離散的,因此設(shè)置h(xi)=sign(F(xi;Θ)),F(xiàn)(xi;Θ)∈R,而h(xi)分布依然是離散的,很難通過反向傳播來優(yōu)化網(wǎng)絡(luò)參數(shù)。其中,F(xiàn)(xi;Θ)是Transformer編碼器網(wǎng)絡(luò)的輸出,Θ是該網(wǎng)絡(luò)的參數(shù)。因此,本文使用tanh(F(xi;Θ))代替h(xi)來解決上述問題。ξ={1,2,…,n}表示所有待檢索圖像的索引值,Ω={1,2,…,m}?ξ表示所有查詢圖像的索引值。損失函數(shù)(Jiang和Li,2018)為
(5)
由于X?Y,xi有兩種表示,分別是待檢索圖像中的2進(jìn)制代碼rj和查詢圖像中的2進(jìn)制代碼tanh(F(xi;Θ))。本文添加另一個(gè)約束來減少它們之間的差異。新的損失函數(shù)(Jiang和Li,2018)定義為
(6)
式中,γ是超參數(shù)。為了更好地利用監(jiān)督信息,本文采用簡(jiǎn)單的線性分類器對(duì)檢索圖像的哈希碼和對(duì)應(yīng)的標(biāo)簽信息進(jìn)行建模,利用標(biāo)簽信息約束待檢索圖像的哈希碼的學(xué)習(xí),讓學(xué)習(xí)到的待檢索圖像哈希碼更接近真實(shí)的哈希碼。令L={i1,i2,i3,…,in}表示真實(shí)圖像標(biāo)簽信息的One-hot編碼。ii∈{0,1}h,i=1,…,n是每幅圖像的標(biāo)簽信息組成的向量,h表示類別的數(shù)量。元素1表示圖像包含此標(biāo)簽,元素0則相反。用W表示分類器的權(quán)重,將分類損失和哈希損失結(jié)合起來。最終的損失函數(shù)(Gu等,2020)為
(7)
式中,μ和φ為超參數(shù)。
2.3.1 優(yōu)化參數(shù)Θ
當(dāng)R和W不改變時(shí),令zi=F(xi;Θ),ui=tanh(F(xi;Θ)),zi的梯度計(jì)算為
(8)
2.3.2 優(yōu)化參數(shù)W
當(dāng)Θ和R不改變時(shí),式(7)變?yōu)?/p>
(9)
這是一個(gè)具有封閉解的最小化問題,對(duì)其求解,解得W為
(10)
式中,L代表真實(shí)圖像標(biāo)簽信息的One-hot編碼。
2.3.3 優(yōu)化參數(shù)R
當(dāng)Θ和W不改變時(shí),式(7)變?yōu)?/p>
(11)
(12)
式(12)用來更新R。最后可以得到整個(gè)數(shù)據(jù)庫對(duì)應(yīng)的哈希碼。
ADSHT學(xué)習(xí)算法的具體步驟如下:
輸出:待檢索圖像的哈希碼R,神經(jīng)網(wǎng)絡(luò)參數(shù)Θ。
1)初始化Θ、R和W,批處理大小M,迭代次數(shù)Tout和Tin。
2)FORi→ToutDO;
(1)從待檢索圖像中隨機(jī)選取查詢圖像X=YΩ,并獲取查詢圖像的相似矩陣SΩ。
(2)FORj→TinDO;
FORs=1,2,…,m/MDO;
①從X中隨機(jī)選取M幅圖像,構(gòu)建一次批處理。
②通過前向傳播計(jì)算批處理中各幅圖像的zi和ui。
③計(jì)算批處理的哈希損失,并根據(jù)式(8)計(jì)算梯度。
④根據(jù)反向傳播算法更新網(wǎng)絡(luò)參數(shù)Θ,并根據(jù)式(10)更新W。
3)FORk=1,2,…,cDO;
根據(jù)式(12)更新R*j。
CIFAR-10是單標(biāo)簽數(shù)據(jù)集,包含60 000幅圖像,50 000幅為查詢圖像,10 000幅為測(cè)試圖像,共10個(gè)類別,每個(gè)類別包含6 000幅圖像,每幅圖像的大小為32×32像素。NUS-WIDE是大規(guī)模圖像檢索任務(wù)常用的多標(biāo)簽數(shù)據(jù)集,包含269 648幅圖像,共81個(gè)類別。
實(shí)驗(yàn)采用全局平均精度(mean average precision,mAP)作為評(píng)價(jià)指標(biāo)。mAP是圖像檢索中最重要的衡量模型檢索性能的指標(biāo),是一組查詢中每個(gè)查詢的平均精度(AP)相加所取的平均值,定義為
(13)
式中,N表示數(shù)據(jù)集的大小,R是數(shù)據(jù)集中相關(guān)圖像的數(shù)量,c是進(jìn)行檢索以后,數(shù)據(jù)集中返回圖像的數(shù)量,Rc是前c中返回相關(guān)圖像的數(shù)量,如果排名在第c位置的圖像是相關(guān)的,則relc為1,否則為0(Zheng等,2020)。
深度監(jiān)督哈希算法大多基于對(duì)稱式方法,少部分基于非對(duì)稱式方法,目前非對(duì)稱式方法都是基于CNN實(shí)現(xiàn)的。實(shí)驗(yàn)通過與目前最優(yōu)的對(duì)稱、非對(duì)稱深度監(jiān)督哈希算法對(duì)比,驗(yàn)證本文方法的性能。
在CIFAR-10數(shù)據(jù)集上,選擇Transhash(Chen等,2021b)、ADSH(Jiang和Li,2018)、DBDH(deep balanced discrete hashing)(Zheng等,2020)、JLDSH(Gu等,2020)、DFH(deep Fisher hashing)(Li等,2019)、DSDH(Li等,2017)和DSHSD(deep supervised hashing based on stabe distribution)(Wu等,2019)進(jìn)行對(duì)比。實(shí)驗(yàn)中,遵循Jiang和Li(2018)的方法,隨機(jī)選取1 000 幅圖像(每個(gè)類別100幅)用做測(cè)試集,其余59 000幅圖像用做檢索集,并從檢索集中隨機(jī)抽取5 000幅圖像(每個(gè)類別500幅)作為訓(xùn)練集。
在NUS-WIDE數(shù)據(jù)集上,選擇Transhash(Chen等,2021b)、ADSH(Jiang和Li,2018)、DBDH(Zheng等,2020)、DFH(Li等,2019)、DSDH(Li等,2017)和DSHSD(Wu等,2019)進(jìn)行對(duì)比。與Li等人(2017)的方法類似,共選擇195 969幅圖像,包含21個(gè)常見類別,每個(gè)類別至少有5 000幅圖像。實(shí)驗(yàn)隨機(jī)選取2 100幅(每類100幅圖像)作為測(cè)試集,其余圖像作為檢索集,并從檢索集中隨機(jī)抽取10 500幅(每類500幅圖像)圖像作為訓(xùn)練集。特別說明,mAP結(jié)果是基于NUS-WIDE數(shù)據(jù)集返回的Top-5K樣本計(jì)算的。
實(shí)驗(yàn)參數(shù)參考Jiang和Li(2018)使用的參數(shù),為了避免過擬合,權(quán)重衰減參數(shù)設(shè)為10-5。批處理數(shù)量為128,學(xué)習(xí)率的調(diào)試范圍為[10-6,10-2],超參數(shù)γ為200,Tout為60,Tin為3。本文將S中元素-1的權(quán)重設(shè)為元素1的數(shù)量與元素-1的數(shù)量之比。
ADSHT-R和ADSHT模型的提取特征模塊分別為ResNet50網(wǎng)絡(luò)和Transformer編碼器網(wǎng)絡(luò)。實(shí)驗(yàn)使用Tesla P40 GPU,兩個(gè)模型都在ImageNet1k數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,設(shè)置訓(xùn)練輪數(shù)為60,批處理大小為32,都使用隨機(jī)梯度下降方法,超參數(shù)γ為200。兩個(gè)模型在32位哈希碼上的訓(xùn)練效率對(duì)比如表1所示。可以看出,在相同訓(xùn)練輪數(shù)下,ADSHT的參數(shù)量大約是ADSHT-R的13倍,但訓(xùn)練時(shí)間少于ADSHT-R,表明ADSHT的訓(xùn)練效率更高。
表1 不同網(wǎng)絡(luò)下模型的效率對(duì)比
本文方法結(jié)合了分類損失函數(shù)和哈希損失函數(shù),分類損失函數(shù)是式(7)的最后兩項(xiàng),超參數(shù)分別為μ和φ。若μ為0,則最小化分類權(quán)重為
(14)
這樣求得的分類權(quán)重為0或任意值。若φ為0,則最小化分類權(quán)重為
(15)
超參數(shù)μ不會(huì)影響分類權(quán)重,在求解當(dāng)中會(huì)被消掉。因此兩項(xiàng)要一起存在,本文令p=φ/μ,對(duì)不同的p值(0,0.05,0.1,0.2,1,5,10,20)進(jìn)行實(shí)驗(yàn),得到的結(jié)果如圖3所示,本文取φ=1。
從圖3可以看出,在CIFAR-10數(shù)據(jù)集上,模型在p=0.2時(shí),μ=5,得到最好的性能。在NUS-WIDE數(shù)據(jù)集上,在p=5時(shí),μ=0.2,模型獲得最好的性能。
圖3 兩個(gè)數(shù)據(jù)集的超參數(shù)取值
不同方法的檢索性能如表2所示。ADSHT為僅使用哈希損失函數(shù)的模型,ADSHT-F代表結(jié)合分類損失函數(shù)的模型。從24位、32位和48位3種不同的哈希位數(shù)與其他方法對(duì)比,可以發(fā)現(xiàn)ADSHT-F在CIFAR-10和NUS-WIDE數(shù)據(jù)集上的mAP值都高于其他方法。尤其在CIFAR-10數(shù)據(jù)集上,與表中mAP值最高的JLDSH相比,ADSHT-F在24位時(shí)提升高達(dá)5.06%。在NUS-WIDE數(shù)據(jù)集上,ADSHT-F與ADSH相比,在24位時(shí)提升了4.17%。ADSHT-F模型相對(duì)于ADSHT模型,性能也有一定提升,說明監(jiān)督信息得到充分利用,分類損失會(huì)產(chǎn)生一定貢獻(xiàn)。從表2可以看出,隨著哈希表示位數(shù)的增加,模型性能會(huì)逐漸提升,因?yàn)槲粩?shù)增加可以更好地表示圖像特征。表中前5行的DSDH(Li等,2017)、DFH (Li等,2019)、DSHSD(Wu等,2019)、DBDH (Zheng等,2020)和Transhash(Chen 等,2021b)模型均使用對(duì)稱式方法,第6—10行的JLDSH(Gu等,2020)、ADSH(Jiang和Li,2018)、ADSHT-R、ADSHT和ADSHT-F模型均使用非對(duì)稱式方法,可以看出除了ADSHT-R模型因未完全收斂導(dǎo)致性能偏低以外,非對(duì)稱式方法的性能明顯優(yōu)于對(duì)稱式方法。將ADSHT與ADSHT-R對(duì)比,可以看出,ADSHT模型性能遠(yuǎn)高于ADSHT-R,并且從實(shí)驗(yàn)結(jié)果中可以觀察到,訓(xùn)練輪數(shù)設(shè)置為60的情況下,ADSHT-R模型并沒有完全收斂,因此其性能偏低。這也說明ADSHT模型的收斂速度快于ADSHT-R模型。
表2 不同方法的mAP對(duì)比
本文提出了一種Transformer與非對(duì)稱學(xué)習(xí)策略相結(jié)合的圖像檢索方法。一方面,利用哈希損失學(xué)習(xí)哈希函數(shù),并使用Transformer生成查詢圖像的哈希表示,使查詢圖像的哈希表示更加真實(shí);另一方面,采用非對(duì)稱式學(xué)習(xí)策略,根據(jù)查詢圖像的哈希表示與分類損失函數(shù)直接計(jì)算得到待檢索圖像的哈希表示。在此過程中,將哈希損失與分類損失相結(jié)合,充分利用監(jiān)督信息,提高訓(xùn)練效率。與目前最優(yōu)的對(duì)稱、非對(duì)稱深度監(jiān)督哈希算法的對(duì)比實(shí)驗(yàn)表明,本文方法在CIFAR-10和NUS-WIDE數(shù)據(jù)集上均獲得了最優(yōu)性能,驗(yàn)證了本文方法的有效性。但是本文方法使用的Transformer模型未關(guān)注圖像局部信息,且模型參數(shù)量較大,解決這些問題是后續(xù)工作的重點(diǎn)。