摘 要:跨模態(tài)圖像文本檢索通常指的是可見光圖像和正常文本。其中,基于標(biāo)量的圖文相似度具有局限性,無法全面表示跨模態(tài)對(duì)齊。同時(shí),局部區(qū)域—單詞相關(guān)性和全局圖像—文本依賴性之間存在復(fù)雜的相互作用,所以用于推理兩種模態(tài)特征的模塊存在一定程度的不確定性。針對(duì)上述問題,文章提出了一種基于層次相似網(wǎng)絡(luò)的圖文匹配動(dòng)態(tài)多視圖推理方法。首先,該方法使用了基于標(biāo)量和基于向量的全局和局部相似度。其次,設(shè)計(jì)了四種類型的單元作為探索全局—局部相似性交互的基本單位。最后,引入了可學(xué)習(xí)的選擇置信度機(jī)制,在Flickr30K和MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)展現(xiàn)了算法的卓越性能。
關(guān)鍵詞:跨模態(tài)檢索;圖文匹配;動(dòng)態(tài)交互算法;相似度預(yù)測(cè)
中圖分類號(hào):TP391;TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)17-0056-06
0 引 言
鑒于多媒體數(shù)據(jù)(尤其是圖像—文本對(duì))的迅速增長(zhǎng),研究人員致力于在計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)之間建立聯(lián)系。圖像—文本匹(Image-Text Matching)任務(wù)[1]獲得了廣泛的關(guān)注,該任務(wù)主要通過測(cè)量可見光圖像與文本之間的相似性,來獲取文本與可見光圖像之間的對(duì)應(yīng)關(guān)系。盡管近年來出現(xiàn)了一些圖像—文本匹配的方法,并取得了良好的性能,但由于圖像—文本對(duì)之間精確對(duì)齊和準(zhǔn)確推斷相似性的復(fù)雜要求,它仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。該任務(wù)的一個(gè)突出特點(diǎn)是圖像和文本之間存在很大的語義差異,進(jìn)而影響跨模態(tài)檢索性能。為了減少不同模態(tài)之間的語義鴻溝,一些研究人員提出了跨模態(tài)語義交互方法,以衡量圖像與文本的相關(guān)性。通常情況下,這一過程包括對(duì)視覺和語言進(jìn)行對(duì)齊,以彌合它們之間的語義差距,然后根據(jù)這些對(duì)齊計(jì)算不同模態(tài)之間的語義相似度。如何尋找到可見光圖像和文本之間最優(yōu)的對(duì)齊方式成為一個(gè)亟待解決的問題。
1 相關(guān)工作
根據(jù)相似度的類別,現(xiàn)有方法大致可分為兩類:基于標(biāo)量的相似度和基于向量的相似度。最近的研究主要集中于基于標(biāo)量相似度的方法[2-3]。這類方法通常先將圖像和文本特征映射到一個(gè)共享的嵌入空間,然后采用特定的交互模式在這個(gè)共享空間內(nèi)度量?jī)煞N模態(tài)之間的標(biāo)量相似度。另一方面,基于向量相似度的方法[4]在獲得所有特征之后,會(huì)計(jì)算圖像和文本之間的向量相似度。然后,這些方法通過推理向量相似度來推斷跨模態(tài)語義相關(guān)性。上述兩類方法中,有基于全局對(duì)齊的交互,也有基于局部對(duì)齊的交互?;谌謱?duì)齊的方法[5]直接從全局表征的余弦相似度推斷跨模態(tài)語義相似性。與基于全局對(duì)齊的方法不同,基于局部對(duì)齊的方法[6]從局部突出的區(qū)域—單詞對(duì)中匯總語義相關(guān)性。一般而言,大多數(shù)基于局部對(duì)齊的方法都采用將圖像區(qū)域和文本單詞聚合在一起來衡量圖像與文本的整體相關(guān)性[7]。雖然這些方法通過采用不同機(jī)制獲得最終的相似度,但它們?nèi)匀皇庆o態(tài)的,嚴(yán)重依賴經(jīng)驗(yàn)知識(shí),這可能限制相似性交互,從而影響檢索性能[8]。此外,這些方法通常傾向于使用平均池化等方法將部分局部對(duì)齊的信息聚合為全局對(duì)齊的信息,這可能導(dǎo)致丟失許多細(xì)節(jié)的語義信息[9]。
為了解決上述問題,我們的方法通過從多個(gè)視圖動(dòng)態(tài)推導(dǎo)向量相似度,并利用標(biāo)量相似度來調(diào)整選擇置信度,以指導(dǎo)最合適的相似度交互選擇。在相似度推理模塊中,我們受到何振華[10]和郁萬蓉[11]的啟發(fā),設(shè)計(jì)了四c9bcad8fcba1f4125cf4024206c3d746種單元來完成不同相似度交互操作,包含了整體和局部的不同視角下的交互。然后將這四個(gè)單元堆疊起來,構(gòu)建了一個(gè)完整的相似度動(dòng)態(tài)交互選擇空間,從而可以考慮各種交互模式。為了確保動(dòng)態(tài)選擇交互模式的合理性和有效性,我們?yōu)槊總€(gè)單元配置了可學(xué)習(xí)的選擇置信度,并且引入了標(biāo)量相似性作為正則化,以驅(qū)動(dòng)網(wǎng)絡(luò)學(xué)習(xí)更全面、更詳細(xì)的矢量相似性。在Flickr30K和MSCOCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的模型可以獲得良好的檢索性能。
2 本文方法
2.1 圖文和相似度表征學(xué)習(xí)
給定一張可見光圖像I,利用基于He等人[12]提出的ResNet-101的Faster R-CNN[13]實(shí)現(xiàn)了自下而上的注意力機(jī)制,根據(jù)最高的類別置信度得分提取K個(gè)突出的區(qū)域表征。然后,我們使用一個(gè)線性投影ri,將其轉(zhuǎn)換為D維視覺區(qū)域特征。為了獲得每個(gè)區(qū)域的空間相關(guān)性,采用位置編碼方法,充分利用每個(gè)區(qū)域的邊界框信息Pi,其式為:
其中,F(xiàn)Cp(·)表示全連接層。最后,進(jìn)行區(qū)域嵌入和位置嵌入的融合:
對(duì)于包含N個(gè)單詞的給定句子T,首先使用Devlin等人[14]提出的Bert作為文本編碼器來提取單詞級(jí)別的文本語義特征。緊接著,采用不同大小的并行二維卷積核來捕捉更精細(xì)的短語特征。然后,將這些核的文本特征級(jí)聯(lián)起來,再將其傳入全連接層,得到D維的單詞特征,記為:T=[t1;t2;…;tM]∈RM×D。此外,整個(gè)圖像I的全局表示vglo和整個(gè)句子T的全局表示tglo由注意力機(jī)制編碼得到。
受Diao等人[15]提出的SGRAF這一工作的啟發(fā),我們利用局部和全局跨模態(tài)之間的向量語義相似度來捕捉特征表示之間更詳細(xì)的關(guān)聯(lián)。將圖像特征vglo和文本特征tglo之間基于向量的全局語義相似度sglo表示為:
(1)
其中,Wg∈Rd×D表示一個(gè)可學(xué)習(xí)的參數(shù)矩陣,用于獲得d維向量相似性。∣·∣2和∣·∣∣2分別表示逐元素平方和?2歸一化。我們還使用余弦相似度來衡量圖像和文本之間的親和性,即基于標(biāo)量的圖像—文本相似度Aglo。
為了得到區(qū)域和單詞特征之間的局部相似性表征,我們應(yīng)用注意力機(jī)制的方法來關(guān)注每個(gè)單詞與每個(gè)區(qū)域的關(guān)系。每個(gè)單詞的注意力權(quán)重由帶有溫度參數(shù)τ的SoftMax函數(shù)計(jì)算:
(2)
其中,旨在將余弦相似度cij標(biāo)準(zhǔn)化,cij表示區(qū)域vi與詞tj之間的余弦相似度,標(biāo)準(zhǔn)化過程如下:
(3)
然后,通過來聚合與位置加強(qiáng)的區(qū)域特征匹配的文本上下文。圖像區(qū)域特征與其語義匹配的上下文詞語特征之間的局部語義相似度表示為:
(4)
其中,Wl∈Rd×D表示可學(xué)習(xí)的參數(shù)矩陣。將全局和局部的向量語義相似度串聯(lián)起來,作為動(dòng)態(tài)選擇空間的初始輸入:。
2.2 動(dòng)態(tài)選擇空間
2.2.1 殘差修正單元(RRC)
直接采用校正線性單位(ReLU)激活函數(shù)來設(shè)計(jì)一個(gè)簡(jiǎn)單的全視角交互單元,這個(gè)全視角交互單元會(huì)充當(dāng)殘差連接中的直接映射部分。我們總結(jié)RRC為:。
2.2.2 自我推理單元 (SRC)
為了通過捕捉更全面的互動(dòng)來增強(qiáng)相似性預(yù)測(cè),我們利用自注意力機(jī)制來促進(jìn)相似度之間的傳播。這也是一種全視角的交互方式,其計(jì)算式可以表示為:
(5)
其中,Q和K由全連接層得到,表示Q的通道數(shù)的平方根。我們總結(jié)SRC為:。
2.2.3 全局門控單元(GGC)
局部語義相似度已經(jīng)包含了豐富的細(xì)粒度的局部信息。另一方面,全局語義相似度涉及圖像—文本對(duì)的對(duì)齊,這是一種粗粒度對(duì)齊,包含了上下文語義信息。因此,從不同的角度考慮局部視角和全局視角之間的相互作用是至關(guān)重要的。在這個(gè)單元中,我們考慮的是全局視角,利用全局相似度來生成指導(dǎo)局部相似度的門閾值。這種方法確保了局部和全局信息的整合,充分利用了它們的互補(bǔ)性,其表述為:
(6)
其中,F(xiàn)Csg/sl(·)表示線性層。我們總結(jié)GGC為: 。
2.2.4 局部細(xì)化單元(LRC)
為了進(jìn)一步豐富相似度表示,我們?cè)O(shè)計(jì)了這個(gè)從局部視角進(jìn)行相似度交互的單元。首先同時(shí)采用了最大池化和平均池化的方法來降低局部相似度的維度,如。這樣可以有效地聚合局部相似度信息,捕捉細(xì)粒度相似度的不同方面,促進(jìn)對(duì)圖像與文本關(guān)系的更全面理解。之后,按照Qu等人[2]提出的方法,增強(qiáng)全局表示的語義如下:
(7)
其中,F(xiàn)Cω/r(·)表示線性層,用于將映射到縮放權(quán)重向量ωr和移動(dòng)偏置向量中βr。我們可以總結(jié)LRC為:。
現(xiàn)在,綜合上文介紹的四個(gè)單元,這些單元的輸出可形式化地概括為,其中Fi(·)和分別表示第l層的第i個(gè)單元的功能和輸入。
2.2.5 選擇置信度
如圖1所示,為了創(chuàng)建一個(gè)動(dòng)態(tài)選擇空間,我們以密集連接的方式在相鄰層之間建立上述四個(gè)單元之間的交互關(guān)系。這四個(gè)單元在每一層內(nèi)并行配置,同級(jí)水平上發(fā)揮作用,最大限度地提高了各層的利用率。為了使得動(dòng)態(tài)交互模式成為可能,我們進(jìn)一步引入了選擇置信度的概念,使得交互模式具有了適應(yīng)性,每個(gè)輸入可根據(jù)自身的語義信息執(zhí)行最合適的交互。這種適應(yīng)性考慮了各種因素,如復(fù)雜性、對(duì)象數(shù)量和其他相關(guān)屬性。因此,每個(gè)單元都承擔(dān)著不同的角色,并與其余單元保持密切聯(lián)系。值得注意的是,我們的交互模式是動(dòng)態(tài)的、可學(xué)習(xí)的,這與之前的許多靜態(tài)方法不同。它既包括現(xiàn)有的交互模式,也包括尚未探索的交互模式,具有更大的靈活性和提高性能的潛力。
選擇置信度得分表示的是從第l-1層的第i個(gè)單元到第l層的第j個(gè)單元的概率。每個(gè)單元的選擇置信度得分由每個(gè)單元的輸入計(jì)算得出。除第一層外,下一層中某一單元的輸入是通過對(duì)當(dāng)前層中四個(gè)單元的輸出進(jìn)行加權(quán)匯總得到的。其中權(quán)重就是每個(gè)單元的置信度得分。這種加權(quán)聚合過程結(jié)合了來自不同單元的信息,從而在后續(xù)層中更全面地呈現(xiàn)輸入數(shù)據(jù)。聚合操作如下:
(8)
其中Z表示總層數(shù)。在這項(xiàng)工作中,,是計(jì)算選擇置信度的函數(shù),具體操作如下:
(9)
這個(gè)公式中,F(xiàn)FN(·)表示由多層感知器實(shí)現(xiàn)的前饋網(wǎng)絡(luò)。ReLU和Tanh都是激活函數(shù),用于將置信度得分映射到[0,1]區(qū)間。
在動(dòng)態(tài)相似性選擇的最后階段,我們級(jí)聯(lián)最后4個(gè)單元的輸出,計(jì)算出圖像和文本的最終相似度R(I,T),其式如下:
(10)
其中和分別表示最后一層中第i個(gè)單元的選擇置信度得分和得到的相似度。WR∈R1×4d表示將級(jí)聯(lián)后的相似度向量映射到標(biāo)量相關(guān)得分的可學(xué)參數(shù)。
為了學(xué)習(xí)選擇置信度,我們收集并級(jí)聯(lián)來自所有層的所有單元的作為,并將其映射到與向量相似度相同的嵌入空間中:
(11)
其中表示選擇置信度向量,F(xiàn)Cc(·)表示全連接層。
2.3 目標(biāo)函數(shù)
我們采用雙向三元組排序損失進(jìn)行端到端訓(xùn)練,將匹配的圖像—文本對(duì)進(jìn)行嵌入拉近,同時(shí)將非匹配的圖像—文本對(duì)嵌入推開。具體過程如下:
(12)
其中λ表示一個(gè)邊界參數(shù),R(I,T)表示由上述公式定義的圖像I和文本T的全局表征之間的語義相關(guān)性。在一個(gè)小批量數(shù)據(jù)中,最難區(qū)分的負(fù)樣本文本為,最難區(qū)分的負(fù)樣本圖像為。在推理階段,利用動(dòng)態(tài)交互模式預(yù)測(cè)的相關(guān)性R(I,T)進(jìn)行檢索評(píng)估。
相似的交互模式應(yīng)適用于相似的語義相似度。這意味著選擇置信度的分布應(yīng)與相似度的分布一致。為了使動(dòng)態(tài)交互模式和選擇置信度的訓(xùn)練過程更加穩(wěn)定,我們引入了標(biāo)量相似性Aglo表示正則化項(xiàng)。為了捕捉選擇置信度向量的內(nèi)部語義依賴性,我們計(jì)算其自身的內(nèi)在相似性,其式如下:
(13)
表1展示了我們提出的DMRSN與不同方法在Flickr30K和MS-COCO數(shù)據(jù)集上的性能比較。符號(hào)“*”是指集合模型。
為了實(shí)現(xiàn)相似性和選擇一致性,將正則化項(xiàng)表達(dá)為:
(14)
其中,MB是小批量圖文對(duì)的數(shù)量。和則表示的是第i個(gè)樣本對(duì)。將上述三重?fù)p失L(I,T)與選擇正則化Lsc相結(jié)合,得到如下總體目標(biāo)函數(shù):L=(I,T)+μLsc,其中μ表示一個(gè)手動(dòng)設(shè)置的超參數(shù),其目的是平衡兩種類型的損失。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
在實(shí)驗(yàn)中使用了兩個(gè)基準(zhǔn)數(shù)據(jù)集來驗(yàn)證我們方法的性能:1)Flickr30K:Flickr30K數(shù)據(jù)集包含31 783張圖片,每張圖片有5個(gè)相應(yīng)的標(biāo)題。2)MS-COCO:MSCOCO數(shù)據(jù)集包含123 287幅圖像,每幅圖像都有5個(gè)注釋標(biāo)題。我們報(bào)告了直接在全部5K測(cè)試圖像上計(jì)算的評(píng)估結(jié)果(MS-COCO 5K),以及對(duì)1K測(cè)試圖像的5次平均的匹配性能(MS-COCO 1K)。
在訓(xùn)練和推理過程中,Bert和Faster R-CNN只作為特征提取器,其參數(shù)被凍結(jié),不加入訓(xùn)練過程。圖像文本對(duì)聯(lián)合嵌入的維度D設(shè)置為512,語義相似性向量d的維度為256。將溫度參數(shù)τ設(shè)為9。此外,動(dòng)態(tài)交互模式單元數(shù)、選擇層數(shù)Z、損失參數(shù)λ和權(quán)衡參數(shù)μ分別設(shè)為4、3、0.2和0.5。我們的模型DMRSN在一塊GeForce RTX 2080 Ti GPU上采用Adam優(yōu)化器來優(yōu)化模型,最小訓(xùn)練批量為64,訓(xùn)練周期為30。學(xué)習(xí)率設(shè)定為0.000 2,每15個(gè)階段衰減10%。驗(yàn)證集上性能最好的參數(shù)將被用于測(cè)試。
3.2 對(duì)比實(shí)驗(yàn)結(jié)果及分析
圖2是模型在訓(xùn)練階段的優(yōu)化過程。表1左半部分展現(xiàn)了與之前模型在Flickr30K數(shù)據(jù)集上雙向檢索結(jié)果的比較??梢钥吹?,我們提出的DMRSN模型優(yōu)于所有比較的高性能方法,僅在文本檢索的R@1得分上比RCAR低0.1%。除此之外,在圖像和文本檢索兩個(gè)子任務(wù)上,我們的模型在所有指標(biāo)上都比以前的方法取得了更好的結(jié)果。與基線模型SGRAF相比,我們的文本檢索R@1提高了4.4%,圖像檢索上R@1提高了5.6%,R@sum提高了25.1%。SGRAF僅從整體角度進(jìn)行學(xué)習(xí)相似度之間的語義關(guān)系。這些改進(jìn)說明了動(dòng)態(tài)探索相似性交互模式的可行性和重要性。值得注意的是,我們的單個(gè)模型也能實(shí)現(xiàn)有競(jìng)爭(zhēng)力的檢索性能,這是因?yàn)槿趾途植肯嗨贫葧?huì)經(jīng)過幾層的動(dòng)態(tài)交互,從而挖掘出最適合的交互模式,這進(jìn)一步證明了我們模型的有效性和穩(wěn)定性。表1右半部分和表2分別給出了MS-COCO數(shù)據(jù)集上1K和5K測(cè)試的實(shí)驗(yàn)結(jié)果。除了文本檢索的R@10分?jǐn)?shù)和圖像索的R@1比最好的低0.2%和0.3%,我們的模型在其他所有指標(biāo)上都取得了最好的性能。雖然其在R@10和R@1上的表現(xiàn)可能略低于PFAN和RCAR,但在其他評(píng)價(jià)指標(biāo)上的得分卻明顯優(yōu)于它們。事實(shí)上,我們的R@sum分?jǐn)?shù)極大超過PFAN,高出了12.8%。我們的單一模型與一些最先進(jìn)的方法相比,尤其是和以往集合模型相比,仍然具有很強(qiáng)的競(jìng)爭(zhēng)力。這進(jìn)一步證明了我們提出的模型的魯棒性,并顯示了我們的交互模塊的卓越能力。
3.3 消融實(shí)驗(yàn)結(jié)果及分析
將獨(dú)立模型與去除某個(gè)單元的變體進(jìn)行比較。如表3所示,去除SRC(w/o SRC)的性能下降最為明顯,這表明傳播局部和全局相似性之間的整體信息非常重要。我們的模型能取得比去除局部相似性推理單元(w/o LRC)和去除全局相似性推理單元(w/o GGC)更好的性能,這說明從多個(gè)視角進(jìn)行相似性推理也是有效的。此外,w/o GGC的結(jié)果優(yōu)于w/o LRC,這表明局部相似性中的細(xì)粒度的語義信息可以更好地用來完善全局相似性。總體而言,我們的模型在所有指標(biāo)上都優(yōu)于消融模型,這進(jìn)一步證明了我們的模型相似性交互單元的有效性。
3.4 可視化結(jié)果與分析
將動(dòng)態(tài)選擇空間可視化,如圖3所示,圖中顯示了每張圖像的選擇置信度得分的注意力圖。為簡(jiǎn)潔起見,這一置信度可以揭示每張圖片自身的交互模式。由圖3可知,圖像—文本對(duì)的相似性越復(fù)雜,交互選擇就越復(fù)雜,即選擇過程會(huì)動(dòng)態(tài)地適應(yīng)輸入的復(fù)雜性,并相應(yīng)地調(diào)整交互模式,以捕捉模式之間錯(cuò)綜復(fù)雜的關(guān)系。例如,圖3(b)的簡(jiǎn)單實(shí)例只激活了相對(duì)簡(jiǎn)單的交互模式,而圖3(a)的復(fù)雜實(shí)例則激活了幾乎所有交互模式。這是因?yàn)榧?xì)節(jié)更多的圖像—文本對(duì)在其矢量語義相似性中包含了更多的語義信息。所以有必要考慮多視角相似性的交互作用。對(duì)比兩個(gè)例子可以驗(yàn)證這一觀點(diǎn)。此外,還可以觀察到即使圖像—文本對(duì)所包含的信息差別很大,在選擇淺層交互單元時(shí)也會(huì)存在一些共同點(diǎn)。這些觀察結(jié)果表明,我們的模型具備針對(duì)不同的樣本動(dòng)態(tài)學(xué)習(xí)不同交互模式的能力。
4 結(jié) 論
在本文中,我們提出了一種新穎的針對(duì)圖文匹配的動(dòng)態(tài)多視角推理相似性網(wǎng)絡(luò),這是一個(gè)采用多視角來研究相似度動(dòng)態(tài)交互的工作。首先綜合考慮了標(biāo)量和矢量相似度;其次將推理相似度的視角分為局部到全局視角、全局到局部視角、整體到整體視角;再次將四個(gè)交互單元密集連接起來,構(gòu)建了一個(gè)動(dòng)態(tài)的相似性選擇空間,以適應(yīng)多視角的相似度交互;最后,所有被選中的相似性交互模式都會(huì)根據(jù)我們提出的選擇置信度進(jìn)行加權(quán)。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了我們模型的有效性和優(yōu)越性。未來,我們計(jì)劃進(jìn)一步研究相似度的交互模式,更好地將細(xì)粒度局部相似度和粗粒度全局相似度聯(lián)系起來。并且思考將紅外模態(tài)引入檢索任務(wù)的可能性。
參考文獻(xiàn):
[1] ANDERSON P,HE X D,BUEHLER C,et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6077-6086.
[2] QU L G,LIU M,WU J L,et al. Dynamic Modality Interaction Modeling for Image-Text Retrieval [C]//Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.Virtual:Association for Computing Machinery,2021:1104-1113.
[3] WANG Y X,YANG H,QIAN X M,et al. Position Focused Attention Network for Image-Text Matching [J/OL].arXiv:1907.09748 [cs.CL].[2024-02-16].https://arxiv.org/abs/1907.09748.
[4] DIAO H,ZHANG Y,MA L,et al. Similarity Reasoning and Filtration for Image-Text Matching [J/OL].arXiv:2101.01368 [cs.CV].[2024-02-18].https://arxiv.org/abs/2101.01368.
[5] ZHANG H T,MAO Z D,ZHANG K,et al. Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching [C]//Proceedings of the AAAI Conference on Artificial Intelligence,36(3),3262-3270.
[6] LI K P,ZHANG Y L,LI K,et al. Visual Semantic Reasoning for Image-Text Matching [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019: 4653-4661.
[7] CHEN T L,LUO J B. Expressing Objects Just Like Words: Recurrent Visual Embedding for Image-Text Matching [C]//Proceedings of the AAAI Conference on Artificial Intelligence,34(7),10583-10590.
[8] ZHANG Q,LEI Z,ZHANG Z X,et al. Context-Aware Attention Network for Image-Text Retrieval [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle:IEEE,2020:3533-3542.
[9] LIU C,MAO Z,LIU A A,et al. Focus Your Attention: A Bidirectional Focal Attention Network for Image-Text Matching [C]//Proceedings of the 27th ACM International Conference on Multimedia.Nice:Association for Computing Machinery,2019:3-11.
[10] 何振華,胡恒博,金鑫等.基于注意力機(jī)制的多任務(wù)漢語關(guān)鍵詞識(shí)別 [J].現(xiàn)代信息科技,2022,6(6):82-85+89.
[11] DEVLIN J,CHANG M W,LEE K T,et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].[2024-02-18].https://arxiv.org/abs/1810.04805.
[12] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J/OL].arXiv:1506.01497 [cs.CV].[2024-02-15].https://doi.org/10.48550/arXiv.1506.01497.
[13] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[14] 郁萬蓉.基于多級(jí)結(jié)構(gòu)的深度子空間聚類方法 [J].現(xiàn)代信息科技,2022,6(6):100-103.
[15] DIAO H,ZHANG Y,LIU W,et al. Plug-and-Play Regulators for Image-Text Matching [J].IEEE Transactions on Image Processing,2023.32:2322-2334.
DOI:10.19850/j.cnki.2096-4706.2024.17.011
收稿日期:2023-03-20
基金項(xiàng)目:國(guó)家自然科學(xué)基金(62020106012,U1836218,61672265);中國(guó)教育部111項(xiàng)目(B12018)
作者簡(jiǎn)介:張書銘(1999.07—),男,漢族,CCF會(huì)員,碩士研究生,主要研究方向:圖文檢索、深度學(xué)習(xí)。
Image-text Retrieval Algorithm of Dynamic Multi-view Reasoning
Hierarchical Similarity
ZHANG Shuming
(School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China)
Abstract: Cross-modal image-text retrieval usually refers to visible light images and normal text. Among them, image-text similarity based on scalar has limitations and cannot fully represent cross-modal alignment. At the same time, there is a complex interaction between local region—word correlation and global image—text dependence, so the modules used to infer the two modal features have a certain degree of uncertainty. In view of the above problems, this paper proposes a dynamic multi-view reasoning method of image-text matching based on hierarchical similarity network. Firstly, the method uses global and local similarity based on scalar and vector. Secondly, four types of units are designed as the basic units to explore the global—local similarity interaction. Finally, a learnable selection confidence mechanism is introduced, and experiments on Flickr30K and MSCOCO data set show the excellent performance of the algorithm.
Keywords: cross-modal retrieval; image-text matching; dynamic inter-action algorithm; similarity prediction