張知奇 袁鑫攀 曾志高
摘? 要:大多數(shù)現(xiàn)有的跨模態(tài)檢索方法僅使用每個(gè)模態(tài)內(nèi)的模態(tài)內(nèi)關(guān)系或圖像區(qū)域和文本詞之間的模態(tài)間關(guān)系。文章中提出了一種基于自然語言的句法依存關(guān)系的視覺語言模型,稱為Dep-ViLT。通過句法依存分析,構(gòu)建句法依存樹,利用單向的句法依存關(guān)系增強(qiáng)核心語義的特征表達(dá),促進(jìn)語言模態(tài)與視覺模態(tài)的特征交互。實(shí)驗(yàn)表明,Dep-ViLT對比現(xiàn)有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%。最重要的是,Dep-ViLT在具有復(fù)雜語法結(jié)構(gòu)的長難句中依然表現(xiàn)良好。
關(guān)鍵詞:句法依存;跨模態(tài)檢索;圖卷積;Transformer
中圖分類號(hào):TP391.3? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)10-0074-06
Abstract: Most of the existing cross-modal retrieval methods only use the intra-modal relationship within each mode or the inter-modal relationship between image regions and text words. This paper proposes a visual language model based on the syntactic dependency relationship of natural language, called Dep-ViLT. Through syntactic dependency analysis, the syntactic dependency tree is constructed, and the one- directional syntactic dependency relationship is used to enhance the feature expression of core semantics and promote the feature interaction between language mode and visual mode. The experiment shows that the recall rate (R@K)of Dep-ViLT compared with the existing SOTA model has an average increase of 1.7%, with a maximum increase of 2.2%. Most importantly, the Dep-ViLT still performs well in long and difficult sentences with complex grammatical structures.
Keywords: syntactic dependency; cross-modal retrieval; figure convolution; Transformer
0? 引? 言
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長,這些數(shù)據(jù)通常以多模態(tài)形式呈現(xiàn),包括但不限于圖片以及對應(yīng)的文本描述,因此跨模態(tài)檢索(例如,使用圖像查詢來搜索相關(guān)文本,反之亦然)已成為一個(gè)突出的研究主題。
提升跨模態(tài)圖文檢索準(zhǔn)確度的關(guān)鍵是特征表示,為了解決不同模態(tài)信息的異構(gòu)鴻溝問題,首先想到的就是對不同模特的數(shù)據(jù)進(jìn)行單獨(dú)的特征提取。在基于特征表示的方法中,針對單模態(tài)特征,Peng[1]等人提出了模態(tài)針對型深層結(jié)構(gòu)模型(Modality-Specific Deep Structure, MSDS)。該模型通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像區(qū)域特征,通過WCNN提取文本表征。WCNN可以處理任意大小的文本序列并獲取具有相同維度的結(jié)果特征向量[2]。隨后,基于模態(tài)針對型深層結(jié)構(gòu)模型,HE等人[3]提出了深度雙向表示學(xué)習(xí)模型(Deep and Bidirectional Representation Learning Model, DBRLM)的方法,利用圖像的圖題中的結(jié)構(gòu)信息和位置信息進(jìn)行數(shù)據(jù)增強(qiáng),利用不對稱結(jié)構(gòu)學(xué)習(xí)模態(tài)間的關(guān)系,拓展了雙向網(wǎng)絡(luò)模型的研究思路。
針對單標(biāo)簽或多標(biāo)簽問題,為了更好地彌合視覺語義和文本語義間的差距,Qi等人[4]使用了深度卷積激活特征描述子(Deep Convolutional Activation Feature, DeCAF),將卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的預(yù)測作為ImageNet的輸入視覺特征。實(shí)驗(yàn)表明,深度卷積激活特征描述子可以使ImageNet再次學(xué)習(xí)卷積神經(jīng)中提取的圖像特征,精煉圖像特征,并且效果優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。由于CNN預(yù)訓(xùn)練模型具有良好可遷移性質(zhì),針對同一問題,Song等人[5]采取微調(diào)CNN預(yù)訓(xùn)練模型方案,提出了深度語義匹配方法(Deep Semantic Matching, deep-SM),對不同模態(tài)的數(shù)據(jù)采取不同的損失函數(shù),使用微調(diào)的CNN和重新訓(xùn)練的FN將圖像和文本投影到同一緯度的向量特征空間中,如圖1所示。實(shí)驗(yàn)表明,微調(diào)的方法可以提高模型對目標(biāo)數(shù)據(jù)集的適應(yīng)性,有效降低訓(xùn)練難度,拉近多模態(tài)數(shù)據(jù)的語義異構(gòu)距離。
綜上所述,目前的基于單模態(tài)特征表示的方法有兩種方式來更好地提取多模態(tài)輸入特征:
1)針對不同模態(tài),采用針對性的方法提取單模態(tài)特征來增強(qiáng)圖像和文本的表征能力。該方法對大規(guī)模的特定數(shù)據(jù)集具有良好的特征學(xué)習(xí)能力。
2)微調(diào)或者改進(jìn)CNN模型。在大規(guī)模的多標(biāo)簽數(shù)據(jù)集上,該方法具有良好的適應(yīng)性和遷移性。
但是,目前研究者在基于單模態(tài)特征表示的方法中更傾向于對視覺特征的表征方法的改良,文本數(shù)據(jù)在跨模態(tài)語義特征提取過程中并沒有得到很好的研究[6]。
針對文本數(shù)據(jù)在跨模態(tài)語義特征提取問題,我們將目光鎖定在詞嵌入方法的選取上。因?yàn)獒槍σ曈X模態(tài),ViLT已經(jīng)采取了最簡單的處理方式,將視覺模態(tài)的大部分計(jì)算量轉(zhuǎn)移到了模態(tài)交互層。所以說能否正確理解文本語義將直接決定ViLT的模態(tài)交互效果。在融合語義理解的能力上,句法依存關(guān)系具有天然的優(yōu)勢。本文以ViLT模型為基礎(chǔ),在文本嵌入中引入句法依存樹,利用句法依存樹對文本重新建模,并進(jìn)行依存分析,通過斯坦福NLP工具抽取文本的句法依存三元組,以詞為節(jié)點(diǎn),依存弧為邊,構(gòu)建句法依存圖,并將句法依存圖輸入到GCN中得到句法依存關(guān)系的表征。句法依存圖如圖2所示。句法依存關(guān)系將句子表示為有向樹,在相關(guān)單詞之間具有修飾依存弧,一個(gè)依存弧單向連接兩個(gè)詞,分別是核心詞(head)和依存詞(dependent)并標(biāo)注詞性,弧邊標(biāo)注依存關(guān)系的類型。從圖2中可以看出,“man”是“sits”的名詞主語,屬于動(dòng)作的施加者?!癰aby”是“holds”的直接賓語,而且“sits”和“holds”這兩個(gè)動(dòng)作之間是依賴關(guān)系,因此“baby”屬于主語“man”的動(dòng)作“sitsholds”的直接承受對象。這兩個(gè)依存方向共同構(gòu)成了一個(gè)有效的證據(jù),即“mansitsholdsbaby”。我們將文本嵌入的注意力從雙向的上下文語義轉(zhuǎn)換到單向的句法依存方向上。再從另一方面可以看出“shirt”是“man”的復(fù)合名詞,它們之間的關(guān)系是關(guān)聯(lián)修飾,句法依存樹能直接將核心詞“man”鏈接到“shirt”,表示“shirt”和“man”這兩個(gè)詞是強(qiáng)相關(guān)的,理應(yīng)給予更多的注意力。因此引入句法信息可以有效幫助模型提高檢索性能和增強(qiáng)語義中心可解釋性。
綜上所述,本文的貢獻(xiàn)如下:
針對詞嵌入無法明確主語動(dòng)作行為的對象導(dǎo)致的歧義問題,提出基于句法依存分析和圖卷積的ViLT模型。通過句法分析得到依存關(guān)系三元組,其中單向的依存弧代表依存方向。該模型能夠充分學(xué)習(xí)句子中的復(fù)雜語義依賴關(guān)系和單詞粒度的詞性標(biāo)注。
將Dep-ViLT(Dependency-Vision and Language Transformer)在MSCOCO和Filck30K這兩大數(shù)據(jù)集中進(jìn)行大量對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明句法依存信息對模型的訓(xùn)練和預(yù)測有著至關(guān)重要的指導(dǎo)作用。
1? Dep-ViLT
如圖3所示,Dep-ViLT主要由三部分組成:
1)針對輸入的文本模態(tài)使用BERT將單詞裝換成詞向量。針對輸入的圖像使用簡單的線性切割將圖片分割成N個(gè)圖像塊。并標(biāo)注位置信息。
2)根據(jù)文本構(gòu)建它的句法依存樹,標(biāo)記每個(gè)單詞的詞性,并將其輸入至圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)中,得到句法依存特征。
3)輸入到Transformers模態(tài)交互層進(jìn)行交互計(jì)算,得到全連接層的概率分布。
1.1? Word Embedding and Image Preprocessing
假設(shè)輸入的文本為 ,通過詞嵌入矩陣 和位置嵌入矩陣? 嵌入到 。其中L表示文本長度,H表示隱藏層深度,V表示單個(gè)詞向量的維度。
假設(shè)輸入的圖像為? 被分割并展平為圖像塊 ,其中C表示圖像通道數(shù),H和W表示圖像的長和寬,(P,P)表示圖像塊分辨率,N=HW/P2。接著將? 線性投影到? 并加上位置嵌入矩陣? 得到 。
1.2? 句法依存分析
句法是句子中詞與詞之間相互依賴的關(guān)系和關(guān)系類型的合集,包括但不限于主謂賓,定狀補(bǔ)等句法關(guān)系,將所有詞與詞之間的依存關(guān)系抽取出來,以句子中的中心詞為根節(jié)點(diǎn),其余詞語為子節(jié)點(diǎn),依賴關(guān)系為邊,構(gòu)建句法依存樹。句法依存樹可以清晰地表達(dá)出句子中詞與詞之間的邏輯關(guān)系,不管在物理上距離多遠(yuǎn),只要存在相互修飾關(guān)系,則在樹中的距離會(huì)很相近[7]。為了分析抽取句子中的依存關(guān)系,本文利用工具得到文本的依存樹表示。傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常將句法依存關(guān)系轉(zhuǎn)化成向量,與文本的語義向量合并后,用于機(jī)器學(xué)習(xí)的輸入,這樣的學(xué)習(xí)方并沒有與語義向量進(jìn)行有效融合[7],所以本文通過工具得到句法依存信息,再將依存信息重構(gòu)成句法依存圖表示,用于圖卷積神經(jīng)網(wǎng)絡(luò)中。具體步驟如下。
1.2.1? 基于依存語法拆分句子
本章所討論的句法依存樹使用斯坦福公開的句法分析工具Stanford Core NLP(斯坦福句法分析器)產(chǎn)生。該工具是一個(gè)基于jvm的注釋管道框架,它提供了從標(biāo)記化到共同引用解析的大部分公共核心自然語言處理的步驟。例如:“A man in a white t-shirt sits holds a newborn baby with a small hat on”。通過斯坦福句法分析器可以快速地對句子進(jìn)行依存句法分析,其分析結(jié)果如表1所示。
其中,分詞方法會(huì)將中文句子進(jìn)行分詞操作,并且返回一個(gè)分詞后的列表。詞性分析方法則會(huì)將分詞后的詞表進(jìn)行詞性標(biāo)注。
1.2.2? 構(gòu)建句法依存圖
第一步獲得有效的句子依存結(jié)構(gòu)關(guān)系后,句子通過Dependency Parser 方法生成句子依存三元組,獲得如表1中最后一行所示的依存關(guān)系元組。Dependency parse方法返回一個(gè)依存關(guān)系三元組的列表,列表中每一項(xiàng)的格式如下:(依存關(guān)系,關(guān)系出發(fā)索引,關(guān)系結(jié)束索引)其中,Root代表依存樹的根節(jié)點(diǎn),根節(jié)點(diǎn)的出發(fā)索引為0,結(jié)束索引為9。該索引代表了分詞列表中以9為起始點(diǎn)的該索引所代表的詞。如在表1中,索引為9所代表的詞為“sits”。根據(jù)依存關(guān)系元組即可構(gòu)建出如圖4的句法依存圖。
1.2.3? GCN解析
本文引入GCN對句法依存圖展開分析。利用G={V,E}表示基于依存句法樹構(gòu)建的句法依存圖,V表示一個(gè)句子中的所有節(jié)點(diǎn),即詞的集合;E表示邊的集合,即所有依存關(guān)系的集合?;谝来婢浞渲械囊来骊P(guān)系,在句子中,如果某一個(gè)詞是某條依存關(guān)系的依存詞,則在關(guān)聯(lián)矩陣中元素賦值為1。若句子中的某個(gè)詞是某條依存關(guān)系的被依存詞,則賦值為-1;若不存在依存關(guān)系,則賦值為0。這樣即得到一個(gè)稀疏的關(guān)聯(lián)矩陣A。之后基于關(guān)聯(lián)矩陣A表示的圖G,利用GCN對圖中節(jié)點(diǎn)si進(jìn)行卷積,得到特征DEPi,具體如式(3)所示:
其中,ReLU表示激活函數(shù);A表示聯(lián)矩陣; 表示A的度矩;;Wc表示GCN的權(quán)重矩陣。
1.3? Transformers Encoder
2? 實(shí)驗(yàn)結(jié)果與分析
2.1? 數(shù)據(jù)集和評估方法
本文在兩個(gè)廣泛使用的數(shù)據(jù)集上對Dep-ViLT進(jìn)行多模態(tài)檢索任務(wù)評估,數(shù)據(jù)集的樣本如圖5所示(圖中示例來自Filckr30K,其ImageId為69551477),數(shù)據(jù)集統(tǒng)計(jì)如表2所示(文本長度是來自bert-base-uncased標(biāo)記的長度)。
1)MSCOCO是一個(gè)由123 287個(gè)圖像組成的大型圖像文本數(shù)據(jù)集,其中每個(gè)圖像都用5句自然語言進(jìn)行描述。我們采用MSCOCO的標(biāo)注將數(shù)據(jù)集分割:5 000張圖像用于測試,5 000張圖像用于驗(yàn)證,其余113 287張圖像用于訓(xùn)練。
2)Flickr30K總共包含31 000張圖片和158 915個(gè)自然語言描述。每個(gè)圖像通常用5句自然語言進(jìn)行描述。在分割之后,我們使用1 000張圖像進(jìn)行測試,另外1 000張用于驗(yàn)證,其余用于訓(xùn)練。
本文采用在跨模態(tài)檢索中廣泛使用的查詢問題評價(jià)指標(biāo)R@k(k=1,5,10)用于性能評估,表示前k個(gè)檢索結(jié)果中相關(guān)結(jié)果數(shù)與所有相關(guān)結(jié)果數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。計(jì)算方式如式(8):
對于單一查詢,在系統(tǒng)中搜索k個(gè)最近的結(jié)果,若返回的k個(gè)結(jié)果中至少存在一個(gè)相符的搜索結(jié)果,則該次查詢的score記為1,否則記為0。
2.2? 實(shí)驗(yàn)設(shè)置
對于所有的實(shí)驗(yàn),我們使用AdamW優(yōu)化器,在前5個(gè)epoch中將初始學(xué)習(xí)率設(shè)置為5×10-5,然后在其余的epochs中使學(xué)習(xí)率線性衰減。
為了方便探究句法依存樹是如何影響文本的特征提取過程的,我們將語言模態(tài)輸入分為三種類型:原始文本、句法依存樹、經(jīng)過詞性標(biāo)注后的句法依存樹。作為Dep-ViLT的語言模態(tài)的輸入,上述三種類型可以自由排列組合,并在Transformers中進(jìn)行交互。我們對原始文本的嵌入部分采用基于BERT-base的模型作為文本編碼器,該模型總共包含12個(gè)Transformer層,其中含有768個(gè)隱藏單元和12個(gè)heads。此外,為了提高計(jì)算效率,Dep-ViLT使用ViT-B/16作為圖像編碼器,輸入圖像分辨率為384×384。
2.3? 對比實(shí)驗(yàn)
本文分別選取以下5種模型與Dep-ViLT進(jìn)行實(shí)驗(yàn)比較,它們分別是SCAN、CAAN、MMCA、SGRAF、COTS。其中COTS是現(xiàn)在的跨模態(tài)領(lǐng)域中的SOTA方法。
2.3.1? SCAN
SCAN[8](Stacked Cross Attention for Image-Text Matching)提出了深度視覺語義對齊的堆疊交叉注意力機(jī)制,捕捉視覺和語言之間的更深層次的語義聯(lián)系,推斷圖像-文本相似性。并使圖像-文本匹配更易于解釋。
2.3.2? CAAN
CAAN[9](Context-Aware Attention Network for Image-Text Retrieval)提出了一個(gè)統(tǒng)一的上下文感知注意力網(wǎng)絡(luò),基于給定的上下文從全局的角度自適應(yīng)地選擇信息片段,其中包括單一模態(tài)中的上下文語義以及圖像語義實(shí)體區(qū)域和文本單詞之間的對齊關(guān)系。
2.3.3? MMCA
MMCA[10](Multi-Modality Cross Attention Network for Image and Sentence Matching)通過在統(tǒng)一的深度網(wǎng)絡(luò)模型中聯(lián)合圖像區(qū)域和單詞的模態(tài)內(nèi)關(guān)系和模態(tài)間關(guān)系,提出了一種新的用于圖像和文本匹配的多模態(tài)交叉注意網(wǎng)絡(luò)。
2.3.4? SGRAF
SGRAF[11](Similarity Reasoning and Filtration for Image-Text Matching)在MMCA的基礎(chǔ)上提出了相似度圖推理(SGR)模塊來通過圖推理推斷圖像文本的相似度,該模塊可以識(shí)別更復(fù)雜的匹配模式,并通過捕獲局部和全局對齊之間的關(guān)系來實(shí)現(xiàn)更準(zhǔn)確的預(yù)測。為了在相似性聚合中減少非關(guān)鍵詞的干擾,提出了一個(gè)有效的相似性注意過濾(SAF)模塊來抑制不相關(guān)的交互,以進(jìn)一步提高匹配精度。
2.3.5? COTS
Lu[12]等人提出了一種新的雙流VLP模型(Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval, COTS)。為了提高雙流模型的性能,同時(shí)保持其高效率,除了實(shí)例級對齊之外,COTS還利用了兩個(gè)額外的跨模式學(xué)習(xí)目標(biāo):一是用于令牌級交互的掩蔽視覺語言建模(MVLM)學(xué)習(xí)目標(biāo)。二是用于任務(wù)級交互(Task-Levelinteraction, KL)對齊學(xué)習(xí)目標(biāo)。為了減輕大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)中噪聲所帶來的負(fù)面影響,Lu提出了一種自適應(yīng)動(dòng)量濾波器(AMF)模塊。AMF在實(shí)例級對齊中充分利用動(dòng)量機(jī)制,并在預(yù)訓(xùn)練期間自適應(yīng)地過濾有噪聲的圖像文本對。值得一提的是,目前COTS在所有的雙流模型中表現(xiàn)出了最高的性能,并且與最新的單流模型相比,模型性能相當(dāng),但是推理速度快10 800倍。
我們在兩個(gè)廣泛使用的圖像文本數(shù)據(jù)集Flickr30K和MSCOCO上比較了我們的Dep-ViLT和最先進(jìn)的方法,結(jié)果如表3所示(I2TRetrieval為圖像檢索文本;T2IRetrieval為文本檢索圖像;#為本文提出的方法;Dep-ViLT-Base為只有句法依存樹。Dep-ViLT-P(Partofspeech):包含句法依存樹和詞性標(biāo)注;Dep-ViLT-O(Originaltext):包含句法依存樹和原始文本;Dep-ViLT-OP(OriginaltextandPartofspeech):包含句法依存樹和原始文本,并開啟詞性標(biāo)注)。
表3是各類算法在Flickr30K和MSCOCO數(shù)據(jù)集下的R@K指標(biāo)的實(shí)驗(yàn)結(jié)果,整體來說,在R@K指標(biāo)上本文所提的Dep-ViLT算法都優(yōu)于其他對比方法。
Dep-ViLT在R@1、R@5和R@10的檢索查全率指標(biāo)上大大優(yōu)于SCAN、CAAN、MMCA、SGRAF這四種單流模型。具體而言,與最新的單流模型SGRAF相比,我們的Dep-ViLT-Base在均使用MSCOCO數(shù)據(jù)集的情況下在I2TRetrieval任務(wù)中取得了R@1指標(biāo)的5.41%(63.21% VS 57.8%)的領(lǐng)先,在T2IRetrieval任務(wù)中,R@1和R@10均有5%(46.83% VS 41.9%,86.96% VS 81.3%)的提升幅度。此外,當(dāng)Dep-ViLT同時(shí)引入句法依存樹和原始文本并為句法依存樹開啟詞性標(biāo)注時(shí),我們的Dep-ViLT進(jìn)一步提升了性能。
Dep-ViLT與雙流模型的對比同樣也是可圈可點(diǎn)。在于最近的SOTA模型COTS的對比中,可以看到在I2TRetrieval任務(wù)下,兩者的R@K性能表現(xiàn)不相上下,F(xiàn)lickr30K數(shù)據(jù)集中的R@5和MSCOCO數(shù)據(jù)集中的R@1和R@10對比COTS均有小幅度的優(yōu)勢。但是在T2IRetrieval任務(wù)下,我們的Dep-ViLT-OP明顯優(yōu)于COTS,MSCOCO數(shù)據(jù)集中的R@10指標(biāo)領(lǐng)先了2.25%(88.35% vs 86.1%)。在實(shí)驗(yàn)環(huán)境相同的情況下,考慮到雙流模型比單流模型的參數(shù)量要多得多,在I2TRetrieval任務(wù)中單流模型Dep-ViLT與雙流模型COTS性能相同,但是模型大小更輕量。在T2IRetrieval任務(wù)中更是取得了R@K指標(biāo)上的優(yōu)勢。另外,因?yàn)镃OTS模型在模態(tài)交互之前提取的模態(tài)特征,說明我們所提的Dep-ViLT模型針對句子依存關(guān)系的圖卷積的依賴關(guān)系提取是具有可行性的。
3? 結(jié)? 論
在本文中,我們研究了如何提高跨模態(tài)檢索的性能。具體而言,我們通過在圖像文本檢索中利用文本的句法依存關(guān)系和詞性標(biāo)注,提出了一種新的基于ViLT的文本句法依存關(guān)系(Dependencies)指導(dǎo)的視覺語言模型,稱為Dep-ViLT。也就是說,我們通過分析文本的句法依存關(guān)系構(gòu)建句法依存圖,通過圖卷積神經(jīng)網(wǎng)絡(luò)提取句法依存方向。在句法依存關(guān)系中,單向的依存方向能夠促進(jìn)語言模態(tài)和視覺模態(tài)間的交互。大量實(shí)驗(yàn)驗(yàn)證了我們的Dep-ViLT在圖像文本檢索中的有效性和高效性。它還證明了詞性對句法依存關(guān)系的表征提取及其依存關(guān)系與原始文本語義對齊有至關(guān)重要的作用。
未來的研究工作可以從以下4個(gè)方面去考慮:
1)模型提取句法依存圖特征采用的是圖卷積神經(jīng)網(wǎng)絡(luò),可以考慮更換成其他更優(yōu)越的模型架構(gòu),可能獲得更好的效果。
2)模型將句法依存關(guān)系分析重組成句法依存圖,可以考慮將句法依存關(guān)系表示成其他數(shù)據(jù)結(jié)構(gòu),可能利于模型進(jìn)行依存分析。
3)除了圖像和已經(jīng)標(biāo)注好的描述文本,可以考慮是否存在其他的隱性信息。
4)本文是針對英文的圖像描述文本開展句法依存關(guān)系分析工作,而且中文的句法與英文的句法存在千絲萬縷的聯(lián)系,因此,可以考慮對中文的圖像描述文本展開同樣的工作,以提高中文領(lǐng)域的跨模特檢索性能。
參考文獻(xiàn):
[1] PENG Y X,QI J W,YUAN Y X. Modality-Specific Cross-Modal Similarity Measurement With Recurrent Attention Network [J].IEEE Transactions on Image Processing,2018,27(11):5585-5599.
[2] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv:1408.5882 [cs.CL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.
[3] HE Y,XIANG S,KANG C,et al. Cross-Modal Retrieval via Deep and Bidirectional Representation Learning [J].IEEE Transactions on Multimedia,2016,18(7):1363-1377.
[4] QI J W,HUANG X,PENG Y X. Cross-media Similarity Metric Learning with Unified Deep Networks [J/OL].arXiv:1704.04333 [cs.MM].(2017-04-14).https://arxiv.org/abs/1704.04333.
[5] SONG Y,SOLEYMANI M. Cross-Modal Retrieval with Implicit Concept Association [J/OL].arXiv:1804.04318 [cs.CV].(2018-04-12).https://arxiv.org/abs/1804.04318.
[6] 劉穎,郭瑩瑩,房杰,等.深度學(xué)習(xí)跨模態(tài)圖文檢索研究綜述 [J].計(jì)算機(jī)科學(xué)與探索,2022,16(3):489-511.
[7] 張翠,周茂杰,楊志清.融合句法依存樹注意力的關(guān)系抽取研究 [J].廣東通信技術(shù),2020,40(10):43-47+71.
[8] LEE K,CHEN X,HUA G,et al. Stacked Cross Attention for Image-Text Matching [J/OL].arXiv:1803.08024 [cs.CV].(2018-07-23).https://arxiv.org/abs/1803.08024.
[9] ZHANG Q,LEI Z,ZHANG Z,et al. Context-Aware Attention Network for Image-Text Retrieval [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:3533-3542.
[10] WEI X,ZHANG T,LI Y,et al. Multi-Modality Cross Attention Network for Image and Sentence Matching [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:10938-10947.
[11] DIAO H,ZHANG Y,MA L,et al. Similarity Reasoning and Filtration for Image-Text Matching [J].Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(2):1218-1226.
[12] LU H Y,F(xiàn)EI N Y,HUO Y Q,et al. COTS:Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:15671-15680.
作者簡介:張知奇(1996—),男,土家族,湖南常德人,碩士研究生在讀,研究方向:深度學(xué)習(xí)下的圖文相似性獨(dú)立和跨模態(tài)檢索;通訊作者:袁鑫攀(1982—),男,漢族,湖南株洲人,副教授,博士,研究方向:信息檢索、自然語言處理、局部敏感哈希;曾志高(1973—),男,漢族,湖南株洲人,教授,博士,研究方向:機(jī)器學(xué)習(xí)、智能信息處理。