姜麗梅 李秉龍
摘 要:在深度學(xué)習(xí)領(lǐng)域,解決實(shí)際應(yīng)用問題往往需要結(jié)合多種模態(tài)信息進(jìn)行推理和決策,其中視覺和語言信息是交互過程中重要的兩種模態(tài)。在諸多應(yīng)用場(chǎng)景中,處理多模態(tài)任務(wù)往往面臨著模型架構(gòu)組織方式龐雜、訓(xùn)練方法效率低下等問題。綜合以上問題,梳理了在圖像文本多模態(tài)領(lǐng)域近五年的代表性成果。首先,從主流的多模態(tài)任務(wù)出發(fā),介紹了相關(guān)文本和圖像多模態(tài)數(shù)據(jù)集以及預(yù)訓(xùn)練目標(biāo)。其次,考慮以Transformer為基礎(chǔ)結(jié)構(gòu)的視覺語言模型,結(jié)合特征提取方法,從多模態(tài)組織架構(gòu)、跨模態(tài)融合方法等角度進(jìn)行分析,總結(jié)比較不同處理策略的共性和差異性。然后從數(shù)據(jù)輸入、結(jié)構(gòu)組件等多角度介紹模型的輕量化方法。最后,對(duì)基于圖像文本的多模態(tài)方法未來的研究方向進(jìn)行了展望。
關(guān)鍵詞:多模態(tài); 架構(gòu); 融合; 輕量化
中圖分類號(hào):TP18?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2024)05-001-1281-10
doi:10.19734/j.issn.1001-3695.2023.08.0398
Comprehensive review of multimodal processing methods for image-text
Abstract:In the field of deep learning, solving problems often requires combining multiple modal information for reasoning and decision-making, among which visual and language information are two important modalities in the interaction process. In many application scenarios, processing multi-modal tasks often faces problems such as complex model architecture organization and inefficient training methods. Based on the above problems, this paper reviewed the representative achievements in the field of multimodal image text in the past five years. This paper first started from the mainstream multi-modal tasks and introduced related text and image multi-modal datasets and pre-training targets. Secondly, considering the visual language model based on Transformer and the feature extraction method, this paper analyzed from the perspectives of multi-modal organization architecture and cross-modal fusion methods, and summarized and compared the commonalities and differences of different processing strategies. Then it introduced the lightweight method of the model from data input, structural components and other aspects. Finally, it prospected the future research direction of multimodal methods based on image text.
Key words:multimodal; architecture; fusion; lightweight
0 引言
隨著互聯(lián)網(wǎng)規(guī)模的逐步擴(kuò)大,待挖掘的數(shù)據(jù)信息呈爆炸式增長(zhǎng),傳統(tǒng)的機(jī)器學(xué)習(xí)算法無法對(duì)大規(guī)模復(fù)雜數(shù)據(jù)集進(jìn)行擬合和運(yùn)算。另外,隨著高性能和計(jì)算設(shè)備(GPU、TPU等)的換代發(fā)展,為深度學(xué)習(xí)挖掘大規(guī)模數(shù)據(jù)的能力提供了充分的硬件支撐。在多模態(tài)分支領(lǐng)域中,模型需要綜合處理不同模態(tài)的數(shù)據(jù),提升深度學(xué)習(xí)模型接收多模態(tài)信息和理解多模態(tài)信息的能力,從而進(jìn)行決策和推理。研究人員提出了一系列的多模態(tài)相關(guān)任務(wù),如視覺問答(visual question answering)[1]、基于圖像的文本描述生成(image captioning)[2]等。針對(duì)各項(xiàng)任務(wù),傳統(tǒng)的方式多由相關(guān)領(lǐng)域的專家手動(dòng)構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)集再進(jìn)行訓(xùn)練和評(píng)估。目前,深度學(xué)習(xí)模型大多是按照預(yù)訓(xùn)練(pre-training)-微調(diào)(fine-tuning)的架構(gòu)實(shí)現(xiàn)。通過在大規(guī)模數(shù)據(jù)集上完成預(yù)訓(xùn)練目標(biāo)來得到一組具有優(yōu)異遷移能力的權(quán)重參數(shù),然后在下游任務(wù)中對(duì)預(yù)訓(xùn)練模型參數(shù)進(jìn)行微調(diào)。預(yù)訓(xùn)練-微調(diào)的架構(gòu)提供了模型初始化方案,使模型無須對(duì)每個(gè)新的子任務(wù)都重新進(jìn)行訓(xùn)練,節(jié)省了訓(xùn)練資源。因此,這種成熟優(yōu)秀的模型訓(xùn)練范式也可以很好地應(yīng)用到多模態(tài)任務(wù)中。
2017年,Vaswani等人[3]提出了具有編碼器-解碼器(encoder-decoder)結(jié)構(gòu)的Transformer模型,不僅很好地解決了機(jī)器翻譯問題,還為自然語言處理和圖像處理等領(lǐng)域提供了新的思路和方法。目前,預(yù)訓(xùn)練微調(diào)方法大多采用Transformer模型為基礎(chǔ)模塊,其中,GPT[4]以Transformer的解碼器為基礎(chǔ)模型,通過無監(jiān)督的學(xué)習(xí)方法,在沒有標(biāo)簽的文本上訓(xùn)練一個(gè)比較大的語言模型,在9個(gè)下游任務(wù)中得到最好的性能表現(xiàn)(state of art,SOTA);ViLT[5]同時(shí)將文本和圖像的embedding嵌入作為輸入,由Transformer的編碼器進(jìn)行模態(tài)之間的交互,以Transformer為基礎(chǔ)的預(yù)訓(xùn)練模型和自監(jiān)督學(xué)習(xí)方式的結(jié)合,擺脫了模型對(duì)于大量標(biāo)注數(shù)據(jù)的依賴和下游任務(wù)應(yīng)用的局限性。當(dāng)前,多模態(tài)任務(wù)面臨著模型架構(gòu)組織方式龐雜、訓(xùn)練方法效率低下等問題。本文面向圖像和文本兩種模態(tài),系統(tǒng)地介紹了相關(guān)處理技術(shù)。首先介紹主流的多模態(tài)任務(wù)和多模態(tài)圖像文本數(shù)據(jù)集,分析重要的預(yù)訓(xùn)練目標(biāo)和方法;其次闡述視覺和文本信息特征各提取方法的優(yōu)略;接著重點(diǎn)比較多模態(tài)架構(gòu)中對(duì)于不同處理模塊的設(shè)計(jì)策略,從單流架構(gòu)、雙流架構(gòu)以及混合架構(gòu)來分類闡述,并從融合時(shí)期的角度對(duì)模態(tài)融合方法進(jìn)一步分析說明;然后從不同角度來分析輕量化構(gòu)建大模型的思路;最后對(duì)多模態(tài)模型的研究方向以及發(fā)展趨勢(shì)進(jìn)行了探討。
1 多模態(tài)任務(wù)及相關(guān)工作
1.1 視覺問答
視覺問答(visual question answering,VQA)以圖像和關(guān)于圖像開放式的自然語言問題作為輸入,以生成一個(gè)答案作為輸出,簡(jiǎn)單來說,VQA任務(wù)就是對(duì)給定的圖片作出問答。該任務(wù)在實(shí)踐中有著廣泛的應(yīng)用,如幼兒教育、商品搜索等。Gao等人[6]提出了一種將多模態(tài)特征在模態(tài)內(nèi)和模態(tài)之間動(dòng)態(tài)融合的框架(dynamic fusion with intra- and inter-modality attention flow,DFAF)。DFAF由Inter-MAF和Intra-MAF組成,該工作采用了Faster R-CNN[7]提取目標(biāo)圖像的視覺特征,門控循環(huán)單元(GRU)[8]來提取圖像對(duì)應(yīng)問題的文本特征。相較于Transformer,基于卷積的區(qū)域特征以及基于LSTM的文本解碼器并不能從全局角度對(duì)輸入信息進(jìn)行關(guān)注,無法捕捉全局的依賴關(guān)系,從而無法充分進(jìn)行跨模態(tài)學(xué)習(xí)。在第4章中將詳細(xì)介紹不同特征提取方式的優(yōu)劣。
1.2 圖像-文本檢索
圖像-文本檢索(image-text retrieval)就是搜尋配對(duì)的圖像文本對(duì),圖像文本檢索任務(wù)可以分為圖像查詢文本和文本查詢圖像兩種。不同模態(tài)之間的檢索主要是通過對(duì)圖像-文本數(shù)據(jù)進(jìn)行相似度計(jì)算來實(shí)現(xiàn),即同時(shí)利用單一模態(tài)和跨模態(tài)之間的聯(lián)系來挖掘語義關(guān)系。現(xiàn)有的大多數(shù)圖像文本檢索方法可以分為兩種:a)將整個(gè)圖像和文本嵌入到共享空間中挖掘語義關(guān)系;b)對(duì)圖像和文本進(jìn)行單獨(dú)處理之后進(jìn)行跨模態(tài)融合。目前,多采用第二種方式。ALIGN[9]在超過10億的有噪聲數(shù)據(jù)集上使用了雙編碼器結(jié)構(gòu),將視覺和語言的模態(tài)特征在共享嵌入空間中進(jìn)行對(duì)齊,通過對(duì)比學(xué)習(xí)獲得了具有遷移能力的模型。區(qū)別于對(duì)比學(xué)習(xí),Ma等人[10]充分利用了圖像和文本信息不同層級(jí)的匹配關(guān)系,使模型可以學(xué)習(xí)圖像與單詞、短語以及句子三個(gè)層級(jí)的文本信息之間的模態(tài)匹配關(guān)系。但雙編碼器的特征處理結(jié)構(gòu)耗時(shí)更長(zhǎng),因此ViLT[5]將視覺特征和文本特征拼接,即將完整的圖像文本對(duì)嵌入到共享空間中,采用注意力機(jī)制進(jìn)行跨模態(tài)處理,極大地簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)。
1.3 圖像字幕
圖像字幕(image captioning)任務(wù)是對(duì)目標(biāo)圖像生成相關(guān)內(nèi)容的文本描述,該任務(wù)的一個(gè)重要下游應(yīng)用是以圖像生成字幕獲得低噪聲的圖像文本數(shù)據(jù)集。受機(jī)器翻譯任務(wù)的啟發(fā),編碼器-解碼器的架構(gòu)也可以用來解決圖像字幕任務(wù)。Vinyals等人[11]通過CNN提取圖像特征后,使用LSTM結(jié)構(gòu)將其解碼為字幕,但LSTM無法并行處理數(shù)據(jù)的特點(diǎn)導(dǎo)致其不能很好地用于大數(shù)據(jù)背景下的預(yù)訓(xùn)練學(xué)習(xí)。Huang等人[12]提出了attention on attention(AoA)模塊,該模塊擴(kuò)展了傳統(tǒng)的注意力機(jī)制,在并行計(jì)算與全局注意力機(jī)制的基礎(chǔ)上進(jìn)一步挖掘了注意力計(jì)算結(jié)果與查詢之間的關(guān)系。Pan等人[13]引入了雙線池化來改進(jìn)傳統(tǒng)一階交互的注意力機(jī)制,即X-linear attention,從而實(shí)現(xiàn)了高階特征交互。BLIP[14]綜合以上工作提出一種多模態(tài)編碼器-解碼器混合模型,該結(jié)構(gòu)可以有效地應(yīng)用于多任務(wù)預(yù)訓(xùn)練,其文本解碼器作為字幕生成器,使用語言模型預(yù)測(cè)目標(biāo)(language modeling)來進(jìn)行預(yù)訓(xùn)練;文本編碼器用于去除圖像-文本數(shù)據(jù)集中噪聲(不匹配圖像文本對(duì)),實(shí)驗(yàn)結(jié)果在COCO以及Nocaps的表現(xiàn)均達(dá)到了SOTA。
1.4 視覺-語言導(dǎo)航
Anderson等人[15]首次提出了視覺-語言導(dǎo)航(vision-and-language navigation,VLN)任務(wù),并公開了基于真實(shí)環(huán)境的room-to-room數(shù)據(jù)集。視覺-語言導(dǎo)航任務(wù)要求智能體根據(jù)給定的自然語言指令在3D模擬環(huán)境中導(dǎo)航到目標(biāo)位置,其大多被定義為一個(gè)文本到圖像的順序問題:位于預(yù)定義連接圖上的特定節(jié)點(diǎn)處,智能體通過選擇圖像表示和指令之間具有最大對(duì)應(yīng)關(guān)系的相鄰節(jié)點(diǎn)來遍歷環(huán)境。因此,圖像文本匹配被認(rèn)為是解決導(dǎo)航任務(wù)的關(guān)鍵。VLN-BERT方法[16]通過預(yù)測(cè)指令和視覺軌跡的兼容性來進(jìn)行預(yù)訓(xùn)練;Air-BERT方法[17]在室內(nèi)圖像-文本對(duì)數(shù)據(jù)集上訓(xùn)練路徑和指令的匹配任務(wù),提出了從指令或者視覺觀察中挖掘時(shí)間信息對(duì)于預(yù)測(cè)智能體的動(dòng)作很重要;HOP[18]提出了歷史感知代理任務(wù)和指令感知代理任務(wù)來幫助智能體理解歷史內(nèi)容和時(shí)間順序以作出行為預(yù)測(cè)。大多數(shù)的VLN工作都集中在離散或者連續(xù)的環(huán)境當(dāng)中,連續(xù)的空間導(dǎo)航更接近于真實(shí)世界,但是訓(xùn)練的成本要遠(yuǎn)超離散空間中的訓(xùn)練成本,然而離散空間的訓(xùn)練也很難轉(zhuǎn)換到連續(xù)的導(dǎo)航任務(wù)中。Hong等人[19]為了彌補(bǔ)連續(xù)環(huán)境到離散環(huán)境的差距,提出了在導(dǎo)航過程中使用候選路徑點(diǎn)將智能體轉(zhuǎn)移到連續(xù)環(huán)境中進(jìn)行訓(xùn)練的思想,實(shí)驗(yàn)結(jié)果表明該工作極大地降低了離散到連續(xù)的差距,在R2R-CE和RxR-CE數(shù)據(jù)集上達(dá)到了SOTA。
其余相關(guān)多模態(tài)任務(wù)如表1所示。
2 多模態(tài)數(shù)據(jù)集
多模態(tài)視覺語言任務(wù)是一個(gè)具有極大潛力的發(fā)展方向。VLP大模型常常具有數(shù)據(jù)饑餓(data-thirst)的特性,即當(dāng)模型具有大量的可學(xué)習(xí)參數(shù)和網(wǎng)絡(luò)架構(gòu)層數(shù),往往模型的性能和喂入的數(shù)據(jù)量成正相關(guān)趨勢(shì),因此相關(guān)研究人員和學(xué)術(shù)組織為特定任務(wù)收集生成了大量的訓(xùn)練數(shù)據(jù)。主要的圖像文本多模態(tài)任務(wù)的數(shù)據(jù)集如表2所示[1,25~36]。
伊利諾伊大學(xué)厄巴納香檳分校計(jì)算機(jī)系研究團(tuán)隊(duì)認(rèn)識(shí)到,來自于Web的圖像文本對(duì)數(shù)據(jù),其中文本的描述可能與圖像并不匹配,甚至完全區(qū)別于人類所能從圖像中得到的信息,這種具有嚴(yán)重噪聲的圖像-文本數(shù)據(jù)會(huì)影響模型正確的學(xué)習(xí)能力和下游的泛化能力[25]。該團(tuán)隊(duì)通過使用AmazonsMechanical Turk(MTurk) 來進(jìn)行標(biāo)注,而對(duì)MTurk標(biāo)注任務(wù)前的資格測(cè)試可保證數(shù)據(jù)集的質(zhì)量。參與標(biāo)注的MTurk大多為非專業(yè)人員,也保持了相應(yīng)字幕內(nèi)容的豐富性。
Open Images V4[33]用于圖像分類、對(duì)象檢測(cè)、視覺關(guān)系等任務(wù),該數(shù)據(jù)集擁有9 178 275張圖像,每張圖像具有包含多個(gè)對(duì)象的復(fù)雜場(chǎng)景。Open Images V7[36]提出了一種可以擴(kuò)展到數(shù)千個(gè)類的語義分割注釋策略:從給定的圖像級(jí)別標(biāo)簽開始,注釋者只回答由計(jì)算機(jī)模型自動(dòng)生成的對(duì)每像素點(diǎn)的二值問題,從而更加高效地將分割注釋擴(kuò)展到了更多的類。
VQA v1.0 [1]收集了MS COCO數(shù)據(jù)集中包含多個(gè)對(duì)象和豐富上下文信息的圖像,為了擴(kuò)充VQA數(shù)據(jù)集對(duì)于高級(jí)推理的需求,創(chuàng)建了一個(gè)包含50 000種場(chǎng)景的抽象場(chǎng)景數(shù)據(jù)集,并且為每個(gè)場(chǎng)景都收集了5個(gè)標(biāo)題。VQA中的視覺問題有選擇地針對(duì)圖像的不同區(qū)域,包括背景細(xì)節(jié)和潛在背景,通過提供準(zhǔn)確的自然語言答案來反映真實(shí)世界的場(chǎng)景。Goyal等人[31]提出數(shù)據(jù)集的固有結(jié)構(gòu)和語言中的偏見會(huì)導(dǎo)致模型忽略視覺信息,因此在VQA v2.0中通過收集互補(bǔ)圖像來平衡VQA數(shù)據(jù)集,從而使新數(shù)據(jù)集中的每個(gè)問題不僅與單個(gè)圖像相關(guān),還與一對(duì)相似的圖像相關(guān),使得問題擁有兩個(gè)不同答案。
Conceptual 12M(CC12M)[35]是一個(gè)具有1 200萬圖像文本對(duì)的數(shù)據(jù)集,專門用于視覺語言預(yù)訓(xùn)練,CC12是由CC3M[37]進(jìn)一步擴(kuò)大而來。CC3M的構(gòu)建使用基于圖像、基于文本和基于文本圖像三種基本的過濾類型,CC12M保留圖像文本過濾器,通過調(diào)整圖像過濾器和文本過濾器來達(dá)到CC12M的數(shù)據(jù)規(guī)模。
3 多模態(tài)預(yù)訓(xùn)練目標(biāo)
預(yù)訓(xùn)練目標(biāo)的選擇對(duì)整個(gè)訓(xùn)練過程的成本以及最終模型的性能有著決定性的作用,以下將對(duì)匹配式預(yù)訓(xùn)練目標(biāo)(3.2節(jié))和生成式預(yù)訓(xùn)練目標(biāo)(3.3~3.5節(jié))兩類預(yù)訓(xùn)練目標(biāo)進(jìn)行闡述。
3.1 圖像文本對(duì)比學(xué)習(xí)
在預(yù)訓(xùn)練階段,圖像-文本對(duì)比學(xué)習(xí)(image-text contrastive learning,ITC)[38]用于學(xué)習(xí)圖像和文本在特征空間中更好的表示方式。對(duì)比學(xué)習(xí)將匹配的圖像文本看作正樣本對(duì),不匹配的圖像文本看作負(fù)樣本對(duì),使用余弦相似度來計(jì)算圖像特征和文本特征之間的相似度,即不斷優(yōu)化正樣本之間的相似度,減小負(fù)樣本對(duì)之間的相似度,從而使得模型可以理解不同模態(tài)之間的共性和差異性,在特征空間中可以很好地匹配文字和圖像特征。圖像-文本對(duì)比學(xué)習(xí)的方式可以應(yīng)用于多模態(tài)檢索類型的下游任務(wù)。本文將從一個(gè)批量的圖像文本對(duì)來介紹對(duì)比學(xué)習(xí)的具體實(shí)現(xiàn)方式。
利用式(1)(2)計(jì)算圖像文本正樣本對(duì)之間的softmax歸一化相似度,得到式(3)(4)。
其中:σ為溫度參數(shù);pi2ti表示圖像到文本的第i個(gè)正樣本的相似度;pt2ii表示文本到圖像的第i個(gè)正樣本對(duì)的相似度。
通過訓(xùn)練交叉熵?fù)p失H來最大化正樣本對(duì)之間的相似度以訓(xùn)練模型,得到最終的期望結(jié)果如式(5)所示。
其中:D為預(yù)訓(xùn)練數(shù)據(jù)集;yi2t、yt2i分別表示文本圖像ground-truth的獨(dú)熱相似度向量,相似度最高的圖像文本對(duì)概率為1,其余為0。
3.2 圖像文本匹配
圖像文本匹配(image-text matching,ITM)[39]可以看作是二分類問題,其主要目標(biāo)是為了預(yù)測(cè)圖像和文本是否匹配。ITM可以讓模型學(xué)習(xí)視覺和語言模態(tài)之間的細(xì)粒度對(duì)齊。通常將圖像特征與文本經(jīng)過模態(tài)融合處理后得到的跨模態(tài)Token [CLS]通過一個(gè)全連接層和softmax層來得到二分類的結(jié)果,其輸出結(jié)果用pi2m(I,T)表示,通過訓(xùn)練交叉熵函數(shù)H得到損失公式為
Litm=E(I,T)~D[H(yi2m,pi2m(I,T))](6)
其中:yi2m為ground-truth標(biāo)簽的獨(dú)熱向量;D為預(yù)訓(xùn)練數(shù)據(jù)集。
在實(shí)際的訓(xùn)練過程當(dāng)中,部分負(fù)樣本同樣具有相近的語義信息,只在細(xì)粒度上的細(xì)節(jié)有所不同,也可以理解成最接近正樣本的負(fù)樣本,稱為難負(fù)樣本(hard negatives)。ALBEF[40]進(jìn)行ITM訓(xùn)練時(shí),通過計(jì)算圖像文本之間的相似度來尋找每個(gè)批次中的難負(fù)樣本,這樣就能提升模型理解不同模態(tài)信息的能力。
3.3 遮罩語言模型預(yù)測(cè)
其中:ymsk為詞分布的獨(dú)熱向量,代表ground-truth的Token概率為1,其余Token的概率為0;D為預(yù)訓(xùn)練數(shù)據(jù)。MLM在大規(guī)模的語料庫中可以高效地從上下文來提取文本中的語義信息,使用MLM預(yù)訓(xùn)練的文本特征提取器可以很好地進(jìn)行不同子任務(wù)的遷移,MLM無須任何標(biāo)簽和額外的標(biāo)注信息,是一種自監(jiān)督的學(xué)習(xí)方式,降低了數(shù)據(jù)采集和標(biāo)注的成本。因此,MLM在很多工作中[42~44]都起到了很好的預(yù)訓(xùn)練效果。
3.4 語言模型預(yù)測(cè)
與VLP中廣泛使用的MLM損失相比,LM預(yù)訓(xùn)練目標(biāo)使模型泛化能力得到了進(jìn)一步的增強(qiáng)。LM在stable diffusion[45]中也得到了應(yīng)用,BLIP[14]中文本解碼器的訓(xùn)練同樣采用LM預(yù)訓(xùn)練目標(biāo),Laion COCO 600 million數(shù)據(jù)集的團(tuán)隊(duì)也采用了該bootstrapping方法構(gòu)建數(shù)據(jù)集。
3.5 遮罩?jǐn)?shù)據(jù)模型預(yù)測(cè)
遮罩?jǐn)?shù)據(jù)模型預(yù)測(cè)(masked data modeling,MDM)將文本和圖像都看作是統(tǒng)一模態(tài)的數(shù)據(jù),同時(shí)對(duì)單模態(tài)圖像和文本,以及多模態(tài)圖像文本對(duì)進(jìn)行遮蔽操作,即在預(yù)訓(xùn)練期間隨機(jī)地遮蔽掉文本Tokens和圖像patches,通過預(yù)測(cè)遮蔽部分來訓(xùn)練模型。MDM的訓(xùn)練方式不僅可以學(xué)習(xí)到單模態(tài)的特征表達(dá)和映射,加入masked image還能使模型在預(yù)訓(xùn)練階段額外學(xué)習(xí)到不同模態(tài)之間的對(duì)齊和聯(lián)合語義。BEiT v3[46]改進(jìn)BEiT[47],將圖像、文本、圖像文本對(duì)不同模態(tài)進(jìn)行統(tǒng)一的遮蔽與預(yù)測(cè)恢復(fù),從而利用自監(jiān)督的學(xué)習(xí)方式來恢復(fù)遮蔽Tokens。在VL-BEiT[48]中,分別采取遮罩語言模型預(yù)測(cè)、遮罩圖像模型預(yù)測(cè)以及遮罩視覺語言模型預(yù)測(cè)三種預(yù)訓(xùn)練目標(biāo),統(tǒng)一了不同模態(tài)之間的預(yù)訓(xùn)練方式,也證明了生成式預(yù)訓(xùn)練目標(biāo)的良好效果。
4 特征提取方法
4.1 圖像特征提取
4.1.1 基于目標(biāo)檢測(cè)器的區(qū)域特征
圖文檢索、視覺問答、視覺蘊(yùn)涵等任務(wù)與圖像的區(qū)域性特征有很高的相關(guān)性,大多數(shù)的VLP模型將圖像區(qū)域性特征的提取設(shè)置為視覺嵌入系統(tǒng)(visual embedding schema)的基本工作[49],采用目標(biāo)檢測(cè)系統(tǒng)得到具有語義和離散化的特征表現(xiàn)形式。VL-BERT[50]、UNITER[51]等相關(guān)工作在進(jìn)行圖像體征提取時(shí),基于目標(biāo)檢測(cè)得到離散、序列化的具有bounding box的區(qū)域特征。例如:YOLO[52]使用檢測(cè)頭和非極大值抑制算法,從圖像中提取出目標(biāo)物體的位置和類別信息;Faster R-CNN[7]使用區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)來生成候選目標(biāo)區(qū)域。在實(shí)驗(yàn)過程中,為了提升訓(xùn)練效率,區(qū)域特征通常在訓(xùn)練時(shí)預(yù)先緩存,盡管使用目標(biāo)檢測(cè)器可用于檢測(cè)精度要求較高的場(chǎng)景,但由于提前緩存的局限性,無法實(shí)現(xiàn)子任務(wù)的靈活泛化。
4.1.2 基于卷積的網(wǎng)格特征
目標(biāo)檢測(cè)器模塊給VLP任務(wù)造成了高昂的計(jì)算成本,提取基于卷積的網(wǎng)格特征能夠減少計(jì)算量。網(wǎng)格卷積網(wǎng)絡(luò)(grid convolutional neural network,Grid-CNN)[53]的核心思想是將圖像劃分為多個(gè)網(wǎng)格,然后對(duì)每個(gè)網(wǎng)格進(jìn)行特征提取,從而得到整張圖像的特征表示。Grid-CNN通常采用多層網(wǎng)格卷積和池化操作,逐層提取細(xì)粒度的局部特征,然后通過全局特征的融合實(shí)現(xiàn)對(duì)整張圖像的分類。Pixel-BERT[54]選擇直接將圖像像素與文本對(duì)齊,其關(guān)注點(diǎn)不再局限于目標(biāo)檢測(cè)器得到的區(qū)域特征,而更注重于更為全面的圖形形狀和空間關(guān)系信息,充分利用了原始圖像的視覺信息。注意力機(jī)制和圖像卷積操作的結(jié)合也是較為熱門的研究方向:residual attention network[55]將注意力機(jī)制和殘差網(wǎng)絡(luò)進(jìn)行結(jié)合,提高了網(wǎng)絡(luò)對(duì)于圖像中目標(biāo)物體的關(guān)注;NLNet[56]結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制,通過學(xué)習(xí)不同特征圖的權(quán)重,從而自適應(yīng)地選擇最相關(guān)的特征圖。
使用卷積網(wǎng)絡(luò)來提取特征,雖然在一定程度上減輕了使用檢測(cè)器提取區(qū)域特征帶來的負(fù)擔(dān),但卷積網(wǎng)絡(luò)的計(jì)算復(fù)雜度同樣不能作為輕量強(qiáng)大的視覺編碼器去使用。
4.1.3 基于Vi-Transformer的圖像patch特征提取
2020年,Dosovitskiy等人[57]基于BERT提出了Vi-Transformer,直接將原大小為224×224的三通道圖片處理為規(guī)格為16×16×3的patch塊,經(jīng)過線性映射(linear projection)層便得到了圖像Token序列,添加位置編碼等輔助Token就可以得到圖像patch特征。
Vi-Transformer簡(jiǎn)化了視覺特征的提取過程。VLP模型受Vi-Transformer工作啟發(fā),也采用了類似的方法將圖像扁平化成patch序列,僅僅采用嵌入層的映射處理,從而減少了卷積操作和特征提取器的操作開銷,大大提升了模型在圖像處理的運(yùn)行時(shí)間。Vi-Transformer利用自注意力機(jī)制進(jìn)行全局的建模,可以更好地捕捉目標(biāo)圖像中不同像素的長(zhǎng)程依賴關(guān)系。但是傳統(tǒng)Vi-Transformer的設(shè)計(jì)與實(shí)現(xiàn)都是基于固定大小的圖像塊進(jìn)行的,Swing Transformer[58]采取了移動(dòng)窗口實(shí)現(xiàn)了層級(jí)式的Transformer處理,從而可以處理不同尺度的圖像。相比于Vi-Transformer窗口內(nèi)的信息交互,由于引入了窗口之間的patch交互,增加了每個(gè)圖像patch的感受野,一定程度上避免了信息的丟失。DeiT[59]、LeVi-Transformer[60]都基于Vi-Transformer進(jìn)行了改進(jìn),提升了模型在數(shù)據(jù)集上的表現(xiàn)。
4.2 文本特征提取
4.2.1 基于CNN的文本特征提取
卷積神經(jīng)網(wǎng)絡(luò)除了在圖像處理工作中被廣泛使用,在自然語言處理領(lǐng)域也有著出色表現(xiàn)。Kim等人訓(xùn)練了一個(gè)精簡(jiǎn)的CNN,由無監(jiān)督神經(jīng)語言模型得到詞向量矩陣后,使用卷積核對(duì)該矩陣進(jìn)行卷積操作,從而得到文本特征圖[59]?;诰矸e的文本特征提取方法可以很好地處理文本中的局部信息,也可以使用多個(gè)卷積核得到不同尺度的特征,并且卷積模型的結(jié)構(gòu)相對(duì)簡(jiǎn)單,容易進(jìn)行訓(xùn)練。但是卷積操作無法處理文本中的序列信息,可能會(huì)造成文本的語義丟失,并且全局最大池化操作也存在長(zhǎng)文本信息丟失的問題。
4.2.2 基于RNN的文本特征提取
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)常用于處理序列文本數(shù)據(jù),即結(jié)合歷史信息對(duì)當(dāng)前的輸入進(jìn)行處理,但傳統(tǒng)的RNN具有梯度消失和梯度爆炸的問題[61],因此模型處理較長(zhǎng)序列的文本數(shù)據(jù)會(huì)有很大限制。為了解決以上問題,提出了很多變體RNN。長(zhǎng)短期記憶網(wǎng)絡(luò)有效解決了RNN在反向傳播的過程中梯度消失和爆炸的問題,能更加高效地處理長(zhǎng)序列文本數(shù)據(jù)。Bi-LSTM[62]是長(zhǎng)短期記憶網(wǎng)絡(luò)的進(jìn)一步變體,其從兩個(gè)方向來處理文本數(shù)據(jù),可以更好地理解上下文的信息。
SSAE工作將注意力機(jī)制和Bi-LSTM結(jié)合,將文本輸入經(jīng)過Bi-LSTM進(jìn)行雙向運(yùn)算,在每個(gè)詞的兩個(gè)方向均進(jìn)行注意力得分運(yùn)算,從而得到特征表示[63]。文獻(xiàn)[64~66]均將注意力機(jī)制引入文本特征提取過程中。
4.2.3 基于BERT的文本embedding向量
BERT是基于Transformer的雙向編碼器預(yù)訓(xùn)練模型,BERT將特殊的Token [CLS]和[SEP]分別作為輸入文本對(duì)(也可以將單個(gè)句子作為輸入)的特征表示和分割結(jié)束符。BERT通過對(duì)輸入文本進(jìn)行詞嵌入操作、分句編碼和位置編碼,以此來得到詞序列[41]。預(yù)訓(xùn)練過程中,通過遮罩語言模型預(yù)測(cè)、next sentence prediction(NSP)兩種預(yù)訓(xùn)練目標(biāo)進(jìn)行無監(jiān)督訓(xùn)練。MLM隨機(jī)遮蓋或替換一句話里面的任意字或詞,然后讓模型通過上下文預(yù)測(cè)被遮蓋或替換的部分;NSP任務(wù)判斷這兩個(gè)句子是否是連續(xù)的,并且在判斷時(shí)需要考慮上下文信息。這兩個(gè)任務(wù)的聯(lián)合訓(xùn)練可以充分地提取文本特征,從而提升下游任務(wù)的性能。RoBERTa[67]通過改進(jìn)BERT模型的細(xì)節(jié),如數(shù)據(jù)清洗、學(xué)習(xí)率調(diào)度等因素來提升模型的性能?;贐ERT預(yù)訓(xùn)練模型設(shè)計(jì)多模態(tài)任務(wù)中文本編碼器可以減少訓(xùn)練時(shí)間和數(shù)據(jù)需求,有效捕捉上下文之間的依賴關(guān)系,進(jìn)一步提升模態(tài)內(nèi)和模態(tài)之間的理解能力。
5 多模態(tài)架構(gòu)比重策略
將圖像文本多模態(tài)架構(gòu)抽象為三個(gè)組成部分,即文本嵌入模塊(textual embed,TE)、視覺嵌入模塊(visual embed,VE)、模態(tài)融合模塊(modality interaction,MI)。其中TE處理文本模態(tài)信息,VE處理圖像模態(tài)信息,MI負(fù)責(zé)不同模態(tài)間的交互。如圖1所示,不同模塊在整體架構(gòu)的不同比重體現(xiàn)了該模塊在整體架構(gòu)中的模型參數(shù)量和訓(xùn)練成本,下文以及圖1中的“>”表示模塊具有更高的參數(shù)量和更加復(fù)雜的結(jié)構(gòu)。因此,根據(jù)不同的比重分布來介紹以下四種多模態(tài)融合策略。
5.1 VE>TE>MI
如圖1(a)所示,在VSE++[68]模型中,VE使用預(yù)訓(xùn)練好的CNN模型,TE直接使用預(yù)訓(xùn)練的詞嵌入模型將文本序列轉(zhuǎn)換為文本特征,在VSE++使用了難負(fù)樣本的訓(xùn)練技巧來增強(qiáng)視覺語義嵌入模型(VSE)的魯棒性,MI模塊使用余弦相似度計(jì)算損失函數(shù),即簡(jiǎn)單的直接點(diǎn)積計(jì)算來實(shí)現(xiàn)。類似的多模態(tài)結(jié)構(gòu)策略工作還有Unicoder-VL[69]、stacked cross attention for image-text matching(SCAN) [70]等,都使用較為魯棒的視覺嵌入模塊來組織多模態(tài)架構(gòu)。
在多模態(tài)任務(wù)中,突出視覺嵌入模塊可以更好地利用視覺信息,但由于視覺模塊自身的復(fù)雜性,使得多模態(tài)任務(wù)計(jì)算需要較長(zhǎng)的訓(xùn)練時(shí)間和更加高昂的計(jì)算成本。此外,由于忽略了視覺信息以及模態(tài)之間的交互,導(dǎo)致在場(chǎng)景文本理解類的下游任務(wù)中表現(xiàn)不佳。
5.2 VE=TE>MI
如圖1(b)所示,CLIP[71]模型采用了相同比重的TE和VE模塊。模型的輸入是一組配對(duì)的文本對(duì),分別通過TE和VE得到圖像特征和文本特征,MI模塊采用較為簡(jiǎn)單的對(duì)比學(xué)習(xí)的方式,最大化正樣本對(duì)的相似度以及最小化負(fù)樣本對(duì)的相似度。相較于模態(tài)MI計(jì)算相似性來進(jìn)行跨模態(tài)對(duì)齊,TE和VE都采用了較魯棒的特征提取器。CLIP模型將圖像特征和文本特征映射到統(tǒng)一特征空間來計(jì)算相似性得分,使得該模型在圖文檢索任務(wù)上有著很好的表現(xiàn),但是模型的泛化能力相對(duì)較差,同時(shí)直接遷移到新任務(wù)也存在著性能表現(xiàn)較差的問題。
類似地,ALIGN[9]采用了視覺語言雙編碼器架構(gòu),使用超過10億張圖像替代文本對(duì)的噪聲數(shù)據(jù)集,其中將BERT-Large[41]和EfficientNet-L2[72]分別作為文本和圖像編碼器,圖像和文本編碼器通過對(duì)比損失函數(shù)進(jìn)行權(quán)重的更新,使得特征嵌入空間中正樣本對(duì)具有相似的嵌入表征。圖1(a)的架構(gòu)策略中,圖像和文本編碼器有著較為復(fù)雜的參數(shù)和結(jié)構(gòu),這需要大量的計(jì)算資源,并且簡(jiǎn)單的模態(tài)交互無法充分地學(xué)習(xí)到不同模態(tài)之間的共性和差異性。在有限的訓(xùn)練資源限制下,“頭重腳輕”的結(jié)構(gòu),即單一高性能單模態(tài)嵌入器與簡(jiǎn)單的模態(tài)融合并不足以學(xué)習(xí)復(fù)雜的視覺和語言任務(wù),往往無法很好地達(dá)到預(yù)期性能。
5.3 VE>MI>TE
MI對(duì)模態(tài)信息交互和理解有著舉足輕重的作用,是下游任務(wù)性能和模型泛化能力提升的重要因素之一。區(qū)別于圖1(a)(b)兩種淺交互的模型架構(gòu),ALBEF采用了BERT前六層Transformer結(jié)構(gòu)作為TE,后六層作為MI,在適當(dāng)降低TE的比重的同時(shí)VE采用Vi-Transformer[57],綜合權(quán)衡模型的復(fù)雜度,提升多模態(tài)的任務(wù)性能,并在各種下游任務(wù)上證明了ALBEF的有效性,包含圖像文本檢索、視覺問答、視覺推理、視覺蘊(yùn)涵等任務(wù)[40]。VL-BERT[50]從預(yù)訓(xùn)練的對(duì)象檢測(cè)網(wǎng)絡(luò)中提取邊界框及其視覺特征來生成圖像區(qū)域特征,文本表征采用BERT方法,通過擴(kuò)展BERT來聯(lián)合表示圖像和文本進(jìn)行跨模態(tài)的交互。LXMERT[73]對(duì)圖像區(qū)域特征和文本嵌入進(jìn)行自注意力編碼,其MI使用雙向交互模塊來融合文本和圖像的信息,在雙向交互過程中,文本注意力機(jī)制將圖像特征投影到文本空間中,用于計(jì)算文本-圖像的相似度,而視覺注意力機(jī)制則將文本特征投影到圖像空間中,用于計(jì)算圖像-文本的相似度,從而更好地捕捉多模態(tài)輸入之間的關(guān)聯(lián)信息。
由上述分析可知,在多模態(tài)任務(wù)中,MI模塊是提升下游任務(wù)性能的重要因素,無論是生成式的任務(wù)還是理解式的任務(wù),都需要以模態(tài)特征之間的對(duì)齊和充分融合為前提。
5.4 MI>VE=TE
正如以上工作中,大多數(shù)多模態(tài)框架對(duì)于文本的處理多是通過一個(gè)嵌入層直接映射到特征空間,圖像的處理往往會(huì)先使用一個(gè)Backbone網(wǎng)絡(luò)進(jìn)行特征提取。注意力機(jī)制在NLP和CV領(lǐng)域的突破,BERT和Vi-Transformer使得文本和視覺模態(tài)信息的處理有了較為統(tǒng)一的方式,在ViLT模型中,對(duì)文本和視覺模態(tài)的信息均使用線性嵌入層將模態(tài)信息映射到特征空間中的方法,直接將圖文特征進(jìn)行拼接送入注意力層進(jìn)行模態(tài)的交互和理解。MI>VE=TE的架構(gòu)設(shè)計(jì)簡(jiǎn)化了模型的結(jié)構(gòu),提升了文本嵌入的性能,并且相對(duì)魯棒的MI模塊也保證了對(duì)于模態(tài)信息的理解,該模型也首次在多模態(tài)的學(xué)習(xí)中采用了數(shù)據(jù)增強(qiáng)的方式[5]。ViLT是一個(gè)相當(dāng)輕量級(jí)的VLP模型,該模型舍棄了龐大復(fù)雜的視覺和文本編碼器,將多模態(tài)任務(wù)的工作重心更多地關(guān)注于MI模塊,在COCO、Flickr 30K以及Visual Genome等數(shù)據(jù)集上均取得了SOTA,也證明了簡(jiǎn)化特征提取工作的有效性,使用精簡(jiǎn)的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)高效的模態(tài)融合處理是可行的研究思路。
6 多模態(tài)交互架構(gòu)
6.1 單流結(jié)構(gòu)
單流模型是指將多個(gè)模態(tài)的輸入通過一個(gè)共享的網(wǎng)絡(luò)模型進(jìn)行編碼,能夠同時(shí)處理多種形式的輸入,并且學(xué)習(xí)不同模態(tài)之間的交互信息,如圖2(a)所示。單流結(jié)構(gòu)對(duì)于模態(tài)之間的潛在關(guān)系進(jìn)行了較為簡(jiǎn)單的假設(shè)。MMBT模型 [74]將圖像和文本的特征直接輸入到共享模型參數(shù)的bidirectional Transformer網(wǎng)絡(luò)中,并沒有在模態(tài)融合之前進(jìn)行單模態(tài)的模態(tài)內(nèi)處理。Unicoder-VL[69]將文本嵌入層和視覺嵌入層輸出的圖像embedding和文本embedding進(jìn)行拼接,由基于Transformer的交互模塊進(jìn)行跨模態(tài)處理。單流結(jié)構(gòu)雖然可以充分地將多模態(tài)信息融合進(jìn)行推理分類,但缺失了模態(tài)對(duì)齊的操作,因而不適合進(jìn)行檢索任務(wù)[5]。
單流模型還可結(jié)合早期融合的角度來分析,不同的模態(tài)通常是在全局的層級(jí)進(jìn)行融合,此融合方式可以充分考慮模態(tài)之間的關(guān)聯(lián)性,但也忽略了模態(tài)內(nèi)部的細(xì)節(jié)信息。在一些多模態(tài)的應(yīng)用場(chǎng)景中,一些下游任務(wù)需要更好地從模態(tài)內(nèi)部理解直接出發(fā),例如圖文檢索、視覺推理等。因此,盡管早期融合的方法可以高效地進(jìn)行特征的聯(lián)合學(xué)習(xí),但是模態(tài)內(nèi)部預(yù)處理的不足可能導(dǎo)致后續(xù)跨模態(tài)學(xué)習(xí)時(shí)出現(xiàn)信息丟失。OSCAR[75]對(duì)VLP任務(wù)中的圖像文本對(duì)表示為[輸入信息Token,對(duì)象標(biāo)簽,區(qū)域特征],經(jīng)過嵌入操作后由multi-layers Transformers模塊進(jìn)行模態(tài)交互。該工作改進(jìn)了傳統(tǒng)的單流結(jié)構(gòu)的輸入,添加了物體標(biāo)簽,豐富了公共嵌入空間的語義信息,提高了模型的遷移性,在一定程度上解決了模型早期融合時(shí)對(duì)模態(tài)內(nèi)部理解不充分的問題。
6.2 雙流結(jié)構(gòu)
雙流模型通常具有兩個(gè)獨(dú)立的數(shù)據(jù)處理模塊,在不同模態(tài)進(jìn)行融合交互之前進(jìn)行模態(tài)內(nèi)學(xué)習(xí),如圖2(b)所示。例如CLIP模型中,文本編碼器采用了GPT-2[76]中的12層的Transformer塊,視覺編碼器采用5個(gè)ResNet塊和3層的Vi-Transformer塊;ALBEF模型同樣采用了兩個(gè)獨(dú)立的圖文編碼器進(jìn)行特征的提取,特征在送入交叉注意力層之前進(jìn)行了基于MoCo[38]的對(duì)比學(xué)習(xí),將圖像和文本特征進(jìn)行對(duì)齊,目的是提高特征空間中匹配的正樣本對(duì)的相關(guān)度,降低負(fù)樣本的相關(guān)性。相較于單流結(jié)構(gòu),雙流結(jié)構(gòu)中每個(gè)模態(tài)都有相應(yīng)的組件進(jìn)行特征提取,能夠充分地捕捉模態(tài)內(nèi)部的特征和細(xì)節(jié),并且針對(duì)不同模態(tài)的數(shù)據(jù)類型可以有不同的處理方式,可以關(guān)注到不同模態(tài)之間的差異性,因此雙流結(jié)構(gòu)的模型可以很好地完成檢索型任務(wù)。然而,引入單模態(tài)處理過程也會(huì)消耗更多計(jì)算資源,訓(xùn)練時(shí)間也會(huì)變長(zhǎng),并且對(duì)不同結(jié)構(gòu)處理后的模態(tài)特征進(jìn)行對(duì)齊和融合也是具有挑戰(zhàn)性的任務(wù)。Miyawaki等人[77]提出了一種改進(jìn)雙流結(jié)構(gòu)的思路,在圖像特征編碼器中引入了光學(xué)字符識(shí)別(OCR)系統(tǒng),將Faster R-CNN從圖像中提取的特征與OCR系統(tǒng)提取的圖像場(chǎng)景文本進(jìn)行聯(lián)合解釋。實(shí)驗(yàn)表明,聯(lián)合場(chǎng)景文本和語義表示提高了雙編碼器的檢索性能。因此在雙編碼器的結(jié)構(gòu)基礎(chǔ)上,可以通過添加對(duì)應(yīng)的輔助信息來幫助模型編碼輸入信息,從而更好地理解模態(tài)之間的聯(lián)合語義信息。
晚期融合的思路與雙流結(jié)構(gòu)基本一致,對(duì)兩個(gè)模態(tài)特征進(jìn)行全局的融合計(jì)算之前會(huì)分別對(duì)圖像特征和文本特征進(jìn)行學(xué)習(xí),更加關(guān)注于從單模態(tài)內(nèi)部得到更加豐富的原始信息和模態(tài)特征。晚期融合結(jié)構(gòu)可以在視覺和文本模態(tài)融合之前進(jìn)行充分的特征提取和理解。HERO[78]使用了cross-modal Transformer結(jié)構(gòu)對(duì)文本嵌入和視覺序列進(jìn)行特征處理,然后由共享的temporal Transformer進(jìn)行模態(tài)交互,實(shí)現(xiàn)了視覺特征和文本特征的有效對(duì)齊和交互。實(shí)驗(yàn)結(jié)果證明了可以在犧牲部分訓(xùn)練資源和時(shí)間的基礎(chǔ)上,學(xué)習(xí)模態(tài)內(nèi)部的信息再進(jìn)行模態(tài)融合能夠很好地完成視覺問答、字幕生成、圖文檢索等任務(wù)。
6.3 單雙流混合結(jié)構(gòu)
從上文的分析中可以得出,雙流結(jié)構(gòu)適合用來完成檢索類任務(wù),單流結(jié)構(gòu)在推理任務(wù)中表現(xiàn)出色。為了提升模型的普適性和泛化性,單雙流混合結(jié)構(gòu)的思想在VLMo[79]得到了實(shí)現(xiàn)。VLMo模型是基于一種混合專家網(wǎng)絡(luò)(MOME)實(shí)現(xiàn)的。該模型改進(jìn)了Transformer塊中的前向神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)被替換為了視覺專家、語言專家和視覺語言專家三個(gè)模態(tài)專家網(wǎng)絡(luò),模型根據(jù)不同的輸入選擇對(duì)應(yīng)的專家網(wǎng)絡(luò)。當(dāng)處理檢索任務(wù)時(shí),則采用模型中的雙流架構(gòu),分別得到圖像和視覺的嵌入結(jié)果,計(jì)算兩者的相似性得分來完成檢索任務(wù);當(dāng)處理推理等分類任務(wù)時(shí),則使用視覺專家和語言專家來編碼各自的模態(tài)向量,然后由融合編碼器進(jìn)行模態(tài)交互??偟膩碚f,模態(tài)混合專家(MOME)基于一個(gè)特定模態(tài)的專家池和共享的self-attention層,靈活地對(duì)不同的輸入作出不同的處理,可以很好地完成檢索任務(wù)和推理任務(wù)。
同樣地,也可以用早晚期融合的角度來分析單雙流融合結(jié)構(gòu),根據(jù)下游任務(wù)和輸入模態(tài)的特殊性,融合方案能靈活地選擇模態(tài)內(nèi)處理和模態(tài)間融合的前向路徑和網(wǎng)絡(luò)模塊,如圖2(c)所示。綜合早期和晚期的優(yōu)點(diǎn)的同時(shí),也不可避免地帶來了模型結(jié)構(gòu)太過復(fù)雜、預(yù)訓(xùn)練模型難以訓(xùn)練的問題。因此,可以根據(jù)具體的任務(wù)進(jìn)行結(jié)構(gòu)選擇。
7 輕量化參數(shù)微調(diào)方法
隨著基于Transformer的大語言模型以及視覺處理模型等研究的不斷發(fā)展,為解決多模態(tài)任務(wù)提供了諸多具有強(qiáng)大性能且開箱即用的預(yù)訓(xùn)練模型,如Visual ChatGPT[80]將ChatGPT(InstructGPT[81])與不同的視覺模型進(jìn)行結(jié)合,使得用戶與ChatGPT之間不單使用語言來進(jìn)行交流,進(jìn)而可以提供復(fù)雜的視覺問題或視覺編輯指令。但隨著模型越來越大,在常規(guī)的硬件設(shè)備上實(shí)現(xiàn)對(duì)大模型的微調(diào)變得極為昂貴和耗時(shí)。在大模型盛行的趨勢(shì)下,如何利用這些龐大參數(shù)量的模塊泛化到一般的實(shí)驗(yàn)或應(yīng)用場(chǎng)景當(dāng)中是一個(gè)值得研究的問題。參數(shù)效率微調(diào)(parameter-efficient fine-tuning,PEFT)旨在減少需要微調(diào)的模型參數(shù)的同時(shí)避免災(zāi)難性遺忘問題的出現(xiàn)。本章將從Adapters組件、提示符學(xué)習(xí)(prompting learning)以及專家集合模型(Prismer)三種方法來展開討論。
7.1 Adapter組件
使用大規(guī)模預(yù)訓(xùn)練模型初始化模型參數(shù)是一種比較高效的遷移方法,但在遷移過程中對(duì)模型進(jìn)行微調(diào)往往需要更新模型的所有參數(shù),這需要相當(dāng)龐大的計(jì)算資源和時(shí)間成本。因此,提出了凍結(jié)大部分模型,只更新少量模型參數(shù)的方法。因?yàn)椴煌掠稳蝿?wù)往往關(guān)注于相同模型的不同部分,設(shè)計(jì)具有泛化性的局部參數(shù)微調(diào)方法很難實(shí)現(xiàn),并且更新預(yù)訓(xùn)練模型的部分參數(shù)也可能導(dǎo)致精度的消失以及災(zāi)難性遺忘的問題。所以,Houlsby等人[82]提出了Adapter結(jié)構(gòu),將其作為訓(xùn)練模塊插入到Transformer中。圖3為一種簡(jiǎn)易的組件微調(diào)方法,凍結(jié)Transformer的網(wǎng)絡(luò)參數(shù),在多頭注意力層之后添加可訓(xùn)練的Adapter組件,這樣既保留了原始模型的參數(shù)內(nèi)容,又能夠以極小的訓(xùn)練代價(jià)將大模型的能力泛化到子任務(wù)當(dāng)中。
Adapter有著清晰簡(jiǎn)單的結(jié)構(gòu),其輸入首先會(huì)通過前向下采樣映射進(jìn)行輸入特征維度的下采樣操作,再通過非線性層和前向上采樣映射將特征恢復(fù)到輸入維度,最終通過跳躍連接將Adapter的原始輸入與輸出相加作為最終的輸出結(jié)構(gòu)。AIM[83]通過凍結(jié)預(yù)訓(xùn)練好的圖像模型,在模型中添加輕量級(jí)的Adapter使得模型可以通過更少的可調(diào)參數(shù)來獲得更好的性能,其簡(jiǎn)單高效的改進(jìn)能夠普遍適用不同的圖像預(yù)訓(xùn)練模型,以進(jìn)一步應(yīng)用到多模態(tài)的圖像特征處理階段。
7.2 提示符學(xué)習(xí)
除了添加可訓(xùn)練的輕量化組件,也可以從信息的輸入端來驅(qū)動(dòng)優(yōu)化模型。例如以提示符學(xué)習(xí)的方式來提升模型的性能,CLIP[70]在文本編碼器處理文本信息之前會(huì)添加文字提示(prompt)。即當(dāng)圖像標(biāo)簽的文本為“dog”,則會(huì)被處理為“a photo of {dog (object)}”,再對(duì)應(yīng)圖像特征進(jìn)行對(duì)齊操作。但每張圖片可能有多種描述,如“a photo of a {object}”“a type of {object}”等,以上在預(yù)訓(xùn)練過程中被固定好的提示符被稱為hard-prompt。但在研究CoOP[84]中,作者發(fā)現(xiàn)不同的提示符對(duì)最終的實(shí)驗(yàn)效果有著不可忽視的影響,因而提出了將文本提示符設(shè)置為可學(xué)習(xí)可優(yōu)化的一組參數(shù),將其成為軟提示符學(xué)習(xí)方式(soft-prompt)。
如圖4所示,提出了兩種提示符學(xué)習(xí)思路:一是統(tǒng)一上下文學(xué)習(xí),二是特定于預(yù)測(cè)類的上下文學(xué)習(xí)。統(tǒng)一上下文學(xué)習(xí)為所有的類共享相同的learnable context,也就是對(duì)某個(gè)子任務(wù)數(shù)據(jù)集只訓(xùn)練一個(gè)固定的提示符;特定于預(yù)測(cè)類的上下文學(xué)習(xí)對(duì)數(shù)據(jù)集中每一個(gè)類都會(huì)訓(xùn)練一個(gè)不同的learnable context。最終實(shí)驗(yàn)結(jié)果表明,CoOP的性能都超過了作為基線模型的CLIP,并且作者還實(shí)驗(yàn)了{(lán)object}在輸入中的位置,發(fā)現(xiàn)在句中或句尾都具有較為平衡的性能,不同的語句結(jié)構(gòu)順序并不會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成太大的影響。
這種在輸入端的處理技巧很好地提供了優(yōu)化學(xué)習(xí)參數(shù)的思路,僅通過設(shè)置很輕量的可訓(xùn)練模塊便強(qiáng)有力地將大模型作為基礎(chǔ)模型來應(yīng)用,既保持了其原有性能,又可以通過輕量化可訓(xùn)練模塊進(jìn)一步提升性能,同時(shí)可以防止災(zāi)難性遺忘問題的出現(xiàn)。
7.3 專家集合模型
Adapter組件在較為簡(jiǎn)單的工作場(chǎng)景中可以起到很好的優(yōu)化效果,但其簡(jiǎn)單的結(jié)構(gòu)屬性并不能實(shí)現(xiàn)集合復(fù)雜的預(yù)訓(xùn)練模型。在此基礎(chǔ)上,為了實(shí)現(xiàn)在更復(fù)雜場(chǎng)景下對(duì)大模型的有力串聯(lián)和組合使用,需要提出更高層級(jí)的網(wǎng)絡(luò)組件。Liu等人[85]引入Prismer網(wǎng)絡(luò)來集成預(yù)訓(xùn)練領(lǐng)域的專家模型,即通過單獨(dú)的子網(wǎng)絡(luò)來學(xué)習(xí)技能和領(lǐng)域知識(shí),并且每個(gè)專家都可以針對(duì)特定的任務(wù)進(jìn)行獨(dú)立優(yōu)化。相較于大多單雙流模型使用多個(gè)預(yù)訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,Prismer 只需要一個(gè)單一的自回歸預(yù)測(cè)文本作為訓(xùn)練目標(biāo),僅專注于微調(diào)性能和參數(shù)效率。這種方法可以充分利用預(yù)訓(xùn)練專家網(wǎng)絡(luò),將可訓(xùn)練參數(shù)的數(shù)量保持在最低限度,在保持專家模塊完整性的同時(shí)防止微調(diào)過程中出現(xiàn)災(zāi)難性遺忘問題。
Prismer主要由兩個(gè)可訓(xùn)練組件構(gòu)成,專家重采樣器在視覺編碼器中用于將可變長(zhǎng)度的多模態(tài)信號(hào)映射到具有固定長(zhǎng)度的多模態(tài)特征序列;輕量級(jí)適配器增強(qiáng)了模型的視覺語言推理表達(dá)能力。適配器被插入到模型的視覺和語言部分的每個(gè)Transformer層中,使預(yù)先訓(xùn)練的專家模塊適應(yīng)新的任務(wù)和模式。區(qū)別于VLMo以及ALBEF混合專家(MoME)結(jié)構(gòu),在Prismer中,“專家”是獨(dú)立預(yù)訓(xùn)練的模型。這種通過設(shè)計(jì)一個(gè)輕量模塊來串聯(lián)強(qiáng)大預(yù)訓(xùn)練模型的思路為實(shí)驗(yàn)資源有限的研究提供了強(qiáng)有力的方向指導(dǎo)。ClipCap[86]引入一個(gè)映射網(wǎng)絡(luò),將CLIP的視覺編碼器提取的圖像特征通過映射網(wǎng)絡(luò)得到了與GPT-2的解碼器相同的嵌入Token序列,無須額外對(duì)編碼器和解碼器作訓(xùn)練,很好地利用了在上億文本對(duì)訓(xùn)練的預(yù)訓(xùn)練模型,該方法僅使用GTX1080訓(xùn)練72 h就能超過基線模型(VLP[87])在V100訓(xùn)練1 200 h的表現(xiàn)效果。
8 多模態(tài)領(lǐng)域發(fā)展趨勢(shì)
在VLP領(lǐng)域,根據(jù)下游任務(wù)構(gòu)建模型結(jié)構(gòu)、設(shè)置預(yù)訓(xùn)練目標(biāo)、構(gòu)建子任務(wù)數(shù)據(jù)集進(jìn)行微調(diào)等步驟都是研究人員需要思考的重要問題。綜上所述,模型的結(jié)構(gòu)與下游任務(wù)有著強(qiáng)關(guān)聯(lián)性,單雙流的結(jié)構(gòu)決定了模型主要用于進(jìn)行檢索或推理任務(wù),解碼器或編碼器的選擇取決于解決理解式或生成式任務(wù);除了模型結(jié)構(gòu)的設(shè)計(jì),公開數(shù)據(jù)集與任務(wù)適配度低、構(gòu)建下游專用任務(wù)數(shù)據(jù)集困難都是在處理多模態(tài)任務(wù)時(shí)難以解決的問題;在訓(xùn)練過程中,往往設(shè)定多個(gè)預(yù)訓(xùn)練目標(biāo)進(jìn)行聯(lián)合使用,這在大參數(shù)的架構(gòu)中會(huì)消耗難以估量的計(jì)算成本。因此,多模態(tài)任務(wù)還面臨著很多亟待解決的問題[88]。
綜上,在明確解決子任務(wù)和搭建模型結(jié)構(gòu)的研究過程中,多模態(tài)領(lǐng)域的工作呈現(xiàn)了趨向統(tǒng)一的發(fā)展態(tài)勢(shì),包含且不局限于多模態(tài)。對(duì)于單模態(tài)的自然語言處理、計(jì)算機(jī)視覺領(lǐng)域等模型都可以從三個(gè)方面進(jìn)行分析:一是以Transformers為基本模塊的網(wǎng)絡(luò)的構(gòu)建方式;二是生成式的預(yù)訓(xùn)練目標(biāo)在預(yù)訓(xùn)練-微調(diào)的范式中成為至關(guān)重要的參數(shù)更新方法;三是大模型大數(shù)據(jù)釋放了模型的能力的同時(shí),高效的組件方法降低了實(shí)驗(yàn)成本。
a)模型架構(gòu)的統(tǒng)一是大一統(tǒng)的重要基礎(chǔ),雙流結(jié)構(gòu)適用于檢索類的任務(wù);單流結(jié)構(gòu)在完成分類推理等任務(wù)具有優(yōu)勢(shì);基于編碼器-解碼器結(jié)構(gòu)的模型可以用于生成任務(wù)。在之前的工作中,大多數(shù)模型必須根據(jù)特定的任務(wù)特性手動(dòng)調(diào)整不同模型結(jié)構(gòu),并且也無法做到高效地共享模型參數(shù)。BLIP[14]對(duì)于不同的任務(wù)共享部分參數(shù),采用多路Transformer作為骨干網(wǎng)絡(luò),類似于VLMo中的共享多頭自注意力層。CoCa[89]融合了單雙流的encoder-decoder模型結(jié)構(gòu),既能生成圖像模態(tài)和文本模態(tài)的表示,又能進(jìn)行更深層次的圖像、文本信息融合以及文本生成,適用于更加廣泛的任務(wù)。編碼器-解碼器架構(gòu)的融合以及靈活的單雙流架構(gòu)前向選擇過程使得模型從backbone的層面實(shí)現(xiàn)了大一統(tǒng)。
b)遮罩?jǐn)?shù)據(jù)建模(masked data modeling)預(yù)訓(xùn)練目標(biāo)在多種模態(tài)都取得了的成功應(yīng)用。如第2章中所介紹,目前的VLP的預(yù)訓(xùn)練目標(biāo)通常包含ITC、ITM等,過多的訓(xùn)練目標(biāo)導(dǎo)致數(shù)據(jù)在模型的訓(xùn)練過程中需要很多次前向計(jì)算,增加了運(yùn)算成本。BEiT v3[44]也將圖像視作一種語言,以相同的方式來處理文本和圖像,從而沒有了基本的建模差異,將圖像文本視為“平行語句對(duì)”,以此來學(xué)習(xí)模態(tài)之間的對(duì)齊,這種處理方法在視覺和視覺語言任務(wù)上都達(dá)到了先進(jìn)的性能,并證明了生成式預(yù)訓(xùn)練的優(yōu)越性。綜上,構(gòu)建雙流模型時(shí),往往使用對(duì)比學(xué)習(xí)進(jìn)行模態(tài)的對(duì)齊,以此來解決檢索式的理解任務(wù);在解碼器單流結(jié)構(gòu)的訓(xùn)練中使用生成式自監(jiān)督目標(biāo)。清晰簡(jiǎn)單的訓(xùn)練目標(biāo)可以提高訓(xùn)練效率,同時(shí)保證模型在下游任務(wù)上的優(yōu)秀性能。
c)大模型、大數(shù)據(jù)集的概念已經(jīng)成為了提升模型性能的關(guān)鍵。BEiT[44]系列的工作由40層的多路Transformer組成,整個(gè)模型包含近19億個(gè)參數(shù),如此龐大的參數(shù)量在訓(xùn)練過程中使用的訓(xùn)練數(shù)據(jù)均來自于公開數(shù)據(jù)集,打破了以往模型對(duì)高成本構(gòu)建的專業(yè)數(shù)據(jù)集的依賴,僅僅使用了公共數(shù)據(jù)資源便在多個(gè)子任務(wù)中達(dá)到了SOTA。這一工作在架構(gòu)、建模、泛化能力上實(shí)現(xiàn)了真正意義上的統(tǒng)一,對(duì)之后的多模態(tài)工作起到了一個(gè)規(guī)范化的影響。同時(shí),在海量數(shù)據(jù)以及大模型堆疊的深度學(xué)習(xí)趨勢(shì)下,尋找模型的優(yōu)化方法也是頗具意義的思路之一。在訓(xùn)練資源有限的情況下,可以從模型輸入端、組件優(yōu)化以及網(wǎng)絡(luò)串聯(lián)來利用預(yù)訓(xùn)練模型的優(yōu)點(diǎn),以較小的代價(jià)實(shí)現(xiàn)大模型優(yōu)勢(shì)的同時(shí)保證整體結(jié)構(gòu)的輕量化。
多模態(tài)領(lǐng)域中通用基礎(chǔ)模型的研究有著廣闊的前景和空間去發(fā)展和完善,設(shè)計(jì)子任務(wù)泛化性好以及訓(xùn)練高效的多模態(tài)范式是多模態(tài)領(lǐng)域發(fā)展的趨勢(shì)。并且,在以數(shù)據(jù)為主要驅(qū)動(dòng)的深度學(xué)習(xí)背景下,引入知識(shí)圖譜等輔助驅(qū)動(dòng)也是值得思考的研究方向之一[90]。
參考文獻(xiàn):
[1]Antol S, Agrawal A, Lu Jiasen, et al. VQA: visual question answe-ring[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2425-2433.
[2]Vinyals O, Toshev A, Bengio S, et al. Show and tell: lessons lear-ned from the 2015 MSCOCO image captioning challenge[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017,39(4): 652-663.
[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY:Curran Associates Inc., 2017:6000-6010.
[4]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[EB/OL]. (2018). https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.
[5]Kim W,Son B,Kim I. ViLT:vision-and-language Transformer without convolution or region supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]: PMLR, 2021: 5583-5594.
[6]Gao Peng, Jiang Zhengkai, You Haoxuan, et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 6632-6641.
[7]Ren Shaoqing, He Kaiming, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge,MA: MIT Press, 2015:91-99.
[8]Cho K, Van Merriёnboer B, Gulcehre C, et al. Learning phrase re-presentations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014). https://arxiv.org/abs/1406.1078.
[9]Jia Chao, Yang Yinfei, Xia Ye, et al. Scaling up visual and vision-language representation learning with noisy text supervision[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR, 2021: 4904-4916.
[10]Ma Lin, Lu Zhengdong, Shang Lifeng, et al. Multimodal convolutional neural networks for matching image and sentence[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2015:2623-2631.
[11]Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2015:3156-3164.
[12]Huang Lun, Wang Wenmin, Chen Jie, et al. Attention on attention for image captioning[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. 2019: 4634-4643.
[13]Pan Yingwei, Yao Ting, Li Yehao, et al. X-linear attention networks for image captioning[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition. 2020: 10971-10980.
[14]Li Junnan, Li Dongxu, Xiong Caiming, et al. BLIP: bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning. 2022: 12888-12900.
[15]Anderson P, Wu Qi, Teney D, et al. Vision-and-language navigation:interpreting visually-grounded navigation instructions in real environments[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 3674-3683.
[16]Hong Yicong, Wu Qi, Qi Yuankai, et al. VLN BERT: a recurrent vision-and-language BERT for navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1643-1653.
[17]Guhur P L, Tapaswi M, Chen Shizhe, et al. AirBERT: in-domain pretraining for vision-and-language navigation[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 1634-1643.
[18]Qiao Yanyuan, Qi Yuankai, Hong Yicong, et al. HOP: history-and-order aware pre-training for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15418-15427.
[19]Hong Yicong, Wang Zun, Wu Qi, et al. Bridging the gap between learning in discrete and continuous environments for vision-and-language navigation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15439-15449.
[20]Das A, Kottur S, Gupta K, et al. Visual dialog[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 326-335.
[21]Xie Ning , Lai F , Doran D ,et al.Visual entailment task for visually-grounded language learning[EB/OL].(2018). https://arxiv.org/abs/1811.10582.
[22]Suhr A, Lewis M, Yeh J, et al. A corpus of natural language for visual reasoning[C]//Proc of the 55th Annual Meeting of Association for Computational Linguistics. 2017: 217-223.
[23]Zellers R, Bisk Y, Farhadi A, et al. From recognition to cognition: visual commonsense reasoning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6720-6731.
[24]王麗安, 繆佩翰, 蘇偉, 等. 圖像-文本多模態(tài)指代表達(dá)理解研究綜述[J]. 中國(guó)圖象圖形學(xué)報(bào), 2023,28(5): 1308-1325. (Wang Lian, Liao Peihan, Su Wei, et al. Multimodal referring expression comprehension based on image and text: a review[J] Journal of Image and Graphics, 2023,28(5):1308-1325.)
[25]Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using Amazons mechanical Turk[C]//Proc of NAACL HLT Workshop on Creating Speech and Language Data with Amazons Mechanical Turk. 2010: 139-147.
[26]Welinder C, Branson S, Welinder P,et al.The Caltech-UCSD birds-200-2011 dataset[DB/OL]. (2011).https://gwern.net/doc/ai/dataset/2011-wah.pdf.
[27]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer.Berlin: Springer, 2014: 740-755.
[28]Krishna R, Zhu Yuke, Groth O, et al. Visual genome: connecting language and vision using crowdsourced dense image annotations[J]. International Journal of Computer Vision, 2017, 123: 32-73.
[29]Zhu Yuke, Groth O, Bernstein M, et al. Visual 7W: grounded question answering in images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 4995-5004.
[30]Plummer B A, Wang Liwei, Cervantes C M, et al. Flickr30k entities: collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2641-2649.
[31]Goyal Y, Khot T, Summers-Stay D, et al. Making the v in VQA matter: elevating the role of image understanding in visual question answering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6904-6913.
[32]Hudson D A, Manning C D. GQA: a new dataset for real-world visual reasoning and compositional question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6700-6709.
[33]Kuznetsova A, Rom H, Alldrin N, et al. The open images dataset v4:unified image classification, object detection, and visual relationship detection at scale[J]. International Journal of Computer Vision, 2020, 128(7): 1956-1981.
[34]Wu Hui, Gao Yupeng, Guo Xiaoxiao, et al. Fashion IQ: a new dataset towards retrieving images by natural language feedback[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 11307-11317.
[35]Changpinyo S, Sharma P, Ding N, et al. Conceptual 12M: pushing Web-scale image-text pre-training to recognize long-tail visual concepts[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 3558-3568.
[36]Benenson R, Ferrari V. From colouring-in to pointillism: revisiting semantic segmentation supervision[EB/OL]. (2022). https://arxiv.org/abs/2210.14142.
[37]Sharma P,Ding N,Goodman S, et al. Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 2556-2565.
[38]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9729-9738.
[39]Lu Jiasen, Batra D, Parikh D, et al. VilBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[C]//Advances in Neural Information Processing Systems. 2019.
[40]Li Junnan, Selvaraju R, Gotmare A, et al. Align before fuse: vision and language representation learning with momentum distillation[C]//Advances in Neural Information Processing Systems. 2021: 9694-9705.
[41]Kenton J D M W C, Toutanova L K. BERT: pre-training of deep bidirectional Transformers for language understanding[C]//Proc of NAACL-HLT. 2019: 4171-4186.
[42]Lan Zhenzhong, Chen M, Goodman S, et al. ALBERT: ALite BERT for self-supervised learning of language representations[EB/OL]. (2019). https://arxiv.org/abs/1909.11942.
[43]Yang Zhilin, Dai Zihang, Yang Yiming, et al. XLNet: generalized autoregressive pretraining for language understanding[C]//Advances in Neural Information Processing Systems. 2019.
[44]Joshi M, Chen Danqi, Liu Yihan, et al. SpanBERT: improving pre-training by representing and predicting spans[J]. Trans of the Association for Computational Linguistics, 2020,8: 64-77.
[45]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[46]Wang Wenhui, Bao Hangbo, Dong Li, et al. Image as a foreign language: BEiT pretraining for all vision and vision-language tasks[EB/OL]. (2022). https://arxiv.org/abs/2208.10442.
[47]Bao Hangbo, Dong Li, Piao Songhao, et al. BEiT: BERT pre-training of image transformers[C]//Proc of International Conference on Lear-ning Representations. 2021.
[48]Bao Hangbo, Wang Wenhui, Dong Li, et al. VL-BEiT: generative vision-language pretraining[EB/OL]. (2022). https://arxiv.org/abs/2206.01127.
[49]陳天鵬,胡建文.面向深度學(xué)習(xí)的遙感圖像旋轉(zhuǎn)目標(biāo)檢測(cè)研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2024,41(2):329-340. (Chen Tianpeng, Hu Jianwen. Overview of deep learning for oriented rotating object detection in remote sensing images[J].Application Research of Computers, 2024,41(2):329-340.)
[50]Su Weijie, Zhu Xizhou, Cao Yue, et al. VL-BERT: pre-training of generic visual-linguistic representations[C]//Proc of International Conference on Learning Representations. 2019.
[51]Chen Yenchun, Li Linjie, Yu Licheng, et al. Uniter: universal image text representation learning[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 104-120.
[52]Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 779-788.
[53]Lu Qishou, Liu Chonghua, Jiang Zhuqing, et al. G-CNN: object detection via grid convolutional neural network[J]. IEEE Access, 2017, 5: 24023-24031.
[54]Huang Zhicheng, Zeng Zhaoyang, Liu Bei, et al. Pixel-BERT: aligning image pixels with text by deep multi-modal Transformers[EB/OL]. (2020). https://arxiv.org/abs/2004.00849.
[55]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 3156-3164.
[56]Wang Xiaolong, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7794-7803.
[57]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2020).https://arxiv.org/abs/2010.11929.
[58]Liu Ze, Lin Yutong, Cao Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.
[59]Touvron H, Cord M, Douze M, et al. Training data-efficient image Transformers & distillation through attention[C]//Proc of International Conference on Machine Learning. 2021: 10347-10357.
[60]Graham B, El-Nouby A, Touvron H, et al. LeVIT: a vision Transformer in convnets clothing for faster inference[C]//Proc of IEEE/CVF International Conference on Computer Vision. 2021: 12259-12269.
[61]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Proc of InterSpeech. 2010: 1045-1048.
[62]Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015). https://arxiv.org/abs/1508.01991.
[63]Lin Zhouhan, Feng Minwei, Dos Santos C, et al. A structured self-attentive sentence embedding[C]//Proc of International Conference on Learning Representations. 2017.
[64]Hu Yongli, Chen Puman, Liu Tengfei, et al. Hierarchical attention Transformer networks for long document classification[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press, 2021: 1-7.
[65]Wang Wei, Yan Ming, Wu Chen. Multi-granularity hierarchical attention fusion networks for reading comprehension and question answering[C]//Proc of the 56th Annual Meeting of Association for Computational Linguistics. 2018: 1705-1714.
[66]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspect-level sentiment classification[C]//Proc of the 26th International Joint Conference on Artificial Intelligence. 2017: 4068-4074.
[67]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019). https://arxiv.org/abs/1907.11692.
[68]Faghri F, Fleet D J, Kiros J R, et al. Improving visual-semantic embeddings with hard negatives[EB/OL]. (2017). https://arxiv.org/abs/1707.05612.
[69]Li Gen, Duan Nan, Fang Yuejian, et al. Unicoder-VL: a universal encoder for vision and language by cross-modal pre-training[C]//Proc of AAAI Conference on Artificial Intelligence. 2020: 11336-11344.
[70]Lee K H, Chen Xi, Hua Gang, et al. Stacked cross attention for image text matching[C]//Proc of European Conference on Computer Vision. 2018: 201-216.
[71]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]:PMLR, 2021: 8748-8763.
[72]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks[C]//Proc of the 36th International Confe-rence on Machine Learning.[S.l.]:RMLR, 2019: 6105-6114.
[73]Tan Hao, Bansal M. LXMERT: learning cross-modality encoder representations from Transformers[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019: 5100-5111.
[74]Kiela D,Bhooshan S,F(xiàn)irooz H,et al. Supervised multimodal bitransformers for classifying images and text[EB/OL]. (2019). https://arxiv.org/abs/1909.02950.
[75]Li Xiujun, Yin Xi, Li Chunyuan, et al. Oscar: object-semantics aligned pre-training for vision-language tasks[C]//Proc of the 16th European Conference Computer Vision.Berlin:Springer,2020:121-137.
[76]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019,1(8): 9.
[77]Miyawaki S, Hasegawa T, Nishida K, et al. Scene-text aware image and text retrieval with dual-encoder[C]//Proc of the 60th Annual Meeting of Association for Computational Linguistics: Student Research Workshop. 2022: 422-433.
[78]Li Linjie, Chen Yenchun, Cheng Yucheng, et al. HERO: hierarchical encoder for video+ language omni-representation pre-training[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 2046-2065.
[79]Bao Hangbo, Wang Wenhui, Dong Li, et al. VLMo: unified vision-language pre-training with mixture-of-modality-experts[C]//Advances in Neural Information Processing Systems.2021.
[80]Wu Chenfei, Yin Shengming, Qi Weizhen, et al. Visual ChatGPT: talking, drawing and editing with visual foundation models[EB/OL]. (2023). https://arxiv.org/abs/2303.04671.
[81]Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022,35: 27730-27744.
[82]Houlsby N, Giurgiu A, Jastrzebski S, et al. Parameter-efficient transfer learning for NLP[C]//Proc of International Conference on Machine Learning. 2019: 2790-2799.
[83]Yang Taojiannan, Zhu Yi, Xie Yusheng, et al. AIM: adapting image models for efficient video action recognition[C]//Proc of the 11th International Conference on Learning Representations.2023.
[84]Zhou Kaiyang, Yang Jingkang, Loy C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022,130(9): 2337-2348.
[85]Liu Shikun, Fan Linxi, Johns E, et al. Prismer: a vision-language model with an ensemble of experts[EB/OL]. (2023). https://arxiv.org/abs/2303.02506.
[86]Yu Jiahui, Wang Zirui, Vasudevan V, et al. CoCa: contrastive captioners are image-text foundation models[EB/OL]. (2022-05-04). https://arxiv.org/abs/2205.01917.
[87]Mokady R, Hertz A, Bermano A H. Clipcap: clip prefix for image captioning[EB/OL]. (2021). https://arxiv.org/abs/2111.09734.
[88]Zhou Luowei, Hamid P, Zhang Lei, et al.Unified vision-language pretraining for image captioning and VQA[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:13041-13049.
[89]張浩宇,王天保,李孟擇,等. 視覺語言多模態(tài)預(yù)訓(xùn)練綜述[J].中國(guó)圖象圖形學(xué)報(bào), 2022,27(9):2652-2682. (Zhang Haoyu, Wang Tianbao, Li Mengze, et al. Comprehensive review of visual-language-oriented multimodal pre-training methods[J].Journal of Image and Graphics, 2022,27(9):2652-2682.)
[90]李源,馬新宇,楊國(guó)利,等. 面向知識(shí)圖譜和大語言模型的因果關(guān)系推斷綜述[J].計(jì)算機(jī)科學(xué)與探索, 2023,17(10):2358-2376. (Li Yuan, Ma Xinyu, Yang Guoli, et al. Survey of causal inference for knowledge graphs and large language models[J].Journal of Frontiers of Computer Science and Technology, 2023,17(10):2358-2376.)