国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學習跨模態(tài)圖文檢索研究綜述

2022-03-13 09:18郭瑩瑩范九倫劉繼明
計算機與生活 2022年3期
關鍵詞:圖文檢索模態(tài)

劉 穎,郭瑩瑩,房 杰,2,3,范九倫,3,郝 羽,3,劉繼明

1.西安郵電大學 圖像與信息處理研究所,西安710121

2.陜西省無線通信與信息處理技術國際合作研究中心,西安710121

3.西安郵電大學 電子信息現(xiàn)場勘驗應用技術公安部重點實驗室,西安710121

4.西安郵電大學 通信與信息工程學院,西安710121

多模態(tài)學習(multi-modal learning)旨在處理與理解來自感官情態(tài)的多源信息。近年來,得益于深度學習的快速發(fā)展,多模態(tài)學習逐漸成為熱點課題。

1976 年,文獻[1]提出視覺對言語感知的影響,后被用于視聽語音識別(audio visual speech recognition,AVSR)技術并成為多模態(tài)概念的雛形。自此,多模態(tài)信息處理經過了漫長的發(fā)展。2010 年,以融合方法和融合水平為線索,文獻[2]對已有多模態(tài)融合研究方法進行了分類。2015 年,文獻[3]提出多模態(tài)隱條件隨機場(multi-modal hidden conditional random field,M-HCRF),用以提升多模態(tài)數(shù)據分類效果。文獻[4]提出基于正交正則化約束的深度多模態(tài)哈希(deep multi-modal Hashing with orthogonal regularization,DMHOR)方法,用以減少多模態(tài)表示的信息冗余。2019 年,文獻[5]將多模態(tài)學習主要研究方向分為多模態(tài)表示、多模態(tài)翻譯、多模態(tài)對齊、多模態(tài)融合和多模態(tài)協(xié)同感知等。

目前多模態(tài)學習已被成功應用于人臉識別、人體姿態(tài)估計、多模態(tài)檢索、跨模態(tài)檢索、語義場景理解和情感識別等方面,成為一個潛力巨大且充滿活力的跨學科、跨領域研究熱點。

跨模態(tài)學習是多模態(tài)學習的分支,其充分利用了多模態(tài)學習中模態(tài)間表示、翻譯和對齊等策略。跨模態(tài)學習與多模態(tài)融合的相似之處在于,二者的數(shù)據都來自所有模態(tài),但不同之處在于,前者的數(shù)據只在某一模態(tài)可用,而后者的數(shù)據則用于所有模態(tài)。

跨模態(tài)檢索(cross-modal retrieval)是跨模態(tài)學習的重要應用之一,又稱為跨媒體檢索,其特點是訓練過程中所有模態(tài)的數(shù)據都存在,但在測試過程中只有一種模態(tài)可用??缒B(tài)檢索旨在實現(xiàn)兩個不同模態(tài)之間的信息交互,其根本目的在于挖掘不同模態(tài)樣本之間的關系,即通過一種模態(tài)樣本來檢索具有近似語義的另一種模態(tài)樣本。近年來,跨模態(tài)檢索逐漸成為國內外學術界研究的前沿和熱點,是信息檢索領域未來發(fā)展的重要方向。跨模態(tài)圖文檢索是跨模態(tài)檢索的重要研究方向,定義如下:

對于跨模態(tài)圖文檢索,關鍵字到圖像的檢索因為其本質是查詢關鍵字與圖像的標注注釋之間的匹配,因此被稱為偽“跨模態(tài)”問題。跨模態(tài)圖文檢索以視覺數(shù)據和自然語言描述為基礎,更關注圖像和文本兩種模態(tài)的交互,其目的是在不借助任何輔助信息的情況下,通過文本(圖像)查詢來檢索圖像(文本)。多模態(tài)檢索、跨模態(tài)檢索和跨模態(tài)圖文檢索關系如圖1 所示。

圖1 多模態(tài)、跨模態(tài)檢索和跨模態(tài)圖文檢索關系圖Fig.1 Relationship among multi-modal retrieval,crossmodal retrieval and image-text cross-modal retrieval

跨模態(tài)圖文檢索分為以圖搜文和以文搜圖兩種形式,文獻[9]提出圖像和文本間的語義關系可以定義為三個維度下的八種類別,包含不相關關系、互補關系、相互依賴關系、錨定關系、插圖關系、對比關系、插圖不良關系和錨定不良關系。針對圖像和文本之間復雜的語義交互作用,傳統(tǒng)的跨模態(tài)檢索主要采用統(tǒng)計分析方法,如典型相關性分析方法(canonical correlation analysis,CCA)和跨模態(tài)因子分析方法(cross-modal factor analysis,CFA),其對實際應用場景中不同模態(tài)數(shù)據的復雜相關性難以建模。文獻[12]研究了多媒體信息中文本和圖像的聯(lián)合建模問題,用典型相關分析來學習兩個模態(tài)間的相關性,然而其學習到的都是線性映射,無法有效建立不同模態(tài)數(shù)據的高階相關性。近年來,深度學習(deep learning)的興起為跨模態(tài)圖文檢索提供了新選擇,并逐漸成為該領域的熱點和主流。一方面,相比于傳統(tǒng)方法,深度網絡因其高度非線性結構,更適合對模態(tài)內特征和模態(tài)間語義關系進行挖掘;另一方面,鑒于小批量訓練策略的優(yōu)勢,深度網絡能夠支持對海量數(shù)據的處理?;谏疃葘W習的跨模態(tài)圖文檢索研究因其良好的性能而倍受關注。

當前跨模態(tài)圖文檢索相關技術已被成功應用于網絡輿情事件預警、多媒體事件檢測、醫(yī)學數(shù)據分類等領域。

此外,近年來,國內外已有不少跨模態(tài)檢索相關文獻及綜述對該主題研究狀況進行了呈現(xiàn)。

2014 年,文獻[15]將跨模態(tài)建模策略分為直接建模和間接建模,前者指通過建立共享層來直接度量不同模態(tài)數(shù)據間的相關性,后者指通過構建公共表示空間來建立不同場景不同模態(tài)間的語義關聯(lián)。類似地,2015 年,文獻[16]將多模態(tài)數(shù)據間建立關聯(lián)的策略分為基于共享層與基于公共表示空間的兩種關聯(lián)方法,該文獻對跨模態(tài)深度學習模型的設計進行了深入分析。2016 年,文獻[17]將已有的跨模態(tài)檢索方法歸納為實值表示學習和二進制表示學習兩大類,并總結了各自的核心思想。2018 年,文獻[18]針對模態(tài)間內容相似性度量的技術難點,將跨模態(tài)檢索分為公共空間學習方法和跨模態(tài)相似性度量方法,并對不同跨模態(tài)檢索技術進行總結。2018 年,文獻[7]將跨模態(tài)檢索方法分為基于子空間的方法、基于深度學習的方法、基于哈希變換的方法和基于主題模型的方法,指出當前跨模態(tài)檢索面臨的主要問題是缺乏對模態(tài)內局部數(shù)據結構和模態(tài)間語義結構關聯(lián)的研究。同年,文獻[19]從信息抽取與表示、跨模態(tài)系統(tǒng)建模兩個維度評述了基于表示學習的跨模態(tài)檢索模型,并總結了特征抽取方面的研究成果。2018 年,文獻[20]探索了聯(lián)合圖正則化的跨模態(tài)檢索方法。2019 年,文獻[21]簡要介紹了近年來跨模態(tài)特征檢索及優(yōu)化的研究進展,并對跨模態(tài)數(shù)據聯(lián)合分析方法及跨模態(tài)特征檢索面臨的問題與挑戰(zhàn)進行了概述。文獻[20-21]對跨模態(tài)檢索方法的具體分支進行了梳理,為相關領域的探索提供了新思路。

以上文獻從不同角度對跨模態(tài)檢索進行了梳理與描述,本文更聚焦于針對圖像-文本的跨模態(tài)檢索。當前,該領域相關成果歸納如下:2017 年,文獻[22]將跨模態(tài)圖文檢索的研究內容分為多模態(tài)數(shù)據特征表示和模態(tài)間關聯(lián)機制兩方面。2019 年,文獻[23]根據構建模態(tài)間關聯(lián)方式的區(qū)別,將跨模態(tài)圖文檢索分為基于典型關聯(lián)分析、基于深度學習和基于深度哈希的方法,并就各種跨模態(tài)關聯(lián)方式的缺陷探索了具體的解決思路。2021 年,文獻[24]重點對跨模態(tài)圖文檢索的各種研究工作進行了對比評述,并從文獻計量的角度分析了該領域文獻的發(fā)表情況,同時也對跨模態(tài)檢索領域的實際應用做了簡要介紹,然而,基于深度學習的方法只是其框架中的分支之一,并未詳盡介紹其發(fā)展狀況。同文獻[24]相比,本文除涵蓋了實值表示和二進制表示的方法外,更進一步以多模態(tài)學習為背景,以深度學習技術為支撐,對基于深度學習的跨模態(tài)圖文檢索現(xiàn)有的研究成果進行了總結。相比于已有綜述,本文主要有以下突破:(1)聚焦于近年來最新基于深度學習的跨模態(tài)檢索研究,彌補了現(xiàn)有文獻的不足;(2)著重分析公安、傳媒及醫(yī)學三大領域對跨模態(tài)圖文檢索的具體應用。

1 跨模態(tài)圖文檢索相關工作介紹

本章主要對跨模態(tài)圖文檢索不同算法中涉及到的幾個重要概念和常用網絡結構進行介紹。

1.1 相關概念

現(xiàn)有跨模態(tài)圖文檢索不同算法過程中涉及到幾個重要概念,現(xiàn)對這些概念進行介紹。

(1)跨模態(tài)重構

在給定跨模態(tài)數(shù)據的情況下聯(lián)結輸入特征表示,然后相互重構各模態(tài)數(shù)據且保留重構信息,最后比較重構信息與原始信息相似性的過程。

(2)細粒度數(shù)據

指信息非常詳細具體的數(shù)據。數(shù)據粒度指數(shù)據的詳細程度,粒度越小,數(shù)據的信息越具體,越容易在機器學習中把握數(shù)據的規(guī)律與本質。

(3)無監(jiān)督學習

指事先沒有任何訓練數(shù)據樣本而需要直接對數(shù)據建模的學習方法。無監(jiān)督學習僅使用共現(xiàn)信息來學習跨模態(tài)數(shù)據的公共表示。共現(xiàn)信息指在多模態(tài)文檔中所共存的不同形式的數(shù)據具有相同的語義。

(4)監(jiān)督學習

指通過有標記的訓練數(shù)據來推斷或建立一個最優(yōu)模型的學習方法。監(jiān)督學習利用標簽信息來學習公共表示,強制不同類別樣本的學習表示距離盡可能遠,而相同類別樣本的學習表示盡可能接近。

(5)端到端學習(end-to-end learning)

也稱端到端訓練,指在學習過程中縮減人工預處理和后續(xù)處理,使模型從原始輸入直接到最終輸出。其訓練數(shù)據為“輸入-輸出”對的形式,無需提供其他額外信息。端到端學習為模型提供了更多根據數(shù)據自動調節(jié)的空間,增加了模型的整體契合度。

1.2 相關網絡結構

跨模態(tài)圖文檢索在深度學習領域主要涉及七種網絡結構,現(xiàn)對這七種網絡結構做如下介紹。

深度自編碼器模型(deep autoencoder,DAE)由一個編碼器和一個生成重構的解碼器組成。深度自編碼器可以產生對輸入進行刻畫的編碼,其通常用于跨模態(tài)重構,從而發(fā)現(xiàn)跨模態(tài)相關性。

深度信念網絡(deep belief nets,DBN)由Hinton在2006 年提出,該網絡既可以被視為自編碼器進行非監(jiān)督學習,也可以被視為分類器進行監(jiān)督學習。

受限玻爾茲曼機模型(restricted Boltzmann machine,RBM)可用于跨模態(tài)重建。2012 年,Srivastava等人提了一種由多種模態(tài)輸入組成的深度玻爾茲曼機,該模型可實現(xiàn)模態(tài)融合與統(tǒng)一表示,也可應用于分類識別和信息檢索任務。

注意力機制模型最早提出于視覺圖像領域中,2015 年DeepMind 團隊將其引入到循環(huán)神經網絡(recurrent neural network,RNN)模型進行圖像分類,取得了良好的效果。目前大多數(shù)注意力模型在跨模態(tài)圖文檢索中用于對模態(tài)局部特征的表示,以及對不同模態(tài)片段的對齊,有助于挖掘模態(tài)間細粒度的對應關系,并在一定程度上能夠彌補模態(tài)數(shù)據缺失的問題。

生成對抗網絡(generative adversarial networks,GAN)能夠通過兩個模塊的互相博弈得到良好的輸出。在跨模態(tài)圖文檢索任務中,生成對抗網絡一般通過圖片和文本相互對抗,使數(shù)據間的潛在關系及語義結構被更好地保留,同時生成過程可以學習強大的跨模態(tài)特征表示,從而增強跨模態(tài)語義一致性。

卷積神經網絡(convolutional neural networks,CNN)廣泛應用于跨模態(tài)圖文檢索中,是深度學習的代表算法之一。經典的卷積神經網絡模型有AlexNet、GoogLeNet、VGGNet、ResNet以 及DenseNet等,常用框架有Caffe、Torch及Tensorflow等。其優(yōu)點在于對高維數(shù)據的處理能力強、特征分類效果良好,具有強大的特征表示能力;缺點是依賴于大規(guī)模標記樣本和復雜的調參過程??缒B(tài)圖文檢索中常用的卷積神經網絡模型有ResNet、AlexNet等。

長短期記憶網絡(long short-term memory,LSTM)可以有效地將短時記憶與長時記憶相結合,借此聯(lián)合學習數(shù)據的上下文信息。在跨模態(tài)圖文檢索任務中,需首先確定從單元狀態(tài)中被遺忘的信息,進而確定能夠被存放到單元狀態(tài)中的信息,最后通過tanh 的單元狀態(tài)乘以輸出門,用于確定輸出的部分。

此外,雙向遞歸神經網絡(bidirectional recurrent neural network,BRNN)、基于字嵌入(矢量)的卷積神經網絡(word embedding (vector)based convolutional neural network,WCNN)、循環(huán)神經網絡、遞歸神經網絡(recursive neural network,RNN)、區(qū)域卷積神經網絡(region convolutional neural network,RCNN)等也被廣泛應用于跨模態(tài)圖文檢索的特征提取任務中。

2 跨模態(tài)圖文檢索算法研究現(xiàn)狀

對基于深度學習的跨模態(tài)圖文檢索,為確保檢索準確度,需解決的主要問題是模態(tài)間底層數(shù)據特征異構而導致的語義鴻溝;除此之外,出于對快速檢索的需求,跨模態(tài)圖文檢索效率的提升也是當前的研究熱點。因此,基于跨模態(tài)圖文檢索的準確度和效率,目前流行的算法可以被分為兩類:實值表示學習和二進制表示學習。實值表示學習方法通常具備高準確率,且更關注圖像和文本間的語義匹配問題,旨在學習一個實值公共表示空間,在該空間中不同模態(tài)的數(shù)據其通用表示是實值的。二進制表示學習也稱為跨模態(tài)哈希,通常用于加速跨模態(tài)檢索,其將不同模態(tài)的數(shù)據映射到一個共同的漢明空間,但此類方法的二值化過程通常會導致檢索精度的降低。本章主要圍繞深度學習技術介紹近幾年跨模態(tài)圖文檢索領域的相關工作,其研究現(xiàn)狀分類如圖2所示。

圖2 基于深度學習的跨模態(tài)圖文檢索的研究現(xiàn)狀分類圖示Fig.2 Research status of image-text cross-modal retrieval based on deep learning

2.1 實值表示學習方法

實值表示學習方法通??梢杂行Ы档蛨D像與文本間的語義鴻溝,進而確保檢索準確性,其旨在為不同形式的數(shù)據學習稠密特征表示。目前流行的基于深度學習的實值表示跨模態(tài)圖文檢索方法可分為兩類:基于特征表示的方法和基于圖文匹配的方法。前一類方法聚焦于對不同模態(tài)間特征進行建模,以良好的特征提取來有效解決不同模態(tài)數(shù)據特征的異構問題,從而保障檢索準確度;后一類方法則關注圖像和文本模態(tài)間的語義對應關系,旨在通過減小語義鴻溝以提高圖文匹配的準確性,從而提高檢索的準確度。

特征提取是影響跨模態(tài)圖文檢索準確度的重要因素,多模態(tài)信息的引入使得對不同模態(tài)數(shù)據進行建模成為解決跨模態(tài)圖文檢索異構鴻溝問題的關鍵,基于特征表示的方法將基于深度學習的單模態(tài)特征提取算法應用在跨模態(tài)圖文檢索中,以便對不同模態(tài)間特征進行建模。

在基于特征表示的方法中,一些研究者建立了基于最大似然準則的學習框架,通過反向傳播和隨機梯度下降來優(yōu)化網絡參數(shù)。針對模態(tài)特定的特征,文獻[8]提出了模態(tài)針對型深層結構模型(modalityspecific deep structure,MSDS)。該模型使用CNN 和WCNN 分別提取圖像和文本表示,通過使用標準反向傳播技術來更新CNN 與WCNN 的參數(shù)。WCNN可以處理不同長度的序列并獲取具有相同維度的結果特征向量,能夠有效提取文本特征。實驗表明,大規(guī)模數(shù)據集時模態(tài)特定特征學習能夠更好地提取輸入模態(tài)表示,且WCNN的文本特征提取能力優(yōu)于深度CNN。更進一步,在文獻[8]基礎上,文獻[46]提出了基于深度雙向表示學習模型(deep and bidirectional representation learning model,DBRLM)的方法,利用文本描述中的序列和結構信息對特征進行增強,利用雙向結構探索匹配與不匹配圖像文本對的關系,增加了匹配對的相似性。實驗對比發(fā)現(xiàn),雙向表示模型比只考慮單向模態(tài)不匹配對的情況有更好的效果,且該方法在匹配數(shù)據中能夠學習豐富的鑒別信息。

針對單標簽或多標簽樣本跨模態(tài)圖文檢索問題,為了更好地彌合圖像和相應語義概念間的差距,文獻[47]使用了深度卷積激活特征描述子(deep convolutional activation feature,DeCAF),將CNN 實現(xiàn)產生的1 000維度預測得分作為ImageNet的輸入視覺特征。實驗表明,DeCAF 可以使學習到的視覺特征具有足夠的表征能力,特征提取效果良好。由于預訓練的CNN 模型可以被直接遷移以提取圖像視覺特征,針對同一問題,文獻[48]對預訓練的CNN 模型進行微調,提出了深度語義匹配方法(deep semantic matching,deep-SM),對不同的目標數(shù)據集采用不同的損失函數(shù),使用微調的CNN 和訓練的全連接神經網絡將圖像和文本投影到高抽象級別的同構語義空間中。實驗表明,微調的方法可以提高其對目標數(shù)據集的適應性,有效降低圖像與相應語義之間的鴻溝。文獻[49]利用同一思路,通過微調深度CNN 模型對圖像生成視覺嵌入,有效避免了部分語義信息的丟失。

基于特征表示的方法一般通過兩種方式來獲取更好的跨模態(tài)輸入特征:第一種針對不同應用場景,采用特殊的網絡結構或提取特定的特征來獲得圖像文本表示;第二種方法則對經典的CNN 模型進行微調改進。該類方法尤其對大規(guī)模、多標簽數(shù)據集有良好的適應性,可以為未來跨模態(tài)檢索提供更有效的設計思路。然而,目前研究者在該類方法中更傾向于對視覺特征的探索,文本數(shù)據在跨模態(tài)語義特征提取過程中并沒有得到很好的研究。因此,探索更合適的神經網絡以建立文本數(shù)據由低級特征到高級語義之間的映射是該類方法所面臨的挑戰(zhàn)。

基于特征表示的方法面向跨模態(tài)原始數(shù)據,其關注點在于獲得更好的輸入特征,通過模態(tài)特征學習減小模態(tài)異構問題;相比于基于特征表示的方法,基于圖文匹配的方法更關注于不同模態(tài)間的結構關聯(lián),此類方法通過研究圖像和文本模態(tài)間的語義對應關系來增強模態(tài)間特征表示的一致性。

目前主流的基于圖文匹配的方法按照模態(tài)間語義結構關聯(lián)的不同可分為三類:圖像-文本對齊的方法、跨模態(tài)重構的方法和圖文聯(lián)合嵌入的方法。

(1)圖像-文本對齊的方法

圖像-文本對齊的方法一般通過學習同一實例不同模態(tài)特征之間的關系來推斷句子片段與圖像區(qū)域之間的潛在對齊,進而實現(xiàn)圖文匹配。

為了對圖像內容及其在自然語言領域的表示同時進行推理,文獻[50]提出了多模態(tài)雙向遞歸神經網絡結構,其核心觀點是將句子視為豐富的標簽空間,使連續(xù)的單詞片段對應于圖像中某個特定但未知的位置。該模型能夠實現(xiàn)對小區(qū)域或相對罕見對象的視覺語義對應關系的解釋,在圖像-句子排序實驗中有良好的性能表現(xiàn)。進一步,通過結合圖像表示和自然語言處理的研究進展,為了回答關于圖像的自然語言問題,文獻[51]將問題意圖推理、視覺場景理解與單詞序列預測任務結合起來,提出了Neural-Image-QA 模型,其中問題與視覺表征一起被輸入LSTM 進行聯(lián)合訓練,其語言輸出取決于視覺和自然語言輸入,通過單詞和像素的端到端訓練,獲取了良好的匹配結果。實驗表明該方法在“單字”變體情況下能實現(xiàn)最佳性能。

由于圖像-文本對齊的方法更關注局部精細的信息,也常用于細粒度的跨模態(tài)圖文檢索任務。文獻[52]針對服裝領域提出了FashionBERT 模型,相比于感興趣區(qū)域(region of interest,RoI)模型,時尚文本傾向于描述更精細的信息。因此,F(xiàn)ashionBERT 模型由BERT(bidirectional encoder representations from transformers)模型引申得到。BERT 是一種雙向注意力語言模型,作為Transformer在自然語言處理任務的變體之一,其主要作用是對單模態(tài)文本數(shù)據進行編碼。FashionBERT 在提取圖像表示時將每個圖像分割成相同像素的補丁,作為BERT 模型的序列輸入,在匹配時將文本標記和圖像補丁序列進行連接。實驗表明該方法可以在一定程度上掩蓋圖像中不相關的信息,減小了檢測到無用和重復區(qū)域的可能性。

此外,由于注意力機制模型在圖像-文本對齊方法中的良好表現(xiàn),文獻[55]提出了堆疊交叉注意力模型(stacked cross attention network,SCAN)。該模型對圖像RoI 和文本標記執(zhí)行跨模態(tài)匹配,利用注意力機制將每個片段與來自另一模態(tài)的所有片段對齊,以區(qū)分單詞及圖像區(qū)域的被關注度,有助于捕捉視覺和語言間的細粒度相互作用,增強匹配能力。該方法可以靈活地發(fā)現(xiàn)細粒度對應關系,在多個基準數(shù)據集上都獲得了最佳性能。

然而,基于注意力機制的方法大多忽略了全局上下文中出現(xiàn)的多種語義情況。基于此,文獻[56]提出了語境感知注意力網絡(context-aware attention network,CAAN),根據全局上下文有選擇地關注信息量最大的局部片段,綜合了模態(tài)間和模態(tài)內注意過程,同時執(zhí)行圖像輔助的文本注意和文本輔助的視覺注意,很好地聚合了上下文信息,捕捉了潛在的模態(tài)內相關性,實驗表明自適應檢索過程中考慮特定上下文能夠幫助模型獲得更好的檢索結果。類似地,針對語義模型的復雜性,文獻[57]提出了基于循環(huán)注意記憶的迭代匹配(iterative matching with recurrent attention memory,IMRAM)方法,該方法通過迭代匹配方案逐步更新跨模態(tài)注意力核心,挖掘圖文間細粒度的對應關系。如圖3 所示,該模型首先通過跨模態(tài)注意單元估計V 和T 兩組特征點之間的相似度;然后通過記憶提取單元細化注意力結果,深化潛在對應關系,以便為下一次比對提供更多信息。在個匹配步驟之后,該方法通過對匹配分數(shù)求和得出圖文之間的相似度。實驗表明=3 比=2 有更好的表現(xiàn),證明了迭代匹配方案有效地提高了檢索性能。

圖3 IMRAM 模型框架Fig.3 Framework of IMRAM model

可以看出,圖像-文本對齊的方法更加關注圖像和文本的局部區(qū)域片段信息。此類方法的優(yōu)勢在于,通過注意力機制等方式,能夠獲得更好的細粒度語義區(qū)分能力,有效解決多語義、圖像問答、圖像描述和細粒度交互等問題,進而提高了圖文匹配的準確度,具有良好的檢索性能。然而,此類方法由于更多聚焦于局部信息,對數(shù)據集的規(guī)模和質量以及模型的精細度會有更高的要求,且大多并不適用于全局信息的匹配。如何在保證局部片段信息良好對齊的前提下實現(xiàn)圖文整體的準確匹配仍是目前需要研究的方向。

(2)跨模態(tài)重構的方法

與圖像-文本對齊的方法關注局部信息的方式不同,跨模態(tài)重構的方法更關注全局信息,此類方法通常利用一種模態(tài)信息來重構對應模態(tài),同時保留重建信息,能夠增強跨模態(tài)特征一致性及語義區(qū)分能力。

由于跨模態(tài)相關性是高度非線性的,而RBM 很難直接對這種相關性進行學習。基于此,考慮在每個模態(tài)的預訓練層上訓練RBM 的方法,文獻[58]提出不同模態(tài)數(shù)據共享權重的雙模深度自編碼器模型,在僅給定視頻數(shù)據的情況下進行跨模態(tài)重建,從而發(fā)現(xiàn)跨模態(tài)的相關性。在此研究基礎上,文獻[59]提出了一種圖像字幕生成的方法,引入了結構-內容神經語言(structure-content neural language model,SCNLM)模型,SC-NLM 通過編碼器學習圖像句子聯(lián)合嵌入,并根據編碼器產生的分布式表示,將句子的結構與內容分離,再通過解碼器生成新的字幕。該模型有效地統(tǒng)一了聯(lián)合圖像-文本嵌入模型和多模態(tài)神經語言模型,實現(xiàn)了對圖像和字幕的排序及新字幕的生成。

此外,由于源集和目標集實例在不可擴展跨模態(tài)檢索任務中通常被假定共享相同范圍的類,當二者實例具有不相交的類時,難以取得理想的檢索結果。針對此問題,文獻[60]提出了模態(tài)對抗語義學習網絡(modal-adversarial semantic learning network,MASLN),其中,跨模態(tài)重構子網絡通過條件自編碼器相互重建各模態(tài)數(shù)據,實現(xiàn)從源集到目標集的知識轉移,使跨模態(tài)分布差異最小化;模態(tài)對抗語義學習子網絡通過對抗性學習機制產生語義表征,使學習到的公共表示對語義有區(qū)別而對模態(tài)無區(qū)別。實驗表明,該方法在可擴展和不可擴展的檢索任務中結果都優(yōu)于其他方法,有效縮小了不同模態(tài)之間的異質性差距。該網絡流程圖如圖4 所示。

圖4 MASLN 模型框架Fig.4 Framework of MASLN model

為了克服對嵌入空間的需求,文獻[61]提出了循環(huán)一致圖文檢索網絡(cycle-consistent text and image retrieval network,CyTIR-Net),將圖文檢索問題表述為文本和視覺轉換的問題。該方法利用文本項和視覺特征的相互翻譯建立重構約束,如圖5 所示,txt2img和img2txt模型分別實現(xiàn)了圖像和文本域之間的前向和后向轉換,確保重構的文本或圖像與原始文本或圖像向量相似,并包含足夠的重構信息。實驗表明該方法對中小型數(shù)據集表現(xiàn)更好,良好地展示了循環(huán)一致性約束的正則化能力和網絡的泛化能力,以及增強模型在跨模態(tài)檢索中的場景辨別能力。

圖5 CyTIR-Net網絡架構Fig.5 Network architecture of CyTIR-Net

跨模態(tài)重構的方法利用深度自編碼器等方式,有效縮小了模態(tài)間的異構性差異,增強了語義辨別能力。此類方法對數(shù)據集的訓練及其規(guī)模要求并不高,注釋成本低,更適用于中小型數(shù)據集,具有可擴展性,多用于圖像字幕生成等任務。然而,此類方法在模型訓練過程中容易忽略細節(jié)信息,對目標數(shù)據集成對相關性的表現(xiàn)度不足。因此,如何在縮小模態(tài)間統(tǒng)計差距的前提下,共同學習局部文本與圖像信息的對齊,并據此來動態(tài)地調節(jié)模態(tài)間的生成過程,是目前此類方法所面臨的挑戰(zhàn)。

(3)圖文聯(lián)合嵌入的方法

相比于圖像-文本對齊的方法和跨模態(tài)重構的方法,圖文聯(lián)合嵌入的方法一般結合了全局和局部信息作為語義特征的嵌入,因此能夠學習到更好的特征判別性。此類方法一般通過圖像和文本模態(tài)數(shù)據的聯(lián)合訓練及語義特征的嵌入來學習圖像文本的相關性,進而實現(xiàn)圖文匹配。

針對模態(tài)特征的不一致性導致的跨模態(tài)遷移困難的問題,文獻[62]使用弱對齊的數(shù)據來學習具有強對齊的跨模態(tài)表示,在共享層使用多層感知器將文本信息映射到與視覺模態(tài)相同維度的表示空間中。該模型同時用到了微調和統(tǒng)計正則化的方法,可以在訓練數(shù)據沒有明確對齊的情況下跨模態(tài)檢測相同的概念,具有良好的檢索性能。為了尋找公共表示空間來直接比較不同模態(tài)的樣本,文獻[63]提出了深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)方法,通過最小化樣本在標簽空間和公共表示空間中的判別損失來監(jiān)督模型學習判別特征,以保持不同類別語義樣本間的區(qū)分度,并使用權重共享策略來消除多媒體數(shù)據在公共表示空間中的跨模態(tài)差異。相比以往的方法,DSCMR 的學習策略可充分利用成對標簽信息和分類信息,有效學習了異構數(shù)據的公共表示。

值得注意的是,盡管以上方法已考慮到不同模態(tài)到公共空間的特征映射,但這種映射函數(shù)僅關注于學習模態(tài)內或模態(tài)間的區(qū)分特征,而未能在跨模態(tài)學習方法中充分利用語義信息。

為此,文獻[14]提出了基于正則化跨模態(tài)語義映射的深度神經網絡(regularized deep neural network,RE-DNN),通過施加模態(tài)內正則化,進而獲得一個聯(lián)合模型來捕捉不同輸入之間的高度非線性關系。該模型在語義層同時捕獲模態(tài)內和模態(tài)間的關系,且所學習的深層架構能夠通過停用部分網絡來解決模態(tài)缺失問題,具有良好處理不成對數(shù)據的能力。該算法僅需要很少的模型訓練先驗知識,且對大規(guī)模數(shù)據集可擴展。進一步,為了減小低級視覺特征和高級用戶概念之間的“認知鴻溝”,文獻[49]提出了多感官融合網絡(multi-sensory fusion network,MSFN)聯(lián)合模型,將同維CNN 視覺嵌入和LSTM 描述嵌入看作人類的兩種感官,從人類感知角度將視覺和描述性感官相結合。在測試集中的所有圖像和文本映射到公共語義空間后,跨模態(tài)檢索被轉化為用傳統(tǒng)相似性度量評估的同構檢索問題,該方法通過最小化類別損失函數(shù)挖掘了跨模態(tài)豐富的語義相關性。

此外,圖文聯(lián)合嵌入方法通常會學習內嵌式嵌入函數(shù)(injective embedding functions),對于具有歧義的實例,內嵌函數(shù)尋找單個點會嚴重限制其在現(xiàn)實世界中的應用。對此,文獻[64]引入了多義實例嵌入網絡(polysemous instance embedding networks,PIE Nets),如圖6所示,通過結合輸入的全局和局部信息來提取每個實例的個嵌入,同時使用局部Transformer模塊關注輸入實例的不同部分,獲得局部引導特征表示,并利用殘差學習將局部和全局表示結合起來,進而提升特征的判別性。針對內嵌函數(shù)學習某一模態(tài)只能表示對應模態(tài)的部分信息,進而導致被忽略信息在映射點丟失的問題,文獻[64]還提出了多義視覺語義嵌入方法(polysemous visual-semantic embedding,PVSE),在多實例學習框架中對圖像和文本PIE 網絡進行聯(lián)合優(yōu)化,且該方法通過最大平均差異(maximum mean discrepancy,MMD)來最小化兩個嵌入分布之間的差異。實驗表明了殘差學習和多實例學習對于實例語義模糊數(shù)據檢索的重要性。

圖6 多義視覺語義嵌入體系結構Fig.6 Architecture of polysemous visual-semantic embedding

同樣為解決多義實例問題,文獻[65]提出了生成式跨模態(tài)學習網絡(generative cross-modal feature learning,GXN),將基礎表示和抽象表示相結合。除了全局語義層的跨模態(tài)特征嵌入外,GXN 還引入了圖像到文本和文本到圖像兩種生成模型的局部跨模態(tài)特征嵌入,通過生成過程來學習全局抽象特征及局部基礎特征。該方法能夠有效處理多義實例問題,并能夠檢索具有局部相似性的圖像或具有詞級相似性的句子。另一方面,通過引入GAN 網絡的對抗思想,文獻[66]提出了對抗式跨模態(tài)檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機制下執(zhí)行語義學習,其中,特征投影器從公共子空間中的不同模態(tài)生成模態(tài)不變表示,模態(tài)分類器根據生成的表示來區(qū)分不同的模態(tài),并以這種方式引導特征投影器的學習。通過對特征投影器施加三元組約束,將具有相同語義標簽的跨模態(tài)表示差異最小化,同時最大化具有不同語義的圖像文本之間的距離。該方法在跨模態(tài)數(shù)據被投影到公共子空間中時,數(shù)據的潛在語義結構被更好地保留。

圖文聯(lián)合嵌入的方法更關注對高級語義信息的探索。此類方法一般利用生成對抗等思想,通過最小化判別損失函數(shù)和模態(tài)不變性損失等方式挖掘豐富的語義相關性,能夠很大程度上消除跨模態(tài)異構差異,減小“語義鴻溝”及“認知鴻溝”,有效解決多義實例、模態(tài)缺失等問題,并能良好地捕獲成對信息相關性,提高圖文匹配的準確度和可擴展性,具有很好的檢索性能。

2.2 二進制表示學習方法

實值表示學習方法具有良好的語義區(qū)分能力,能夠很大程度上減小“語義鴻溝”及“認知鴻溝”,因此其檢索準確性一般很好,但對于一些對檢索效率要求高的任務場景,實值表示學習并不適用。相比于實值表示學習方法,二進制表示學習方法在檢索效率上具有優(yōu)勢,其在保證準確率波動幅度可控的前提下,可顯著提升檢索速度。

二進制表示學習方法將跨模態(tài)數(shù)據投影到一個公共漢明空間,目的在于給相似的跨模態(tài)內容賦予相似的哈希碼。

近十年來,基于二進制表示學習的方法不斷取得突破性進展與成果。2009 年,深度哈希算法由Hinton研究組提出。2014 年,文獻[68]提出了卷積神經網絡哈希(convolutional neural network Hashing,CNNH)模型,使基于CNN 的深度哈希算法開始受到關注。2015 年,文獻[69]提出二進制哈希碼的深度學習(deep learning of binary Hash codes,DLBHC)方法,利用深度CNN 的增量學習特性,以點的方式進行編碼和圖像表示,同時學習特定圖像表征和類似哈希的函數(shù),實現(xiàn)了快速圖像檢索并使其適用于大規(guī)模數(shù)據集。此外,為了進一步探索多標簽關聯(lián)圖像的復雜多級語義結構,文獻[70]提出深度語義哈希排序(deep semantic ranking Hashing,DSRH)方法,利用深度CNN 與列表排序監(jiān)督哈希,共同學習特征表示和從它們到哈希碼的映射,避免了傳統(tǒng)方法特征語義表示能力不足的限制。

基于二進制表示學習方法由于二進制哈希碼較短,有利于在現(xiàn)實世界中對大規(guī)模數(shù)據的處理,因而被廣泛應用于跨模態(tài)圖文檢索任務中。

為確保哈希碼和不同信息源所設計哈希函數(shù)的一致性,文獻[71]提出了多源信息復合哈希算法(composite Hashing with multiple information sources,CHMIS),通過調整權重的信息集成方法(CHMIS with adjusted weights,CHMIS-AW)調整每個單獨源的權重,將來自不同源的信息集成到二進制哈希碼中,進而最大化編碼性能,保留了訓練示例之間的語義相似性。

在基于深度哈希的跨模態(tài)圖文檢索算法中,一些研究者使用了端到端的方法。針對不同模態(tài)的異構性,文獻[72]提出了深度視覺語義哈希(deep visual semantic Hashing,DVSH)模型,該模型是首個跨模態(tài)哈希的端到端學習方法,設計了學習圖文聯(lián)合嵌入的視覺語義融合網絡,以橋接不同模態(tài)及兩個模態(tài)特定的哈希網絡,其生成的緊湊哈希碼能夠捕捉視覺數(shù)據和自然語言之間的內在對應關系,進而獲取判別性特征,且該模型有效克服了傳統(tǒng)融合網絡對雙峰對象聯(lián)合嵌入的需求,更適用于高精度的應用程序。針對跨模態(tài)哈希(cross-modal Hashing,CMH)手工制作特性與哈希碼學習不能良好兼容的問題,文獻[73]介紹了跨模態(tài)深度哈希算法(deep crossmodal Hashing,DCMH),將特征學習和哈希碼學習集成到同一端到端學習框架,通過同時對不同類型樣本對施加約束使相似樣本間相互靠近,從而保證模態(tài)間的對齊,且DCMH 直接學習離散的哈希碼,避免了檢索準確性的降低,提高了檢索性能。

為了彌補模態(tài)差異以進一步提高檢索準確度,文獻[74]提出了自我監(jiān)督的對抗式哈希方法(selfsupervised adversarial Hashing,SSAH),將對抗式學習以自監(jiān)督方式結合到跨模態(tài)哈希中,由自監(jiān)督語義生成網絡(LabNet)和圖像文本對抗網絡(ImgNet和TexNet)組成。其中,自監(jiān)督語義生成網絡用來監(jiān)督兩個模態(tài)的語義空間以及對抗性學習。兩個對抗網絡用來共同學習不同模態(tài)的高維特征及其對應的哈希碼。實驗表明,SSAH 比DCMH 減少了90%的訓練時間,且SSAH 學習了更充分的監(jiān)督信息,可以捕獲不同模態(tài)間更精確的相關性。

針對跨模態(tài)哈希在有限數(shù)量標記樣本上容易過擬合以及高維輸入轉換成二進制代碼導致的信息丟失問題,文獻[75]提出了循環(huán)一致的深層生成哈希算法(cycle-consistent deep generative Hashing,CYC-DGH),通過循環(huán)一致的對抗學習在沒有成對對應的情況下學習耦合的生成哈希函數(shù)。該算法通過深度生成模型從哈希碼中重新生成輸入,使學習到的哈希碼最大限度地關聯(lián)每個輸入-輸出對應關系,且哈希嵌入過程中的信息損失被最小化,有效壓縮了輸入數(shù)據,同時能夠最大限度地保留自身信息及不同模態(tài)樣本間的關系,對減小哈希函數(shù)間的模態(tài)差異有良好表現(xiàn)。

二進制表示學習方法更側重解決模態(tài)特征異構引起的模態(tài)差異問題,運用端到端、生成對抗等思想,致力于最大化特征分布的一致性。此類方法還有效解決了過擬合等問題。然而由于此類方法在二值化過程中會導致信息的丟失以及原有結構被破壞,考慮模態(tài)內數(shù)據結構和模態(tài)間結構匹配的關聯(lián),優(yōu)化計算等是目前需要研究的方向。

2.3 小結

本節(jié)主要介紹了現(xiàn)有基于深度學習的跨模態(tài)圖文檢索算法。針對檢索的準確度與檢索效率,分別從實值表示學習和二進制表示學習兩個方法出發(fā),對不同跨模態(tài)圖文檢索方法的研究現(xiàn)狀進行了分類總結。表1、表2、表3 從類別、代表性方法、特點和適用場景四方面對一些具有重要作用的跨模態(tài)檢索算法進行了對比分析。

表1 基于特征表示的代表性方法總結Table 1 Summary of representative methods based on feature representation

表2 基于圖文匹配的代表性方法總結Table 2 Summary of representative methods based on image-text matching

表3 二進制表示學習代表性方法總結Table 3 Summary of representative methods of binary representation learning

3 常用數(shù)據集及評價指標

3.1 常用數(shù)據集

對于圖像和文本等單模態(tài)或跨模態(tài)的信息處理一般都需要數(shù)據集來進行評估。高質量的數(shù)據集可以使神經網絡充分學習各種潛在知識,同時避免神經網絡的過擬合等問題。目前跨模態(tài)圖文檢索中常用的數(shù)據集有以下幾種。

(1)NUS-WIDE

NUS-WIDE 是由新加坡國立大學多媒體檢索實驗室創(chuàng)建的網絡圖像數(shù)據集,其圖像主要來源于Flickr 網站。該數(shù)據集包括了269 648 幅圖像,平均每幅圖像帶有2~5 個標簽語句,其中獨立標簽共有5 018 個。該數(shù)據集只局限于圖像和文本兩種模態(tài),常用于跨模態(tài)哈希中?;谶@個數(shù)據集,可以探索有關于網絡圖像注釋和檢索的研究問題。

(2)MSCOCO

COCO 數(shù)據集是微軟團隊發(fā)布的一個可以用于識別、分割和圖像語意描述等任務的數(shù)據集。該數(shù)據集以場景理解為目標,其圖像內容主要從復雜的日常場景中截取而來。該數(shù)據集是一個大規(guī)?;诰渥拥膱D像描述數(shù)據集,包含了123 287 幅圖像,且每幅圖像至少包含5 句對應的語句描述。數(shù)據集中的圖像來自91 個不同類別,包含了328 000 種影像和2 500 000 個標簽。雖然COCO 數(shù)據集比ImageNet 類別少,但是各類別包含的圖像多,有利于獲得更多不同類別中的特定場景。

(3)Flickr30k

Flickr 數(shù)據集由雅虎發(fā)布,由1 億幅圖像和70 萬個視頻的統(tǒng)一資源定位器(uniform resource locator,URL)以及與之相關的元數(shù)據(標題、描述、標簽)組成,其焦點是人或動物執(zhí)行的一些動作。數(shù)據集中的圖像由6個不同的Flickr組手動收集,由美國選定工作人員使用多種形式的標題進行注釋。其中Flickr30k數(shù)據集采集于Flickr 網站,包含31 783 張日常場景、活動和事件的圖像,圖像與158 915 個標題相關聯(lián),每一張都用5 個句子注釋。該數(shù)據集常用于圖像-句子檢索中。

(4)Wikipedia

Wikipedia 數(shù)據集采集于維基百科,是跨模態(tài)檢索研究使用最多的數(shù)據集,由帶有相關圖像文本對的文檔語料庫組成。該數(shù)據集是根據維基百科的特色文章設計的,由維基共享資源的一個或多個圖像補充,包含2 866 個圖像/文本數(shù)據對,共10 個不同的語義類。該數(shù)據集所囊括的樣本和語義類別相對較少且模態(tài)類型相對有限,且也只包含圖像和文本兩種模態(tài)。

(5)IAPRTC-12

IAPRTC-12 最初由Grubinger 等人發(fā)布,也稱為Image CLEF 2006,是為CLEF(cross-language evaluation forum)跨語言圖像檢索任務創(chuàng)建的,其目的在于評估基于視覺和文本檢索技術的效率。該數(shù)據集共有19 627 幅圖像,其描述由多種語言(主要是英語和德語)組成,每個圖像與1~5 個描述相關聯(lián),其中每個描述均指圖像的不同方面。該數(shù)據集詞匯量為4 424。值得注意的是,該數(shù)據集中的文本都是語法性的,幾乎沒有噪音。句子中的語言組織良好,其內容與相應的意象密切相關。

對于以上常用數(shù)據集,主要參數(shù)如表4 所示,且各數(shù)據集的圖像文本對示例圖如圖7 所示。

圖7 不同數(shù)據集圖像文本對示例圖Fig.7 Sample graph of image-text pairs in different datasets

表4 常用數(shù)據集介紹Table 4 Introduction of common datasets

3.2 性能評價指標

目前跨模態(tài)圖文檢索常用的性能評價指標有召回率、精確率、準確率和平均精度等。

(1)召回率(,)

召回率是指檢索系統(tǒng)返回的查詢樣本相關文檔與數(shù)據集所有匹配文檔之比。召回率的計算公式為:

其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量,表示數(shù)據集中沒有返回的與查詢樣本匹配的文檔數(shù)量。

對于圖文檢索,常用的一個評價標準是@,即為@。@計算在前個檢索的句子中找到至少一個正確結果的測試圖像或測試句子的百分比。對于圖像檢索,計算前個檢索的圖像的百分比,即測量在前個結果中檢索到正確項目的查詢的比例。其中,“@1”“@5”“@10”,分別表示前1、5、10 個結果的召回率。

(2)精確率(,)

精確率是指檢索系統(tǒng)中被正確檢索的樣本數(shù)與被檢索到樣本總數(shù)之比。精確率的計算公式為:

其中,表示被檢索樣本中與查詢樣本不匹配的數(shù)量。

一般而言,召回率和精確率互相矛盾,需要在不同的場合根據實驗對于精確率和召回率的要求進行判斷。精確率和召回率很少作為單獨評價指標去使用,可以繪制-曲線來幫助分析。

(3)準確率(,)

準確率指檢索系統(tǒng)中被分類正確的樣本數(shù)占樣本總數(shù)的比率。準確率的計算公式為:

其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量;表示檢索后未能返回的與查詢樣本匹配的文檔數(shù)量;表示總樣本數(shù)。

(4)綜合評價(-score,)

綜合評價指標-score(又稱為-measure)是和加權調和平均,其計算公式為:

其中,用于調整權重,當=1 時兩者權重相同,簡稱為1-score。在檢索過程中,若更重要則減小,反之若更重要則增大。

由于和指標會相互矛盾,而綜合評價指標-score 既能夠參考與,又比的計算更加準確,因此作為評價指標更為常用。

(5)平均精度(mean average precision,MAP)

MAP 是目前跨模態(tài)圖文檢索任務中最流行的性能評價指標,在給定一個查詢和top-檢索到數(shù)據的情況下,平均精度定義為:

其中,表示檢索文檔中第個樣本,()表示的是第個檢索樣本的精度。另外,如果第個樣本檢索返回的數(shù)據與其本身相關,則()=1,否則()=0。

MAP 可以解決、和-measure 的單點值局限性,用于衡量算法的檢索能力,能夠反映全局性能。

3.3 不同算法對比

本節(jié)對不同算法在不同數(shù)據集中的表現(xiàn)進行了全面比較,其主要性能評價指標為@和MAP。對于跨模態(tài)圖文檢索,F(xiàn)lickr30k 數(shù)據集常用性能評價指標為@,其一般用于評估實值表示學習方法。Wikipedia 和NUS-WIDE 數(shù)據集通常用MAP 來評估算法性能,它們對于實值表示學習和二進制表示學習方法的性能評估都適用。MSCOCO 數(shù)據集通常既可用@來評估算法性能,也可用MAP 來進行評估,且對于實值表示和二進制表示學習方法也都適用。IAPRTC-12 數(shù)據集通常用MAP 來評估二進制表示學習方法的性能,用top@來評估實值表示學習方法的性能。top@計算公式為:

其中,表示測試集中圖像文本對的數(shù)量,1()是指示函數(shù),r是第對圖像(文本)的排名位置。設置為{1,2,10,20,100,200,1 000}。

對于實值表示學習方法,本文選擇了CyTIR-Net、IMRAM、BRNN 等算法,其中基于特征表示的算法有deep-SM、DeCAF、MSDS 和DBRLM,基于圖像-文本對齊的算法有IMRAM、BRNN、CAAN 和SCAN,基于跨模態(tài)重構的方法有CyTIR-Net 和MASLN,基于圖文聯(lián)合嵌入的方法有ACMR、MSFN+TextNet、GXN、PVSE 和DSCMR;基于二進制表示學習的方法有DVSH、CYC-DGH、SSAH 和DCMH 等。

以下數(shù)據均為各經典算法相關文獻中所報導的結果,對比結果如表5~表12 所示,對于最好的結果本節(jié)進行加粗以示強調,“—”表示結果未被提供。

表5 對于Flickr30k 現(xiàn)有不同算法R@K 比較Table 5 R@K comparison of different existing algorithms for Flickr30k

表6 對于MSCOCO 現(xiàn)有不同算法R@K 比較(1 000 幅測試圖像)Table 6 R@K comparison of different existing algorithms for MSCOCO(1000 test images)

由表5~表7 可以看出,算法IMRAM 在跨模態(tài)圖文檢索中取得了更好的@值,該算法實驗環(huán)境為Pytorch v1.0,在Flickr30k 數(shù)據集上分別將29 000、1 000、1 000 幅圖像用于訓練、驗證和測試模型,在MSCOCO 數(shù)據集上也分別將1 000 幅圖像用于驗證和測試,其在小規(guī)模數(shù)據集(Flickr30k)上和大規(guī)模數(shù)據集(MSCOCO)上都有較好的表現(xiàn),證明了該算法的魯棒性,同時也得出對細粒度對應關系進行探索的必要性。此外,CAAN 算法在Flickr30k 數(shù)據集分別將29 000、1 000、1 000 幅圖像用于訓練、驗證和測試模型,該算法在前15 個epochs 的學習率為0.000 2,后15 個epochs的學習率降至0.000 02。PVSE 算法在MSCOCO 數(shù)據集上將113 287 幅圖像用于訓練模型,并在完整的5 000 幅測試圖像上進行測試,且以平均值超過5 倍以上來進行1 000 幅圖像的測試,該算法初始學習率為0.036 6,并在損失停滯時減少一半,用批量大小為128 的樣本進行50 個epochs 的訓練。CAAN 算法和PVSE 算法分別在小規(guī)模數(shù)據集(Flickr30k)和大規(guī)模數(shù)據集(MSCOCO)上也取得了更好的@值,表明了注意力機制在跨模態(tài)圖文檢索中的優(yōu)勢。且這幾種方法都強調局部特征和全局特征的結合,以提升特征的判別性。對于該領域的后續(xù)發(fā)展具有借鑒意義。

表7 對于MSCOCO 現(xiàn)有不同算法R@K 比較(5 000 幅測試圖像)Table 7 R@K comparison of different existing algorithms for MSCOCO(5000 test images)

由表8 可以看出,ACMR 在數(shù)據集MSCOCO 上取得了更好的MAP 值,ACMR 算法分別將66 226 和16 557 個圖像文本對用于模型訓練和測試,用到的圖像特征提取網絡為4 096 維的VGGNet,文本特征提取網絡為3 000 維的BoW(bag-of-words),批量大小為64。該算法利用GAN 的對抗思想,使數(shù)據的潛在跨模態(tài)語義結構被更好地保留。結果顯示實值表示學習的方法在大規(guī)模數(shù)據集(MSCOCO)上MAP 值一般優(yōu)于二進制表示學習的方法。其中,CYC-DGH算法在MSCOCO 上取得結果優(yōu)于其他二進制表示學習方法,該算法初始學習率為0.000 2,在前100 個epochs 中保持不變,在后100 個epochs 中線性衰減到0,且以dropout 率為0.5 的卷積退出ReLU 層。CYC-DGH 同樣使用GAN 網絡的思想,在有效壓縮輸入數(shù)據的同時,最大限度地保留其自身信息以及來自不同模態(tài)的樣本之間的關系。因此可以得出,GAN 的思想對于提升跨模態(tài)圖文檢索性能很有幫助,為相關工作提供了值得借鑒的研究思路。

表8 對于MSCOCO 現(xiàn)有不同算法MAP 比較Table 8 MAP comparison of different existing algorithms for MSCOCO

由表9 和表10 可以看出,CYC-DGH 和deep-SM分別在數(shù)據集Wikipedia 和NUS-WIDE 上取得了最佳MAP 值,CYC-DGH 從Wikipedia 數(shù)據集中隨機選擇75%的文檔作為數(shù)據庫,其余為查詢樣本,且批量大小為1。deep-SM 算法實驗環(huán)境為開源Caffe CNN庫,分別將114 114 和76 303 個圖像文本對用于訓練和測試,其dropout 率為0.5,動量參數(shù)為0.9,且對不同模態(tài)采取不同學習率,在CNN 中分別將卷積層、前兩個完全連接層和最后一個完全連接層的學習率設置為0.001、0.002 和0.010,通過設置不同層的不同學習率來控制參數(shù)更新速率;在TextNet 中每層的初始學習率為0.010,然后根據交叉熵損失動態(tài)變化。deep-SM 算法對預處理的CNN 模型進行微調以提取CNN視覺特征,一定程度上提升了跨模態(tài)檢索性能。同時,在Wikipedia 數(shù)據集上,MASLN 算法結果優(yōu)于其他實值表示學習方法,該算法學習率為0.000 1,批量大小為128,其將跨模態(tài)重構和模態(tài)對抗性語義網絡進行了聯(lián)合訓練,對于小規(guī)模數(shù)據集上跨模態(tài)檢索性能的提升有很大幫助。

表9 對于Wikipedia 現(xiàn)有不同算法MAP 比較Table 9 MAP comparison of different existing algorithms for Wikipedia

表10 對于NUS-WIDE 現(xiàn)有不同算法MAP 比較Table 10 MAP comparison of different existing algorithms for NUS-WIDE

表11 和表12 對不同算法在IAPRTC-12 數(shù)據集上的表現(xiàn)進行了比較。可以看出,二進制表示學習方法中,CYC-DGH 取得了更好的結果;實值表示學習方法中,MSDS 取得了更好的結果。MSDS 模型實驗環(huán)境為Caffe,其分別將17 627 和2 000 個圖像文本對用于訓練和測試,且在WCNN、CNN 和DNN 的學習率分別為0.010、0.001 和0.001。MSDS 在潛在空間中使用標準反向傳播技術來更新兩個卷積網絡的參數(shù),易應用于大數(shù)據集。

表11 對于IAPRTC-12 現(xiàn)有不同算法MAP 比較Table 11 MAP comparison of different existing algorithms for IAPRTC-12

表12 對于IAPRTC-12 現(xiàn)有不同算法top@k 比較Table 12 top@k comparison of different existing algorithms for IAPRTC-12

綜上,通過對不同算法對比,可以得出,對于跨模態(tài)圖文檢索性能的提升,以下方法值得進一步探索研究:

(1)基于細粒度的圖像-文本對齊的方法有助于探索模態(tài)間精細的潛在語義關系,可以更加靈活地應用于語義更復雜的跨模態(tài)圖文檢索場景,能夠從語義的多樣性出發(fā),提高檢索性能。

(2)不論是實值表示學習方法還是二進制表示學習方法,生成對抗網絡的博弈思想都可用于保留模態(tài)間語義關系等信息,該網絡結構能夠有效提升跨模態(tài)檢索的全局性能。

(3)對預處理的CNN 模型進行微調可以提高其對目標數(shù)據集的適應性,是避免從頭開始訓練CNN模型的有效策略,且該策略也通過反向傳播來調整網絡。因此是一種對于提升跨模態(tài)圖文檢索性能簡單且有效的方法。

(4)注意力機制模型可以捕捉圖像和文本中最具判別性的特征,有效區(qū)分單詞及圖像區(qū)域的被關注度,能有效解決信息過載問題,提高算法效率及準確性。對于需要關注模態(tài)局部特征的跨模態(tài)檢索任務有很大助益。

4 應用

目前,跨模態(tài)圖文檢索技術在公安、傳媒及醫(yī)學領域等都有著廣泛的應用。其中在公安領域主要應用于輿情分析以及對網絡輿論欺詐事件的預測和處理,現(xiàn)有的輿情檢測系統(tǒng)通常利用互聯(lián)網來實現(xiàn)輿情的收集、追蹤、監(jiān)控和預警;在傳媒領域主要應用于多媒體事件檢測和意見挖掘,以及網絡推薦系統(tǒng)等;在醫(yī)學領域可應用于醫(yī)學存儲數(shù)據的查詢。

4.1 公安領域的應用

跨模態(tài)圖文檢索在公安領域主要用于網絡輿情分析和網絡輿論欺詐。

網絡輿情具有自由性、交互性、多元性、偏差性和突發(fā)性的特點,其分析流程如圖8 所示,事件發(fā)生后,首先要進行突發(fā)事件的監(jiān)測,然后對熱點話題進行識別跟蹤,對識別結果進行語義分析以進一步判斷其情感傾向,最后對不同的情感傾向做出相應預警,同時也可通過信息索引數(shù)據庫對已有熱點事件進一步呈現(xiàn),實現(xiàn)信息收集,并使其監(jiān)控相關敏感信息,以提高事件監(jiān)測效率。

圖8 輿情分析一般流程圖Fig.8 General flow chart of public opinion analysis

其中,熱點話題識別包括主題跟蹤、主題發(fā)現(xiàn)、相關發(fā)現(xiàn)等內容,要求對不同領域的相關圖像與文本信息實現(xiàn)良好的信息提取,增強語義辨別能力;語義分析需要滿足情感互補性和情感一致性,可分別采用圖文融合和注意模型、模態(tài)貢獻計算等方法,要求所提取的特征要克服語義模型的復雜性,挖掘豐富的語義相關性;對于事件預警,可通過事件分類模塊來區(qū)分不同事件的等級。通過高效整合來自不同媒介的輿情,運用跨模態(tài)圖文檢索相關技術,可有效實現(xiàn)對突發(fā)事件的監(jiān)測及預警,幫助公安機關有效杜絕涉警網絡輿情發(fā)酵為群體性事件。

對于突發(fā)事件的監(jiān)測,現(xiàn)有工作對相關問題研究較少,為了在實時的社交網絡數(shù)據流中對突發(fā)事件進行監(jiān)測和深度挖掘,文獻[82]構建了國民安全突發(fā)事件檢測系統(tǒng),通過多模態(tài)圖融合和話題恢復算法對突發(fā)事件進行檢測,并利用國民安全突發(fā)事件分類模塊過濾得到相關突發(fā)事件。

此外,對于網絡輿情分析,現(xiàn)有的研究工作更多關注熱點話題識別、語義分析和情感傾向分析三方面。針對輿情事件話題識別及語義分析,文獻[83]提出基于文本的情感顯著性特征提取方法和基于圖文融合的跨模態(tài)輿情回歸分析方法,將情感信息融入特征提取得到有利于文本情感分析的顯著特征,并進行圖文融合以解決模態(tài)間情感互斥問題。為了通過輿情語義分析進一步實現(xiàn)情感分析預測,文獻[84]提出了深度多模態(tài)注意融合(deep multi-modal attention fusion,DMAF)模型,利用視覺和語義間的區(qū)別性特征和內在相關性,用視覺注意機制自動聚焦情感區(qū)域,語義注意機制突出情感相關詞,分別捕捉最具辨別力的文本詞和視覺區(qū)域,然后由基于中間融合的多模態(tài)注意模型聯(lián)合情感分類,最后采用后期融合方案將三種注意力模型結合起來進行情感預測。該模型可以捕獲互補和非冗余信息,能夠有效處理模態(tài)數(shù)據不完整問題。

跨模態(tài)圖文檢索在公安領域還應用于網絡輿論欺詐的預測與處理,現(xiàn)階段隨著互聯(lián)網發(fā)展,圖像式“網絡謠言”被頻繁地用在網絡輿論欺詐中。在圖像偵查中可以實時記錄、分析、存儲、再現(xiàn)證據,通過圖像智能檢索平臺自動解決對圖像的檢索,從而獲取所需畫面,減少工作量,并以此作為電子數(shù)據證據或偵查的輔助手段。針對網絡輿論欺詐問題,文獻[86]研究了圖文特征聯(lián)合的證據圖像檢索技術,其工作原理如圖9 所示,通過聯(lián)合視覺和文本特征,在媒體上檢索與網絡輿論欺詐所用場景內容相似的圖像,將此作為物證來實現(xiàn)對圖像式網絡輿論欺詐的反制。

圖9 圖文特征聯(lián)合的證據圖像檢索系統(tǒng)工作原理圖Fig.9 Schematic diagram of evidence image retrieval system based on combination of image and text features

目前,受已有的理論知識和技術手段的限制,復雜輿情傾向的判斷和輿情自動監(jiān)測等方面仍存在不少問題。同時,對于跨模態(tài)圖文檢索技術,由于文字語義的多義性及視覺數(shù)據存在的“認知鴻溝”,需要進一步研究并將其應用于該領域中來改善現(xiàn)狀。

4.2 傳媒領域的應用

跨模態(tài)圖文檢索技術在傳媒領域主要應用于多媒體事件檢測(multimedia event detection,MED)、意見挖掘以及網絡推薦系統(tǒng)等。此外,文獻[59],文獻[87]和文獻[88]利用跨模態(tài)特征表示及跨模態(tài)重構的方法實現(xiàn)了圖像或視頻的字幕生成。

多媒體事件檢測一般需要從視頻檔案中找到特定事件的視頻,并給出示例視頻及事件描述,與之相關聯(lián)的多媒體分類任務需要挖掘示例視頻以學習最具區(qū)別性的特征,通過多個互補特征的組合獲得最佳性能。對此,如圖10 所示,文獻[89]介紹了雙融合的多模態(tài)方案,在對多模態(tài)特征提取后,通過早期融合和晚期融合的結合來實現(xiàn)不同特征的結合。

圖10 多媒體事件檢測系統(tǒng)示意圖Fig.10 Schematic diagram of multimedia event detection system

對于不同用戶的意見挖掘,社交媒體一般通過將不同模態(tài)的數(shù)據進行特征融合來完成情感分析,以進一步判斷不同事件的情感極性。不同于以往簡單的將不同模態(tài)數(shù)據相結合的方法,用于意見挖掘的情感分析聚焦于對特征融合方式的探索,現(xiàn)有方法通過結合圖像內容、用戶信息及媒體信息來實現(xiàn)良好的語義融合。

為了判斷情感極性,文獻[90]主要研究了圖文聯(lián)合的情感預測問題,將兩個單獨的CNN 架構用于學習文本和視覺特征,并將其組合作為另一個多頭CNN架構的輸入,應用于文本和圖像間的內部關系,最后在兩個類別(正或負)標簽上產生分布。該方法在多媒體情感分析中取得了良好的效果。進一步結合用戶數(shù)據,文獻[91]提出了多特征融合的微博圖文情感分析方法,構造了基于參數(shù)遷移和微調圖像的情感分類模型,并為文本和圖像情感分類模型設計特征層和決策層融合的方法。該方法結合了內容特征和用戶特征,有效增強了模型捕捉情感語義的能力。受媒體中圖文數(shù)據間存在強烈語義關聯(lián)的啟發(fā),文獻[92]提出了端到端的深度融合卷積神經網絡,從訓練實例中聯(lián)合學習文本和視覺情感表示,將兩種模態(tài)信息融合在匯聚層中,以預測情感極性。

此外,對于意見挖掘,除考慮其情感極性外,還應通過對媒體數(shù)據的分析發(fā)現(xiàn)準確的話題熱點。對于該任務,文獻[93]基于社交網絡媒體數(shù)據提出了多模態(tài)融合的話題發(fā)現(xiàn)算法,通過在文本和圖像上分別發(fā)掘潛在主題模型,構建文本圖和視覺圖,并對兩個圖進行語義融合得到多模態(tài)圖,最后在多模態(tài)圖上通過聚類和回歸得到最終話題發(fā)現(xiàn)結果。

個性化網絡推薦系統(tǒng)一般需要結合圖像與相關語義屬性學習圖像語義特征表達,以提高產品推薦度,該任務通常需要預測不同社交媒體間的聯(lián)系。為了應對社交媒體數(shù)據的多樣性和異構性等特點,文獻[94]設計了一個關系生成深度信念網絡模型(relational generative deep belief nets,RGDBN),將非參數(shù)貝葉斯模型印度自助餐過程(Indian buffet process,IBP)集成到修改后的深度信念網絡,學習能嵌入媒體內容和媒體關系的潛在特征。IBP 的核心思想是一個數(shù)據點可以擁有多個隱性特征,且這些特征概率和不為1。該模型能夠分析異構和同構數(shù)據間的聯(lián)系并進行跨模態(tài)檢索,可以通過社交媒體應用到用戶推薦中。

可以看出,跨模態(tài)圖文檢索技術的發(fā)展對于當前社交媒體中事件檢測、意見挖掘和個性化推薦等任務有很大助益。但實際應用中,一些復雜的情感分析需要處理更高層次的抽象概念,要求對主體性、概念和線索有更進一步的理解,對于這類問題,還需對跨模態(tài)數(shù)據構建更深層次的精細關聯(lián)。

4.3 醫(yī)學領域的應用

跨模態(tài)圖文檢索技術在醫(yī)學領域主要用于醫(yī)學存儲數(shù)據的查詢。

現(xiàn)有醫(yī)院信息系統(tǒng)主要面向特定類型的醫(yī)療數(shù)據,醫(yī)學數(shù)據種類多、數(shù)據間語義關系明確的特點使得其成為了特殊的跨模態(tài)數(shù)據。文獻[95]提出跨模態(tài)生物醫(yī)學圖像多標簽分類算法,通過融合圖像內容和說明文本,運用遷移學習技術,有效地識別了復合醫(yī)學圖像中的信息,進而提高了圖像檢索性能。作為現(xiàn)有醫(yī)學圖像數(shù)據處理的典型技術,醫(yī)學影像存檔與通信系統(tǒng)(picture archiving and communication systems,PACS)可以對醫(yī)學圖像數(shù)據進行獲取、存儲、檢索和展示,該系統(tǒng)在查詢時,通過輸入關鍵字在關系數(shù)據庫中對相關字段進行查詢,找出了文件系統(tǒng)中對應的醫(yī)學影像。此外,多模態(tài)索引圖模型將不同數(shù)據間的語義關系傳導至數(shù)據索引之間,進而計算出了不同模態(tài)間的相關性并對不同模態(tài)信息進行了融合。該檢索算法流程圖如圖11 所示。

圖11 基于模態(tài)網絡模型的醫(yī)學數(shù)據檢索技術流程圖Fig.11 Flow chart of medical data retrieval based on modal network model

目前,由于醫(yī)療數(shù)據的敏感性,與其他應用領域相比,醫(yī)學領域對于跨模態(tài)圖文檢索技術的應用主要還是采用已標注的數(shù)據來優(yōu)化模型,導致其在真實場景下的泛化能力受限。如何結合更多數(shù)據來源,如病歷資料等來尋找更適合的深度學習方法有效地處理復雜的醫(yī)療數(shù)據是當前面臨的一個挑戰(zhàn)。

5 難點及未來研究趨勢展望

盡管目前跨模態(tài)圖文檢索技術已經取得了長足發(fā)展,但其在模態(tài)特征表示、復雜語義處理、不同模態(tài)特征對齊以及數(shù)據集的構建等方面仍面臨嚴峻的挑戰(zhàn),這些問題的解決也將成為未來的研究趨勢,可概括如下:

(1)更精細的模態(tài)數(shù)據特征表示。模態(tài)特征表示是決定跨模態(tài)圖文檢索準確度的重要因素,不同的應用場景對于單模態(tài)全局或局部特征的選取要求以及特征提取方法各不相同。隨著數(shù)據復雜度和用戶需求的不斷升級,對跨模態(tài)圖文檢索任務模態(tài)特征精細度會有更高的要求。

(2)不同模態(tài)特征之間的細粒度對齊。由于圖像和文本之間存在異質性差異,導致從視覺數(shù)據中提取的信息與給定條件下用戶對相同數(shù)據的解釋之間會缺乏一致性。針對這一不足,利用注意力模型等,通過捕捉圖像和文本間細粒度的對應關系以更好地表達模態(tài)特性是圖文檢索領域未來研究的一個熱點。

(3)上下文相關信息的開發(fā)??缒B(tài)關聯(lián)往往與上下文信息有關。現(xiàn)有方法大多只將共存關系和語義類別標簽作為訓練信息,而事實上,跨模態(tài)數(shù)據通常包含了鏈接關系等重要的上下文信息。上下文信息的準確度是有效進行跨模態(tài)檢索的重要保障,因此在復雜的實際應用中,需要開發(fā)上下文信息以更好地表達模態(tài)間的共性,并就此開展進一步的研究,以提高跨模態(tài)檢索性能。

(4)簡化參數(shù)形式和提高跨模態(tài)檢索效率??缒B(tài)圖文檢索的模型參數(shù)個數(shù)往往非常多,以至于在很大程度上限制了其應用場景,這也是目前研究者面臨的主要挑戰(zhàn)。到目前為止,雖然諸如跨模態(tài)哈希等技術已被用于提高跨模態(tài)檢索效率,但跨模態(tài)檢索速度的提升仍有待發(fā)展。

(5)優(yōu)化目標函數(shù)求解算法。目前跨模態(tài)深度學習的訓練算法仍不能避免鞍點所導致的尋優(yōu)過程失敗問題。因此,盡快提出非凸優(yōu)化問題的優(yōu)化求解算法也是跨模態(tài)檢索領域需要解決的問題。

(6)數(shù)據集的擴展和標注。對于跨模態(tài)信息處理,高質量數(shù)據集可以有效避免過擬合等問題??缒B(tài)信息處理的數(shù)據集非常難以構建,盡管Flickr 和MSCOCO 等數(shù)據集的圖像數(shù)據量以及每幅圖像的文本描述都很豐富,但是實際中的物體類別仍遠超其所囊括的圖像種類。因此,擴充數(shù)據集類別,對數(shù)據集進行更加充分的標注,能夠從另一方面促進跨模態(tài)圖文檢索技術的發(fā)展和升級。

猜你喜歡
圖文檢索模態(tài)
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應用
多模態(tài)超聲監(jiān)測DBD移植腎的臨床應用
畫與理
跨模態(tài)通信理論及關鍵技術初探
瑞典專利數(shù)據庫的檢索技巧
一種基于Python的音樂檢索方法的研究
英國知識產權局商標數(shù)據庫信息檢索
日版《午夜兇鈴》多模態(tài)隱喻的認知研究
圖文配
圖文配