陳 寧,段友祥,孫歧峰
中國石油大學(華東)計算機科學與技術(shù)學院,山東 青島 266580
近年來,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展、智能設(shè)備與社交網(wǎng)絡(luò)的普及,多媒體數(shù)據(jù)在互聯(lián)網(wǎng)上爆炸式地增長。這些海量的數(shù)據(jù)包括文本、圖像、視頻及音頻等各種模態(tài)形式,同一事物會有多種不同模態(tài)數(shù)據(jù)的描述。這些數(shù)據(jù)在形式上“異構(gòu)多源”,而在語義上相互關(guān)聯(lián)。
單模態(tài)檢索[1-2]為信息檢索的傳統(tǒng)方式,要求檢索集與查詢集為相同模態(tài),如文本檢索文本[3]、圖像檢索圖像[4]、視頻檢索視頻[5]等。以圖像檢索為例,單模態(tài)檢索技術(shù)主要包括基于文本關(guān)鍵字檢索、基于圖像底層特征索引以及基于語義建模和匹配等。雖然這些方法對于單模態(tài)檢索來說能取得較好的檢索結(jié)果,但是獲取到的信息僅僅局限于一種模態(tài)數(shù)據(jù),這種單一模態(tài)信息檢索已不能滿足人們高效、全面、準確獲得對象信息的需求。因此如何對描述同一事物的各種模態(tài)數(shù)據(jù)進行高效檢索成為信息檢索領(lǐng)域一個重要的研究課題。面對海量、互聯(lián)的多媒體數(shù)據(jù),人們渴望通過其中一種模態(tài)數(shù)據(jù)來檢索相關(guān)聯(lián)的其他不同模態(tài)的補充數(shù)據(jù)。如圖1 所示,左側(cè)通過圖像檢索出相關(guān)文本,右側(cè)通過文本檢索出相關(guān)圖像,描述同一個事物的文本與圖像屬于不同模態(tài)的數(shù)據(jù),這種不同模態(tài)數(shù)據(jù)之間的互檢索方式稱為跨模態(tài)檢索。
Fig.1 Schematic diagram of cross-modal retrieval圖1 跨模態(tài)檢索示意圖
當前解決跨模態(tài)檢索問題的一般技術(shù)框架如圖2所示:首先對不同模態(tài)數(shù)據(jù)的特征進行提取;然后對獲取的特征表示進行建模,即建立不同模態(tài)數(shù)據(jù)特征之間的關(guān)聯(lián)關(guān)系表示模型;最后通過表示模型和相關(guān)算法獲得檢索結(jié)果并排序。其中在大多數(shù)建模算法中都會遇到處于不同特征空間的數(shù)據(jù)之間無法直接進行比較的問題,這是多模態(tài)數(shù)據(jù)間所具有的特點,即底層特征(如圖像的顏色,文本的關(guān)鍵字、詞,視頻的幀等)異構(gòu),高層語義相關(guān),即語義鴻溝[6]。因此跨模態(tài)檢索研究的難點問題是,如何關(guān)聯(lián)不同模態(tài)的數(shù)據(jù)并度量處于不同特征空間的模態(tài)數(shù)據(jù)之間相似性。
Fig.2 Cross-modal retrieval framework圖2 跨模態(tài)檢索框架
進而如何深入挖掘模態(tài)間的結(jié)構(gòu)信息以及語義關(guān)聯(lián),建立多模態(tài)數(shù)據(jù)特征關(guān)聯(lián)模型是提升多模態(tài)檢索精度的關(guān)鍵?;趯Χ嗄B(tài)數(shù)據(jù)中豐富信息進行分析,研究者采用不同的技術(shù)和方法提出了多種多模態(tài)數(shù)據(jù)特征關(guān)聯(lián)表示模型。由于具有相同語義的不同模態(tài)數(shù)據(jù)之間具有潛在的關(guān)聯(lián)性,使得構(gòu)建公共子空間成為當前最主流的特征關(guān)聯(lián)模型。其核心思想是將不同模態(tài)的數(shù)據(jù)特征映射到同一個公共子空間,從而為不同模態(tài)數(shù)據(jù)生成統(tǒng)一的特征表征形式,進而使其可以直接進行相似度度量。本文主要以跨模態(tài)檢索的關(guān)鍵技術(shù)——公共子空間建模為主線,對跨模態(tài)相關(guān)研究進行綜述,具體將其歸納總結(jié)為基于傳統(tǒng)統(tǒng)計分析、基于深度學習和基于哈希學習三類技術(shù)。
為了清晰起見,以兩種模態(tài)類型X與Y為例,給出跨模態(tài)檢索的定義。訓練數(shù)據(jù)定義為D={X,Y},其中,這里n表示訓練樣本實例的數(shù)據(jù)量,xi表示來自X模態(tài)的第i個樣本實例的特征向量。同樣地,定義,其中yj表示來自Y模態(tài)的第j個樣本實例的特征向量??梢蕴峁┯柧殧?shù)據(jù)的語義標簽定義為,其中表示X模態(tài)第i個實例的語義標簽向量,表示Y模態(tài)第j個實例的語義標簽向量,用來表示該模態(tài)數(shù)據(jù)樣本所屬的語義類別。若兩個模態(tài)數(shù)據(jù)xi與yj之間存在語義關(guān)聯(lián),則;否則,。
由于不同模態(tài)的數(shù)據(jù)的特征向量與xi和yj位于不同的特征表示空間,并且通常具有不同的統(tǒng)計屬性,它們不能直接進行比較。因此跨模態(tài)檢索針對每種模態(tài)學習一個轉(zhuǎn)換函數(shù):對于X模態(tài),ui=f(xi;γX)∈Rd;對于Y模態(tài),vj=f(yj;γY)∈Rd。其中,d為公共子空間的維度,γX與γY為兩個模態(tài)數(shù)據(jù)的訓練參數(shù)。轉(zhuǎn)換函數(shù)將來自不同特征空間的數(shù)據(jù)xi與yj映射成為公共子空間中的特征向量ui與vj。使得來自不同模態(tài)的數(shù)據(jù)可以直接進行比較,并且在公共子空間中,相同類別的樣本相似度大于不同類別的樣本的相似度。
跨模態(tài)檢索的目標是計算跨模態(tài)數(shù)據(jù)的相似性。例如,針對來自X模態(tài)的數(shù)據(jù)xa,利用上述轉(zhuǎn)換函數(shù)將其映射到公共子空間ua=f(xa;γX)∈Rd,計算其與公共子空間中所有Y模態(tài)數(shù)據(jù)vj的相似度dj=sim(ua,vj),將相似度進行排序,最終得到Y(jié)模態(tài)中與xa相關(guān)聯(lián)的數(shù)據(jù)的檢索結(jié)果。
傳統(tǒng)統(tǒng)計分析是常用的公共子空間技術(shù)的基礎(chǔ),其通過優(yōu)化統(tǒng)計值來學習子空間的投影矩陣。主要有三種解決思路,分別是無監(jiān)督學習、監(jiān)督學習與半監(jiān)督學習。其中無監(jiān)督學習的訓練數(shù)據(jù)均無標簽標記,監(jiān)督學習與之相反,對所有訓練數(shù)據(jù)進行人工標注,通過利用數(shù)據(jù)的標簽信息來關(guān)聯(lián)數(shù)據(jù)的特征與語義,而半監(jiān)督學習中僅有部分訓練數(shù)據(jù)有標簽標記。
Li 等人提出了最早的傳統(tǒng)統(tǒng)計分析方法——跨模態(tài)因子分析法(cross-modal factor analysis,CFA)[7],通過最小化不同模態(tài)樣本變量對之間的距離來學習投影子空間,進而探索模態(tài)間數(shù)據(jù)背后存在的潛在變量關(guān)系。最具代表性的方法是由Thompson提出的典型相關(guān)分析(canonical correlation analysis,CCA)[8],其通過從原數(shù)據(jù)變量中選取具有代表性的綜合指標的相關(guān)關(guān)系反映原數(shù)據(jù)之間的相關(guān)關(guān)系,同時考慮了變量間與變量內(nèi)特征的關(guān)聯(lián)。不足之處在于CCA的目的是尋找變量之間投影后的綜合指標之間的關(guān)系,但是無法通過該關(guān)系還原出原變量,即找不到原變量之間直接映射關(guān)系。此外Rosipal 等人提出偏最小二乘法(partial least squares,PLS)[9],利用潛在變量對觀測變量集之間的關(guān)系,通過最大化不同變量集之間的協(xié)方差來創(chuàng)建潛在關(guān)系向量,在子空間的跨模態(tài)檢索問題中,進一步加強了不同模態(tài)之間相關(guān)性分析。
在CCA 的基礎(chǔ)上,Zhang 等人又提出了基于核的典型相關(guān)分析方法(kernel canonical correlation analysis,KCCA)[10],將核函數(shù)引入CCA,擴展到可以特征化兩組多維變量的非線性關(guān)系,將原始特征數(shù)據(jù)映射到更高維的核函數(shù)特征空間。KCCA 的優(yōu)化問題與CCA 相同,均希望找到最優(yōu)系數(shù),使得兩組變量的相關(guān)性最大。由于KCCA 復雜的函數(shù)空間,使用足夠的訓練數(shù)據(jù)可以表示更高的相關(guān)性,且可以生成特征以提高分類器性能。但是KCCA 與CCA 均要求數(shù)據(jù)是成對對應(yīng)的,當模式中的多個點簇對應(yīng)于另一個點簇時,或者當成對模式被類標簽補充時,KCCA與CCA 都不能直接使用。KCCA 方法雖然解決了數(shù)據(jù)的非線性問題,但是由于核函數(shù)選取的不可知性,使得訓練開銷增大且模型更為復雜,因此Andrew 提出深度典型相關(guān)分析(deep canonical correlation analysis,DCCA)[11]。神經(jīng)網(wǎng)絡(luò)在解決非線性問題時,是通過嵌入每個層次的非線性函數(shù)來解決的。DCCA 采用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)分別求出兩個視圖經(jīng)過線性化的向量,并求出兩個投影向量的最大相關(guān)性,最后獲得新的投影向量,將其加入模型算法中進行學習。
顯然上述方法并未涉及高層語義的分析建模,語義特征的缺失使其無法達到令人滿意的結(jié)果。因此許多學者提出基于監(jiān)督算法的統(tǒng)計分析技術(shù),利用不同模態(tài)數(shù)據(jù)的高層語義關(guān)系進一步關(guān)聯(lián)底層的異構(gòu)特征。
Jia 等人通過基于馬爾科夫隨機場的主題模型[12]對模態(tài)間的高層語義關(guān)系進行建模。基于CCA 方法,Rasiwasia 等人研究了文本和圖像聯(lián)合建模的問題,提出三種子空間學習模型[13],通過邏輯回歸增加了語義層的判斷。之后又提出了聚類相關(guān)性分析(cluster canonical correlation analysis,Cluster-CCA)[14],與CCA、KCCA 不同的是,其沒有要求數(shù)據(jù)的標準成對關(guān)系,在Cluster-CCA 中,每個集合都被劃分成多個簇或者類,其中的類標簽定義了集合之間的對應(yīng)關(guān)系。Cluster-CCA 能夠在特征空間上學習最大化兩個集合之間相關(guān)性的判別低維表示,同時在學習空間上分離不同的類。此外還提出了核擴展,核聚類典型相關(guān)分析(kernel cluster canonical correlation analysis,Cluster-KCCA)[14],擴展了Cluster-CCA 到高維空間的非線性投影來觀察兩個集合間的關(guān)系。Cluster-CCA改進了CCA 只能適用于所有數(shù)據(jù)必須成對對應(yīng)的數(shù)據(jù)集的問題,即拓寬了應(yīng)用范圍。但是當應(yīng)用于大規(guī)模數(shù)據(jù)集時,計算協(xié)方差的復雜度隨著數(shù)據(jù)數(shù)量變化呈平方的關(guān)系增長。
此外,Ranjan等人基于CCA提出了多標簽典型關(guān)聯(lián)分析(multi-label canonical correlation analysis,ml-CCA)[15],用于學習共享子空間,以多標簽注釋的形式表示高層語義信息。對于多標簽數(shù)據(jù)集,不同模態(tài)間存在自然的多對多對應(yīng)關(guān)系,即來自一種模態(tài)的每個數(shù)據(jù)點與來自另一個模態(tài)的若干個其他數(shù)據(jù)點相關(guān)。與CCA 不同,ml-CCA 不依賴于模態(tài)之間數(shù)據(jù)的顯示配對,而是使用多標簽信息來建立模態(tài)間對應(yīng)關(guān)系,產(chǎn)生了一個更適合跨模態(tài)檢索任務(wù)的判別子空間。同時提出Fast ml-CCA[15],它是一個高效率版本ml-CCA,能夠處理大規(guī)模數(shù)據(jù)集,且在學習子空間的同時能夠有效地融合多標簽信息。Gong等人還提出了三視角CCA(3view canonical correlation analysis,3view-CCA)[16],結(jié)合第三視角捕捉高層次語義,考慮文本與圖像兩種模態(tài)的同時,將高層語義視為一種模態(tài),最大化三種模態(tài)兩兩間的相關(guān)性,證明了語義特征的加入使得檢索準確率得到了極大的提高。模態(tài)數(shù)據(jù)點之間的對應(yīng)關(guān)系如圖3 所示,圓圈和方塊表示兩種模態(tài)的數(shù)據(jù)點,“+”“-”“*”表示類標簽。在cluster-CCA 中,一種模態(tài)中的每個點與另一個模態(tài)中的所有相同的類點配對。在3view-CCA 中,第一個模態(tài)中的每個樣本與來自第二模態(tài)的具有相同類標簽的單個樣本配對。在ml-CCA 中,一組樣本可與第二組中的多個樣本配對。
Fig.3 Correspondence of modal data points圖3 模態(tài)數(shù)據(jù)點對應(yīng)關(guān)系
基于未標記數(shù)據(jù)易于收集和不同模態(tài)之間的相關(guān)性的特性,Zhang等人提出了廣義半監(jiān)督結(jié)構(gòu)子空間學習方法(generalized semi-supervised structured subspace learning,GSS-SL)[17],將標簽圖約束、標簽鏈損失函數(shù)和正則化集成到聯(lián)合最小化公式中,以學習有區(qū)別的公共子空間。
雖然現(xiàn)有的傳統(tǒng)統(tǒng)計分析的技術(shù)比較容易實現(xiàn),但是存在共同的缺點:欠缺對模態(tài)內(nèi)數(shù)據(jù)局部結(jié)構(gòu)和模態(tài)間數(shù)據(jù)結(jié)構(gòu)匹配的考慮。實際上,與具有鄰域關(guān)系的樣本相對應(yīng)的另一模態(tài)的樣本數(shù)據(jù)也具有鄰域關(guān)系。并且大多數(shù)統(tǒng)計分析方法學習到的都是非線性映射,因此在模態(tài)間高級語義建模方面無法取得有效的結(jié)果。同樣,統(tǒng)計分析方法在處理大規(guī)模以及高維多模態(tài)數(shù)據(jù)的計算復雜度上也表現(xiàn)得不盡人意。
近年來,深度學習在單模態(tài)領(lǐng)域取得突破性進展,如自然語言處理領(lǐng)域、圖像領(lǐng)域和語音識別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)強大的抽象能力在不同的多媒體應(yīng)用中展現(xiàn)出無窮的潛力,如對象識別[18]與文本生成[19],為其在跨模態(tài)檢索的研究上奠定了理論基礎(chǔ)和技術(shù)實踐。
Ngiam 等人首次采用深度學習的方法處理多模態(tài)任務(wù),提出將受限玻爾茲曼機(restricted Boltzmann machine,RBM)應(yīng)用于公共子空間的學習[20],通過輸入連續(xù)的音頻和視頻幀訓練模型,來學習音頻與視頻的統(tǒng)一表示。此項工作展示了深度學習如何應(yīng)用于發(fā)現(xiàn)多模態(tài)特征的挑戰(zhàn)性任務(wù),但是模型采用的是手工設(shè)計特定于任務(wù)的特征,既困難又耗時?;谥暗墓ぷ鱗20],考慮到探索關(guān)聯(lián)數(shù)據(jù)的側(cè)重點在于語義關(guān)聯(lián),Srivastava 等人提出基于深度玻爾茲曼機的多模態(tài)學習(deep Boltzmann machine,DBM)[21],將DBM 結(jié)構(gòu)擴充到多模態(tài)領(lǐng)域,通過多模態(tài)DBM,學習聯(lián)合概率分布。該方法對模態(tài)內(nèi)數(shù)據(jù)的底層特征分別進行學習,利用不同模態(tài)之間的高層語義關(guān)系建立模態(tài)之間的關(guān)聯(lián)。DBM 學習多模態(tài)表示的最大優(yōu)點之一就是其生成特性,即它允許數(shù)據(jù)有丟失。即使整個模態(tài)丟失,模型也可以通過對它們的條件分布進行采樣并填充來提取這種表示,進而很好地工作,因此該模型可以有效地利用大量未標記的數(shù)據(jù)。然而,由于RBM 的原因,仍舊沒有解決耗時嚴重的問題,在當時計算能力不高的情況下,也嚴重限制了其實際的應(yīng)用。并且使用傳統(tǒng)手工特征技術(shù),使得性能仍遠遠不能令人滿意。
為研究圖像與文本之間的交叉檢索,F(xiàn)eng等人提出了基于對應(yīng)式自編碼器模型(correspondence autoencoder,Corr-AE)[22]的方法,并提出了新的優(yōu)化目標。通過使每種模態(tài)的表示學習誤差和模態(tài)間的隱藏表示的相關(guān)學習誤差的線性組合最小化,對模型進行訓練。最小化相關(guān)學習誤差迫使模型只學習不同模態(tài)隱藏的公共信息,最小化表示學習誤差使得隱藏表示足以重構(gòu)每種模態(tài)的輸入。此模型將單模態(tài)的表示學習和多模態(tài)的相關(guān)性學習結(jié)合到一個過程中,從而將自編碼代價和相關(guān)代價結(jié)合起來?;诖隧椆ぷ?,Zhang 等人提出獨立組件多模態(tài)自動編碼器(independent component multimodal autoencoder,ICMAE)[23]的深度體系結(jié)構(gòu),使用兩個自編碼器不斷學習跨視覺和文本的共享高級表示,從而進行屬性的自動發(fā)現(xiàn)。雖然自編碼器的加入使得模型泛化能力得到加強,然而針對異常識別場景,得到的重構(gòu)輸出可能也會變成異常數(shù)據(jù)。
而現(xiàn)有的大多數(shù)跨模態(tài)檢索方法,在整個訓練過程中要使用到包含所有模態(tài)的數(shù)據(jù),不同模態(tài)轉(zhuǎn)換的最佳參數(shù)之間彼此依賴,并且當處理來自新模態(tài)的樣本數(shù)據(jù)的時候,整個模型需要重新進行訓練。因此,Hu 等人提出了可擴展的深度多模態(tài)學習方法(scalable deep multimodal learning,SDML)[24],設(shè)計預(yù)先定義一個公共子空間,使得類間差異最大、類內(nèi)差異最小。針對每一種模態(tài)數(shù)據(jù)設(shè)計一個深度監(jiān)督自編碼器(deep supervised autoencoder,DSAE)將多模態(tài)數(shù)據(jù)轉(zhuǎn)換到預(yù)定義的公共子空間,實現(xiàn)跨模態(tài)學習。與大多數(shù)現(xiàn)有方法不同的是,SDML 可以獨立、并行地訓練不同的特定模態(tài)的網(wǎng)絡(luò),可以有效地處理來自新模態(tài)的樣本,只需要訓練針對該模態(tài)的新網(wǎng)絡(luò)即可。因此其是可以擴展模態(tài)數(shù)量的,是最先提出可以將不定數(shù)量的模態(tài)數(shù)據(jù)獨立投影到預(yù)定義子空間中的方法之一,亦是提出將跨模態(tài)檢索問題擴展到多個模態(tài)數(shù)量的實踐之一,值得人們關(guān)注,這也是大多數(shù)現(xiàn)有方法所忽略的問題,亦是未來的挑戰(zhàn)。
為了學習到更加具有判別性的表示,諸多學者提出了基于深度監(jiān)督學習的跨模態(tài)檢索方法。為加強對圖像與文本之間的高級語義相關(guān)性表示的探索,Wang 等人提出了一種正則化的深度神經(jīng)網(wǎng)絡(luò)(regularized deep neural network,RE-DNN)[25],用于跨模態(tài)的語義映射。RE-DNN 通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)(處理圖像)和語言神經(jīng)網(wǎng)絡(luò)(處理文本),將圖像和文本數(shù)據(jù)映射到公共語義子空間,得到一個同時捕獲模態(tài)內(nèi)和模態(tài)間關(guān)系的聯(lián)合模型,從而進行模態(tài)間數(shù)據(jù)的相似度度量。
也有一些想法將DNN 與CCA 相結(jié)合作為DCCA[11],其有很明顯的缺點:對內(nèi)存的過度占用,計算速度過慢以及過擬合現(xiàn)象的發(fā)生。因此使用DCCA 框架時,特征的高維性使得其在內(nèi)存和復雜性方面提出了巨大的挑戰(zhàn)。Yan 等人提出了一種基于DCCA 的端到端學習方法(end-to-end learning scheme based on deep canonical correlation analysis)[26]來對文本和圖像進行檢索,通過GPU 實現(xiàn)來解決這些問題,并提出處理過擬合的方法,以此來應(yīng)對DCCA 框架的缺點。之前的工作[20-21]為不同模態(tài)數(shù)據(jù)創(chuàng)建一個具有共享層的網(wǎng)絡(luò),而DCCA 與之不同的是,其使用兩個獨立的子網(wǎng)絡(luò),并且通過控制代碼層的相關(guān)約束性來最大化模態(tài)數(shù)據(jù)之間總體的相關(guān)性。
為解決帶有一個或多個標簽的圖像文本跨模態(tài)檢索問題,Wei等人提出了深度語義匹配(deep semantic matching,Deep-SM)[27]的方法,利用卷積神經(jīng)網(wǎng)絡(luò)對視覺特征的強大表示能力,完成文本和圖像兩種模態(tài)之間的檢索,并驗證了使用CNN 視覺特征表示的圖像進行跨模態(tài)檢索相比于其他方法更容易獲得更好的結(jié)果。然而對于文本數(shù)據(jù)只是使用一個完全連接的神經(jīng)網(wǎng)絡(luò)來提取文本的語義特征,未來可以探索更合適的神經(jīng)網(wǎng)絡(luò),以建立文本數(shù)據(jù)的底層特征和高級語義之間的關(guān)系。與此同時,為了從差異很大的模態(tài)數(shù)據(jù)之間學習到共享關(guān)聯(lián)表示,Castrejon 等人提出了正則化跨模態(tài)卷積神經(jīng)網(wǎng)絡(luò)(regularized convolutional neural network,RE-CNN)[28]的方法,在給出僅使用場景標簽注釋的數(shù)據(jù)集前提下,從弱對齊數(shù)據(jù)中學習到具有強對齊的跨模態(tài)表示。
而為致力于圖像與文本句子之間的檢索,Zhang等人提出一種跨模態(tài)關(guān)系引導網(wǎng)絡(luò)(cross-modal relation guided network,CRGN)[29],其將圖像與文本嵌入到一個潛在的特征空間中。該模型使用門控循環(huán)單元(gated recurrent unit,GRU)提取文本特征,使用殘差網(wǎng)絡(luò)(residual network,ResNet)提取圖像特征,并提出一種有效的多任務(wù)損失兩階段訓練策略,用于優(yōu)化網(wǎng)絡(luò)。該方法雖然取得了很好的檢索結(jié)果,但是仍具有很大的發(fā)展空間,為適應(yīng)大規(guī)模的跨模態(tài)檢索任務(wù),可以將其與哈希網(wǎng)絡(luò)相結(jié)合。
綜上可知,CNN 可以保留領(lǐng)域的聯(lián)系和空間的局部特點,且對于局部操作有很強的抽象表征能力??梢岳脠D像的二維結(jié)構(gòu)和相鄰像素之間的高度相關(guān)性,且引入池化操作在一定程度上保證了圖像的平移不變性,使得模型不受位置變化的影響。池化操作同樣使得網(wǎng)絡(luò)擁有更大的感受野,使得網(wǎng)絡(luò)在更深層學習到更加抽象的特征表示。因此,CNN特別適合于圖像模態(tài)特征及語義的提取。尤其是近些年代表圖像領(lǐng)域最高水平的ImageNet 視覺識別競賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)[30]所涌現(xiàn)出來網(wǎng)絡(luò)模型,如AlexNet[31]、VGG[32]、GoogLeNet[33]、ResNet[34]、DenseNet[35]、SeNet[36]等在圖像特征提取、圖像分類方面表現(xiàn)出絕佳性能的CNN網(wǎng)絡(luò)模型,其判別能力甚至超過了人的水平,并且Wei 等人[27]也證明使用CNN 視覺特征相比于傳統(tǒng)視覺特征(SIFT(scale-invariant feature transform)、BoVW(bag of visual words)以及LLC(locality-constrained linear coding)等)能給模型帶來更加良好的效果。這對跨模態(tài)檢索領(lǐng)域帶來了巨大的推動力,大部分前人的工作也是基于這些網(wǎng)絡(luò)模型所展開的。關(guān)于不同CNN 模型在實際應(yīng)用中的重要指標的全面分析,讀者可參考文獻[37],此些模型的特征抽象以及表示能力均獲得了卓越的成果。
當前用于跨模態(tài)檢索的算法通常提取全局特征,用于拉近相匹配的模態(tài)數(shù)據(jù)。在研究圖像文本匹配時,考慮到全局特征包含較多的冗余信息,即關(guān)注圖像中的顯著區(qū)域、句子中的顯著單詞以及區(qū)域和單詞之間的交互作用,過濾掉不相關(guān)的信息。Huang 等人提出一種基于選擇性的多模態(tài)長短期記憶網(wǎng)絡(luò)(selective multimodal long short-term memory network,sm-LSTM)[38]的動態(tài)模型,在每一個時間步上,利用基于上下文的注意力機制來選擇不同模態(tài)數(shù)據(jù)之間描述相同語義的部分,從而進行計算得到局部相似性。最后,將經(jīng)過多個時間步測量所得的局部相似性聚合為全局相似性。其使用的LSTM 模型以及提到的一種多模態(tài)的基于上下文的注意力機制,會對人們后續(xù)的工作帶來極大的啟發(fā)。然而使用全連接的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)帶來了不小的計算負擔,增加了模型的運算復雜度,這方面表現(xiàn)得不如CNN 建模。
同樣地,基于上述思想,Wang 等人提出跨模態(tài)自適應(yīng)消息傳遞方法(cross-modal adaptive message passing,CAMP)[39],其由跨模態(tài)消息聚合模塊和跨模態(tài)門控融合模塊組成,使用自適應(yīng)門控方案正確處理負對和無關(guān)信息。此外,代替?zhèn)鹘y(tǒng)的聯(lián)合嵌入方法,基于融合后的特征來推斷匹配分數(shù),并且提出負二進制交叉熵損失進行訓練。其很好地關(guān)注到模態(tài)數(shù)據(jù)間的重要信息并為跨模態(tài)匹配找到細粒度的線索,然而這種基于注意力的方法忽略了一個文本單詞或者圖像區(qū)域在不同的上下文中可能含有不同的語義的問題。同時考慮模態(tài)內(nèi)和模態(tài)間上下文語境,并在適應(yīng)各種上下文的情況下執(zhí)行檢索是更加有效的。針對上述工作[29-30]所存在的問題,Zhang等人提出上下文感知注意網(wǎng)絡(luò)(context-aware attention network,CANN)[40],同時利用全局模態(tài)間和模態(tài)內(nèi)相關(guān)關(guān)系來發(fā)現(xiàn)潛在的語義關(guān)系,從全局的角度基于給定的上下文來自適應(yīng)地選擇信息片段,包括單模態(tài)內(nèi)的語義相關(guān)性以及模態(tài)間的可能的對齊方式,并使用基于語義的注意力捕獲模態(tài)相關(guān)性、更細粒度的語義以及豐富的上下文信息,使得模型性能表現(xiàn)得更加優(yōu)異。
RNN 是處理具有時序關(guān)系的數(shù)據(jù)相關(guān)任務(wù)最成功的多層神經(jīng)網(wǎng)絡(luò)模型,樣本出現(xiàn)的時間順序?qū)τ谧匀徽Z言處理來說非常重要,針對其他網(wǎng)絡(luò)無法對時間序列上的變化進行建模的問題,RNN 給予了很好的解決。很多現(xiàn)有模型對文本模態(tài)僅使用全連接層提取特征,忽略了文本的上下文信息以及豐富的語義信息,因此在跨模態(tài)檢索中處理時間序列的文本、音頻等模態(tài)的建模問題時,考慮使用RNN 進行特征提取表征,將會是一個很好的選擇。
Goodfellow 等人提出的生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[41]為跨模態(tài)檢索的研究提供了很大的啟發(fā)。Gu等人第一次提出同時利用GAN和強化學習(reinforcement learning,RL)實現(xiàn)跨模態(tài)檢索[42]。將生成過程引入到傳統(tǒng)的跨模態(tài)特征嵌入中,解決了傳統(tǒng)跨模態(tài)檢索方法在高層語義層面匹配良好,但在圖片細節(jié)和句子單詞層面缺乏良好匹配的問題,不僅可以學習到多模態(tài)數(shù)據(jù)的高層抽象表示,還能學習到模態(tài)數(shù)據(jù)的底層表示。但是其所生成圖像的質(zhì)量有待提高,且并未考慮如何共同提取和利用特定于模態(tài)以及模態(tài)之間共享的特征,即多模態(tài)數(shù)據(jù)之間的互補性與相關(guān)性的問題。
GAN 網(wǎng)絡(luò)已顯示出通過對抗學習來對數(shù)據(jù)分布進行建模的強大能力,使得跨模態(tài)檢索有了很大的進展空間,針對其中有效地聯(lián)合提取和利用互補性與相關(guān)性特征的問題,Wu 等人提出一種基于GAN 網(wǎng)絡(luò)的方法MS2GAN(modality-specific and shared generative adversarial network)[43],其由兩個學習特定于模態(tài)特征的子網(wǎng)和一個學習共享特征的公共子網(wǎng)組成,并使用生成模型預(yù)測產(chǎn)生的語義標簽對相似性進行建模,判別模型用于對模態(tài)的特征進行分類,使得檢索精度得到了極大的提升。然而該模型運算復雜度較高,且僅在公共數(shù)據(jù)集上進行測試,未來可以嘗試與哈希方法結(jié)合以提高檢索效率,并使用實際數(shù)據(jù)測試模型以提高模型穩(wěn)健性,使得進一步應(yīng)對實際應(yīng)用。
GAN 網(wǎng)絡(luò)模型充分體現(xiàn)了多層網(wǎng)絡(luò)架構(gòu)的強大性,并且最關(guān)鍵的是引入了無監(jiān)督學習方式,使得模型的訓練學習不再依賴大量的標記數(shù)據(jù)。針對無監(jiān)督、半監(jiān)督等場景,讀者可以考慮利用GAN 進行模型訓練。
深度學習具有豐富的表示能力和強大的計算能力,能更好地適用于大規(guī)模訓練樣本。但現(xiàn)有的基于深度學習的跨模態(tài)檢索技術(shù)仍然有待完善,其主要挑戰(zhàn)來自于不同模態(tài)數(shù)據(jù)特征的互異性,需要將不同模態(tài)的特征信息融合到一起,從而得到關(guān)于數(shù)據(jù)更好的理解以及應(yīng)用。然而由于每種模態(tài)數(shù)據(jù)之間的表達方式、理解方式差異很大,現(xiàn)有的深度學習模型在抽取特征之后,再將其投影到一個公共的空間中,不同模態(tài)之間特征的相互融合以及相互對照仍然需要繼續(xù)進一步地優(yōu)化,不同模態(tài)內(nèi)部數(shù)據(jù)的局部結(jié)構(gòu)和模態(tài)間語義類結(jié)構(gòu)關(guān)聯(lián)缺乏關(guān)注和深入研究。因此跨模態(tài)檢索在深度學習上的應(yīng)用需要在特征融合、泛化能力、噪音對抗、語義特征缺失等方面繼續(xù)進行長久的探索。
傳統(tǒng)統(tǒng)計分析技術(shù)與深度學習技術(shù)均基于提取到的特征值直接進行建模,從而實現(xiàn)跨模態(tài)檢索,這對于大規(guī)模數(shù)據(jù)集非常耗時,并且需要大量的存儲空間。哈希學習由于存儲需求低且檢索速度快,應(yīng)對大規(guī)模數(shù)據(jù)具有很好的效果。該方法將原始特征空間中的數(shù)據(jù)點映射成公共漢明空間中的二進制編碼,通過計算待查詢數(shù)據(jù)的哈希編碼和原始數(shù)據(jù)哈希編碼之間的漢明距離進行相似度排序,從而得到檢索結(jié)果,使得檢索效率得到了極大的提高。并且以二進制編碼代替原始數(shù)據(jù)存儲,使得檢索任務(wù)對存儲量的需求極大地降低。
哈希學習的最初提出是為了加速檢索過程,并廣泛使用于各種檢索任務(wù)中,但是它們大多數(shù)只涉及一種模態(tài)數(shù)據(jù)[44]。Zhang 等人提出了具有多個信息源的復合哈希(composite Hashing with multiple information sources,CHMIS)[45],將哈希學習技術(shù)引入多模態(tài)檢索,其設(shè)計的哈希碼盡可能保留了原空間中的近鄰相似性,這也就是所謂的保留相似性,如圖4 所示。具體來說,所有數(shù)據(jù)點都使用緊湊的二進制串編碼,在原空間中相似的兩個點被映射到哈希空間中時也應(yīng)該具有相似性。同樣在后續(xù)工作中,保留相似性是解決基于哈希方法的跨模態(tài)檢索問題的關(guān)鍵原則[46]。
Fig.4 Keep similarity圖4 保留相似性
許多監(jiān)督的多模態(tài)哈希方法(supervised multimodal Hashing,SMH)被提出,這些方法利用語義標簽提高檢索精度,然而大多數(shù)訓練時間復雜度太高,無法擴展到大規(guī)模數(shù)據(jù)集。因此,Zhang等人提出了新的語義相關(guān)最大化方法(semantic correlation maximization,SCM)[47],將語義信息無縫地集成到大規(guī)模數(shù)據(jù)建模的哈希學習過程中,避免了顯式地計算成對相似矩陣,利用所有監(jiān)督信息進行線性時間復雜度的訓練。提出了一種逐位學習哈希函數(shù)的順序?qū)W習方法,每一位的散列函數(shù)的解都有一個閉式解,在SCM學習過程中,不需要任何超參數(shù)和停止條件,使得SCM 在精度和可擴展性方面都明顯優(yōu)于SMH 方法。
為了研究跨視圖相似性搜索在多模態(tài)數(shù)據(jù)環(huán)境中學習哈希函數(shù)的問題,Ding等人提出了集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)[48]方法,首次使用集體矩陣分解技術(shù)來學習交叉視圖散列函數(shù),其不僅支持跨視圖檢索,而且通過合并多個視圖信息源提高了搜索精度。為了研究圖像文本檢索問題,Lin 等人提出了語義保持哈希(semanticspreserving Hashing,SePH)[49]方法,將數(shù)據(jù)的語義相似性作為監(jiān)督信息。SePH 將待學習散列碼之間所有的成對漢明距離轉(zhuǎn)換為另一個概率分布,并通過最小化Kulback-Leibler 散度在漢明空間中學習的散列碼來近似它。利用具有采樣策略的核邏輯回歸,學習從視圖特征到散列碼的非線性投影。
此外,當前跨模態(tài)哈希方法通常學習統(tǒng)一的或等長的哈希碼來表示多模態(tài)的數(shù)據(jù),使得不同模態(tài)的數(shù)據(jù)具有直觀的可比性。然而,由于來自不同模態(tài)的數(shù)據(jù)可能不具有一對一的對應(yīng)關(guān)系,這種統(tǒng)一的或等長的哈希表示會犧牲它們表示的可擴展性。Liu等人打破了相等散列長度表示的限制,提出了使用不等長的不同散列編碼異構(gòu)數(shù)據(jù),并提出了一個通用靈活且高效的矩陣因子分解哈希(matrix tri-factorization Hashing,MTFH)[50]框架,其可以無縫地工作在各種檢索任務(wù)中,包括成對或不成對的多模態(tài)數(shù)據(jù),以及等長或者變長的哈希編碼環(huán)境。MTFH 是首次提出嘗試學習不同長度的散列碼用于異構(gòu)數(shù)據(jù)比較的方法,并且所學的特定模態(tài)的散列碼對于跨模態(tài)檢索來說在語義上更有意義,是一個高效的無松弛的離散優(yōu)化算法,可以很好地減少哈希碼學習過程中的量化誤差。通過這個有效的實驗,后續(xù)工作可以側(cè)重于利用每個模態(tài)的最佳散列長度來執(zhí)行跨模態(tài)檢索任務(wù),以及對小樣本數(shù)據(jù)集的適應(yīng)性和對更多模態(tài)的擴展。
為了綜合利用不同模態(tài)之間的內(nèi)在相關(guān)性,并同時充分利用監(jiān)督信息進行高效的跨模態(tài)檢索,Meng等人提出了一種新穎的跨模態(tài)哈希方法(asymmetric supervised consistent and specific Hashing,ASCSH)[51],并且提出了一種有效的多模態(tài)映射學習策略,將不同模態(tài)的映射矩陣分解為一致部分和特定于模態(tài)的部分。同時為了充分挖掘監(jiān)督信息,構(gòu)造了一種新穎的離散不對稱學習結(jié)構(gòu),以聯(lián)合利用成對相似性和語義標簽。該模型給人們帶來啟發(fā):聯(lián)合探索一致和特定于模態(tài)的信息,有利于發(fā)現(xiàn)模態(tài)數(shù)據(jù)間的共享內(nèi)在語義;引入非對稱編碼結(jié)構(gòu),有助于提高哈希碼的區(qū)分能力,進而降低計算成本。該方法值得人們思考,其不僅可以產(chǎn)生優(yōu)越的性能,而且在計算效率和檢索性能之間也獲得了良好的平衡,是應(yīng)對目前部分跨模態(tài)檢索相關(guān)方法的運算復雜度較高問題的方法之一。
早期還有很多類似于上述方法的工作,這些方法大多專注于模態(tài)間語義關(guān)系的發(fā)掘,而這些語義關(guān)系往往是通過某些淺層的結(jié)構(gòu)提取出的基于手工制作的特性,而這些特性可能與哈希編碼學習過程不兼容。這就使得特征提取與哈希碼學習過程的分離,從而降低了緊湊哈希碼的有效性。
與上述傳統(tǒng)的淺層結(jié)構(gòu)提取手工特征相比,深度學習技術(shù)所提取的特征更加具有區(qū)分性和有效性。因此近些年來,大量的研究深度學習結(jié)合哈希學習(簡稱深度哈希)的工作陸續(xù)展開。
由于大多數(shù)跨模態(tài)哈希(cross-modal Hashing,CMH)方法基于手工制作的特性,導致其無法實現(xiàn)令人滿意的性能。Jiang等人提出一種新的CMH方法——深度跨模態(tài)哈希(deep cross-modal Hashing,DCMH)[52],實現(xiàn)圖像文本兩種模態(tài)數(shù)據(jù)的互檢索。DCMH 是集成特征學習與哈希學習的端到端框架,從端開始執(zhí)行特征學習,一端提取圖像特征,一端提取文本特征。自DCMH 首次提出將哈希與深度學習結(jié)合并證明了其可行性以來,諸多基于深度哈希的跨模態(tài)研究工作陸續(xù)展開。在DCMH 的基礎(chǔ)上,Zhen 等人提出深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)[53]方法,其目的是保持不同語義類別樣本之間的區(qū)分度,同時消除跨模態(tài)差異。最小化樣本在標簽空間和公共表示空間中的判別損失,用以監(jiān)督模型學習判別特征。同時最小化模態(tài)不變性損失,并使用權(quán)重共享策略來學習公共表示空間中的模態(tài)變量特征。這樣的學習策略,使得成對標簽信息和分類信息都被盡可能充分地利用,確保了所學習的表示在語義結(jié)構(gòu)上是有區(qū)別的,彌合了不同模態(tài)之間的異構(gòu)差距。
基于深度學習方法的成功,跨模態(tài)檢索在近些年取得了顯著的進展,但是仍然存在一個關(guān)鍵的瓶頸,即如何彌補不同模態(tài)之間的差異以進一步提高檢索的準確性。因此,Li 等人提出了一種自監(jiān)督的對抗式哈希方法(self-supervised adversarial Hashing,SSAH)[54],利用兩個對抗網(wǎng)絡(luò)來學習不同模態(tài)的高維特征及其對應(yīng)哈希碼,以最大化語義相關(guān)性和模態(tài)之間的特征分布的一致性。并且利用自監(jiān)督語義網(wǎng)絡(luò)以多標簽標注的形式發(fā)現(xiàn)高級語義信息,將自監(jiān)督語義學習與對抗學習相結(jié)合,能盡可能保證語義相關(guān)性和跨模態(tài)表示一致性。這些信息指導著特征學習的過程,并且在公共語義空間和漢明空間中也保持著模態(tài)之間的關(guān)系。
為加強對語義標簽信息的利用,Lin 等人提出一種新的深度跨模態(tài)哈希方法——語義深度跨模態(tài)哈希(semantic deep cross-modal Hashing,SDCH)[55],生成更加具有區(qū)分性的哈希碼。利用語義標簽改進特征學習部分,可以保留學習到的特征的語義信息,并保持跨模態(tài)數(shù)據(jù)的不變性。此外,采用模態(tài)間成對損失、交叉熵損失和量化損失來保證所有相似實例對的排序相關(guān)性高于不同實例對的排序相關(guān)性。語義標簽的加入使得可以利用其來為相互關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)學習更一致的哈希碼,這能顯著地減輕模態(tài)差距并提高檢索性能。然而現(xiàn)實中的數(shù)據(jù)往往并不完全具有相關(guān)語義標簽,無監(jiān)督領(lǐng)域缺乏足夠的探索,且由于DNN 的加入使得可以產(chǎn)生更多的語義相關(guān)特征和哈希碼,并且能進一步提高檢索性能,Su 等人提出了一種面向大規(guī)模的深度無監(jiān)督聯(lián)合語義重構(gòu)哈希(deep joint-semantics reconstructing Hashing,DJSRH)[56]方法,其首次提出構(gòu)造一種新穎的聯(lián)合語義親和矩陣,以學習保留原始數(shù)據(jù)鄰域結(jié)構(gòu)的哈希碼,用于挖掘輸入實例之間潛在的內(nèi)在語義關(guān)系。通過提出的重構(gòu)框架學習二進制碼以最大限度地重構(gòu)聯(lián)合語義結(jié)構(gòu),一方面對原始相似度范圍進行線性變換以調(diào)整更好的量化區(qū)域,使重構(gòu)更加靈活;另一方面,重構(gòu)了特定的相似度值,使得DJSRH 比前人[57]所使用的拉普拉斯約束更適合端到端的分批訓練。
由于大多數(shù)現(xiàn)有的跨模態(tài)哈希方法在探索模態(tài)數(shù)據(jù)間的語義一致性方面有所欠缺,進而導致性能不理想,Xie等人提出了一種新穎的深度哈希方法CPAH(multi-task consistency-preserving adversarial Hashing)[58],其將多模態(tài)語義一致性學習和哈希學習無縫地結(jié)合在一個端到端的框架中。并且提出了一致性細化模塊和多任務(wù)對抗性學習模塊,分別用于分離模態(tài)表示與保留語義一致性信息,充分挖掘不同模態(tài)間的語義一致性和相關(guān)性,進而實現(xiàn)高效率的檢索。
現(xiàn)有方法將哈希學習用于跨模態(tài)檢索,使其具有存儲需求小和檢索速度快的優(yōu)勢。卻存在一些問題,如將模態(tài)數(shù)據(jù)實值特征進行二值化轉(zhuǎn)化過程中將原有數(shù)據(jù)的結(jié)構(gòu)破壞,不可避免有精度損失,并且大部分沒有考慮到模態(tài)內(nèi)數(shù)據(jù)結(jié)構(gòu)和模態(tài)間結(jié)構(gòu)的匹配關(guān)聯(lián),對哈希進行優(yōu)化計算比較復雜等。
在對相關(guān)研究總結(jié)綜述的基礎(chǔ)上,為了進一步加深對相關(guān)研究的認識和理解,評估與分析不同跨模態(tài)檢索技術(shù)方法的特點,本文在傳統(tǒng)統(tǒng)計分析、深度學習、哈希學習三大類技術(shù)中選取具有代表性的方法,在同一個數(shù)據(jù)集上進行跨模態(tài)檢索實驗,并根據(jù)實驗結(jié)果進行分析和比較。
跨模態(tài)常用數(shù)據(jù)集有Wikipedia[13]數(shù)據(jù)集、Flickr8K數(shù)據(jù)集、Flickr30K[59]數(shù)據(jù)集、NUS-WIDE[60]數(shù)據(jù)集、XMedia[61]數(shù)據(jù)集、MIR Flickr[62]數(shù)據(jù)集、MSCOCO[63]數(shù)據(jù)集等。
為了統(tǒng)一,按照文獻[64]選取NUS-WIDE 數(shù)據(jù)集中10 個最常見類別的圖像進行實驗,并且每一個圖像以及相應(yīng)的標簽被視為具有唯一類別標簽的圖像文本對。最終有71 602 個圖像文本對,其中訓練集由42 941 對圖像文本對組成,驗證集由5 000 對圖像文本對組成,測試集由23 661 對圖像文本對組成。
為了控制其他因素干擾,對圖像使用相同的CNN特征,這些CNN 特征是遵循文獻[24]從具有4 096 個維度的19 層VGG Net[32]中的fc7 層提取出來的。300個維度的文本特征是通過預(yù)先訓練好的Doc2Vec 模型[65]中提取出來的,對NUS-WIDE 數(shù)據(jù)集預(yù)處理結(jié)果如表1 所示。
Table 1 Preprocessing results for NUS-WIDE data set表1 對數(shù)據(jù)集NUS-WIDE 預(yù)處理結(jié)果
基于傳統(tǒng)統(tǒng)計分析的跨模態(tài)檢索技術(shù)選取了GSS-SL[17]方法,基于深度學習的跨模態(tài)技術(shù)選取了SDML[24]方法,基于哈希學習的跨模態(tài)技術(shù)選取了MTFH[50]方法。
三種檢索方法分別在經(jīng)過預(yù)處理之后的統(tǒng)一數(shù)據(jù)集NUS-WIDE上進行跨模態(tài)檢索任務(wù)實驗,即通過一種模態(tài)去查詢另一種模態(tài),這里通過文本檢索圖像(文本→圖像)和通過圖像檢索文本(圖像→文本)。
采用平均精度均值(mean average precision,mAP)作為評估指標對性能進行評估。其中MTFH 方法,選取在核邏輯回歸中更優(yōu)的k-means 方案[50],哈希長度依次調(diào)整16 bit、32 bit、64 bit、128 bit,記錄其mAP結(jié)果。
表2 列出了三種方法在NUS-WIDE 數(shù)據(jù)集上實驗的mAP 結(jié)果。
從表2 中可以看出:SDML 方法性能最優(yōu),其次是MTFH 方法,最差的是GSS-SL 方法。且MTFH 方法性能并不是隨著哈希碼長度增加而持續(xù)提升,長度最適合的哈希碼才能使其達到最高精度。
Table 2 mAP score comparison表2 mAP 分值比較
從方法的理論基礎(chǔ)和實驗結(jié)果可以得出如下結(jié)論:基于傳統(tǒng)統(tǒng)計分析的技術(shù)作為跨模態(tài)公共子空間建模方法的基本范例,這些方法對于訓練來說是相對有效的,并且易于實施,但是由于其并沒有考慮單一模態(tài)數(shù)據(jù)的局部結(jié)構(gòu)與模態(tài)間的數(shù)據(jù)結(jié)構(gòu)的匹配情況,且僅僅通過線性投影很難完全對真實世界中多模態(tài)數(shù)據(jù)的復雜相關(guān)性進行建模,導致在模態(tài)間高級語義建模方面無法取得有效的結(jié)果。其次其不僅針對如今大規(guī)模以及高維的數(shù)據(jù)來說訓練時間較復雜,模型的運算復雜度較高以及檢索效率較低,而且模型的易擴展性較差,大多模型僅限制兩種媒體類型作為輸入,擴展多模態(tài)檢索需更加復雜的工作設(shè)計,因此與其他兩類技術(shù)方法相比處于劣勢。
基于深度學習的跨模態(tài)檢索技術(shù),具有更好的適應(yīng)大數(shù)據(jù)樣本的能力、超強計算能力和深度學習模型對特征的豐富表示能力等特點。深度學習的發(fā)展,很好地解決了傳統(tǒng)統(tǒng)計分析方法難以提取數(shù)據(jù)之間非線性關(guān)系的難題,這對于跨模態(tài)檢索領(lǐng)域來說是一個質(zhì)的飛躍,因此其相比于傳統(tǒng)統(tǒng)計分析方法能更好地提取多模態(tài)數(shù)據(jù)間語義信息,進而使得跨模態(tài)檢索的性能得到了進一步的提高。然而大多數(shù)現(xiàn)有方法,存在同樣的問題:模型過于復雜,大規(guī)模數(shù)據(jù)訓練耗時較長,且運算復雜度過高;僅追求檢索精度,而忽略了檢索性能,使得模型雖然獲得卓越的檢索精度,然而具有巨大的檢索延遲和效率低下的問題,難以在現(xiàn)實中應(yīng)用;大多數(shù)方法仍然僅針對兩種模態(tài)的檢索問題,模型可擴展性依然較差,盡管有針對五種模態(tài)的工作[28],但仍是未來研究的重要挑戰(zhàn)。
基于哈希學習技術(shù)的加入,很好地解決了前人大多數(shù)工作存在的實際檢索時效率低下的問題,對于跨模態(tài)檢索的實際應(yīng)用起到了巨大的推動作用。其使用短的二進制哈希碼,使得檢索效率得到了極大的提高,且其還具有低存儲的特性,降低了對存儲的要求,使得檢索在現(xiàn)實世界中大規(guī)模數(shù)據(jù)集上受益頗多,成為應(yīng)對跨模態(tài)檢索模型復雜度較高的主流解決手段。然而在將實值特征數(shù)據(jù)轉(zhuǎn)化為二值哈希碼的過程中,不得不將原有數(shù)據(jù)結(jié)構(gòu)破壞,這就不可避免地造成了精度的損失。因此,其對多模態(tài)數(shù)據(jù)語義的提取以及對處理復雜交叉模態(tài)數(shù)據(jù)相關(guān)性的特征抽象能力沒有深度學習表現(xiàn)得那樣卓越。
因此,同時結(jié)合深度學習算法在表征學習中表現(xiàn)出來的良好性能以及哈希方法所表現(xiàn)出的高效率低存儲的特性,有助于減少不同模態(tài)形式數(shù)據(jù)之間的異構(gòu)性差距和語義差距,同時降低算法運算復雜度。適當結(jié)合深度學習算法與哈希學習(簡稱深度哈希)來為跨模態(tài)檢索建模不同類型的數(shù)據(jù)是未來的趨勢,不僅可以獲得卓越的檢索精度,在計算效率和檢索性能之間也可獲得良好的平衡。自2017 年,DCMH 方法首次提出將兩者結(jié)合并證明了其可行性以來,已經(jīng)有諸多學者進行實踐,例如DSCMR[53]、SSAH[54]、SHCH[55]、DJSRH[56]、CPAH[58]等,使用集成的方式將高級特征學習與哈希學習結(jié)合起來,由此可以通過誤差反向傳播利用哈希碼來優(yōu)化特征表示[50],這將是未來研究的重點所在。除了少數(shù)方法[48],值得注意的是大多數(shù)已有的基于哈希技術(shù)的跨模態(tài)檢索方法在可擴展性方面依然沒有太多涉及,這將是未來將其應(yīng)用于現(xiàn)實所面臨的重要挑戰(zhàn)。
盡管跨模態(tài)檢索領(lǐng)域已經(jīng)取得了一些有前景的成果,但在最先進的方法和用戶期望之間仍存在差距,這表明人們?nèi)匀恍枰谠搯栴}上持續(xù)探索。當前大部分現(xiàn)有工作,存在以下共同問題,這也是未來研究的重要挑戰(zhàn)。
(1)模型的可擴展性
模型大多從頭開始訓練,且大多現(xiàn)有工作仍限制于只有兩種媒體類型作為輸入,模型可擴展性較差,共同學習兩個以上的媒體類型的公共子空間可以用來提高跨模態(tài)檢索問題的靈活性,亦是未來研究的重要挑戰(zhàn)。
(2)應(yīng)對現(xiàn)實數(shù)據(jù)集的跨模態(tài)檢索
像Facebook、YouTube、微博、微信等社交網(wǎng)絡(luò)產(chǎn)生了大量的由人們所創(chuàng)建的多模態(tài)內(nèi)容,然而這些數(shù)據(jù)大多是松散的,并且標簽是有限的且含有噪聲的,而大規(guī)模的多模態(tài)數(shù)據(jù)是很難進行標記的?,F(xiàn)有大多數(shù)方法僅針對理想大規(guī)模樣本以及含有語義標簽的數(shù)據(jù)集設(shè)計,而對于現(xiàn)實中小樣本、零樣本、噪聲樣本場景以及弱監(jiān)督、半監(jiān)督、無監(jiān)督方法較少涉及,因此在此情況下如何利用有限的且有噪聲干擾的數(shù)據(jù)來學習多模態(tài)數(shù)據(jù)之間的語義相關(guān)性,是未來亟待解決的問題。
(3)大規(guī)模的具有多樣性或噪聲的數(shù)據(jù)集
近些年越來越復雜的算法模型涌現(xiàn),然而缺乏進一步用于訓練、測試以及評估模型的良好數(shù)據(jù)集。當前跨模態(tài)檢索所共用的數(shù)據(jù)集,存在規(guī)模太小、類別合理性以及大多僅包含文本及圖像兩種模態(tài)缺乏多樣性等問題,這些問題的存在使得多數(shù)數(shù)據(jù)集限制了模型評估的客觀性。例如,Wikipedia[13]數(shù)據(jù)集太小,且僅僅包含兩種模態(tài)數(shù)據(jù)類型。因此,包含多種模態(tài)樣本以及含有噪聲的大規(guī)模真實數(shù)據(jù)集,將是解決以上兩個問題的關(guān)鍵,也將對未來的研究工作帶來極大的幫助。近些年也出現(xiàn)了一些比較好的數(shù)據(jù)集,例如XMedia[61]數(shù)據(jù)集,其是第一個包含五種模態(tài)類型(圖像、文本、視頻、音頻和3D 模型)、200 多個類別、10 萬多個實例的數(shù)據(jù)集,這將有助于人們專注于算法設(shè)計,而不是耗時地比較模型與結(jié)果,極大促進跨模態(tài)檢索的發(fā)展。
(4)檢索效率的追求
大多數(shù)現(xiàn)有模型僅追求檢索精度,卻忽略了檢索效率,導致了訓練之后的模型具有巨大的檢索延遲和效率低下的問題,使得無法在現(xiàn)實中應(yīng)用。因此如何在保證檢索精度的同時提高檢索效率,是亟待解決亦必須解決的問題,是后續(xù)工作的重中之重,其中哈希方法的廣泛應(yīng)用為此問題的解決帶來了巨大的推動力,近些年的文獻也偏向于與哈希方法結(jié)合完成檢索,進而降低運算的復雜度。
(5)語義鴻溝
如前面所說,深度哈希是將跨模態(tài)檢索應(yīng)用于現(xiàn)實所面臨的重要挑戰(zhàn),然而盡管現(xiàn)有方法與很多方法相比表現(xiàn)出出色的性能,但仍然受到計算復雜性以及對模型最佳參數(shù)查找的窮舉搜索的限制,并且不能很好地彌合哈希碼的漢明距離與特征度量距離之間的語義差距。因此,結(jié)合深度學習與哈希學習來解決跨模態(tài)檢索問題方面的研究很值得關(guān)注和期待,也是后續(xù)研究的重點。例如,使用CNN 建模圖像模態(tài),使用RNN 建模文本模態(tài)。需注意的是Self-Attention 機制[66]被廣泛關(guān)注,其由于可以無視詞之間的距離直接計算依賴關(guān)系,且能夠解決RNN 出現(xiàn)的不能并行的問題,近些年被廣泛用來配合RNN 與CNN 使用,甚至該機制可以代替RNN 并能取得更加優(yōu)越的效果,已被成功應(yīng)用于各種自然語言處理(natural language processing,NLP)以及計算機視覺(computational vision,CV)任務(wù)[67-69]。以及近些年被廣泛關(guān)注的Transformer模型[66],旨在全部利用Attention方式替換RNN 的循環(huán)機制,進而能并行優(yōu)化計算并實現(xiàn)提速,從而其在NLP 以及CV 任務(wù)上表現(xiàn)出卓越的性能,這使得在跨模態(tài)檢索問題上具有很高的應(yīng)用價值,也已經(jīng)有學者對其進行了研究應(yīng)用[70-71]。
(6)細粒度的語義關(guān)聯(lián)以及豐富的上下文信息
跨模態(tài)檢索的主要挑戰(zhàn)仍是不同模態(tài)數(shù)據(jù)之間的“語義鴻溝”,大多數(shù)已有模型通常將不同模態(tài)數(shù)據(jù)映射到公共子空間,在其中比較不同模態(tài)數(shù)據(jù)。然而,由于不同的圖像區(qū)域往往對應(yīng)于不同的文本片段,直接映射到公共子空間顯得太粗糙,考慮的粒度更精細可以更準確地對多模態(tài)語義進行關(guān)聯(lián)建模。而且,模態(tài)之間的語義相關(guān)性往往與上下文信息有關(guān),現(xiàn)有許多方法忽略了含有豐富語義關(guān)系的上下文,只考慮語義類別標簽等作為訓練信息,降低了檢索的性能。因此,如何獲取不同模態(tài)數(shù)據(jù)片段并找到其語義關(guān)聯(lián)關(guān)系進而進行細粒度建模,以及更加關(guān)注含有豐富語義的上下文信息是未來需要解決的問題,這將對模型的精度提高帶來助力。
本文深入分析了跨模態(tài)檢索問題,針對公共子空間建模關(guān)鍵技術(shù)進行了研究,將其總結(jié)歸納為基于傳統(tǒng)統(tǒng)計分析、基于深度學習和基于哈希學習三類技術(shù);對三類技術(shù)相關(guān)研究的發(fā)展脈絡(luò)、研究現(xiàn)狀和進展進行了綜述,從理論和實驗兩個角度進行了對比分析;對目前研究的各種不同方法的特點和不足進行了總結(jié),并對未來研究重點進行了充分展望,為后續(xù)研究奠定了扎實基礎(chǔ)。