国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)驅(qū)動的跨模態(tài)視覺數(shù)據(jù)搜索研究綜述*

2022-10-24 08:01朱維喬廣州航海學(xué)院廣州510725
高校圖書館工作 2022年5期
關(guān)鍵詞:哈希檢索模態(tài)

●朱維喬 (廣州航海學(xué)院 廣州 510725)

隨著人工智能技術(shù)發(fā)展的一日千里,以及移動終端與社交網(wǎng)絡(luò)的日益普及,互聯(lián)網(wǎng)上的多媒體數(shù)據(jù)呈現(xiàn)指數(shù)級激增。包括圖像、文本、音視頻等不同類型的數(shù)據(jù)通常用于描述同一事物[1],這些不同種類的數(shù)據(jù)稱作多模態(tài)數(shù)據(jù),其在形式上表現(xiàn)出底層特征(如文本關(guān)鍵詞、視頻的幀、圖像顏色等)的異構(gòu)性和高層語義的關(guān)聯(lián)性[2]。相互關(guān)聯(lián)的多模態(tài)海量數(shù)據(jù)使用戶跨模態(tài)檢索的需求與日俱增。如圖1所示,左圖通過文本搜索出相關(guān)圖像,右圖通過圖像搜索出相關(guān)文本,表達(dá)同一事物的圖像和文本屬于不同模態(tài)數(shù)據(jù),此類跨模態(tài)數(shù)據(jù)間的互檢索方式即為跨模態(tài)檢索[2]。移動視覺搜索屬于跨模態(tài)數(shù)據(jù)搜索,指通過移動智能終端攝像頭獲取現(xiàn)實對象的圖像、視頻、3D模型以及音頻等視聽覺數(shù)據(jù),在互聯(lián)網(wǎng)檢索上述多模態(tài)數(shù)據(jù)的關(guān)聯(lián)信息,并在智能終端顯示出來的一種信息獲取方式。其難點在于對文本、視頻等跨模態(tài)數(shù)據(jù)的時序信息的理解,以及構(gòu)建跨模態(tài)數(shù)據(jù)之間匹配關(guān)系的方法[3]??缒B(tài)數(shù)據(jù)搜索的實現(xiàn)過程,是提取不同模態(tài)的數(shù)據(jù)特征并對特征之間的關(guān)聯(lián)表示建立模型;通過模型與相關(guān)算法獲取檢索結(jié)果并進(jìn)行排序。其中的主要問題在于如何度量表示相同語義主題卻處于不同特征空間的跨模態(tài)數(shù)據(jù)之間的相似性,并在它們之間建立語義關(guān)聯(lián),即難點是語義鴻溝的跨越[4]。

圖1 跨模態(tài)數(shù)據(jù)搜索示意圖

深度學(xué)習(xí)作為人工智能領(lǐng)域最熱門的技術(shù)之一,近年來在語音分析、自然語言處理與計算機(jī)視覺等領(lǐng)域的推廣運用都取得了突出的成效。其卓越的特征學(xué)習(xí)與特征表達(dá)能力為跨模態(tài)數(shù)據(jù)融合問題的解決提供了新途徑,成為多模態(tài)數(shù)據(jù)語義理解與移動視覺搜索領(lǐng)域的重要工具,對異質(zhì)鴻溝問題的解決和跨模態(tài)檢索性能的提升提供了一種有前景的方案[5],能利用數(shù)據(jù)的本質(zhì)特征解決各種問題[6],有利于實現(xiàn)跨模態(tài)搜索結(jié)果的精確度和可靠性[7]。

1 跨模態(tài)視覺數(shù)據(jù)搜索問題定義

最終,跨模態(tài)數(shù)據(jù)搜索達(dá)成的目的是在給定任意模態(tài)數(shù)據(jù)時,能夠檢索出語義相似的其他某類或某幾類模態(tài)的數(shù)據(jù)。

2 基于深度學(xué)習(xí)的跨模態(tài)視覺數(shù)據(jù)搜索研究現(xiàn)狀

不同種類的跨模態(tài)視覺數(shù)據(jù)具備相似的語義信息,這種潛在相關(guān)性使搭建公共空間并將跨模態(tài)數(shù)據(jù)映射至此,進(jìn)而生成統(tǒng)一的特征表征方式并進(jìn)行相關(guān)性度量匹配具有可行性[8]。如圖2所示,跨模態(tài)視覺數(shù)據(jù)搜索的過程架構(gòu),是在抽取多模態(tài)數(shù)據(jù)特征的基礎(chǔ)上學(xué)習(xí)其公共表征,并實現(xiàn)跨模態(tài)匹配和排序。由此可見,圖像、文本以及視頻等跨模態(tài)視覺數(shù)據(jù)能夠在公共語義空間中互相接近[9]。

圖2 跨模態(tài)視覺數(shù)據(jù)搜索過程架構(gòu)

深度學(xué)習(xí)技術(shù)驅(qū)動的跨模態(tài)數(shù)據(jù)搜索研究獲得了較大突破,檢索準(zhǔn)確性得以明顯提升。下文以深度學(xué)習(xí)技術(shù)應(yīng)用為切入點進(jìn)行綜述,將跨模態(tài)數(shù)據(jù)搜索研究劃分為基于卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)的方法、基于圖網(wǎng)絡(luò)表示的方法、基于生成對抗的方法以及基于深度哈希編碼的方法。其中,前三種方法側(cè)重于應(yīng)用深度學(xué)習(xí)技術(shù)提升跨模態(tài)檢索的準(zhǔn)確性,而基于深度哈希編碼的方法融合了深度學(xué)習(xí)技術(shù)與哈希算法,側(cè)重于檢索效率與精確度的同步提升。

2.1 基于卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)的方法

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)。其中,前者主要用于抽取圖像數(shù)據(jù)特征[10],后者主要用于抽取文本數(shù)據(jù)特征及挖掘其語義。而對于視頻數(shù)據(jù)特征,通常使用三維CNN進(jìn)行抽取;對于音頻數(shù)據(jù)特征,需要首先進(jìn)行數(shù)據(jù)信號的降噪處理,再使用CNN抽取數(shù)據(jù)特征。

在應(yīng)用深度學(xué)習(xí)技術(shù)實現(xiàn)數(shù)據(jù)特征抽取時,研究者們根據(jù)不同目標(biāo)提出相應(yīng)的改進(jìn)組合方法。由于文本數(shù)據(jù)和圖像數(shù)據(jù)之間語義鴻溝的存在,使用文本對所需圖像進(jìn)行精準(zhǔn)描述存在著較大難度,Vo N等提出了TIRG(Text Image Residual Gating)模型,該方法通過查詢文本數(shù)據(jù)特征修改圖像數(shù)據(jù)特征,運用剩余連接對文本與圖像特征進(jìn)行重組,形成全新的數(shù)據(jù)查詢特征[11]。例如,將文本或圖像數(shù)據(jù)作為輸入,通過文本對圖像數(shù)據(jù)特征進(jìn)行修正調(diào)整,使其與預(yù)測的輸出結(jié)果相符。如圖3所示,輸入為一組圖像和文本,最終輸出結(jié)果是圖像。TIRG模型以輸入圖像為基礎(chǔ),通過改變某些特征,使語義鴻溝問題得以有效緩解[9]。

圖3 TIRG模型效果示例[11]

對于視頻數(shù)據(jù)的特征抽取,二維CNN的局限性體現(xiàn)在抽取視覺空間特征而遺漏時間特征,應(yīng)用三維CNN則可以使視頻數(shù)據(jù)的時間特征得以保留。因此,Yamaguchi M等使用二維CNN和三維CNN相結(jié)合的方式抽取視頻數(shù)據(jù)特征[12]。對于音頻數(shù)據(jù)的特征抽取,Google公司通過實驗發(fā)現(xiàn)CNN架構(gòu)不但擅于處理圖像數(shù)據(jù),而且在音頻數(shù)據(jù)分類任務(wù)方面也卓有成效[9]。此外,Guo M等提出文本和音頻數(shù)據(jù)之間跨模態(tài)檢索架構(gòu),運用語音特征參數(shù)MFCCs抽取音頻數(shù)據(jù)特征[13]。

排序加權(quán)機(jī)制在跨模態(tài)數(shù)據(jù)搜索領(lǐng)域的應(yīng)用近年來得以推廣,促進(jìn)了檢索性能的提升。其運行機(jī)理是根據(jù)不同的數(shù)據(jù)搜索任務(wù),通過權(quán)重排序的方式對關(guān)鍵數(shù)據(jù)進(jìn)行抽取,使不同模態(tài)數(shù)據(jù)特征的重要性得以平衡。該機(jī)制在特征抽取階段發(fā)揮了顯著的作用,有效保存了關(guān)鍵數(shù)據(jù)的特征信息[9]。如Li S等提出采用遞歸神經(jīng)網(wǎng)絡(luò)算法RNN模型進(jìn)行數(shù)據(jù)特征抽取,輸入信息包括人物圖像數(shù)據(jù)及其描述語句,輸出的是二者之間的匹配度[14],該算法對公共場所密集人群的安全監(jiān)控具有較高的應(yīng)用價值。Dey S等提出使用長短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)為圖像數(shù)據(jù)計算注意力圖,將其映射至公共子空間同其他模態(tài)數(shù)據(jù)的查詢特征相比較,并進(jìn)行權(quán)重排序以及相關(guān)性度量[15]。

2.2 基于圖網(wǎng)絡(luò)表示的方法

深度神經(jīng)網(wǎng)絡(luò)具備強(qiáng)大的視覺關(guān)系學(xué)習(xí)與推理功能,在數(shù)據(jù)內(nèi)容相關(guān)性匹配過程中發(fā)揮著重要作用。圖像數(shù)據(jù)的語義信息包括圖像中的對象、屬性以及相互關(guān)系,對語義信息的識別與表示有利于加強(qiáng)對數(shù)據(jù)內(nèi)容的理解。圖網(wǎng)絡(luò)表示模型在視覺數(shù)據(jù)搜索中顯示出卓越的性能,使圖像數(shù)據(jù)中對象之間的關(guān)系得以更清晰地呈現(xiàn)和表達(dá),具有更強(qiáng)的魯棒性,并有效填補了語義鴻溝。為了解決同一場景內(nèi)對象之間關(guān)系的復(fù)雜性問題,Johnson J等構(gòu)建了面向視覺場景的條件隨機(jī)域模型CRF(Conditional Random Field),用場景圖代替文本對圖像數(shù)據(jù)進(jìn)行檢索并獲取詳細(xì)語義信息[16]。Yang J W等提出了graph RCNN模型,采用圖網(wǎng)絡(luò)建模的同時度量對象之間的相似性[17]。對于視頻時刻檢索問題的處理方法,Liu B B等提出時序模塊網(wǎng)絡(luò)模型(Temporal Modular Networks),通過查詢的底層語言結(jié)構(gòu)對相應(yīng)的神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行動態(tài)組裝,進(jìn)而組合推理視頻數(shù)據(jù),輸出查詢與視頻數(shù)據(jù)之間的對應(yīng)關(guān)系[18]。

2.3 基于生成對抗的方法

生成對抗模型作為深度學(xué)習(xí)研究方向的聚焦點,自被提出以來一直熱度不減。Peng Y X等發(fā)現(xiàn)的跨模態(tài)GAN結(jié)構(gòu)[19]和Wang B K等研究的對抗性跨模態(tài)數(shù)據(jù)檢索[20]極為相似,二者均以跨模態(tài)數(shù)據(jù)的聯(lián)合分布為對象構(gòu)建模型。不同模態(tài)數(shù)據(jù)間的相關(guān)性在生成模型中進(jìn)行匹配,同一模態(tài)內(nèi)的數(shù)據(jù)內(nèi)容相關(guān)性通過判別模型進(jìn)行探索,通過對抗博弈促進(jìn)跨模態(tài)數(shù)據(jù)的相關(guān)性學(xué)習(xí)。其中,生成模型的構(gòu)成選取卷積自動編碼器,以實現(xiàn)跨模態(tài)數(shù)據(jù)相關(guān)性與重構(gòu)信息的有效利用[21]。

Wang H等提出的對抗性跨模態(tài)數(shù)據(jù)嵌入法,是運用對抗性學(xué)習(xí)方法進(jìn)行模態(tài)對齊,進(jìn)而學(xué)習(xí)不同模態(tài)之間的公共映射特征空間[22]。此外,Gu J X等也將跨模態(tài)特征嵌入與生成過程相結(jié)合,實現(xiàn)局部基礎(chǔ)特征與整體抽象特征的同步學(xué)習(xí)[23]。

綜上所述,生成對抗模型通過文本生成圖像的方式來檢索圖像數(shù)據(jù),使跨模態(tài)差異得以有效降低。其中,生成模型用于記錄樣本數(shù)據(jù)分布,判別模型驗證生成數(shù)據(jù)的真實性。二者通過互相對抗博弈,使模型最終達(dá)到平衡。

2.4 基于深度哈希編碼的方法

跨模態(tài)多媒體數(shù)據(jù)的爆發(fā)式激增使檢索系統(tǒng)的存儲空間面臨著巨大壓力,為了擺脫這一困境,研究人員以哈希算法作為解決問題的工具,將跨模態(tài)數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制哈希編碼后投影至公共空間,實現(xiàn)檢索速度的提升與存儲空間的壓縮。然而手工特征的哈希算法雖使檢索速度與存儲性能得以改善,但在一定程度上損失了檢索精度。為了實現(xiàn)平衡檢索效率與精確性的目標(biāo),近年來有學(xué)者將深度學(xué)習(xí)技術(shù)與哈希算法相結(jié)合,即應(yīng)用深度哈希編碼方法[24]。 Salakhutdinov R等學(xué)者最早提出了語義哈希方法,使用基于深度學(xué)習(xí)的受限玻爾茲曼機(jī)模型學(xué)習(xí)哈希編碼以實現(xiàn)可視化數(shù)據(jù)搜索[25]。Xia R K等[26]和Liong V E等[27]提出包括數(shù)據(jù)特征學(xué)習(xí)與哈希編碼生成的二階段深度哈希方法,采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)多模態(tài)數(shù)據(jù)中的非線性表征轉(zhuǎn)換,實行統(tǒng)一的二進(jìn)制哈希編碼并以其為依據(jù)對隱變量進(jìn)行建模。董震等設(shè)計了深度異構(gòu)哈希網(wǎng)絡(luò)用于檢索跨模態(tài)人臉數(shù)據(jù),使人臉圖像與視頻這兩種位于異構(gòu)空間的跨模態(tài)數(shù)據(jù)可以映射至同一公共空間,進(jìn)而生成二值哈希編碼表示[28]。此模型提供了深度哈希方法的通用架構(gòu),適用于多種跨模態(tài)數(shù)據(jù)的搜索任務(wù)。

深度哈希方法的訓(xùn)練需要多模態(tài)海量數(shù)據(jù)的支撐,當(dāng)新數(shù)據(jù)出現(xiàn)時需要重新訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型生成哈希碼。為了解決這一增量學(xué)習(xí)難題,Wu D Y等設(shè)計了深度增量哈希網(wǎng)絡(luò)模型,在原有圖像哈希碼表示不變的基礎(chǔ)上,以增量方式對哈希編碼進(jìn)行學(xué)習(xí),在無須重新訓(xùn)練模型的條件下,使新數(shù)據(jù)能夠直接進(jìn)行哈希編碼,并且保持訓(xùn)練數(shù)據(jù)間的相似性,進(jìn)而學(xué)習(xí)查詢數(shù)據(jù)集的深度哈希算法,既減少了訓(xùn)練時間又保證了檢索精準(zhǔn)度[29]。

3 跨模態(tài)視覺數(shù)據(jù)搜索常用數(shù)據(jù)集

在跨模態(tài)視覺數(shù)據(jù)搜索方法研究與評價的過程中,數(shù)據(jù)集有助于實現(xiàn)評估檢索性能的目標(biāo),具有舉足輕重的作用,下文對常用數(shù)據(jù)集進(jìn)行重點介紹。

Wikipedia數(shù)據(jù)集。該數(shù)據(jù)集來源于Wiki維基百科,包含兩種模態(tài)特征,在跨模態(tài)數(shù)據(jù)搜索研究過程中使用較為廣泛。其包括兩千余個語義互為關(guān)聯(lián)的文本/圖像數(shù)據(jù)對,每一個文本/圖像數(shù)據(jù)對標(biāo)注相應(yīng)的語義類別[5]。

Flickr數(shù)據(jù)集。該數(shù)據(jù)集來源于雅虎的相冊網(wǎng)站Flickr,內(nèi)容涉及各項人類日常活動的相關(guān)場景和事件。其中Flickr8k數(shù)據(jù)集與Flickr30k數(shù)據(jù)集分別包含8 000張、31 783張來源于Flickr網(wǎng)站的圖像,每張圖像有對應(yīng)的五個獨立文本注釋語句進(jìn)行描述,描述語句由網(wǎng)站用戶進(jìn)行編輯[30]。

MS COCO(Microsoft Common Objects in Context)數(shù)據(jù)集。該數(shù)據(jù)集由微軟公司收集構(gòu)建,與Flickr數(shù)據(jù)集相比較,該數(shù)據(jù)集包含更多數(shù)量的日常生活場景圖像與文本標(biāo)簽數(shù)據(jù),并提供了數(shù)據(jù)的視覺描述特征,其中有123 287 張用于訓(xùn)練與驗證的圖像,每張圖像有對應(yīng)的五個注釋語句進(jìn)行描述[31]。

PKU XMedia Net數(shù)據(jù)集。該數(shù)據(jù)集來源于YouTube、Wikipedia、Flickr等,由北京大學(xué)多媒體信息處理研究室通過網(wǎng)絡(luò)爬蟲抓取采集,是當(dāng)前數(shù)據(jù)量最大、模態(tài)種類最多的跨模態(tài)檢索數(shù)據(jù)集。其中包括二十個語義類標(biāo)注,每一類包括圖像、文本、語音、視頻以及3D 模型等五種不同類型的跨模態(tài)數(shù)據(jù),數(shù)量分別為250、250、50、25、25[32]??蓪⑸鲜稣Z義類標(biāo)注作為查詢進(jìn)行數(shù)據(jù)搜索,并截取與標(biāo)注內(nèi)容相符合的片段。

4 深度跨模態(tài)數(shù)據(jù)搜索研究展望

近年來,研究者設(shè)計出一系列基于深度學(xué)習(xí)的跨模態(tài)數(shù)據(jù)搜索算法并取得了較為卓越的性能,然而,算法應(yīng)用效果仍與用戶期待之間存在差距。因此,跨模態(tài)數(shù)據(jù)搜索的研究工作仍有待向縱深方向開展。

(1)搜集海量多模態(tài)數(shù)據(jù)集。研究人員構(gòu)建的復(fù)雜深度學(xué)習(xí)算法亟須跨模態(tài)基準(zhǔn)數(shù)據(jù)集驗證支撐,然而當(dāng)前的如NUS-WIDE與Wiki僅包含兩種模態(tài)數(shù)據(jù)且體量有限,難以精準(zhǔn)描述模態(tài)特征。為此,亟須搜集海量數(shù)據(jù)集以提升跨模態(tài)數(shù)據(jù)搜索的性能[5]。

(2)充分利用語義標(biāo)注有限且含有噪聲的多模態(tài)數(shù)據(jù)。在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的大數(shù)據(jù)環(huán)境下,YouTube、微信微博等社交媒體產(chǎn)生的海量多模態(tài)數(shù)據(jù)是以松散組織的方式分布在互聯(lián)網(wǎng)中,數(shù)據(jù)標(biāo)注有限且包含龐雜噪聲,無法對全部數(shù)據(jù)進(jìn)行標(biāo)注。因而怎樣充分利用標(biāo)注有限且包含噪聲的多模態(tài)數(shù)據(jù)進(jìn)行檢索有待研究者繼續(xù)深入探索。

(3)設(shè)計高效輕量級跨模態(tài)數(shù)據(jù)搜索算法。海量多模態(tài)數(shù)據(jù)的劇增使用戶對跨模態(tài)數(shù)據(jù)搜索的需求日益提升,對搜索算法的要求也愈加苛刻。研究者設(shè)計的復(fù)雜性較高的算法在提升檢索性能的同時,卻無法保證數(shù)據(jù)搜索的效率[5]。故而,設(shè)計輕量級高性能的跨模態(tài)數(shù)據(jù)搜索算法是極具挑戰(zhàn)性的研究課題。

(4)跨模態(tài)數(shù)據(jù)的細(xì)粒度相關(guān)性建模?;谏疃壬窠?jīng)網(wǎng)絡(luò)的一般算法是在跨模態(tài)數(shù)據(jù)共同表示學(xué)習(xí)時,將不同模態(tài)數(shù)據(jù)進(jìn)行非線性映射至共同表示空間后進(jìn)行相關(guān)性度量。然而此類方法在建模時欠缺精細(xì)度,導(dǎo)致跨模態(tài)數(shù)據(jù)之間的一致性部分難以深入發(fā)掘。為了解決這一難題,研究者近年來提出了細(xì)粒度相關(guān)性的一系列建模方法[8],以深入挖掘文本數(shù)據(jù)和圖像數(shù)據(jù)之間片段級的對應(yīng)關(guān)系,并取得了較為理想的相關(guān)性建模效果。由此可見,針對不同模態(tài)類型數(shù)據(jù)的片段級表征進(jìn)行提取,并進(jìn)行復(fù)雜性更高的細(xì)粒度關(guān)系建模將成為未來的研究方向。

猜你喜歡
哈希檢索模態(tài)
基于BERT-VGG16的多模態(tài)情感分析模型
多模態(tài)超聲監(jiān)測DBD移植腎的臨床應(yīng)用
基于特征選擇的局部敏感哈希位選擇算法
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
哈希值處理 功能全面更易用
文件哈希值處理一條龍
瑞典專利數(shù)據(jù)庫的檢索技巧
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
巧用哈希數(shù)值傳遞文件