多模態(tài)數(shù)據(jù)融合綜述

2021-09-26 10:42任澤裕王振超柯尊旺吾守爾斯拉木

計算機工程與應用 2021年18期

任澤裕，王振超，柯尊旺，李哲，吾守爾·斯拉木

1.新疆多語種信息技術(shù)實驗室，新疆多語種信息技術(shù)研究中心，烏魯木齊830046

2.新疆大學信息科學與工程學院，烏魯木齊830046

3.新疆大學軟件學院，烏魯木齊830046

在數(shù)據(jù)領域，多模態(tài)用來表示不同形態(tài)的數(shù)據(jù)形式，或者同種形態(tài)不同的格式，一般表示文本、圖片、音頻、視頻、混合數(shù)據(jù)[1]。多模態(tài)數(shù)據(jù)是指對于同一個描述對象，通過不同領域或視角獲取到的數(shù)據(jù)，并且把描述這些數(shù)據(jù)的每一個領域或視角叫做一個模態(tài)[2]。而多模態(tài)數(shù)據(jù)融合，主要是指利用計算機進行多模態(tài)數(shù)據(jù)的綜合處理[3]，負責融合各個模態(tài)的信息來執(zhí)行目標預測。數(shù)據(jù)融合是一項具有挑戰(zhàn)性的任務。首先，數(shù)據(jù)是由非常復雜的系統(tǒng)生成的；其次，由于數(shù)據(jù)多樣性的增多，可以提出的新的可以進行研究的類型、數(shù)量以及規(guī)模都變得越來越大；第三，為使得各個數(shù)據(jù)集自身的優(yōu)勢得以最大程度的利用，使用異構(gòu)數(shù)據(jù)集，使得缺點得到一定程度的抑制并不是一項簡單的任務[4]。常見的機器學習算法等均可嘗試應用于多模態(tài)數(shù)據(jù)融合中。

1 多模態(tài)融合分類法

關于多模態(tài)的融合方法，大致可分為模型無關的融合方法和基于模型的融合方法兩大類。其中，模型無關的方法較簡單但實用性低，融合過程容易產(chǎn)生損失；基于模型的融合方法較復雜但準確率高、實用性強，也是目前運用的主流方法。

1.1 模型無關的融合方法

在多模態(tài)融合的過程中，融合發(fā)生的時間是一個重要的考慮因素。針對不同的融合時期或融合水平，模型無關的融合方法共有三種，每種融合方法都有各自的特點。在不同的實驗中，可以嘗試使用不同的融合方法去得到更好的結(jié)果[5]。模態(tài)的一些特性，如不同的數(shù)據(jù)采集速率，對如何同步整個融合過程提出了新的挑戰(zhàn)。以下對三種融合方法做詳細的概述。表1對三種融合方法進行比較。

表1 三種模型無關融合方法性能比較Table 1 Performance comparison of threemodel-independent fusion methods

1.1.1 早期融合

早期融合，又稱為特征融合，是指對模態(tài)進行特征提取之后立刻進行的一種融合方式。特征融合的優(yōu)勢在于可以在早期利用來自不同模態(tài)的多個特征之間的相關性，適用于模態(tài)之間高度相關的情況。例如，在結(jié)合語音識別的音頻和視頻特征時采用早期融合[6]。但對于特征的提取難度較大[7]，并不是最理想的融合方法。

這種方法很難表示多模態(tài)特征之間的時間同步[8]。由于各種模態(tài)的表征、分布和密度可能有所不同，只進行簡單的屬性之間的連接可能會忽視各個模態(tài)獨有的屬性和相關性，并可能會產(chǎn)生數(shù)據(jù)之間的冗余和數(shù)據(jù)依賴[9]。并要求需要融合的特征在融合之前以相同的格式進行表示。隨著特征數(shù)量的增加，很難獲得這些特征之間的交叉相關性。圖1所示為早期融合方法。

圖1 早期融合方法Fig.1 Early fusion methods

1.1.2 后期融合

后期融合，也稱為決策層融合，指的是在每種模態(tài)都做出決策（分類或回歸）之后才進行的融合。進行后期融合，需要使用相應的模型對不相同的模態(tài)進行訓練，再對這些模型輸出的結(jié)果進行融合。與之前的早期融合作比較，該融合方式可以處理簡單的數(shù)據(jù)異步性。另一個優(yōu)勢是允許使用最適合分析每種單一模態(tài)的方法，如音頻使用隱馬爾可夫模型（Hidden Markov Model，HMM）、圖像使用可支持向量機（Support Vector Machines，SVM）。

但后期融合忽視了多個模態(tài)之間的低水平的相互作用，并且融合起來難度較高。由于不同的分類器需要不同的決策，學習過程變得既耗時又費力。圖2所示為后期融合方法的結(jié)構(gòu)。

圖2 后期融合方法Fig.2 Post fusion method

1.1.3 混合融合

混合融合綜合了早期融合與后期融合的優(yōu)點，但也使得模型的結(jié)構(gòu)變得復雜并加大了訓練的難度。由于深度學習模型所具有的靈活性和多樣性的結(jié)構(gòu)特點，比較適合使用混合融合方法。例如，Ni等人[10]將混合融合方式應用于多媒體分析任務中，提出基于多重BP（Back Propagation）網(wǎng)絡的圖像融合方法，充分利用了各網(wǎng)絡的精度。圖3所示為混合融合方法的結(jié)構(gòu)。

圖3 混合融合方法Fig.3 Hybrid fusion method

綜上所述，三種融合方法各有優(yōu)勢和劣勢。早期融合可以較容易地找到各個特征之間的關系，卻容易造成過擬合；后期融合可以解決過擬合問題，但不允許分類器同時訓練所有數(shù)據(jù)[11]；混合融合方法較前兩者方法靈活，但是需要針對具體體系結(jié)構(gòu)，根據(jù)具體問題與研究內(nèi)容去選擇較適宜的融合方法。

1.2 基于模型的融合方法

基于模型的融合方法較模型無關的方法應用范圍更廣且效果更好，現(xiàn)在的研究更傾向于此類方法。常用方法包括多核學習方法、圖像模型方法、神經(jīng)網(wǎng)絡方法等。

1.2.1 多核學習方法

多核學習（Multi-Kernel Learning，MKL）方法是內(nèi)核支持向量機（SVM）方法的擴展，是深度學習之前最常用的方法，其允許使用不同的核對應數(shù)據(jù)的不同視圖[12-13]。由于核可以看作各數(shù)據(jù)點之間的相似函數(shù)，因此該方法能更好地融合異構(gòu)數(shù)據(jù)且使用靈活[14]。McFee等人[15]使用MKL從聲學、語義和藝術(shù)家的社會觀三方面進行音樂藝術(shù)家相似性排序，提出的新的多內(nèi)核學習（MKL）算法，它可以學習相似的空間項目來產(chǎn)生相似的空間，以最佳方式將所有特征空間組合到一個統(tǒng)一的嵌入空間中。圖4為多核學習的過程。

圖4 多核學習過程Fig.4 Multi-kernel learning process

在某些應用中，可能有來自不同的模態(tài)或?qū)诓煌瑢嶒灧椒ǖ慕Y(jié)果的不同信息源，而且每個信息源都有自己的一個或多個內(nèi)核[16]。該方法的優(yōu)點是核選擇靈活，損失函數(shù)為凸函數(shù)（極小值即為最小值），可使用全局最優(yōu)解訓練模型，提升模型性能。可以設計更好的MKL算法提高精度，減少復雜性和訓練時間。

由于在許多應用中，人們提出許多可能的核函數(shù)，不是選其中一個而是將它們結(jié)合使用，導致在多核學習方法中存在大量的工作。較高的時間復雜度和空間復雜度是導致多核學習方法不能廣泛應用的主要原因。另一個缺點是占用內(nèi)存大，對訓練數(shù)據(jù)有一點的依賴性。

1.2.2 圖像模型方法

圖像模型方法也是一種常見的融合方法，主要通過對圖像進行分割、拼接、預測的操作將淺層或深度圖形進行融合，從而得到最終的融合結(jié)果[14]。

常見的圖像模型分為生成式（聯(lián)合概率）模型和判別式（條件概率）模型。許多研究中使用圖像模型，尤其是在統(tǒng)計自然語言處理方面，集中在生成模型上，這些模型試圖對輸入和輸出的聯(lián)合概率分布進行建模[17]。早期主要使用生成模型，如動態(tài)貝葉斯網(wǎng)絡（Dynamic Bayesian Networks）[18]、隱馬爾可夫模型。后來的研究中，判別模型更受歡迎，比生成模型更簡單、更容易學習。常見的判別模型如條件隨機場（Conditional Random Field，CRF）[19]，對圖像的組成成分進行分類標記[20]。表2對生成模型和判別模型進行比較。

表2 生成模型與判別模型比較Table 2 Comparison of generation model and discrimination model

圖像模型的優(yōu)勢主要是它們?nèi)菀装l(fā)掘數(shù)據(jù)中的空間結(jié)構(gòu)和時間結(jié)構(gòu)，通過將專家知識嵌入到模型中，使得模型的可解釋性增強。缺點是特征之間具有復雜的依賴關系，并且模型的泛化性不強。

1.2.3 神經(jīng)網(wǎng)絡方法

神經(jīng)網(wǎng)絡方法是目前應用最廣泛的方法之一[21]。常使用長短期記憶網(wǎng)絡（Long Short-Term Memory，LSTM）和循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Network，RNN）來融合多模態(tài)信息。例如利用雙向長短期記憶網(wǎng)絡進行多模態(tài)情感識別[22]；利用多模態(tài)循環(huán)神經(jīng)網(wǎng)絡（multimodal Recurrent Neural Networks，m-RNN），直接將圖像表示和詞向量以及隱向量作為多模判斷的輸入，在圖像字幕處理等任務中表現(xiàn)出良好的效果[23]。

一些研究者通過模型拼湊達到了比多核學習和圖像模型更好的效果。將神經(jīng)網(wǎng)絡方法應用于多模態(tài)融合中具有較強的學習能力、較好的可擴展性。缺陷是隨模態(tài)數(shù)量的增加，深度學習可解釋性變差，并需要依賴大量的訓練數(shù)據(jù)。表3對三種基于模型的融合方法進行比較[24-26]。

表3 基于模型的融合方法比較Table 3 Comparison of model-based fusion methods

基于遺傳算法（Genetic algorithm，GA）的神經(jīng)網(wǎng)絡結(jié)構(gòu)優(yōu)化是最早用于神經(jīng)網(wǎng)絡結(jié)構(gòu)搜索和優(yōu)化的元啟發(fā)式搜索算法之一[27]。在21世紀初，一種稱為增強拓撲的神經(jīng)進化（NEIT）[28]的算法也使用GAs來進化越來越復雜的神經(jīng)網(wǎng)絡結(jié)構(gòu)，受到了廣泛關注。Shinozaki等人[29]應用GAs和協(xié)方差矩陣進化策略來優(yōu)化DNN的結(jié)構(gòu)，將DNN的結(jié)構(gòu)參數(shù)化為基于有向無環(huán)圖表示的簡單二進制向量。由于遺傳算法搜索空間可能非常大，并且搜索空間中的每個模型評估都很昂貴，所以使用大型GPU集群的并行搜索來加速該過程。如果設計了網(wǎng)絡體系結(jié)構(gòu)的合適表示，并且在搜索過程中訓練和測試多個體系結(jié)構(gòu)的成本不是非常昂貴，那么這些神經(jīng)網(wǎng)絡結(jié)構(gòu)搜索和優(yōu)化技術(shù)可以容易地擴展到多模態(tài)設置[30]。

貝葉斯優(yōu)化（Bayesian Optimization，BO）[31]是超參數(shù)優(yōu)化的一種流行選擇，常被用于多模態(tài)融合優(yōu)化[32]。

2 背景知識

2.1 單一模態(tài)表示

2.1.1 圖片特征提取

Dalal等人提出的方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征提取算法[33]主要是通過計算圖像局部區(qū)域梯度，并將每個局部區(qū)域中各像素點梯度的方向直方圖級聯(lián)。HOG特征提取算法的基本流程圖如圖5所示。

圖5 HOG特征提取算法的基本流程圖Fig.5 Basic flow chart of HOG feature extraction algorithm

具體步驟如下[34]：

（1）對圖像進行灰度化操作和γ標準化處理。

（2）用中心對稱算子k=[-1,0,1]及轉(zhuǎn)置計算橫縱坐標的方向梯度。

（3）將圖片分割為多個小方塊，并且每個小方塊由4個單元所組成，每個單元由8×8像素組成。方塊的滑動步長為1個單元。θ(x,y)把[0,π]分為9個小區(qū)間。單元中的每一個像素點都為直方圖通道進行權(quán)重為g(x,y)的加權(quán)投票，從而得到每個單元內(nèi)9個方向的梯度直方圖。

（4）按照順序級聯(lián)9個單元的梯度直方圖，得到圖像的HOG特征μHOG。

2.1.2 文本特征提取

林敏鴻等人[35]采用雙向門控循環(huán)網(wǎng)絡（Bidirectional Gate Recurrent Unit，Bi-GRU）構(gòu)建文本特征提取網(wǎng)絡，并對Bi-GRU層的輸出進行加權(quán)以突出關鍵部分，從而獲得更精確的文本特征表達。該網(wǎng)絡結(jié)構(gòu)如圖6所示。

圖6 文本特征提取網(wǎng)絡結(jié)構(gòu)Fig.6 Text feature extraction network structure

在Bi-GRU神經(jīng)網(wǎng)絡中，將詞向量{ωi1,ωi2,…,ωit}按正向輸入方式得到相應的前向隱藏層輸出{hi1,hi2,…,hit}。hit的計算如式（1）：同理，得到相應的后向隱藏層輸出{gi1,gi2,…,git}。

將hit和git拼接得到第t個單詞上下文信息的表示如式（2）：

將hit輸入一層隱藏層，用tanh激活得到y(tǒng)it，接而得到標準注意力權(quán)重，如式（3）、（4）：

文本特征表示Ti，計算公式如式（5）：

2.1.3 語音特征提取

語音特征提取是以幀為單位進行提取的。在語音特征提取任務中，一般采用openSMILE工具[36]對語音數(shù)據(jù)進行特征提取。還有一種就是采用梅爾頻率倒譜系數(shù)（Mel Frequency Cepstral Coefficient，MFCC），基于人類聽覺感知（不能感知超過1 kHz的頻率）進行特征提取[37]。MFCC的整個過程如圖7所示。

圖7 MFCC特征提取過程Fig.7 MFCC feature extraction process

在Mel濾波器組處理階段，通過式（6）將普通頻率轉(zhuǎn)化到Mel頻率：

在動態(tài)特征階段，需要增加與倒頻譜特征隨時間變化相關的特征。從時間樣本t1到時間樣本t2的窗口中的信號X在幀中的能量由式（7）表示：

分幀提取的特征信息只反應了本幀語音的特性，為了使特征更能體現(xiàn)時域連續(xù)性，可以在特征維度增加前后幀信息的維度。常采用一階差分和二階差分。c()t表示第t幀的MFCC特征。一階差分的計算方法如式（8）所示：

2.2 多模態(tài)信息表示

利用多模態(tài)信息進行自然語言處理，要明確語音信息、文本信息和視覺模態(tài)信息如何進行融合。尤其是利用同源多模態(tài)信息或異源多模態(tài)信息時的語義融合范式是否相同。

根據(jù)具體融合操作不同，可以大致劃分為三種主要的方法：基于拼接和線性組合等簡單融合操作的方法、基于注意力機制的融合方法和基于雙線性池化的融合方法。這三種方法均是通過對特征向量進行相關操作達到多模態(tài)信息的融合及表達。

2.2.1 簡單融合操作的方法

深度學習可以通過簡單的操作將來自不同信息源的向量化特征進行融合，如連接或加權(quán)求和。這些操作通常有很少或沒有關聯(lián)參數(shù)，因為深度模型的聯(lián)合訓練可以調(diào)整高層的特征提取層次以適應相應的操作。方法如下：

（1）連接可以組合低級輸入特征[38-40]或由預先訓練的模型[41-42]提取的高級特征。

（2）對于具有權(quán)重的加權(quán)求和，利用一種迭代方法實現(xiàn)，該方法要求預先訓練的向量表示具有相同數(shù)量的元素，并按照適合元素相加的順序排列[43]。這可以通過訓練一個全連接層來進行維度控制并為每個模態(tài)重新排序來實現(xiàn)。

研究表明[44]可以利用漸進探索的神經(jīng)結(jié)構(gòu)搜索[45]來尋找一些融合功能的合適設置。并且每個融合功能都可以根據(jù)需要融合的層以及使用連接或加權(quán)和作為融合操作進行配置。

2.2.2 基于注意力機制的方法

目前注意力機制被廣泛用于融合操作。注意力機制指的是由小型“注意力”模型在每個時間步長動態(tài)生成的一組標量權(quán)重向量的加權(quán)和[46-47]。通常使用多個輸出來生成多組動態(tài)權(quán)重以進行求和。這組注意力的多個輸出可以動態(tài)產(chǎn)生求和時要用到的權(quán)重，因此最終在拼接時候可以保存額外的權(quán)重信息。在將注意力機制應用于圖像時，對不同區(qū)域的圖像特征向量進行不同的加權(quán)，得到一個最終整體的圖像向量。

（1）圖注意力機制

將用于文本問題處理的LSTM模型進行擴展，得到了一個以LSTM隱藏狀態(tài)為條件的圖像注意力模型，該模型的輸入是當前嵌入單詞和參與的圖像特征的拼接[48]。最終利用LSTM的隱藏狀態(tài)進行多模態(tài)融合的表征，進而可以被應用于視覺問答任務之中。這種基于RNN的編碼-解碼器模型的注意力模型可以用來幫助圖像字幕問題分配注意力權(quán)重[49]，并且可以通過文本查詢來找到圖像對應的位置。堆疊注意力網(wǎng)絡（Stacked Attention Networks，SANs）同樣也可以使用多層注意力模型對圖像進行多次查詢，逐步推斷出答案，模擬多步驟的推理過程[50]。在每一層中，通過將前一層根據(jù)圖像特征和文本特征生成的查詢向量添加到當前注意力模型生成的圖像向量中，生成一個細化的查詢向量并發(fā)送到下一層。將這一過程多次迭代，從而得到問題的答案。圖8為視覺問答的堆疊注意力網(wǎng)絡模型圖。

圖8 視覺問答的堆疊注意力網(wǎng)絡Fig.8 Stacked attention network for visual question answers

（2）圖和文本的對稱注意力機制

與圖像注意力機制不同。共同注意力機制使用對稱的注意力結(jié)構(gòu)來生成注意力圖像特征向量和注意力語言向量[51]。平行共注意力機制是利用一種聯(lián)合表征方法，推導出圖像和語言的注意力分布。交替共注意力機制則具有級聯(lián)結(jié)構(gòu)，首先利用語言特征生成含有注意力的圖像向量，然后利用含有注意力的圖像向量生成出含注意力的語言向量。平行注意力機制和交替注意力機制模型圖如圖9、圖10所示。

圖9 平行共注意力機制Fig.9 Parallel co-attention mechanism

圖10 交替共注意力機制Fig.10 Alternating co-attention mechanism

與平行共注意力網(wǎng)絡類似，雙重注意力網(wǎng)絡（Dual Attention Network，DAN）同時估計圖像和語言的注意力分布，從而獲得注意力特征向量[52]。這種注意力模型以特征和相關的記憶向量為條件。與共同注意力相比，這是一個關鍵的區(qū)別，因為使用重復的DAN結(jié)構(gòu)，記憶向量可以在每個推理步驟中迭代更新。

為了模擬模態(tài)之間的高階交互作用，兩個數(shù)據(jù)模態(tài)之間的高階相關性可以表示為兩個特征向量的內(nèi)積，并用于導出兩個模態(tài)的參與特征向量[53]。

（3）其他類似注意力機制

門控多模態(tài)單元是一種基于門控，為圖像和文本分配注意力權(quán)重的方法[54]。該方法基于門控機制動態(tài)生成的維度特定標量權(quán)重，計算視覺特征向量和文本特征向量的加權(quán)和。

2.2.3 基于雙線性池化的融合方法

雙線性池化通過計算外積的方式將視覺特征向量與文本特征向量進行融合，從而創(chuàng)建聯(lián)合表示空間，這種方法可以充分利用向量元素間的交互作用。這種方法也被稱為二階池化[55]。與簡單的向量組合操作（假設每個特征向量為n維）不一樣的是，簡單的向量組合操作（如連接、逐位相乘和加權(quán)求和）都會生成一個n或2n維的表征向量，而雙線性池化則會產(chǎn)生一個n2維的表征向量。這意味著這種方法更有表現(xiàn)力。

雙線性池化方法同樣可以與注意力機制相結(jié)合。通過雙線性池化相關方法，如多模態(tài)低秩雙線性池，可以將融合的雙模態(tài)表示作為注意力模型的輸入特征，進而得到含有注意力的圖像特征向量，再次使用該方法與文本特征向量融合，得到最終的聯(lián)合表示[56]。

3 多模態(tài)深度學習模型

3.1 深層結(jié)構(gòu)化語義模型

深度結(jié)構(gòu)化語義模型[57]（Deep Structured Semantic Model，DSSM）在2013年由Huang等人提出，是搜索領域的模型，屬于后期融合。通過使用深度神經(jīng)網(wǎng)絡（DNN）把兩種不同的模態(tài)數(shù)據(jù)表示為低維度的語義向量，并通過cosine距離計算兩個語義向量之間的距離，最終訓練出語義相似度模型。該模型既可以用來預測語義相似度，又可以獲得某個模態(tài)的低維語義向量表達。該模型由輸入層、表示層、匹配層三層結(jié)構(gòu)構(gòu)成，詳細流程圖如圖11所示，模型圖如圖12所示。

圖11 DSSM模型流程圖Fig.11 Flow chart of DSSM

圖12 DSSM模型圖Fig.12 Illustration of DSSM

3.1.1 輸入層

輸入層的任務是將句子映射到一個向量空間里并將它輸入到DNN中。

英文的輸入層需要借助單詞哈希表來實現(xiàn)，此類方法[57]旨在減少BOW向量的維數(shù)。它以字母n-gram為基礎進行單詞的切分，是專門為該任務開發(fā)的一種新方法。給定一個單詞（如good），首先給該單詞添加單詞開始和結(jié)束標記（如#good#），將單詞分解成字母n-grams，例如字母三元組：#go，goo，ood，od#。最后用字母ngrams的向量來表示這個單詞。采用這種方法可以壓縮空間，較為實用。

3.1.2 表示層

這層主要通過使用DNN將高維稀疏文本特征映射到語義空間中的低維密集特征，最終得到一個128維的低維語義向量。

將特征向量X映射到對應的語義概念向量y，如式（9）~（11）：

用tanh作為隱藏層和輸出層的激活函數(shù)。

3.1.3 匹配層

查詢和文檔的語義相似性可以用兩個語義向量的余弦相似度來表示。計算余弦相似度的方法如式（12）所示：

其中yQ和yD分別是查詢和文檔的概念向量。給定查詢，文檔按照它們的語義相關性分數(shù)排序。

通過softmax函數(shù)，根據(jù)文檔之間的語義相關性得分，式（13）用來計算給定查詢的文檔的后驗概率：

其中γ是softmax函數(shù)中的平滑因子，D為要排序的候選文檔集，在理想條件下包含所有可能的文檔。

此模型[57]的主要貢獻是對之前提出的潛在語義模型在三方面進行了重大拓展。第一，通過直接針對文檔排名的目標來優(yōu)化所有版本模型的參數(shù)；其次，受最近在語音識別方面非常成功的深度學習框架的啟發(fā)，使用多個隱藏表示層將線性語義模型擴展到它們對應的非線性模型。所采用的深層架構(gòu)進一步增強了建模能力，從而可以捕獲和表示查詢和文檔中更復雜的語義結(jié)構(gòu)；第三，使用了一種基于字母n-gram的單詞散列技術(shù)，這種技術(shù)被證明有助于擴大深度模型的訓練，從而可以在實際的網(wǎng)絡搜索中使用大量的詞匯。DSSM對文檔排序任務的性能提升較為顯著。

在大規(guī)模的真實世界數(shù)據(jù)集（驗證數(shù)據(jù)集）上對該模型進行評估，評估的所有排名模型的表現(xiàn)均通過NDCG[58]進行比較，表4中的結(jié)果表明，深度結(jié)構(gòu)化語義模型表現(xiàn)最佳，以顯著的優(yōu)勢擊敗了其他方法。其中，表4給出了DSSM在不同環(huán)境中的結(jié)果。

表4 DSSM與其他模型以及在不同環(huán)境下的比較結(jié)果Table 4 Comparative results with other models and in different environments of DSSM

3.2 記憶融合網(wǎng)絡

對于多模態(tài)序列學習而言，模態(tài)往往存在兩種形式的交互：模態(tài)內(nèi)關聯(lián)與模態(tài)間關聯(lián)。Zadeh等人提出的記憶融合網(wǎng)絡模型（Memory Fusion Network，MFN）[61]用來處理多模態(tài)序列建模，對模態(tài)內(nèi)與模態(tài)間進行不同的處理。

記憶融合網(wǎng)絡由三部分組成，分別是：長短期記憶系統(tǒng)、增量記憶注意力網(wǎng)絡和多模態(tài)門控存儲器。模型圖[61]如圖13所示，σ代表sigmoid激活函數(shù)，τ代表tanh激活函數(shù)，⊙代表哈達瑪積，⊕代表元素加法。每個LSTM從一個方面對信息進行編碼，如語言。記憶融合網(wǎng)絡輸入的是一個多模態(tài)序列，其中包含N個T維的模態(tài)。

3.2.1 長短期記憶系統(tǒng)LSTMs

在每一個模態(tài)序列中，一個LSTM隨著時間對特定模態(tài)的交互進行編碼。在每個時間點，各個模態(tài)的信息被輸入到特定的LSTM中。對于第n個模態(tài)，cn表示分配給該模態(tài)的LSTM的內(nèi)存，并用hn表示各個LSTM的輸出，其中dcn為LSTM內(nèi)存cn的維度。不同序列的輸入、內(nèi)存和輸出的規(guī)模有所不同。

式（14）~（19）為LSTM定義的更新規(guī)則[62]：

in、fn、on分別表示第n個LSTM的輸入門、遺忘門和輸出門，mn為第n個LSTM在時間t下的內(nèi)存更新。⊙代表哈達瑪積，即元素乘積；σ為sigmoid激活函數(shù)。

3.2.2 增量記憶注意力網(wǎng)絡DMAN

3.2.3 多模態(tài)門控存儲器

上一層的輸出值直接傳入該組件，用來標識長短期記憶系統(tǒng)的內(nèi)存中哪些維度構(gòu)成了跨模態(tài)交互。并將c?[t-1,t]輸入神經(jīng)網(wǎng)絡Du:R2×dc?Rdmem來產(chǎn)生多模態(tài)門控存儲器的跨模態(tài)更新規(guī)則u?t，如式（22）所示。dmem為多模態(tài)門控存儲器的維度。

這個更新公式是在對t時刻跨模態(tài)交互的觀察的基礎上對多模態(tài)門控存儲器進行修改的。

多模態(tài)儲器分別由兩組門電路構(gòu)成，分別為維持門γ1和更新門γ2，并分別由不同的神經(jīng)網(wǎng)絡控制。γ1負責記錄多模態(tài)門控存儲器當前有多少種狀態(tài)；γ2負責基于跨模態(tài)更新規(guī)則u?t對多模態(tài)門控的內(nèi)存進行更新。使用c?[]t-1,t作為輸入的多視角門控存儲器門控機制的Dγ1,Dγ2:R2×dc?Rdmem的控制部分，式（23）為γt1的計算公式：

在MFN遞歸的每一個時間點上，u利用維持門、更新門和當前的跨模態(tài)更新規(guī)則u?t進行更新，公式（24）如下：

通過用tanh函數(shù)來激活ut，用以提高模型的穩(wěn)定性。多模態(tài)門控存儲器較LSTM存儲器有兩個優(yōu)點：第一，多模態(tài)門控存儲器具有更復雜的門控機制，兩個門電路均由神經(jīng)網(wǎng)絡控制，所以性能更優(yōu)。第二，多模態(tài)門控存儲器的值在每次迭代中不會經(jīng)歷sigmoid激活，這樣有利于加快收斂。

3.2.4 MFN的輸出

MFN的輸出包括多模態(tài)門控存儲器的最終狀態(tài)和每個長短期記憶系統(tǒng)的輸出，計算方法如式（25）：

其中，hT表示單個序列信息，⊕表示向量的連接。

通過廣泛的實驗，將MFN與多個公開的基準數(shù)據(jù)集上提出的多模態(tài)序列學習的各種方法進行了比較。MFN優(yōu)于所有多模態(tài)方法，優(yōu)于所有目前最前沿的模型。

3.3 多模態(tài)循環(huán)融合模型

Wu等人[63]提出的多模態(tài)循環(huán)融合模型（Multi-modal Circulant Fusion，MCF），是一種同時使用特征和矩陣的融合方法，通過此模型來發(fā)現(xiàn)多模態(tài)特征之間的相互作用。MCF的模型圖如圖14（a）、圖14（b）所示。

圖14 多模態(tài)循環(huán)融合模型Fig.14 Flowchart of multimodal circulant fusion

給定兩個不相同模態(tài)的特征向量：視覺特征x∈Ro和文本特征y∈Rn，式（26）、（27）是對投影向量的表示：

其中，W1∈Rd×o和W2∈Rd×n為投影矩陣，負責將兩個輸入要素投影到低維空間。

用投影向量V∈Rd、C∈Rd構(gòu)造循環(huán)矩陣A∈Rd×d和B∈Rd×d，如式（28）、（29）：

為了讓投影向量和循環(huán)矩陣中的元素充分發(fā)揮作用，有以下兩種不同的乘法運算：

第一種選擇使用循環(huán)矩陣和投影向量相乘，如式（30）、（31）：

第二種是讓循環(huán)矩陣的投影向量與每個行向量作哈達瑪積，如式（32）、（33）：

其中，ai∈Rd和bi∈Rd為循環(huán)矩陣A和B的行向量。

最后，通過一個投影矩陣W3∈Rd×k，將F∈Rd和G∈Rd的元素和向量轉(zhuǎn)化為目標向量M∈Rk。

在MSVD數(shù)據(jù)集上，將MCF模型與其他同類模型進行比較，得到表5所示結(jié)果。

表5 與其他模型在MSVD數(shù)據(jù)集上比較Table 5 Comparison with other models on MSVD

4 多模態(tài)融合架構(gòu)

多模態(tài)網(wǎng)絡架構(gòu)主要分為三種，即協(xié)同架構(gòu)、聯(lián)合架構(gòu)和編解碼器架構(gòu)。

4.1 協(xié)同架構(gòu)

協(xié)同架構(gòu)的目標是查找協(xié)同子空間中各個模態(tài)之間的關聯(lián)性。多模態(tài)協(xié)同架構(gòu)是將各種單一模態(tài)在約束條件的作用下實現(xiàn)相互協(xié)同[69]。由于各個模態(tài)中所包含的信息有所差異，所以多模態(tài)協(xié)同架構(gòu)有助于保留每個模態(tài)獨特的特征。

此類架構(gòu)[70]在跨模態(tài)學習中擁有較為廣泛的應用，主流的協(xié)同方法是基于跨模態(tài)相似性方法，該方法旨在通過直接測量向量與不同模態(tài)的距離來學習公共子空間?；诳缒B(tài)相關性的方法[71]旨在學習一個共享子空間，從而使不同模態(tài)表示集的相關性最大化。圖15為協(xié)同融合架構(gòu)示意圖。

圖15 協(xié)同融合架構(gòu)示意圖Fig.15 Schematic diagram of collaborative integration architecture

跨模態(tài)相似性方法在相似性度量的約束下保持模態(tài)間和模態(tài)內(nèi)的相似性結(jié)構(gòu)，使得相同語義或相關對象的跨模態(tài)相似距離盡可能小，不同語義的距離盡可能大[14]。

Kiros等人提出的模態(tài)間排名方法[72]用來解決圖像-文本融合任務，其中x為圖像嵌入向量，v為文本嵌入向量，xk、vk分別為用于文本嵌入的對比圖像和用于圖像嵌入的對比句子。定義分數(shù)函數(shù)s(x,v)=xv，等價于余弦相似度。對排名的損失函數(shù)表示如公式（34）所示：

此類方法較好地保存了各個模態(tài)之間的相似性結(jié)構(gòu)。協(xié)同架構(gòu)的優(yōu)點是每個獨立的模態(tài)都可以運行，這個優(yōu)點有助于跨模式的遷移學習，目的是在各個模態(tài)之間傳遞信息。但此類架構(gòu)的缺點是模態(tài)融合難度比較大，同時模型很難在多種（兩種以上）模態(tài)之間實現(xiàn)遷移學習。

4.2 聯(lián)合架構(gòu)

聯(lián)合模態(tài)是指將多模態(tài)空間映射到共享語義子空間中，從而融合多個模態(tài)特征[69]。每個獨立模態(tài)通過各自單獨的編碼之后，就會被映射到共享子空間中，依據(jù)這樣的方法，在情感分析、語音識別等多模態(tài)的分類和回歸任務中都表現(xiàn)優(yōu)異。圖16為聯(lián)合融合架構(gòu)示意圖。

圖16 聯(lián)合融合架構(gòu)示意圖Fig.16 Schematic diagram of joint fusion architecture

聯(lián)合架構(gòu)的核心是實現(xiàn)特征“融合”，直接相加是一種最簡單的方法。此方法在不同的隱藏層之間形成共享語義子空間，將經(jīng)過轉(zhuǎn)換的每個單模態(tài)特征向量的語義進行組合，從而完成多模態(tài)間的融合，方法如式（35）：

其中，W為權(quán)重，x代表每個單模態(tài)，f將單個模態(tài)的語義映射到共享語義子空間上，g為最終的結(jié)果。

以上方法雖然實現(xiàn)簡單，但容易造成語義丟失，“乘”方法優(yōu)化了它的這一缺點，讓特征語義得到充分的融合。表達式如式（36）：

其中，v表示各個模態(tài)，?表示外積（即兩個向量的向量積）。

此類架構(gòu)對單個模態(tài)的語義的完整性有著比較高的要求，對于數(shù)據(jù)的不完整在后期的融合之中會被解決。文獻[73]通過各個模態(tài)的特征之間的相關性，來找出多個模態(tài)之間的關聯(lián)，并對這些特征進行分類后使用，在視頻分類任務中的使用效果顯著。

聯(lián)合架構(gòu)較其他架構(gòu)而言，具有融合方式簡單的優(yōu)點，其共享子空間擁有語義不變性，這有利于模型中將一種模態(tài)轉(zhuǎn)化為另一種模態(tài)。缺點是每個單獨的模態(tài)在早期較難處理和發(fā)現(xiàn)。

4.3 編解碼器架構(gòu)

此類架構(gòu)一般在需要將一種模態(tài)映射到另一種模態(tài)的多模態(tài)轉(zhuǎn)換時使用，由解碼器與編碼器兩個部分組成。編碼器將初始模態(tài)映射到向量中，解碼器基于之前的向量生成一個新模態(tài)。編解碼器架構(gòu)在視頻解碼、圖像標注、圖像合成等研究領域具有十分廣泛的應用。

此類架構(gòu)的優(yōu)點是可以在初始模態(tài)的基礎上生成一個新的模態(tài)。缺點是每一個編碼器和解碼器只能唯一的編碼一種模態(tài)。圖17為編碼器融合架構(gòu)示意圖。

圖17 編解碼器融合架構(gòu)示意圖Fig.17 Schematic diagram of codec fusion architecture

5 多模態(tài)融合的應用

多模態(tài)融合技術(shù)，它融合了聽覺、視覺、嗅覺、觸覺等多種交互方式，使得表達信息的效率和表達信息的完整度更高。多模態(tài)以其描述對象的完全性，在多個領域有廣泛的應用。以下列舉幾個比較常見的應用。

5.1 多模態(tài)視頻片段檢索

從不確定目標中檢索特定時刻。以2D形式來表示不同的時間片段，為每個時間片段賦予預訓練視頻特征和語言特征的融合。關注的任務為時序動作檢測，即需要在給定的長視頻中，檢測出其存在的動作片段類別，并定位出動作開始和結(jié)束的時間點。

Zhang等人提出了一種新的2D時間鄰接網(wǎng)絡[74]，核心思想是在二維時間圖上檢索一個時刻，該時刻將相鄰的候選時刻視為時間上下文，該模型可以擴展到其他時間定位任務，如時間動作定位、視頻重定位等。圖18為2D時間鄰接網(wǎng)絡。

圖18 2D時間鄰接網(wǎng)絡框架圖Fig.18 2D time adjacency network frame diagram

提出的2D時間相鄰網(wǎng)絡的框架。它由用于語言表示的文本編碼器、用于視頻表示的2D時間特征映射提取器和用于矩定位的時間鄰近網(wǎng)絡組成。在模型中，給定一個未剪輯的視頻和一句話做實驗，來檢索最佳匹配的臨時段。2D時間特征圖部分主要負責提取輸入的視頻中的特征，并將這些特征編碼成二維時間特征圖。在該部分首先對將視頻分割為多個視頻剪輯，二維時間特征圖由三個維數(shù)組成，前兩維表示開始和結(jié)束片段索引，最后一維表示特征維度(A∈RN×N×Dv)在文本編輯器中，對于句子中的每一個單詞通過GloVe word2ve模型生成其嵌入向量；再將嵌入向量輸入一個三層雙向LSTM網(wǎng)絡[62]，并使用其最后一層隱藏層作為輸入句子的特征表示。提取出的語言和視頻特征表示之后，從所有候選中預測句子所查詢的最佳匹配時刻。它主要包括三個連續(xù)的過程：多模態(tài)融合、上下文建模和分數(shù)預測。(B,C∈RN×N×DH)

5.2 綜合多模態(tài)信息生成內(nèi)容摘要

此類應用是指在輸入兩種或多種模態(tài)信息（通常包括文本、視頻、圖像、語音等信息）之后，輸出一段對多種模態(tài)信息綜合之后的總結(jié)概括。如何使用相關文本、音頻和視頻信息生成文本摘要。

Li等人提出了一種提取多模態(tài)摘要的方法[75]，可以自動生成一個文本摘要給定的一組文件、圖像、音頻和視頻有關的一個特定的主題。關鍵思想是縮小多模態(tài)內(nèi)容之間的語義差距。對于音頻來使用圖像作為對齊來指出文檔中的重要句子。對于文本信息，設計了一種選擇性使用其轉(zhuǎn)錄的方法。對于視覺信息，使用神經(jīng)網(wǎng)絡學習文本和圖像的聯(lián)合表示。最后，考慮所有的多模態(tài)方面，通過預算優(yōu)化子模態(tài)函數(shù)，最大化顯著性、非冗余性、可讀性和圖像覆蓋范圍，生成文本摘要。多模態(tài)模型的框架圖如圖19。

圖19 多模態(tài)摘要模型框架圖Fig.19 Schematic diagram of multimodal abstract model

5.3 多模態(tài)情感分析

情感分析作為近幾年研究的一個熱點問題，受到廣大研究者的青瞇。之前的情感分析大多指文本情感分析，是指利用自然語言處理和文本挖掘技術(shù)，對帶有情感色彩的主觀性文本進行分析、處理和抽取的過程[76]。

近一段時間研究者們開始探索視覺方面情感分析的新思路，并取得了一些進展，并將研究方向轉(zhuǎn)向了多模態(tài)中的圖像。

Truong等人提出了一種利用視覺信息進行情感分析的新方法[77]，稱為視覺方面注意力網(wǎng)絡。該模型有一個分層的三層架構(gòu)，將表示從單詞聚合到句子，然后聚合到特定于圖像的文檔表示，最后聚合到最終的文檔表示?；谶@樣的觀察，即一個句子傾向于集中在特定的東西上，就像每個圖像一樣，設計了一個模型。該模型的最底層是一個單詞編碼器，負責把單詞轉(zhuǎn)化成句子表示。中間層是句子編碼層，借助于視覺方面的注意力，將句子表示轉(zhuǎn)化為文檔表示。頂層為分類層，負責為文檔添加情感標簽。模型圖如圖20所示。

圖20 視覺注意力網(wǎng)絡Fig.20 Visual attention network

5.4 多模態(tài)人機對話系統(tǒng)

對人機對話系統(tǒng)的研究一直以來都是人工智能研究領域中的一個重要的研究方向。人們希望能夠與機器進行類似于人與人之間的自然的交流，然而由于自然語言本身的復雜性遠高于人造語言，因此對自然語言的處理到目前仍十分具有挑戰(zhàn)性，也是人工智能領域最為困難的問題之一。難點主要包括：內(nèi)容的有效界定、語言的歧義性和瑕疵輸入的處理。其中最難以處理的問題是如何消除在對話過程中廣泛存在的歧義性。

盡管此前在許多研究中提出了不同的解決方法并取得了不錯的處理效果，但大多數(shù)是基于單一模態(tài)信息提出的解決方案，例如：文本處理和語音識別等。而在交流的過程中，信息的傳遞通常是通過多種形式進行的，如語音、肢體語言和面部表情等。而不同的模態(tài)信息在信息的表達性上具有不同層次的效果，因此在許多情況下難以通過某種單一模態(tài)的信息了解到信息傳遞者所要表達的完整意圖。

而多模態(tài)人機對話系統(tǒng)則是充分利用了多模態(tài)信息之間的互補性，綜合來自同一實例的音頻、視頻、圖像、語義等信息進行識別工作，以獲得更完整、更好的表達特征，對解決語言理解的歧義性具有很好的效果，如圖21所示。例如，當用戶詢問“這本書的價格”時，對話系統(tǒng)需要通過視頻根據(jù)用戶的肢體動作來判斷出用戶所詢問的書目信息進而做出相應反饋。

圖21 基于視覺-音頻的多模態(tài)識別模型圖Fig.21 Visual-audio multimodal recognition model diagram

Le等人[78]開發(fā)了一個基于視頻的對話系統(tǒng)，在該系統(tǒng)中是基于給定視頻的視覺和聽覺方面進行對話，比傳統(tǒng)的基于圖像或文本的對話系統(tǒng)更具挑戰(zhàn)性，因為視頻的特征空間跨越多個圖像幀，使得難以獲得語義信息；以及對話代理必須感知和處理來自不同模態(tài)（音頻、視頻、字幕等）的信息來獲得全面的了解。而大多數(shù)現(xiàn)有的工作都是基于RNNs和序列到序列的架構(gòu)，這對于捕獲復雜的長期依賴關系（如在視頻中）不是很有效。為了克服這一點，提出了多模態(tài)變壓器網(wǎng)絡（MTN，一個基于多頭注意力的神經(jīng)網(wǎng)絡，可以在多模態(tài)環(huán)境下產(chǎn)生良好的會話應答）來編碼視頻和合并來自不同模態(tài)的信息。模型的整體框架如圖22所示。

圖22 多模態(tài)轉(zhuǎn)換網(wǎng)絡架構(gòu)Fig.22 Multi-modal conversion network architecture

Cui等人[79]提出了用戶注意力指導的多模態(tài)對話系統(tǒng)。模型的整體框架圖如圖23所示，該框架的任務是生成回復文本和選擇回復圖像，希望通過利用多模態(tài)對話的形式，結(jié)合不同模態(tài)信息，以給用戶更加直觀的印象，同時能夠更加清晰地了解用戶的表達。從高層的角度來看，雙向RNN模型被用于編碼用戶和聊天機器人之間的話語級交互。對于低層視角，多模態(tài)編碼器和解碼器能夠分別編碼多模態(tài)話語和生成多模態(tài)響應。多模態(tài)編碼器在分類-屬性組合樹的幫助下學習圖像的視覺呈現(xiàn)，然后視覺特征通過注意機制與文本特征交互；而多模式解碼器根據(jù)對話歷史選擇所需的可視圖像并生成文本響應。為了評估提出的模型，該文作者在零售領域的公共多模態(tài)對話數(shù)據(jù)集上進行了大量實驗。實驗結(jié)果表明，通過整合多模態(tài)話語和基于用戶屬性級注意力的視覺特征編碼，模型效果優(yōu)于現(xiàn)有的先進方法。

圖23 用戶注意力指導的多模態(tài)對話系統(tǒng)模型Fig.23 User attention guided multimodal dialog system model

6 多模態(tài)融合有助于深度學習可解釋

深度學習技術(shù)以數(shù)據(jù)驅(qū)動學習的特點，在自然語言處理、圖像處理、語音識別等領域取得了巨大成就[80]。由于深度學習模型具有數(shù)據(jù)量大、神經(jīng)網(wǎng)絡層數(shù)較深、結(jié)構(gòu)復雜等特點，使得可解釋性變差，是人工智能領域中的一大挑戰(zhàn)。因為在數(shù)據(jù)通過神經(jīng)網(wǎng)絡并得出相關預測結(jié)果時，人們往往難以解釋其產(chǎn)生的原因，這樣就會導致在很多時候研究人員不清楚如何修正和優(yōu)化神經(jīng)網(wǎng)絡，進而提高其效率或避免其在應用過程中產(chǎn)生難以挽回的錯誤。

多模態(tài)融合技術(shù)通過充分利用多模態(tài)信息之間的互補性，能夠獲得更完整、更好的特征表達。使得在保證模型效果的情況下，在學習的過程中對不同的特征獲得不同程度的強化，這對深度學習的可解釋性有一定的幫助。在此基礎之上可以進一步引入注意力機制，這種方法在保證模型效果的前提下，通過引入注意力向量，對信息特征及多模態(tài)深度學習網(wǎng)絡中的隱藏層特征賦予不同的權(quán)重，并在訓練過程中對該權(quán)重進行學習，進一步加強了其學習效果。通過利用各個特征對于模型學習的重要性程度對模型進行理解，進而達到解釋模型的效果。

7 總結(jié)與展望

本文總結(jié)了多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀，總結(jié)分析多模態(tài)融合方法、單一模態(tài)的表示、融合完成后信息的表示、多模態(tài)深度學習模型、融合架構(gòu)。多模態(tài)融合方法分為模型無關的融合方法和模型相關方法兩種。模型無關方法有早期、晚期、混合融合三種；模型相關方法包括多核學習方法、圖像模型方法和神經(jīng)網(wǎng)絡方法三種。單一模態(tài)的表示、融合完成后信息的表示是融合過程的基礎，確保特征提取及融合過程中信息的完整性是融合成功的關鍵。

由于單一模態(tài)缺乏多樣性，現(xiàn)如今的研究者已經(jīng)開始著手進行多模態(tài)的輸入與輸出，當輸出信息包含多種模態(tài)時，可以盡可能達到研究者的期望。例如當給出一段外文視頻，對其中的語言并不熟悉時，可以通過圖片和視頻大致領會重要內(nèi)容。在未來的研究中，跨模態(tài)學習將會變成一個熱點問題，在各個研究領域都會有廣泛的應用。人工智能的最終目的是設計出完全與人類智能相媲美的智能計算機系統(tǒng)[81]。而單一的自然語言處理、計算機視覺和語音識別技術(shù)從一種模態(tài)對信息的理解與人類的行為之間有著較為明顯的差異。所以多模態(tài)的應用比單一模態(tài)更接近人類的行為。作為一種能讓機器更加貼近人類行為的技術(shù)，跨模態(tài)學習有望在未來獲得全面的發(fā)展。

下一步可利用多模態(tài)交互在空間上可以更快、效率更高、交互識別準確率更高的優(yōu)勢，而且對于關鍵的任務完成率更高的特點，針對多模態(tài)人機交互融合進行研究。單一的交互模式有時候在交互過程當中會有一定的局限性，并且交互效率較低，而采用多模態(tài)融合交互模式會解決這些問題。并對模態(tài)間的語義沖突、多模態(tài)融合程度評價標準等研究不充分的問題進一步研究，推動該技術(shù)在機器學習的一些新的領域中的發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡