張景浩,谷曉燕
(北京信息科技大學(xué) 信息管理學(xué)院,北京 100192)
近年來(lái)短視頻數(shù)據(jù)呈爆炸式增長(zhǎng),傳播方式也日趨便利。視頻中包含文本、圖像、音頻三種模態(tài)的數(shù)據(jù)。研究其中包含的情感信息對(duì)于醫(yī)療健康、突發(fā)輿情、市場(chǎng)調(diào)研等領(lǐng)域的發(fā)展具有重要作用[1]?,F(xiàn)有研究大多集中于對(duì)文本模態(tài)的情感分析,而視頻中文本、圖像、音頻三種模態(tài)的數(shù)據(jù)可能含有不同的情感信息,如何捕獲這些模態(tài)間的關(guān)聯(lián)和互補(bǔ)信息對(duì)于視頻多模態(tài)情感分析至關(guān)重要。
深度學(xué)習(xí)是目前多模態(tài)融合使用的主流方法。Bahdanau等[2]首次將全局注意力和局部注意力應(yīng)用于自然語(yǔ)言處理中。Poria等[3]在模態(tài)的融合中使用了注意力機(jī)制,并設(shè)計(jì)了一種基于注意力的循環(huán)神經(jīng)網(wǎng)絡(luò),該方法的缺點(diǎn)是較多地引入了其他模態(tài)的噪聲。多頭注意力機(jī)制是注意力機(jī)制模型的擴(kuò)展,它可以在同一時(shí)間并行處理多個(gè)注意力模塊以學(xué)習(xí)序列內(nèi)部不同依賴(lài)關(guān)系。Xi等[4]提出了基于多頭注意力機(jī)制的多模態(tài)情感分析模型,該模型首次運(yùn)用多頭注意力機(jī)制實(shí)現(xiàn)模態(tài)間的兩兩交互。宋云峰等[5]提出了基于注意力的多層次混合融合模型,使用多頭注意力實(shí)現(xiàn)跨模態(tài)特征融合,利用自注意力機(jī)制提取任務(wù)貢獻(xiàn)度高的模態(tài)信息。
多任務(wù)學(xué)習(xí)是一種通過(guò)同時(shí)訓(xùn)練多個(gè)任務(wù)并共享淺層參數(shù)來(lái)提高整體模型泛化能力的機(jī)器學(xué)習(xí)范式。深度學(xué)習(xí)模型通常都需要大量的訓(xùn)練樣本以達(dá)到較高的分類(lèi)精確度,但是收集大量的訓(xùn)練樣本通常耗時(shí)耗力。在樣本數(shù)量有限的情況下,多任務(wù)學(xué)習(xí)是學(xué)習(xí)多個(gè)相關(guān)聯(lián)的任務(wù)很好的解決方法[6]。在多模態(tài)領(lǐng)域,常常使用多任務(wù)學(xué)習(xí)來(lái)提升任務(wù)的識(shí)別率。Yu等[7]通過(guò)增加單模態(tài)標(biāo)簽的識(shí)別任務(wù)來(lái)輔助多模態(tài)情感的識(shí)別;Latif等[8]將識(shí)別人物類(lèi)別作為輔助任務(wù)來(lái)提升情感識(shí)別的表現(xiàn)。
本文提出了一種基于特征融合的多任務(wù)視頻情感識(shí)別模型,該模型能有效提取視頻中文本、音頻、圖像的特征,并將這些特征融合用于情感分類(lèi)。在公開(kāi)數(shù)據(jù)集CH-SIMS上的實(shí)驗(yàn)結(jié)果表明,相比于主流多模態(tài)情感分析模型,本文模型在分類(lèi)準(zhǔn)確率上有顯著提高。
多模態(tài)數(shù)據(jù)特征提取的準(zhǔn)確性直接影響模型情感識(shí)別的效果。為了有效地利用視頻數(shù)據(jù)中含有的信息并提高模型在情感識(shí)別任務(wù)上的準(zhǔn)確率,本文針對(duì)文本、圖像和音頻三種模態(tài)設(shè)計(jì)了不同的特征提取方法,根據(jù)提取的特征層次可以分為低階特征、高階特征。
在文本處理領(lǐng)域,文本特征提取方法通常包括Word2Vec(word to vector)、BERT(bidirectional encoder representations from transformers)、GloVe(global vectors for word representation)。Word2Vec通過(guò)神經(jīng)網(wǎng)絡(luò)將詞映射為向量,捕捉詞與詞之間的上下文關(guān)系,缺點(diǎn)在于它只依賴(lài)于局部上下文信息,忽略了詞的全局統(tǒng)計(jì)信息。GloVe結(jié)合了詞頻統(tǒng)計(jì)和詞嵌入技術(shù),通過(guò)全局矩陣提取出能夠反映詞間關(guān)系的詞向量,它雖然結(jié)合了全局統(tǒng)計(jì)信息,但在捕捉復(fù)雜語(yǔ)義關(guān)系上效果不佳。BERT利用雙向 Transformer 架構(gòu),通過(guò)大規(guī)模預(yù)訓(xùn)練,生成能夠理解上下文的深度語(yǔ)言表示。相比于 Word2Vec 和 GloVe,BERT 的優(yōu)點(diǎn)在于采用雙向上下文理解詞義,能夠更全面地捕捉文本含有的語(yǔ)義信息。本文選用中文BERT預(yù)訓(xùn)練模型作為詞向量嵌入層,來(lái)提取低階文本特征。每段文本序列經(jīng)過(guò)BERT預(yù)訓(xùn)練模型得到的低階文本特征如式(1)所示:
Xt=BERT(T)
(1)
式中:Xt為低階文本特征;T為文本序列的輸入字符。為了進(jìn)一步提取Xt中的局部特征,將低階特征Xt輸入到卷積神經(jīng)網(wǎng)絡(luò)中,如式(2)所示:
(2)
(3)
圖1 文本高階特征提取Fig.1 Text high-order feature extraction
在圖像特征提取方面,CLIP(contrastive language-image pre-training)可以有效地捕捉到圖像中的空間局部和全局特征。CLIP是一種多模態(tài)預(yù)訓(xùn)練模型,其使用Vision Transformer(ViT)[9]作為圖片的編碼器。這種基于Transformer架構(gòu)的ViT模型在圖像分類(lèi)和識(shí)別方面表現(xiàn)出優(yōu)越的性能。為了提取出圖片中含有的情感信息,本文采用 CLIP預(yù)訓(xùn)練模型來(lái)提取圖像的低階特征。每段視頻經(jīng)過(guò)CLIP預(yù)訓(xùn)練模型得到的低階圖像特征XV,如式(4)所示:
XV=CLIP(P)
(4)
式中:XV為低階圖像特征;P為輸入的視頻片段。為了提取音頻模態(tài)數(shù)據(jù)的局部特征,將低階特征XV輸入到卷積神經(jīng)網(wǎng)絡(luò)中,如式(5)所示:
(5)
(6)
式中LSTM表示長(zhǎng)短期記憶網(wǎng)絡(luò)。提取高階圖像特征的流程如圖2所示。
圖2 圖像高階特征提取Fig.2 Image high-order feature extraction
Wav2Vec[10]是一種無(wú)監(jiān)督訓(xùn)練大量語(yǔ)音數(shù)據(jù)的預(yù)訓(xùn)練模型,能將原始語(yǔ)音數(shù)據(jù)映射成含有語(yǔ)義表征的向量。Wav2Vec能有效降低噪聲干擾,已在語(yǔ)音情感識(shí)別任務(wù)中展現(xiàn)出優(yōu)秀的性能。本文使用Wav2Vec提取音頻特征,每段音頻信號(hào)經(jīng)過(guò)Wav2Vec后得到的低階音頻特征,如式(7)所示:
XA=Wav2Vec(C)
(7)
式中:XA為低階音頻特征;C為輸入的語(yǔ)音片段。卷積神經(jīng)網(wǎng)絡(luò)能對(duì)齊數(shù)據(jù)的序列維度并提取局部特征。為了進(jìn)一步提取音頻數(shù)據(jù)的特征,將低階音頻特征XA輸入到卷積神經(jīng)網(wǎng)絡(luò)中,如式(8)所示:
(8)
(9)
(10)
式中:BiLSTM代表雙向長(zhǎng)短期記憶網(wǎng)絡(luò)。提取音頻特征的流程如圖3所示。
圖3 音頻高階特征提取Fig.3 Audio high-order feature extraction
如何有效地將三種單模態(tài)(文本、圖像、音頻)特征融合成最終的多模態(tài)表示一直是多模態(tài)情感分析中面臨的主要挑戰(zhàn)。多頭注意力機(jī)制常用于特征融合,它能捕獲模態(tài)間的相關(guān)性,實(shí)現(xiàn)模態(tài)間的動(dòng)態(tài)交互。本文采用多頭注意力來(lái)實(shí)現(xiàn)三模態(tài)的特征融合,具體過(guò)程如下:
首先得到經(jīng)本文1.1~1.3節(jié)中單模態(tài)特征提取方法提取的高階特征,如式(11)所示:
(11)
式中:L為序列長(zhǎng)度;d為特征維度;i表示視頻片段的索引;m∈{S,A,V},S表示文本模態(tài),A表示音頻模態(tài),V表示圖像模態(tài)。
注意力機(jī)制能夠依據(jù)信息的權(quán)重度量不同信息特征的重要性,加強(qiáng)內(nèi)部關(guān)鍵信息和內(nèi)部相關(guān)性,弱化無(wú)用信息和對(duì)外部信息的依賴(lài)。注意力機(jī)制定義為
(12)
式中:R為輸入的向量;dk為鍵向量K的維度;查詢(xún)向量Q定義為
Q=RWq
(13)
式中:Wq為可學(xué)習(xí)的矩陣參數(shù),Wq∈d×dq,dq為查詢(xún)向量的維度。鍵向量K定義為
K=RWk
(14)
式中:Wk為可學(xué)習(xí)的矩陣參數(shù),Wk∈d×dk,dk為Q和K的維度。值向量V定義為
V=RWv
(15)
式中:Wv為可學(xué)習(xí)的矩陣參數(shù),Wv∈d×dv,dv為值向量的維度。為了進(jìn)一步獲得文本模態(tài)的關(guān)鍵信息,將文本模態(tài)高階特征作為輸入向量,通過(guò)自注意力模型式(12)~(15)得到過(guò)程如下:
(16)
(17)
(18)
模型中三模態(tài)的交互和融合是利用多頭注意力機(jī)制實(shí)現(xiàn)的。多頭注意力機(jī)制[11]是基于自注意力模塊的擴(kuò)展,它能提取更具表現(xiàn)力的序列表示,將突出關(guān)鍵信息的文本模態(tài)ZS作為多頭注意力輸入的鍵向量K和值向量V,將音頻視頻混合模態(tài)特征向量XAV作為多頭注意力的查詢(xún)向量Q,輸入到多頭注意力機(jī)制中,融合過(guò)程如圖4中(b)多頭注意力融合模塊所示,得到最終的多模態(tài)表示Z:
Z=Multi(XAV,ZS,ZS)
(19)
式中:Multi表示多頭注意力機(jī)制,定義為
Multi(Q,K,V)=concat(m1,m2,…,mi)W
(20)
式中:mi為第i個(gè)注意力頭的輸出,定義為
(21)
式中:i為注意力頭的索引。
整個(gè)融合過(guò)程如圖4所示。
圖4 多模態(tài)注意力融合模塊Fig.4 Multimodal attention fusion module
將融合后的多模態(tài)表示Z輸入到情感分類(lèi)網(wǎng)絡(luò)中獲得最后的預(yù)測(cè)結(jié)果。為了進(jìn)一步提高模型識(shí)別情感值的準(zhǔn)確性,模型引入性別識(shí)別作為多任務(wù)學(xué)習(xí)的輔助任務(wù),如圖4中(c)多任務(wù)分類(lèi)模塊所示。Z被送入一個(gè)全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成的分類(lèi)器。這個(gè)分類(lèi)器預(yù)測(cè)情感分布的同時(shí)也預(yù)測(cè)性別分布。對(duì)于每個(gè)樣本,模型的輸出值有兩個(gè),第一個(gè)是預(yù)測(cè)的情感值,第二個(gè)是預(yù)測(cè)的性別值,通過(guò)計(jì)算預(yù)測(cè)情感值和真實(shí)情感值之間的誤差、預(yù)測(cè)性別值和真實(shí)性別值之間的誤差得到總的損失函數(shù)L:
L=αLe+(1-α)Lg
(22)
式中:Le表示情感預(yù)測(cè)的損失函數(shù);Lg為性別預(yù)測(cè)的損失函數(shù);α為超參數(shù),用來(lái)調(diào)整不同任務(wù)的權(quán)重。在訓(xùn)練過(guò)程中,模型將根據(jù)損失函數(shù)的值在反向傳播的過(guò)程中更新絕大部分隱藏層參數(shù),只保留相應(yīng)任務(wù)層的隱藏層參數(shù)獨(dú)立。
實(shí)驗(yàn)數(shù)據(jù)集選用中文多模態(tài)數(shù)據(jù)集CH-SIMS[7]。CH-SIMS共有2 281個(gè)視頻片段,來(lái)自中文影視劇、綜藝節(jié)目。每條數(shù)據(jù)都標(biāo)記了情感傾向:消極、中性、積極。原始視頻數(shù)據(jù)沒(méi)有對(duì)男女性別進(jìn)行標(biāo)注,本文手工對(duì)男女性別進(jìn)行標(biāo)注,以便能在模型中進(jìn)行多任務(wù)性別識(shí)別。CH-SIMS的數(shù)據(jù)統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Dataset statistical information
實(shí)驗(yàn)使用 TensorFlow開(kāi)源框架,在NVIDIA RTX 3090 GPU上對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。對(duì)于情感三分類(lèi)(積極、中性、消極)問(wèn)題使用準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo)。具體實(shí)驗(yàn)參數(shù)如表2所示。
為了評(píng)估本文模型的性能,選用以下6種較為先進(jìn)的多模態(tài)情感分析模型進(jìn)行對(duì)比。具體介紹如下:
1)EF-LSTM[12]:通過(guò)早期融合將不同模態(tài)特征拼接后輸入到LSTM網(wǎng)絡(luò)中得到分類(lèi)結(jié)果。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameter settings
2)LF-LSTM[12]:將不同模態(tài)特征輸入LSTM網(wǎng)絡(luò)后通過(guò)后期融合進(jìn)行拼接得到分類(lèi)結(jié)果。
3)TFN[13]:將不同模態(tài)特征進(jìn)行外積運(yùn)算進(jìn)行多模態(tài)融合。
4)MULT[14]:使用Transformer 模型進(jìn)行模態(tài)間的兩兩交互增強(qiáng),從而進(jìn)行跨模態(tài)融合。
5)EMHMT[15]:是一種結(jié)合多頭注意力與多任務(wù)學(xué)習(xí)的跨模態(tài)視頻情感分析模型。
6)MLMF[7]:把三個(gè)單模態(tài)的情感識(shí)別作為輔助任務(wù)進(jìn)行多任務(wù)學(xué)習(xí)。
實(shí)驗(yàn)結(jié)果如表3所示。本文模型的準(zhǔn)確率和 F1 值分別達(dá)到了68.71%和68.08%。與模型EF-LSTM、LF-LSTM相比,本文模型在融合方式上使用注意力機(jī)制突出了關(guān)鍵信息,并用合適的神經(jīng)網(wǎng)絡(luò)提取高階模態(tài)特征用來(lái)融合分類(lèi),在準(zhǔn)確率和F1值上分別提升了10%以上;相比于選取的最先進(jìn)模型MLMF在準(zhǔn)確率上提升了1.01百分點(diǎn),驗(yàn)證了模型的有效性。
表3 不同模型實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證本文1.1、1.2和1.3節(jié)中提取高階特征方法的有效性,分別設(shè)置多個(gè)對(duì)比實(shí)驗(yàn),將本文1.1、1.2和1.3節(jié)模型中提取的高階特征與其他模型提取的高階特征在情感分類(lèi)效果上作對(duì)比。文本模態(tài)高階特征提取的對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。其過(guò)程是將從預(yù)訓(xùn)練模型中得到的文本低階特征向量輸入到不同的神經(jīng)網(wǎng)絡(luò)模型中提取高階特征并測(cè)試分類(lèi)效果。對(duì)比模型具體介紹如下。
1) 全連接層:將式(1)中的低階文本特征向量Xt輸入到全連接層進(jìn)行分類(lèi)。
2)BiLSTM:將低階文本特征向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)后用全連接層分類(lèi)。
3)CNN:將低階文本特征向量輸入到卷積神經(jīng)網(wǎng)絡(luò)后用全連接層進(jìn)行分類(lèi)。
4)BiLSTM+Att:將低階文本特征向量依次輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制后進(jìn)行分類(lèi)。
5)CNN+Att:將低階文本特征向量依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制后進(jìn)行分類(lèi)。
表4 文本模態(tài)高階特征提取的對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experimental results of high-order feature extraction in text modality %
從表4可以看到,用卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制提取的高階文本特征在情感分類(lèi)任務(wù)上的準(zhǔn)確率和F1值分別達(dá)到66.03%、64.13%,證明本文1.1節(jié)中描述的文本單模態(tài)高階特征提取網(wǎng)絡(luò)能獲得語(yǔ)義更豐富、特征更突出的高階特征向量。
將從預(yù)訓(xùn)練模型中得到的低階圖像特征輸入到不同的神經(jīng)網(wǎng)絡(luò)模型中提取高階特征并測(cè)試分類(lèi)效果,圖像模態(tài)高階特征向量提取的實(shí)驗(yàn)結(jié)果如表5所示。對(duì)比模型具體介紹如下:
1)全連接層:直接將式(4)中的低階圖像特征向量XV輸入到全連接層進(jìn)行分類(lèi)。
2)CNN:將圖像低階特征向量輸入到卷積神經(jīng)網(wǎng)絡(luò)后輸入全連接層進(jìn)行分類(lèi)。
3)CNN+LSTM:將圖像低階特征向量依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)后進(jìn)行分類(lèi)。
4)CNN+LSTM+Att:將圖像低階特征向量依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)、注意力機(jī)制后進(jìn)行分類(lèi)。
表5 圖像模態(tài)高階特征提取的對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of high-order feature extraction in image modality %
在圖像單模態(tài)的對(duì)比實(shí)驗(yàn)中,加入了注意力機(jī)制之后分類(lèi)效果相比于CNN+LSTM的準(zhǔn)確率和F1值分別下降了3.21百分點(diǎn)和1.19百分點(diǎn),這可能是由于過(guò)擬合造成的。因此在提取圖像高階特征向量時(shí)使用準(zhǔn)確率最高的CNN+LSTM。
音頻單模態(tài)低階特征的實(shí)驗(yàn)結(jié)果如表6所示。其過(guò)程是將從預(yù)訓(xùn)練模型中得到的音頻低階特征向量輸入到不同的神經(jīng)網(wǎng)絡(luò)模型中提取高階特征并測(cè)試分類(lèi)效果。對(duì)比模型具體介紹如下。
1)全連接層:直接將式(7)中的音頻低階特征向量XA輸入到全連接層得到的分類(lèi)結(jié)果。
2)BiLSTM:將音頻低階特征向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)后用全連接層進(jìn)行分類(lèi)。
3)CNN+BiLSTM:將音頻低階特征向量依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)后進(jìn)行分類(lèi)。
4)CNN+BiLSTM+Att:將音頻低階特征向量依次輸入到卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)、注意力機(jī)制最后進(jìn)行分類(lèi)。
表6 音頻模態(tài)高階特征提取的對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results of high-order feature extraction in audio modality %
從表6中可以看到,用卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM網(wǎng)絡(luò)與注意力機(jī)制的組合網(wǎng)絡(luò)準(zhǔn)確率和F1值分別達(dá)到了56.45%、50.33%,能獲取分類(lèi)效果更好的高階音頻特征向量。
為了驗(yàn)證模型的有效性,共設(shè)計(jì)了6組消融實(shí)驗(yàn)。分別使用單模態(tài)特征或移除模型中單個(gè)模塊進(jìn)行對(duì)比,以此來(lái)驗(yàn)證本模型的有效性和各模塊的重要程度。實(shí)驗(yàn)結(jié)果如表7所示,前3個(gè)消融實(shí)驗(yàn)直接使用單模態(tài)高階特征進(jìn)行情感分類(lèi)。實(shí)驗(yàn)結(jié)果顯示單文本模態(tài)在準(zhǔn)確率上比另外兩個(gè)模態(tài)(音頻、圖像)高,這是因?yàn)槲谋灸B(tài)特征提取技術(shù)較為成熟,含有的有效信息也較多,而圖像和音頻模態(tài)的實(shí)驗(yàn)準(zhǔn)確率則較低,說(shuō)明該模態(tài)特征提取效率較低。用單模態(tài)性能最好的文本單模態(tài)特征識(shí)別的準(zhǔn)確率和F1值低于三模態(tài)融合的準(zhǔn)確率和F1值,這證明了文本、音頻、圖像的充分融合的必要性。移除了多任務(wù)學(xué)習(xí)模塊,在情感分類(lèi)任務(wù)上的準(zhǔn)確率和F1值分別下降了0.47百分點(diǎn)、0.66百分點(diǎn),這說(shuō)明加入性別識(shí)別多任務(wù)學(xué)習(xí)能提升情感分類(lèi)的效果。在移除了多頭注意力模塊后,本文模型其準(zhǔn)確率和F1值分別下降了2.85百分點(diǎn)、2.43百分點(diǎn),說(shuō)明了本文的多頭注意力融合模塊能夠利用不同模態(tài)的互補(bǔ)信息進(jìn)行融合,提升了識(shí)別準(zhǔn)確率。
表7 消融實(shí)驗(yàn)結(jié)果Table 7 Ablation experimental results %
本文提出了一種基于注意力融合與多任務(wù)學(xué)習(xí)的多模態(tài)情感分析模型。首先使用預(yù)訓(xùn)練模型BERT、Wav2Vec、CLIP得到文本、音頻、圖像的低階特征表示;然后將低階特征表示分別輸入到神經(jīng)網(wǎng)絡(luò)中來(lái)提取模態(tài)的高階特征表示;接著利用多頭注意力融合模塊實(shí)現(xiàn)三模態(tài)的交互融合;最后,結(jié)合多任務(wù)學(xué)習(xí)獲得情感和性別的分類(lèi)結(jié)果。在公開(kāi)的中文多模態(tài)數(shù)據(jù)集CH-SIMS上的實(shí)驗(yàn)結(jié)果表明,情感分類(lèi)的準(zhǔn)確率得到有效提升。未來(lái)的研究目標(biāo)是探索模態(tài)缺失條件下如何進(jìn)行模態(tài)融合,進(jìn)一步提高情感識(shí)別的準(zhǔn)確率。