文章編號: 1006-9798(2024)03-0020-11; DOI: 10.13306/j.1006-9798.2024.03.004
摘要:針對情緒識別中信息不全面、易受噪聲干擾等問題,基于Transformer網(wǎng)絡(luò)構(gòu)建了一種融合文本、視覺和聽覺等信息的多模態(tài)情感識別網(wǎng)絡(luò)模型(Bidirectional Encoder Representations from Transformers and Residual Neural Network and Connectionist Temporal Classification and Transformer,BRCTN)。引入人物特征信息輔助情緒識別,提高模型提取關(guān)鍵特征的能力;將單模態(tài)情緒識別的輸出向量通過模態(tài)對齊重組為統(tǒng)一格式;將3個模態(tài)和人物特征映射到高維度全局向量空間,學(xué)習(xí)不同模態(tài)特征之間的潛在聯(lián)系。該模型在IEMOCAP數(shù)據(jù)集上進行驗證,結(jié)果表明,與其他方法相比,BRCTN的準(zhǔn)確率達87%,識別性能最好。
關(guān)鍵詞: Transformer; IEMOCAP; 多模態(tài)融合; 情緒識別
中圖分類號: TP391.4文獻標(biāo)識碼: A
隨著GPT和大模型相繼出現(xiàn),多模態(tài)情緒識別[1]在人機交互過程中應(yīng)用,在家庭護理領(lǐng)域中,機器人可以更好地理解情緒,有助于幫助人類緩解壓力、解決生活瑣事。多模態(tài)融合技術(shù)可以提供比單一模態(tài)更準(zhǔn)確細致的情緒識別結(jié)果[2]。近年來,研究者嘗試使用多種模態(tài)信息進行情感分析及判斷。辛等[3]使用長短期記憶網(wǎng)絡(luò)(Long ShortTerm Memory, LSTM)、殘差網(wǎng)絡(luò)(Residual Network , ResNet)等獲得了文本與圖像的模態(tài)表示,通過注意力機制優(yōu)化了模型的特征融合。范等[4]利用卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, CNN)和預(yù)先訓(xùn)練好的面部表情模型提取相應(yīng)的聲音和視覺特征并進行信息融合和壓縮,建立了LSTMRNN (Long ShortTerm Memory and Recurrent Neural Network,長短期記憶網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò))框架對融合后的視覺和聽覺特征進行情感識別分析。徐等[5]使用BiLSTMAttention (Bidirectional Long ShortTerm Memory and Attention, 添加注意力機制的雙向長短期記憶網(wǎng)絡(luò))學(xué)習(xí)全局和局部情感特征并結(jié)合TransformerESIM解決了模型的長距離限制問題。目前模態(tài)融合已取得一定進展,但仍存在特征信息提取不全面、模態(tài)融合中部分特征信息易丟失等問題。為此,本文在Transformer網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建了一種多模態(tài)情緒識別網(wǎng)絡(luò),(Bidirectional Encoder Representations from Transformers and Residual Neural Network and Connectionist Temporal Classification and Transformer)BRCTN網(wǎng)絡(luò)模型。引入人臉關(guān)鍵點識別模塊,利用人物的特征信息輔助情緒識別,提高了模型提取關(guān)鍵特征的能力,彌補了詞嵌入對同一詞不同含義識別的缺點,解決了識別過程中信號輸入不連續(xù)導(dǎo)致識別準(zhǔn)確度低的問題;為了進一步學(xué)習(xí)不同模態(tài)特征之間的潛在聯(lián)系,提出了一種多模態(tài)向量結(jié)構(gòu),通過嵌入方式形成融合向量,將不同的情緒特征映射到高維多模態(tài)向量空間中,實現(xiàn)了復(fù)雜情緒模態(tài)輸入數(shù)據(jù)之間的空間與時間建模。
1多模態(tài)情緒識別網(wǎng)絡(luò)框架
多模態(tài)情緒識別網(wǎng)絡(luò)由特征提取、模態(tài)融合和基于Transformer的多模態(tài)情緒特征識別組成,框架如圖1。在獲得情緒特征后,按輸出時間不同,標(biāo)記為向量矩陣L1,L2,…Ln,將三個在連續(xù)的時間TS內(nèi)依次獲得的輸出依照結(jié)果融合為新的融合向量的元素E1,E2,E3…ETS。在Transformer多模態(tài)輸入前置嵌入部分中,融合向量的每一個元素再與位置、人物進行模態(tài)嵌入融合,然后輸入Transformer結(jié)構(gòu)中進行特征識別,最終輸出情緒識別結(jié)果。
1.1特征提取
1.1.1文本特征
由于IEMOCAP[6]數(shù)據(jù)集中存在大量“a”、“the”等不包含語義的高頻詞匯,將其剔除以提高運算速度,同時統(tǒng)計單詞出現(xiàn)的頻率,將出現(xiàn)次數(shù)小于5的單詞刪除,減少不必要的向量建模。確定數(shù)據(jù)集后,使用Glove進行無監(jiān)督訓(xùn)練,提取文本特征。定義跳元模型,嵌入層數(shù)量設(shè)置為20,隱藏層數(shù)量設(shè)置為4,定義損失函數(shù)sigmoid表達式為
f(x)=11+e-x (1)
將網(wǎng)絡(luò)導(dǎo)入訓(xùn)練模塊,學(xué)習(xí)率設(shè)置為0.002,共訓(xùn)練50輪。完成模型訓(xùn)練后,依次輸出“快樂”、“悲傷”、“憤怒”、“厭惡”四種典型情緒詞云圖,如圖2。結(jié)果表明,四種情緒對應(yīng)的詞云圖中出現(xiàn)的近義單詞和現(xiàn)實經(jīng)驗相吻合,說明訓(xùn)練獲得的Glove 嵌入模型能對情緒詞匯之間的聯(lián)系進行有效建模。
由于一個詞在不同的上下文中多次出現(xiàn),可能有不同的含義,但詞嵌入將它視為相同的詞。BERT(Bidirectional Encoder Representations from Transformers,雙向編碼器表征法)通過為同一個詞生成多個不同的向量來區(qū)分和捕捉不同的語義含義,故在詞嵌入后使用BERT提取上下文信息。
人類在自然狀態(tài)下進行語言表達時常以停頓作為表達的結(jié)束,且OCR(語音轉(zhuǎn)文字)識別的結(jié)果通常會以零散、斷斷續(xù)續(xù)的輸入形式傳遞到下一層,相同文本一次性輸入BERT和分批送入BERT的輸出結(jié)果并不一致。為此,本文模型引入人物嵌入,并按時序綜合成人物向量,多條句子組成的人物語言表達在即時場景中不以段落作為分隔,而是取決于對話雙方在傾聽和講述中的輪流表達,改進前后的模型框架如圖3。文字片段送入Glove中進行編碼與詞嵌入后通過BERT對相同的詞生成不同的向量,便于區(qū)分和捕捉不同的語義信息。輸出詞向量ET會暫存在系統(tǒng)中,當(dāng)Ts時間段內(nèi)沒有任何輸入時,判定識別對象的表達結(jié)束,并向存儲在系統(tǒng)中的部分發(fā)出信號,將內(nèi)部存儲的完整句子輸入到下一模塊。模型向量嵌入部分如圖4,輸入向量表示由三個不同的向量求和。
1.1.2視覺特征
通過設(shè)備獲取的人臉原始圖像存在冗雜像素點、雜物、無關(guān)物品等干擾,降低了人臉識別的效率,需要先進行圖像預(yù)處理,消除圖像中的噪聲和背景干擾,提取出人臉區(qū)域,預(yù)處理流程如圖5。
在選擇性搜索中,人臉檢測算法通過錨框機制從包含人臉的輸入部分中提取一定數(shù)量的候選區(qū),初步標(biāo)注這些區(qū)域的類別和邊界框。本文采用單發(fā)多框檢測,預(yù)測多目標(biāo)位置類別并在每個預(yù)測位置生成多個邊界框,多個卷積層預(yù)測不同尺度和長寬比的邊界框,通過非極大值抑制獲得人臉檢測的最終結(jié)果,如圖6。
人臉檢測網(wǎng)絡(luò)由基礎(chǔ)層、3個特征層、輸出層組成,主要檢測是否存在人臉并從原始圖像中提取人臉?;A(chǔ)層從輸入圖像中提取特征,大小為3的輸入通道在基礎(chǔ)層中處理為16個特征圖,逐步翻倍,最終在3層卷積后增加到128,應(yīng)用最大池化層實現(xiàn)結(jié)果輸出。3個多尺度特征層均由類別預(yù)測、邊界框預(yù)測和特征塊組成。在類別預(yù)測層上存在人臉和非人臉兩類輸出,邊界框預(yù)測層為矩形框圖預(yù)測4個邊界的偏移量,每個特征塊生成的人臉特征圖用于生成錨框和預(yù)測錨框的類別和偏移量。輸出層采用卷積層輸出,有效降低模型復(fù)雜度,減小計算量。
人臉檢測模型的訓(xùn)練數(shù)據(jù)來自FDDB (Face Detection Data Set and Benchmark)數(shù)據(jù)集,共包含2 845張圖片,內(nèi)含彩色以及 灰度圖,其中的人臉總數(shù)達到5 171個,人臉?biāo)尸F(xiàn)的狀態(tài)多樣,包括遮擋、罕見姿態(tài)、低分辨率以及失焦的情況[7],使用lable_image對其中的人臉進行標(biāo)注,獲得邊界框的數(shù)據(jù)作為人臉檢測模型的訓(xùn)練數(shù)據(jù)。檢測結(jié)果說明模型能夠在復(fù)雜和強干擾的環(huán)境中準(zhǔn)確捕捉到人臉(圖7)。
人臉圖像預(yù)處理常用方法有人臉的搜索與定位、數(shù)據(jù)增強和人臉歸一化等。運用降噪和對比度調(diào)整等手段后的效果圖(圖8)說明預(yù)處理后的圖像中人臉的微表情和細化特征變得更加明顯。預(yù)處理后的圖像通過現(xiàn)有殘差網(wǎng)絡(luò)中卷積網(wǎng)絡(luò)進行多層次的特征提取,在輸出層輸出特征向量,殘差塊(Residual block)如圖9。
1.1.3聽覺特征
音頻錄制過程中存在環(huán)境雜音、設(shè)備等干擾因素,需對原始音頻信號進行預(yù)加重、分幀、去除空白幀等預(yù)處理后,通過快速傅里葉變換和梅爾倒譜系數(shù)獲得時域、譜域、倒譜域特征等音頻特征數(shù)據(jù)[8],特征提取流程圖如圖10。
從IEMOCAP數(shù)據(jù)集中取出擔(dān)憂、沮喪所對應(yīng)的一組原始數(shù)據(jù),并將音頻波形進行可視化處理,結(jié)果如圖11(a)、(c)。預(yù)加重濾波器是通過一階FIR高通數(shù)字濾波器實現(xiàn)的,如式(2)。
H(z)=1-az-1 (2)
通過音頻信號的乘法運算,可實現(xiàn)限長的窗函數(shù)的平移或轉(zhuǎn)換,加窗后的信號為
sw(n)=s(n)*w(n) (3)
為了最大程度有效保留語音信號變化過程中的信息內(nèi)容,使用滑動窗,加窗后形成的語音采樣序列為
w(n)×s(n)→sw(n)|n=0,1,…,N-1 (4)
經(jīng)過預(yù)處理后的圖像信號變得更加平整光滑,清除了噪聲和雜亂聲波,特征更加突出,如圖11(b)、(d)。
預(yù)處理后的音頻波形圖通過梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)提取音頻情緒對應(yīng)的梅爾圖[9],如圖12。不同音頻的短時平均能量的差異能夠有效區(qū)分不同情緒,適合神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)、訓(xùn)練與分類的情緒特征類別。
為了更好地獲得音頻信號前后之間的情緒關(guān)聯(lián),將Transformer+CTC混合模型實現(xiàn)長距離音頻特征的建模,解決輸入序列長度不一、難以對齊的問題,模型框架如圖13。將獲得的波形圖和梅爾圖歸一化,對音頻進行二次采樣以減少序列長度,然后通過卷積網(wǎng)絡(luò)處理梅爾圖,使用CTC算法實現(xiàn)序列對齊,最終轉(zhuǎn)換為維度為512的嵌入樣本。
1.1.4人物特征
采用基于局部二值模式的人臉識別算法(Local Binary PatternsHistograms, LBPH)[10]對人臉識別中的人臉圖像進行關(guān)鍵點識別,識別到的人臉關(guān)鍵點編碼后組成的矩陣存儲到數(shù)據(jù)庫中,流程圖如圖14。
該模型識別出不同的人員后,按時間順序輸出包含人物標(biāo)簽的被檢測對象人物序列,能夠在向量結(jié)合時嵌入其中,當(dāng)再次檢測到相似人臉對應(yīng)的編碼后,從數(shù)據(jù)庫中輸出對應(yīng)的人物信息,使情緒識別網(wǎng)絡(luò)能夠更精準(zhǔn)地區(qū)分識別對象,檢測效果如圖15。
1.2模態(tài)融合
模態(tài)融合分為特征嵌入與模態(tài)嵌入。在特征嵌入部分,文本、表情和語音特征提取網(wǎng)絡(luò)的輸出部分融合為包含情緒識別結(jié)果的多模態(tài)特征向量矩陣。在模態(tài)嵌入部分,融合向量進一步與位置、人物特征向量融合,最后輸入Transformer網(wǎng)絡(luò)進行識別。
1.2.1特征嵌入
為了充分利用模態(tài)之間的跨模態(tài)信息和時間關(guān)系,將3個模態(tài)的信息進行嵌入處理,對于每個模態(tài)而言,多個源于單模態(tài)的向量融合形成1個多模態(tài)向量的過程相當(dāng)于向量的聯(lián)合特征表示,如圖16。
假設(shè)共有來自N個模態(tài)的信息,對于每一個單模態(tài)信息都使用對應(yīng)的特征提取方法,經(jīng)過特征提取網(wǎng)絡(luò)后,其模態(tài)信息轉(zhuǎn)化為輸出L1,L2,…Ln。將文本、表情、音頻3個模態(tài)向1個線性層映射所有的單模態(tài)特征,即輸出向量維度dn轉(zhuǎn)換為高維度dmodle,最終將3個模態(tài)的特征向量都映射到全局特征空間R中。圖16中的線性層共有N個,與3個模態(tài)的向量相對應(yīng),用來轉(zhuǎn)換N個模態(tài)的特征向量。
1.2.2模態(tài)嵌入
為了從每個模態(tài)都能得到一個唯一的embedding,仿照BERT的向量嵌入,將單個模態(tài)所有信息進行嵌入處理,稱為Eagg。融合特征向量會接收該模態(tài)的所有信息,對于每個模態(tài)的融合特征向量,首先需要將該部分所有特征做最大池化處理,并將該模態(tài)所有突出的特征作為該融合特征的初始值
Eagg=maxpool({E}Kk=1) (5)
融合特征向量的輸入特征的序列為
EToken=[E1,E1,…,E1,…,EN,EN,…,EN] (6)
為了有效處理跨模態(tài)信息,在模態(tài)嵌入部分需要對每一個模態(tài)進行位置編碼,對模態(tài)之間的關(guān)系進行有效建模。在位置嵌入部分,通過模態(tài)編碼的方式,讓輸入的特征序列具有不同模態(tài)之間的區(qū)分度。對于N種模態(tài),學(xué)習(xí)N個位置模態(tài)編碼{E1,E2,…,EN}來區(qū)分不同模態(tài),每個模態(tài)位置編碼的維度都為dmodle。融合向量的位置模態(tài)編碼EPosition序列為
EPosition=[E1agg,E11,…,E1K1,…,ENagg,EN1,…,ENKN?;] (7)
與位置嵌入的方式類似,人物嵌入的結(jié)構(gòu)取決于系統(tǒng)在識別時域Ts內(nèi)捕捉到的不同識別對象,人物嵌入向量編碼的維度也為dmodle,在時間范圍[t,t+1)上的特征編碼為Tt+1。另外,本文設(shè)置了兩種額外的時間嵌入EAagg和Eunk,分別編碼聚合模態(tài)特征和未知人物信息特征。人物嵌入結(jié)構(gòu)為:
EActor=[EAagg,EA1,…,EAD,…,EAagg,EA1,…,EAD] (8)
1.2.3多模態(tài)特征表示
多模態(tài)情感特征融合模型遵循Transformer編碼器部分的體系結(jié)構(gòu),由堆疊的自注意力層和全連接層組成,用來計算多模態(tài)特征表示,其輸入為一組embedding,均是屬于同一維度的特征向量。每一個模態(tài)的特征向量都嵌入了特征的語義信息、模態(tài)信息以及在視頻中提取特征時所對應(yīng)的時間信息。因此,多模態(tài)情感特征Ω(v)被定義為特征嵌入、模態(tài)嵌入、時序嵌入的三者之和:
Ωv=EToken+EPosition+EActor=[ω1agg,ω11,…,ω1K1,…,ωNagg,ωN1,…,ωNKN] (9)
1.3多模態(tài)情緒識別
多模態(tài)情感特征融合模型基于Transformer編碼器部分的結(jié)構(gòu),由自注意力模塊(SelfAttention)、前饋神經(jīng)網(wǎng)絡(luò)模塊兩部分組成,結(jié)構(gòu)如圖17所示。
編碼器負責(zé)把自然語言序列輸入X映射成為隱藏層C,即含有自然語言序列的數(shù)學(xué)表達。解碼器把隱藏層再映射為自然語言序列Y,從而使語義模型可以解決各種問題。解碼器定義了給定上下文編碼序列條件下目標(biāo)序列的條件概率分布,根據(jù)貝葉斯法則,在給定上下文編碼序列和每個目標(biāo)變量的所有前驅(qū)目標(biāo)向量的條件下,可將上述分布分解為每個目標(biāo)向量的條件分布的乘積
pθdec(Y1:m|X-1:n)=∏mi=1pθdec(yi|Y0:i-1,X-1:n) (10)
由于自注意力無法針對多維輸入向量進行有效建模,故需要推導(dǎo)出多維注意力機制。由矩陣系數(shù)WQ1、Wk1、Wv1替代Q1,K1,V1三個輸入向量,并將其映射到語義空間1,如式(11)
Q1=QWQ1=q1WQ1…qmWQ1,K1=KWK1=q1WK1…qmWK1,V1=VWV1=q1WV1…qmWV1 (11)
其中,Q、K、V是向量序列,WQ1、Wk1、Wv1是待學(xué)習(xí)參數(shù)。之后,進行Attention計算,如式(12)
Z=head1=Attention(Q1,K1,V1) (12)
其中,head1是向量序列,長度和Q一致。之后用矩陣系數(shù)WQ1、Wk1、Wv1將Q、K、V轉(zhuǎn)換至語義空間2,重復(fù)進行Attention計算,得到head2,同理計算出head3…h(huán)eadc。
最后,將上述公式整合,獲得完整的多頭注意力表達式
Multi-Head(Q,K,V)=concat(head1…h(huán)eadc)WO=concat(h1,1…h(huán)n,1)WO…concat(h1,m…h(huán)n,mWO (13)
Add & Norm指的是殘差連接和LayerNormalization操作。殘差連接主要防止在反向傳播的過程中出現(xiàn)梯度消失。LayerNormalization是一種歸一化方法,計算同一樣本中的不同特征,穩(wěn)定模型并對數(shù)據(jù)進行正則化處理。前饋神經(jīng)網(wǎng)分采用的是全連接層和Relu激活函數(shù)。
2實驗設(shè)置與結(jié)果分析
2.1實驗環(huán)境及數(shù)據(jù)來源
本文實驗所使用的操作系統(tǒng)為Windows10系統(tǒng),CPU為AMD 5600X處理器,GPU為NVIDIA GeForce RTX 3060 Ti顯卡,加速庫為CUDA12.0,編程語言為Python3.6,深度學(xué)習(xí)框架為Pytorch1.9。實驗數(shù)據(jù)來源于公開數(shù)據(jù)集IEMOCAP,將4000個數(shù)據(jù)樣本按照6∶2∶2的比例劃分為訓(xùn)練集、驗證集和測試集。在IEMOCAP數(shù)據(jù)庫中采用與人無關(guān)的實驗策略,剔除3位數(shù)據(jù)缺失的演員樣本,處理了13位表演者的數(shù)據(jù)樣本,每位表演者有35個樣本數(shù)據(jù),共有455個樣本,將實驗安排為13組,每一組中將1個人的樣本作為驗證集,剩余12個人的樣本作為訓(xùn)練集。實驗評估方法采用準(zhǔn)確率來評判模型識別效果,采用混淆矩陣來評判模型的分類性能。
2.2文本識別方法驗證
為了測試人物標(biāo)簽對文本情緒的影響,本文對比了嵌入人物標(biāo)簽的BERT模型與原始BERT模型,結(jié)果如圖18所示。數(shù)據(jù)評估主要依據(jù)每一輪循環(huán)訓(xùn)練過程中模型對應(yīng)的準(zhǔn)確率,其中縱坐標(biāo)表示模型識別準(zhǔn)確率,橫坐標(biāo)是模型訓(xùn)練時迭代次數(shù)。結(jié)果表明,隨著迭代次數(shù)的增加,情緒識別模型的準(zhǔn)確率不斷提高,在隨后的訓(xùn)練過程中趨于穩(wěn)定,能夠有效擬合。在IEMOCAP情緒數(shù)據(jù)集上訓(xùn)練獲得的BERT模型最高準(zhǔn)確率達77.81%,基本滿足情緒識別的要求,這是因為原始 BERT 模型只進行單個語句的情緒識別,不對語句上下文部分進行建模,而嵌入人物標(biāo)簽的BERT能夠很好地捕捉前后文中蘊含的情緒特征。
2.3本文多模態(tài)情緒識別方法驗證
2.3.1不同數(shù)量模態(tài)融合效果對比
本文在IEMOCAP數(shù)據(jù)集上進行多模態(tài)情感識別實驗,將3種模態(tài)隨即融合并在IEMOCAP數(shù)據(jù)集進行對比驗證本文方法的有效性,結(jié)果如圖19所示。由圖19a可以看出,雙模態(tài)融合的識別準(zhǔn)確率優(yōu)于單模態(tài),其中,音頻-文本模態(tài)的識別效果最好,證明雙模態(tài)融合能夠提高情緒識別的準(zhǔn)確率。從圖19b中可以看出,三模態(tài)的曲線斜率要更低,這是因為3種模態(tài)融合后,模型參數(shù)更多,求解過程變的更加復(fù)雜。但是,融合了3種模態(tài)信息后,模型能夠挖掘更多數(shù)據(jù)間的潛在聯(lián)系,識別準(zhǔn)確率比雙模態(tài)模型有明顯提高,多輪訓(xùn)練后,準(zhǔn)確率穩(wěn)定在80%以上。
2.3.2與其他方法對比
6種多模態(tài)情緒識別方法使用文本、聽覺及視覺中2種或3種模態(tài)融合,在IEMOCAP數(shù)據(jù)集上進行驗證且所使用數(shù)據(jù)集標(biāo)簽一致,結(jié)果如表1。前5種方法使用“Angry”、“Happy”、“Sad”、“Neutral”4類情感標(biāo)簽,進行了4種常見情緒的實驗驗證。本文在上述4類常見情緒情感標(biāo)簽基礎(chǔ)上增加了“Frustrated”、“Excited”情感標(biāo)簽,共6類情感標(biāo)簽進行驗證。由表1可以看出,相較于其他模態(tài)識別方法,BRCTN網(wǎng)絡(luò)模型在IEMOCAP數(shù)據(jù)集上的識別性能更好,準(zhǔn)確率達到87%。
2.3.3消融實驗
為進一步驗證本文方法的性能,設(shè)計了消融實驗,通過混淆矩陣展示了6種情緒識別結(jié)果,如圖20。通過圖20 a、b可以看出,改進BERT在IEMOCAP數(shù)據(jù)集上識別效果相較于原始BERT有明顯提高,其中“angry”準(zhǔn)確率,提升了13%。從整體來看,使用單模態(tài)進行情緒識別效果均不理想,其中表情識別的準(zhǔn)確率最差,在70%以下,這是因為基于殘差網(wǎng)絡(luò)的情緒識別結(jié)果相互獨立,IEMOCAP數(shù)據(jù)集視頻幀內(nèi)存在的干擾會對識別結(jié)果造成較大影響,導(dǎo)致輸出的人臉表情識別結(jié)果在識別時域Ts內(nèi)出現(xiàn)波動,致使準(zhǔn)確率大幅下降。而BRCTN模型引入了人物特征信息,且在每個模態(tài)的特征向量都嵌入了特征的語義信息、模態(tài)信息以及在視頻中提取特征時所對應(yīng)的時間信息,能夠較精準(zhǔn)的識別出各個情緒之間的差別,其準(zhǔn)確率達到87%。實驗證明了基于融合特征向量和聯(lián)合損失的改進能夠?qū)崿F(xiàn)對復(fù)雜情緒特征之間進行有效建模,提取深層次的情緒特征。
3結(jié)論
本文搭建了一種基于Transformer的多模態(tài)情緒識別網(wǎng)絡(luò)模型(BRCTN)。通過引入LBPH的人臉關(guān)鍵點識別模塊構(gòu)造了人物特征識別網(wǎng)絡(luò),將人物特征與文本特征結(jié)合,提高了模型提取關(guān)鍵特征的能力,解決了識別過程中信號輸入不連續(xù)導(dǎo)致識別準(zhǔn)確度低的問題。使用全新的多模態(tài)向量結(jié)構(gòu),將三個模態(tài)和人物特征映射到高維度全局向量空間,進一步學(xué)習(xí)不同模態(tài)特征之間的潛在聯(lián)系。最后在IEMOCAP數(shù)據(jù)集上進行驗證,結(jié)果表明,與目前先進方法相比,BRCTN網(wǎng)絡(luò)模型準(zhǔn)確率有明顯提高,具有更好的識別效果。
參考文獻
[1]KUMAR P, MALIK S, RAMAN B. Interpretable multimodal emotion recognition using hybrid fusion of speech and image data[J]. Multimedia Tools and Applications, 2024, 83(10): 28373-28394.
[2]吳曉, 牟璇, 劉銀華, 等. 一種基于語音、文本和表情的多模態(tài)情感識別算法[J]. 西北大學(xué)學(xué)報(自然科學(xué)版), 2024, 54 (2): 177-187.
[3]辛創(chuàng)業(yè). 基于音視頻的情緒識別研究[D]. 北京: 北方工業(yè)大學(xué), 2020.
[4]范習(xí)健, 楊緒兵, 張禮, 等. 一種融合視覺和聽覺信息的雙模態(tài)情感識別算法[J]. 南京大學(xué)學(xué)報(自然科學(xué)), 2021, 57 (2): 309-317.
[5]徐志京, 高姍. 基于TransformerESIM注意力機制的多模態(tài)情緒識別[J]. 計算機工程與應(yīng)用, 2022, 58 (10): 132-138.
[6]BUSSO C, BULUT M, LEE CC, et al. IEMOCAP: Interactive emotional dyadic motion capture database[J]. Language Resources and Evaluation, 2008, 42: 335-359.
[7]JAIN V, LEARNEDMILLER E. Fddb: A benchmark for face detection in unconstrained settings[R]. UMass Amherst technical report, 2010.
[8]張強. 網(wǎng)絡(luò)音頻數(shù)據(jù)分類標(biāo)注與前處理系統(tǒng)構(gòu)建[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2012.
[9]SIDHU M S, LATIB NA A, SIDHU K K. MFCC in audio signal processing for voice disorder: a review[J]. Multimedia Tools and Applications, 2024: 1-21.
[10]DEEBA F, MEMON H, DHAREJO F A, et al. LBPHbased enhanced realtime face recognition[J]. International Journal of Advanced Computer Science and Applications, 2019, 10(5): 274-280.
[11]MITTAL T, BHATTACHARYA U, CHANDRA R, et al. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues[C]∥AAAI conference on artificial intelligence. 2020, 34(2): 1359-1367.
[12]LE H D, LEE G S, KIM S H, et al. Multilabel multimodal emotion recognition with transformerbased fusion and emotionlevel representation learQXP8NfgyyNReOjdpLK/FW0gKIyvgOdS0uyJ/d82imYU=ning[J]. IEEE Access, 2023, 11: 14742-14751.
[13]MAMIEVA D, ABDUSALOMOV A B, KUTLIMURATOV A, et al. Multimodal emotion detection via attentionbased fusion of extracted facial and speech features[J]. Sensors, 2023, 23(12): 5475.
[14]KHAN M, GUEAIEB W, EL SADDIK A, et al. MSER: Multimodal speech emotion recognition using crossattention with deep fusion[J]. Expert Systems with Applications, 2024, 245: 122946.
[15]HOSSEINI S S, YAMAGHANI M R, POORZAKER ARABANI S. Multimodal modelling of human emotion using sound, image and text fusion[J]. Signal, Image and Video Processing, 2024, 18(1): 71-79.
Multimodal Emotion Recognition Based on Text、Speech and Expression
XIE Xingyu1, DING Caiqin1, WANG Xianlun1,2, PAN Dongjie1
(1. College of Mechanical and Electrical Engineering, Qingdao University of Science and Technology, Qingdao 266061, China;
2. Qingdao Anjie Medical Technology Co., Ltd, Qingdao 266100, China)
Abstract:
To address the issues of incomplete information and susceptibility to noise in emotion recognition, a multimodal emotion recognition network model (Bidirectional Encoder Representations from Transformers, Residual Neural Network and Connectionist Temporal Classification and Transformer, BRCTN) is constructed based on the Transformer network, integrating information from text, visual, and auditory modalities. The model incorporates character feature information to assist emotion recognition, enhancing the model′s ability to extract key features. The output vectors from singlemodal emotion recognition are restructured into a unified format through modality alignment. The three modalities and character features are mapped into a highdimensional global vector space to learn the potential relationships between different modal features. The model was validated on the IEMOCAP dataset, and results showed that, compared to other methods, BRCTN achieved an accuracy of 87%, demonstrating the best recognition performance.
Keywords: Transformer; IEMOCAP; multimodal fusion; emotion recognition
收稿日期: 2024-05-06; 修回日期: 2024-07-20
基金項目: 山東省自然科學(xué)基金資助項目(ZR2020MF023)
第一作者: 謝星宇(1997-),男,碩士,主要研究方向為機器人及智能制造技術(shù)。
通信作者: 王憲倫(1978-),男,博士,副教授,主要研究方向為機器人及智能制造技術(shù)、機械系統(tǒng)智能化設(shè)計及虛擬設(shè)計、機械加工過程的計算機控制。Email: xlwang@126.com