摘要:隨著交互式數(shù)字人的迅速發(fā)展,情感識(shí)別技術(shù)得到了廣泛應(yīng)用,數(shù)字人在此項(xiàng)技術(shù)的支持下通過(guò)語(yǔ)音、面部表情和文本分析等方式來(lái)理解人類(lèi)的情感狀態(tài);情感響應(yīng)技術(shù)則讓數(shù)字人能夠通過(guò)語(yǔ)音生成、視覺(jué)反饋或動(dòng)作做出適當(dāng)反應(yīng)。基于此,對(duì)情感響應(yīng)系統(tǒng)的評(píng)估方法進(jìn)行分析,通過(guò)應(yīng)用測(cè)試,展示這些技術(shù)的實(shí)際效果,并提出未來(lái)研究方向等內(nèi)容。
關(guān)鍵詞:人工智能 交互式數(shù)字人 情感識(shí)別 響應(yīng)技術(shù)
中圖分類(lèi)號(hào):TP18
Research on Interactive Digital Human Emotion Recognition and Emotional Reaction Technology Based on Artificial Intelligence
KANG Xu
Tianjin Branch, CNOOC Information Technology and Services Co., Ltd., Tianjin City, 300452 China
Abstract: With the rapid development of interactive digital humans, emotion recognition technology has been widely applied. With the support of this technology, digital humans understand human emotional states through speech, facial expressions, and text analysis; Emotional response technology enables digital humans to respond appropriately through speech generation, visual feedback, or actions. Based on this, analyze the evaluation methods of emotional response systems, demonstrate the actual effects of these technologies through application testing, and propose future research directions.
Key Words: Artificial intelligence; Interactive digital human; Emotion Recognition; Reaction technology
在人工智能領(lǐng)域,交互式數(shù)字人情感識(shí)別與響應(yīng)技術(shù)已成為一個(gè)快速發(fā)展的研究領(lǐng)域,它涵蓋了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和信號(hào)處理等多個(gè)學(xué)科的交叉應(yīng)用。此類(lèi)技術(shù)的核心目標(biāo)是賦予數(shù)字人模仿人類(lèi)情感交互能力,進(jìn)而提升其應(yīng)用效果,使之在如客戶(hù)服務(wù)、教育、健康護(hù)理和娛樂(lè)等多個(gè)領(lǐng)域中發(fā)揮更大的作用。情感識(shí)別技術(shù)通過(guò)解析用戶(hù)的語(yǔ)音、面部表情、文本輸入等多模態(tài)數(shù)據(jù)來(lái)推斷用戶(hù)的情緒狀態(tài),而情感響應(yīng)技術(shù)則依據(jù)這些推斷結(jié)果生成相應(yīng)的語(yǔ)音、文本或視覺(jué)反饋,以實(shí)現(xiàn)與用戶(hù)之間的自然、有效交互。交互式數(shù)字人技術(shù)的發(fā)展意義重大,不僅因?yàn)樗梢蕴岣叻?wù)的個(gè)性化和滿(mǎn)意度,也因?yàn)樗谔幚砗晚憫?yīng)人類(lèi)情緒方面展示了巨大潛力。
1 交互式數(shù)字人情感識(shí)別與響應(yīng)技術(shù)概述
在當(dāng)前人工智能領(lǐng)域的研究中,交互式數(shù)字人情感識(shí)別與響應(yīng)技術(shù)日益顯得至關(guān)重要,它涵蓋了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)及信號(hào)處理等多個(gè)技術(shù)的交叉應(yīng)用,旨在賦予數(shù)字人類(lèi)似于人類(lèi)的情感理解和表達(dá)能力,以提升其交互效果和用戶(hù)體驗(yàn)[1]。情感識(shí)別技術(shù),作為交互式數(shù)字人的核心組成部分,主要依賴(lài)于模式識(shí)別和深度學(xué)習(xí)算法來(lái)分析用戶(hù)的語(yǔ)音、面部表情以及文本輸入,從而推斷出用戶(hù)的情緒狀態(tài)。
2 交互式數(shù)字人情感識(shí)別技術(shù)
2.1面部表情分析
面部表情分析在交互式數(shù)字人情感識(shí)別技術(shù)中占據(jù)核心地位,它通過(guò)高精度的圖像處理和機(jī)器學(xué)習(xí)技術(shù)解讀人類(lèi)表情中的微妙變化,從而推斷出用戶(hù)的情緒狀態(tài)。該技術(shù)的實(shí)現(xiàn)基于面部動(dòng)作編碼系統(tǒng)(Facial Action Coding System ,F(xiàn)ACS),該系統(tǒng)能詳細(xì)地描述面部肌肉所產(chǎn)生的每一個(gè)動(dòng)作,這些動(dòng)作被編碼為特定的動(dòng)作單元(Action Unit,AUs),每個(gè)動(dòng)作單元對(duì)應(yīng)一組特定的肌肉運(yùn)動(dòng)。通過(guò)分析這些動(dòng)作單元的激活狀態(tài),可以推斷出表情所表達(dá)的基本情感,如快樂(lè)、悲傷、驚訝等[2]。
2.2語(yǔ)音情感識(shí)別技術(shù)
語(yǔ)音情感識(shí)別技術(shù)是交互式數(shù)字人情感識(shí)別領(lǐng)域的一個(gè)重要分支,依賴(lài)于聲學(xué)特征提取、語(yǔ)音信號(hào)處理和機(jī)器學(xué)習(xí)模型來(lái)分析和識(shí)別人類(lèi)語(yǔ)音中的情緒內(nèi)容。這一技術(shù)的核心在于提取語(yǔ)音的基本和高級(jí)特征,如基頻(fundamental frequency,F(xiàn)0)、能量、音色和語(yǔ)速,以及它們?cè)谡Z(yǔ)音中的動(dòng)態(tài)變化[3]。采用特征提取技術(shù)如梅爾頻率倒譜系數(shù)(Mer frequency inverted spectrum coefficient,MFCC)、線性預(yù)測(cè)編碼( linear predictive coding ,LPC)、倒譜提升等從處理好的信號(hào)中提取有效的聲學(xué)特征,如圖1所示。這些特征不僅反映了語(yǔ)音的物理屬性,還蘊(yùn)含了說(shuō)話人的情緒狀態(tài)信息。在特征提取之后,采用各種機(jī)器學(xué)習(xí)算法,如支持向量機(jī)( Support Vector Machine SVM)、隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)(deep neural network ,DNNs)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTMs)等進(jìn)行情緒分類(lèi)。這些算法通過(guò)訓(xùn)練已標(biāo)記的情感語(yǔ)音數(shù)據(jù)庫(kù),學(xué)習(xí)不同情緒狀態(tài)下的聲學(xué)特征模式。
3 交互式數(shù)字人情感響應(yīng)技術(shù)
3.1音頻響應(yīng)技術(shù)
音頻響應(yīng)技術(shù)在交互式數(shù)字人情感響應(yīng)系統(tǒng)中扮演了至關(guān)重要的角色,它涉及通過(guò)生成的音頻來(lái)傳達(dá)相應(yīng)的情緒反饋,從而增強(qiáng)交互式數(shù)字人與用戶(hù)之間的情感聯(lián)結(jié)。這一技術(shù)的核心是利用語(yǔ)音合成(Text-to-Speech, TTS)系統(tǒng),將文本信息轉(zhuǎn)換為語(yǔ)音輸出,同時(shí)注入適當(dāng)?shù)那榫w色彩,以模仿人類(lèi)在特定情感狀態(tài)下的語(yǔ)音特征[4]。音頻響應(yīng)技術(shù)不僅僅是復(fù)制人類(lèi)語(yǔ)音的聲音特性,更重要的是能夠在語(yǔ)調(diào)、節(jié)奏、音量和語(yǔ)速等方面精確地調(diào)制情感表達(dá),這需要對(duì)語(yǔ)音信號(hào)進(jìn)行細(xì)致的情感調(diào)控。
3.2視覺(jué)響應(yīng)生成
視覺(jué)響應(yīng)生成技術(shù)在交互式數(shù)字人情感響應(yīng)系統(tǒng)中占據(jù)著重要位置,其目標(biāo)是創(chuàng)建視覺(jué)輸出,如面部表情和身體語(yǔ)言,這些輸出能夠在視覺(jué)上表達(dá)復(fù)雜的情感狀態(tài),以增強(qiáng)與用戶(hù)的情感共鳴和交互的真實(shí)性。這一技術(shù)涵蓋了從基礎(chǔ)的圖像處理到高級(jí)的計(jì)算機(jī)圖形和動(dòng)畫(huà)生成,依賴(lài)于一系列先進(jìn)的算法和模型,包括但不限于三維建模、動(dòng)作捕捉技術(shù)、面部動(dòng)畫(huà)參數(shù)化以及實(shí)時(shí)渲染技術(shù)。
3.3情感響應(yīng)系統(tǒng)的評(píng)估
評(píng)估交互式數(shù)字人情感響應(yīng)系統(tǒng)的效能與準(zhǔn)確性是確保其實(shí)用性的關(guān)鍵步驟,本研究采用基于機(jī)器學(xué)習(xí)的實(shí)時(shí)情感狀態(tài)監(jiān)測(cè)算法(Real-time Emotion Monitoring, REM)來(lái)實(shí)現(xiàn)這一目的。該算法核心在于持續(xù)更新情感狀態(tài)的評(píng)估,以提供即時(shí)的響應(yīng)調(diào)整。該算法的實(shí)施步驟如下所示,每一步均涉及具體的數(shù)學(xué)公式,用于定義和優(yōu)化情感識(shí)別與響應(yīng)生成的過(guò)程。
REM算法基于用戶(hù)的語(yǔ)音、面部表情及文本輸入數(shù)據(jù)集進(jìn)行操作,其中每個(gè)輸入?都與一個(gè)情感標(biāo)簽相關(guān)聯(lián)。算法的目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù),該函數(shù)能夠預(yù)測(cè)未見(jiàn)數(shù)據(jù)的情感狀態(tài)。該過(guò)程可以通過(guò)以下優(yōu)化問(wèn)題來(lái)形式化。
式(1)中:為損失函數(shù),用于量化預(yù)測(cè)情感標(biāo)簽和真實(shí)情感標(biāo)簽之間的差異;為訓(xùn)練樣本的數(shù)量。
為了實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè),REM算法更新其模x6NhW3nV3rrbeNqdAtOZuQ==型參數(shù)通過(guò)一個(gè)迭代過(guò)程,通常使用梯度下降法。在每個(gè)時(shí)間步,參數(shù)更新可以表示為:
式(2)中:為學(xué)習(xí)率;為損失函數(shù)相對(duì)于模型參數(shù)的梯度,表示為函數(shù)對(duì)參數(shù)的敏感度。
在系統(tǒng)評(píng)估階段,關(guān)鍵性能指標(biāo)如準(zhǔn)確率、召回率和F1分?jǐn)?shù)被計(jì)算以評(píng)估情感識(shí)別的準(zhǔn)確性。這些指標(biāo)的計(jì)算如下:
式(3)中,、、和分別代表真正例、真負(fù)例、假正例和假負(fù)例的數(shù)量。這些公式在REM算法中的應(yīng)用是多方面的:優(yōu)化問(wèn)題確立了學(xué)習(xí)任務(wù)的框架,參數(shù)更新公式指導(dǎo)了模型在接收新數(shù)據(jù)時(shí)如何調(diào)整,以保持其性能和適應(yīng)性。
4 應(yīng)用測(cè)試
為了確保交互式數(shù)字人情感識(shí)別與響應(yīng)系統(tǒng)的評(píng)估具有高度的準(zhǔn)確性和實(shí)用性,本研究采用了一組精心挑選的數(shù)據(jù)集。這些數(shù)據(jù)集是實(shí)測(cè)數(shù)據(jù),由專(zhuān)業(yè)演員在控制的實(shí)驗(yàn)室環(huán)境下收集,以確保情感表達(dá)的廣泛性和多樣性。演員們被要求表達(dá)不同的情感狀態(tài),包括快樂(lè)、悲傷、憤怒、驚訝和中性,以覆蓋人類(lèi)情感的主要類(lèi)別[5]。此外,數(shù)據(jù)收集過(guò)程中使用了高質(zhì)量的錄音和錄像設(shè)備來(lái)捕捉聲音和面部表情,以及相關(guān)的文本標(biāo)注。
本研究中的數(shù)據(jù)集共包含10 000個(gè)樣本,這些樣本均勻分布在5種主要情感狀態(tài)之間。為了評(píng)估情感識(shí)別與響應(yīng)技術(shù)的效果,數(shù)據(jù)集被分為訓(xùn)練集和測(cè)試集。其中:80%(即8 000個(gè)樣本)用于訓(xùn)練機(jī)器學(xué)習(xí)模型,以學(xué)習(xí)不同情感狀態(tài)下的數(shù)據(jù)特征和模式;剩余20%(即2 000個(gè)樣本)則用作測(cè)試集,以驗(yàn)證模型的性能和準(zhǔn)確性。在本研究中,情感響應(yīng)系統(tǒng)的評(píng)估采用了系統(tǒng)化的測(cè)試方法。數(shù)據(jù)的使用過(guò)程中,整個(gè)測(cè)試系統(tǒng)進(jìn)行了3次完整的迭代,以確保評(píng)估結(jié)果的穩(wěn)定性和可靠性。每次迭代都包括對(duì)全部2 000個(gè)測(cè)試樣本的處理,而未對(duì)這些樣本進(jìn)行進(jìn)一步的分組。這是因?yàn)槟繕?biāo)在于評(píng)估模型在處理多樣化情感狀態(tài)下的整體性能,而非在特定子集上的表現(xiàn),確保測(cè)試結(jié)果具有廣泛的代表性和適用性,具體測(cè)試如表1所示。
從表1結(jié)果中可以觀察到,模型在識(shí)別各種情感狀態(tài)方面表現(xiàn)出高度的準(zhǔn)確性和效率,尤其是在處理“驚訝”狀態(tài)時(shí),準(zhǔn)確率和F1分?jǐn)?shù)均達(dá)到了最高值,表明模型對(duì)表達(dá)驚訝的情感特征識(shí)別尤為敏感和精確。相較之下,對(duì)“中性”情感的處理略顯不足,這可能是由于中性情感的表達(dá)較為含蓄和不明顯,導(dǎo)致識(shí)別難度增加。這些結(jié)果整體表明:REM算法在多樣化情感狀態(tài)的識(shí)別上具備高效的實(shí)時(shí)處理能力,能夠?yàn)橛脩?hù)提供準(zhǔn)確反映情感狀態(tài)的交互體驗(yàn)。
5 結(jié)語(yǔ)
為有效實(shí)現(xiàn)這些應(yīng)用,必須對(duì)交互式數(shù)字人的情感識(shí)別與響應(yīng)機(jī)制進(jìn)行深入研究。這包括了解情感的心理和生理機(jī)制,開(kāi)發(fā)能夠準(zhǔn)確捕捉和解析這些情感表達(dá)的算法,以及設(shè)計(jì)能夠?qū)崟r(shí)、自然地響應(yīng)這些情感的系統(tǒng)。其中,情感識(shí)別算法需要處理和分析大量的實(shí)時(shí)數(shù)據(jù),識(shí)別出用戶(hù)的情緒狀態(tài),而情感響應(yīng)算法則需要根據(jù)這些狀態(tài)生成適當(dāng)?shù)姆答仭_@一過(guò)程不僅要求高效的數(shù)據(jù)處理能力,還需要對(duì)人類(lèi)情感的深刻理解和精準(zhǔn)的模擬能力。
研究交互式數(shù)字人的情感識(shí)別與響應(yīng)技術(shù),不僅有助于提升技術(shù)本身的成熟度和應(yīng)用廣度,還可以為理解人類(lèi)情感和認(rèn)知過(guò)程提供新的視角。通過(guò)這些技術(shù)的發(fā)展,可以極大地提高機(jī)器的人機(jī)交互質(zhì)量,使其更加智能化和人性化,最終實(shí)現(xiàn)與人類(lèi)用戶(hù)之間更有效、更富有同理心的互動(dòng)。
參考文獻(xiàn)
[1] 鄧歡.面向深度神經(jīng)網(wǎng)絡(luò)模型安全性測(cè)試的對(duì)抗補(bǔ)丁生成技術(shù)[D].北京:軍事科學(xué)院,2023.
[2] 蕭萍.具身,想象與共情:人工智能音樂(lè)生成與傳播的技術(shù)現(xiàn)象學(xué)研究[J].現(xiàn)代傳播:中國(guó)傳媒大學(xué)學(xué)報(bào),2022,44(9):155-161.
[3] 范永超,韓佳南.基于人工智能的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與研究[J].數(shù)字通信世界,2022(5):55-57.
[4] 齊燕.基于人工智能算法的圖像識(shí)別與生成研究[J].電子元器件與信息技術(shù),2019, 3(11):45=47.
[5] 楊毯毯.基于HMM與改進(jìn)的神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別[D].青島:山東科技大學(xué),2019.