黃宏程 李 凈 胡 敏 陶 洋* 寇 蘭
①(重慶郵電大學(xué)通信與信息工程學(xué)院 重慶 400065)
②(重慶市通信軟件工程技術(shù)研究中心 重慶 400065)
近年來(lái),隨著“智能家居”、“智慧社區(qū)”以及“智慧城市”等概念的提出與落實(shí),人機(jī)交互成為公眾日常生活中不可或缺的一部分。人們期望機(jī)器人在滿足日常交互需求的同時(shí),具備生成高級(jí)擬人化情感的認(rèn)知情感計(jì)算能力。同時(shí)隨著心理學(xué)、認(rèn)知科學(xué)與人工智能交叉研究的深入,研究者發(fā)現(xiàn)機(jī)器智能應(yīng)體現(xiàn)在“智商”與“情商”兩個(gè)方面。因此,認(rèn)知情感計(jì)算成為當(dāng)前智能機(jī)器人研究領(lǐng)域中的熱點(diǎn)。
認(rèn)知情感計(jì)算就是要賦予計(jì)算機(jī)類(lèi)似于人一樣觀察、理解和生成各種情緒狀態(tài)的能力,使其能夠像人一樣進(jìn)行自然親切、生動(dòng)有趣的交互[1]。近年來(lái),在認(rèn)知情感計(jì)算方面,涌現(xiàn)出眾多具有參考價(jià)值的情感模型。文獻(xiàn)[2]提出基于PAD (Pleasure-Arousal-Dominance)的個(gè)性化情感模型,建立個(gè)性空間、心情空間與情感空間的3層映射關(guān)系來(lái)描述人類(lèi)情感變化規(guī)律。文獻(xiàn)[3]提出在云、邊及用戶協(xié)作下利用遷移學(xué)習(xí)進(jìn)行情感分析,能有效分析用戶的情感狀態(tài)。文獻(xiàn)[4]提出面向時(shí)序感知的多類(lèi)別商品方面情感分析推薦模型,可推斷用戶在任意時(shí)間對(duì)商品的偏好。文獻(xiàn)[5]提出基于指導(dǎo)性認(rèn)知重評(píng)策略GCRs的情感交互模型,能降低機(jī)器人對(duì)外界情感刺激的依賴(lài)性,并在一定程度上促進(jìn)機(jī)器人的積極情感表達(dá)。文獻(xiàn)[6]提出多情感對(duì)話系統(tǒng)MECS,傾向在對(duì)話中產(chǎn)生連貫的情感反應(yīng),選擇最相似情感作為機(jī)器人響應(yīng)情感。文獻(xiàn)[7]提出情感驅(qū)動(dòng)的自私MANETS節(jié)點(diǎn)協(xié)商機(jī)制,模擬人類(lèi)出價(jià)心理和情感變化提高節(jié)點(diǎn)出價(jià)競(jìng)爭(zhēng)力。文獻(xiàn)[8]提出ECM情緒聊天機(jī),可以在內(nèi)容上和情感一致性上產(chǎn)生適當(dāng)響應(yīng)。文獻(xiàn)[9]提出生成對(duì)抗網(wǎng)絡(luò)SentiGAN模型,在無(wú)監(jiān)督情況下生成不同情緒標(biāo)簽通用的高質(zhì)量情感文本。文獻(xiàn)[10]提出基于句法約束的雙向異步情感會(huì)話生成方法E-SCBA,將情感與主題引入解碼增加回復(fù)響應(yīng)的多樣性。文獻(xiàn)[11]提出融合強(qiáng)化學(xué)習(xí)與情感編輯約束的對(duì)話生成模型,能同時(shí)保證回復(fù)生成的流暢度與情感度。以上工作在一定程度上考慮了情感生成影響因素,但多為在“單輪交互模型”中加入影響情感生成的不同特征進(jìn)行認(rèn)知情感計(jì)算,未全面考慮上下文情境對(duì)當(dāng)前情感狀態(tài)生成的影響,或僅考慮了某種情感生成影響因素,容易使機(jī)器人情感回應(yīng)合理性不高、參與人喪失交互意愿。
因此,針對(duì)人機(jī)交互過(guò)程中機(jī)器人的情感生成問(wèn)題,本文依據(jù)PAD 3維情感空間提出一種基于強(qiáng)化學(xué)習(xí)的機(jī)器人認(rèn)知情感交互模型,試圖利用強(qiáng)化學(xué)習(xí)全局統(tǒng)籌特性,建立上下文多輪情感狀態(tài)與機(jī)器人當(dāng)前情感響應(yīng)之間的長(zhǎng)期關(guān)聯(lián)關(guān)系;利用強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)引導(dǎo)特性,實(shí)現(xiàn)對(duì)參與人進(jìn)行情感支持、積極性引導(dǎo)以及情感共鳴的情感交互動(dòng)機(jī)。通過(guò)考慮多輪多層次情感影響因素對(duì)人機(jī)交互過(guò)程中的情感生成過(guò)程建模以實(shí)現(xiàn)情感決策問(wèn)題,得到機(jī)器人在連續(xù)多情感狀態(tài)空間中的最優(yōu)響應(yīng)情感值。
在人類(lèi)情感生成過(guò)程中,個(gè)體情感狀態(tài)響應(yīng)不僅與外界情感刺激相關(guān),還與自身情感狀態(tài)和情感交互動(dòng)機(jī)有關(guān)。進(jìn)行情感狀態(tài)響應(yīng)時(shí),不僅要考慮上下文多輪交互情境對(duì)當(dāng)前情感狀態(tài)轉(zhuǎn)移概率的影響,還應(yīng)考慮當(dāng)前情感狀態(tài)響應(yīng)對(duì)后續(xù)交互關(guān)系的影響。因此,為有效進(jìn)行機(jī)器人情感策略學(xué)習(xí),本文提出利用強(qiáng)化學(xué)習(xí)特性建立上下文多輪情感狀態(tài)與當(dāng)前響應(yīng)情感狀態(tài)之間的關(guān)聯(lián)關(guān)系,對(duì)機(jī)器人進(jìn)行認(rèn)知情感計(jì)算,計(jì)算框架如圖1所示。
為便于實(shí)現(xiàn)參與人情感狀態(tài)跟蹤,對(duì)交互輸入內(nèi)容進(jìn)行情感量化與狀態(tài)評(píng)估。本文首先依據(jù)文獻(xiàn)[12]提供的數(shù)據(jù)與方法,對(duì)交互輸入內(nèi)容進(jìn)行情感量化,得到其在PAD連續(xù)情感空間中對(duì)應(yīng)的情感值Ei=(p,a,d)。其次,依據(jù)參考文獻(xiàn)[13],對(duì)交互情感值向量 Ei進(jìn)行狀態(tài)評(píng)估,得到其在PAD連續(xù)情感空間內(nèi)6種基本情感狀態(tài)作用下的情感狀態(tài)向量I(Ei)。情感狀態(tài)評(píng)估函數(shù)定義為
圖1 機(jī)器人情感計(jì)算框架
其中, Ei表示交互輸入情感值;j =1,2,···,6分別表示高興、驚訝、厭惡、生氣、恐懼、悲傷6種基本情感狀態(tài); Ej表示基本情感j對(duì)應(yīng)的情感值;Cj表示基本情感j聚類(lèi)區(qū)域的協(xié)方差矩陣;hj表示Ei到Ej之間的距離;ij則表示Ei在Ej作用下的情感狀態(tài)評(píng)估值。
強(qiáng)化學(xué)習(xí)模型原理為:一個(gè)智能體(agent),在當(dāng)前狀態(tài)(state)下,執(zhí)行一個(gè)行為(action)與環(huán)境(environment)進(jìn)行交互并進(jìn)入一個(gè)新的狀態(tài),同時(shí)從環(huán)境中獲得相應(yīng)的即時(shí)獎(jiǎng)勵(lì)(reward),再根據(jù)獎(jiǎng)勵(lì)評(píng)估此行為,利于目標(biāo)實(shí)現(xiàn)的行為其獎(jiǎng)勵(lì)值增加,不利于目標(biāo)實(shí)現(xiàn)的行為獎(jiǎng)勵(lì)值衰減,此過(guò)程不斷循環(huán)到終止?fàn)顟B(tài)為止。
3.1.1 狀態(tài)
狀態(tài)s表示智能體所處的情感狀態(tài),通常由外部環(huán)境給出。為減小情感劃分粒度,增加機(jī)器人情感表達(dá)連續(xù)性與細(xì)膩性,本文將含有151種情感狀態(tài)的PAD連續(xù)情感空間作為智能體的情感狀態(tài)空間,將空間中各情感狀態(tài)在6種基本情感狀態(tài)作用下的情感狀態(tài)向量I(Ei)作為可能的交互輸入響應(yīng)情感狀態(tài)。
3.1.2 行為
行為a表示智能體在交互響應(yīng)過(guò)程中,選擇下一輪響應(yīng)情感狀態(tài)時(shí)執(zhí)行的一個(gè)動(dòng)作,其搜索空間為情感空間大小。智能體在情感空間中的活動(dòng)過(guò)程即情感空間各情感狀態(tài)間的馬爾可夫轉(zhuǎn)移過(guò)程。
3.1.3 折損因子
折損因子γ可在環(huán)境具有隨機(jī)性的情況下,用于計(jì)算狀態(tài)序列累積獎(jiǎng)勵(lì)的未來(lái)獎(jiǎng)勵(lì)衰減。本文考慮在距離當(dāng)前會(huì)話越遠(yuǎn)的將來(lái)時(shí)刻,未來(lái)獎(jiǎng)勵(lì)對(duì)用于衡量下一輪會(huì)話情感狀態(tài)的滿意度的影響越小。其值介于0~1之間,考慮對(duì)未來(lái)獎(jiǎng)勵(lì)的重視程度越大,γ值越大;反之,γ值越小。
3.1.4 獎(jiǎng)勵(lì)
獎(jiǎng)勵(lì)r可在智能體執(zhí)行相應(yīng)動(dòng)作a后,用于衡量所獲得情感狀態(tài)的未來(lái)滿意度。人機(jī)交互雙方在交互過(guò)程中均存在一定的情感動(dòng)機(jī)[4]。因此,依據(jù)社會(huì)心理學(xué)中人際吸引原則將機(jī)器人的交互情感動(dòng)機(jī)設(shè)定為能在一定程度上實(shí)現(xiàn)對(duì)參與人的情感肯定、情緒引導(dǎo)與情感共鳴,并據(jù)此對(duì)情感獎(jiǎng)勵(lì)函數(shù)進(jìn)行構(gòu)建。
相似性(similarity):考慮人際交往過(guò)程中,人們往往希望對(duì)方能與自己產(chǎn)生相似的情感反應(yīng),即期望對(duì)方能夠“樂(lè)他人之樂(lè),憂他人之憂”。因此,為實(shí)現(xiàn)對(duì)參與人的情感肯定,本文依據(jù)文獻(xiàn)[14],計(jì)算余弦相似度來(lái)度量情感狀態(tài)向量間的相似性
積極性(positive):考慮人際交往過(guò)程中,人們會(huì)通過(guò)調(diào)整自身情感表達(dá)狀態(tài)實(shí)現(xiàn)對(duì)他人的某種情緒引導(dǎo)。因此,為實(shí)現(xiàn)對(duì)參與人的情緒引導(dǎo),本文通過(guò)設(shè)定機(jī)器人情感積極性引導(dǎo)來(lái)增加參與人交互意愿。實(shí)際上情緒引導(dǎo)并非積極度越高越好,尤其在參與人情緒比較消極時(shí)可能會(huì)適得其反。而積極性與相似性協(xié)同作用,恰好能有效解決引導(dǎo)過(guò)度問(wèn)題。因此,本文對(duì)響應(yīng)情感狀態(tài)向量進(jìn)行積極度計(jì)算
共情性(empathy):考慮人際交往過(guò)程中,人際吸引不僅與個(gè)體間相似性有關(guān),還受彼此互補(bǔ)關(guān)系影響。受互補(bǔ)關(guān)系影響主要表現(xiàn)在人們有時(shí)會(huì)傾向于喜歡那些與自己能在某方面產(chǎn)生互補(bǔ)的人。在情感交互中,可以理解為期望對(duì)方具備“同理心”,與自己在情感表達(dá)上產(chǎn)生共鳴關(guān)系。因此,本文通過(guò)計(jì)算情感狀態(tài)向量之間的相互關(guān)系來(lái)度量情感共情性
其中,P(a|I(Ek))表示智能體在輸入情感狀態(tài)下選擇響應(yīng)情感狀態(tài)的轉(zhuǎn)移概率;P(I(Ek)|a)表示由響應(yīng)情感狀態(tài)選擇輸入情感狀態(tài)的后向轉(zhuǎn)移概率;rank(Ek)與 rank(Ek+1)分別表示情感狀態(tài)Ek與Ek+1之間反向轉(zhuǎn)移概率排名與正向轉(zhuǎn)移概率排名,轉(zhuǎn)移概率越大,排名越高。依據(jù)文獻(xiàn)[2],本文通過(guò)利用情感空間中各情感狀態(tài)間轉(zhuǎn)移概率與狀態(tài)間歐氏距離成反比,對(duì)情感狀態(tài)間的初始轉(zhuǎn)移概率進(jìn)行計(jì)算。
對(duì)于一個(gè)動(dòng)作a,其獲得的最終獎(jiǎng)勵(lì)為以上3個(gè)獎(jiǎng)勵(lì)衡量指標(biāo)的加權(quán)和
本文參數(shù)權(quán)重設(shè)置為α1=0.4, α2=0.3, α3=0.3。
3.1.5 策略(policy)
策略P用于表示在當(dāng)前狀態(tài)下,智能體選擇下一情感狀態(tài)時(shí)對(duì)應(yīng)的概率分布,可用公式表示為π(a|s)=PRL(I(Ek+1)|I(Ek)),初始值為情感狀態(tài)間的初始轉(zhuǎn)移概率。本文采用策略梯度算法對(duì)模型進(jìn)行優(yōu)化,因此其值與選擇下一情感狀態(tài)可獲得的未來(lái)獎(jiǎng)勵(lì)值相關(guān),獲得未來(lái)獎(jiǎng)勵(lì)值大的動(dòng)作出現(xiàn)概率就大,對(duì)應(yīng)地獲得未來(lái)獎(jiǎng)勵(lì)值小的動(dòng)作出現(xiàn)概率則小。
3.1.6 模型優(yōu)化
本文通過(guò)策略梯度算法將策略參數(shù)化實(shí)現(xiàn)模型更新訓(xùn)練,目的是通過(guò)優(yōu)化模型參數(shù)θ使未來(lái)累積獎(jiǎng)勵(lì)期望值達(dá)到最大。因此,目標(biāo)函數(shù)為最大化未來(lái)獎(jiǎng)勵(lì)的期望值,定義為
其中,Rk(ak,I(Ek))表示在狀態(tài)I(Ek)下執(zhí)行動(dòng)作ak獲得的獎(jiǎng)勵(lì)值;再采用似然比技巧進(jìn)行梯度更新
最后利用所求得的梯度值對(duì)參數(shù)θ進(jìn)行更新
累積獎(jiǎng)勵(lì)期望值達(dá)到最大時(shí),所得最優(yōu)策略對(duì)應(yīng)的情感狀態(tài)為交互輸入的最優(yōu)響應(yīng)情感狀態(tài)。
3.1.7 情感交互過(guò)程模擬
本文利用兩個(gè)智能體進(jìn)行交互以模擬智能體與外界環(huán)境的情感交互過(guò)程:智能體1將初始交互輸入情感 E1通過(guò)情感評(píng)估為情感狀態(tài)向量I(E1)后將其傳送給智能體2,然后智能體2將得到的交互響應(yīng)情感 E2同樣評(píng)估為情感狀態(tài)向量I(E2)再回復(fù)給智能體1,不斷重復(fù)此過(guò)程至模擬的最大交互輪數(shù)。交互目標(biāo)是在當(dāng)前交互輸入情感狀態(tài)下能夠選擇獲得未來(lái)獎(jiǎng)勵(lì)最多的最優(yōu)情感狀態(tài)。智能體之間的情感交互過(guò)程如圖2所示。
圖2 情感交互過(guò)程
依據(jù)文獻(xiàn)[15],利用情感空間中情感狀態(tài)間距離的遠(yuǎn)近來(lái)映射情感類(lèi)別間的相似性。距離越近,相似性越大,情感狀態(tài)間轉(zhuǎn)移概率越大;距離越遠(yuǎn),相似性越小,情感狀態(tài)間轉(zhuǎn)移概率越小。并且,某一情感狀態(tài)到情感空間中其他各情感狀態(tài)的轉(zhuǎn)移概率之和為1[16]。因此,為便于對(duì)情感刺激的響應(yīng)情感狀態(tài)進(jìn)行計(jì)算,本文將空間中與外界情感刺激點(diǎn)歐氏距離最近的前 n種情感狀態(tài)作為智能體每輪交互的候選情感狀態(tài)。
依據(jù)參考文獻(xiàn)[17],本文利用機(jī)器人受k 輪交互參與人輸入的外界情感刺激后得到的k+1輪最優(yōu)響應(yīng)情感狀態(tài)向6種基本情感狀態(tài)轉(zhuǎn)移的概率和6種基本情感狀態(tài)在空間中的坐標(biāo)值(pj,aj,dj)對(duì)k+1輪機(jī)器人響應(yīng)情感值在空間中的坐標(biāo)位置進(jìn)行標(biāo)定,實(shí)現(xiàn)機(jī)器人在連續(xù)情感空間中的情感狀態(tài)轉(zhuǎn)移。首先,假設(shè)強(qiáng)化學(xué)習(xí)模型所得最優(yōu)響應(yīng)情感狀態(tài)向量對(duì)應(yīng)策略為p,可以得到依據(jù)參與人交互輸入響應(yīng)情感狀態(tài)向6種基本情感狀態(tài)轉(zhuǎn)移的概率為
表1 基于強(qiáng)化學(xué)習(xí)的機(jī)器人認(rèn)知情感交互模型
為便于對(duì)文本所提認(rèn)知情感交互模型進(jìn)行性能分析與對(duì)比實(shí)驗(yàn),依據(jù)文獻(xiàn)[18]利用開(kāi)源聊天機(jī)器人ChatterBot構(gòu)建基于本文認(rèn)知情感模型的文本聊天機(jī)器人。首先,利用聊天機(jī)器人邏輯適配器進(jìn)行答案匹配,返回置信度較高的前m 個(gè)答案作為候選答案集;然后,利用本文模型進(jìn)行情感策略評(píng)估,選擇最優(yōu)情感策略。最后,依據(jù)本文模型響應(yīng)情感對(duì)候選答案進(jìn)行最優(yōu)排序,并選擇排序等級(jí)最高的答案作為機(jī)器人響應(yīng)輸出。此外,由于需要探索的情感狀態(tài)數(shù)會(huì)隨著交互輪數(shù)的增加呈指數(shù)增長(zhǎng),本文模型在進(jìn)行情感狀態(tài)評(píng)估時(shí),設(shè)置兩個(gè)智能體的最大交互輪數(shù)T =8(輪),每輪候選情感狀態(tài)選取數(shù)n=8(種)。
實(shí)驗(yàn)數(shù)據(jù)采用NLPCC2017共享任務(wù)Emotional Conversation Generation中的樣本數(shù)據(jù)集,此數(shù)據(jù)集共包含1119207個(gè)問(wèn)答對(duì),隨機(jī)劃分8000個(gè)問(wèn)答對(duì)作為驗(yàn)證集,5000個(gè)問(wèn)答對(duì)作為測(cè)試集,剩余問(wèn)答對(duì)用作聊天機(jī)器人的中文訓(xùn)練語(yǔ)料。
實(shí)驗(yàn)主要圍繞情感準(zhǔn)確度與人機(jī)交互會(huì)話實(shí)際效果展開(kāi),因此選取以下認(rèn)知模型進(jìn)行對(duì)比實(shí)驗(yàn):
文獻(xiàn)[18]提出機(jī)器人認(rèn)知模型Chatterbot,根據(jù)候選答案集中各答案置信度高低進(jìn)行輸出響應(yīng)。由于其不具備認(rèn)知情感計(jì)算能力,只用于模型有效性驗(yàn)證對(duì)比實(shí)驗(yàn);文獻(xiàn)[8]提出情緒聊天機(jī)ECM,可以在內(nèi)容相關(guān)語(yǔ)法和情緒一致性上產(chǎn)生適當(dāng)?shù)捻憫?yīng);文獻(xiàn)[9]提出生成對(duì)抗網(wǎng)絡(luò)SentiGAN模型,能夠生成通用的、多樣化的、高質(zhì)量的情感文本;文獻(xiàn)[10]提出雙向異步情感會(huì)話生成方法E-SCBA,能夠生成具有邏輯性和情感度的文本;
文獻(xiàn)[5]提出基于指導(dǎo)性認(rèn)知重評(píng)策略GCRs的情感交互模型,能夠降低機(jī)器人對(duì)外界情感刺激的依賴(lài)性,并在一定程度上促使機(jī)器人的積極情感表達(dá)。其中ECM, SentiGAN和E-SCBA均為考慮一定情感因素的生成式聊天機(jī)器人模型,本文在進(jìn)行情感準(zhǔn)確度、信息檢索有效性驗(yàn)證時(shí)需要將其作用下聊天機(jī)器人的響應(yīng)文本量化為情感狀態(tài)向量。
為避免機(jī)器人情感表達(dá)含糊不清使得參與人對(duì)響應(yīng)情感狀態(tài)識(shí)別困難,響應(yīng)情感狀態(tài)在預(yù)期情感類(lèi)別的表達(dá)上應(yīng)具備一定準(zhǔn)確度。為直觀對(duì)各模型作用下機(jī)器人情感生成狀態(tài)的準(zhǔn)確性進(jìn)行評(píng)估,依據(jù)文獻(xiàn)[11],對(duì)響應(yīng)情感的目標(biāo)情感類(lèi)別準(zhǔn)確度進(jìn)行計(jì)算
從測(cè)試集中隨機(jī)劃分出含有多個(gè)情感類(lèi)別的100句對(duì)各模型進(jìn)行響應(yīng)情感狀態(tài)準(zhǔn)確率計(jì)算,結(jié)果見(jiàn)表2。由表2可見(jiàn),本文模型在情感準(zhǔn)確度方面均好于其他模型,這主要是由于本文在進(jìn)行機(jī)器人情感狀態(tài)轉(zhuǎn)移概率更新時(shí),將輸入響應(yīng)情感狀態(tài)到各基本情感狀態(tài)轉(zhuǎn)移概率的置信度作為更新因子,有效地增加了輸入響應(yīng)預(yù)期情感類(lèi)別對(duì)機(jī)器人情感狀態(tài)轉(zhuǎn)移概率的影響。
表2 不同模型情感準(zhǔn)確度統(tǒng)計(jì)表
4.3.1 信息檢索有效性度量
為便于對(duì)模型答案檢索有效性進(jìn)行驗(yàn)證,依據(jù)文獻(xiàn)[19]采用兩個(gè)信息檢索評(píng)價(jià)指標(biāo)MRR(Mean Reciprocal Rank)和MAP(Mean Average Precision)對(duì)各個(gè)模型候選答案進(jìn)行排序準(zhǔn)確率計(jì)算,從測(cè)試集中隨機(jī)選取60句進(jìn)行試驗(yàn),取排序準(zhǔn)確率平均值作為實(shí)驗(yàn)最終結(jié)果,結(jié)果見(jiàn)表3。
表3為對(duì)不同認(rèn)知模型答案(m=6)排序平均準(zhǔn)確率的統(tǒng)計(jì)結(jié)果,由表可見(jiàn)本文模型與其他模型相比取得了令人相對(duì)滿意的結(jié)果。這是由于本文模型在對(duì)候選答案進(jìn)行排序時(shí),通過(guò)結(jié)合上下文情感狀態(tài)的量化評(píng)估與類(lèi)人情感狀態(tài)影響因素的分析量化,利用強(qiáng)化學(xué)習(xí)建立上下文長(zhǎng)期情感狀態(tài)之間的關(guān)聯(lián)關(guān)系,以實(shí)現(xiàn)對(duì)下文狀態(tài)響應(yīng)的綜合最優(yōu)評(píng)定,具備較好的認(rèn)知情感能力。
表3 不同模型排序準(zhǔn)確率統(tǒng)計(jì)表
4.3.2 交互會(huì)話有效性驗(yàn)證
為對(duì)交互會(huì)話有效性進(jìn)行有效評(píng)估,本文邀請(qǐng)20位志愿者參與不同模型下的多次人機(jī)交互。同時(shí),為增加模型間客觀對(duì)比性,各模型每人均進(jìn)行30次多輪人機(jī)交互會(huì)話實(shí)驗(yàn)。并從測(cè)試集中隨機(jī)選取30句依次作為各模型中參與人進(jìn)行交互會(huì)話的初始輸入,統(tǒng)計(jì)各模型每次進(jìn)行人機(jī)交互的會(huì)話輪數(shù)與交互時(shí)間。實(shí)驗(yàn)所得不同模型下平均會(huì)話輪數(shù)與平均交互時(shí)間統(tǒng)計(jì)結(jié)果見(jiàn)表4。
表4 會(huì)話輪數(shù)與交互時(shí)間統(tǒng)計(jì)表
由表4可見(jiàn),在平均會(huì)話輪數(shù)與平均交互時(shí)間上本文模型均優(yōu)于其他模型,說(shuō)明本文模型作用下的聊天機(jī)器人更不容易使聊天陷入尷尬境地,能有效延長(zhǎng)人機(jī)交互會(huì)話時(shí)間。這是由于本文模型在多情感狀態(tài)連續(xù)空間中考慮類(lèi)人情感生成并結(jié)合機(jī)器人自身情感狀態(tài)更新得到的響應(yīng)情感的多樣性更豐富、積極性與準(zhǔn)確度更高,有效地引導(dǎo)了參與人參與人機(jī)交互。
為對(duì)模型滿意度進(jìn)行有效評(píng)估,本文從單輪對(duì)話主觀滿意度、多輪會(huì)話主觀滿意度兩個(gè)方面進(jìn)行問(wèn)卷調(diào)查實(shí)驗(yàn)。單輪對(duì)話主觀滿意度評(píng)價(jià)指標(biāo)為合理性、多樣性、共情度。實(shí)驗(yàn)過(guò)程為:從測(cè)試集中隨機(jī)選取100句用于測(cè)試,實(shí)驗(yàn)共計(jì)使用500個(gè)問(wèn)答對(duì),多渠道邀請(qǐng)200名志愿者進(jìn)行線上線下問(wèn)卷調(diào)查;多輪會(huì)話主觀滿意度評(píng)價(jià)指標(biāo)為流暢度、積極度、有趣度、參與度,具實(shí)驗(yàn)過(guò)程為:依據(jù)評(píng)價(jià)指標(biāo)對(duì)交互會(huì)話有效性驗(yàn)證中的20位人機(jī)交互志愿者進(jìn)行多輪會(huì)話滿意度調(diào)查。同時(shí),所有指標(biāo)均采用三點(diǎn)量表(0,1,2)進(jìn)行評(píng)估:0表示程度較低,1表示程度一般,2表示程度較高。最終統(tǒng)計(jì)結(jié)果取平均值,得分越高模型滿意度越高。模型單輪對(duì)話主觀滿意度調(diào)查結(jié)果見(jiàn)圖3,多輪會(huì)話主觀滿意度調(diào)查結(jié)果見(jiàn)圖4。
圖3 單輪對(duì)話主觀評(píng)估數(shù)據(jù)統(tǒng)計(jì)圖
圖4 多輪會(huì)話主觀評(píng)估數(shù)據(jù)統(tǒng)計(jì)圖
由圖3可見(jiàn),本文模型在對(duì)話合理性、多樣性以及共情度上均明顯優(yōu)于其他模型,尤其在情感表達(dá)多樣性上獲得了很好的效果,這是由于本文在進(jìn)行情感決策時(shí)充分利用了情感空間中的多種情感狀態(tài),結(jié)果表明本文模型能從多方面有效提升機(jī)器人單輪對(duì)話響應(yīng)滿意度。由圖4可見(jiàn),本文模型在機(jī)器人情感表達(dá)整體流暢度與積極度上、人機(jī)交互有趣度以及參與人參與度上較其他模型均取得有效提升,說(shuō)明本文在進(jìn)行情感交互模型構(gòu)建時(shí),建立的上下文長(zhǎng)期依賴(lài)關(guān)系與考慮到的情感生成影響因素合理有效,能進(jìn)一步增加參與人的人機(jī)交互意愿、構(gòu)建自然和諧的人機(jī)交互關(guān)系。
本文提出一種基于強(qiáng)化學(xué)習(xí)的機(jī)器人認(rèn)知情感交互模型,首先,利用強(qiáng)化學(xué)習(xí)對(duì)情感生成過(guò)程建模,將PAD情感空間作為機(jī)器人的情感狀態(tài)空間,情感劃分粒度小,表達(dá)細(xì)膩;其次,考慮將相似性、積極性與共情性3個(gè)情感影響因素量化為進(jìn)行情感狀態(tài)評(píng)估的獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)對(duì)參與人進(jìn)行情感支持、情緒引導(dǎo)、情感共鳴的交互動(dòng)機(jī);最后,結(jié)合最優(yōu)情感狀態(tài)對(duì)機(jī)器人情感狀態(tài)轉(zhuǎn)移概率進(jìn)行更新,從而進(jìn)一步得到機(jī)器人在情感空間中的坐標(biāo)位置,實(shí)現(xiàn)機(jī)器人在連續(xù)情感空間中的狀態(tài)轉(zhuǎn)移。實(shí)驗(yàn)從準(zhǔn)確性、MAP和MRR等方面驗(yàn)證了模型有效性。由于人類(lèi)情感生成過(guò)程具有復(fù)雜性、情感狀態(tài)轉(zhuǎn)移概率影響因素具有多樣性,而本文模型只考慮了情感生成與狀態(tài)轉(zhuǎn)移過(guò)程中的部分影響因素。因此,未來(lái)工作還需全面考慮人類(lèi)情感生成與狀態(tài)轉(zhuǎn)移過(guò)程中的影響因素以進(jìn)一步優(yōu)化類(lèi)人情感狀態(tài)生成。