摘 要:探索笑聲的情感分析算法是有意義的研究。本文介紹了笑聲心理特征,笑聲識(shí)別的基本原理,特征提取、計(jì)算模型和數(shù)據(jù)集情況,提出若干問(wèn)題及可能的解決方案,并在此基礎(chǔ)上探討了研究應(yīng)用和發(fā)展前景。
關(guān)鍵詞:笑聲音頻檢測(cè);情感分析算法;笑情感測(cè)量計(jì)
引言:笑聲情感自動(dòng)識(shí)別是指:根據(jù)笑聲的音頻數(shù)據(jù)和其他相關(guān)信息構(gòu)建計(jì)算模型,實(shí)現(xiàn)笑聲情感自動(dòng)判別的過(guò)程。笑聲情感識(shí)別技術(shù)涉及多個(gè)領(lǐng)域,包括認(rèn)知科學(xué)、心理學(xué)、生理學(xué)、聲學(xué)、音頻信號(hào)處理、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等,是一個(gè)多學(xué)科交叉的研究領(lǐng)域。音頻信號(hào)大致可以分為三類:語(yǔ)音、音樂(lè)和環(huán)境聲音。語(yǔ)音、音樂(lè)和環(huán)境聲音具有顯著不同的特性,因而通常分為三種不同的情形進(jìn)行處理,不同音頻類型需要不同的檢索和語(yǔ)義分析技術(shù),本文以笑聲(語(yǔ)音)的音頻特征,探索適應(yīng)該特征的處理、檢索和情感分析技術(shù)。
1.笑聲分析
1.1笑聲的心理分析
笑是人的本能反應(yīng),是情緒或者情感變化的一種重要表現(xiàn)形式,笑通常是一種積極快樂(lè)的情緒反映,但你遇到高興的事情時(shí),你會(huì)以笑來(lái)表現(xiàn)內(nèi)心的歡快,或者以笑來(lái)表達(dá)自己快樂(lè)和滿意的心情。笑通常分為兩種:一種是無(wú)聲的微笑,一種是有聲的笑。有聲笑根據(jù)情緒的高低、快樂(lè)的程度分為三種:小笑“XiXiXi(嘻嘻嘻),中笑”kekeke(呵呵呵),大笑“hahaha”(哈哈哈)。三種有聲的笑反映人情感的三個(gè)維度或者開心的指數(shù),這種情感的維度或者開心指數(shù)是可以通過(guò)笑音頻分析計(jì)算出來(lái)的。
1.2笑聲音頻分析
一次完整的笑聲過(guò)程被稱為一個(gè)“笑聲事件”,構(gòu)成一次完整笑聲的各個(gè)相鄰信號(hào)段被稱為一個(gè)““音節(jié)幀袋”(bag of frames)或“音節(jié)”,這兩個(gè)術(shù)語(yǔ)是分析笑聲的特性,笑聲音節(jié)跟語(yǔ)音音節(jié)一樣,也是由濁音成分和清音成分組成的信號(hào)段。笑聲事件即一次完整的笑聲過(guò)程,由相鄰的笑聲音節(jié)構(gòu)成。例如,一次完整的笑聲過(guò)程通常標(biāo)注為“ha haha”、“kekeke”或者“XiXiXi”。笑聲事件就是指與標(biāo)注“hahaha”“kekeke”或者“XiXiXi”對(duì)應(yīng)的波形信號(hào)段;笑聲音節(jié)則是指與某個(gè)標(biāo)注“ha、ke或者xi”對(duì)應(yīng)的波形信號(hào)段。單獨(dú)笑聲由相鄰的獨(dú)立笑聲音節(jié)組成,一般是由一個(gè)人發(fā)出的,圖1給出了一個(gè)單獨(dú)笑聲的波形圖。
1.3笑聲情感識(shí)別系統(tǒng)框圖
圖2為笑聲識(shí)別系統(tǒng)框圖。和語(yǔ)音識(shí)別系統(tǒng)一樣,建立和應(yīng)用這一系統(tǒng)可分為兩個(gè)階段:訓(xùn)練階段和識(shí)別階段。在訓(xùn)練階段,系統(tǒng)的每個(gè)使用者說(shuō)出若干笑聲,系統(tǒng)據(jù)此建立每個(gè)使用者的模板或模型參量參考集;而在識(shí)別階段,待識(shí)別笑者中導(dǎo)出的參量要與訓(xùn)練中的參考參量或模板加以比較,并且根據(jù)一定的相似性準(zhǔn)則形成判斷。
2.笑聲情感識(shí)別
2.1特征提取
笑聲情感識(shí)別常用的音頻特征是以“音節(jié)幀袋”方式提取的,但是這種特征提取方法忽略了笑聲的時(shí)間結(jié)構(gòu)。然而,笑聲隨時(shí)間呈現(xiàn)的變化,對(duì)笑聲情感識(shí)別來(lái)說(shuō)可能很重要。為了驗(yàn)證時(shí)間信息對(duì)預(yù)測(cè)音樂(lè)表達(dá)的情感的重要性,可以將笑聲變成一個(gè)特征向量時(shí)間序列。用生成式模型(向量空間模型、馬爾可夫和隱馬爾可夫模型)來(lái)表示該時(shí)間序列(這些模型都基于特征向量量化結(jié)果),通過(guò)使用概率乘積核,將生成式模型用于情感區(qū)分任務(wù),這樣時(shí)間信息利用后,情感預(yù)測(cè)性能得到提高。
2.2笑聲情感模式的選擇
笑聲情感表示是情感心理學(xué)研究的一個(gè)新課題.相關(guān)研究不多,但已經(jīng)有多種方案音樂(lè)情感識(shí)別和人語(yǔ)言情感識(shí)別的方法可供研究人員來(lái)選擇。從情感識(shí)別的角度看,情感空間可以用離散類別模型或連續(xù)維度模型來(lái)表示,這樣情感識(shí)別問(wèn)題就分別對(duì)應(yīng)到機(jī)器學(xué)習(xí)的分類問(wèn)題或回歸問(wèn)題。
對(duì)比其他情感識(shí)別方法,笑聲情感模型使用的是通用連續(xù)維度情感模型,因?yàn)橥ㄓ眠B續(xù)維度模型將人類情感狀態(tài)表示為二維或三維連續(xù)空間中的點(diǎn)。這種維度模型的優(yōu)點(diǎn)在于,它可以描述和刻畫情感狀態(tài)的細(xì)微差別,描述笑聲情感時(shí)更準(zhǔn)確、更細(xì)致,與人的笑情感體驗(yàn)更一致。
被廣泛采用的通用連續(xù)維度模型是環(huán)形(circomlex)模型(也稱為VA模型)和PAD模型。環(huán)形情感模型認(rèn)為情感狀態(tài)是分布在一個(gè)包含效價(jià)度(快樂(lè)基調(diào)程度)(valence)和激活度(arouala)的二維環(huán)形空間上的點(diǎn)(參見(jiàn)圖1).其中縱軸表示激活度,橫軸表示效價(jià)度。
針對(duì)笑聲識(shí)別以及檢測(cè)問(wèn)題,近些年來(lái)已有一些人員在不同的方面進(jìn)行了相關(guān)研究。Gouzhen An等考慮到笑聲波形結(jié)構(gòu),提出類基于音節(jié)的笑聲檢測(cè)方法。該實(shí)驗(yàn)首先以幀為單位,提取上述常用特征并使用SVM分類算法得到最初的每幀的分類結(jié)果。然后再基于韻律特征對(duì)數(shù)據(jù)進(jìn)行音節(jié)劃分對(duì)再對(duì)上述基線系統(tǒng)的分類結(jié)果進(jìn)行重新打分以得到優(yōu)化的結(jié)果。該方法充分考慮了笑聲的結(jié)構(gòu)特征,即每個(gè)笑聲事件均由數(shù)個(gè)相鄰的音節(jié)組成,使得笑聲識(shí)別系統(tǒng)的性能有了明顯的提升。
2.3笑聲情感高斯模型
每個(gè)人笑聲對(duì)情感標(biāo)注經(jīng)常是有所不同的,他們?yōu)楦怕史植?,聲音情感高斯(Acoustic Emotion Gaussians,AEG)模型較好的解決了這一問(wèn)題,AEG模型的一個(gè)好處就是便于針對(duì)具體用戶構(gòu)建個(gè)性化情感識(shí)別模型,采用AEG模型來(lái)為VA笑聲情感識(shí)別建模,并且提出一個(gè)基于線性回歸的調(diào)整方法來(lái)對(duì)一般模型進(jìn)行個(gè)性化調(diào)整。
3.基于笑聲音頻算法的實(shí)驗(yàn)設(shè)計(jì)
3.1算法選擇
搜索了文獻(xiàn)發(fā)現(xiàn),目前尚無(wú)針對(duì)單個(gè)笑事件的笑聲音頻算法,多數(shù)笑情感算法是在連續(xù)語(yǔ)音中的笑聲檢測(cè),或者在環(huán)境聲音笑聲檢測(cè),但這些算法給我們提供了有意義的參考。
本研究以單個(gè)笑事件的笑聲音頻“音節(jié)幀袋”的連續(xù)性情感模型和笑聲情感高斯模型為特征,應(yīng)用極限學(xué)習(xí)機(jī)(ELM)算法實(shí)現(xiàn)笑事件的笑聲檢測(cè)。
3.2ELM算法特點(diǎn)
ELM是一種新型神經(jīng)網(wǎng)絡(luò)算法,它的特點(diǎn)是簡(jiǎn)單易用、有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)SLFNs學(xué)習(xí)算法,相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò),需要人為設(shè)置大量的網(wǎng)絡(luò)訓(xùn)練參數(shù),并且很容易產(chǎn)生局部最優(yōu)解的缺點(diǎn)。ELM的訓(xùn)練速度非???,需要人工干擾較少,對(duì)于異質(zhì)的數(shù)據(jù)集其泛化能力很強(qiáng)。對(duì)于單隱層神經(jīng)網(wǎng)絡(luò),ELM可以隨機(jī)初始化輸入的權(quán)重以及偏置從而得到相應(yīng)的輸出權(quán)重,在算法執(zhí)行過(guò)程中不需要調(diào)整網(wǎng)絡(luò)的輸入權(quán)值以及隱元的偏置,并且產(chǎn)生唯一的最優(yōu)解,因此具有學(xué)習(xí)速度快且泛化性能好的優(yōu)點(diǎn)。
4.應(yīng)用
笑情感識(shí)別研究的最終目的創(chuàng)造一種人“笑情感測(cè)量計(jì)”,因?yàn)樾梢越o人類帶來(lái)智慧和力量,有助人的身體健康和控制情緒的作用,有一個(gè)“笑情感測(cè)量計(jì)”就像一個(gè)溫度計(jì)一樣時(shí)時(shí)刻刻可以客觀評(píng)價(jià)人的情感維度和開心指數(shù)。開心的情緒和情緒的控制對(duì)于我們每個(gè)人的健康生活,預(yù)防和治療疾病,幸福感;對(duì)于我們和諧家庭的夫妻關(guān)系、親子關(guān)系;對(duì)于我們工作的人際關(guān)系等等方面都將起到意想不到的作用。特別是它可以將每時(shí)每刻,每分每秒,每日每月,每年的“笑情感”記錄、分析和總結(jié),這樣大大地提高人機(jī)互動(dòng)的效果。
研究工作展望:人類的笑情緒表現(xiàn)主要有三種:笑聲表情、面部笑表情和身體笑姿態(tài)表情。身體笑姿態(tài)表情(如手勢(shì)、運(yùn)動(dòng)姿勢(shì))變化的規(guī)律性難以獲取,因而笑情感識(shí)別的研究目前主要側(cè)重于笑聲情緒和面部笑表情的識(shí)別。對(duì)笑聲情緒的識(shí)別,通常被稱為“笑聲情感識(shí)別”;對(duì)面部表情的識(shí)別,通常被稱為“人臉笑表情識(shí)別”。盡管從笑聲情感獲取的音頻信息和面部笑表情獲取的視覺(jué)信息在進(jìn)行情感識(shí)別時(shí)所起的作用都很大,但這二者各有自己的優(yōu)缺點(diǎn),也有著某種程度的互補(bǔ)作用。為了在言語(yǔ)情感和面部表情之間取長(zhǎng)補(bǔ)短,因而未來(lái)有必要將笑聲情感識(shí)別技術(shù)和人臉笑表情識(shí)別技術(shù)融合在一起,以便對(duì)人類笑情感的類別進(jìn)行更有效地判定。這就是所謂的“多模態(tài)笑情感識(shí)別”,即同時(shí)融合多種表情(如言語(yǔ)表情和面部表情)的情感識(shí)別,形成一種全方位的人笑情感測(cè)量計(jì)。
參考文獻(xiàn)
[1]孔維民.情感心理學(xué)新論[M].長(zhǎng)春:吉林人民出版社,2002.
[2]詹姆斯.薩利.笑得研究-笑得笑聲、起源、發(fā)展和價(jià)值[M].北京:中國(guó)社會(huì)科學(xué)出版社,2011.
[3]徐利強(qiáng),謝湘,黃石磊,李通.連續(xù)語(yǔ)音中的笑聲檢測(cè)研究與實(shí)現(xiàn)[J].聲學(xué)技術(shù),2016,35(s6):581-584
[4]孫守遷,王鑫,劉濤,等.音樂(lè)情感的語(yǔ)言值計(jì)算模型研究[J].北京郵電大學(xué)學(xué)報(bào),2006,29(s2):34-41
[5]陳曉鷗,楊德順音樂(lè)情感識(shí)別研究進(jìn)展[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版) 2017,56(s2):138—142
[6]鄒宇驍(2001--),男,湖南郴州市人,郴州市第一中學(xué)