裴洪麗
(山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,山東 濟(jì)南 250357)
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,社交媒體快速崛起,網(wǎng)民可以在網(wǎng)絡(luò)上發(fā)布對(duì)于各類(lèi)事件的看法,表達(dá)自己的態(tài)度。與此同時(shí),伴隨著電商平臺(tái)的快速發(fā)展,各類(lèi)購(gòu)物網(wǎng)站、外賣(mài)平臺(tái)用戶(hù)持續(xù)增長(zhǎng),每天產(chǎn)生數(shù)以?xún)|計(jì)的評(píng)論信息,這些呈指數(shù)增長(zhǎng)的評(píng)論信息數(shù)量龐大,難以梳理,但是很有研究?jī)r(jià)值。
情感分析,有時(shí)候我們也叫作傾向性分析,或者意見(jiàn)抽取,或者意見(jiàn)挖掘,或者情感挖掘等,是人們對(duì)產(chǎn)品、服務(wù)、組織、問(wèn)題、事件、話(huà)題,及其屬性的觀點(diǎn)、情感、評(píng)價(jià)和態(tài)度的分析。目前情感分析涉及文本、圖像、聲音、視頻等各類(lèi)表現(xiàn)形式,還包括結(jié)合這些表現(xiàn)形式的多模態(tài),分類(lèi)的結(jié)果是將一個(gè)特定的帶有情感傾向的評(píng)論文本分類(lèi)成積極、消極和中性,甚至更復(fù)雜多層次的情感。
情感分析具有極為廣泛的應(yīng)用價(jià)值,比如在某些政策出臺(tái)以后,政府可以從社交平臺(tái)用戶(hù)評(píng)論發(fā)現(xiàn)網(wǎng)民針對(duì)這一政策的態(tài)度,從而為轉(zhuǎn)變政府職能、指導(dǎo)政策制定提供依據(jù);再比如,在外賣(mài)平臺(tái)從評(píng)論中分析菜品的味道、送達(dá)時(shí)間、送餐態(tài)度、菜品新鮮度等屬性的情感傾向,幫助其他用戶(hù)點(diǎn)餐決策,商家可以通過(guò)評(píng)論改進(jìn)服務(wù)和產(chǎn)品。這些,都屬于情感分析所要解決的問(wèn)題。
前期的情感分析大都選取文本、語(yǔ)音、圖片等單一模態(tài)信息進(jìn)行情感識(shí)別,研究者做了很多相關(guān)研究。但是,隨著科技的發(fā)展,僅僅依靠單一模態(tài)信息,很難滿(mǎn)足當(dāng)前的情感識(shí)別需求。此外,單一的模態(tài)信息中所包含的情感信息是十分有限的,這會(huì)加大情感分析的難度,降低情感分析的準(zhǔn)確率。比如,只關(guān)注文本信息“我的天啊”,猜測(cè)不出來(lái)表達(dá)者是驚訝還是恐懼,如果添加一張表達(dá)者的圖片或者一段語(yǔ)音,可能就很容易的猜測(cè)出其情感。為了解決單模態(tài)的局限性,研究者開(kāi)始使用多種模態(tài)信息進(jìn)行跨模態(tài)的情感分析。
如圖1所示,多模態(tài)情感分析框架主要包括各個(gè)模態(tài)的特征提取和各模態(tài)之間進(jìn)行特征融合。其中,模態(tài)信息主要包括視頻、語(yǔ)音、文本、圖片等,雖然多模態(tài)數(shù)據(jù)包含了更多的信息,但如何進(jìn)行多模態(tài)數(shù)據(jù)的融合,使得利用多模態(tài)數(shù)據(jù)能夠提升效果,是多模態(tài)情感分析研究的重點(diǎn)。
圖1 多模態(tài)情感分析框架
一般而言,在沒(méi)有說(shuō)明的情況下,情感分析大部分是指文本情感分析。其一般流程主要包括:數(shù)據(jù)預(yù)處理、特征提取和情感分類(lèi),如圖2所示。
圖2 文本情感分析流程
數(shù)據(jù)預(yù)處理操作主要包括數(shù)據(jù)清洗、分詞、詞性標(biāo)注、去停用詞等。其中數(shù)據(jù)清洗是指去除噪聲,去除臟數(shù)據(jù),例如在文本的數(shù)據(jù)清洗中,則是去除無(wú)效字符和數(shù)據(jù),即刪去HTML鏈接、css標(biāo)簽、無(wú)用標(biāo)點(diǎn)符號(hào)等。詞是最小的、有意義的語(yǔ)言成分,分詞是指將原文本分割成一系列單獨(dú)的符合語(yǔ)義、語(yǔ)境的詞序列。其中,中文分詞和英文分詞是有區(qū)別的,在英文中,詞與詞之間都是由空格隔開(kāi)的,一個(gè)單詞代表一個(gè)具體的含義,因此不需要特意去劃分。在中文表達(dá)中,詞與詞之間沒(méi)有明顯的標(biāo)識(shí)符進(jìn)行劃分,所以還需要通過(guò)特定的方法來(lái)進(jìn)行分詞操作。其中,常用的分詞工具有jieba分詞、LTP分詞等。詞性標(biāo)注是指在分詞之后,對(duì)每個(gè)詞進(jìn)行標(biāo)注詞性類(lèi)別。去停用詞是指去除那些像介詞、連詞等沒(méi)有實(shí)際意義詞的過(guò)程。
特征表示是指將自然語(yǔ)言中的詞句轉(zhuǎn)換成計(jì)算機(jī)可以理解的數(shù)字向量。
常見(jiàn)的特征表示方法有one-hot方法、word2vec方法等。one-hot方法是文本特征表示中較為常見(jiàn)的方法,該方法按照位寄存器對(duì)個(gè)狀態(tài)進(jìn)行編碼的原理進(jìn)行的,狀態(tài)寄存器只有兩個(gè)狀態(tài),即“0”或“1”,將詞語(yǔ)在詞語(yǔ)集合中的下標(biāo)作為詞的表示。對(duì)于文本中的每個(gè)特征,如果有個(gè)特征值,則經(jīng)過(guò)one-hot編碼后,就形成了個(gè)二元特征,其中這些特征互斥且每次只有一個(gè)狀態(tài)為“1”。該方法實(shí)現(xiàn)簡(jiǎn)單,但是如果特征值特別多的話(huà),會(huì)存在數(shù)據(jù)稀疏等問(wèn)題。有人提出word2vec的模型概念來(lái)對(duì)文本進(jìn)行詞向量的表示,該方法將意思相近的詞映射到向量空間中相近的位置,因此可以將one-hot編碼轉(zhuǎn)化為低維的連續(xù)值,word2vec模型可以分為CBOW和Skip-gram兩種模式。CBOW模型是通過(guò)上下文關(guān)系預(yù)測(cè)目標(biāo)詞,Skip-gram模型則相反,是從目標(biāo)詞推測(cè)出上下文語(yǔ)句。
構(gòu)成文本的詞語(yǔ)數(shù)量是相當(dāng)大的,表示文本的向量空間的維度也相當(dāng)大,可以達(dá)到幾萬(wàn)維,因此需要進(jìn)行維數(shù)壓縮的工作。特征提取是為了提高分類(lèi)效率,減少計(jì)算復(fù)雜度,從而努力移除原始特征中不帶情感信息或者情感信息較少的特征。
文本情感分析方法主要包括:基于詞典的情感分析、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的情感分析方法。
基于情感詞典的情感分析方法,是指將提取出來(lái)的情感詞與已存在的情感詞典進(jìn)行匹配,從而計(jì)算出情感極性得分,根據(jù)得分得到情感極性。情感詞典包括程度副詞、正面情感詞、負(fù)面情感詞和否定詞四個(gè)部分,常見(jiàn)的情感詞典有SentiWordNet、WordNet、HowNet等?;谠~典的情感分類(lèi),簡(jiǎn)單易行,而且通用性也能夠得到保障,但仍然存在一定的缺陷:語(yǔ)言是一個(gè)高度復(fù)雜的東西,采用簡(jiǎn)單的線性疊加顯然會(huì)造成很大的精度損失;詞語(yǔ)權(quán)重同樣不是一成不變的,而且也難以做到準(zhǔn)確;而且隨著信息技術(shù)的快速發(fā)展,涌現(xiàn)出許多網(wǎng)絡(luò)新詞,現(xiàn)有的情感詞典需要不斷地?cái)U(kuò)充才能滿(mǎn)足需求。為提高情感分類(lèi)的準(zhǔn)確性,克服基于情感詞典的情感分析方法存在的缺陷,研究人員開(kāi)始研究基于機(jī)器學(xué)習(xí)的方法。
基于機(jī)器學(xué)習(xí)的情感分析方法是指使用大量的訓(xùn)練樣本,利用機(jī)器學(xué)習(xí)算法進(jìn)行特征提取,并使用分類(lèi)器進(jìn)行文本情感分類(lèi),常用的分類(lèi)模型有SVM、樸素貝葉斯等?;跈C(jī)器學(xué)習(xí)的情感分析方法在對(duì)文本內(nèi)容進(jìn)行情感分析時(shí)常常不能充分利用上下文文本的語(yǔ)義信息。由此,許多研究者對(duì)基于深度學(xué)習(xí)的情感分析方法進(jìn)行了研究。
基于深度學(xué)習(xí)的情感分析,廣泛使用的是RNN。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是處理各種長(zhǎng)度序列(例如句子、視頻和音頻)的強(qiáng)大工具。因此其在時(shí)間序列建模中得到了廣泛的應(yīng)用,但它認(rèn)為最近的詞比以前的詞更有意義,這可能會(huì)降低用于捕獲整個(gè)文檔語(yǔ)義的效率。而LSTM模型克服了RNN的局限性。由于門(mén)控循環(huán)單元(GRU)網(wǎng)絡(luò),在捕獲長(zhǎng)期依存關(guān)系方面也具有更好的性能,因此也被廣泛使用。此外,雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRNN)和Bi-LSTM或BGRU等雙向版本也被廣泛用于捕獲語(yǔ)義。另外,引入注意力機(jī)制來(lái)提高分類(lèi)的準(zhǔn)確率,先使用CNN、RNN和LSTM等網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行向量表示或者特征提取之后,通過(guò)注意力機(jī)制為得到的特征賦予權(quán)重值,使得重要信息被突出,從而增加了分類(lèi)的準(zhǔn)確率。隨著B(niǎo)ert的出現(xiàn),越來(lái)越多的研究開(kāi)始關(guān)注預(yù)訓(xùn)練模型,用數(shù)據(jù)集已經(jīng)訓(xùn)練好的模型,通過(guò)對(duì)預(yù)訓(xùn)練模型的微調(diào)可以實(shí)現(xiàn)較好的情感分析結(jié)果。
語(yǔ)音情感分析一直是一個(gè)比較成熟的技術(shù)領(lǐng)域,語(yǔ)音也是自然語(yǔ)言中表現(xiàn)情感重要的渠道之一,研究人員結(jié)合語(yǔ)音信號(hào)處理等技術(shù)分析語(yǔ)音情感。
基于語(yǔ)音的情感分析是指從語(yǔ)音中獲取有效的語(yǔ)音信號(hào)后,提取情感特征,從而對(duì)特征進(jìn)行一個(gè)情感分類(lèi)?;谡Z(yǔ)音情感分析一般過(guò)程包括:數(shù)據(jù)預(yù)處理、特征提取和語(yǔ)音情感分類(lèi)。
數(shù)據(jù)處理包括語(yǔ)音降噪、數(shù)據(jù)分幀和加窗等。語(yǔ)音降噪是指對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行清洗,去除數(shù)據(jù)噪聲,減少外界環(huán)境對(duì)語(yǔ)音特征提取的影響,降低信噪比。語(yǔ)音降噪常用的方法是使用多種濾波器來(lái)減少噪音的產(chǎn)生。
由于語(yǔ)音信號(hào)短時(shí)平穩(wěn)性的特點(diǎn),所以必須將信號(hào)截成一小段一小段來(lái)分析。數(shù)據(jù)分幀即是對(duì)語(yǔ)音信號(hào)按照一定的標(biāo)準(zhǔn)進(jìn)行截?cái)啵瑥亩纬晒潭ㄩL(zhǎng)度的語(yǔ)音數(shù)據(jù)片段。分幀后每一幀的開(kāi)始和結(jié)束都會(huì)出現(xiàn)間斷,因此分割的幀越多,與原始信號(hào)的誤差就越大,加窗就是為了解決這個(gè)問(wèn)題,使成幀后的信號(hào)變得連續(xù),并且每一幀都會(huì)表現(xiàn)出周期函數(shù)的特性。常見(jiàn)的窗函數(shù)有:矩形窗、漢明窗、漢寧窗等,在語(yǔ)音信號(hào)處理中,通常使用漢明窗,其公式為:
語(yǔ)音特征提取是指壓縮語(yǔ)音數(shù)據(jù),即消除那些與分析無(wú)關(guān)的信息,并最大化對(duì)語(yǔ)音差異檢測(cè)有顯著貢獻(xiàn)的內(nèi)容。大量研究表明,表征語(yǔ)音情感的特征主要包括韻律特征、音質(zhì)特征和譜特征等,其中韻律特征又包括基頻、時(shí)長(zhǎng)、能量等,音質(zhì)特征包括語(yǔ)譜和音色方面的特征,譜特征主要包括梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、對(duì)數(shù)頻率功率系數(shù)(LFPC)等參數(shù)。目前,已經(jīng)開(kāi)發(fā)了一些工具包來(lái)提取手工特征。比如一個(gè)常用的工具是openSMILE,可用于提取聲學(xué)特征。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,也廣泛用于語(yǔ)音情感分析中。
對(duì)于語(yǔ)音特征分類(lèi)階段,傳統(tǒng)的情感分析算法主要使用機(jī)器學(xué)習(xí)算法,如SVM、HMM、GMM等,這里就不再贅述。近年來(lái),RNN、CNN和LSTM等深度學(xué)習(xí)技術(shù)顯著提高了語(yǔ)音情感識(shí)別的整體效率。文獻(xiàn)[9]提出了一種基于LSTMRNN的語(yǔ)音情感分類(lèi)系統(tǒng)。文獻(xiàn)[10]使用CNN進(jìn)行語(yǔ)音特征提取,然后使用LSTM進(jìn)行情感分類(lèi)。文獻(xiàn)[11]選用雙向LSTM網(wǎng)絡(luò),對(duì)IEMOCAP數(shù)據(jù)集中包含的語(yǔ)音、表情情感信息進(jìn)行分類(lèi)。
多模態(tài)情感分析是在單模態(tài)的基礎(chǔ)上進(jìn)行的,需要先提取各單模態(tài)特征,然后將各模態(tài)融合,并進(jìn)行情感分類(lèi)。模態(tài)融合的方法主要包括特征級(jí)融合、決策級(jí)融合和混合融合,由于本文只涉及語(yǔ)音和文本兩種模態(tài),因此只對(duì)特征級(jí)融合和決策級(jí)融合進(jìn)行闡述。
特征級(jí)融合,又稱(chēng)為早期融合,是指在各個(gè)模態(tài)的特征數(shù)據(jù)提取之后就將它們連接起來(lái)。在語(yǔ)音和文本的多模態(tài)情感分析中,分別將語(yǔ)音和文本的情感特征提取出來(lái),進(jìn)行一個(gè)向量的表示,然后將它們?nèi)诤掀饋?lái),最后輸入分類(lèi)器進(jìn)行情感分析。特征級(jí)融合方式簡(jiǎn)單易行,最大程度保留了各個(gè)模態(tài)的特征信息,但是很難表示出各模態(tài)的同步信息。語(yǔ)音和文本模態(tài)特征級(jí)融合流程圖如圖3所示。
圖3 特征級(jí)融合流程圖
例如,HU等人采用openSMILE進(jìn)行聲學(xué)特征提取,用基于詞典的方法進(jìn)行文本特征提取,再將二者使用特征級(jí)融合方法進(jìn)行融合,最終利用SVM和CNN方法進(jìn)行情感分類(lèi)和比較。文獻(xiàn)[13]利用CNN-LSTM提取語(yǔ)音特征,使用CNN提取文本特征,然后使用特征級(jí)融合方法進(jìn)行融合,并使用三層神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類(lèi)。文獻(xiàn)[14]使用LSTM整合了視頻信息,并將其與音頻和文本信息通過(guò)特征級(jí)融合的方式進(jìn)行訓(xùn)練。
決策級(jí)融合也稱(chēng)后期融合。是指將每個(gè)模態(tài)的特征單獨(dú)進(jìn)行分類(lèi),將分類(lèi)結(jié)果進(jìn)行融合,從而得到最終的情感分類(lèi)結(jié)果。在語(yǔ)音和文本的決策級(jí)融合中,首先將兩個(gè)模態(tài)的特征提取出來(lái),并使用各自的分類(lèi)器進(jìn)行情感分類(lèi),最后再使用某種方法,將兩種情感分類(lèi)結(jié)果進(jìn)行決策級(jí)融合,從而得到最終的情感分類(lèi)結(jié)果。使用決策級(jí)融合,考慮到了模態(tài)之間的差異性,但是,由于在不同模態(tài)間使用了不同的分類(lèi)器,使得整個(gè)分類(lèi)過(guò)程煩瑣而耗時(shí)。語(yǔ)音和文本模態(tài)決策級(jí)融合流程圖如圖4所示。例如,文獻(xiàn)[15]使用多模態(tài)模態(tài)提出了一種基于深層CNN的特征提取方法。該方法使用CNN對(duì)文本情感特征進(jìn)行提取,同時(shí)使用openSMILE進(jìn)行音頻特征提取,再將文本特征和音頻特征送入各自的分類(lèi)器中進(jìn)行分類(lèi),最后將結(jié)果進(jìn)行決策級(jí)融合。
圖4 決策級(jí)融合流程圖
本文詳細(xì)描述了情感分析和多模態(tài)情感分析的研究背景、內(nèi)容、相關(guān)工作等,其中對(duì)單模態(tài)文本和語(yǔ)音情感分析的過(guò)程及研究現(xiàn)狀進(jìn)行了詳細(xì)介紹,并對(duì)多模態(tài)(語(yǔ)音、文本)情感分析從特征級(jí)融合和決策級(jí)融合展開(kāi)分析。