王 潔, 朱貝貝
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
隨著計(jì)算機(jī)網(wǎng)絡(luò)與多媒體技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)了越來(lái)越多的文本、圖像、音頻和視頻等多媒體數(shù)據(jù). 音樂(lè)是多媒體數(shù)據(jù)的重要組成部分. 面對(duì)音樂(lè)作品數(shù)量的爆炸式增長(zhǎng),音樂(lè)種類(lèi)的不斷增多,如何有效的管理音樂(lè)成為一個(gè)值得關(guān)注的問(wèn)題,對(duì)音樂(lè)資源進(jìn)行合理的分類(lèi)是一個(gè)有效的解決辦法. 音樂(lè)是情感的載體,情感是音樂(lè)最重要的語(yǔ)義信息,音樂(lè)的情感分析廣泛應(yīng)用于音樂(lè)檢索、音樂(lè)推薦和音樂(lè)治療等領(lǐng)域[1]. 音樂(lè)情感的自動(dòng)識(shí)別屬于音樂(lè)心理學(xué)和計(jì)算機(jī)學(xué)科的交叉領(lǐng)域[2],至今已有十幾年的歷史,國(guó)內(nèi)外眾多學(xué)者都對(duì)該領(lǐng)域做了深入的研究,并取得了一定成果.2010年,Kim等曾對(duì)當(dāng)時(shí)音樂(lè)情感識(shí)別研究的進(jìn)展做了全面綜述[3]. 2012年,Yang等對(duì)音頻音樂(lè)情感識(shí)別研究做了詳盡的總結(jié)[4]. 2017年,陳曉鷗等人回顧了最近幾年音頻音樂(lè)情感識(shí)別的研究進(jìn)展情況,提出了若干問(wèn)題及可能的解決方案[5].
音樂(lè)主要由音頻信號(hào)與歌詞文本這兩種模態(tài)的數(shù)據(jù)組成. 目前大多數(shù)研究者致力于使用機(jī)器學(xué)習(xí)方法研究音頻信息對(duì)音樂(lè)情感分類(lèi)的作用[6-8]. 2003年,Li等提取音色、節(jié)奏和音階等音頻特征,并最早使用SVM (Support Vector Machine)對(duì)音樂(lè)情感分類(lèi)[9].2014年,Weninger等提取MFCC (Mel Frequency Cestrum Coefficient)等底層音頻特征后,使用LSTM(Long Short-Term Memory)對(duì)音樂(lè)情感分類(lèi)[10].2017年,Jakubik等使用GRU(Gated Recurrent Unit)對(duì)音頻進(jìn)行特征學(xué)習(xí),并引入語(yǔ)義嵌入的思想[11]. 同年,鄧永莉等提出基于中高層特征的音樂(lè)情感識(shí)別模型[12].
采用現(xiàn)有頻域和時(shí)域特征的機(jī)器學(xué)習(xí)方法,很難使音樂(lè)情感識(shí)別的性能再提高[5]. 一些心理學(xué)研究表明歌詞文本中確實(shí)蘊(yùn)含著一些特有的語(yǔ)義信息,包括情感信息[13]. 結(jié)合歌詞進(jìn)行音樂(lè)情感分類(lèi)可以進(jìn)一步提高分類(lèi)性能,基于歌詞的情感分類(lèi)也逐漸成為熱門(mén)的研究方向. 歌詞本質(zhì)上屬于文本的范疇,詞語(yǔ)的情感判別是歌詞情感分析的基礎(chǔ). 構(gòu)建一部合理的音樂(lè)情感詞典,實(shí)現(xiàn)詞匯的情感分析是歌詞情感分析的前提和基礎(chǔ). 國(guó)內(nèi)情感詞典構(gòu)建起步較晚,情感詞典的領(lǐng)域特性也日趨明顯. 已有研究構(gòu)建的情感詞典主要集中在中文評(píng)論領(lǐng)域,如微博評(píng)論和商品評(píng)論,評(píng)論情感分析一般只判別情感極性,即褒貶性,而歌詞具有更加豐富的情感,目前還沒(méi)有被廣泛認(rèn)可的音樂(lè)領(lǐng)域的中文情感詞典. 2010年,夏云慶等基于文本向量空間模型提出了情感向量空間模型,并利用實(shí)驗(yàn)驗(yàn)證了情感向量模型在解決稀疏性、特征表示能力、表示效率和特征歧義消除等方面具有較明顯的優(yōu)勢(shì)[14]. 2014年,蔣盛益等利用 HowNet中語(yǔ)義相似度計(jì)算的思想,構(gòu)建音樂(lè)領(lǐng)域的中文情感詞典,再進(jìn)行音樂(lè)情感分類(lèi)[15],2015年,F(xiàn)uruya等通過(guò)對(duì)非情感詞加權(quán)構(gòu)造情感向量,使用聚類(lèi)方法進(jìn)行音樂(lè)情感分類(lèi)[16]. 2017年,黃仁等基于Word2Vec建立情感詞典,用構(gòu)建的情感詞典對(duì)互聯(lián)網(wǎng)商品評(píng)論進(jìn)行情感分類(lèi)[17],該詞典僅包含詞的情感極性,不包含詞的情感強(qiáng)度,沒(méi)有考慮情感詞本身的分類(lèi)影響程度. 在基于歌詞文本的情感向量的構(gòu)建過(guò)程中,夏云慶等僅統(tǒng)計(jì)每個(gè)情感類(lèi)別的情感詞個(gè)數(shù),忽略了情感詞的情感強(qiáng)度是不同的. 蔣盛益和Furuya等均未考慮實(shí)詞詞頻和詞性的影響作用.
針對(duì)以上問(wèn)題,本文基于Word2Vec構(gòu)建音樂(lè)領(lǐng)域的中文情感詞典,并基于情感詞加權(quán)和詞性進(jìn)行中文音樂(lè)情感分析. 本文首先以VA情感模型為基礎(chǔ)構(gòu)建情感詞表,采用Word2Vec中詞語(yǔ)相似度計(jì)算的思想擴(kuò)展情感詞表,構(gòu)建中文音樂(lè)情感詞典,詞典中包含每個(gè)詞的情感類(lèi)別和情感權(quán)值. 然后,依照該詞典獲取情感詞權(quán)值,基于TF-IDF構(gòu)造特征向量,并進(jìn)一步考慮詞性對(duì)情感分類(lèi)的影響,最終實(shí)現(xiàn)音樂(lè)情感分類(lèi).
音樂(lè)是情感的載體,情感是音樂(lè)最重要的語(yǔ)義信息,不同的音樂(lè)必然與不同的情感相聯(lián)系. 為了更準(zhǔn)確的描述音樂(lè)情感,與人的情感體驗(yàn)一致,需要選擇合適的音樂(lè)情感模型.
選擇VA模型作為音樂(lè)情感分類(lèi)的依據(jù). VA模型(也稱(chēng)為環(huán)形情感模型)是由Russel提出的,是廣泛采用的通用連續(xù)維度模型[18,19]. 該模型認(rèn)為情感狀態(tài)是分布在一個(gè)包含效價(jià)度(valence)和激活度(arousal) 的二維環(huán)形空間上的點(diǎn),如圖1所示. 其中橫軸表示效價(jià)度,縱軸表示激活度,圓心代表中性的效價(jià)度和中等水平的激活度.
為了適應(yīng)中文情感分類(lèi),結(jié)合VA模型的情感類(lèi)別以及音樂(lè)表達(dá)情感的特點(diǎn)構(gòu)建情感詞表. 情感詞表如表1所示,第1列為情感類(lèi)別,即本文用于情感分類(lèi)的標(biāo)簽. 其它列為對(duì)應(yīng)每一個(gè)情感類(lèi)別的情感詞匯.
情感詞表中的詞是經(jīng)過(guò)提煉而成的情感詞,而歌詞中包含的情感詞是有限的,因此,需要對(duì)情感詞表進(jìn)行擴(kuò)展以滿足歌詞情感分類(lèi)的需求. 借助Word2Vec計(jì)算詞語(yǔ)相似度,使用《哈工大同義詞林》和歌詞語(yǔ)料庫(kù)對(duì)情感詞表的38個(gè)情感詞匯進(jìn)行擴(kuò)展,從而構(gòu)建出一部適用于中文歌詞情感分類(lèi)的詞典,用于歌詞文本分析.
2.2.1 計(jì)算詞語(yǔ)相似度
情感詞一般是指能表達(dá)情感的形容詞,如“喜悅”、“悲傷”、“憤怒”. 歌詞中包含的情感詞較少,而歌詞中的某些非情感詞也能表達(dá)情感. 比如,“夜”可以表達(dá)“靜”的情感,“告別”可以表達(dá)“悲傷”的情感. 因此,可以通過(guò)計(jì)算有情感傾向的實(shí)詞(包括名詞、動(dòng)詞、形容詞和副詞)與情感詞表中的情感詞匯的詞語(yǔ)相似度,對(duì)實(shí)詞進(jìn)行情感分類(lèi),從而實(shí)現(xiàn)對(duì)情感詞表的擴(kuò)展.
表1 情感詞表
采用Gensim的Word2Vec進(jìn)行相似度計(jì)算,并用搜狗實(shí)驗(yàn)室的語(yǔ)料數(shù)據(jù)訓(xùn)練模型. 因?yàn)樵撜Z(yǔ)料庫(kù)規(guī)模較大,訓(xùn)練好的模型可以涵蓋盡可能多的詞語(yǔ). 因此,可以利用訓(xùn)練好的模型計(jì)算任意兩個(gè)詞語(yǔ)的相似度,相似度值在0-1之間.
2.2.2 構(gòu)建音樂(lè)情感詞典
首先使用《哈工大同義詞林》對(duì)情感詞表進(jìn)行擴(kuò)展,構(gòu)建基礎(chǔ)情感詞典. 并結(jié)合歌詞語(yǔ)料庫(kù)對(duì)基礎(chǔ)情感詞典做進(jìn)一步擴(kuò)展,構(gòu)建音樂(lè)情感詞典.
使用《哈工大同義詞林》對(duì)情感詞表進(jìn)行擴(kuò)展,擴(kuò)展后的詞典僅包含情感詞,稱(chēng)為基礎(chǔ)情感詞典. 首先,從《哈工大同義詞林》獲取情感模型中的情感詞對(duì)應(yīng)的同義詞列表. 然后,計(jì)算同義詞列表中的實(shí)詞與情感詞的詞語(yǔ)相似度,選擇相似度值最大的情感詞與實(shí)詞對(duì)應(yīng). 最后,提取相似度高于0的實(shí)詞構(gòu)成基礎(chǔ)情感詞典. 實(shí)現(xiàn)過(guò)程如圖2所示. 情感詞典的存儲(chǔ)結(jié)構(gòu)為四元組(實(shí)詞,情感詞,情感類(lèi)別,情感權(quán)值),比如(傷感,憂傷,-V-A,0.91). 其中,“傷感”是選自《哈工大同義詞林》的實(shí)詞; “憂傷”是選自情感詞表的情感詞; “-V-A”是“憂傷”對(duì)應(yīng)的情感類(lèi)別; 0.91對(duì)應(yīng)于情感權(quán)值,即“憂傷”與“傷感”的詞語(yǔ)相似度. 基礎(chǔ)情感詞典共包含1527個(gè)詞匯,其中4類(lèi)情感的詞匯量分布情況如表2所示.
圖2 基礎(chǔ)情感詞典構(gòu)建流程
表2 基礎(chǔ)情感詞典詞匯量分布
基礎(chǔ)情感詞典僅包含情感詞,而歌詞中所包含的情感詞較少,但歌詞中的某些非情感詞也有情感傾向.因此可以利用包含一萬(wàn)首中文歌曲的歌詞語(yǔ)料庫(kù)對(duì)基礎(chǔ)情感詞典做進(jìn)一步擴(kuò)展,以更適用于中文歌詞情感分類(lèi),擴(kuò)展后的詞典稱(chēng)為音樂(lè)情感詞典. 首先,將歌詞語(yǔ)料庫(kù)中的歌詞進(jìn)行處理,并提取實(shí)詞構(gòu)建歌詞詞匯語(yǔ)料庫(kù). 然后,計(jì)算歌詞詞匯語(yǔ)料庫(kù)中的實(shí)詞與情感詞的詞語(yǔ)相似度,選擇相似度值最大的情感詞與實(shí)詞對(duì)應(yīng). 最后,提取相似度高于0的實(shí)詞與基礎(chǔ)情感詞典合并,構(gòu)成音樂(lè)情感詞典. 實(shí)現(xiàn)過(guò)程如圖3所示. 音樂(lè)情感詞典的存儲(chǔ)結(jié)構(gòu)與基礎(chǔ)情感詞典相同. 音樂(lè)情感詞典共包含45 374個(gè)詞匯,其中4類(lèi)情感的詞匯量分布情況如表3所示.
圖3 音樂(lè)情感詞典構(gòu)建流程
表3 音樂(lè)情感詞典詞匯量分布
本文依照所構(gòu)建的情感詞典獲取情感詞權(quán)值,基于TF-IDF構(gòu)造特征向量,并進(jìn)一步考慮詞性對(duì)情感分類(lèi)的影響,將特征向量擴(kuò)展到16個(gè)維度.
2.3.1 TF-IDF
基于情感向量模型,采用情感詞表的4類(lèi)情感類(lèi)別作為音樂(lè)的情感特征向量,共4個(gè)維度. 該特征向量的每個(gè)維度表示音樂(lè)與每類(lèi)情感的相似關(guān)系. 將歌詞中的實(shí)詞與情感詞典進(jìn)行匹配,可以得到每個(gè)實(shí)詞的情感類(lèi)別和情感權(quán)值,從而計(jì)算出每個(gè)情感類(lèi)別的統(tǒng)計(jì)值.
采用TF-IDF規(guī)則計(jì)算情感特征. TF-IDF是一種統(tǒng)計(jì)方法,TF表示詞頻,可以評(píng)估歌詞中某個(gè)實(shí)詞在特定歌詞文件中的的情感重要程度. IDF表示逆向文件頻率,可以評(píng)估某個(gè)實(shí)詞對(duì)于區(qū)分特定歌詞文件和其他歌詞文件的情感重要性.
對(duì)于歌詞文本中的實(shí)詞ti,tf(ti)表示ti對(duì)情感類(lèi)別的重要程度,反映出一個(gè)實(shí)詞在特定歌詞文件中的局部統(tǒng)計(jì)特征. si表示ti在情感詞典中對(duì)應(yīng)實(shí)詞的情感權(quán)值,如果ti匹配失敗,si值為0. ni,j表示ti在該歌詞文本中的出現(xiàn)次數(shù). N表示該篇歌詞經(jīng)過(guò)分詞后得到的詞語(yǔ)總數(shù).
IDF由式(2)計(jì)算:
對(duì)于歌詞文本中的實(shí)詞ti,idf(ti)表示ti對(duì)于區(qū)分特定歌詞文件和其他歌詞文件的情感重要性. |D|表示歌詞文檔總數(shù)表示歌詞中出現(xiàn)ti的歌詞文檔數(shù).
歌詞文本的特征向量表示為:
其中,c表示情感類(lèi)別數(shù),特征向量的每個(gè)維度由式(4)計(jì)算:
其中,ek表示特征向量第k維度對(duì)應(yīng)的情感類(lèi)別,lyric表示歌詞經(jīng)過(guò)分詞后得到的詞語(yǔ).
2.3.2 詞性
不同的詞性表達(dá)情感的能力是不同的,比如,形容詞比名詞表達(dá)的情感更豐富. 因此,本文將結(jié)合詞性信息構(gòu)造特征向量. 我們將每篇歌詞文本經(jīng)過(guò)分詞后得到的詞語(yǔ)根據(jù)詞性分為4類(lèi),每類(lèi)詞性對(duì)應(yīng)的特征向量如式(5)所示. 將4類(lèi)詞性的特征向量結(jié)合得到最終的特征向量,如式(6)所示.
音樂(lè)情感分類(lèi)通常采用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)模型,如K近鄰(KNN)、高斯混合模型(GMM)和支持向量機(jī)(SVM). 本文采用KNN分類(lèi)算法用于歌詞情感分類(lèi).
KNN的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別,其中k通常是不大于20的整數(shù).
選擇中文歌詞數(shù)據(jù)集中的80%作為訓(xùn)練集,20%作為測(cè)試集. 利用KNN分類(lèi)的思想,對(duì)每個(gè)測(cè)試樣例,計(jì)算它與所有訓(xùn)練樣例之間的情感特征向量的歐幾里德距離,以確定其最近鄰列表,選擇最近鄰中出現(xiàn)次數(shù)最多一個(gè)類(lèi)別作為測(cè)試樣例的類(lèi)別. 在本文實(shí)驗(yàn)中,當(dāng)k=5時(shí)分類(lèi)效果最佳.
數(shù)據(jù)集是200篇情感類(lèi)別鮮明的中文歌詞文檔,每個(gè)情感類(lèi)別約50篇. 每篇歌詞的情感標(biāo)簽由多個(gè)人進(jìn)行標(biāo)記,選擇標(biāo)記人數(shù)最多的類(lèi)別作為該歌詞的標(biāo)簽.
本文使用準(zhǔn)確率、精確率、召回率和F值來(lái)評(píng)價(jià)分類(lèi)效果. 以情感類(lèi)別“-V-A”為例,正類(lèi)(Positive)表示該歌詞的預(yù)測(cè)結(jié)果是“-V-A”,負(fù)類(lèi)(Negative)表示該歌詞的預(yù)測(cè)結(jié)果不是“-V-A”. TP,F(xiàn)P,TN和FN的具體含義如表4所示. 則準(zhǔn)確率A、精確率P、召回率R、F值的計(jì)算公式如下:
表4 TP,F(xiàn)P,TN和FN含義表
本文做了兩組對(duì)比實(shí)驗(yàn),所有實(shí)驗(yàn)均使用相同的數(shù)據(jù)集. 第一組對(duì)比實(shí)驗(yàn)中,情感詞典的選擇不同,分別使用2.2.2節(jié)構(gòu)造的基礎(chǔ)情感詞典和音樂(lè)情感詞典,構(gòu)造特征向量均考慮詞性的影響. 實(shí)驗(yàn)結(jié)果如表5所列. 可以看出,基于音樂(lè)情感詞典的中文歌詞情感分類(lèi)能夠達(dá)到更好的效果,所有情感類(lèi)別的準(zhǔn)確率以及4種情感類(lèi)別的精確率、召回率和F值均高于基礎(chǔ)情感詞典. 同時(shí),實(shí)驗(yàn)結(jié)果表明,基于歌詞的音樂(lè)情感分類(lèi)更適用于“+V+A”和“-V+A”這兩類(lèi)情感的識(shí)別.
第二組對(duì)比實(shí)驗(yàn)中,特征向量的構(gòu)造方式不同,均使用2.2.2節(jié)構(gòu)造的音樂(lè)情感詞典. 實(shí)驗(yàn)結(jié)果如表6所列. 可以看出,在構(gòu)造特征向量時(shí)考慮詞性的影響可以提高所有情感類(lèi)別的準(zhǔn)確率,“-V+A”和“-V-A”的評(píng)價(jià)指標(biāo)值都有一定提高.
表5 情感詞典對(duì)比實(shí)驗(yàn)結(jié)果(%)
表6 特征向量對(duì)比實(shí)驗(yàn)結(jié)果(%)
本文基于Word2Vec構(gòu)建音樂(lè)領(lǐng)域的中文情感詞典,并基于情感詞加權(quán)和詞性進(jìn)行中文音樂(lè)情感分析.首先以VA情感模型為基礎(chǔ)構(gòu)建情感詞表,采用Word2Vec中詞語(yǔ)相似度計(jì)算的思想擴(kuò)展情感詞表,構(gòu)建中文音樂(lè)情感詞典,詞典中包含每個(gè)詞的情感類(lèi)別和情感權(quán)值. 然后,依照該詞典獲取情感詞權(quán)值,基于TF-IDF構(gòu)造特征向量,并進(jìn)一步考慮詞性對(duì)情感分類(lèi)的影響,最終實(shí)現(xiàn)音樂(lè)情感分類(lèi). 實(shí)驗(yàn)結(jié)果表明基于所構(gòu)建的音樂(lè)情感詞典進(jìn)行中文歌詞情感分類(lèi)能夠達(dá)到更好的效果,同時(shí)在構(gòu)造特征向量時(shí)考慮詞性的影響也可以提高準(zhǔn)確率. 但基于歌詞的音樂(lè)情感分類(lèi)更適用于“+V+A”和“-V+A”這兩類(lèi)情感的識(shí)別. 今后將研究結(jié)合歌詞與音頻的多模態(tài)融合的音樂(lè)情感分類(lèi),以實(shí)現(xiàn)多個(gè)信息源互補(bǔ),從而提高所有情感類(lèi)別的分類(lèi)精度.