国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感向量空間模型的歌詞情感分析

2010-06-05 09:01:18夏云慶張鵬洲劉宇飛
中文信息學(xué)報 2010年1期
關(guān)鍵詞:音頻向量分類

夏云慶,楊 瑩,張鵬洲,劉宇飛

(1. 清華大學(xué) 信息技術(shù)研究院,北京 100084; 2. 中國傳媒大學(xué) 計算機學(xué)院,北京 100024;3. 深圳大學(xué) 電子科學(xué)與技術(shù)學(xué)院,廣東 深圳 518000)

1 引言

當(dāng)前社會對歌曲的需求與日俱增,聽歌已經(jīng)從個人電腦轉(zhuǎn)向互聯(lián)網(wǎng)在線視聽。3G通信網(wǎng)絡(luò)的逐漸普及,必然推動歌曲操作從互聯(lián)網(wǎng)向手機擴展。為應(yīng)對上述需求,各種智能歌曲搜索和推薦系統(tǒng)逐漸涌現(xiàn)。歌曲情感分類是智能歌曲搜索和推薦的關(guān)鍵技術(shù),目標(biāo)是賦予歌曲特定的情感標(biāo)簽,以方便用戶搜索或者系統(tǒng)推薦。近年來,歌曲情感分類首先在音頻信號處理研究中涌現(xiàn),人們試圖借助Mel倒譜系數(shù)(MFCC)從音頻信號中提取可能會反映情感的音頻特征(例如強度、頻譜質(zhì)心、能量、節(jié)奏、速度等),再借助機器學(xué)習(xí)算法實現(xiàn)情感分類?;谝纛l信號的研究已有近20年的歷史,然而至今無法獲得準(zhǔn)確反映情感的音頻特征,所取得的成效非常有限,無法達到滿意的水平。考慮到目前音頻信號在歌曲情感分析上的局限性,我們提出以歌詞為分析對象,借助自然語言處理技術(shù)對歌曲進行情感分析。目前這方面的研究并不多見。

歌曲以多種媒體表達情感,包括音樂、演唱和歌詞等。因此,僅以歌詞判定歌曲情感存在一定片面性。尤其是隨著歌曲形式的不斷推陳出新,歌詞所表達的情感有時依賴于歌手對歌曲的演繹風(fēng)格,二者甚至?xí)l(fā)生偏差。某些歌曲從歌詞看并無明顯情感傾向,但經(jīng)過歌手演繹后,能表達強烈的情感。為此我們對歌曲進行了調(diào)查,結(jié)果顯示:中文歌曲中只有不到5%的流行歌曲屬于這種類型。所以,我們提出以歌詞為歌曲情感的分析依據(jù),以自然語言處理技術(shù)判定歌曲情感。

歌曲情感分析的依據(jù)是情感模型,即對情感類別的預(yù)設(shè)。我們采取流行的Thayer情感模型[1],即分別從能量和壓力兩個坐標(biāo)軸將歌曲情感劃分為兩類,從而形成“滿足(contentment)”、“沮喪(depression)”、“焦慮/狂亂(anxious/frantic)”和“生氣勃勃(Exuberance)”四類情感。實驗證明,音頻信號在能量高低的判定上具有較高準(zhǔn)確度,而在壓力大小的判定上難以奏效。因此本文只針對壓力大小的判定展開基于歌詞的研究,試圖從歌詞中分析歌曲所表達的情感壓力水平,將歌曲情感定義為“輕松(light-hearted)”和“壓抑(heavy-hearted)”兩類。這同文本觀點極性分析中的“積極”和“消極”有相似之處。為表述方便,本文將歌曲情感壓力分析簡稱為歌曲情感分析。

本研究采取機器學(xué)習(xí)的分類方法實現(xiàn)歌曲情感分析,首先將歌詞表示為向量空間模型(Vector Space Model, VSM),然后以支持向量機(Support Vector Machines, SVM)算法實現(xiàn)歌曲情感分類。基于詞匯的向量空間模型(w-VSM)在歌詞文本表示上存在如下問題:(1)盡管有很多算法可用于特征選擇,但w-VSM無法消除某些與情感表達無關(guān)的詞匯特征。這些特征不會對情感分析起到作用。(2)歌詞中很多情感詞匯在實際使用時存在歧義。歧義在w-VSM中未經(jīng)適當(dāng)消解而直接參與情感分析,必然對結(jié)果形成影響。(3)否定詞和修飾詞在歌詞中頻繁出現(xiàn),他們對情感的增強、削弱和置反作用在w-VSM中無法體現(xiàn)。(4)歌詞往往比較短,平均在50~80個詞左右,這導(dǎo)致w-VSM嚴(yán)重的數(shù)據(jù)稀疏問題。

針對上述問題,本文提出情感向量空間模型(s-VSM),以情感單元作為特征提取對象,以情感單元的統(tǒng)計量作為情感特征。實驗結(jié)果顯示,s-VSM相對于w-VSM優(yōu)勢明顯,充分證明了情感向量空間模型的有效性。

2 相關(guān)工作

音頻信號處理研究領(lǐng)域在上世紀(jì)90年代開始歌曲情感分析研究,基本思路是以音頻信號作為分析依據(jù)、采取機器學(xué)習(xí)方法進行情感分類[2-3],情感模型大都基于Thayer情感模型[1]。Lu等提出層次分類方法,通過兩步分析實現(xiàn)四類情感分類[3]。第一步借助強度特征判定能力水平,第二步借助音色和節(jié)奏特征判定壓力水平。該工作也證明了音頻信號在壓力水平判定上的不足。

Chen等于2006年開始進行基于歌詞的歌曲情感分析研究[4],他們采取了類似文獻[3]的層次分類方法。不同的是,在第二步壓力水平判定上采取了歌詞分析。他們采用基于詞匯的向量空間模型,效果提高并不明顯。Xia等[5]提出了情感向量空間模型的初步設(shè)想,在特征定義中以情感單元取代詞匯,以情感單元的統(tǒng)計量作為情感特征,歌曲情感分析取得顯著提高。本文工作是文獻[4]的擴展,將情感特征擴展到12維,覆蓋了雙重情感否定的情況。另外本文對情感類別的定義進行擴展,在原先“輕松”和“壓抑”兩類情感的基礎(chǔ)上增加“復(fù)雜”和“含蓄”兩類情感,以解決復(fù)雜情感和含蓄情感的識別。

3 情感向量空間模型(s-VSM)

3.1 設(shè)計原則

我們提出情感向量空間模型(s-VSM)遵循如下設(shè)計原則:

1) 只考慮情感相關(guān)詞匯對情感分析的影響。

2) 情感詞匯需在語義上下文中進行必要消歧后才用于情感分析。

3) 考慮否定詞和修飾詞對情感的置反、增強和削弱影響。

基于上述原則,我們認為情感單元是情感特征定義的基本元素。下面我們提出情感單元的形式化定義,并逐步給出情感向量空間模型的形式化描述。

3.2 形式化描述

情感詞典(L)可描述為三元組:

L={C,N,M};

C={ci},i=1,…,I;N={nj},j=1,…,J;

M={mt},t=1,…,T。

其中C代表情感關(guān)鍵詞集,N代表否定詞集,M代表修飾詞集。這些詞匯可從詞典中自動獲取,每個情感詞都被賦予積極或消極的極性。那么,給定一篇歌詞W:

W={wh},h=1,…,H,

我們借助情感詞典將W轉(zhuǎn)換為情感單元集合:

其中ci,v、nj,v和mt,v出現(xiàn)在約定大小(7個詞)的文本上下文窗口中。實際應(yīng)用中,否定詞和修飾詞與情感關(guān)鍵詞的依賴關(guān)系可通過依存分析工具獲取。由于情感單元覆蓋了這一上下文關(guān)系,情感關(guān)鍵詞的情感大部分歧義可被消除。基于情感單元,我們定義如下情感向量空間模型:

,,…,,

我們根據(jù)情感關(guān)鍵詞與否定詞、修飾詞的搭配關(guān)系建立12個情感特征,見表1。

表1 本文定義的12個情感特征

根據(jù)情感單元的定義,fPSW、fNSW、fNEG和fMOD滿足以下條件:

3.3 情感特征提取

我們首先利用情感詞典結(jié)合依存分析工具提取歌詞中的情感單元。具體過程如下:先利用情感詞典在歌詞中識別情感關(guān)鍵詞,然后利用依存分析工具在約定上下文窗口中識別與該詞發(fā)生依存關(guān)系的否定詞和修飾詞,最后實現(xiàn)情感單元的提取。

接下來我們分析情感單元的情感極性。若情感單元中不出現(xiàn)否定詞,則我們簡單采取情感關(guān)鍵詞的極性作為情感單元極性。若出現(xiàn)了否定詞,則根據(jù)否定詞個數(shù)進行極性置反處理。例如雙重否定將不改變情感極性。

最后我們根據(jù)表1所列12個情感特征的計算方法從歌詞中提取情感特征。

3.4 情感向量空間模型的優(yōu)勢分析

我們從以下四個方面分析情感向量空間模型(s-VSM)相對于詞匯向量空間模型(w-VSM)的優(yōu)越性:

1) 特征表示效率:s-VSM模型僅考慮情感相關(guān)詞并以情感單元的統(tǒng)計量形成特征表示,特征空間維度僅為12維。w-VSM模型則以詞匯為特征,特征空間維度巨大。因此s-VSM的表示效率遠高于w-VSM。

2) 特征歧義:情感單元能有效限定情感關(guān)鍵詞的上下文語義,并結(jié)合否定詞和修飾詞的啟發(fā),情感歧義可在s-VSM模型中被大部分消除。

3) 表示能力:情感單元體現(xiàn)了否定詞的置反功能和修飾詞的情感增強與削弱功能,因此s-VSM的功能表示能力高于w-VSM。

4) 稀疏性:s-VSM采用12個情感特征,其數(shù)目遠遠少于情感詞匯個數(shù),能較好解決數(shù)據(jù)稀疏問題。

4 基于s-VSM的歌詞情感分類方法

本文將基于歌詞的歌曲情感分析視為分類問題。在將歌曲表示為情感向量后,我們可利用訓(xùn)練集生成分類器,再利用分類器對歌曲進行情感分類。本文采取了性能較好的支持向量機(SVM-light[6])分類方法。

最初我們根據(jù)情感壓力將歌詞情感劃分為“輕松”和“壓抑”,但實際上還存在兩類之外的情感壓力類別,比如“復(fù)雜”和“含蓄”。觀察發(fā)現(xiàn),有相當(dāng)數(shù)量的歌曲在情感表達上直抒胸臆,頻繁使用情感詞,且“輕松”情感和“壓抑”情感比例相當(dāng),表達了類似悲喜交加、又愛又恨等復(fù)雜情感。另外,少量歌曲在情感表達上文雅含蓄,很少使用情感詞。我們認為,上述兩類情感不能單純歸結(jié)為“輕松”或“壓抑”。因此在實際處理中,我們將Thayer情感模型壓力軸的“輕松”和“壓抑”兩類情感擴展為結(jié)合情感單元個數(shù)的四類情感分類模型,如圖1所示。

圖1 基于情感壓力的四類情感分類模型。

5 實驗與評測

5.1 實驗設(shè)置

我們采用5SONGS語料庫[5]進行本文方法的訓(xùn)練和評測。5SONGS語料庫包含2 653首中文流行歌曲,兩類情感壓力類別“輕松”和“壓抑”均由兩位專家人工判定。最終1 632首歌曲被標(biāo)注為“輕松”,1 021首被標(biāo)注為“壓抑”。專家標(biāo)注一致性為72%,這說明歌詞情感判定存在較大難度。本實驗中用到的情感詞典大部分來自HowNet[7]。由于情感詞典對本文工作意義重大,因此我們又融合了NTU情感詞典*http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html。本文采取哈爾濱工業(yè)大學(xué)依存分析工具LTP[8]進行詞法分析和依存分析。

我們采取文本分類通用評測方法對本文工作進行評測,包括準(zhǔn)確率(p)、召回率(r)和f-1分數(shù)(f)。為整體分析方法性能,我們采取微平均(micro-average)和宏平均(macro-average)[9]。我們將5SONGS語料庫隨機劃分為四等分,以四重交叉驗證技術(shù)評測本文方法。

5.2 方法

本實驗考慮如下基線系統(tǒng):

1) 音頻分析方法

采用文獻[3]匯報的音頻分析方法以音色和節(jié)奏等12維音頻特征進行歌曲情感壓力分析。

2) 知識推理方法

本文實現(xiàn)了一個簡單的基于情感詞典的情感推理方法。首先利用情感詞典從歌詞中識別情感詞,然后在其上下文識別否定詞和修飾詞以獲取情感單元,最后我們以情感單元計數(shù)來斷定歌詞的情感類別。

3) 基于w-VSM的機器學(xué)習(xí)方法

我們以情感詞為分類特征,通過CHI算法[10]進行特征選擇;以情感詞特征集產(chǎn)生歌詞向量空間;最后在訓(xùn)練數(shù)據(jù)上產(chǎn)生分類器,并用于情感分類測試。

本文方法是基于s-VSM的機器學(xué)習(xí)方法。我們選擇12維情感特征產(chǎn)生情感向量空間,在訓(xùn)練數(shù)據(jù)上產(chǎn)生分類器,并用于情感分類測試。本實驗還將對比Thayer的二類情感壓力模型和我們的四類情感壓力模型。

5.3 實驗1 基準(zhǔn)方法和本文方法的對比

基于Thayer模型的基準(zhǔn)方法和本文方法的實驗結(jié)果如表2所示。

表2 評測方法的實驗結(jié)果(f-1分數(shù))

表2實驗結(jié)果顯示:1)基于歌詞的所有方法優(yōu)于基于音頻的方法,其中基于s-VSM的分類方法在微平均f-1分數(shù)上高于音頻分析方法0.155。這表明:在歌曲情感分析上,歌詞能提供比音頻更豐富的依據(jù)。2)基于機器學(xué)習(xí)的方法優(yōu)于基于知識推理的方法,其中基于s-VSM的機器學(xué)習(xí)方法在微平均f-1分數(shù)上高于知識推理方法0.107;3)基于s-VSM的機器學(xué)習(xí)方法優(yōu)于基于w-VSM的方法,在微平均f-1分數(shù)上提高了0.069。

5.4 實驗2 兩個情感壓力模型的對比

本文方法在Thayer的二類情感壓力模型和本文的四類情感壓力模型下實驗結(jié)果如表3所示。需要指出的是:由于5SONGS語料庫并未進行“復(fù)雜”和“含蓄”標(biāo)注,因而無法對這兩類情感進行評測。我們只對經(jīng)“復(fù)雜”和“含蓄”過濾后的歌曲進行“輕松”和“壓抑”兩類評測。

表3 本文方法在在兩中情感壓力模型下的實驗結(jié)果(f-1分數(shù))

表3實驗結(jié)果顯示:在采用本文的四類情感壓力模型后,歌曲的“輕松”和“壓抑”分類性能有顯著提高(即在微平均f-1分數(shù)上提高了0.088)。這說明了新模型在歌曲情感分析上的有效性。需要特別指出的是,本文提出的四類情感壓力模型是一個面向應(yīng)用的模型,而心理學(xué)家是否認同該四類情感壓力模型并非本文研究重點。但我們同心理學(xué)專家合作,以求提出反映該應(yīng)用效果的新的情感壓力模型。

6 結(jié)論

本文提出了基于情感單元的情感向量空間模型(s-VSM)。同傳統(tǒng)基于詞匯的向量空間模型(w-VSM)相比,s-VSM模型在文本表示效率、歧義消解、情感功能和數(shù)據(jù)稀疏性等方面都有w-VSM模型無法比擬的優(yōu)越性。實驗結(jié)果證明,s-VSM模型在歌詞情感分類中獲得成功。另外本文對情感壓力模型進行了改進,將情感詞詞頻與Thayer二維情感壓力模型相結(jié)合,提出了“輕松”、“壓抑”之外的“復(fù)雜”、“含蓄”兩類新的情感壓力類別。實驗證明,情感壓力模型的改進對提高歌詞情感分析的性能很有幫助。

本研究尚有未完成的工作,包括情感詞對情感單元的增強和削弱影響尚未在本文體現(xiàn),12維情感特征并不完整。另一方面歌詞情感分析可能還需要同音頻分析相結(jié)合,以實現(xiàn)更加準(zhǔn)確的歌曲情感判定。我們將針對上述內(nèi)容進一步展開我們的研究。

[1] R. E. Thayer. The Biopsychology of Mood and Arousal[M].New York, Oxford University Press. 1989.

[2] T. Li and M. Ogihara. Content-based music similarity search and emotion detection[C]//Proc. IEEE Int. Conf. Acoustic, Speech, and Signal Processing, 2006: 17-21.

[3] L. Lu, D. Liu and H. Zhang. Automatic mood detection and tracking of music audio signals[J].IEEE Transactions on Audio, Speech & Language Processing, 2006, 14(1): 5-18.

[4] R.H. Chen, Z. L. Xu, Z. X. Zhang and F. Z. Luo. Content Based Music Emotion Analysis and Recognition[C]//Proc. of 2006 International Workshop on Computer Music and Audio Technology, 2006: 68-75.

[5] Y. Xia, L. Wang, K.-F. Wong and M. Xu. Sentiment Vector Space Model for Lyric-based Song Sentiment Classification[C]//Proc. of ACL-08: HLT, Short Papers (Companion Volume): 133-136, Columbus, Ohio, USA, June, 2008.

[6] T. Joachims. Learning to Classify Text Using Support Vector Machines Methods, Theory, and Algorithms[M]: Kluwer, 2002.

[7] Z. Dong and Q. Dong. HowNet and the Computation of Meaning[M]. World Scientific Publishing, 2006.

[8] J. Ma, Y. Zhang, T. Liu, S. Li. A Statistical Dependency Parser of Chinese under Small Training Data[C]//Proc. of IJCNLP-2004, 1999: 1-5.

[9] Y. Yang and X. Liu. A Re-Examination of Text Categorization Methods[C]// Proc. of SIGIR'99, 1999: 42-49.

[10] Y. Yang and J. O. Pedersen. A comparative study on feature selection in text categorization[C]//Proc. of ICML'97, 1997: 412-420.

猜你喜歡
音頻向量分類
向量的分解
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標(biāo)
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
向量垂直在解析幾何中的應(yīng)用
鹿邑县| 黑龙江省| 喀喇| 余江县| 平阴县| 聊城市| 沁源县| 连山| 永靖县| 志丹县| 安宁市| 仙居县| 陆河县| 高清| 会同县| 山东| 乌审旗| 建阳市| 江川县| 青海省| 西盟| 墨玉县| 吴堡县| 礼泉县| 西宁市| 博白县| 彭泽县| 涿鹿县| 乐都县| 台前县| 东城区| 营山县| 郯城县| 巴彦县| 宜川县| 凤台县| 科尔| 南平市| 邻水| 岑巩县| 潞西市|