摘 要:如今數(shù)字化信息對人們的生活產(chǎn)生了巨大的影響,對于愛好音樂的人們來說大量的歌曲信息如果進行有效的分類,如何對這些音樂進行分類,從而進行有效的信息檢索是信息處理領(lǐng)域的研究熱點。通過對音樂的樂理知識的深入分析,能夠有效的提取出反應(yīng)音樂情感的特征向量,運用支持向量機(SVM)實現(xiàn)了對音樂的情感分類。實驗結(jié)果表明,所運用的分類方法準確有效。
關(guān)鍵詞:支持向量機;MIDI文件;音樂情感分類
中圖分類號:TP391.4 文獻標識碼:A
1 引言(Introduction)
音樂作為大眾娛樂主要方式之一,不僅為大眾提供美妙的聽覺享受,同時其本身也具有豐富的情感內(nèi)涵,具有很強的情感調(diào)節(jié)功能,滿足聽眾的情感需求。目前很多大型音樂網(wǎng)站都需要高效的檢索和推薦功能,而音樂情感則是音樂檢索與推薦工作的重要依據(jù)之一。目前音樂的感情多數(shù)是根據(jù)聽眾或者專家對于音樂的評價作為感情標簽,其工作量相當大,而且不同認知水平的人對于同一段音樂有不同的評價。隨著計算機與人工智能技術(shù)的發(fā)展,音樂感情的自動識別成為國內(nèi)外學(xué)者研究的熱點問題之一。
現(xiàn)有的音樂情感研究模型,可分為基于文本關(guān)鍵詞模型和基于音頻參數(shù)模型兩種。David Torres等人[1]根據(jù)樂曲的歌詞信息,識別樂曲的情感類型。Yuan-Yuan shi等人[2]通過構(gòu)建一個調(diào)制頻譜分析系統(tǒng),從壓縮的音樂文件中提取節(jié)奏信息,通過分析音樂節(jié)奏的變化實現(xiàn)對音樂感情的分類。M.wang等人[3]通過提取音樂的頻譜信息,利用支持向量機實現(xiàn)對于音樂情感的分類。Cyril Laurier和Perfeto Herrera等人利用音樂波形文件的頻譜特征,利用支持向量機實現(xiàn)音樂的情感分類。
本文從樂譜創(chuàng)作的角度出發(fā),以音樂網(wǎng)站音樂推薦系統(tǒng)對于音樂情感需求為背景,提出通過對音樂的MIDI文件解析得到音樂的感情特征組成六維感情特征向量,利用支持向量機(SVM)實現(xiàn)對音樂表達的情感進行具體分類。
2 Thayer情感模型(Thayer emotion model)
目前,對于音樂情感分類所采用的模型主要包括Thayer情感模型、威廉.馮特情感模型、Hevner情感模型、Russell情感模型和Plutchik情感模型等,其中Thayer情感模型是二維情感模型[4]縱坐標表示的是能量維度,從“平靜的”到“活力的”變化,反映的是主體的情感活躍程度,橫坐標表示的是壓力維度,從“消極”到“積極”的變化,反映了主體的主觀感受,從而將音樂情感劃分為具有代表性的四類:興奮的、憤怒的、悲傷的和放松的。如圖1所示為Thayer情感模型采用的能量維度和壓力維度與樂理理論所對應(yīng)的情感表達方式具有較好的對應(yīng)關(guān)系,因此本文將采用Thayer情感模型,利用支持向量機將樂曲的表達情感分為四類。
MIDI文件是音樂文件的一種存儲形式,它以字節(jié)的形式對樂曲進行描述,使用數(shù)字編碼描述樂譜的基本特征[4]。多數(shù)MIDI文件都是多音軌文件,其中的主旋律和伴奏旋律都分布在不同的音軌上,通常將主旋律所在的音軌稱之為主音軌,其包含了音樂的主要情感信息。因此通過分析主音軌的情感就可以識別出該段音樂所表達的感情。目前比較成熟的主旋律提取方法是根據(jù)信息熵理論定義音軌特征的熵值,然后由MIDI文件的音軌信息熵和其他重要特征組成特征向量構(gòu)建隨機森林分類器,進而提取MIDI文件的主旋律。實驗證明,該方法的正確率達到93%以上。
音樂是音符的有機組合,其不同的組合形式不同的旋律,表達不同的情感。每個音符都有自身的音高、音長和音強等信息,但每首音樂并不是由單個的音符所表達,而是通過不同的音符之間的組合表達旋律,抒發(fā)感情。因此音樂的旋律、節(jié)奏也是感情表達的重要方面。因此,本文通過對MIDI文件的解析,可以得到的基本數(shù)據(jù)信息包括音高、音長、音強和節(jié)拍等信息,本文分別定義為、、和。
音樂是由不同的音符組合在一起,其組合規(guī)律形成自身的特點,表達著各種感情。包括音程、旋律、節(jié)奏等高層次的音樂特征。因此本文定義如下表達音樂情感的向量空間。
音高:音高是音樂的基本要素之一,其高低及其變化是音樂內(nèi)容和感情的表達的重要方式。本文分別定義音高均值和音高方差表示樂曲的音高水平和音高變化:
音高均值定義為:
(1)
其中,n表示樂段音符的個數(shù),表示音符的音高。
音高變化定義為:
(2)
音強:音樂的強度是音樂表達感情的重要方式之一。通過音強的變化可以進一步加強和豐富音樂的情感。本文用音強均值和音強方差來衡量音樂的音強及音強變化:
音強均值定義為:
(3)
音強變化定義為:
(4)
旋律:旋律是由連續(xù)音符以特定的順序組織起來形成的,它是音樂情感重要的表現(xiàn)手段之一,反映了音樂的走向信息。通常包括時間信息和走向信息。因此本文用根音的時值作為時間信息,前后的音高的差值作為走向信息,定義如下:
(5)
節(jié)奏:節(jié)奏是音樂中規(guī)律性出現(xiàn)的強弱和長短的現(xiàn)象,是音樂情感的重要表現(xiàn)手段。本文用緊張性和穩(wěn)定性兩個特征來表征音樂的節(jié)奏,具體定義如下:
(6)
(7)
因此,對于任何一段樂曲,都可以找到一個7維的向量表示其感情特征。
4 支持向量機理論(Support vector machine theory)
支持向量機是統(tǒng)計學(xué)習(xí)理論發(fā)展的產(chǎn)物,針對有限樣本情況,建立了一套完整、規(guī)范的基于統(tǒng)計的機器學(xué)習(xí)理論和方法,大大減少了算法設(shè)計的隨意性,被廣泛的應(yīng)用于模式識別、函數(shù)逼近、概率密度估計、降維等領(lǐng)域。
4.1 線性支持向量機
4.1.1 兩類線性可分的情況
設(shè)訓(xùn)練樣本輸入為,=1,,;,對應(yīng)的輸出為,其中+1和-1則代表兩分類的類別標識,則存在分類的超平面,其方程可表達為。為保證所有樣本能夠分類正確且存在分類間隔,須滿足如下約束條件:
(8)
在約束條件(1)下,最小化函數(shù)為:
(9)
采用拉格朗日(Lagrange)乘數(shù)法求解該具有線性約束的二次規(guī)劃問題。引入(Lagrange)乘子,得到對偶的最優(yōu)化問題
(10)
如果為最優(yōu)解,那么
(11)
根據(jù)庫恩-塔克(Karush-Kuhn-Tucher,KKT)條件可知,當Lagrange乘子與約束條件的乘積等于0時,在最優(yōu)點,即
(12)
對于多數(shù)樣本的值為0,不為0的則對應(yīng)于支持向量,相應(yīng)的學(xué)習(xí)方法稱為支持向量機(SVM)。
最優(yōu)化分類函數(shù)為
(13)
其泛化能力最強,為符號函數(shù),則為支持向量個數(shù)。
4.1.2 兩類線性不可分的情況
引入一個松弛項,表示樣本距支持平面的偏差。則廣義最優(yōu)化分類面可表示成如下優(yōu)化問題:
(14)
為懲罰函數(shù),表示對錯誤分類樣本的懲罰程度,與線性可分情況相似,可求得的最優(yōu)化問題為
(15)
最優(yōu)分類函數(shù)為
(16)
4.2 非線性支持向量機
對于非線性分類超平面,支持向量機(SVM)的核心思想是:通過非線性變化將輸入空間中的樣本變換到一個高維特征空間中,進而在新的空間中求得最佳線性分類面進行分類。而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)——核函數(shù)(Kernel Function)實現(xiàn)的。
假設(shè)有非線性映射:將輸入空間的樣本映射到高維特征空間中,當在特征空間中構(gòu)造最優(yōu)超平面時,訓(xùn)練算法僅使用特征空間中的點積,即。所以若能找到一個函數(shù),使,則在高維空間中不需要知道變換的形式,只需進行相應(yīng)的內(nèi)積運算即可。
由Mercer理論可知,令為內(nèi)積函數(shù)的核函數(shù),則相應(yīng)的關(guān)于二次規(guī)劃問題變?yōu)?/p>
5.1 M-ary分類方法
支持向量機方法的提出是針對二分類問題,將二分類拓展為多分類是一段時間內(nèi)支持向量機算法研究的重要方向之一,假設(shè)多分類問題有個類別,訓(xùn)練樣本為,其中,實現(xiàn)SVM的多分類問題主要方法有四種方法,其中M-ary多分類方法具有結(jié)構(gòu)簡單,使用的分類器最少等優(yōu)點,因此本文采用M-ary算法實現(xiàn)對音樂情感的分類。本文支持向量機(SVM)采用徑向基函數(shù)作為核函數(shù),核函數(shù),,取,。
將興奮和激動的情感分為第一類,將憤怒和焦慮的情感分為第二類,將悲傷枯燥的情感分為第三類,放松安詳?shù)那楦蟹譃榈谒念?。因為,取,所以實現(xiàn)本文的分類由兩個SVM分類器即可。第一個分類器,類別一、三相對應(yīng)的樣本記為+1,類別二、四相對應(yīng)的樣本記為-1;對于第二個分類器,類別一、四記為+1,類別二、三記為-1。通過標記結(jié)果的組合(+1,+1)、(+1,-1)、(-1,+1)、(-1,-1)四類,實現(xiàn)對樣本的分類。
5.2 數(shù)據(jù)預(yù)處理
實驗選取200首多音軌文件,包括80首港臺歌曲、120首大陸歌曲,然后由兩名專業(yè)教師和三名音樂專業(yè)的學(xué)生對每首音樂每段表達的感情進行標注。共制作表達不同感情的音樂段240段。然后利用方法六對200首音樂提取主音軌,生成如圖2所示的文本文件。將240段音樂文件制作成對應(yīng)的MIDI文本文件作為實驗素材,如圖2所示。
5.3 實驗結(jié)果與分析
實驗選取240段音樂素材中分別表達四類情感的樂段各20段共80段作為訓(xùn)練樣本,其余的160段作為測試樣本。首先用80段訓(xùn)練樣本對支持向量機進行訓(xùn)練,然后對支持向量機進行學(xué)習(xí)和訓(xùn)練。實驗采用matlab7.0進行仿真,分類結(jié)果如表1所示。
通過仿真實驗結(jié)果表明,該方法取得了較為理想的識別結(jié)果,出現(xiàn)誤判的原因主要是本身樂段所表達的情感不是很明確,專家給的情感類型也并不同意,因此產(chǎn)生了誤判。同時又部分實驗樣本樂段情感明確,出現(xiàn)誤判。
6 結(jié)論(Conclusion)
樂曲的情感識別對于音樂的自動化制作、音樂工業(yè)化應(yīng)用、音樂的檢索和推薦都具有重要意義。本文通過對于對MIDI文件的解析,提取出能夠表現(xiàn)音樂音高及變化、音強及變化、旋律、節(jié)奏等能夠表達音樂情感的7個向量,通過對支持向量機的訓(xùn)練,進而實現(xiàn)了對于MIDI音樂文件的情感分類,實驗證明了該方法的有效性,誤差可以控制在合理的范圍之內(nèi)。下步工作將主要針對復(fù)雜的音樂,尤其是具有復(fù)合性音樂情感的音樂作品,如何進行音樂情感的分類與識別。
參考文獻(References)
[1] David Torres,et al.Identifying Words that are Musically Meaningful[J].University of California,San Diego.Austrian Computer Society,2009:143-152.
[2] Yuan-Yuan Shi,et al.A Temp of Feature Via Modulation Spectrum Analysis and its Application to Music Emotion Classification[C].Presented at IEEE International Conference on Multimedia and Expo(ICME 2006),Toronto,CANADA,2006:247-253.
[3] M.Wang,N.Zhang,H.Zhu.User-adaptive Music Emotion Recognition[J].New York,NY,10016-5997,United States,2004:201-209.
[4] R.Thayer.The Biopsychology of Mood and Arousal[M].Oxford University Press,1989:62-69.
[5] 趙健諭.音樂情感識別方法的研究[M].遼寧:遼寧大學(xué),2011:
22.
[6] 葛廣英.基于SVM的車型檢測和識別算法[J].計算機工程,
2007(06):11-14.
[7] 肖建華.智能模式識別方法[M].廣州:華南理工大學(xué)出版社,
1998:18-22.
作者簡介:
陳維華(1978-),女,碩士,副教授.研究領(lǐng)域:計算機應(yīng)用,
信息系統(tǒng).