于超
(四川大學計算機學院,成都 610065)
近年來,隨著移動智能設備硬件性能和產(chǎn)品設計水平的不斷提高。人們可以隨時隨地享受諸多便捷的服務,而作為藝術(shù)一大領(lǐng)域的音樂,也成為人們生活不可或缺的一部分。得益于大數(shù)據(jù)和計算力的增長以及智能算法的研究,機器學習技術(shù)開始廣泛應用到互聯(lián)網(wǎng)產(chǎn)品中,使得用戶可以獲得更加個性化的體驗。
基于機器學習的個性化音樂推薦系統(tǒng)也逐漸成為研究熱點,而音樂的情感則是音樂內(nèi)容本身非常重要的語義信息。本文主要研究了基于卷積神經(jīng)網(wǎng)絡的音樂情感識別遷移學習方法,并在公開音樂情感數(shù)據(jù)集上進行了實驗及分析。
音樂情感識別的研究可以追溯到1988年[1],在隨后的三十年里越來越受到相關(guān)研究者的重視。時至今日,音樂情感識別的研究仍然面臨諸多困難和挑戰(zhàn)。
首先,當前領(lǐng)域由于缺乏高質(zhì)量和統(tǒng)一的研究數(shù)據(jù)集,不同研究員只能自建數(shù)據(jù)集進行研究,這樣不利于研究者之間進行比較和判斷,因而影響了研究的發(fā)展?,F(xiàn)有的音樂識別方面的公開數(shù)據(jù)集,較多是曲風識別以及社交網(wǎng)絡標簽識別,少量的專注于音樂情感識別的數(shù)據(jù)集中,也存在數(shù)據(jù)量太少或類別嚴重不平衡的問題。自2007年起,音樂信息檢索領(lǐng)域的知名競賽MIREX[2](Music Information Retrieval Evaluation eX?change)開始加入了音樂情感分類的任務,并提供了一套建立情感分類數(shù)據(jù)集的方法,并構(gòu)建了相應的數(shù)據(jù)集供參賽者進行評估和比較,MIREX每年一次的舉辦為該領(lǐng)域的研究發(fā)展起到了很好的作用,但其數(shù)據(jù)集僅僅開放給參賽者使用。Panda Renato和Rui Pedro Paiva在2012年采納MIREX的數(shù)據(jù)集收集方法,構(gòu)建了一套公開的音樂情感分類數(shù)據(jù)集,稱為類MIREX數(shù)據(jù)集[3],從而為不同研究者在該領(lǐng)域進行研究提供了很好的助益,因此,本文也將在此數(shù)據(jù)集上開展實驗。
此外,近年來大數(shù)據(jù)的發(fā)展讓人們認識到,少量的采樣會影響對真實世界的認知,對于機器智能算法來說也是一樣,而相比于音樂曲風識別的公開數(shù)據(jù)集已經(jīng)達到了十萬首的數(shù)量級[4],目前的音樂情感數(shù)據(jù)集在曲目數(shù)量上仍較少,本文將研究基于卷積神經(jīng)網(wǎng)絡的遷移學習方法,在當前數(shù)據(jù)量較少的情況下改善系統(tǒng)的識別能力。
圖1 一首音樂的原始波形(上)與對應的聲譜圖(下)
梅爾聲譜圖是一種常用的音頻信號表示方法,圖1展示了一首音樂的原始波形極其對應的聲譜圖。在數(shù)字信號領(lǐng)域中,將時間信號轉(zhuǎn)換為時間-頻率表示是一種有助于信號分析的方法,聲譜圖的生成原理也類似,即先將音頻信號根據(jù)設置的時間窗口分成許多幀,對每一幀音頻,通過短時傅立葉變換生成頻譜圖,同時考慮到梅爾頻率更加符合人類的聽覺特點,將頻譜圖映射到梅爾頻率上,再把所有幀的頻譜在時間軸上拼接成一張完整的聲譜圖。
將音樂信號表示為梅爾聲譜圖,有助于通過圖像這個載體,進行后續(xù)的音樂情感識別。
自2012年基于卷積神經(jīng)網(wǎng)絡的AlexNet[5]在Ima?geNet圖像識別競賽上大放異彩起,深度學習技術(shù)在圖像領(lǐng)域得到了快速發(fā)展,相較于傳統(tǒng)人工設計的特征,卷積神經(jīng)網(wǎng)絡通過逐層卷積和反向傳播算法,從數(shù)據(jù)當中自動學習出對于當前問題更合適的特征表示,已經(jīng)在圖像領(lǐng)域顯示出強大的能力。一個典型的卷積神經(jīng)網(wǎng)絡分類器包含卷積層、激活函數(shù)、池化層、全連接層和Softmax分類器,同時還有一些防止網(wǎng)絡過擬合的結(jié)構(gòu)和措施。受Aaron和Sander Dieleman等人將圖像卷積用于解決音樂推薦問題[6]的啟發(fā),本文將采用聲譜圖結(jié)合卷積神經(jīng)網(wǎng)絡的方式對音樂數(shù)據(jù)進行分析。
卷積神經(jīng)網(wǎng)絡出色的表現(xiàn)一部分來源于其逐層提取特征的能力,也就是通過低層特征的不同組合形成高層特征。Zeiler,Matthew D.和Rob Fergus通過對訓練完成的卷積神經(jīng)網(wǎng)絡進行了可視化[7],發(fā)現(xiàn)隨著網(wǎng)絡層次的加深,提取出來的特征在語義上也更高級。得益于ImageNet大規(guī)模圖像數(shù)據(jù)集的發(fā)布和深度學習算法的研究,使得人們可以在數(shù)據(jù)量較小的情況下,通過遷移學習的方法更好更快地訓練一個新的任務的模型。
基于深度學習的遷移學習技術(shù),即在當前任務數(shù)據(jù)樣本量較少的情況下,首先尋找擁有大量數(shù)據(jù)的相關(guān)問題,通過對相關(guān)問題的學習之后,再將網(wǎng)絡學習到的知識(即特征表示)應用到當前要解決的任務上來。具體可以采用兩種方式進行知識遷移。其一,將預訓練好的網(wǎng)絡作為特征提取器,后續(xù)增加的網(wǎng)絡或者分類器在前序提取的特征基礎上進行訓練。其二,使用預訓練好的網(wǎng)絡參數(shù)初始化當前更改過結(jié)構(gòu)的網(wǎng)絡參數(shù),整個網(wǎng)絡與新增加的部分一同訓練。
Google的聲音理解小組在2017年初發(fā)布了大規(guī)模音頻數(shù)據(jù)集AudioSet[8],其中包含了兩百萬個帶有人工標簽的視頻音軌,并且在此數(shù)據(jù)集上預訓練了一個音頻事件檢測網(wǎng)絡[9],本文的遷移學習研究將在此基礎上展開。
本文采用公開的類MIREX(MIREX-like)音樂情感數(shù)據(jù)集進行相關(guān)實驗。數(shù)據(jù)集包含903首30秒的音樂片段,如表1所示,每個片段屬于一個特定的類別(聚簇),每個類別由語義上相似的情感詞聚合而成。其中每個類別150首歌曲構(gòu)成平衡訓練集,剩下20%的曲目則構(gòu)成測試集。
表1 M IREX-like音樂情感數(shù)據(jù)集類別構(gòu)成
實驗的評價指標采用分類正確率(Accuracy)衡量。正確率的定義為下式,其中I為指示函數(shù),當括號內(nèi)的等式為真時,該值為1。
為便于后續(xù)在AudioSet模型上進行遷移學習,首先將MIREX-like數(shù)據(jù)集中所有的音樂片段按1秒分割提取成96×64的梅爾聲譜圖,構(gòu)成相應的切片訓練樣本和切片測試樣本,同時將同屬于一首測試歌曲的切片組合成完整的測試樣本。
實驗中所采用的卷積神經(jīng)網(wǎng)絡架構(gòu)如表2所示。由于遷移學習的方式,該網(wǎng)絡的輸入層直至第三全連接層(FC3)的結(jié)構(gòu)與AudioSet模型結(jié)構(gòu)相同,包含了6個卷積層、4個池化層及3個全連接層,這部分的輸出稱為嵌入層(Embedding)。在AudioSet模型的基礎上增加一個小型神經(jīng)網(wǎng)絡(FC4+FC5+Softmax)或直接增加Softmax分類器(FC5+Softmax),用于學習Embed?ding層的高層語義特征與音樂情感之間的映射關(guān)系。
本文首先進行了普通的學習方式與遷移學習方式的對比試驗,其中遷移學習方式采用了前述的兩種方法進行了實驗。實驗結(jié)果如表3所示:
表3 普通學習方式與遷移學習方式的對比
訓練過程在30輪左右已經(jīng)基本收斂,所以基于同樣的訓練輪數(shù)對結(jié)果進行觀察。
一方面,使用遷移學習的方式最終獲得的分類正確率均高于直接從少量數(shù)據(jù)中訓練的結(jié)果,說明從音頻大數(shù)據(jù)訓練得到的特征表示在音樂情感識別的任務上也具有較好的能力。對于遷移學習方式2,由于要訓練的網(wǎng)絡容量比方式1大得多,所以在不改變網(wǎng)絡架構(gòu)的情況下,正確率會較低一些。
另一方面,在預訓練網(wǎng)絡結(jié)構(gòu)之上增加更多的層次,只對正確率略有提升,也從另一角度說明遷移學習過來的特征表示已經(jīng)具有較好的能力。
同時,本文也進行了實驗,分析從AudioSet預訓練網(wǎng)絡遷移音頻特征表示對音樂情感識別任務學習速度的影響,監(jiān)測訓練過程收斂所花費的訓練輪次,實驗結(jié)果如表4所示:
表4 普通學習方式與遷移學習方式的對比
實驗顯示,采用遷移學習方法對網(wǎng)絡進行訓練將收斂速度提升了一倍以上,與此同時,將預訓練網(wǎng)絡部分與新增網(wǎng)絡部分協(xié)同訓練會進一步提高收斂速度。
本文基于梅爾聲譜圖、卷積神經(jīng)網(wǎng)絡及AudioSet模型研究了音樂情感識別的遷移學習方法。實驗中著重對音頻遷移學習帶來的音樂情感識別能力提升和訓練速度提升進行了考察。由于AudioSet音頻事件檢測任務同音樂情感識別任務存在語義上的相關(guān)性,應用遷移學習方式提高了原神經(jīng)網(wǎng)絡的分類性能,同時大幅提升了訓練過程的收斂速度,證明了相關(guān)音頻領(lǐng)域中的特征表示在音樂情感識別任務中具有較好效果。在未來工作中,我們?nèi)孕枰M一步解決許多現(xiàn)存問題,第一,情感類別對于不同主體的歧義性導致訓練數(shù)據(jù)的質(zhì)量不穩(wěn)定,產(chǎn)生的誤差將會進一步影響后續(xù)的學習與識別。第二,研究基于不同的大規(guī)模數(shù)據(jù)的遷移學習對音樂情感識別效果的影響。
參考文獻:
[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.
[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME
[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.
[4]Defferrard,Micha?l,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).
[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.
[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.
[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.
[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.
[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).