国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于歌詞的流行音樂(lè)情感二值分類研究

2016-02-13 07:03:28蔣旻雋
現(xiàn)代計(jì)算機(jī) 2016年35期
關(guān)鍵詞:特征向量流行音樂(lè)類別

蔣旻雋

(上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)

基于歌詞的流行音樂(lè)情感二值分類研究

蔣旻雋

(上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)

著眼于音樂(lè)情感的分類,使用計(jì)算機(jī)領(lǐng)域文本分類的技術(shù),利用KNN分類算法,對(duì)流行音樂(lè)中的情感進(jìn)行挖掘,從而實(shí)現(xiàn)基于中文歌詞的流行音樂(lè)情感的二值分類。主要借鑒文本處理的方法,將歌詞通過(guò)分詞、詞頻統(tǒng)計(jì)、權(quán)重計(jì)算等一系列的處理,變?yōu)榭捎?jì)算的特征向量;并且在此基礎(chǔ)上使用KNN分類算法,對(duì)于流行音樂(lè)中的情感進(jìn)行了二值分類。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,該方法有較高的準(zhǔn)確率。

情感分類;流行音樂(lè);歌詞文本處理;KNN算法

0 引言

音樂(lè)是人們休閑娛樂(lè)生活中必不可少的一部分,計(jì)算機(jī)與互聯(lián)網(wǎng)的發(fā)展使我們可以通過(guò)網(wǎng)絡(luò)方便地取得音樂(lè)資源,網(wǎng)絡(luò)上的海量音樂(lè)信息,對(duì)媒體內(nèi)容的管理和檢索提出了更高的要求。通過(guò)音樂(lè)所表達(dá)的情感進(jìn)行音樂(lè)檢索更方便,更智能,更貼近人們的日常生活。從前的音樂(lè)檢索方式大多忽略了用戶對(duì)于音樂(lè)情感上的需求,更多的是通過(guò)聲學(xué)、音頻等專業(yè)鄰域的特征檢索。有關(guān)基于情感的音樂(lè)檢索的研究工作較少,F(xiàn)eng等通過(guò)檢測(cè)音樂(lè)的演奏速度和清晰度,來(lái)分析音樂(lè)中所蘊(yùn)含的情感[1]。情感識(shí)別方法主要有基于知識(shí)的模型和基于數(shù)據(jù)的模型[2],使用統(tǒng)計(jì)分析或者機(jī)器學(xué)習(xí)的理論建立關(guān)鍵變量與其他可測(cè)變量的統(tǒng)計(jì)或者學(xué)習(xí)模型也是最常用的方法,例如基于支持向量機(jī)[3-5]的方法、高斯混合模型方法[6]。

本文的重點(diǎn)在于挖掘流行音樂(lè)中的情感,基于流行音樂(lè)的歌詞對(duì)其進(jìn)行二值分類。本文主要從音樂(lè)歌詞所包含的情感分類技術(shù)出發(fā),在現(xiàn)有歌詞分類方法的基礎(chǔ)上,與音樂(lè)領(lǐng)域的相關(guān)知識(shí)相結(jié)合,構(gòu)建情感所對(duì)應(yīng)的詞匯表,將中文文本分類的方法應(yīng)用于流行音樂(lè)的情感分類中,結(jié)合KNN分類算法,實(shí)現(xiàn)流行音樂(lè)的情感二值分類。

1 基于KNN算法的音樂(lè)情感分類

對(duì)于情感的分類而言,最常見(jiàn)也是最直接簡(jiǎn)單的情感分類方式便是好和壞,積極與消極。根據(jù)一定的調(diào)查和研究,大部分的流行音樂(lè)所帶給人們直觀的感覺(jué)便是表示積極情緒和表示消極情緒的音樂(lè),所以本文將流行音樂(lè)中的情感分類兩大類,體現(xiàn)積極情緒的一類和表現(xiàn)消極情感的一類。

K最近鄰(KNN,k-Nearest Neighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡(jiǎn)單的方法之一。KNN算法的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。KNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN方法較其他方法更為適合。

KNN算法的基本步驟為:(1)算距離:給定測(cè)試對(duì)象,計(jì)算它與訓(xùn)練集中的每個(gè)對(duì)象的距離;(2)找鄰近:圈定距離最近的K個(gè)訓(xùn)練對(duì)象,作為測(cè)試對(duì)象的鄰近;(3)做分類:根據(jù)這K個(gè)鄰近歸屬的主要類別,來(lái)對(duì)測(cè)試對(duì)象分類。

2 音樂(lè)情感與特征向量

2.1 音樂(lè)情感表達(dá)

本文研究的對(duì)象是流行音樂(lè)的歌詞與音樂(lè)情感的對(duì)應(yīng)關(guān)系,已有的研究成果表明,漢語(yǔ)情感詞匯主要分布在名詞、動(dòng)詞和形容詞中,本文根據(jù)查閱的相關(guān)資料,在已有的成果的基礎(chǔ)上,構(gòu)造了適用于本次實(shí)驗(yàn)的情感詞匯與類別對(duì)應(yīng)表。將感情分類積極和消極兩大情感大類,而其中又各細(xì)分了6類情感小類。詳見(jiàn)表1中的情感與形容詞的對(duì)應(yīng)關(guān)系。

2.2 特征向量

計(jì)算機(jī)無(wú)法直接處理文字、語(yǔ)言,必須通過(guò)一定的方法將文本形式的歌詞轉(zhuǎn)化為可以被計(jì)算機(jī)處理的形式化特征向量。利用向量空間模型,文本的數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問(wèn)題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問(wèn)題。

本文將歌詞的文檔以表示情感的特征詞用空間向量的形式表達(dá)出來(lái)特征向量表示為D=(t1,t2,…,tn),由于我們將情感細(xì)分為12小類,因此此處n的取值為12,即每個(gè)特征向量是12維的。另外,每一維表示某一文本中出現(xiàn)第i個(gè)小類中的形容詞的次數(shù)。例如,某首歌詞中出現(xiàn)了3次“笑容”,1次“甜蜜”,1次“溫馨”,對(duì)照表1,可以發(fā)現(xiàn)這幾個(gè)詞語(yǔ)都被歸納在第六個(gè)小類“快樂(lè)”這一情感中,因此對(duì)于這首歌詞的特征元素t6的計(jì)數(shù)值就為6。

當(dāng)?shù)玫揭皇赘柙~文本后,首先要使用特殊工具對(duì)其進(jìn)行分詞,將完整的詞句變?yōu)橐粋€(gè)個(gè)單詞,隨后通過(guò)手動(dòng)操作從中選取名詞、形容詞等富含情感因素的詞語(yǔ),第三步是將這些詞語(yǔ)和下表的情感類別詞匯對(duì)比,統(tǒng)計(jì)任意一首歌詞,對(duì)于每一個(gè)情感小類中的詞語(yǔ)出現(xiàn)的次數(shù),最終得到每首文本歌詞所對(duì)應(yīng)的特征向量。

表1 情感類別與詞匯對(duì)應(yīng)表

3 實(shí)驗(yàn)分析

3.1 總體設(shè)計(jì)

本方法主要有預(yù)處理和分類處理兩大部分。預(yù)處理部分主要將文本型的歌詞進(jìn)行分詞以及一系列相關(guān)的后序處理,最終得到相關(guān)的特征向量;而實(shí)際的分類處理,則是利用KNN算法,通過(guò)計(jì)算測(cè)試的未知樣本與已知的訓(xùn)練樣本之間計(jì)算歐式距離,以及排序比對(duì)等處理,以得到未知樣本所在的類別。主要可以細(xì)分為以下幾個(gè)步驟:

①使用ICTCLA2014對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞,表示出使用數(shù)據(jù)的特征詞;

②進(jìn)行特征項(xiàng)的選取,選擇歌詞中的帶有明顯情感特征的詞匯,形容詞、名詞和動(dòng)詞作為特征項(xiàng);

③詞頻統(tǒng)計(jì),統(tǒng)計(jì)所選特征項(xiàng)在所需分類歌詞中文檔中出現(xiàn)的次數(shù),將所有的歌詞文本(包括訓(xùn)練樣本以及測(cè)試樣本)轉(zhuǎn)換為特征向量;

④手動(dòng)將各個(gè)訓(xùn)練樣本的類別進(jìn)行標(biāo)注;

⑤利用KNN算法對(duì)各測(cè)試樣本進(jìn)行分類。

3.2 實(shí)驗(yàn)與結(jié)果分析

本次研究選用180首流音樂(lè)的中文歌詞。在180個(gè)實(shí)驗(yàn)數(shù)據(jù)中,有100首歌曲是情感類別已經(jīng)明確的訓(xùn)練樣本,而另外80首未標(biāo)注情感類別的歌詞文本作為測(cè)試樣本,主要用于對(duì)分類結(jié)果進(jìn)行觀察和分析驗(yàn)證分類方法的正確合理性。

對(duì)于使用KNN算法有兩個(gè)關(guān)鍵點(diǎn),一是特征向量之間的距離計(jì)算公式的選擇,其二是關(guān)于關(guān)鍵參數(shù)k的取值。首先,我們選擇最為常用的歐氏距離來(lái)度量?jī)蓚€(gè)向量之間的鄰近程度,計(jì)算公式為,d=。其中d為我們所求的距離,X=(x1,x2,…,xn)以及Y=(y1,y2,…,yn)為兩個(gè)特征向量,代表兩個(gè)歌詞文本。而對(duì)于k的選擇上,經(jīng)過(guò)反復(fù)實(shí)驗(yàn)對(duì)比k取值3的時(shí)候,分類的效果最佳。

根據(jù)前面所設(shè)計(jì)的方案,所選用的音樂(lè)歌詞具有明顯的情感特征,語(yǔ)料庫(kù)主要收集近10年的流行音樂(lè)。本次實(shí)驗(yàn)中,測(cè)試樣本為80首歌曲,表示積極和消極各40首,積極類歌曲分類正確39首,正確率97.5%,消極歌曲分類正確38首,正確率95%??梢钥闯觯蟛糠智闆r屬于分類正確,少部分的語(yǔ)料分類不正確。

4 結(jié)語(yǔ)

本文主要研究如何利用KNN算法對(duì)流行音樂(lè)的情感進(jìn)行簡(jiǎn)單的二值分類。文章首先探討了歌詞與音樂(lè)情感的關(guān)聯(lián),并借鑒文本處理的方法,將純粹文字記錄的歌詞通過(guò)分詞、詞頻統(tǒng)計(jì)等一系列的處理,變?yōu)榭捎?jì)算的特征向量;并且在此基礎(chǔ)上使用KNN分類算法,對(duì)于流行音樂(lè)中的情感進(jìn)行了二值分類。通過(guò)實(shí)驗(yàn)結(jié)果的相關(guān)數(shù)據(jù)可以看出,該方法能夠得到較高的準(zhǔn)確率與覆蓋率。

根據(jù)情感分類的方法在音樂(lè)信息檢索中有著重要的作用,同時(shí)也對(duì)理論的研究和應(yīng)用有著巨大的價(jià)值。還有很多知識(shí)和理論值的我們?nèi)ヌ剿魅W(xué)習(xí)。雖然歌詞與音樂(lè)情感有著很大的關(guān)聯(lián),但是旋律本身對(duì)于情感的體現(xiàn)也尤為重要,我們將在未來(lái)的研究中更著重旋律對(duì)于音樂(lè)情感的影響,并結(jié)合歌詞做進(jìn)一步的音樂(lè)情感分類研究。

[1]Feng Y Z,Zhuang Y T,Pan Y H.Music Information Retrieval by Detecting Mood Via Computational Media Aesthetics[C].Proceedings of the IEEE International Conference on Web Intelligence.Beijing,China,2003:235-241.

[2]童卡娜.基于音樂(lè)聯(lián)覺(jué)的聽(tīng)覺(jué)金制度識(shí)別模型與算法研究[D].長(zhǎng)沙:中南大學(xué)碩士學(xué)位論文,2007.

[3]Umapathy K,Krishnan S,Jimaa S.Multigroup Classification of Audio Signals Using Time-Frequency Parameters[J].IEEE Trans.on Multimedia,2005,7(2):308-315.

[4]Ogihara M.Content-Based Music Similarity Search and Emotion Detection[C].Proceedings on 2004 IEEE International Conference on Acoustics,Speech and Signal Processing,F(xiàn)airmont Queen Elizabeth Hotel,Montreal,Quebec,Canada,2004:17-21.

[5]Wang M.User-Adaptive Music Emotion Recognition[C].IEEE Transactions on Audio,Speech and Language Processing,2008,16(2): 448-457.

[6]Liu D,Lu L,Zhang HJ.Automatic Mood Detection from Acoustic Music Data[C].Proceedings of the 4th International Conference on Music Information Retrieval.Baltimore,Maryland,USA:Johns Hopkins University,2003.

Research on Binary Classification of the Emotion of Pop Music on Lyric

JIANG Min-jun

(School of Computer Science and Information Engineering,Shanghai Institute of Technology,Shanghai 201418)

Focuses on how to retrieve massive musical information on internet efficiently based on the emotions of different music,by using the techniques of text processing and KNN algorithm,it is possible to discover important information from pop music.Uses text processing method for reference to transform lyrics of music into feature vectors,applies KNN algorithm to classify musical emotion into two different categories.The proposed method is proved effective and correct by the experiments.

Classification of the Emotion of Music;Pop Music;Lyric Text Processing;KNN Algorithm

上海應(yīng)用技術(shù)學(xué)院引進(jìn)人才基金資助項(xiàng)目(No.YJ2011-69)

1007-1423(2016)35-0055-04

10.3969/j.issn.1007-1423.2016.35.011

蔣旻雋(1981-),女,上海人,講師,博士,研究方向?yàn)槿斯ぶ悄?/p>

2016-11-01

2016-12-01

猜你喜歡
特征向量流行音樂(lè)類別
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
流行音樂(lè)里的新國(guó)潮
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
創(chuàng)新精神對(duì)流行音樂(lè)的作用
多棱鏡中的流行音樂(lè)——兩岸四地“流行音樂(lè)文化高層論壇”述略
服務(wù)類別
和流行音樂(lè)有個(gè)約會(huì)
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
宜城市| 德令哈市| 麻城市| 铅山县| 淮南市| 永和县| 连山| 陵川县| 阳朔县| 多伦县| 炎陵县| 绥阳县| 阿克陶县| 霍邱县| 钟祥市| 宜州市| 西充县| 绥阳县| 松阳县| 宝应县| 霍山县| 荥阳市| 南昌市| 漠河县| 栾城县| 红原县| 盱眙县| 彭山县| 嘉荫县| 桐梓县| 临海市| 六盘水市| 凌源市| 丹巴县| 台中市| 连城县| 子洲县| 卢湾区| 泗阳县| 新绛县| 融水|