国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感主題的音樂分類研究

2019-10-11 11:24張宏阮澤楠
軟件導(dǎo)刊 2019年7期
關(guān)鍵詞:情感分析

張宏 阮澤楠

摘 要:為確定歌詞隱含的情感主題對音樂分類的作用,在傳統(tǒng)主題模型中融入情感、語義元素,定義基于情感主題的音樂分類標(biāo)準(zhǔn)并進(jìn)行音樂分類。結(jié)合文本情感詞典、Word2vec詞向量空間,將主題模型的基礎(chǔ)主題進(jìn)一步歸類為情感主題,并通過爬取網(wǎng)易云音樂歌曲信息進(jìn)行模型訓(xùn)練及測試。實驗證明,該模型具有較好的分類效果,對音樂情感分類平均準(zhǔn)確率達(dá)到80%。

關(guān)鍵詞:音樂分類;情感分析;主題模型;Word2vec;LDA

DOI:10. 11907/rjdk. 182780 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)007-0015-04

Music Classification Research Based on Emotion Topic

ZHANG Hong, RUAN Ze-nan

(School of Economics and Management, Zhejiang Sci-tech University, Hangzhou 310018, China)

Abstract: In order to identify the role of the emotional topic implicit in the lyrics on music classification, this paper incorporates emotion and semantic elements into the traditional topic model to define music classification criteria based on emotional topic and classify music. Combining the text sentiment dictionary and the Word2vec, the basic topics in the topic model are further classified into some emotional topics, and the model is trained and tested by crawling the song information of Netease cloud music. The experiment proves that the model has a good effect, and the average accuracy rate of music emotion classification reaches 80%.

Key Words: music classification; sentiment analysis; topic model; Word2vec; LDA

基金項目:國家社會科學(xué)基金項目(15BSH107)

作者簡介:張宏(1978-),女,博士,浙江理工大學(xué)經(jīng)濟(jì)管理學(xué)院教授、碩士生導(dǎo)師,研究方向為戰(zhàn)略管理、企業(yè)社會責(zé)任、數(shù)據(jù)營銷;阮澤楠(1993-),男,浙江理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士研究生,研究方向為文本挖掘與情感分析。

0 引言

互聯(lián)網(wǎng)與多媒體系統(tǒng)中音樂數(shù)據(jù)庫激增,帶來了對音樂信息檢索(MIR)應(yīng)用的巨大需求,尤其是音樂數(shù)據(jù)庫實現(xiàn)自動分析的需求[1]。歌名、作者、歌詞、流派及用戶評論等元數(shù)據(jù)通常用于分類與檢索音樂作品[2-4]。傳統(tǒng)手動分類方法是一項高度勞動密集型的工作,且時間與金錢成本較高。另一方面,由于音樂樂理中關(guān)于情緒維度及其誘發(fā)機(jī)制的研究尚存爭論[5-6],導(dǎo)致音樂分類類型定義存在歧義。手動分類往往因?qū)嵺`的任意性致使分類結(jié)果受主觀因素影響較大,尤其是密切相關(guān)的類型間有時存在分類重疊現(xiàn)象。因此,面對日益增長的大型集合時,必須借助高效的分類系統(tǒng)對音樂進(jìn)行分類與描述[7]。

歌曲是旋律同文字的結(jié)合,其中旋律可感染情緒,語言可進(jìn)行具體陳述,兩者相輔相成[8]。目前在音樂分類研究中歌詞等文本屬性的關(guān)注度較小,且相關(guān)研究欠缺情感、語義等元素的融入?;ヂ?lián)網(wǎng)音樂的興起為大量音樂歌詞文本的采集提供了便捷途徑。中文音樂平臺主要有QQ音樂、蝦米音樂、酷狗音樂、網(wǎng)易云音樂等眾多平臺,其中網(wǎng)易云音樂擁有最大數(shù)量的優(yōu)質(zhì)用戶,尤其是中高學(xué)歷的用戶,其用戶定義的歌單情感標(biāo)簽相對更具有準(zhǔn)確性。

1 音樂分類研究現(xiàn)狀

音樂分類系統(tǒng)往往基于統(tǒng)計或機(jī)器學(xué)習(xí)等方法對音樂進(jìn)行類型分類,在具有高效、準(zhǔn)確等優(yōu)點的同時,還能避免傳統(tǒng)分類因標(biāo)準(zhǔn)不一導(dǎo)致的類型歧義。在音樂分類器的構(gòu)建中常用基本模型主要有神經(jīng)網(wǎng)絡(luò)模型(尤其是BP神經(jīng)網(wǎng)絡(luò))[9-11]、支持向量機(jī)(SVM)[12]、邏輯回歸、隨機(jī)森林模型等。高林杰和張明等[12]提出一種基于熵與支持向量機(jī)的音樂分類方法,利用濾波器組將音樂片段分解為不同通道,通過離散傅里葉變換將其轉(zhuǎn)換為頻譜,再使用結(jié)合信息熵的支持向量機(jī)訓(xùn)練、測試包含4類音樂的數(shù)據(jù)集,研究結(jié)果中最高分類精度達(dá)到80%。另外一些使用BP神經(jīng)網(wǎng)絡(luò)的學(xué)者也獲得了較高的正確分類率[9-11]。

許多學(xué)者在研究中使用音樂旋律特征的音高、音長、音色、速度、力度等作為音樂本體表征,而音樂本體特征由于音樂領(lǐng)域認(rèn)知尚存在諸多爭端,因此有學(xué)者聚焦于音樂文本信息(如歌名、歌詞及音樂對應(yīng)的用戶評論等),通過文本挖掘的方法進(jìn)行音樂情感分析。An等[13]通過以文本形式的歌詞作為音樂特征,用貝葉斯分類模型對音樂情緒進(jìn)行分類判別,最終精確度接近68%。Dakshina[14]使用LDA主題模型對音樂歌詞進(jìn)行情緒主題分析,從而實現(xiàn)音樂分類,其分類準(zhǔn)確率達(dá)72%。以上基于文本的音樂分類,大多根據(jù)文本信息概率分布特征進(jìn)行研究,忽略了文本數(shù)據(jù)體現(xiàn)的情感、語義信息。

2 融合情感、語義的主題模型設(shè)計

傳統(tǒng)主題模型LDA(Latent Dirchlet Allocation)[15]基于文檔—主題—詞語間的條件概率分布,挖掘文檔語料的潛在主題,其結(jié)果本質(zhì)是詞語組合概率,而未能體現(xiàn)文本在情感、語義上的關(guān)聯(lián)特征。通過賦予概率主題情感、語義特征,能夠更準(zhǔn)確地定義音樂作品類別,解決傳統(tǒng)類別定義的歧義糾紛,對音樂作品進(jìn)行更準(zhǔn)確的自動分類。

2.1 情感空間主題分布

將情感元素融入概率主題,主要聚焦于各主題分布下的詞組合,結(jié)合外部情感傾向詞典將詞組合(即主題)情感量化。一種可行的情感詞典是通過種子詞與搜索引擎的詞共現(xiàn),對大量正向(情感值>0)、負(fù)向(情感值<0)詞語進(jìn)行情感傾向度標(biāo)記,并存儲為以詞—情感傾向度作為鍵值對的詞典[16]。融入詞語的情感傾向度后,原基于概率分布的各主題也對應(yīng)特定的情感值,從而能在情感維度上實現(xiàn)情感大類區(qū)分。具體結(jié)構(gòu)流程如圖1所示。

圖1 主題情感化結(jié)構(gòu)

其中,主題詞在情感詞典獲得情感值時所賦的權(quán)值變量被定義為主題—詞分布中各詞語的概率[Pij](即LDA模型定義中[P(w/t)]),則:

[iPti=Pt1+Pt2+?+Ptn=1]? (1)

其中,[t]為某一主題,[i]為主題[t]下的某個詞語,[n]為語料總詞數(shù)。此時,結(jié)合情感詞典中詞語[i]對應(yīng)的情感傾向度[Vi],某個主題[t]的情感度[Vt]定義為:

[Vt=iPti×Vi]? (2)

2.2 語義空間主題分布

借助Word2vec[17]詞向量,文本概率主題可在語義向量空間中表現(xiàn)出深層次的關(guān)系。實現(xiàn)主題向量化,首先通過訓(xùn)練成熟的Word2vec模型給出語料庫所有[n]個詞語的空間向量表示,其中第[i]個詞[wi]被描述為:

[wi=[ai1,ai2,ai3?ain]]? (3)

則針對某一主題[t]的向量空間描述[Wt]為:

[Wt=iPti×wi]? (4)

在語義空間中,歌詞中隱含的主題可被進(jìn)一步歸納為語義區(qū)分度上的系列類別,圖2展示了歌詞概率主題在空間向量上的分布(以二維空間為例)。

圖2 語義向量空間主題分布

語義空間的兩個主題向量,通過計算其余弦相似度可衡量兩者相似程度。余弦相似度[18](cosine,又稱余弦距離)是兩個空間向量之間的夾角(夾角余弦),向量夾角(夾角余弦值)越小,向量指向越接近,其負(fù)載的上層信息內(nèi)容相似度越高。向量[X=(X1,X2,?,Xi)],[Y=(Y1,Y2,?,Yi)],則:

[COS(θ)=?i=1n(Xi×Yi)i=1n(Xi)2?×i=1n(Yi)2??]? (5)

由余弦距離定義的概率主題間語義相似度可依次獲得各主題間相似匹配的二元組合(如圖2正中間組合)、三元組合(如圖2左下、右上組合)以及更高元的組合,該過程體現(xiàn)了傳統(tǒng)關(guān)聯(lián)規(guī)則算法(如Apriori)[19-20]的處理思想。

2.3 模型框架

模型整體流程主要分為4層,分別包括音樂歌詞預(yù)處理(分詞、去噪、同類詞合并等)、主題概率分布、主題情感語義分配及對新音樂的分類判斷。整體流程如圖3所示。

圖3 融合情感、語義的主題模型框架

(1)歌詞預(yù)處理部分主要為后續(xù)步驟提供適當(dāng)?shù)臄?shù)據(jù)格式。首先通過定向爬蟲采集歌曲、歌詞信息;其次對爬取的歌詞文本進(jìn)行分詞,并去除信息量極低的無關(guān)詞語;最后包裝數(shù)據(jù)結(jié)構(gòu),主要為原歌曲本體信息與歌詞預(yù)處理結(jié)果的映射關(guān)系。

(2)以上述獲得的詞語集合為語料,進(jìn)行LDA 主題模型基礎(chǔ)訓(xùn)練,獲得音樂歌詞基于文檔—主題—詞概率分布下的基礎(chǔ)類別。

(3)結(jié)合情感詞典,刻畫基礎(chǔ)主題的情感傾向,將基礎(chǔ)類別進(jìn)行情感大類劃分;在各情感大類下,通過關(guān)聯(lián)規(guī)則[20]將基礎(chǔ)主題根據(jù)語義向量空間上的余弦距離進(jìn)一步劃分為不同語義群的類別。

(4)結(jié)合情感與語義的主題分類,最終給出一套嚴(yán)格定義的音樂分類標(biāo)準(zhǔn)。以訓(xùn)練完成的模型結(jié)合分類標(biāo)準(zhǔn),對新音樂作品進(jìn)行類別判斷。

3 實證研究

本文使用Python編寫爬蟲腳本,爬取網(wǎng)易云音樂網(wǎng)站情感類別下快樂、悲傷及平靜風(fēng)格各2萬首歌曲信息(不重復(fù))及歌曲對應(yīng)的歌詞,原始儲存數(shù)據(jù)分為3類,共6萬行,其中歌詞字段是本文研究的主要內(nèi)容,最終存儲的數(shù)據(jù)結(jié)構(gòu)如表1實例所示。

研究使用的詞向量工具是Python版本的Gensim框架實現(xiàn)Word2vec與LDA,其中Word2vec訓(xùn)練語料主要來自中文維基百科語料,語料文本大小約為1G。

通過困惑度確定LDA主題,困惑度(perplexity)[21]可度量一個概率分布或概率模型預(yù)測樣本的優(yōu)劣程度,低困惑度的概率分布模型或概率模型能更好地預(yù)測樣本[22]。計算每個備選主題數(shù)(0~100)下的綜合困惑度,主題數(shù)—困惑度分布結(jié)果如圖4所示。

圖4 不同主題數(shù)的困惑度分布

綜合考慮困惑度與主題數(shù)目,將最優(yōu)主題數(shù)確定為[k=50],從歌詞中挖掘獲得50個基礎(chǔ)主題。按概率大小取每個主題前10個主題關(guān)鍵詞。表2展示了部分主題與該主題下關(guān)鍵詞分布。

表2 部分主題與關(guān)鍵詞

為構(gòu)建模型適用的情感詞典,本文收集了知網(wǎng)Hownet情感詞典、臺灣大學(xué)NTUSD簡體中文情感詞典、清華大學(xué)李軍中文褒貶義詞典等眾多情感詞典并整理匯總,作為項目中詞語情感值的標(biāo)度(對于未收錄在詞典中的詞語,本文作為中性詞判斷,情感值以0計入),情感詞典最終共包含正負(fù)向情感詞語共計65 900個。

通過融合情感、語義的主題模型,最終將網(wǎng)易云音樂獲取的6萬首歌曲,根據(jù)歌詞的情感語義主題劃分為3大類15個小類。在檢驗訓(xùn)練模型對新歌曲的分類能力時,考慮到有歌曲類別來自網(wǎng)易云音樂情感標(biāo)簽,為減少定義歧義,本文選取快樂、悲傷兩類各1 000首新歌作為測試集,模型分類結(jié)果平均準(zhǔn)確率80%,綜合多次結(jié)果繪制受試者工作特征曲線(Receiver Operating Characteristic Curve,又稱ROC曲線),如圖5所示,曲線下面積0.8, ROC曲線表現(xiàn)較好。

圖5 分類結(jié)果受試者曲線

4 結(jié)語

本文通過在LDA主題模型中融入情感與語義元素,構(gòu)建基于情感主題的音樂分類模型,首先針對音樂歌詞進(jìn)行情感主題的類別判定,并用以進(jìn)行音樂情感分類。將網(wǎng)易云音樂的大量音樂信息作為本文模型訓(xùn)練及測試數(shù)據(jù),實驗結(jié)果表明,融合情感語義的主題模型在音樂類別定義及音樂分類中均有較好的效果,準(zhǔn)確率達(dá)到80%。融合情感語義的分類方法,不僅能很好地提升音樂分類的實際效率,還可為相關(guān)理論研究提供思路。此外,針對研究中情感詞典構(gòu)建、語義空間準(zhǔn)確度的提升,有待后期進(jìn)一步研究。

參考文獻(xiàn):

[1] XIONG S,WANG K,JI D,et al. A short text sentiment-topic model for product reviews[J]. Neurocomputing,2018,10: 1016.

[2] 趙偉. 基于BP神經(jīng)網(wǎng)絡(luò)的音樂情感分類及評價模型[J]. 電子設(shè)計工程,2015(8):71-74.

[3] DANAHER B,TELANG R. An empirical analysis of digital music bundling strategies[J]. SSRN Electronic Journal,2014,60(6): 1413-1433.

[4] 陳維華. 基于支持向量機(jī)(SVM)的音樂情感分類[J]. 軟件工程,2016,19(12):20-23.

[5] 鐘啟文. 近年關(guān)于音樂心理反應(yīng)的研究綜述[J]. 藝海,2017,(6): 50-53.

[6] 張浩. 論情緒和情感及其在認(rèn)識中的功能——主體認(rèn)識結(jié)構(gòu)中的非理性要素研究[J]. 廣東社會科學(xué),2006,(6): 78-84.

[7] KIM Y E, SCHMIDT E M, MIGNECO R, et al. Music emotion recognition: a state of the art review[C]. International Symposium on Computer Music Modeling and Retrieval, 2012:171-196.

[8] 蔡振家. 音樂情緒跟音樂認(rèn)知的關(guān)系:美學(xué)與心理學(xué)的對話[J]. 星海音樂學(xué)院學(xué)報,2013(2): 120-127.

[9] 鐘佳穎. 基于BP神經(jīng)網(wǎng)絡(luò)的音樂情感分類模型研究[J]. 數(shù)字化用戶,2017,23(41):22-23.

[10] 趙偉. 基于BP神經(jīng)網(wǎng)絡(luò)的音樂情感分類及評價模型[J]. 電子設(shè)計工程,2015(8): 71-74.

[11] 劉明星. 基于BP神經(jīng)網(wǎng)絡(luò)的音樂分類模型[J]. 現(xiàn)代電子技術(shù), 2018(5):136-139.

[12] 高林杰, 張明. 基于熵和支持向量機(jī)的音樂分類方法[J]. 計算機(jī)系統(tǒng)應(yīng)用,2014,23(5):83-88.

[13] AN Y,SUN S,WANG S. Naive Bayes classifiers for music emotion classification based on lyrics[C]. IEEE/ACIS International Conference on Computer & Information Science,2017:635-638.

[14] DAKSHINA K, SRIDHAR R. LDA based emotion recognition from lyrics[C]. Proceedings of the Second International Conference on Advanced Computing, Networking and Informatics,2014:187-194.

[15] YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts [C]. Proceedings of the 22nd international conference on World Wide Web, 2013: 1445-1456.

[16] 陽愛民,林江豪,周詠梅. 中文文本情感詞典構(gòu)建方法[J]. 計算機(jī)科學(xué)與探索,2013,7(11): 1033-1039.

[17] RONG X. Word2vec parameter learning explained[DB/OL]. https://arxiv.org/pdf//411.2738v2.pdf.

[18] 彭凱, 汪偉, 楊煜普. 基于余弦距離度量學(xué)習(xí)的偽K近鄰文本分類算法[J]. 計算機(jī)工程與設(shè)計,2013,34(6): 2200-2203.

[19] INOKUCHI A,WASHIO T,MOTODA H. An Apriori-based algorithm for mining frequent substructures from graph data[C]. European Conference on Principles of Data Mining and Knowledge Discovery,2000:13-23.

[20] XU Y, LI Y, SHAW G. Reliable representations for association rules[J]. Data & Knowledge Engineering, 2011,70(6): 555-575.

[21] 何天文,王紅. 基于語義語法分析的中文語句困惑度評價[J]. 計算機(jī)應(yīng)用研究,2017(12): 3538-3542.

[22] 關(guān)鵬,王曰芬. 科技情報分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 現(xiàn)代圖書情報技術(shù),2016,32(9): 42-50.

(責(zé)任編輯:江 艷)

猜你喜歡
情感分析
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
在線評論情感屬性的動態(tài)變化
温州市| 诸暨市| 武鸣县| 增城市| 长乐市| 眉山市| 山西省| 万山特区| 江阴市| 京山县| 昭苏县| 澎湖县| 射阳县| 龙门县| 崇州市| 鄯善县| 新竹市| 乐都县| 社会| 巍山| 合山市| 邓州市| 昔阳县| 资阳市| 莆田市| 新竹县| 昌江| 永城市| 庆安县| 丁青县| 南城县| 科尔| 芮城县| 鄢陵县| 丹棱县| 广宗县| 瑞昌市| 原阳县| 张家港市| 繁峙县| 拜城县|