国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于位置權(quán)重的歌詞情感分析

2018-02-12 12:24杜敦英竹翠朱文軍趙楓朝
軟件導(dǎo)刊 2018年12期
關(guān)鍵詞:支持向量機(jī)

杜敦英 竹翠 朱文軍 趙楓朝

摘要:結(jié)合目前從音頻和歌詞角度對(duì)歌曲情感分析的研究以及歌詞文本獨(dú)有特點(diǎn),提出一種基于文本標(biāo)題與位置權(quán)重相結(jié)合的歌詞情感分析方法。該方法考慮到出現(xiàn)在不同位置的特征詞權(quán)值對(duì)于歌詞分類的影響程度,采用層次分析法計(jì)算文本標(biāo)題、歌詞文本前、中、后不同位置特征詞的位置權(quán)重。通過(guò)樸素貝葉斯、最大熵模型、支持向量機(jī)等不同分類器的訓(xùn)練實(shí)現(xiàn)歌曲快樂(lè)、傷感、安靜、激昂4種情感分類。實(shí)驗(yàn)表明,加入文本標(biāo)題與位置權(quán)重后的最優(yōu)F1值相比之前提升了4個(gè)百分點(diǎn),證明了該方法在提升歌詞情感分類性能方面的有效性。

關(guān)鍵詞:歌詞情感分析;情感分類;樸素貝葉斯;最大熵模型;支持向量機(jī);位置權(quán)重

Research on Lyric Sentiment Analysis Based on Position Weight

DU Dun?ying,ZHU Cui,ZHU Wen?jun,ZHAO Feng?chao

(Department of Informatics,Beijing University of Technology,Beijing 100124,China)

Abstract:Combining the current research on emotional analysis of songs from the perspective of audio and lyrics and the unique characteristics of lyrics text,we propose a method on lyrics sentiment analysis which is based on the text title and position weight.The algorithm takes into account of the influence degree of the feature words appearing in different positions on the classification of the songs. AHP is used to calculate the position weights of the text title, the front, middle and back of the text in different positions and trained by the NB, ME, SVM different classifier ,songs are finally divided into four emotional classification including happiness, sadness, quietness and passion. Experiments show that the optimal F1 value after adding the text title and position weight is increased by 4 percentage points, which proves the effectiveness of this method in enhancing the performance of lyric sentiment classification.

Key Words:lyric sentiment analysis; sentiment classification;NB;ME;SVM; position weight

0?引言

隨著人工智能、模式識(shí)別技術(shù)的飛速發(fā)展和人民生活品質(zhì)的提高,音樂(lè)成為生活中必不可少的交流媒介之一。音樂(lè)通常蘊(yùn)含豐富的情感,由于信息檢索系統(tǒng)及音樂(lè)推薦系統(tǒng)的需要,情感分類技術(shù)[1?4]應(yīng)運(yùn)而生并成為當(dāng)今研究熱點(diǎn)。

歌曲可以通過(guò)演唱風(fēng)格、音樂(lè)編曲形式、歌詞等多角度表達(dá)歌曲情感。歌曲情感分類研究主要基于音頻分析[5]、歌詞分析以及兩者相結(jié)合的研究形式。對(duì)于一首廣為流傳的歌曲,副歌部分往往傳唱度最高,強(qiáng)烈的情感從該處體現(xiàn),因此每首歌不同詞的位置對(duì)于整首歌曲情感的表達(dá)有重要作用。本文將歌詞文本分為開(kāi)頭、中間、結(jié)尾3個(gè)部分以區(qū)分不同位置的特征詞,然后結(jié)合標(biāo)題與歌詞文本開(kāi)頭、中間、結(jié)尾4個(gè)不同位置,通過(guò)計(jì)算位置因子,采用不同分類模型融合探究歌詞情感分類問(wèn)題。

1?相關(guān)研究

目前,對(duì)歌曲情感的分類研究大都從音頻和歌詞的角度進(jìn)行分析,在音頻研究中,常見(jiàn)通過(guò)從音樂(lè)節(jié)奏、旋律音頻數(shù)據(jù)中提取相關(guān)情感特征進(jìn)行歌曲情感分析。Lee J Y等[6]在2014年提出基于音樂(lè)高光檢測(cè)的音樂(lè)情感分類方法,應(yīng)用高斯混合模型和AdaBoost算法,將節(jié)奏特征與音色特征相結(jié)合并基于音樂(lè)高光片段改善音樂(lè)情感分類性能。2015年,趙偉[7]以多音軌角度為出發(fā)點(diǎn),提取聲學(xué)5個(gè)方面的特征,利用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行100多次訓(xùn)練,最后將音樂(lè)情感分為8個(gè)類別,在給定誤差范圍內(nèi)準(zhǔn)確率大于90%,取得了較好效果。2017年,Lin 等[8]提出基于two-level的支持向量機(jī)模型的音樂(lè)情感識(shí)別系統(tǒng),以二分法為每個(gè)音樂(lè)剪輯分配一個(gè)情感類別,將流行、搖滾、爵士、藍(lán)調(diào)等不同類型的音樂(lè)進(jìn)行快樂(lè)、悲傷、平靜、憤怒4種類別的情感分類,也取得了不錯(cuò)的效果。在歌詞研究方面,2008年He 等[9]著眼于如何在歌詞本文中提取有意義的語(yǔ)言特征以輔助進(jìn)行音樂(lè)情感分類,在著名的n-gram語(yǔ)言模型框架下,提出了3種預(yù)處理方法和一系列具有不同階數(shù)的語(yǔ)言模型以提取更多的語(yǔ)義特征。王靜[10]在基于歌詞的音樂(lè)情感分析中采用ME、SVM、LDA 3種分類模型研究歌詞對(duì)情感分類的影響。Turney[11]提出了無(wú)監(jiān)督學(xué)習(xí)逐點(diǎn)互信息情感分類方法,通過(guò)把每篇文本中的所有具有情感傾向的短語(yǔ)的情感傾向值相加,根據(jù)平均情感傾向判斷文本整體情感傾向。夏云慶等[12]提出基于情感向量空間模型的歌詞情感分析方法,該模型考慮了特征定義中的情感單元,采用更具有區(qū)分性的支持向量進(jìn)行歌曲情感分類研究,結(jié)果顯示基于文本的方法比基于音頻的方法更有效[13]。在結(jié)合歌詞分析與音頻分析的研究中,2011年,孫向琨[14]提出基于向量夾角的多標(biāo)記k近鄰算法,將該方法與TF-IDF算法結(jié)合,以情感詞多義性為研究對(duì)象進(jìn)行音樂(lè)情感分類研究。2012年,程一峰[15]提出基于TF-IDF音頻和歌詞特征融合模型的音樂(lè)情感分析研究,首先利用單一模態(tài)的歌詞特征對(duì)音樂(lè)進(jìn)行情感分析,再通過(guò)融合歌詞和音頻兩種模態(tài),構(gòu)建SVM分類器進(jìn)行音樂(lè)情感分析。2017年,Abburi等[16]演示了一種使用歌詞和音頻信息提取歌曲情感的方法,研究發(fā)現(xiàn)通過(guò)整首歌曲表現(xiàn)情感的情況非常少見(jiàn),因?yàn)橥暾母枨鷮嗔钊死Щ蟮男畔ⅲㄌ卣鳎?,而在音頻方面,一首歌曲的前30秒對(duì)于檢測(cè)歌曲的情感比歌曲的最后30秒或從整首歌曲中獲得的效果都好。

以上研究思路都未考慮特征詞位置信息這一重要因素。歌詞文本不同于微博短文本、淘寶評(píng)論等文本,歌詞文本的明顯特征是文本中有重復(fù)特征詞,特別是副歌部分,往往含載了豐富的情感,所以不同特征詞的位置對(duì)情感分類具有影響。因此從文本角度出發(fā),采用樸素貝葉斯、最大熵模型、支持向量機(jī)3種模型研究特征詞位置對(duì)歌詞情感分析的影響。

2?算法框架與原理

2.1?歌詞情感分析流程

在了解中文文本分類方法基本原理和相關(guān)技術(shù)并明確中文文本分詞的基礎(chǔ)上,進(jìn)行歌詞情感分析,流程包括:①通過(guò)基于方差的卡方檢驗(yàn)CHI進(jìn)行合理的特征選擇,以挑選出有效的、能夠表達(dá)情感的詞匯作為研究特征項(xiàng);②詳細(xì)分析中文歌詞與情感的關(guān)系,結(jié)合CHI構(gòu)建適用于本研究的情感詞匯表;③引入位置因子概念表示該位置特征詞對(duì)情感分類的影響程度,基于TF-IDF算法采用統(tǒng)計(jì)的方法,對(duì)特征詞進(jìn)行詞頻統(tǒng)計(jì),并結(jié)合位置因子計(jì)算各特征詞位置權(quán)重;④在純歌詞文本加上文本標(biāo)題并結(jié)合位置權(quán)重的基礎(chǔ)上依次進(jìn)行遞進(jìn)實(shí)驗(yàn),采用NB、ME、SVM訓(xùn)練多個(gè)二值分類器,并基于投票機(jī)制確定歌詞最終的情感類別。

歌詞情感分析整體架構(gòu)如圖1所示。

圖1?歌詞情感分析流程

2.2?樸素貝葉斯算法

樸素貝葉斯算法(Naive Bayes,NB)是基于貝葉斯定理與特征條件獨(dú)立性假設(shè)的分類方法[17]。隨機(jī)變量X表示輸入特征向量,隨機(jī)變量Y表示輸出類別標(biāo)簽,給定訓(xùn)練數(shù)據(jù)集:

其中,?x?i=(x(1)?i,x(2)?i,…,x(n)?i)表示第i個(gè)樣本有n維,y?i={c?1,c?2,…,c?k}表示共有k個(gè)類別。

計(jì)算訓(xùn)練集所有樣本中每個(gè)類別的先驗(yàn)概率:

對(duì)每個(gè)特征屬性取值,分別計(jì)算所屬類別條件概率:

其中,x(j)?i表示第i樣本中的第j個(gè)特征;a?jl表示第j個(gè)特征可能取的第l個(gè)值;I是一個(gè)指示函數(shù)。

對(duì)于未知標(biāo)簽的數(shù)據(jù)樣本,通過(guò)學(xué)習(xí)到的模型計(jì)算后驗(yàn)概率分布,設(shè)x=(x(1),x(2),…,x(n))?T?,則:

因分母對(duì)所有?C?k?相同,可省略,將后驗(yàn)概率最大的類作為當(dāng)前文本情感類別:

當(dāng)概率值為0時(shí)會(huì)對(duì)后驗(yàn)概率計(jì)算結(jié)果造成偏差,影響最終分類性能,因此在實(shí)驗(yàn)計(jì)算過(guò)程中引入拉普拉斯平滑的貝葉斯估計(jì)方法解決該問(wèn)題。

2.3?最大熵模型

最大熵原理由Jaynes提出,他認(rèn)為在學(xué)習(xí)概率模型時(shí),在所有可能的概率模型分布中,熵最大的模型為最佳模型。其中熵又稱為自信息,是衡量一個(gè)隨機(jī)變量的不確定性指標(biāo)。隨機(jī)變量熵值越大,表示不確定性越大。如果X是一個(gè)離散型隨機(jī)變量,取值空間為?R,其概率分布為P(X=x?i)=p?i,i=1,2,…,N,則X熵H(p)定義為:

最大熵模型(Maximum Entropy Model,ME)是基于最大熵原理提出的,學(xué)習(xí)目標(biāo)是用最大熵原理選擇最好的分類模型[17]。最大熵分類尋找一個(gè)關(guān)于p(y|x)的模型,使模型在滿足相關(guān)約束條件下,使條件熵最大。ME的學(xué)習(xí)過(guò)程是求解最大熵模型的過(guò)程,對(duì)于給定的訓(xùn)練數(shù)據(jù)集?T={(x?1,y?1),(x?2,y?2),…,(x?N,y?N)}(其中x?i為訓(xùn)練樣本,y?i為樣本x?i類別)以及特征函數(shù)fi(x,y),i=1,2,…,n?,ME的學(xué)習(xí)可以形式化為約束最優(yōu)化問(wèn)題。

為簡(jiǎn)化問(wèn)題求解,通過(guò)構(gòu)造拉格朗日函數(shù)將帶約束的原始問(wèn)題轉(zhuǎn)換為無(wú)約束的最優(yōu)化對(duì)偶問(wèn)題,求解出ME一般形式。

2.4?支持向量機(jī)

支持向量機(jī)(Support Vector Machine,SVM)是經(jīng)典機(jī)器學(xué)習(xí)算法處理分類問(wèn)題時(shí)使用最廣泛的機(jī)器學(xué)習(xí)模型之一,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出獨(dú)特優(yōu)勢(shì)。SVM的基本思想是在向量空間中尋找一個(gè)分類超平面,超平面需讓所有樣本點(diǎn)中距離超平面最近的訓(xùn)練樣本點(diǎn)具有最大幾何間隔,從而使超平面具有唯一性[17]。利用該平面對(duì)兩類數(shù)據(jù)進(jìn)行正確劃分,給定數(shù)據(jù)集為:

其中?x?i?∈R?n,y?i∈{-1,+1},i=1,2,3,…,N。

尋找?guī)缀伍g隔最大的超平面可以表示為帶約束的最優(yōu)化問(wèn)題。

其中γ表示最大化超平面關(guān)于訓(xùn)練集的幾何間隔,約束條件表示超平面關(guān)于每個(gè)訓(xùn)練樣本點(diǎn)的幾何間隔至少是γ。通過(guò)函數(shù)間隔與幾何間隔γ=/‖w‖的關(guān)系,取=1,最大化1/‖w‖等價(jià)于最小化‖w‖?2/2,使最優(yōu)化問(wèn)題變?yōu)椋?/p>

線性可分支持向量機(jī)最優(yōu)化問(wèn)題,以它作為原始最優(yōu)化問(wèn)題,應(yīng)用拉格朗日對(duì)偶性引入拉格朗日乘子?α?構(gòu)造拉格朗日函數(shù),其中最優(yōu)化問(wèn)題變?yōu)椋?/p>

通過(guò)SMO算法求得最優(yōu)解,然后計(jì)算:

最后求得“最大間隔”超平面為:

分類決策函數(shù)為:

2.5?CHI特征選擇方法

卡方檢驗(yàn)CHI[18]是一種常用的特征選擇方法,假設(shè)特征詞?t與類別c相互獨(dú)立,通過(guò)觀察理論值與實(shí)際值的偏差確定假設(shè)是否正確,以此度量特征詞t與類別c的相關(guān)程度。二者之間的卡方值計(jì)算公式為:

其中參數(shù)N為數(shù)據(jù)集中歌詞文本總數(shù),A為包含特征詞t且屬于類別c的文本數(shù),B為包含特征詞t但不屬于類別c的文本數(shù),C為不含特征詞t但屬于類別c的文本數(shù),D為不含特征詞t且不屬于類別c的文本數(shù)。

可以看出,N是不變的,所以式(14)分子中的N和分母中的(A+C)(B+D)可以省略。

卡方值越小,說(shuō)明特征詞t與類別c相互獨(dú)立性越大,即假設(shè)正確,二者不相關(guān);反之若卡方值越大,則表示假設(shè)錯(cuò)誤,說(shuō)明特征詞t與類別c緊密相關(guān)。

2.6?TF-IDF傳統(tǒng)權(quán)重算法

詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF_IDF)用以評(píng)估特征詞對(duì)于訓(xùn)練數(shù)據(jù)集中的某個(gè)文本的重要程度。其主要思想是:若某個(gè)特征詞在當(dāng)前文本中出現(xiàn)得頻率高,同時(shí)在其它文本中很少出現(xiàn),那么認(rèn)為該特征詞具有很好的類別區(qū)分能力。TF?ID?F由兩部分組成,詞頻(Term Frequency,TF)表示特征詞在文檔d中出現(xiàn)的頻率。對(duì)于在某一特定文本的特征詞來(lái)說(shuō),其重要性可表示為:

其中n?i,j是該特征詞t?i在文件d?j中出現(xiàn)的次數(shù),分母表示在文件d?j中所有特征詞出現(xiàn)的次數(shù)之和。

逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含特征詞t的文本越少,則說(shuō)明特征詞t具有很好的類別區(qū)分能力。逆向文件頻率是一個(gè)特征詞普遍重要性的度量。某一特征詞的IDF可以由總文本數(shù)目除以包含該特征詞的文本數(shù)目,再將得到的商取對(duì)數(shù)得到,表示為:

其中l(wèi)og的分子表示數(shù)據(jù)集文本總數(shù),分母表示包含詞語(yǔ)?t?i?的文本數(shù)目,一般情況下以分母加1的形式防止分母為0 。

IDF結(jié)構(gòu)簡(jiǎn)單,不能有效反映單詞重要程度和特征詞分布情況,即未考慮位置信息,無(wú)差別處理在文本不同位置的詞語(yǔ),但對(duì)于歌詞文本來(lái)說(shuō),文本標(biāo)題特征詞的重要程度跟文本中間或文本前后特征詞重要程度不同。因此可以將處于文本不同位置的特征詞賦予不同的權(quán)重。

3?基于位置權(quán)重算法分析

3.1?基本思想

鑒于傳統(tǒng)的特征權(quán)重計(jì)算算法TF-IDF認(rèn)為文本中出現(xiàn)靠前的特征詞和靠后的特征詞重要性相同,無(wú)法體現(xiàn)特征詞位置信息的特點(diǎn),基于位置權(quán)重算法提出一種新的特征權(quán)重算法,在歌詞情感分析場(chǎng)景中,考慮到歌詞文本不同于微博短文本、淘寶評(píng)論等文本,歌詞文本最不可忽略的一點(diǎn)就是文本中有重復(fù)的特征詞,特別是副歌部分,或?qū)η楦蟹诸惍a(chǎn)生影響?;诖藢⒏柙~文本分為前、中、后3個(gè)部分以區(qū)分不同位置特征詞,然后結(jié)合文本標(biāo)題與歌詞文本前、中、后4個(gè)不同位置,利用AHP分別置于不同位置因子,面向不同位置特征詞的位置因子進(jìn)行分組實(shí)驗(yàn)。

3.2?AHP位置權(quán)重算法

借鑒TF-IDF中詞頻思想,對(duì)特征詞進(jìn)行詞頻統(tǒng)計(jì),加入文本標(biāo)題,利用文本前、中、后不同位置的位置因子計(jì)算每個(gè)特征詞權(quán)重,通過(guò)位置因子表示不同位置特征詞對(duì)最終情感分類的貢獻(xiàn)程度。定義TTFL為基于文本標(biāo)題和位置權(quán)重的算法,其中TTFL=T*TF*L,TF表示特征詞在當(dāng)前文本中的詞頻,T代表文本標(biāo)題的位置因子,L代表文本歌詞文本前、中、后不同位置的位置因子。在計(jì)算位置因子時(shí),根據(jù)AHP[19]求解。AHP算法原理是將復(fù)雜評(píng)價(jià)指標(biāo)排列為一個(gè)有序、遞階層次結(jié)構(gòu)的整體,然后在各評(píng)價(jià)指標(biāo)間進(jìn)行兩兩比較、判斷,計(jì)算各評(píng)價(jià)指標(biāo)的相對(duì)重要性系數(shù),即權(quán)重。具體步驟如下:

(1)構(gòu)建兩兩比較的判斷矩陣。判斷矩陣合理性受標(biāo)度合理性影響的程度。標(biāo)度是指評(píng)價(jià)者對(duì)各個(gè)評(píng)價(jià)指標(biāo)重要性等級(jí)差異量化概念。針對(duì)歌曲情感分類,假設(shè)比較n個(gè)位置因子X(jué)={x?1,x?2,…,x?n}對(duì)歌曲最后情感類別C的影響大小,兩兩比較建立判斷矩陣A=(rij)n×n。

x?i與x?j對(duì)C的影響之比為r?ij,判斷矩陣A=(r?ij)n×n滿足:

上述矩陣為正互反矩陣,參考1-9標(biāo)度比例標(biāo)度法判斷矩陣構(gòu)建,如表1所示。

其中n為4,假設(shè)用x?1、x?2、x?3、x?4表示文本標(biāo)題和歌詞文本前、中、后的位置因子,則判斷矩陣A為:

(2)層次單排序。計(jì)算判斷矩陣A的最大特征根λ和其對(duì)應(yīng)的歸一化后的特征向量:

由此得到特征向量是文本標(biāo)題和歌詞文本前、中、后的位置因子。λ和W的計(jì)算方法為:

步驟1:矩陣每一列歸一化得到新矩陣B:

步驟2:對(duì)按列歸一化的矩陣B再按行求和:

W?i=∑nj=1B?ij,i=1,2,…,n(20)

步驟3:將向量歸一化得到最終的特征向量:

步驟4:計(jì)算最大特征根:

(3)檢驗(yàn)判斷矩陣?A?的一致性。檢驗(yàn)判斷矩陣一致性是指當(dāng)需要確定權(quán)重的指標(biāo)較多時(shí),矩陣內(nèi)初始權(quán)數(shù)可能出現(xiàn)矛盾,對(duì)于階數(shù)較高的判斷矩陣,難以直接判斷其一致性,需要進(jìn)行一致性檢驗(yàn)。但本文由于指標(biāo)個(gè)數(shù)較少,故不作一致性檢驗(yàn)。

經(jīng)過(guò)AHP算法計(jì)算后的位置因子將分別作為TTFL中的T和L進(jìn)行實(shí)驗(yàn)驗(yàn)證,當(dāng)某個(gè)特征詞屬于文本標(biāo)題的特征詞時(shí),公式中T代入為相應(yīng)的位置因子,而L取值為1,反之L代入歌詞文本前、中或后的特征詞位置因子,此時(shí)T取值為1。

4?實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

4.1?實(shí)驗(yàn)數(shù)據(jù)來(lái)源與預(yù)處理

由于本文研究對(duì)象是中文歌曲的多情感分類問(wèn)題,為保證數(shù)據(jù)可信度,抓取酷狗音樂(lè)、酷我音樂(lè)4個(gè)類別下的歌詞文本,其中去除中混雜或居多的歌詞文本后,各類別分別計(jì)300篇,共計(jì)1 200篇歌詞文本作為實(shí)驗(yàn)最終數(shù)據(jù)集。

中文分詞采用的是結(jié)巴分詞中的精確模式,切分歌詞文本最精確部分,并去掉停用詞、消除歧義詞。在特征提取方面,利用CHI計(jì)算特征詞與類別卡方值,排序構(gòu)建固定維度的情感詞典以將每個(gè)歌詞文本轉(zhuǎn)成統(tǒng)一維度的詞向量。

4.2?實(shí)驗(yàn)過(guò)程

本文基于歌詞文本和文本標(biāo)題以及位置權(quán)重進(jìn)行歌曲情感分類。在分類器訓(xùn)練過(guò)程中以二值分類器為基準(zhǔn),基于4種類別訓(xùn)練?C?2?4個(gè)二分類器,將數(shù)據(jù)樣本分別在C?2?4個(gè)分類器進(jìn)行訓(xùn)練,最后利用C?2?4?個(gè)分類器投票,投票最高的類別作為當(dāng)前樣本的最終情感類別。實(shí)驗(yàn)中選用的分類器模型是樸素貝葉斯、最大熵模型、支持向量機(jī),其中ME的最大迭代次數(shù)max_iter和SVM目標(biāo)函數(shù)懲罰參數(shù)?C?設(shè)置為50,SVM使用默認(rèn)徑向基核函數(shù)。

4.3?實(shí)驗(yàn)結(jié)果與分析

對(duì)不同特征維度、文本標(biāo)題和位置權(quán)重進(jìn)行多組對(duì)比實(shí)驗(yàn)。在對(duì)分類器性能進(jìn)行評(píng)測(cè)時(shí),應(yīng)用最常用的K折交叉驗(yàn)證隨機(jī)將數(shù)據(jù)劃分為K個(gè)大小相同的子集,使用(K-1)個(gè)子集數(shù)據(jù)作為訓(xùn)練集,剩下的子集作為測(cè)試集進(jìn)行多組實(shí)驗(yàn),最后選用性能最好的模型作為最終結(jié)果。以準(zhǔn)確率、召回率、F?1值作為評(píng)價(jià)指標(biāo)進(jìn)行衡量。

實(shí)驗(yàn)1將中文歌詞文本分詞后,通過(guò)CHI算法構(gòu)建不同維度情感詞典,并將歌詞文本按照詞頻轉(zhuǎn)成相應(yīng)維度詞向量,對(duì)文本標(biāo)題不作考慮,并且認(rèn)為歌詞文本中每一位置的特征詞重要程度相同,實(shí)驗(yàn)結(jié)果如圖2所示。

圖2中橫坐標(biāo)軸代表3種不同分類器,縱坐標(biāo)軸表示4種情感類別最終分類準(zhǔn)確率,實(shí)驗(yàn)從不同特征維度分別進(jìn)行3個(gè)分類器的訓(xùn)練,可知取特征數(shù)為5 000時(shí)的效果優(yōu)于其它維度時(shí)的效果,其中SVM分類效果最好。

標(biāo)題是對(duì)一篇文章內(nèi)容的高度概括,代表文章主體意思,歌詞標(biāo)題亦然,因此實(shí)驗(yàn)2在之前基礎(chǔ)上將文本標(biāo)題也作為特征詞加入,實(shí)驗(yàn)結(jié)果如圖3所示。

分析結(jié)果可知,相比于之前只考慮純文本歌詞的情況,在加入文本標(biāo)題的特征詞后分類結(jié)果較之前有一定提升。

實(shí)驗(yàn)3綜合考慮歌詞文本結(jié)合文本標(biāo)題,對(duì)不同位置特征詞位置因子進(jìn)行實(shí)驗(yàn),設(shè)文本標(biāo)題特征詞位置因子和歌詞文本中間位置的特征詞位置因子相等,且大于其它兩個(gè)位置特征詞位置因子,其中位置因子表示權(quán)重,具體值由AHP算法計(jì)算得到。實(shí)驗(yàn)表明,在考慮文本標(biāo)題的同時(shí)衡量位置權(quán)重,在一定程度上影響了歌曲情感,此時(shí)經(jīng)AHP計(jì)算出的位置因子只有兩個(gè)值,分別代表文本標(biāo)題、歌詞文本中間特征詞和歌詞文本前、后特征詞的權(quán)重。當(dāng)特征數(shù)是5 000時(shí),屬于NB持平的狀況,而ME提高了1個(gè)百分點(diǎn),SVM精確率達(dá)到了88%。

與實(shí)驗(yàn)3相比,實(shí)驗(yàn)4認(rèn)為文本標(biāo)題的特征詞位置因子最大,歌詞文本中間位置的特征詞位置因子次之,其它兩個(gè)位置的特征詞位置因子最小且相等,特征數(shù)為5 000,實(shí)驗(yàn)結(jié)果如圖4所示。

本次實(shí)驗(yàn)顯示,經(jīng)AHP計(jì)算的4個(gè)位置因子及樸素貝葉斯分類器分類效果明顯提高,整體效果仍然優(yōu)于不考慮位置權(quán)重時(shí)的情況。

基于實(shí)驗(yàn)1、實(shí)驗(yàn)2、實(shí)驗(yàn)4的比較如表2和圖5所示。表2和圖5分別展示的是不同分類器在加入不同考慮因素時(shí),?F?1值和精確率的比較,其中表2中x軸表示分類器,y?軸表示遞進(jìn)增加的考慮因素??梢钥闯霰疚奶岢龅幕谖恢脵?quán)重的歌詞情感分類方法將歌曲類別分為快樂(lè)、傷感、安靜、激昂,比只用歌詞文本的分類性能[20?21]有明顯提升,進(jìn)一步說(shuō)明特征詞位置因素對(duì)最終歌詞情感分類情況是有影響的。

5?結(jié)語(yǔ)

本文提出利用融合文本標(biāo)題和基于位置權(quán)重的歌詞情感分析方法,衡量不同位置特征詞對(duì)分類的影響,并通過(guò)實(shí)驗(yàn)證明了相對(duì)于現(xiàn)有特征權(quán)重計(jì)算方法和歌詞情感分析研究,加入特征詞位置權(quán)重后不僅節(jié)省執(zhí)行時(shí)間,對(duì)于歌詞情感分類效果也明顯提升。后續(xù)研究將對(duì)位置權(quán)重進(jìn)行更加深入的分析,擴(kuò)大場(chǎng)景應(yīng)用范圍。在影評(píng)、詩(shī)歌、商品評(píng)論等領(lǐng)域場(chǎng)景及微博熱搜榜詞條、新聞標(biāo)題黨檢測(cè)方面也可借鑒位置權(quán)重以提高情感分類性能。

參考文獻(xiàn):

[1]?WU H, LI J, XIE J. Maximum entropy?based sentiment analysis of online product reviews in Chinese[C].International Conference on Automotive Engineering, Mechanical and Electrical Engineering, 2017:559?562.

[2]?WANG C, JIA Y, HUANG J M, et al. Retweet prediction in Sina Weibo based on entity?level sentiment analysis[C]. International Conference on Artifial Intelligence,2017:343?350.

[3]?KAUTER M V D, BREESCH D, HOSTE V. Fine?grained analysis of explicit and implicit sentiment in financial news articles[J]. Expert Systems with Applications, 2015, 42(11):4999?5010.

[4]?YANG H L, CHAO A F. Sentiment analysis for Chinese reviews of movies in multi?genre based on morpheme?based features and collocations[J]. Information Systems Frontiers, 2015, 17(6):1335?1352.

[5]?張偉,謝湘.基于HMM的音樂(lè)情感識(shí)別研究[C].全國(guó)人機(jī)語(yǔ)言通訊學(xué)術(shù)會(huì)議, 2007:1?5.

[6]?LEE J Y, KIM J Y, KIM H G. Music emotion classification based on music highlight detection[C].International Conference on Information Science and Applications, 2014:1?2.

[7]?趙偉.基于BP神經(jīng)網(wǎng)絡(luò)的音樂(lè)情感分類及評(píng)價(jià)模型[J]. 電子設(shè)計(jì)工程, 2015(8):71?74.

[8]?LIN C, LIU M, HSIUNG W, et al. Music emotion recognition based on two?level support vector classification[C]. International Conference on Machine Learning and Cybernetics, 2017:375?389.

[9]?HE H, JIN J, XIONG Y, et al. Language feature mining for music emotion classification via supervised learning from lyrics[C].?Third International Symposium on Advances in Computation and Intelligence,2008:426?435.

[10]?王靜.基于歌詞的音樂(lè)情感分類技術(shù)研究[D].沈陽(yáng):東北大學(xué), 2012.

[11]?TURNEY P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics, 2002:417?424.

[12]?XIA Y, WANG L, WONG K F, et al. Sentiment vector space model for lyric?based song sentiment classification[C]. Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers,2008:133?136.

[13]?夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學(xué)報(bào),2010,24(1):99?104.

[14]?孫向琨.音樂(lè)內(nèi)容和歌詞相結(jié)合的歌曲情感分類方法研究[D].蘇州:蘇州大學(xué), 2011.

[15]?程一峰.基于TF?IDF的音頻和歌詞特征融合模型的音樂(lè)情感分析研究[D].重慶:重慶大學(xué), 2012.

[16]?ABBURI H, SAI E, GABGASHETTY S V, et al. Multimodal sentiment analysis of Telugu songs[C].Proceedings of the 4th Workshop on Sentiment Analysis where AI meets Psychology ,2016:?48?53.

[17]?李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社, 2012.

[18]?邱云飛,王威,劉大有,等.基于方差的CHI特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1304?1306.

[19]?王學(xué)軍,郭亞軍,蘭天.構(gòu)造一致性判斷矩陣的序關(guān)系分析法[J]. 東北大學(xué)學(xué)報(bào):自然科學(xué)版, 2006, 27(1):115?118.

[20]?DAKSHINA K, SRIDHAR R. LDA based emotion recognition from lyrics[M].Newyork:Springer International Publishing, 2014.

[21]?YANG D, LEE W S. Music emotion identification from lyrics[C]. IEEE International Symposium on Multimedia, 2009:624?629.

猜你喜歡
支持向量機(jī)
基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
管理類研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
麦盖提县| 文登市| 金门县| 修武县| 克东县| 永平县| 开原市| 阿克苏市| 隆安县| 威宁| 富平县| 赤壁市| 且末县| 台东市| 平顺县| 惠州市| 岐山县| 藁城市| 绥棱县| 绩溪县| 凤城市| 司法| 定结县| 阳谷县| 桓台县| 灵璧县| 河曲县| 措美县| 赣州市| 若羌县| 农安县| 柘城县| 乐东| 修水县| 永善县| 山东| 富阳市| 义马市| 巩义市| 亳州市| 南康市|