徐善山
摘要:針對(duì)影評(píng)文本情感分析準(zhǔn)確性不高的問題,本文提出一種基于影評(píng)領(lǐng)域詞典結(jié)合機(jī)器學(xué)習(xí)的情感分析方法。首先,構(gòu)建完備的影評(píng)領(lǐng)域相關(guān)詞典,如程度副詞詞典、否定詞詞典和網(wǎng)絡(luò)用詞詞典。然后,利用文本相似度的方法(TSIM)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行去重處理,并提出三類特征:詞性、句法、依存進(jìn)行選擇。最后,利用NB和SVM相結(jié)合的分類方法對(duì)影評(píng)進(jìn)行情感分類。實(shí)現(xiàn)結(jié)果表明,該方法相對(duì)于僅僅基于傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,具有更準(zhǔn)確的分類精度。
關(guān)鍵詞:情感分析;領(lǐng)域詞典;機(jī)器學(xué)習(xí);數(shù)據(jù)去重;特征選擇
中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)23-0222-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1 引言
交互性網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,使得越來越多的人通過豆瓣、微博影評(píng)等電影網(wǎng)站發(fā)表自己對(duì)電影的觀點(diǎn)和看法,這些影評(píng)包含著很多用戶對(duì)于電影及其相關(guān)內(nèi)容的評(píng)價(jià)。因此,對(duì)于這些影評(píng)文本信息進(jìn)行情感分析具有重要的商業(yè)價(jià)值。但是目前,影評(píng)領(lǐng)域情感分析的準(zhǔn)確性不是很高,主要是因?yàn)橛霸u(píng)領(lǐng)域相關(guān)情感詞典的不完備性、機(jī)器學(xué)習(xí)方法需要完備的語料庫和精確的特征選擇。針對(duì)上述問題本文提出一種基于影評(píng)領(lǐng)域詞典和機(jī)器學(xué)習(xí)相結(jié)合的情感分析方法。本文的主要工作為:1)構(gòu)建完備的影評(píng)領(lǐng)域相關(guān)的詞典;2)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行去重處理,并進(jìn)行特征選擇;3)利用NB和SVM相結(jié)合的分類方法對(duì)影評(píng)文本進(jìn)行情感分類。
2 相關(guān)工作
文本情感分析技術(shù)主要分為情感詞典和機(jī)器學(xué)習(xí)的方法。在情感詞典方面:栗雨晴等人[1]提出一種基于雙語詞典的多類情感分析方法,通過構(gòu)建雙語多類情感詞典對(duì)微博文本進(jìn)行多分類語義傾向性分析。肖江等人[2]提出一種基于領(lǐng)域情感詞典的中文微博情感分析策略,能夠有效分析出微博中的情感傾向??讉タ〉热薣3]提出基于領(lǐng)域詞典的商品評(píng)論分析策略,能夠有效分析出網(wǎng)絡(luò)商品評(píng)論的情感傾向。在機(jī)器學(xué)習(xí)方面:朱軍等人[4]提出了一種改進(jìn)的機(jī)器學(xué)習(xí)方法和情感詞典結(jié)合的集成學(xué)習(xí)情感極性分類方法。針對(duì)旅游網(wǎng)絡(luò)評(píng)價(jià)使用的旅游情感詞匯量不多的特點(diǎn),王新宇[5]提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法。針對(duì)中文微博內(nèi)容較短、口語化嚴(yán)重、主題分散等特點(diǎn),孫建旺等人[6]提出了基于詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法。
3 影評(píng)情感分析
3.1 情感詞典的構(gòu)建
目前,影評(píng)領(lǐng)域情感分析方面尚未有一部通用和完備的情感詞典,使得影評(píng)領(lǐng)域的情感分析一直不夠準(zhǔn)確。因此,本文為了使影評(píng)領(lǐng)域的情感分析具有更好的識(shí)別效果,將目前較好的并廣泛應(yīng)用的3個(gè)情感詞典(知網(wǎng)的HowNet、臺(tái)灣大學(xué)的NTUSD和大連理工大學(xué)的情感詞典)進(jìn)行優(yōu)化和整合,構(gòu)建成了一部綜合基礎(chǔ)情感詞典。
此外,本文還構(gòu)建了程度副詞詞典、否定詞詞典和網(wǎng)絡(luò)用詞情感詞典。程度副詞詞典主要是采用知網(wǎng)的程度級(jí)別詞典,共219個(gè)詞,如:極其、非常、不少、半點(diǎn)等。本文整理構(gòu)建了否定詞典,共31個(gè)詞,如:不、沒、無、非等。網(wǎng)絡(luò)用詞情感詞典主要是將“常用網(wǎng)絡(luò)用詞情感詞典”和“2019網(wǎng)絡(luò)用詞”進(jìn)行優(yōu)化和整合,從而構(gòu)建了數(shù)量為254的網(wǎng)絡(luò)用詞情感詞典,如:盤它、開掛、前方高能、實(shí)錘等。
3.2 數(shù)據(jù)集去重
如果機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)集的相似影評(píng)文本的樣本數(shù)量很多,將嚴(yán)重影響機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的分布和情感分析的性能。由此,本文采用文本相似度的方法,將相似度最高的影評(píng)文本進(jìn)行合并,達(dá)到對(duì)訓(xùn)練數(shù)據(jù)集去重的目。
定義1:文本相似度(Text similarity,[TSIM] )用來計(jì)算兩個(gè)文本的語義相似度,計(jì)算公式如下:
[TSIM(T1,T2)=i=1n1maxj=1,2,…,n2sim(W1i,W2j)+j=1n2maxj=1,2,…,n1sim(W2j,W1i)n1+n2]? (1)
在公式(1)中,[W1i]和[W2j]分別為影評(píng)文本[T1]和[T2]中的詞元素,[n1]和[n2]分別為影評(píng)文本[T1]和[T2]中詞元素總的數(shù)量,[sim(W1i,W2j)]是基于知網(wǎng)詞語的語義相似度計(jì)算公式。首先遍歷訓(xùn)練集中的所有語句,然后將相似度最高的兩條語句進(jìn)行合并,達(dá)到減少機(jī)器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)集的相似評(píng)論文本的樣本數(shù)量、增加低頻文本權(quán)重的目的,從而提高機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的分布和情感分析的性能。此方法能夠有效降低影評(píng)文本中因某些用戶的惡意評(píng)論或水軍的虛假言論,導(dǎo)致機(jī)器學(xué)習(xí)模型預(yù)測(cè)結(jié)果的不準(zhǔn)確。
3.3 特征選擇
文本的特征提取是機(jī)器學(xué)習(xí)的關(guān)鍵步驟,可以說情感分類的準(zhǔn)確性和效率很大程度上取決于特征值的選取。本文選擇三類特征:詞性、句法、依存關(guān)系。詞性在影評(píng)文本情感分析中起很大的作用,因?yàn)橐粋€(gè)影評(píng)文本是由多個(gè)不同詞性的詞構(gòu)成的。句法特征是給出句子的組成部分、排列順序、詞性標(biāo)注的特征。依存關(guān)系特征是從依存關(guān)系樹中給出的依存關(guān)系和詞性搭配的特征,其對(duì)影評(píng)文本情感分析起著決定性作用。在選擇特征時(shí),每類特征維度的具體含義如表1所示。
本文以“這部電影真心不錯(cuò),我非常喜歡。”為例進(jìn)行特征選擇。
①使用中科院ICTCLAS分詞技術(shù)進(jìn)行處理,可以獲得例句的詞性特征、句法特征如下:
這部/r電影/n真心/d不錯(cuò)/a,/wd我/rr非常/d喜歡/vi。/wj
其中,/r表示代詞、/n表示名詞、/d表示副詞、/a表示形容詞、/wd表示標(biāo)點(diǎn)符號(hào)、/vi表示動(dòng)詞。
②在ICTCLAS分詞的基礎(chǔ)上,使用哈工大語言技術(shù)平臺(tái)(LTP)處理工具,獲得例句的依存關(guān)系和詞性搭配特征如下:
從圖2中可以得到例句的5種依存關(guān)系:HED(核心)、ATT(定中關(guān)系)、SBV(主謂關(guān)系)、ADV(狀中關(guān)系)、COO(并列關(guān)系)。通過上述2個(gè)步驟可以得到機(jī)器學(xué)習(xí)方法的三種基本特征模板,并作歸一化處理,從而為其訓(xùn)練分類器。
3.4 NB結(jié)合SVM的分類方法
選擇三類特征并作歸一化處理,將其擴(kuò)展到機(jī)器學(xué)習(xí)的特征模板中后,本文采用NB結(jié)合SVM對(duì)整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練得到分類器。
樸素貝葉斯(NB)分類算法具有簡單、穩(wěn)定的分類效果,但是條件是每個(gè)變量是相互獨(dú)立的。判斷一條影評(píng)的情感傾向時(shí),若影評(píng)中有情感詞出現(xiàn)在情感詞典中,則采用NB分類方法,因?yàn)閷⑶楦性~作為NB分類方法的特征時(shí),統(tǒng)計(jì)特征更加合理和明顯,并且可以利用NB分類方法從事先計(jì)算好的情感詞的條件概率分布得到分類的結(jié)果。
支持向量機(jī)(SVM)是一種二類分類模型,利用SVM分類方法進(jìn)行分類,是因?yàn)镹B分類方法僅僅簡單地統(tǒng)計(jì)影評(píng)中的詞語得到概率分布,忽略了詞語之間的依存關(guān)系,而SVM考慮到了影評(píng)詞語之間的依存關(guān)系和句子之間的語義關(guān)系。所以本文將兩種方法相結(jié)合進(jìn)行互補(bǔ),達(dá)到對(duì)分類結(jié)果更加準(zhǔn)確的目的。
如圖2是基于NB和SVM的情感分類流程圖。第一步,對(duì)影評(píng)數(shù)據(jù)進(jìn)行綜合處理:首先將數(shù)據(jù)集分為正向和負(fù)向,然后對(duì)數(shù)據(jù)集進(jìn)行去重處理,最后提取特征并作歸一化處理;第二步,判斷特征值是否在情感詞典中,若在情感詞典中則使用NB分類方法,反之則使用SVM分類方法。
4 實(shí)驗(yàn)分析
本文利用網(wǎng)絡(luò)爬蟲技術(shù)從豆瓣平臺(tái)和微博影評(píng)中抓取5000條影評(píng)數(shù)據(jù)集,并對(duì)這些影評(píng)數(shù)據(jù)集進(jìn)行人工情感標(biāo)注。本次實(shí)驗(yàn)以準(zhǔn)確率P、召回率R和F1值作為評(píng)價(jià)指標(biāo)。
為了驗(yàn)證本文提出的基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析的準(zhǔn)確性,本文通過下表對(duì)測(cè)試數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),并對(duì)結(jié)果進(jìn)行分析和評(píng)價(jià)。
由上表可以得出,基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法在準(zhǔn)確率上面比基于傳統(tǒng)的SVM和NB分類方法都要高。因此,該實(shí)驗(yàn)證明了基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法在整體上是優(yōu)于基于傳統(tǒng)的SVM和NB分類方法,并驗(yàn)證了本文方法具有更高的準(zhǔn)確性。
5 結(jié)論
實(shí)驗(yàn)結(jié)果表明,基于領(lǐng)域詞典和機(jī)器學(xué)習(xí)的情感分析方法對(duì)于影評(píng)領(lǐng)域的情感分類具有更高的準(zhǔn)確性,能夠更加適應(yīng)于影評(píng)領(lǐng)域的情感分析,從而解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)影評(píng)領(lǐng)域情感分析不準(zhǔn)確的問題。
參考文獻(xiàn):
[1] 栗雨晴,禮欣,韓煦,等.基于雙語詞典的微博多類情感分析方法[J].電子學(xué)報(bào),2016,44(9):2069-2073.
[2] 肖江,丁星,何榮杰.基于領(lǐng)域情感詞典的中文微博情感分析[J].電子設(shè)計(jì)工程,2015,23(12):18-21.
[3] 孔偉俊,胡廣朋.基于領(lǐng)域詞典的網(wǎng)絡(luò)商品評(píng)論情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,45(1):155-159.
[4] 朱軍,劉嘉勇,張騰飛,等.基于情感詞典和集成學(xué)習(xí)的情感極性分類方法[J].計(jì)算機(jī)應(yīng)用,2018,38(S1):95-98.
[5] 王新宇.基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究[J].計(jì)算機(jī)與數(shù)字工程,2016,44(4):578-582.
[6] 孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177-181.
【通聯(lián)編輯:唐一東】