基于表情和語氣的情感詞典用于彈幕情感分析

2020-08-12 02:35:26邱全磊崔宗敏

計(jì)算機(jī)技術(shù)與發(fā)展 2020年8期

邱全磊，崔宗敏，喻靜

(九江學(xué)院信息科學(xué)與技術(shù)學(xué)院，江西九江 332005)

0 引言

近年來，隨著網(wǎng)絡(luò)視頻行業(yè)的快速發(fā)展，網(wǎng)絡(luò)視頻用戶規(guī)模的不斷擴(kuò)大，彈幕評論越來越受到人們的歡迎。彈幕是一種新興的，及時更新的互動評論系統(tǒng)，它以滾動字幕的方式直接顯示在視頻界面上，有助于加深觀眾對視頻內(nèi)容的理解，也可以促進(jìn)觀眾之間的交流。隨著彈幕功能在各大視頻網(wǎng)站的流行,彈幕中的情感信息越來越具有普遍性和參考性,這些情感信息能準(zhǔn)確地反映用戶在觀看視頻的即時情感和褒貶評價。

目前，國內(nèi)外對于彈幕的研究取得了一定的研究成果，但是主要是從傳播角度出發(fā)，關(guān)注用戶心理、傳播結(jié)構(gòu)和運(yùn)營模式等[1-4]。由于彈幕本身的特點(diǎn)，比如文本內(nèi)容較短，口語化現(xiàn)象突出，網(wǎng)絡(luò)用語較多,用語不規(guī)范等,所以對彈幕進(jìn)行精準(zhǔn)的情感分析仍然存在很大的挑戰(zhàn)。

現(xiàn)有的對彈幕進(jìn)行情感分析的方法中[5-9]，沒有考慮顏文字表情對情感分析的影響，顏文字表情在文本預(yù)處理階段經(jīng)常會被過濾掉，同時也忽視了語氣詞在情感表達(dá)中的作用，語氣詞通常被認(rèn)為是沒有意義可以被省略的停用詞，這影響了情感分析的準(zhǔn)確率。

為了解決以上問題，構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析，即EMBA方法(emotional dictionary based on emoticons and modal for barrage sentiment analysis)。該方法針對彈幕中顏文字表情的大量使用情況，提高了情感分析的準(zhǔn)確率，同時，考慮了語氣詞的作用，增強(qiáng)了彈幕情感分析的效果。實(shí)驗(yàn)結(jié)果表明，該方法比現(xiàn)有的方法在彈幕情感分析領(lǐng)域具有更好的性能。

1 構(gòu)建情感詞典

1.1 基礎(chǔ)情感詞典

文中采用BosonNLP情感詞典作為基礎(chǔ)情感詞典，與傳統(tǒng)的情感詞典[10]相比，BosonNLP情感詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù)，該詞典囊括了很多網(wǎng)絡(luò)用語及非正式簡稱，對非規(guī)范文本也有較高的覆蓋率。BosonNLP情感詞典收錄了114 472個情感詞匯，按照情感傾向和情感強(qiáng)度對情感詞進(jìn)行了賦權(quán)。其中，褒義情感詞的權(quán)重為正，貶義情感詞的權(quán)重為負(fù)，情感詞的權(quán)重范圍為[-7,7]。

1.2 彈幕表情詞典

自從第一個表情符號“:-)”于1982年在Carnegie Mellon公告牌上創(chuàng)建以來，這些基于ASCII的表情符號已被廣泛用于表達(dá)人類的情感[11]。顏文字表情能夠生動形象地表情達(dá)意，在彈幕中深受人們的歡迎。文中使用的顏文字表情來自搜狗輸入法顏文字表情詞庫，包括21個類別的802個表情符號。目前對于顏文字表情的研究主要以傳播學(xué)為主[11-13]，將顏文字表情應(yīng)用于情感分析的研究很少，如何確定顏文字表情的權(quán)重是一個挑戰(zhàn)。文中通過調(diào)查統(tǒng)計(jì)的形式讓九名研究人員根據(jù)表情類別確定表情權(quán)重，最后取平均值得到表情類別對應(yīng)的表情權(quán)重。最終得到了21類表情符號及其對應(yīng)的情感值，表情詞典格式如表1所示。

表1 表情詞典

1.3 彈幕領(lǐng)域詞典

由于網(wǎng)絡(luò)文化與時俱進(jìn)的發(fā)展和彈幕文本的特殊性，彈幕中仍會不斷出現(xiàn)新的領(lǐng)域情感詞匯，這些詞匯都無法在現(xiàn)有的情感詞典中找到。因此，文中使用SO-PMI算法[14]構(gòu)建彈幕領(lǐng)域詞典對基礎(chǔ)情感詞典進(jìn)行擴(kuò)展。首先確定基準(zhǔn)詞，然后獲取情感詞候選詞，通過計(jì)算確定候選詞的情感傾向，最后將候選詞匯加入彈幕領(lǐng)域詞典中。

SO-PMI是將PMI方法引入計(jì)算詞語的情感傾向中，從而達(dá)到捕獲情感詞的目的。作為SO計(jì)算的一部分，Pointwise Mutual Information (PMI)對于根據(jù)正面和負(fù)面陳述計(jì)算短語之間的強(qiáng)度至關(guān)重要[15]。它的基本思想是計(jì)算同時出現(xiàn)在文本中兩個單詞的概率，概率越大，相關(guān)性越大，連接越接近。PMI計(jì)算公式如公式(1)所示。

(1)

其中，p(x,y)表示兩個詞語word1與word2共同出現(xiàn)的概率，p(x)是word1單獨(dú)出現(xiàn)的概率，p(y)是word2單獨(dú)出現(xiàn)的概率。如果word1和word2之間存在真正的關(guān)系，則p(word1&word2)出現(xiàn)的概率將遠(yuǎn)大于p(word1)p(word2)，log(word1word2)大于0。

使用SO-PMI計(jì)算未記錄單詞word1的情感值的公式如下：

(2)

其中，Pwords是一組褒義詞，Nwords是一組貶義詞，這些情感詞傾向性非常明顯，非常具有代表性。通過SO-PMI值與閾值0的比較，將未記錄詞word1分類成積極，中性或消極的情感詞，比如word1的SO-PMI值大于0時, word1被識別為積極的情感詞。

1.4 語氣詞典

語氣詞通常被認(rèn)為是沒有意義的詞匯，被列入停用詞當(dāng)中被過濾掉，然而，因?yàn)閺椖豢谡Z化、極簡化的特點(diǎn)，彈幕中存在許多完全由語氣詞組成的彈幕，如彈幕“哈哈”“嗷嗷”。如果把這些語氣詞當(dāng)作停用詞過濾掉，將影響彈幕的情感分析效果。

表2 語氣詞典

文中利用1.3中提到的SO-PMI算法構(gòu)建彈幕語氣詞典。因?yàn)檎Z氣詞的情感強(qiáng)度低于普通的情感詞強(qiáng)度，所以設(shè)定語氣詞情感值范圍為[-3,3]。利用SO-PMI算法，從彈幕文本中提取出語氣詞，根據(jù)語氣詞的SO-PMI值確定其情感值：當(dāng)語氣詞的SO-PMI值處于0到5范圍內(nèi)，語氣詞情感值為1；當(dāng)SO-PMI值大于15時，語氣詞情感值恒等于3，以此類推。將語氣詞及確定的情感值加入語氣詞典，最終的語氣詞典格式如表2所示。

1.5 程度詞典

文中采用知網(wǎng)提供的程度級別詞典，在實(shí)際對彈幕文本進(jìn)行分析時，發(fā)現(xiàn)彈幕里存在網(wǎng)絡(luò)流行詞匯以及非正式的詞匯當(dāng)作程度副詞使用的情況，如“灰?！北硎境潭雀痹~“非常”，“敲”表示程度副詞“超”，走召”表示程度副詞“超”，將這些特殊的詞匯整合添加進(jìn)程度詞典中，以提高情感分析的準(zhǔn)確度，最終得到了由228個程度副詞組成的程度詞典。程度副詞級別及權(quán)重如表3所示。

表3 程度詞典

1.6 否定詞典

當(dāng)否定詞修飾情感詞時，情感傾向一般都會發(fā)生反轉(zhuǎn)，文中整理了彈幕中常用的71個否定副詞構(gòu)成否定詞典，否定詞權(quán)重設(shè)為-1。

1.7 網(wǎng)絡(luò)詞典

隨著互聯(lián)網(wǎng)的快速發(fā)展，產(chǎn)生了很多網(wǎng)絡(luò)詞匯，這些詞匯不同于傳統(tǒng)的詞語，它們更加精簡以及口語化，部分網(wǎng)絡(luò)詞匯具有強(qiáng)烈的情感色彩，例如“賽高”，“筆芯”“打call”。文中從搜狗輸入法的詞庫中整理篩選出最常用的網(wǎng)絡(luò)情感新詞并賦予其情感值，從而完成了網(wǎng)絡(luò)詞典的創(chuàng)建。

2 程度計(jì)算

如果一條彈幕說“好看”，另一條彈幕說“非常好看”，還有一條彈幕說“不好看”，若這3個彈幕的情感值一樣，顯然是不合理的，因此，需要對彈幕的情感程度進(jìn)行量化，用以區(qū)分不同程度的“好看”。同理，一個人發(fā)出撒花的彈幕，如果撒花后面加了感嘆號，顯然情感強(qiáng)度應(yīng)該和沒加的時候不同。下面給出相關(guān)定義。

2.1 情感詞程度計(jì)算

定義1(程度詞)。當(dāng)情感詞前面被程度詞修飾時，情感詞修正權(quán)重的計(jì)算規(guī)則為：

W=Wdeg*Wk

(3)

定義2(否定詞)。當(dāng)情感詞前面被否定詞修飾時，情感詞修正權(quán)重的計(jì)算規(guī)則為：

W=(-1)n*Wk

(4)

情感詞前面同時出現(xiàn)負(fù)面詞和程度詞的情況分為兩類，一類是“否定詞+程度詞+情感詞”，這種表達(dá)方式對情感強(qiáng)度的影響較弱。另一種是“程度詞+否定詞+情感詞”，這種表達(dá)方式對情感強(qiáng)度有增強(qiáng)作用。這兩種方式對句子情感權(quán)重有一定的影響。例如，“不太好看”和“太不好看”，顯然，第一句話的情感強(qiáng)度弱于第二句話。

定義3(程度詞+否定詞)。當(dāng)情感詞前面被程度詞+否定詞修飾時，情感詞修正權(quán)重的計(jì)算規(guī)則為：

W=(-1)n*Wdeg*Wk*2

(5)

定義4(否定詞+程度詞)。當(dāng)情感詞前面被否定詞+程度詞修飾時，情感詞修正權(quán)重的計(jì)算規(guī)則為：

W=(-1)n*Wdeg*Wk*0.5

(6)

其中，W是修正以后的情感詞情感值,Wdeg是程度詞對應(yīng)的修正系數(shù)，Wk是情感詞情感值，n為否定詞的個數(shù)。

2.2 句型程度計(jì)算

定義5(彈幕句型)。不同句型的彈幕對應(yīng)的情感強(qiáng)度各不相同，定義句型影響系數(shù)X，X默認(rèn)為1。

規(guī)則1：如果彈幕類型為感嘆句，即彈幕里出現(xiàn)了“！”或“!”，X=2。

規(guī)則2：如果彈幕類型為疑問句，即彈幕里出現(xiàn)了“？”或“?”，且彈幕中沒有出現(xiàn)反問標(biāo)志詞(例如“難道”)，X=1。

規(guī)則3：如果彈幕類型為反問句，即彈幕出現(xiàn)了“？”或“?”，且彈幕中出現(xiàn)了反問標(biāo)志詞(例如“難道”)，X=1.5。

綜上所述：彈幕句型修正計(jì)算公式如下：

Mi=Si*X

(7)

其中，Mi為經(jīng)過句型修正之后的第i個句子的情感值,Si為彈幕中第i個句子的初始情感值，X是句型影響系數(shù)。

3 彈幕情感值計(jì)算

在第一章構(gòu)建好情感詞典和第二章確定程度計(jì)算規(guī)則的基礎(chǔ)上，下面對彈幕的情感值進(jìn)行計(jì)算。

3.1 句子情感值計(jì)算公式

Si=∑W+∑Em

(8)

其中，W是修正后的情感詞的情感值，Em是顏文字表情的情感值，Si是彈幕中第i個句子的情感值。

3.2 彈幕情感值計(jì)算公式

設(shè)彈幕的最終情感值為C，最終彈幕情感值C的計(jì)算公式如下：

C=∑Mi

(9)

如果C>0,則將這條彈幕判定為積極的彈幕；如果C=0，則將這條彈幕判定為中性的彈幕；如果C<0,則將這條彈幕判定為消極的彈幕。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

文中爬取了嗶哩嗶哩網(wǎng)站動畫，番劇，音樂，舞蹈，科技，生活，鬼畜，娛樂，影視，放映廳等10個類別里截止2018年3月30日近期熱度最高的前三個視頻的彈幕數(shù)據(jù)，共獲得30個視頻的63 006條彈幕。通過對這些彈幕進(jìn)行預(yù)處理，去除完全由標(biāo)點(diǎn)符號構(gòu)成的噪音彈幕之后，得到高質(zhì)量的彈幕文本數(shù)據(jù)。從每個類別的彈幕里面隨機(jī)選取100條彈幕，共選取1 000條彈幕作為測試數(shù)據(jù)。通過人工標(biāo)注測試數(shù)據(jù)的情感極性，將測試數(shù)據(jù)標(biāo)注為積極、中性、消極三種類別。最終標(biāo)注的測試數(shù)據(jù)類別統(tǒng)計(jì)情況如表4所示。

表4 彈幕測試數(shù)據(jù)統(tǒng)計(jì)

4.2 實(shí)驗(yàn)性能評估指標(biāo)

文中采用在自然語言處理領(lǐng)域被廣泛認(rèn)可和使用的準(zhǔn)確率(precision)、召回率(recall)以及F值作為實(shí)驗(yàn)性能的評估指標(biāo)，分別定義如下：

(10)

其中，Pc表示判斷正確的該類別彈幕數(shù)量，Pa表示判斷為該類別的彈幕數(shù)量。

(11)

其中，Rc表示判斷正確的該類別彈幕數(shù)量，Ra表示應(yīng)該判斷為該類別的彈幕數(shù)量。

(12)

4.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證文中提出的表情和語氣對情感分析的影響以及EMBA方法的有效性，通過表5中的方法對測試數(shù)據(jù)進(jìn)行了測試，六組實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表5所示。

通過以上6組實(shí)驗(yàn)，對實(shí)驗(yàn)結(jié)果進(jìn)行如下分析：

(1)現(xiàn)有的方法[6]采用大連理工情感詞典作為基礎(chǔ)情感詞典對彈幕進(jìn)行情感分析，實(shí)驗(yàn)一和實(shí)驗(yàn)二將大連理工情感詞典與BonsonNLP情感詞典進(jìn)行比較。一方面，大連理工情感詞典的情感詞是情感色彩鮮明的傳統(tǒng)情感詞，所以準(zhǔn)確率更高；另一方面，因?yàn)閺椖痪W(wǎng)絡(luò)用語較多，用語不規(guī)范的特點(diǎn)，大連理工情感詞典錯誤地將大量積極和消極彈幕分類成了中性彈幕，正確識別的彈幕數(shù)量很少，這導(dǎo)致了積極和消極彈幕召回率和F值低于BonsonNLP，而中性彈幕的召回率達(dá)到了100%。實(shí)驗(yàn)結(jié)果表明，基于網(wǎng)絡(luò)文本構(gòu)建的BonsonNLP情感詞典在性能上優(yōu)于基于傳統(tǒng)文本構(gòu)建而成的大連理工情感詞典。

表5 實(shí)驗(yàn)結(jié)果

(2)對比實(shí)驗(yàn)二和實(shí)驗(yàn)三的結(jié)果可以發(fā)現(xiàn)，在增加了表情詞典之后，情感分析的各項(xiàng)指標(biāo)都得到了顯著提升，對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)，在加入了顏文字表情詞典之后，對于“⊙▽⊙”“(:3[▓▓]”等表情彈幕可以正確分類，從而提高了情感分析的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了顏文字表情對于彈幕情感分析的影響，也說明了構(gòu)建顏文字表情詞典的必要性。

(3)通過對比實(shí)驗(yàn)三和實(shí)驗(yàn)四的結(jié)果可以發(fā)現(xiàn)，在增加了語氣詞典之后，情感分析的各項(xiàng)指標(biāo)都得到了一定的提升，這說明語氣詞也有助于對彈幕的情感分析。對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn)，在加入了語氣詞典之后，對于“沖呀”“嗷嗷”等彈幕，可以通過識別其中的語氣詞進(jìn)行正確地分類。實(shí)驗(yàn)結(jié)果證明了語氣詞對彈幕情感分析的影響和構(gòu)建彈幕語氣詞典的重要性。

(4)現(xiàn)有的對彈幕的情感分析研究較少，且運(yùn)用情感詞典對彈幕進(jìn)行情感分析的方法較為簡單，實(shí)際情感分析的效果較差。文中選用在微博文本情感分析領(lǐng)域具有影響力和代表性的ESD方法[16]作為對比方法。ESD方法的核心是通過拓展情感詞典并結(jié)合語義規(guī)則對微博文本進(jìn)行情感分析，與文中方法的相同之處在于都選用了現(xiàn)有的情感詞典組成基礎(chǔ)詞典；都構(gòu)建了程度詞典，否定詞典，表情詞典，網(wǎng)絡(luò)詞典；都分析了語義規(guī)則的影響。不同點(diǎn)在于文中構(gòu)建了能識別顏文字表情的表情詞典；利用SO-PMI算法構(gòu)建了彈幕領(lǐng)域詞典和彈幕語氣詞典；利用輸入法詞庫構(gòu)建網(wǎng)絡(luò)詞典，而不是人工搜集網(wǎng)絡(luò)詞匯。實(shí)驗(yàn)五和實(shí)驗(yàn)六的結(jié)果表明，提出的EMBA方法在各類彈幕的性能上都優(yōu)于ESD方法，這證明了EMBA方法的有效性和實(shí)用性。

5 結(jié)束語

對彈幕進(jìn)行精準(zhǔn)情感分析的關(guān)鍵在于情感詞典的構(gòu)建，情感詞典囊括的情感詞范圍越大，準(zhǔn)確性越高，情感分析的效果就越準(zhǔn)確。文中構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析，該詞典由基礎(chǔ)情感詞典、彈幕領(lǐng)域詞典、彈幕語氣詞典、程度詞典、否定詞典、網(wǎng)絡(luò)詞典組成。該方法針對彈幕評論中顏文字表情的大量使用情況，提高了情感分析的準(zhǔn)確率，同時考慮了語氣詞的作用，增強(qiáng)了彈幕情感分析的效果。同時，還研究了語義規(guī)則對于彈幕情感分析的影響，實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡