国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于表情和語氣的情感詞典用于彈幕情感分析

2020-08-12 02:35:26邱全磊崔宗敏
關(guān)鍵詞:彈幕語氣詞典

邱全磊,崔宗敏,喻 靜

(九江學(xué)院 信息科學(xué)與技術(shù)學(xué)院,江西 九江 332005)

0 引 言

近年來,隨著網(wǎng)絡(luò)視頻行業(yè)的快速發(fā)展,網(wǎng)絡(luò)視頻用戶規(guī)模的不斷擴(kuò)大,彈幕評論越來越受到人們的歡迎。彈幕是一種新興的,及時更新的互動評論系統(tǒng),它以滾動字幕的方式直接顯示在視頻界面上,有助于加深觀眾對視頻內(nèi)容的理解,也可以促進(jìn)觀眾之間的交流。隨著彈幕功能在各大視頻網(wǎng)站的流行,彈幕中的情感信息越來越具有普遍性和參考性,這些情感信息能準(zhǔn)確地反映用戶在觀看視頻的即時情感和褒貶評價。

目前,國內(nèi)外對于彈幕的研究取得了一定的研究成果,但是主要是從傳播角度出發(fā),關(guān)注用戶心理、傳播結(jié)構(gòu)和運(yùn)營模式等[1-4]。由于彈幕本身的特點(diǎn),比如文本內(nèi)容較短,口語化現(xiàn)象突出,網(wǎng)絡(luò)用語較多,用語不規(guī)范等,所以對彈幕進(jìn)行精準(zhǔn)的情感分析仍然存在很大的挑戰(zhàn)。

現(xiàn)有的對彈幕進(jìn)行情感分析的方法中[5-9],沒有考慮顏文字表情對情感分析的影響,顏文字表情在文本預(yù)處理階段經(jīng)常會被過濾掉,同時也忽視了語氣詞在情感表達(dá)中的作用,語氣詞通常被認(rèn)為是沒有意義可以被省略的停用詞,這影響了情感分析的準(zhǔn)確率。

為了解決以上問題,構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,即EMBA方法(emotional dictionary based on emoticons and modal for barrage sentiment analysis)。該方法針對彈幕中顏文字表情的大量使用情況,提高了情感分析的準(zhǔn)確率,同時,考慮了語氣詞的作用,增強(qiáng)了彈幕情感分析的效果。實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有的方法在彈幕情感分析領(lǐng)域具有更好的性能。

1 構(gòu)建情感詞典

1.1 基礎(chǔ)情感詞典

文中采用BosonNLP情感詞典作為基礎(chǔ)情感詞典,與傳統(tǒng)的情感詞典[10]相比,BosonNLP情感詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù),該詞典囊括了很多網(wǎng)絡(luò)用語及非正式簡稱,對非規(guī)范文本也有較高的覆蓋率。BosonNLP情感詞典收錄了114 472個情感詞匯,按照情感傾向和情感強(qiáng)度對情感詞進(jìn)行了賦權(quán)。其中,褒義情感詞的權(quán)重為正,貶義情感詞的權(quán)重為負(fù),情感詞的權(quán)重范圍為[-7,7]。

1.2 彈幕表情詞典

自從第一個表情符號“:-)”于1982年在Carnegie Mellon公告牌上創(chuàng)建以來,這些基于ASCII的表情符號已被廣泛用于表達(dá)人類的情感[11]。顏文字表情能夠生動形象地表情達(dá)意,在彈幕中深受人們的歡迎。文中使用的顏文字表情來自搜狗輸入法顏文字表情詞庫,包括21個類別的802個表情符號。目前對于顏文字表情的研究主要以傳播學(xué)為主[11-13],將顏文字表情應(yīng)用于情感分析的研究很少,如何確定顏文字表情的權(quán)重是一個挑戰(zhàn)。文中通過調(diào)查統(tǒng)計(jì)的形式讓九名研究人員根據(jù)表情類別確定表情權(quán)重,最后取平均值得到表情類別對應(yīng)的表情權(quán)重。最終得到了21類表情符號及其對應(yīng)的情感值,表情詞典格式如表1所示。

表1 表情詞典

1.3 彈幕領(lǐng)域詞典

由于網(wǎng)絡(luò)文化與時俱進(jìn)的發(fā)展和彈幕文本的特殊性,彈幕中仍會不斷出現(xiàn)新的領(lǐng)域情感詞匯,這些詞匯都無法在現(xiàn)有的情感詞典中找到。因此,文中使用SO-PMI算法[14]構(gòu)建彈幕領(lǐng)域詞典對基礎(chǔ)情感詞典進(jìn)行擴(kuò)展。首先確定基準(zhǔn)詞,然后獲取情感詞候選詞,通過計(jì)算確定候選詞的情感傾向,最后將候選詞匯加入彈幕領(lǐng)域詞典中。

SO-PMI是將PMI方法引入計(jì)算詞語的情感傾向中,從而達(dá)到捕獲情感詞的目的。作為SO計(jì)算的一部分,Pointwise Mutual Information (PMI)對于根據(jù)正面和負(fù)面陳述計(jì)算短語之間的強(qiáng)度至關(guān)重要[15]。它的基本思想是計(jì)算同時出現(xiàn)在文本中兩個單詞的概率,概率越大,相關(guān)性越大,連接越接近。PMI計(jì)算公式如公式(1)所示。

(1)

其中,p(x,y)表示兩個詞語word1與word2共同出現(xiàn)的概率,p(x)是word1單獨(dú)出現(xiàn)的概率,p(y)是word2單獨(dú)出現(xiàn)的概率。如果word1和word2之間存在真正的關(guān)系,則p(word1&word2)出現(xiàn)的概率將遠(yuǎn)大于p(word1)p(word2),log(word1word2)大于0。

使用SO-PMI計(jì)算未記錄單詞word1的情感值的公式如下:

(2)

其中,Pwords是一組褒義詞,Nwords是一組貶義詞,這些情感詞傾向性非常明顯,非常具有代表性。通過SO-PMI值與閾值0的比較,將未記錄詞word1分類成積極,中性或消極的情感詞,比如word1的SO-PMI值大于0時, word1被識別為積極的情感詞。

1.4 語氣詞典

語氣詞通常被認(rèn)為是沒有意義的詞匯,被列入停用詞當(dāng)中被過濾掉,然而,因?yàn)閺椖豢谡Z化、極簡化的特點(diǎn),彈幕中存在許多完全由語氣詞組成的彈幕,如彈幕“哈哈”“嗷嗷”。如果把這些語氣詞當(dāng)作停用詞過濾掉,將影響彈幕的情感分析效果。

表2 語氣詞典

文中利用1.3中提到的SO-PMI算法構(gòu)建彈幕語氣詞典。因?yàn)檎Z氣詞的情感強(qiáng)度低于普通的情感詞強(qiáng)度,所以設(shè)定語氣詞情感值范圍為[-3,3]。利用SO-PMI算法,從彈幕文本中提取出語氣詞,根據(jù)語氣詞的SO-PMI值確定其情感值:當(dāng)語氣詞的SO-PMI值處于0到5范圍內(nèi),語氣詞情感值為1;當(dāng)SO-PMI值大于15時,語氣詞情感值恒等于3,以此類推。將語氣詞及確定的情感值加入語氣詞典,最終的語氣詞典格式如表2所示。

1.5 程度詞典

文中采用知網(wǎng)提供的程度級別詞典,在實(shí)際對彈幕文本進(jìn)行分析時,發(fā)現(xiàn)彈幕里存在網(wǎng)絡(luò)流行詞匯以及非正式的詞匯當(dāng)作程度副詞使用的情況,如“灰?!北硎境潭雀痹~“非常”,“敲”表示程度副詞“超”,走召”表示程度副詞“超”,將這些特殊的詞匯整合添加進(jìn)程度詞典中,以提高情感分析的準(zhǔn)確度,最終得到了由228個程度副詞組成的程度詞典。程度副詞級別及權(quán)重如表3所示。

表3 程度詞典

1.6 否定詞典

當(dāng)否定詞修飾情感詞時,情感傾向一般都會發(fā)生反轉(zhuǎn),文中整理了彈幕中常用的71個否定副詞構(gòu)成否定詞典,否定詞權(quán)重設(shè)為-1。

1.7 網(wǎng)絡(luò)詞典

隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了很多網(wǎng)絡(luò)詞匯,這些詞匯不同于傳統(tǒng)的詞語,它們更加精簡以及口語化,部分網(wǎng)絡(luò)詞匯具有強(qiáng)烈的情感色彩,例如“賽高”,“筆芯”“打call”。文中從搜狗輸入法的詞庫中整理篩選出最常用的網(wǎng)絡(luò)情感新詞并賦予其情感值,從而完成了網(wǎng)絡(luò)詞典的創(chuàng)建。

2 程度計(jì)算

如果一條彈幕說“好看”,另一條彈幕說“非常好看”,還有一條彈幕說“不好看”,若這3個彈幕的情感值一樣,顯然是不合理的,因此,需要對彈幕的情感程度進(jìn)行量化,用以區(qū)分不同程度的“好看”。同理,一個人發(fā)出撒花的彈幕,如果撒花后面加了感嘆號,顯然情感強(qiáng)度應(yīng)該和沒加的時候不同。下面給出相關(guān)定義。

2.1 情感詞程度計(jì)算

定義1(程度詞)。當(dāng)情感詞前面被程度詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:

W=Wdeg*Wk

(3)

定義2(否定詞)。當(dāng)情感詞前面被否定詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:

W=(-1)n*Wk

(4)

情感詞前面同時出現(xiàn)負(fù)面詞和程度詞的情況分為兩類,一類是“否定詞+程度詞+情感詞”,這種表達(dá)方式對情感強(qiáng)度的影響較弱。另一種是“程度詞+否定詞+情感詞”,這種表達(dá)方式對情感強(qiáng)度有增強(qiáng)作用。這兩種方式對句子情感權(quán)重有一定的影響。例如,“不太好看”和“太不好看”,顯然,第一句話的情感強(qiáng)度弱于第二句話。

定義3(程度詞+否定詞)。當(dāng)情感詞前面被程度詞+否定詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:

W=(-1)n*Wdeg*Wk*2

(5)

定義4(否定詞+程度詞)。當(dāng)情感詞前面被否定詞+程度詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:

W=(-1)n*Wdeg*Wk*0.5

(6)

其中,W是修正以后的情感詞情感值,Wdeg是程度詞對應(yīng)的修正系數(shù),Wk是情感詞情感值,n為否定詞的個數(shù)。

2.2 句型程度計(jì)算

定義5(彈幕句型)。不同句型的彈幕對應(yīng)的情感強(qiáng)度各不相同,定義句型影響系數(shù)X,X默認(rèn)為1。

規(guī)則1:如果彈幕類型為感嘆句,即彈幕里出現(xiàn)了“!”或“!”,X=2。

規(guī)則2:如果彈幕類型為疑問句,即彈幕里出現(xiàn)了“?”或“?”,且彈幕中沒有出現(xiàn)反問標(biāo)志詞(例如“難道”),X=1。

規(guī)則3:如果彈幕類型為反問句,即彈幕出現(xiàn)了“?”或“?”,且彈幕中出現(xiàn)了反問標(biāo)志詞(例如“難道”),X=1.5。

綜上所述:彈幕句型修正計(jì)算公式如下:

Mi=Si*X

(7)

其中,Mi為經(jīng)過句型修正之后的第i個句子的情感值,Si為彈幕中第i個句子的初始情感值,X是句型影響系數(shù)。

3 彈幕情感值計(jì)算

在第一章構(gòu)建好情感詞典和第二章確定程度計(jì)算規(guī)則的基礎(chǔ)上,下面對彈幕的情感值進(jìn)行計(jì)算。

3.1 句子情感值計(jì)算公式

Si=∑W+∑Em

(8)

其中,W是修正后的情感詞的情感值,Em是顏文字表情的情感值,Si是彈幕中第i個句子的情感值。

3.2 彈幕情感值計(jì)算公式

設(shè)彈幕的最終情感值為C,最終彈幕情感值C的計(jì)算公式如下:

C=∑Mi

(9)

如果C>0,則將這條彈幕判定為積極的彈幕;如果C=0,則將這條彈幕判定為中性的彈幕;如果C<0,則將這條彈幕判定為消極的彈幕。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

文中爬取了嗶哩嗶哩網(wǎng)站動畫,番劇,音樂,舞蹈,科技,生活,鬼畜,娛樂,影視,放映廳等10個類別里截止2018年3月30日近期熱度最高的前三個視頻的彈幕數(shù)據(jù),共獲得30個視頻的63 006條彈幕。通過對這些彈幕進(jìn)行預(yù)處理,去除完全由標(biāo)點(diǎn)符號構(gòu)成的噪音彈幕之后,得到高質(zhì)量的彈幕文本數(shù)據(jù)。從每個類別的彈幕里面隨機(jī)選取100條彈幕,共選取1 000條彈幕作為測試數(shù)據(jù)。通過人工標(biāo)注測試數(shù)據(jù)的情感極性,將測試數(shù)據(jù)標(biāo)注為積極、中性、消極三種類別。最終標(biāo)注的測試數(shù)據(jù)類別統(tǒng)計(jì)情況如表4所示。

表4 彈幕測試數(shù)據(jù)統(tǒng)計(jì)

4.2 實(shí)驗(yàn)性能評估指標(biāo)

文中采用在自然語言處理領(lǐng)域被廣泛認(rèn)可和使用的準(zhǔn)確率(precision)、召回率(recall)以及F值作為實(shí)驗(yàn)性能的評估指標(biāo),分別定義如下:

(10)

其中,Pc表示判斷正確的該類別彈幕數(shù)量,Pa表示判斷為該類別的彈幕數(shù)量。

(11)

其中,Rc表示判斷正確的該類別彈幕數(shù)量,Ra表示應(yīng)該判斷為該類別的彈幕數(shù)量。

(12)

4.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證文中提出的表情和語氣對情感分析的影響以及EMBA方法的有效性,通過表5中的方法對測試數(shù)據(jù)進(jìn)行了測試,六組實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表5所示。

通過以上6組實(shí)驗(yàn),對實(shí)驗(yàn)結(jié)果進(jìn)行如下分析:

(1)現(xiàn)有的方法[6]采用大連理工情感詞典作為基礎(chǔ)情感詞典對彈幕進(jìn)行情感分析,實(shí)驗(yàn)一和實(shí)驗(yàn)二將大連理工情感詞典與BonsonNLP情感詞典進(jìn)行比較。一方面,大連理工情感詞典的情感詞是情感色彩鮮明的傳統(tǒng)情感詞,所以準(zhǔn)確率更高;另一方面,因?yàn)閺椖痪W(wǎng)絡(luò)用語較多,用語不規(guī)范的特點(diǎn),大連理工情感詞典錯誤地將大量積極和消極彈幕分類成了中性彈幕,正確識別的彈幕數(shù)量很少,這導(dǎo)致了積極和消極彈幕召回率和F值低于BonsonNLP,而中性彈幕的召回率達(dá)到了100%。實(shí)驗(yàn)結(jié)果表明,基于網(wǎng)絡(luò)文本構(gòu)建的BonsonNLP情感詞典在性能上優(yōu)于基于傳統(tǒng)文本構(gòu)建而成的大連理工情感詞典。

表5 實(shí)驗(yàn)結(jié)果

(2)對比實(shí)驗(yàn)二和實(shí)驗(yàn)三的結(jié)果可以發(fā)現(xiàn),在增加了表情詞典之后,情感分析的各項(xiàng)指標(biāo)都得到了顯著提升,對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),在加入了顏文字表情詞典之后,對于“⊙▽⊙”“(:3[▓▓]”等表情彈幕可以正確分類,從而提高了情感分析的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了顏文字表情對于彈幕情感分析的影響,也說明了構(gòu)建顏文字表情詞典的必要性。

(3)通過對比實(shí)驗(yàn)三和實(shí)驗(yàn)四的結(jié)果可以發(fā)現(xiàn),在增加了語氣詞典之后,情感分析的各項(xiàng)指標(biāo)都得到了一定的提升,這說明語氣詞也有助于對彈幕的情感分析。對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),在加入了語氣詞典之后,對于“沖呀”“嗷嗷”等彈幕,可以通過識別其中的語氣詞進(jìn)行正確地分類。實(shí)驗(yàn)結(jié)果證明了語氣詞對彈幕情感分析的影響和構(gòu)建彈幕語氣詞典的重要性。

(4)現(xiàn)有的對彈幕的情感分析研究較少,且運(yùn)用情感詞典對彈幕進(jìn)行情感分析的方法較為簡單,實(shí)際情感分析的效果較差。文中選用在微博文本情感分析領(lǐng)域具有影響力和代表性的ESD方法[16]作為對比方法。ESD方法的核心是通過拓展情感詞典并結(jié)合語義規(guī)則對微博文本進(jìn)行情感分析,與文中方法的相同之處在于都選用了現(xiàn)有的情感詞典組成基礎(chǔ)詞典;都構(gòu)建了程度詞典,否定詞典,表情詞典,網(wǎng)絡(luò)詞典;都分析了語義規(guī)則的影響。不同點(diǎn)在于文中構(gòu)建了能識別顏文字表情的表情詞典;利用SO-PMI算法構(gòu)建了彈幕領(lǐng)域詞典和彈幕語氣詞典;利用輸入法詞庫構(gòu)建網(wǎng)絡(luò)詞典,而不是人工搜集網(wǎng)絡(luò)詞匯。實(shí)驗(yàn)五和實(shí)驗(yàn)六的結(jié)果表明,提出的EMBA方法在各類彈幕的性能上都優(yōu)于ESD方法,這證明了EMBA方法的有效性和實(shí)用性。

5 結(jié)束語

對彈幕進(jìn)行精準(zhǔn)情感分析的關(guān)鍵在于情感詞典的構(gòu)建,情感詞典囊括的情感詞范圍越大,準(zhǔn)確性越高,情感分析的效果就越準(zhǔn)確。文中構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,該詞典由基礎(chǔ)情感詞典、彈幕領(lǐng)域詞典、彈幕語氣詞典、程度詞典、否定詞典、網(wǎng)絡(luò)詞典組成。該方法針對彈幕評論中顏文字表情的大量使用情況,提高了情感分析的準(zhǔn)確率,同時考慮了語氣詞的作用,增強(qiáng)了彈幕情感分析的效果。同時,還研究了語義規(guī)則對于彈幕情感分析的影響,實(shí)驗(yàn)結(jié)果證明了該方法的有效性。

猜你喜歡
彈幕語氣詞典
注意說話的語氣
注意說話的語氣
彈幕
明知故問,加強(qiáng)語氣
HOLLOW COMFORT
漢語世界(2021年2期)2021-04-13 02:36:18
“彈幕”防御大師
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
一大撥彈幕正在向你襲來……
注意說話的語氣
評《現(xiàn)代漢語詞典》(第6版)
丰原市| 江华| 灵山县| 千阳县| 六盘水市| 庄浪县| 桂林市| 招远市| 和硕县| 那坡县| 河东区| 长顺县| 黄骅市| 福建省| 丰都县| 和静县| 盐山县| 石河子市| 乐清市| 茶陵县| 汉寿县| 郴州市| 周口市| 沭阳县| 安平县| 外汇| 伊宁市| 保靖县| 屏南县| 南陵县| 新乐市| 台中市| 莆田市| 贵州省| 迁安市| 桐柏县| 林周县| 城市| 黔西县| 琼海市| 镇平县|