邱全磊,崔宗敏,喻 靜
(九江學(xué)院 信息科學(xué)與技術(shù)學(xué)院,江西 九江 332005)
近年來,隨著網(wǎng)絡(luò)視頻行業(yè)的快速發(fā)展,網(wǎng)絡(luò)視頻用戶規(guī)模的不斷擴(kuò)大,彈幕評論越來越受到人們的歡迎。彈幕是一種新興的,及時更新的互動評論系統(tǒng),它以滾動字幕的方式直接顯示在視頻界面上,有助于加深觀眾對視頻內(nèi)容的理解,也可以促進(jìn)觀眾之間的交流。隨著彈幕功能在各大視頻網(wǎng)站的流行,彈幕中的情感信息越來越具有普遍性和參考性,這些情感信息能準(zhǔn)確地反映用戶在觀看視頻的即時情感和褒貶評價。
目前,國內(nèi)外對于彈幕的研究取得了一定的研究成果,但是主要是從傳播角度出發(fā),關(guān)注用戶心理、傳播結(jié)構(gòu)和運(yùn)營模式等[1-4]。由于彈幕本身的特點(diǎn),比如文本內(nèi)容較短,口語化現(xiàn)象突出,網(wǎng)絡(luò)用語較多,用語不規(guī)范等,所以對彈幕進(jìn)行精準(zhǔn)的情感分析仍然存在很大的挑戰(zhàn)。
現(xiàn)有的對彈幕進(jìn)行情感分析的方法中[5-9],沒有考慮顏文字表情對情感分析的影響,顏文字表情在文本預(yù)處理階段經(jīng)常會被過濾掉,同時也忽視了語氣詞在情感表達(dá)中的作用,語氣詞通常被認(rèn)為是沒有意義可以被省略的停用詞,這影響了情感分析的準(zhǔn)確率。
為了解決以上問題,構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,即EMBA方法(emotional dictionary based on emoticons and modal for barrage sentiment analysis)。該方法針對彈幕中顏文字表情的大量使用情況,提高了情感分析的準(zhǔn)確率,同時,考慮了語氣詞的作用,增強(qiáng)了彈幕情感分析的效果。實(shí)驗(yàn)結(jié)果表明,該方法比現(xiàn)有的方法在彈幕情感分析領(lǐng)域具有更好的性能。
文中采用BosonNLP情感詞典作為基礎(chǔ)情感詞典,與傳統(tǒng)的情感詞典[10]相比,BosonNLP情感詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù),該詞典囊括了很多網(wǎng)絡(luò)用語及非正式簡稱,對非規(guī)范文本也有較高的覆蓋率。BosonNLP情感詞典收錄了114 472個情感詞匯,按照情感傾向和情感強(qiáng)度對情感詞進(jìn)行了賦權(quán)。其中,褒義情感詞的權(quán)重為正,貶義情感詞的權(quán)重為負(fù),情感詞的權(quán)重范圍為[-7,7]。
自從第一個表情符號“:-)”于1982年在Carnegie Mellon公告牌上創(chuàng)建以來,這些基于ASCII的表情符號已被廣泛用于表達(dá)人類的情感[11]。顏文字表情能夠生動形象地表情達(dá)意,在彈幕中深受人們的歡迎。文中使用的顏文字表情來自搜狗輸入法顏文字表情詞庫,包括21個類別的802個表情符號。目前對于顏文字表情的研究主要以傳播學(xué)為主[11-13],將顏文字表情應(yīng)用于情感分析的研究很少,如何確定顏文字表情的權(quán)重是一個挑戰(zhàn)。文中通過調(diào)查統(tǒng)計(jì)的形式讓九名研究人員根據(jù)表情類別確定表情權(quán)重,最后取平均值得到表情類別對應(yīng)的表情權(quán)重。最終得到了21類表情符號及其對應(yīng)的情感值,表情詞典格式如表1所示。
表1 表情詞典
由于網(wǎng)絡(luò)文化與時俱進(jìn)的發(fā)展和彈幕文本的特殊性,彈幕中仍會不斷出現(xiàn)新的領(lǐng)域情感詞匯,這些詞匯都無法在現(xiàn)有的情感詞典中找到。因此,文中使用SO-PMI算法[14]構(gòu)建彈幕領(lǐng)域詞典對基礎(chǔ)情感詞典進(jìn)行擴(kuò)展。首先確定基準(zhǔn)詞,然后獲取情感詞候選詞,通過計(jì)算確定候選詞的情感傾向,最后將候選詞匯加入彈幕領(lǐng)域詞典中。
SO-PMI是將PMI方法引入計(jì)算詞語的情感傾向中,從而達(dá)到捕獲情感詞的目的。作為SO計(jì)算的一部分,Pointwise Mutual Information (PMI)對于根據(jù)正面和負(fù)面陳述計(jì)算短語之間的強(qiáng)度至關(guān)重要[15]。它的基本思想是計(jì)算同時出現(xiàn)在文本中兩個單詞的概率,概率越大,相關(guān)性越大,連接越接近。PMI計(jì)算公式如公式(1)所示。
(1)
其中,p(x,y)表示兩個詞語word1與word2共同出現(xiàn)的概率,p(x)是word1單獨(dú)出現(xiàn)的概率,p(y)是word2單獨(dú)出現(xiàn)的概率。如果word1和word2之間存在真正的關(guān)系,則p(word1&word2)出現(xiàn)的概率將遠(yuǎn)大于p(word1)p(word2),log(word1word2)大于0。
使用SO-PMI計(jì)算未記錄單詞word1的情感值的公式如下:
(2)
其中,Pwords是一組褒義詞,Nwords是一組貶義詞,這些情感詞傾向性非常明顯,非常具有代表性。通過SO-PMI值與閾值0的比較,將未記錄詞word1分類成積極,中性或消極的情感詞,比如word1的SO-PMI值大于0時, word1被識別為積極的情感詞。
語氣詞通常被認(rèn)為是沒有意義的詞匯,被列入停用詞當(dāng)中被過濾掉,然而,因?yàn)閺椖豢谡Z化、極簡化的特點(diǎn),彈幕中存在許多完全由語氣詞組成的彈幕,如彈幕“哈哈”“嗷嗷”。如果把這些語氣詞當(dāng)作停用詞過濾掉,將影響彈幕的情感分析效果。
表2 語氣詞典
文中利用1.3中提到的SO-PMI算法構(gòu)建彈幕語氣詞典。因?yàn)檎Z氣詞的情感強(qiáng)度低于普通的情感詞強(qiáng)度,所以設(shè)定語氣詞情感值范圍為[-3,3]。利用SO-PMI算法,從彈幕文本中提取出語氣詞,根據(jù)語氣詞的SO-PMI值確定其情感值:當(dāng)語氣詞的SO-PMI值處于0到5范圍內(nèi),語氣詞情感值為1;當(dāng)SO-PMI值大于15時,語氣詞情感值恒等于3,以此類推。將語氣詞及確定的情感值加入語氣詞典,最終的語氣詞典格式如表2所示。
文中采用知網(wǎng)提供的程度級別詞典,在實(shí)際對彈幕文本進(jìn)行分析時,發(fā)現(xiàn)彈幕里存在網(wǎng)絡(luò)流行詞匯以及非正式的詞匯當(dāng)作程度副詞使用的情況,如“灰?!北硎境潭雀痹~“非常”,“敲”表示程度副詞“超”,走召”表示程度副詞“超”,將這些特殊的詞匯整合添加進(jìn)程度詞典中,以提高情感分析的準(zhǔn)確度,最終得到了由228個程度副詞組成的程度詞典。程度副詞級別及權(quán)重如表3所示。
表3 程度詞典
當(dāng)否定詞修飾情感詞時,情感傾向一般都會發(fā)生反轉(zhuǎn),文中整理了彈幕中常用的71個否定副詞構(gòu)成否定詞典,否定詞權(quán)重設(shè)為-1。
隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了很多網(wǎng)絡(luò)詞匯,這些詞匯不同于傳統(tǒng)的詞語,它們更加精簡以及口語化,部分網(wǎng)絡(luò)詞匯具有強(qiáng)烈的情感色彩,例如“賽高”,“筆芯”“打call”。文中從搜狗輸入法的詞庫中整理篩選出最常用的網(wǎng)絡(luò)情感新詞并賦予其情感值,從而完成了網(wǎng)絡(luò)詞典的創(chuàng)建。
如果一條彈幕說“好看”,另一條彈幕說“非常好看”,還有一條彈幕說“不好看”,若這3個彈幕的情感值一樣,顯然是不合理的,因此,需要對彈幕的情感程度進(jìn)行量化,用以區(qū)分不同程度的“好看”。同理,一個人發(fā)出撒花的彈幕,如果撒花后面加了感嘆號,顯然情感強(qiáng)度應(yīng)該和沒加的時候不同。下面給出相關(guān)定義。
定義1(程度詞)。當(dāng)情感詞前面被程度詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:
W=Wdeg*Wk
(3)
定義2(否定詞)。當(dāng)情感詞前面被否定詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:
W=(-1)n*Wk
(4)
情感詞前面同時出現(xiàn)負(fù)面詞和程度詞的情況分為兩類,一類是“否定詞+程度詞+情感詞”,這種表達(dá)方式對情感強(qiáng)度的影響較弱。另一種是“程度詞+否定詞+情感詞”,這種表達(dá)方式對情感強(qiáng)度有增強(qiáng)作用。這兩種方式對句子情感權(quán)重有一定的影響。例如,“不太好看”和“太不好看”,顯然,第一句話的情感強(qiáng)度弱于第二句話。
定義3(程度詞+否定詞)。當(dāng)情感詞前面被程度詞+否定詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:
W=(-1)n*Wdeg*Wk*2
(5)
定義4(否定詞+程度詞)。當(dāng)情感詞前面被否定詞+程度詞修飾時,情感詞修正權(quán)重的計(jì)算規(guī)則為:
W=(-1)n*Wdeg*Wk*0.5
(6)
其中,W是修正以后的情感詞情感值,Wdeg是程度詞對應(yīng)的修正系數(shù),Wk是情感詞情感值,n為否定詞的個數(shù)。
定義5(彈幕句型)。不同句型的彈幕對應(yīng)的情感強(qiáng)度各不相同,定義句型影響系數(shù)X,X默認(rèn)為1。
規(guī)則1:如果彈幕類型為感嘆句,即彈幕里出現(xiàn)了“!”或“!”,X=2。
規(guī)則2:如果彈幕類型為疑問句,即彈幕里出現(xiàn)了“?”或“?”,且彈幕中沒有出現(xiàn)反問標(biāo)志詞(例如“難道”),X=1。
規(guī)則3:如果彈幕類型為反問句,即彈幕出現(xiàn)了“?”或“?”,且彈幕中出現(xiàn)了反問標(biāo)志詞(例如“難道”),X=1.5。
綜上所述:彈幕句型修正計(jì)算公式如下:
Mi=Si*X
(7)
其中,Mi為經(jīng)過句型修正之后的第i個句子的情感值,Si為彈幕中第i個句子的初始情感值,X是句型影響系數(shù)。
在第一章構(gòu)建好情感詞典和第二章確定程度計(jì)算規(guī)則的基礎(chǔ)上,下面對彈幕的情感值進(jìn)行計(jì)算。
Si=∑W+∑Em
(8)
其中,W是修正后的情感詞的情感值,Em是顏文字表情的情感值,Si是彈幕中第i個句子的情感值。
設(shè)彈幕的最終情感值為C,最終彈幕情感值C的計(jì)算公式如下:
C=∑Mi
(9)
如果C>0,則將這條彈幕判定為積極的彈幕;如果C=0,則將這條彈幕判定為中性的彈幕;如果C<0,則將這條彈幕判定為消極的彈幕。
文中爬取了嗶哩嗶哩網(wǎng)站動畫,番劇,音樂,舞蹈,科技,生活,鬼畜,娛樂,影視,放映廳等10個類別里截止2018年3月30日近期熱度最高的前三個視頻的彈幕數(shù)據(jù),共獲得30個視頻的63 006條彈幕。通過對這些彈幕進(jìn)行預(yù)處理,去除完全由標(biāo)點(diǎn)符號構(gòu)成的噪音彈幕之后,得到高質(zhì)量的彈幕文本數(shù)據(jù)。從每個類別的彈幕里面隨機(jī)選取100條彈幕,共選取1 000條彈幕作為測試數(shù)據(jù)。通過人工標(biāo)注測試數(shù)據(jù)的情感極性,將測試數(shù)據(jù)標(biāo)注為積極、中性、消極三種類別。最終標(biāo)注的測試數(shù)據(jù)類別統(tǒng)計(jì)情況如表4所示。
表4 彈幕測試數(shù)據(jù)統(tǒng)計(jì)
文中采用在自然語言處理領(lǐng)域被廣泛認(rèn)可和使用的準(zhǔn)確率(precision)、召回率(recall)以及F值作為實(shí)驗(yàn)性能的評估指標(biāo),分別定義如下:
(10)
其中,Pc表示判斷正確的該類別彈幕數(shù)量,Pa表示判斷為該類別的彈幕數(shù)量。
(11)
其中,Rc表示判斷正確的該類別彈幕數(shù)量,Ra表示應(yīng)該判斷為該類別的彈幕數(shù)量。
(12)
為了驗(yàn)證文中提出的表情和語氣對情感分析的影響以及EMBA方法的有效性,通過表5中的方法對測試數(shù)據(jù)進(jìn)行了測試,六組實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表5所示。
通過以上6組實(shí)驗(yàn),對實(shí)驗(yàn)結(jié)果進(jìn)行如下分析:
(1)現(xiàn)有的方法[6]采用大連理工情感詞典作為基礎(chǔ)情感詞典對彈幕進(jìn)行情感分析,實(shí)驗(yàn)一和實(shí)驗(yàn)二將大連理工情感詞典與BonsonNLP情感詞典進(jìn)行比較。一方面,大連理工情感詞典的情感詞是情感色彩鮮明的傳統(tǒng)情感詞,所以準(zhǔn)確率更高;另一方面,因?yàn)閺椖痪W(wǎng)絡(luò)用語較多,用語不規(guī)范的特點(diǎn),大連理工情感詞典錯誤地將大量積極和消極彈幕分類成了中性彈幕,正確識別的彈幕數(shù)量很少,這導(dǎo)致了積極和消極彈幕召回率和F值低于BonsonNLP,而中性彈幕的召回率達(dá)到了100%。實(shí)驗(yàn)結(jié)果表明,基于網(wǎng)絡(luò)文本構(gòu)建的BonsonNLP情感詞典在性能上優(yōu)于基于傳統(tǒng)文本構(gòu)建而成的大連理工情感詞典。
表5 實(shí)驗(yàn)結(jié)果
(2)對比實(shí)驗(yàn)二和實(shí)驗(yàn)三的結(jié)果可以發(fā)現(xiàn),在增加了表情詞典之后,情感分析的各項(xiàng)指標(biāo)都得到了顯著提升,對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),在加入了顏文字表情詞典之后,對于“⊙▽⊙”“(:3[▓▓]”等表情彈幕可以正確分類,從而提高了情感分析的準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了顏文字表情對于彈幕情感分析的影響,也說明了構(gòu)建顏文字表情詞典的必要性。
(3)通過對比實(shí)驗(yàn)三和實(shí)驗(yàn)四的結(jié)果可以發(fā)現(xiàn),在增加了語氣詞典之后,情感分析的各項(xiàng)指標(biāo)都得到了一定的提升,這說明語氣詞也有助于對彈幕的情感分析。對數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),在加入了語氣詞典之后,對于“沖呀”“嗷嗷”等彈幕,可以通過識別其中的語氣詞進(jìn)行正確地分類。實(shí)驗(yàn)結(jié)果證明了語氣詞對彈幕情感分析的影響和構(gòu)建彈幕語氣詞典的重要性。
(4)現(xiàn)有的對彈幕的情感分析研究較少,且運(yùn)用情感詞典對彈幕進(jìn)行情感分析的方法較為簡單,實(shí)際情感分析的效果較差。文中選用在微博文本情感分析領(lǐng)域具有影響力和代表性的ESD方法[16]作為對比方法。ESD方法的核心是通過拓展情感詞典并結(jié)合語義規(guī)則對微博文本進(jìn)行情感分析,與文中方法的相同之處在于都選用了現(xiàn)有的情感詞典組成基礎(chǔ)詞典;都構(gòu)建了程度詞典,否定詞典,表情詞典,網(wǎng)絡(luò)詞典;都分析了語義規(guī)則的影響。不同點(diǎn)在于文中構(gòu)建了能識別顏文字表情的表情詞典;利用SO-PMI算法構(gòu)建了彈幕領(lǐng)域詞典和彈幕語氣詞典;利用輸入法詞庫構(gòu)建網(wǎng)絡(luò)詞典,而不是人工搜集網(wǎng)絡(luò)詞匯。實(shí)驗(yàn)五和實(shí)驗(yàn)六的結(jié)果表明,提出的EMBA方法在各類彈幕的性能上都優(yōu)于ESD方法,這證明了EMBA方法的有效性和實(shí)用性。
對彈幕進(jìn)行精準(zhǔn)情感分析的關(guān)鍵在于情感詞典的構(gòu)建,情感詞典囊括的情感詞范圍越大,準(zhǔn)確性越高,情感分析的效果就越準(zhǔn)確。文中構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,該詞典由基礎(chǔ)情感詞典、彈幕領(lǐng)域詞典、彈幕語氣詞典、程度詞典、否定詞典、網(wǎng)絡(luò)詞典組成。該方法針對彈幕評論中顏文字表情的大量使用情況,提高了情感分析的準(zhǔn)確率,同時考慮了語氣詞的作用,增強(qiáng)了彈幕情感分析的效果。同時,還研究了語義規(guī)則對于彈幕情感分析的影響,實(shí)驗(yàn)結(jié)果證明了該方法的有效性。