群體性事件網(wǎng)絡輿情情感分析的情感詞典構建

2019-06-27 09:39:52呂翔劉陸民

信陽農(nóng)林學院學報 2019年2期

呂翔，劉陸民

(信陽農(nóng)林學院信息工程學院，河南信陽 464000)

網(wǎng)絡時代的信息爆炸是毋庸置疑的，社交媒體尤其是近幾年“兩微一端”(微信、微博、移動客戶端)為人們提供了網(wǎng)絡溝通、網(wǎng)絡評論、觀點分享等更為便捷和自由的網(wǎng)絡平臺。這給人們生活帶來了極大的便捷性但也孕育著極大的危機。以往群體性事件爆發(fā)后消息的傳播有其局限性，地域性事件往往很難有大范圍的傳播。而現(xiàn)在，借助于網(wǎng)絡平臺各種社會矛盾和熱點問題可以在極短的時間內(nèi)迅速傳播到各個網(wǎng)絡能延伸到的區(qū)域。網(wǎng)民們在不明所以的情況下肆意表達自己的觀點，反而對事件的本身起到了推波助瀾的作用。一些負面的“網(wǎng)絡群體性事件”將在短時間內(nèi)產(chǎn)生嚴重的影響。同樣，一些積極向上的正能量表達也能迅速得到廣大網(wǎng)民的點贊，如近期發(fā)生的信陽小學教師李芳為救學生犧牲的事情，迅速在網(wǎng)絡擴散傳播，感動了所有網(wǎng)友。因此，挖掘和分析包含網(wǎng)民情感的網(wǎng)絡群體性事件的輿情信息，可以有效地獲取所需的重要信息，了解網(wǎng)絡輿情的發(fā)展動向，從而進行有效的掌握和引導。面對龐大復雜的網(wǎng)絡評論，僅僅依靠人工進行分析已經(jīng)成為不可能完成的任務，利用計算機自動對文本進行分析成為目前的主流。情感詞典作為文本情感分析的重要工具, 越來越多的組織和研究人員開始關注其構建問題[1]。

構建情感詞典的方法有多種，如Kim等使用詞語資源[2]，Hatzivassiloglou等使用大型語料庫[3]，Velikovich等使用網(wǎng)絡[4]，他們都通過獲取詞語之間的語義關系來構建大規(guī)模的情感詞典。在群體性事件爆發(fā)后，網(wǎng)絡上會充斥著各式各樣的言論，而微博作為當前最具代表性且擁有數(shù)億用戶的一個特色網(wǎng)絡社交平臺，通過簡短卻帶著濃烈的個人感情色彩和強烈的主觀色彩的句子，反映了對某個事件的態(tài)度，表達了受眾的真實情感。本文主要通過采集微博評論內(nèi)容，收集微博情感詞，在已有資源的基礎上，構建一個針對群體性事件網(wǎng)絡輿情的情感詞典。

1 相關詞典的構建

1.1 基礎情感詞典的構建

基礎情感詞典主要是基于現(xiàn)有的知網(wǎng)Hownet情感詞典和臺灣大學簡體中文情感極性詞典(NTSUSD)[5]而構建。知網(wǎng)的“中文情感分析用詞語集”包括6個子文件：“正面情感”詞語，如愛、贊賞、快樂、感同身受、好奇、喝彩、魂牽夢縈、嘉許等；“負面情感”詞語，如哀傷、半信半疑、鄙視、不滿意、不是滋味兒、后悔、大失所望等；“正面評價”詞語，如：不可或缺、才高八斗、沉魚落雁、催人奮進、動聽、對勁兒等；“負面評價”詞語，如丑、苦、超標、華而不實、荒涼、混濁、畸輕畸重、價高、空洞無物等；“程度級別”詞語和“主張”詞語[6]。臺灣大學簡體中文情感極性詞典(NTSUSD)共包含2812個正向情感詞和8278個負向情感詞，是基于二元情感分類劃分的一個中文詞語數(shù)據(jù)庫。本文將這兩個中文情感詞典進行融合，對相同極性的詞語進行消重，重新分類組合，組成所需要的基礎情感詞典。此外，對知網(wǎng)(Hownet)里面的程度副詞設置了不同的權值。

1.2 網(wǎng)絡用語情感詞典

網(wǎng)絡語言是在網(wǎng)絡上被廣泛使用的一種新的語言形態(tài)[7]，如QQ中的隱身“潛水”、Thank you用3Q代替，這些都非常口語話。各種俗語和俚語被廣泛使用，如“猴賽雷”、“神馬都是浮云”等，甚至一些粗話、臟話，如“你妹”、“然并卵”、“日了狗”等。網(wǎng)絡用語之所以能夠傳播，在于它被認同，反映某種現(xiàn)實，類似“猴賽雷”這些網(wǎng)絡用語，形象鮮明地反映當時網(wǎng)民的情緒，具有明確的情感傾向。但是網(wǎng)絡用語更新快、傳播迅速，未能及時納入到傳統(tǒng)的情感詞典中，用傳統(tǒng)的情感詞典對這些網(wǎng)絡文本進行分析時往往會出現(xiàn)很多錯誤?；诖耍槍W(wǎng)絡文本的情感分析必須構建網(wǎng)絡用語的情感詞典。

網(wǎng)絡語言創(chuàng)新性強，自我更新速度快，易被人們在網(wǎng)絡上使用，其來源也相當復雜，目前也沒有什么有效的方法直接獲取大量的網(wǎng)絡用詞。本文通過人工的方式從近10年的百度熱門網(wǎng)絡流行語和搜狗拼音詞庫網(wǎng)絡流行新詞中抽取、整理得到網(wǎng)絡用語情感詞典。正面網(wǎng)絡用語情感詞典，如“給力”、“碉堡”、“稀飯”、“猴賽雷”等，負面網(wǎng)絡用語情感詞典，如“坑爹”、“尼瑪”、“然并卵”、“次奧”等。

1.3 網(wǎng)絡表情符號情感詞典

圖1微博表情符號

在網(wǎng)絡用語中表情符號使用非常廣泛，表情符號用來生動呈現(xiàn)和描摹日常面對面交際中的非言語信息[8]，網(wǎng)民通過使用表情符號形象地表達自己當前的感情，網(wǎng)絡表情符號如圖1所示：

1.4 否定詞詞典

否定詞會對情感傾向起到否定和反轉的作用，會改變情感極性[9]。當否定詞修飾正面情感詞時，會將正向情感變成負面，比如“好”，加一個否定詞“不”變?yōu)椤安缓谩薄７粗?，也同樣會將負面的情感反轉。如果仍舊使用情感詞的極性進行文本分析，必然造成結果南轅北轍。因此，為了更加準確地判斷情感極性，需要構建否定詞詞典。本文根據(jù)微博文本收集了部分常用的否定詞，如不、沒、未嘗、并非、否、絕不、尚未等。

1.5 領域詞典構建

網(wǎng)絡輿情作為輿情的一個組成部分和主要表現(xiàn)形式，是指網(wǎng)民或媒體以網(wǎng)絡為載體、以事件為核心的情感、態(tài)度、意見、觀點的表達、傳播與互動以及后續(xù)影響力的集合，以及對某一社會公共事務或焦點問題所表現(xiàn)出的具有某種傾向性的、有一定影響力的意見或言論[10]。這也就要求我們在針對群體性事件的網(wǎng)絡輿情構建情感詞典時，應該考慮領域的特殊性，選擇領域詞匯對情感詞典進行完善補充。信息的主題主要包括：生存危機、公共安全、腐敗、分配差距、時政、法制等[11]。如“石首事件”、“我爸是李剛案”、“郭美美案”、“楊達才手表案”等，反映的都是腐敗、官民矛盾、貧富差距等社會矛盾。本文通過搜集新浪微博事件主題文本得到語料集，提取情感詞，對語料集進行預處理、詞頻統(tǒng)計、關鍵詞提取等。中科院計算所的張華平、劉群所開發(fā)的一套獲得廣泛好評的NLPIR-ICTCLAS漢語分詞系統(tǒng)，其主要功能包括中文分詞、英文分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取、支持用戶專業(yè)詞典與微博分析。本文利用該系統(tǒng)對事件文本進行分析，得到標注的各類分詞，對其中的情感詞進行篩選，并與前文提到的三個情感詞典中的情感詞匯對比，去掉不相關的詞語和明顯在其他領域都具有普遍情感傾向的詞語，得到本文所需的群體性事件輿情情感詞匯集。

2 情感傾向性計算

對情感詞做了匯總后，再對情感極性強度進行計算和說明。情感傾向性可理解為情感的極性，在群體性事件中用戶發(fā)表的微博文本所表達的觀點是正面情感、負面情感還是中性情感，需要經(jīng)過分析得出。本文采用支持向量機模型(Support Vector Machine)[12]進行情感分析。

2.1 SVM文本特征提取

首先通過詞頻計算出權重，按權重從大到小排序，然后剔除無用詞，這些詞通常是與主題無關的，任何類的微博文本中都有可能大量出現(xiàn)的，比如“的”“是”“在”一類的詞，一般在停詞表中已定義好。去除這些詞以后，有一個新的序列排下來，然后可以按照實際需求選取權重最高的前4個或者更多詞匯來代表該文本的核心內(nèi)容。

特征項的提取步驟如圖2所示：

圖2 特征項的提取步驟

2.2 文本特征選擇

本文利用改進的TF-IDF公式[13]計算詞的權值，情感詞在某個類別文本出現(xiàn)的次數(shù)越多，則對于表征該類別越重要。公式如下：

其中w(i,k)為文本i中特征項k的影響程度表征，tf(i,k)為特征項k在文本i中的頻率，N表示情感訓練數(shù)據(jù)集總數(shù)量，p(k)為情感訓練數(shù)據(jù)集中出現(xiàn)特征項k的頻率，分母為歸一化因子。

2.3 SVM訓練

本文主要用于研究群體性事件，采集的數(shù)據(jù)是某群體性事件爆發(fā)后網(wǎng)友的微博評論文本。訓練的特征選擇包括情感詞和修飾情感詞的否定詞，以及它們在文本中出現(xiàn)的位置和數(shù)量。通過訓練得到關于情感傾向性分類的模型。

3 實驗分析

本文通過采集2018年5月份原央視知名主持人崔永元在微博陸續(xù)發(fā)文爆料娛樂圈明星“陰陽合同”事件中網(wǎng)友評論，驗證所建情感詞典的有效性。共采集6198條微博評論，從中選取2000條，人工標注情感傾向性用于測試，其中正面情感和負面情感各1000條。

3.1 性能評估指標

性能評估指標主要為準確率和召回率[14-15]。準確率(Precision)，記為p，是指通過分類實驗后，該類的正確數(shù)目(k)占判斷屬于該類別數(shù)目(n)的比值，反應情感分類模型的準確性，其數(shù)學公式為：

(1)

召回率(Recall)記為r, 通過分類實驗后，判斷為該類的正確數(shù)目(k)占本應判斷為該類別數(shù)目(1)的比值，其數(shù)學公式為：

(2)

相關文獻表明，這兩個指標在一定程度上是相互制約的關系，故需要引入一個合適的度來衡量，尋求兩者之間的一個平衡點。選用一個綜合度量指標 F1 作為兩者的調(diào)和平均數(shù)來衡量：

(3)

3.2 實驗結果

利用上節(jié)介紹的語料預處理方法對實驗語料進行預處理后，采用傳統(tǒng)的基礎詞典與本文構建的情感詞典進行實驗。首先使用僅包括基礎情感詞典的傳統(tǒng)方式，對預料進行預處理后，采用支持向量機模型(SVM)進行情感分析，得出的實驗結果如表1所示。

表1 傳統(tǒng)的基礎詞典

而后，采用本文的方法，在基礎情感詞典的基礎上，構建針對網(wǎng)絡的網(wǎng)絡用語詞典、網(wǎng)絡表情符號詞典、否定詞詞典以及群體性事件的網(wǎng)絡輿情領域詞典，在此基礎上再針對所選實驗微博語料進行預處理，使用SVM情感分類，結果如表2所示。

表2 本文構建的詞典

從表1和表2可以看出，使用本文構建的情感詞典處理，實驗結果與傳統(tǒng)詞典相比無論是準確率還是召回率都有一定提高。

4 結論

本文針對群體性事件網(wǎng)絡輿情，構建了領域詞典。通過對人工標注后的微博事件評論文本進行驗證，發(fā)現(xiàn)本文構建的用于群體性事件輿情詞典，提高了微博文本情感分類的準確率和召回率，達到了預期效果。但是本文所做的工作還遠遠不夠，如對多義性情感詞和隱含性情感句規(guī)則的構建并未加以考慮。如同一個詞用在不同的語境下所表達的情感可能截然不同，有些評價詞語也會出現(xiàn)在不帶感情色彩的文本中，等等，這些都會影響對情感傾向的分析和判斷。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡