呂翔,劉陸民
(信陽農(nóng)林學院 信息工程學院,河南 信陽 464000)
網(wǎng)絡時代的信息爆炸是毋庸置疑的,社交媒體尤其是近幾年“兩微一端”(微信、微博、移動客戶端)為人們提供了網(wǎng)絡溝通、網(wǎng)絡評論、觀點分享等更為便捷和自由的網(wǎng)絡平臺。這給人們生活帶來了極大的便捷性但也孕育著極大的危機。以往群體性事件爆發(fā)后消息的傳播有其局限性,地域性事件往往很難有大范圍的傳播。而現(xiàn)在,借助于網(wǎng)絡平臺各種社會矛盾和熱點問題可以在極短的時間內(nèi)迅速傳播到各個網(wǎng)絡能延伸到的區(qū)域。網(wǎng)民們在不明所以的情況下肆意表達自己的觀點,反而對事件的本身起到了推波助瀾的作用。一些負面的“網(wǎng)絡群體性事件”將在短時間內(nèi)產(chǎn)生嚴重的影響。同樣,一些積極向上的正能量表達也能迅速得到廣大網(wǎng)民的點贊,如近期發(fā)生的信陽小學教師李芳為救學生犧牲的事情,迅速在網(wǎng)絡擴散傳播,感動了所有網(wǎng)友。因此,挖掘和分析包含網(wǎng)民情感的網(wǎng)絡群體性事件的輿情信息,可以有效地獲取所需的重要信息,了解網(wǎng)絡輿情的發(fā)展動向,從而進行有效的掌握和引導。面對龐大復雜的網(wǎng)絡評論,僅僅依靠人工進行分析已經(jīng)成為不可能完成的任務,利用計算機自動對文本進行分析成為目前的主流。情感詞典作為文本情感分析的重要工具, 越來越多的組織和研究人員開始關注其構建問題[1]。
構建情感詞典的方法有多種,如Kim等使用詞語資源[2],Hatzivassiloglou等使用大型語料庫[3],Velikovich等使用網(wǎng)絡[4],他們都通過獲取詞語之間的語義關系來構建大規(guī)模的情感詞典。在群體性事件爆發(fā)后,網(wǎng)絡上會充斥著各式各樣的言論,而微博作為當前最具代表性且擁有數(shù)億用戶的一個特色網(wǎng)絡社交平臺,通過簡短卻帶著濃烈的個人感情色彩和強烈的主觀色彩的句子,反映了對某個事件的態(tài)度,表達了受眾的真實情感。本文主要通過采集微博評論內(nèi)容,收集微博情感詞,在已有資源的基礎上,構建一個針對群體性事件網(wǎng)絡輿情的情感詞典。
基礎情感詞典主要是基于現(xiàn)有的知網(wǎng)Hownet情感詞典和臺灣大學簡體中文情感極性詞典(NTSUSD)[5]而構建。知網(wǎng)的“中文情感分析用詞語集”包括6個子文件:“正面情感”詞語,如愛、贊賞、快樂、感同身受、好奇、喝彩、魂牽夢縈、嘉許等;“負面情感”詞語,如哀傷、半信半疑、鄙視、不滿意、不是滋味兒、后悔、大失所望等;“正面評價”詞語,如:不可或缺、才高八斗、沉魚落雁、催人奮進、動聽、對勁兒等;“負面評價”詞語,如丑、苦、超標、華而不實、荒涼、混濁、畸輕畸重、價高、空洞無物等;“程度級別”詞語和“主張”詞語[6]。臺灣大學簡體中文情感極性詞典(NTSUSD)共包含2812個正向情感詞和8278個負向情感詞,是基于二元情感分類劃分的一個中文詞語數(shù)據(jù)庫。本文將這兩個中文情感詞典進行融合,對相同極性的詞語進行消重,重新分類組合,組成所需要的基礎情感詞典。此外,對知網(wǎng)(Hownet)里面的程度副詞設置了不同的權值。
網(wǎng)絡語言是在網(wǎng)絡上被廣泛使用的一種新的語言形態(tài)[7],如QQ中的隱身“潛水”、Thank you用3Q代替,這些都非常口語話。各種俗語和俚語被廣泛使用,如“猴賽雷”、“神馬都是浮云”等,甚至一些粗話、臟話,如“你妹”、“然并卵”、“日了狗”等。網(wǎng)絡用語之所以能夠傳播,在于它被認同,反映某種現(xiàn)實,類似“猴賽雷”這些網(wǎng)絡用語,形象鮮明地反映當時網(wǎng)民的情緒,具有明確的情感傾向。但是網(wǎng)絡用語更新快、傳播迅速,未能及時納入到傳統(tǒng)的情感詞典中,用傳統(tǒng)的情感詞典對這些網(wǎng)絡文本進行分析時往往會出現(xiàn)很多錯誤?;诖耍槍W(wǎng)絡文本的情感分析必須構建網(wǎng)絡用語的情感詞典。
網(wǎng)絡語言創(chuàng)新性強,自我更新速度快,易被人們在網(wǎng)絡上使用,其來源也相當復雜,目前也沒有什么有效的方法直接獲取大量的網(wǎng)絡用詞。本文通過人工的方式從近10年的百度熱門網(wǎng)絡流行語和搜狗拼音詞庫網(wǎng)絡流行新詞中抽取、整理得到網(wǎng)絡用語情感詞典。正面網(wǎng)絡用語情感詞典,如“給力”、“碉堡”、“稀飯”、“猴賽雷”等,負面網(wǎng)絡用語情感詞典,如“坑爹”、“尼瑪”、“然并卵”、“次奧”等。
圖1微博表情符號
在網(wǎng)絡用語中表情符號使用非常廣泛,表情符號用來生動呈現(xiàn)和描摹日常面對面交際中的非言語信息[8],網(wǎng)民通過使用表情符號形象地表達自己當前的感情,網(wǎng)絡表情符號如圖1所示:
否定詞會對情感傾向起到否定和反轉的作用,會改變情感極性[9]。當否定詞修飾正面情感詞時,會將正向情感變成負面,比如“好”,加一個否定詞“不”變?yōu)椤安缓谩薄7粗?,也同樣會將負面的情感反轉。如果仍舊使用情感詞的極性進行文本分析,必然造成結果南轅北轍。因此,為了更加準確地判斷情感極性,需要構建否定詞詞典。本文根據(jù)微博文本收集了部分常用的否定詞,如不、沒、未嘗、并非、否、絕不、尚未等。
網(wǎng)絡輿情作為輿情的一個組成部分和主要表現(xiàn)形式,是指網(wǎng)民或媒體以網(wǎng)絡為載體、以事件為核心的情感、態(tài)度、意見、觀點的表達、傳播與互動以及后續(xù)影響力的集合,以及對某一社會公共事務或焦點問題所表現(xiàn)出的具有某種傾向性的、有一定影響力的意見或言論[10]。這也就要求我們在針對群體性事件的網(wǎng)絡輿情構建情感詞典時,應該考慮領域的特殊性,選擇領域詞匯對情感詞典進行完善補充。信息的主題主要包括:生存危機、公共安全、腐敗、分配差距、時政、法制等[11]。如“石首事件”、“我爸是李剛案”、“郭美美案”、“楊達才手表案”等,反映的都是腐敗、官民矛盾、貧富差距等社會矛盾。本文通過搜集新浪微博事件主題文本得到語料集,提取情感詞,對語料集進行預處理、詞頻統(tǒng)計、關鍵詞提取等。中科院計算所的張華平、劉群所開發(fā)的一套獲得廣泛好評的NLPIR-ICTCLAS漢語分詞系統(tǒng),其主要功能包括中文分詞、英文分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取、支持用戶專業(yè)詞典與微博分析。本文利用該系統(tǒng)對事件文本進行分析,得到標注的各類分詞,對其中的情感詞進行篩選,并與前文提到的三個情感詞典中的情感詞匯對比,去掉不相關的詞語和明顯在其他領域都具有普遍情感傾向的詞語,得到本文所需的群體性事件輿情情感詞匯集。
對情感詞做了匯總后,再對情感極性強度進行計算和說明。情感傾向性可理解為情感的極性,在群體性事件中用戶發(fā)表的微博文本所表達的觀點是正面情感、負面情感還是中性情感,需要經(jīng)過分析得出。本文采用支持向量機模型(Support Vector Machine)[12]進行情感分析。
首先通過詞頻計算出權重,按權重從大到小排序,然后剔除無用詞,這些詞通常是與主題無關的,任何類的微博文本中都有可能大量出現(xiàn)的,比如“的”“是”“在”一類的詞,一般在停詞表中已定義好。去除這些詞以后,有一個新的序列排下來,然后可以按照實際需求選取權重最高的前4個或者更多詞匯來代表該文本的核心內(nèi)容。
特征項的提取步驟如圖2所示:
圖2 特征項的提取步驟
本文利用改進的TF-IDF公式[13]計算詞的權值,情感詞在某個類別文本出現(xiàn)的次數(shù)越多,則對于表征該類別越重要。公式如下:
其中w(i,k)為文本i中特征項k的影響程度表征,tf(i,k)為特征項k在文本i中的頻率,N表示情感訓練數(shù)據(jù)集總數(shù)量,p(k)為情感訓練數(shù)據(jù)集中出現(xiàn)特征項k的頻率,分母為歸一化因子。
本文主要用于研究群體性事件,采集的數(shù)據(jù)是某群體性事件爆發(fā)后網(wǎng)友的微博評論文本。訓練的特征選擇包括情感詞和修飾情感詞的否定詞,以及它們在文本中出現(xiàn)的位置和數(shù)量。通過訓練得到關于情感傾向性分類的模型。
本文通過采集2018年5月份原央視知名主持人崔永元在微博陸續(xù)發(fā)文爆料娛樂圈明星“陰陽合同”事件中網(wǎng)友評論,驗證所建情感詞典的有效性。共采集6198條微博評論,從中選取2000條,人工標注情感傾向性用于測試,其中正面情感和負面情感各1000條。
性能評估指標主要為準確率和召回率[14-15]。準確率(Precision),記為p,是指通過分類實驗后,該類的正確數(shù)目(k)占判斷屬于該類別數(shù)目(n)的比值,反應情感分類模型的準確性,其數(shù)學公式為:
(1)
召回率(Recall)記為r, 通過分類實驗后,判斷為該類的正確數(shù)目(k)占本應判斷為該類別數(shù)目(1)的比值,其數(shù)學公式為:
(2)
相關文獻表明,這兩個指標在一定程度上是相互制約的關系,故需要引入一個合適的度來衡量,尋求兩者之間的一個平衡點。選用一個綜合度量指標 F1 作為兩者的調(diào)和平均數(shù)來衡量:
(3)
利用上節(jié)介紹的語料預處理方法對實驗語料進行預處理后,采用傳統(tǒng)的基礎詞典與本文構建的情感詞典進行實驗。首先使用僅包括基礎情感詞典的傳統(tǒng)方式,對預料進行預處理后,采用支持向量機模型(SVM)進行情感分析,得出的實驗結果如表1所示。
表1 傳統(tǒng)的基礎詞典
而后,采用本文的方法,在基礎情感詞典的基礎上,構建針對網(wǎng)絡的網(wǎng)絡用語詞典、網(wǎng)絡表情符號詞典、否定詞詞典以及群體性事件的網(wǎng)絡輿情領域詞典,在此基礎上再針對所選實驗微博語料進行預處理,使用SVM情感分類,結果如表2所示。
表2 本文構建的詞典
從表1和表2可以看出,使用本文構建的情感詞典處理,實驗結果與傳統(tǒng)詞典相比無論是準確率還是召回率都有一定提高。
本文針對群體性事件網(wǎng)絡輿情,構建了領域詞典。通過對人工標注后的微博事件評論文本進行驗證,發(fā)現(xiàn)本文構建的用于群體性事件輿情詞典,提高了微博文本情感分類的準確率和召回率,達到了預期效果。但是本文所做的工作還遠遠不夠,如對多義性情感詞和隱含性情感句規(guī)則的構建并未加以考慮。如同一個詞用在不同的語境下所表達的情感可能截然不同,有些評價詞語也會出現(xiàn)在不帶感情色彩的文本中,等等,這些都會影響對情感傾向的分析和判斷。