国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

群體性事件網(wǎng)絡輿情情感分析的情感詞典構建

2019-06-27 09:39:52呂翔劉陸民
信陽農(nóng)林學院學報 2019年2期
關鍵詞:表情符號群體性用語

呂翔,劉陸民

(信陽農(nóng)林學院 信息工程學院,河南 信陽 464000)

網(wǎng)絡時代的信息爆炸是毋庸置疑的,社交媒體尤其是近幾年“兩微一端”(微信、微博、移動客戶端)為人們提供了網(wǎng)絡溝通、網(wǎng)絡評論、觀點分享等更為便捷和自由的網(wǎng)絡平臺。這給人們生活帶來了極大的便捷性但也孕育著極大的危機。以往群體性事件爆發(fā)后消息的傳播有其局限性,地域性事件往往很難有大范圍的傳播。而現(xiàn)在,借助于網(wǎng)絡平臺各種社會矛盾和熱點問題可以在極短的時間內(nèi)迅速傳播到各個網(wǎng)絡能延伸到的區(qū)域。網(wǎng)民們在不明所以的情況下肆意表達自己的觀點,反而對事件的本身起到了推波助瀾的作用。一些負面的“網(wǎng)絡群體性事件”將在短時間內(nèi)產(chǎn)生嚴重的影響。同樣,一些積極向上的正能量表達也能迅速得到廣大網(wǎng)民的點贊,如近期發(fā)生的信陽小學教師李芳為救學生犧牲的事情,迅速在網(wǎng)絡擴散傳播,感動了所有網(wǎng)友。因此,挖掘和分析包含網(wǎng)民情感的網(wǎng)絡群體性事件的輿情信息,可以有效地獲取所需的重要信息,了解網(wǎng)絡輿情的發(fā)展動向,從而進行有效的掌握和引導。面對龐大復雜的網(wǎng)絡評論,僅僅依靠人工進行分析已經(jīng)成為不可能完成的任務,利用計算機自動對文本進行分析成為目前的主流。情感詞典作為文本情感分析的重要工具, 越來越多的組織和研究人員開始關注其構建問題[1]。

構建情感詞典的方法有多種,如Kim等使用詞語資源[2],Hatzivassiloglou等使用大型語料庫[3],Velikovich等使用網(wǎng)絡[4],他們都通過獲取詞語之間的語義關系來構建大規(guī)模的情感詞典。在群體性事件爆發(fā)后,網(wǎng)絡上會充斥著各式各樣的言論,而微博作為當前最具代表性且擁有數(shù)億用戶的一個特色網(wǎng)絡社交平臺,通過簡短卻帶著濃烈的個人感情色彩和強烈的主觀色彩的句子,反映了對某個事件的態(tài)度,表達了受眾的真實情感。本文主要通過采集微博評論內(nèi)容,收集微博情感詞,在已有資源的基礎上,構建一個針對群體性事件網(wǎng)絡輿情的情感詞典。

1 相關詞典的構建

1.1 基礎情感詞典的構建

基礎情感詞典主要是基于現(xiàn)有的知網(wǎng)Hownet情感詞典和臺灣大學簡體中文情感極性詞典(NTSUSD)[5]而構建。知網(wǎng)的“中文情感分析用詞語集”包括6個子文件:“正面情感”詞語,如愛、贊賞、快樂、感同身受、好奇、喝彩、魂牽夢縈、嘉許等;“負面情感”詞語,如哀傷、半信半疑、鄙視、不滿意、不是滋味兒、后悔、大失所望等;“正面評價”詞語,如:不可或缺、才高八斗、沉魚落雁、催人奮進、動聽、對勁兒等;“負面評價”詞語,如丑、苦、超標、華而不實、荒涼、混濁、畸輕畸重、價高、空洞無物等;“程度級別”詞語和“主張”詞語[6]。臺灣大學簡體中文情感極性詞典(NTSUSD)共包含2812個正向情感詞和8278個負向情感詞,是基于二元情感分類劃分的一個中文詞語數(shù)據(jù)庫。本文將這兩個中文情感詞典進行融合,對相同極性的詞語進行消重,重新分類組合,組成所需要的基礎情感詞典。此外,對知網(wǎng)(Hownet)里面的程度副詞設置了不同的權值。

1.2 網(wǎng)絡用語情感詞典

網(wǎng)絡語言是在網(wǎng)絡上被廣泛使用的一種新的語言形態(tài)[7],如QQ中的隱身“潛水”、Thank you用3Q代替,這些都非常口語話。各種俗語和俚語被廣泛使用,如“猴賽雷”、“神馬都是浮云”等,甚至一些粗話、臟話,如“你妹”、“然并卵”、“日了狗”等。網(wǎng)絡用語之所以能夠傳播,在于它被認同,反映某種現(xiàn)實,類似“猴賽雷”這些網(wǎng)絡用語,形象鮮明地反映當時網(wǎng)民的情緒,具有明確的情感傾向。但是網(wǎng)絡用語更新快、傳播迅速,未能及時納入到傳統(tǒng)的情感詞典中,用傳統(tǒng)的情感詞典對這些網(wǎng)絡文本進行分析時往往會出現(xiàn)很多錯誤?;诖耍槍W(wǎng)絡文本的情感分析必須構建網(wǎng)絡用語的情感詞典。

網(wǎng)絡語言創(chuàng)新性強,自我更新速度快,易被人們在網(wǎng)絡上使用,其來源也相當復雜,目前也沒有什么有效的方法直接獲取大量的網(wǎng)絡用詞。本文通過人工的方式從近10年的百度熱門網(wǎng)絡流行語和搜狗拼音詞庫網(wǎng)絡流行新詞中抽取、整理得到網(wǎng)絡用語情感詞典。正面網(wǎng)絡用語情感詞典,如“給力”、“碉堡”、“稀飯”、“猴賽雷”等,負面網(wǎng)絡用語情感詞典,如“坑爹”、“尼瑪”、“然并卵”、“次奧”等。

1.3 網(wǎng)絡表情符號情感詞典

圖1微博表情符號

在網(wǎng)絡用語中表情符號使用非常廣泛,表情符號用來生動呈現(xiàn)和描摹日常面對面交際中的非言語信息[8],網(wǎng)民通過使用表情符號形象地表達自己當前的感情,網(wǎng)絡表情符號如圖1所示:

1.4 否定詞詞典

否定詞會對情感傾向起到否定和反轉的作用,會改變情感極性[9]。當否定詞修飾正面情感詞時,會將正向情感變成負面,比如“好”,加一個否定詞“不”變?yōu)椤安缓谩薄7粗?,也同樣會將負面的情感反轉。如果仍舊使用情感詞的極性進行文本分析,必然造成結果南轅北轍。因此,為了更加準確地判斷情感極性,需要構建否定詞詞典。本文根據(jù)微博文本收集了部分常用的否定詞,如不、沒、未嘗、并非、否、絕不、尚未等。

1.5 領域詞典構建

網(wǎng)絡輿情作為輿情的一個組成部分和主要表現(xiàn)形式,是指網(wǎng)民或媒體以網(wǎng)絡為載體、以事件為核心的情感、態(tài)度、意見、觀點的表達、傳播與互動以及后續(xù)影響力的集合,以及對某一社會公共事務或焦點問題所表現(xiàn)出的具有某種傾向性的、有一定影響力的意見或言論[10]。這也就要求我們在針對群體性事件的網(wǎng)絡輿情構建情感詞典時,應該考慮領域的特殊性,選擇領域詞匯對情感詞典進行完善補充。信息的主題主要包括:生存危機、公共安全、腐敗、分配差距、時政、法制等[11]。如“石首事件”、“我爸是李剛案”、“郭美美案”、“楊達才手表案”等,反映的都是腐敗、官民矛盾、貧富差距等社會矛盾。本文通過搜集新浪微博事件主題文本得到語料集,提取情感詞,對語料集進行預處理、詞頻統(tǒng)計、關鍵詞提取等。中科院計算所的張華平、劉群所開發(fā)的一套獲得廣泛好評的NLPIR-ICTCLAS漢語分詞系統(tǒng),其主要功能包括中文分詞、英文分詞、詞性標注、命名實體識別、新詞識別、關鍵詞提取、支持用戶專業(yè)詞典與微博分析。本文利用該系統(tǒng)對事件文本進行分析,得到標注的各類分詞,對其中的情感詞進行篩選,并與前文提到的三個情感詞典中的情感詞匯對比,去掉不相關的詞語和明顯在其他領域都具有普遍情感傾向的詞語,得到本文所需的群體性事件輿情情感詞匯集。

2 情感傾向性計算

對情感詞做了匯總后,再對情感極性強度進行計算和說明。情感傾向性可理解為情感的極性,在群體性事件中用戶發(fā)表的微博文本所表達的觀點是正面情感、負面情感還是中性情感,需要經(jīng)過分析得出。本文采用支持向量機模型(Support Vector Machine)[12]進行情感分析。

2.1 SVM文本特征提取

首先通過詞頻計算出權重,按權重從大到小排序,然后剔除無用詞,這些詞通常是與主題無關的,任何類的微博文本中都有可能大量出現(xiàn)的,比如“的”“是”“在”一類的詞,一般在停詞表中已定義好。去除這些詞以后,有一個新的序列排下來,然后可以按照實際需求選取權重最高的前4個或者更多詞匯來代表該文本的核心內(nèi)容。

特征項的提取步驟如圖2所示:

圖2 特征項的提取步驟

2.2 文本特征選擇

本文利用改進的TF-IDF公式[13]計算詞的權值,情感詞在某個類別文本出現(xiàn)的次數(shù)越多,則對于表征該類別越重要。公式如下:

其中w(i,k)為文本i中特征項k的影響程度表征,tf(i,k)為特征項k在文本i中的頻率,N表示情感訓練數(shù)據(jù)集總數(shù)量,p(k)為情感訓練數(shù)據(jù)集中出現(xiàn)特征項k的頻率,分母為歸一化因子。

2.3 SVM訓練

本文主要用于研究群體性事件,采集的數(shù)據(jù)是某群體性事件爆發(fā)后網(wǎng)友的微博評論文本。訓練的特征選擇包括情感詞和修飾情感詞的否定詞,以及它們在文本中出現(xiàn)的位置和數(shù)量。通過訓練得到關于情感傾向性分類的模型。

3 實驗分析

本文通過采集2018年5月份原央視知名主持人崔永元在微博陸續(xù)發(fā)文爆料娛樂圈明星“陰陽合同”事件中網(wǎng)友評論,驗證所建情感詞典的有效性。共采集6198條微博評論,從中選取2000條,人工標注情感傾向性用于測試,其中正面情感和負面情感各1000條。

3.1 性能評估指標

性能評估指標主要為準確率和召回率[14-15]。準確率(Precision),記為p,是指通過分類實驗后,該類的正確數(shù)目(k)占判斷屬于該類別數(shù)目(n)的比值,反應情感分類模型的準確性,其數(shù)學公式為:

(1)

召回率(Recall)記為r, 通過分類實驗后,判斷為該類的正確數(shù)目(k)占本應判斷為該類別數(shù)目(1)的比值,其數(shù)學公式為:

(2)

相關文獻表明,這兩個指標在一定程度上是相互制約的關系,故需要引入一個合適的度來衡量,尋求兩者之間的一個平衡點。選用一個綜合度量指標 F1 作為兩者的調(diào)和平均數(shù)來衡量:

(3)

3.2 實驗結果

利用上節(jié)介紹的語料預處理方法對實驗語料進行預處理后,采用傳統(tǒng)的基礎詞典與本文構建的情感詞典進行實驗。首先使用僅包括基礎情感詞典的傳統(tǒng)方式,對預料進行預處理后,采用支持向量機模型(SVM)進行情感分析,得出的實驗結果如表1所示。

表1 傳統(tǒng)的基礎詞典

而后,采用本文的方法,在基礎情感詞典的基礎上,構建針對網(wǎng)絡的網(wǎng)絡用語詞典、網(wǎng)絡表情符號詞典、否定詞詞典以及群體性事件的網(wǎng)絡輿情領域詞典,在此基礎上再針對所選實驗微博語料進行預處理,使用SVM情感分類,結果如表2所示。

表2 本文構建的詞典

從表1和表2可以看出,使用本文構建的情感詞典處理,實驗結果與傳統(tǒng)詞典相比無論是準確率還是召回率都有一定提高。

4 結論

本文針對群體性事件網(wǎng)絡輿情,構建了領域詞典。通過對人工標注后的微博事件評論文本進行驗證,發(fā)現(xiàn)本文構建的用于群體性事件輿情詞典,提高了微博文本情感分類的準確率和召回率,達到了預期效果。但是本文所做的工作還遠遠不夠,如對多義性情感詞和隱含性情感句規(guī)則的構建并未加以考慮。如同一個詞用在不同的語境下所表達的情感可能截然不同,有些評價詞語也會出現(xiàn)在不帶感情色彩的文本中,等等,這些都會影響對情感傾向的分析和判斷。

猜你喜歡
表情符號群體性用語
微信表情符號寫入判決:你發(fā)的每個表情都可能成為呈堂證供
消費電子(2022年6期)2022-08-25 09:43:52
深度思考之常用邏輯用語
常用邏輯用語的八個易錯點
密切黨群關系在群體性事件治理中的作用及途徑
學習月刊(2016年19期)2016-07-11 01:59:44
這個表情符號,你用對了嗎
大作文(2016年7期)2016-05-14 11:13:25
表情符號玩上癮 時尚愛嘗鮮
Coco薇(2015年10期)2015-10-19 01:01:58
禮貌用語大家學!
談涉警網(wǎng)絡群體性事件的應對之策
新聞傳播(2015年21期)2015-07-18 11:14:21
論網(wǎng)絡與群體性事件
2012年上半年群體性事件分析報告
勃利县| 临潭县| 兴山县| 霍邱县| 卢龙县| 峨山| 神农架林区| 溆浦县| 永康市| 萨迦县| 阳谷县| 东丰县| 汉寿县| 万山特区| 辽阳县| 秭归县| 资溪县| 安仁县| 柘城县| 蓝山县| 驻马店市| 炉霍县| 凤山县| 西华县| 定襄县| 万源市| 南康市| 峨边| 中江县| 晋中市| 晴隆县| 出国| 大余县| 华容县| 呈贡县| 满城县| 临湘市| 灵武市| 汽车| 湾仔区| 青田县|