易寒冰,劉倩
公安部第一研究所,北京 100048
文本情感分析作為自然語(yǔ)言處理的任務(wù)之一,由Nasukawa[1]等人于2003 年首次提出。近年來(lái),隨著自媒體的快速興起,相應(yīng)地對(duì)社交平臺(tái)上熱點(diǎn)事件的情感傾向分析也成了熱點(diǎn)研究問題,對(duì)網(wǎng)友就熱點(diǎn)事件發(fā)表的言論進(jìn)行情感分析,是了解公眾情緒和意見的重要工具[2],也是快速獲取事件走勢(shì)、轉(zhuǎn)折點(diǎn)等重要信息的關(guān)鍵技術(shù)。
目前,基于社交媒體的情感分析在醫(yī)療、金融、社會(huì)學(xué)、政務(wù)等多方面都有很多研究,例如,對(duì)世界各地發(fā)生的伊斯蘭國(guó)恐怖主義襲擊事件相關(guān)文本的情感檢測(cè),能幫助發(fā)現(xiàn)恐怖分子社交賬戶、提供有效信息[3]。還有研究將社交媒體情感分析結(jié)果作為傳統(tǒng)離線民意調(diào)查的補(bǔ)充數(shù)據(jù),用來(lái)監(jiān)測(cè)選舉活動(dòng),并對(duì)選舉結(jié)果進(jìn)行預(yù)測(cè)[4]等。不可否認(rèn)對(duì)社交媒體的言論進(jìn)行情感分析能夠獲取大量潛在情報(bào),而快速準(zhǔn)確地獲取信息可大幅提升對(duì)輿情等事件的應(yīng)對(duì)和預(yù)防能力。
社交媒體短文本情感分析技術(shù)目前主要分為三類:基于情感詞典的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,以及基于深度學(xué)習(xí)的方法[1]。
情感詞典最早由Whissell[5]等于1998 年提出?;谇楦性~典的方法主要是根據(jù)情感知識(shí)構(gòu)建詞典,情感分析的結(jié)果很大程度依賴情感詞典的質(zhì)量,雖然也有很多研究致力于如何豐富情感詞典,但此方法還缺少對(duì)文本上下文語(yǔ)義的考慮。
隨著機(jī)器學(xué)習(xí)的發(fā)展,在短文本情感分析領(lǐng)域,傳統(tǒng)機(jī)器學(xué)習(xí)的方法也取得了突破。孫熙偉[6]提出使用樸素貝葉斯技術(shù)以及字典法針對(duì)論壇文本進(jìn)行情感傾向性分析,并取得不錯(cuò)效果?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法核心是特征工程,依賴人工設(shè)計(jì),受人為因素影響,同樣的特征對(duì)于不同的領(lǐng)域可能差別巨大,且此方法多使用經(jīng)典的有監(jiān)督分類模型,性能依賴于標(biāo)注數(shù)據(jù)的質(zhì)量,而獲取高質(zhì)量的標(biāo)注數(shù)據(jù)需要消耗大量人工成本。
近年來(lái),深度學(xué)習(xí)方法受大腦神經(jīng)系統(tǒng)的啟發(fā),對(duì)自然語(yǔ)言處理、語(yǔ)音識(shí)別和計(jì)算機(jī)視覺等一系列應(yīng)用產(chǎn)生了巨大的影響,也成功用于情感分析的研究[2]。技術(shù)也從基礎(chǔ)的RNN、LSTM 等模型發(fā)展到基于Transformer 的預(yù)訓(xùn)練模型,例如BERT[7]、ERNIE[8]等預(yù)訓(xùn)練模型。相比LSTM 模型,預(yù)訓(xùn)練模型不僅引入了注意力機(jī)制,還解決了缺少大規(guī)模標(biāo)注語(yǔ)料的難題。Azeemi[9]等人在文獻(xiàn)中使用基于Transformer 語(yǔ)言模型的RoBERTa 對(duì)推特上新冠病毒話題下的言論進(jìn)行了七類情感分類預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行了國(guó)別分析,且提取有關(guān)這一流行病中人們心理狀況的有用指標(biāo)。Kim 和Ganesan[10]在文獻(xiàn)中將RoBERTa 應(yīng)用于推特上公眾對(duì)太陽(yáng)能的情感分析預(yù)測(cè),分析了美國(guó)各州不同的可再生組合能源組合標(biāo)準(zhǔn)等特征對(duì)公眾情緒的影響,有助于政府了解公眾對(duì)太陽(yáng)能支持的地區(qū)差異以及未來(lái)部署太陽(yáng)能的時(shí)機(jī)。
上述研究均是使用預(yù)訓(xùn)練模型對(duì)社交媒體上公眾情緒的分析及其應(yīng)用,雖然效果不錯(cuò),但文獻(xiàn)中的方法都存在相同的問題:第一對(duì)于數(shù)據(jù)預(yù)處理僅使用關(guān)鍵詞和簡(jiǎn)單規(guī)則去除了URL、不相關(guān)的以及轉(zhuǎn)發(fā)的噪音數(shù)據(jù),沒有考慮數(shù)據(jù)的口語(yǔ)化、語(yǔ)種等問題;第二對(duì)于帶標(biāo)簽訓(xùn)練數(shù)據(jù)集的獲取均采用人工標(biāo)注,此方法成本大、耗時(shí)長(zhǎng)。
本文旨在研究對(duì)實(shí)戰(zhàn)中數(shù)據(jù)的預(yù)處理方法以及減少成本獲取高質(zhì)量標(biāo)注數(shù)據(jù)來(lái)提高模型效果。主要工作如下:
(1)針對(duì)爬取得到的以非正式語(yǔ)言、非結(jié)構(gòu)化語(yǔ)法和特殊符號(hào)編寫的文本,研究了正則、語(yǔ)種識(shí)別以及分詞相結(jié)合的方式對(duì)文本進(jìn)行預(yù)處理。
(2)利用改進(jìn)的PMI 算法得到每個(gè)事件的情感詞典以及自動(dòng)標(biāo)注的訓(xùn)練語(yǔ)料,通過不斷迭代提高標(biāo)注語(yǔ)料的質(zhì)量。
(3)利用SKEP 模型對(duì)文本情感先驗(yàn)知識(shí)的嵌入表示能力實(shí)現(xiàn)文本面向情感的語(yǔ)義表示以及將情感分析結(jié)果應(yīng)用到輿情分析中。
本文是在SKEP 預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行的情感分析,SKEP 模型中應(yīng)用了Transformer 的Encoder層,而Transformer 的核心是注意力機(jī)制,注意力機(jī)制(Attention)最早被使用于圖像處理,2014 年Seq2Seq 模型[11]被提出應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域,后在此模型基礎(chǔ)上引入Attention 機(jī)制取得巨大成功。隨后各種基于注意力機(jī)制的模型開始應(yīng)用到情感分析等其他自然語(yǔ)言處理任務(wù)中。
通俗理解,就像人在看圖片、視頻或者本文時(shí),都會(huì)一眼關(guān)注到比較顯眼的,而不是把注意力分散到每一個(gè)元素上,這就是注意力機(jī)制的思想。對(duì)文本不同特征會(huì)有不同的注意力即權(quán)重,不重要的特征允許忽略,而不是每個(gè)特征都賦予平均權(quán)重。因此注意力機(jī)制的關(guān)鍵在于如何計(jì)算不同特征的權(quán)重。Transformer 中的Attention 為多頭自注意力機(jī)制,采用的是Key-Value 的設(shè)置,且K=V。對(duì)于一個(gè)輸入的文本向量,其中每個(gè)詞的Attention 向量是通過計(jì)算該文本中其他詞向量的加權(quán)和所得,而權(quán)重則通過該詞向量與其他詞向量點(diǎn)乘再使用softmax 歸一化所得,計(jì)算公式如下:
Ashish Vaswani[12]等人2017 年在文獻(xiàn)中提出了Transformer 模型,使用全Attention 代替了CNN 和RNN 等網(wǎng)絡(luò)結(jié)構(gòu),且可高度并行。
Transformer 模型采用編碼器-解碼器的結(jié)構(gòu),包含6 個(gè)編碼器,6 個(gè)解碼器。編碼器包含多頭自注意層和全連接層兩個(gè)子層,解碼器包含一個(gè)多頭注意層、一個(gè)能夠執(zhí)行編碼器輸出的多頭自注意的附加層,以及一個(gè)全連接層三個(gè)子層。結(jié)構(gòu)如圖1 所示。
圖1 Transformer 結(jié)構(gòu)圖Fig.1 The transformer-model architecture
因?yàn)門ransformer 模型中不包括RNN 或CNN,為了保留序列信息,在輸入時(shí),對(duì)每個(gè)token 生成一個(gè)維的位置向量,將此位置向量與輸入向量相加得到最終的輸入。位置向量的計(jì)算公式[12]如下,其中pos表示位置索引,i表示維度索引。
模型中的多頭注意力機(jī)制使用多個(gè)自注意力,對(duì)輸入的Q、K、V 進(jìn)行多次不同的映射,再使用concat 連接得到最后向量。公式如下,其中Attention為1.1 節(jié)中介紹的。
SKEP 是百度研究團(tuán)隊(duì)和中國(guó)科學(xué)院在2020 年提出的一個(gè)基于情感知識(shí)增強(qiáng)的情感預(yù)訓(xùn)練模型。
SKEP 預(yù)訓(xùn)練目的是預(yù)測(cè)情感詞及詞性、情感詞對(duì),情感傾向分析任務(wù)在預(yù)訓(xùn)練模型的基礎(chǔ)上完成。預(yù)訓(xùn)練第一步基于挖掘的情感先驗(yàn)知識(shí),將輸入的原始文本中的情感先驗(yàn)知識(shí)屏蔽替換成[MASK],屏蔽的詞為句子總詞數(shù)的10%。第二步使用Transformer 的編碼器對(duì)屏蔽后的輸入序列預(yù)測(cè)屏蔽部分的詞以及情感極性。
情感先驗(yàn)知識(shí)挖掘使用基于簡(jiǎn)單的點(diǎn)互信息[13]方法,通過計(jì)算詞和種子詞的相關(guān)概率來(lái)判斷,即認(rèn)為和正向詞相關(guān)性越大則正向概率越大,這個(gè)方法只需要少量的種子詞典。對(duì)于預(yù)測(cè)的情感詞,把其附近不超過距離為3 的詞作為對(duì)應(yīng)的情感詞對(duì)候選詞。預(yù)訓(xùn)練過程如圖2 所示。
圖2 SKEP 預(yù)訓(xùn)練過程[14]Fig.2 SKEP pretraining process
本文使用的數(shù)據(jù)源為根據(jù)事件名稱或者用戶賬號(hào)從境外社交媒體平臺(tái)上爬取的文本,此類文本不像新聞內(nèi)容表達(dá)正規(guī),而是口語(yǔ)化嚴(yán)重,充斥著表情、圖片和URL 元素的零碎信息,還混合中、英、俄、日、韓等多語(yǔ)種,其中中文文本中還有粵語(yǔ)、繁體等情況,而訓(xùn)練數(shù)據(jù)的質(zhì)量也是影響模型性能的因素,因此對(duì)數(shù)據(jù)進(jìn)行預(yù)處理變得非常關(guān)鍵。本文預(yù)處理方法結(jié)合了正則清洗數(shù)據(jù)、語(yǔ)種識(shí)別、繁轉(zhuǎn)簡(jiǎn)以及分詞技術(shù)。
數(shù)據(jù)清洗即使用正則表達(dá)式清洗文本中的URL、除表情符號(hào)以外的符號(hào)等零碎信息。
由于本文研究主要針對(duì)中文,而數(shù)據(jù)來(lái)源于推特等海外社交媒體平臺(tái),用戶使用語(yǔ)言多樣化,因此本文對(duì)文本進(jìn)行了語(yǔ)種識(shí)別,篩選出中文文本。針對(duì)中文文本中存在的大量中國(guó)香港繁體字以及中國(guó)臺(tái)灣繁體字,本文做了進(jìn)一步研究處理,通過收集粵語(yǔ)專用字詞典、港臺(tái)繁體字詞典,借助詞典結(jié)合HanLP 將非簡(jiǎn)體中文文本分類轉(zhuǎn)化成簡(jiǎn)體中文并進(jìn)行分詞。
HanLP 對(duì)于日期、帶數(shù)值的量詞、地理詞的分詞效果表現(xiàn)并不好,而這些詞可能是重要的情感詞,如果分詞不當(dāng)可能導(dǎo)致數(shù)據(jù)標(biāo)注效果降低,因此本文根據(jù)中文用語(yǔ)習(xí)慣,在HanLP 分詞方法的基礎(chǔ)上增加了如下三條規(guī)則:
(1)ns+n*:地理名詞后面如果還是名詞即合并。
(2)m+q:數(shù)詞后面如果是數(shù)詞或者量詞則合并。
(3)v+v/f:動(dòng)詞后面如果還是動(dòng)詞或者方向詞則合并。
(1)利用PMI 進(jìn)行情感詞典構(gòu)建
中文情感分析主流的情感詞典有BasonNLP、HowNet、臺(tái)灣大學(xué)NTUSD 褒貶義情感詞典、清華大學(xué)李軍中文褒義貶義詞典。BasonNLP 情感詞典是利用從微博、新聞、論壇等平臺(tái)上獲取的上百萬(wàn)篇情感標(biāo)注數(shù)據(jù)自動(dòng)構(gòu)建的情感詞典[15]。雖然與輿論相關(guān),但過于普遍,沒有側(cè)重點(diǎn)。HowNet 包括否定詞詞典、副詞詞典、自定義總結(jié)詞以及轉(zhuǎn)折詞詞典等基礎(chǔ)詞典,其他兩個(gè)都為通用的褒義詞和貶義詞,在社交媒體很多沒有明顯褒貶詞的文本中效果甚微。
社交媒體對(duì)于不同事件的發(fā)言,表示支持和反對(duì)的詞各有不同,對(duì)情感詞的偏重也不同,因此需要專門的情感詞典及情感詞得分計(jì)算方法。本文研究了基于從熱點(diǎn)事件中抽取的少量標(biāo)注數(shù)據(jù)迭代生成情感詞典的方法。
對(duì)于預(yù)處理好的文本,利用點(diǎn)互信息計(jì)算每個(gè)詞的情感得分,主要思想是一個(gè)詞在正向文本中出現(xiàn)的比在負(fù)向文本中出現(xiàn)的頻繁則認(rèn)為更積極,反之認(rèn)為更消極。計(jì)算公式如公式(6)所示:
其中w表示需要求得分的情感詞,pos表示正向文本,neg表示負(fù)向文本,表示點(diǎn)互信息,由于原始的點(diǎn)互信息需要借助種子詞典,而不同的事件,需要的種子詞可能差別比較大,受人為因素影響。本文使用的點(diǎn)互信息方法,借助句子原本情感屬性,分別計(jì)算詞在正負(fù)向文本中出現(xiàn)的概率。計(jì)算公式如公式(7)[16]所示:
在本文所用的數(shù)據(jù)生成的詞典基礎(chǔ)上,增加了一個(gè)HowNet 的否定詞詞典,以及既有中文又有英文的程度副詞詞典,每個(gè)程度副詞都有對(duì)應(yīng)的程度得分。
(2)基于詞典自動(dòng)標(biāo)注數(shù)據(jù)
對(duì)于實(shí)際業(yè)務(wù)需求中的文本數(shù)據(jù),無(wú)法提供足夠的標(biāo)注數(shù)據(jù)訓(xùn)練模型,如果采用人工標(biāo)注數(shù)據(jù),則會(huì)產(chǎn)生非常高成本,因此如何生成足夠的標(biāo)注語(yǔ)料變得非常重要。
文本所表達(dá)的情感是文本中所有詞貢獻(xiàn)的情感總和,即利用生成的情感詞典融合文本的所有情感詞得分,進(jìn)而計(jì)算整個(gè)文本的得分。融合計(jì)算方式如公式(8)所示:
本文從所有文本中隨機(jī)抽取出1,000 條,快速標(biāo)注,根據(jù)這個(gè)標(biāo)注的文本生成第一次詞典,再利用生成的詞典對(duì)5,000 條文本計(jì)算情感得分,篩選出得分值高于閾值的文本與第一批合并,再生成詞典,如此迭代三次。
(3)訓(xùn)練模型
SKEP 預(yù)訓(xùn)練模型采用的是無(wú)監(jiān)督方法自動(dòng)挖掘情感知識(shí),然后利用情感知識(shí)構(gòu)建預(yù)訓(xùn)練目標(biāo),進(jìn)而讓機(jī)器學(xué)會(huì)理解情感語(yǔ)義,它為各類情感分析任務(wù)提供統(tǒng)一且強(qiáng)大的情感語(yǔ)義表示。使用SKEP預(yù)訓(xùn)練模型實(shí)現(xiàn)情感分類即在Transformer 編碼器的上層增加了一個(gè)分類輸出層,以基于整體表示計(jì)算情感概率。本文基于SKEP 預(yù)訓(xùn)練模型[14]對(duì)分類層網(wǎng)絡(luò)進(jìn)行微調(diào)訓(xùn)練實(shí)現(xiàn)短文本情感分類。方法處理流程如圖3 所示。
圖3 情感分析過程Fig.3 The process of sentiment analysis
本文微調(diào)實(shí)驗(yàn)是在paddle 框架下完成,所以需要在python 環(huán)境中提前安裝好paddlepaddle 以及paddlenlp 的包。實(shí)驗(yàn)每臺(tái)服務(wù)器配置如表1,開發(fā)環(huán)境如表2。
表1 服務(wù)器環(huán)境Table 1 Server environment
表2 開發(fā)環(huán)境Table 2 Development environment
(1)數(shù)據(jù)準(zhǔn)備
本文進(jìn)行情感分析的實(shí)驗(yàn)數(shù)據(jù)均為公開社交平臺(tái)上某些事件下的言論。經(jīng)過清洗及迭代詞典構(gòu)建并自動(dòng)標(biāo)注數(shù)據(jù),得到包含了36,556 個(gè)詞的情感詞典以及10,509 條標(biāo)注數(shù)據(jù),實(shí)驗(yàn)使用其中的30%作為測(cè)試數(shù)據(jù),70%作為訓(xùn)練數(shù)據(jù)。詞典結(jié)構(gòu)如圖4所示。標(biāo)注后的數(shù)據(jù)1 表示正向,0 表示中性,-1 表示負(fù)向。
圖4 情感詞典Fig.4 Sentiment lexicon
(2)實(shí)驗(yàn)參數(shù)
深度學(xué)習(xí)模型的實(shí)驗(yàn)參數(shù)設(shè)置非常關(guān)鍵,對(duì)實(shí)驗(yàn)結(jié)果有很大影響,本文結(jié)合實(shí)驗(yàn)服務(wù)器最大性能,以及實(shí)驗(yàn)數(shù)據(jù)情況確定實(shí)驗(yàn)參數(shù)。
針對(duì)中文數(shù)據(jù),采用的是預(yù)訓(xùn)練好的“skep_ernie_1.0_large_ch”模型進(jìn)行微調(diào)實(shí)驗(yàn)。訓(xùn)練時(shí)可選擇調(diào)整實(shí)驗(yàn)參數(shù),本文設(shè)置的參數(shù)有:輸入序列長(zhǎng)度最大為128,批大小為16,學(xué)習(xí)率3e-5,迭代次數(shù)為5。
(3)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證方法的有效性,針對(duì)預(yù)處理,本文做了與不進(jìn)行翻譯成簡(jiǎn)體中文而直接進(jìn)行情感分析的實(shí)驗(yàn)對(duì)比;針對(duì)模型,首先驗(yàn)證自動(dòng)標(biāo)注方法的有效性,然后與前期提出沒有考慮情感先驗(yàn)知識(shí)的ERNIE 預(yù)訓(xùn)練模型進(jìn)行了對(duì)比。
(4)實(shí)驗(yàn)及結(jié)果分析
本文實(shí)驗(yàn)先利用chnesenticorp 數(shù)據(jù)集對(duì)自動(dòng)標(biāo)注算法進(jìn)行驗(yàn)證。將訓(xùn)練數(shù)據(jù)分成三份,使用自動(dòng)標(biāo)注算法對(duì)數(shù)據(jù)進(jìn)行迭代處理,得到情感詞典,在測(cè)試數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)驗(yàn)證,算法正確率達(dá)到89.38%,此結(jié)果證明該標(biāo)注能利用少量標(biāo)簽數(shù)據(jù)快速得到大量可用的標(biāo)注語(yǔ)料。
使用生成的標(biāo)注語(yǔ)料作為模型的訓(xùn)練數(shù)據(jù),訓(xùn)練了一個(gè)針對(duì)相關(guān)事件的情感分析模型。實(shí)驗(yàn)結(jié)果根據(jù)正向文本的準(zhǔn)確率進(jìn)行評(píng)測(cè)。
在給出的數(shù)據(jù)集上,使用本文的方法訓(xùn)練模型正確率達(dá)到92.87%,比ERNIE 模型正確率高了3.17%,比沒有進(jìn)行翻譯處理的方法高了2.32%。這說(shuō)明在預(yù)訓(xùn)練模型基礎(chǔ)上,對(duì)于社交媒體上熱點(diǎn)事件的短文本情感分析,完善的數(shù)據(jù)預(yù)處理方式以及情感先驗(yàn)知識(shí)能夠很好地改善模型效果。
情感傾向的分析都是服務(wù)于應(yīng)用,通過調(diào)研現(xiàn)有的業(yè)務(wù)系統(tǒng)以及需求,發(fā)現(xiàn)無(wú)論情報(bào)獲取還是輿情分析系統(tǒng),對(duì)于事件的脈絡(luò)陳述中都缺少對(duì)重點(diǎn)節(jié)點(diǎn)情感分析的使用,而事件傳播過程中的核心用戶以及事件走向的及時(shí)反饋能很大程度提高應(yīng)對(duì)突發(fā)事件的能力。針對(duì)問題,本文對(duì)情感傾向分析結(jié)果進(jìn)行了四個(gè)方面的應(yīng)用,對(duì)文本根據(jù)事件進(jìn)行分類,針對(duì)不同的事件進(jìn)行相應(yīng)的情感分析,再對(duì)情感分析進(jìn)行應(yīng)用:
(1)根據(jù)具體事件統(tǒng)計(jì)總體情況,直觀地了解廣大網(wǎng)民對(duì)事件的總體傾向。
(2)展示事件關(guān)鍵節(jié)點(diǎn)言論的情感傾向,可以快速定位負(fù)向消息傳播關(guān)鍵節(jié)點(diǎn)及言論內(nèi)容。
(3)統(tǒng)計(jì)近期網(wǎng)民對(duì)事件情感傾向的變化情況,方便掌握和及時(shí)引導(dǎo)事件變化趨勢(shì)。
(4)根據(jù)用戶所有言論的情感傾向,預(yù)測(cè)負(fù)向言論傳播的核心用戶。
應(yīng)用以“中國(guó)新冠疫苗”為例,從推特上爬取了7,308 條原創(chuàng)中文文本,利用本文提出的方法對(duì)此數(shù)據(jù)進(jìn)行了情感分析預(yù)測(cè)及結(jié)果的應(yīng)用,包括:對(duì)采集數(shù)據(jù)情感預(yù)測(cè)結(jié)果統(tǒng)計(jì),分析用戶參與情況、正負(fù)向及中性言論占比情況(如圖5 左上角所示);對(duì)事件脈絡(luò)中關(guān)鍵節(jié)點(diǎn)言論的情感分析展示;對(duì)近幾個(gè)月網(wǎng)民情感變化的統(tǒng)計(jì)分析(如圖5 右側(cè)所示)。通過這樣多方位的分析應(yīng)用,用戶可以預(yù)測(cè)網(wǎng)民對(duì)熱點(diǎn)話題的情感變化趨勢(shì)以及造成變化可能的原因等情報(bào),有助于用戶掌握輿論動(dòng)態(tài),并提早做出應(yīng)急方案。
圖5 網(wǎng)民對(duì)“中國(guó)疫苗”情感傾向變化Fig.5 Tendency of netizens’ sentiment towards “China vaccine”
全面客觀地掌握某些事件中參與用戶的情感傾向,可以快速地得到重要信息,從而采取相應(yīng)措施。本文研究選取了國(guó)安法、反送中等熱議的78 個(gè)政治相關(guān)話題,對(duì)參與討論的用戶言論進(jìn)行了情感分析,形成了一個(gè)豐富的帶有情感得分的情感詞典集,并通過實(shí)驗(yàn)和應(yīng)用獲取了事件在境外社交平臺(tái)的情感傾向變化趨勢(shì),并得到一批有潛在風(fēng)險(xiǎn)的用戶。但通過實(shí)踐,也發(fā)現(xiàn)對(duì)于一些反諷的文本,效果不佳,且目前對(duì)言論的情感缺少更細(xì)粒度的分析,下一步會(huì)持續(xù)深入地研究獲取用戶發(fā)表的情感主題,自動(dòng)給言論進(jìn)行更細(xì)粒度的情感分類。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。