潘宏鵬 汪 東 劉忠軼 李 軻
(1.中國人民公安大學公安管理學院 北京 100076;2.中國人民解放軍火箭軍士官學校作戰(zhàn)保障系 濰坊 262500)
互聯(lián)網(wǎng)的廣泛普及賦予了社會公眾充分的網(wǎng)絡(luò)話語權(quán)和輿情參與能力,并由此誕生了官方與公眾兩大輿論場。截至2020年12月,我國互聯(lián)網(wǎng)普及率已達70.4%,手機網(wǎng)民比例高達99.7%[1],其中80.3%將新浪微博作為新聞信息的獲取渠道[2]??梢?,在信息平權(quán)時代,“新浪微博”已成為人們掌握新聞信息的重要源頭,同時它憑借自身便捷性、時空自由性、全民參與性等特點,很容易成為情緒傳遞與輿情爆發(fā)的主要策源地。2020下半年以來,伴隨著杭州“交警噴老人辣椒水”、南昌“誰是yuwei”等事件的網(wǎng)絡(luò)曝光,社會公眾對于輿情事件的關(guān)注度也在不斷提高,輿情呈現(xiàn)爆發(fā)式超速傳播的趨勢。與其他新聞類型不同的是,輿情事件的產(chǎn)生極易引起社會公眾的重點關(guān)注。尤其是意見領(lǐng)袖及其微博下網(wǎng)民評論的負面情緒一旦發(fā)酵,就會不斷衍生出有損政府公信力的輿情風波,甚至將對社會秩序造成難以估量的影響。
文本情感分析是自然語言處理的重要研究領(lǐng)域,對于解決上述問題可發(fā)揮有效作用??紤]到自然語言的復雜特性,輿情評論除了直接性的情感表達外,往往伴有多種復雜的修辭特征,一類最常見的即為反諷型。例如某政府輿情事件中網(wǎng)民評論,“真不愧是我大天朝的人民警察,向90歲老漢噴辣椒水的身姿真英勇”,這顯然是一句典型的反諷文本,看似表達的是積極健康的心態(tài),實則蘊含著具有強烈諷刺意味的負面情緒。但傳統(tǒng)的自然語言處理模型會根據(jù)“不愧”“英勇”等詞將這句話判別為正面情感,無法做到對文本信息的精確處理,這顯然是不符合任務(wù)要求的。這正是目前輿情情感識別技術(shù)的難點所在。
基于此,本文將在雙向編碼表征網(wǎng)絡(luò)的基礎(chǔ)上進行改進,通過將反諷語義/非反諷語義、正面情感/負面情感兩種領(lǐng)域的語義信息進行合并,設(shè)計出一種協(xié)同雙向編碼輿情評論情感識別模型。相關(guān)部門在對摻雜反諷語義的輿情評論文本進行情感識別時,在反諷識別向量的指導下,模型會根據(jù)評論文本的不同性質(zhì)進行不同的對應(yīng)處理,從而增強模型對輿情評論文本的反諷識別力與泛化程度。
文本情感分析技術(shù),又稱意見挖掘技術(shù),其基本原理為:通過爬蟲挖掘,對輿情事件微博話題中的意見領(lǐng)袖評論和網(wǎng)民評論文本進行收集,對其情感極性進行分析,基于此為相關(guān)部門掌握網(wǎng)民訴求與疏導輿論提供幫助。在輿情分析、特征畫像、網(wǎng)民訴求量化等方面,該技術(shù)可發(fā)揮重要作用??v觀學術(shù)界關(guān)于文本情感分析技術(shù)的探索和改進,前人研究主要集中在情感詞典構(gòu)建、機器學習、深度學習等領(lǐng)域,且分別已取得優(yōu)秀的研究成果。
1.1情感詞典構(gòu)建領(lǐng)域情感詞典構(gòu)建是一種基于詞典獲取待測文本中情感詞的情感值,再通過加權(quán)計算以確定文本整體情感傾向的方法。黃立赫等基于BTM主題模型提取視頻彈幕主題信息,基于情感詞典和顏文字詞典計算不同時間窗口下的主題情感類別和情感強度,建立視頻彈幕在線輿情事件監(jiān)控模型[3]。李永帥提出了一種基于雙向長短期記憶模型的動態(tài)詞典構(gòu)建方法,并通過對CBOW模型的改進,構(gòu)建了應(yīng)用ECBOW模型的動態(tài)情感詞典[4]??偟膩碚f,以情感詞典為基礎(chǔ)的文本情感分析技術(shù)存在很大的弊端——過度依賴詞典的構(gòu)建質(zhì)量。換句話說,只要詞典內(nèi)容足夠豐富,就可以獲得較好的情感分析效果。但詞典的研究設(shè)計必然從研究伊始就受制于研究者的主觀性思維,因此其分類效果很難再進行實質(zhì)性改進。
1.2機器學習領(lǐng)域在機器學習領(lǐng)域,樸素貝葉斯(簡稱為NB)與支持向量機(簡稱為SVM)是常用于文本情感分析任務(wù)的經(jīng)典算法。楊爽等提出了基于詞性、情感、句型和語義等特征的SVM情感分類方法,可實現(xiàn)五級情感分類,準確率得到明顯提高[5]。Pang等人使用NB、SVM等機器學習模型對電影評論數(shù)據(jù)集進行情感分類判斷,實驗結(jié)果表明,SVM模型的準確率可以達到82.9%[6]。Birjali等將支持向量機與樸素貝葉斯算法相結(jié)合,提出了一種基于WordNet語言詞典訓練集的語義分析算法,能夠?qū)崿F(xiàn)自動檢測自殺內(nèi)容的文本[7]。綜合上述機器學習研究,可以發(fā)現(xiàn):基于機器學習算法的文本情感分析能力較情感詞典來說已有極大提高,但其算法局限性成為了制約自身準確率與泛化能力的關(guān)鍵。例如,樸素貝葉斯對樣本的代表性有較高要求,因此在處理較小樣本的分類任務(wù)時,會出現(xiàn)不能覆蓋所有屬性等現(xiàn)象。
1.3深度學習領(lǐng)域隨著深度學習算法與神經(jīng)網(wǎng)絡(luò)的興起,文本情感分析技術(shù)有了新的突破方向。張海濤等構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輿情情感分析模型,將深度學習算法應(yīng)用于輿情研究領(lǐng)域,提高了輿情文本分類的準確性[8]。Dong為了解決基于目標詞的情感分析問題,提出了自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò),在語法中使用依賴解析樹來查找與目標單詞相關(guān)的單詞,通過自下向上不斷遞歸得到目標單詞的向量表示[9]。同樣地,張柳等針對當前微博評論中常見的上下文信息有限、外語詞匯較多的文本情感分析現(xiàn)狀,提出了一種基于詞向量的多尺度卷積神經(jīng)網(wǎng)絡(luò)微博評論情感分類模型[10]。綜合來看,現(xiàn)有基于深度學習的文本情感識別技術(shù)大多圍繞卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)展開,雖克服了傳統(tǒng)機器學習算法在數(shù)據(jù)采樣與樣本代表性方面的某些局限,但算法本身仍對樣本的數(shù)據(jù)規(guī)模有較高要求。因此,對于輿情評論這樣較小的數(shù)據(jù)集來說,深度學習算法仍然難以取得更加出色的分析效果。
近年來,遷移學習思想的產(chǎn)生拉開了預訓練模型的序幕。2018年,谷歌(Google)公司研發(fā)出了基于轉(zhuǎn)換器的雙向編碼表征網(wǎng)絡(luò),在包含文本情感分析在內(nèi)的11項自然語言處理任務(wù)中均取得了最佳成績[11]。Sun等提出了一種基于方面級任務(wù)的情感分類方法,對雙向編碼表征的預訓練模型進行了微調(diào),并運用前人文章數(shù)據(jù)集取得了較好的分類結(jié)果[12]。孫靖超用偽標簽的方法克服了需要雙向編碼表征數(shù)據(jù)集需要大量人工標注的難題,并證明了雙向編碼表征模型對于輿情情感分析任務(wù)的可行性[13]??偟膩碚f,相比于CNN和RNN等深度學習算法,雙向編碼表征模型只需構(gòu)建注意力機制,就可解決傳統(tǒng)方法無法并行處理的問題。同時,遷移學習思想賦予了模型將開放領(lǐng)域?qū)W到的知識遷移到下游任務(wù)的能力,這為同領(lǐng)域小規(guī)模語言處理效果改善提供了極大幫助,突破了機器學習與深度學習算法對數(shù)據(jù)規(guī)模有高要求的局限性,適用于解決輿情評論的情感極性分析。
可見,以雙向編碼表征為代表的預訓練模型是當前文本情感分析研究的前沿領(lǐng)域,可對情感詞典、機器學習算法與深度學習算法的模型局限進行對應(yīng)改善。需要注意的是,上述改善僅針對正常語義表征的文本,不適用于摻雜有反諷語義的復雜文本。但反諷這一修辭手法在輿情事件評論中的確十分常見,如果不能對這一問題進行考慮,文本情感分析技術(shù)就無法為幫助相關(guān)部門掌握民意發(fā)揮實質(zhì)性用途。
圖1 技術(shù)路線圖
遺憾的是,這一問題尚未引起國內(nèi)外學者的重視,目前學術(shù)界關(guān)于這一問題的研究寥寥無幾。[14-15]基于此,本文將在雙向編碼表征模型的基礎(chǔ)上進行圖1所示的改進,在爬蟲抓取評論文本并預處理后,通過兩個普通雙向編碼表征模型的協(xié)同組合,合并輿情評論文本中的反諷語義/非反諷語義、正面情感/負面情感兩種領(lǐng)域語義信息。進一步,運用LDA等主題提取技術(shù),對情感識別無誤的輿情評論進行觀點挖掘并使其可視化,致力于為相關(guān)部門提供更直觀可靠的管理決策。
2.1模型框架與運行原理從框架層面分析,協(xié)同雙向編碼表征模型的主體結(jié)構(gòu)由兩個普通雙向編碼表征模型與一個額外全連接層組合而成,通過不同領(lǐng)域語義的信息融合與處理,保證了模型框架的完整性與設(shè)計合理性。而從運行原理層面分析,協(xié)同雙向編碼表征模型可被視為“語義理解模塊”“反諷識別模塊”和“協(xié)同決策模塊”的功能組合。具體來說,對于輸入層中的待測評論文本,“語義理解模塊”通過編碼和特征提取以獲得情感語義信息?!胺粗S識別模塊”通過編碼和特征提取以獲取輿情評論文本的反諷信息。之后,語義信息和反諷信息同時輸入到“協(xié)同決策模塊”中進行特征融合與協(xié)同訓練,最終由“協(xié)同決策模塊”給出最終的情感極性識別結(jié)果。模型結(jié)構(gòu)如圖2所示。
圖2 協(xié)同雙向編碼表征模型
在特征提取層中,“反諷識別模塊”通過運用預訓練與遷移學習思想,負責完成輿情評論文本反諷特征抽取和分析任務(wù)。通過銜接基于雙向Transformer結(jié)構(gòu)的反諷雙向編碼表征層和全連接層,該模塊可對抽取到的文本反諷特征進行深層次分析,逐漸增強模型對輿情評論反諷信息的鑒別能力。為保障預訓練效果,本文專門構(gòu)建了反諷語義文本數(shù)據(jù)集,用來進行“反諷/非反諷”的二值語義分類任務(wù)訓練。通過大量針對性訓練,該模塊可出色完成輿情評論文本的反諷語義識別任務(wù)。同理,“語義理解模塊”在結(jié)構(gòu)上與“反諷識別模塊”相似,通過語義雙向編碼表征層與全連接層的銜接與針對性訓練,保證模塊對評論文本正負語義信息的獲取能力。
進一步,考慮到反諷評論文本的存在會對文本整體情感極性造成極大轉(zhuǎn)折,需要在信息融合層中引入第三個模塊—— “協(xié)同決策模塊”。該模塊由信息合并層與全連接層構(gòu)成。通過信息合并層將前述兩個模塊中的反諷信息和正負語義信息融合,全連接層將對融合后的信息進行更深層次學習,形成以反諷信息指導、糾錯、扶正正負語義信息的優(yōu)化能力。
綜上,針對待測的輿情評論文本,由“語義理解模塊”提取正負語義信息;由預訓練完成的“反諷識別模塊”采用反諷識別能力,在情感極性識別任務(wù)中進行遷移應(yīng)用,提取輿情評論文本中的反諷語義信息。 接下來,由“協(xié)同決策模塊”對“反諷/非反諷”、“正面/負面”兩種領(lǐng)域信息進行融合,根據(jù)待測輿情評論文本是否存在反諷語義,給出其情感極性識別結(jié)果。如此循環(huán)訓練,識別結(jié)果的準確性將使得“語義理解模塊”和“協(xié)同決策模塊”的模型參數(shù)不斷調(diào)整優(yōu)化。通過上述過程的模型收斂,協(xié)同雙向編碼表征模型將對摻雜有反諷語義的復雜輿情評論形成較好的情感極性識別力。
2.2基于遷移學習的可行性分析從本質(zhì)上說,雙向編碼表征模型屬于遷移學習的應(yīng)用范疇。遷移學習中一個較為重要的概念就是微調(diào)(fine-tuning),它允許研究者在處理新的下游任務(wù)時,不用再重復人力和時間從零開始訓練模型,而只需要對模型中的參數(shù)進行微調(diào)即可實現(xiàn)遷移學習。因此,在模型框架層面,負責反諷語義識別與正負情感識別的兩個普通雙向編碼表征模型均采用的是“預訓練+全連接層”的結(jié)構(gòu)。以反諷語義雙向編碼表征模型為例,反諷文本在經(jīng)過預處理、向量化、輸入到預訓練完成的雙向編碼表征模型后,研究者就可通過反向傳播算法對模型各部分參數(shù)、權(quán)重進行微調(diào),然后將谷歌官方預訓練模型遷移到反諷識別任務(wù)上。
協(xié)同雙向編碼表征模型就是通過向量拼接的方式,在圖2所示的信息融合層中增加一個額外的全連接層,由其完整保留輿情評論文本的反諷語義和正負情感語義兩種領(lǐng)域信息。從可行性上分析,通過兩個普通雙向編碼表征模型的協(xié)同配合,協(xié)同雙向編碼表征模型既能理解正常語義評論的情感表達,又能準確判斷反諷輿情評論的情感極性。
2.3輸入序列與特征表示雙向編碼表征模型的輸入層包含了輿情評論中各個字符的原始向量,這些向量既可以是隨機初始值,也可以是通過Word2Vec等分詞算法計算的輸出值。模型的輸出層則是經(jīng)雙向Transformer層提取特征后、已融合全句文本語義信息的字符向量表示,如圖3所示(以評論文本“點贊,支持警方”為例)。
圖3 輸入序列與特征表示
2.4特征提取層在特征抽取層中,雙向編碼表征模型采用的是雙向Transformer,改進了ELMo模型特征提取能力不充分和GPT模型信息不足的缺點。如圖4所示,每個Transformer均由多頭注意力機制層(Multi-Head Attention)、標準化層(Normalization)和全連接前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward)構(gòu)成。
圖4 編碼器結(jié)構(gòu)
在模型對輿情評論文本特征進行抽取的過程中,Transformer中的多頭注意力機制可發(fā)揮重要作用。在圖5所示的模型構(gòu)成中,多頭注意力機制由多個自注意力機制(Self Attention)組成,這也構(gòu)成了雙向編碼表征模型在處理細粒度文本時的語義理解能力與信息獲取能力。模型的輸入層均包含有每個字符對應(yīng)的Q、K和V向量,且分別通過其與權(quán)值矩陣WQ、WK和WV的相乘,可得到相同維度的矩陣。
在多頭注意力機制中,每一個單獨的自注意力機制關(guān)注的都僅是輿情評論文本某一種維度的信息。在經(jīng)過公式(1)和公式(2)的疊加后,多頭注意力機制就能夠獲取輿情評論文本多種范圍的語義信息,保證了雙向編碼表征模型在處理細粒度語義任務(wù)時的信息獲取能力。
圖5 多頭注意力機制
MultiHead(Q,K,V)=
linear(Wlconcat(head1,head2…h(huán)eadn)+b)
(1)
headi=Attention(QWQi,KWKi,VWVi)
(2)
(3)
2.5模型結(jié)果輸出輸出層根據(jù)文本內(nèi)容的不同,會有下述兩種處理方案。
a.若待測文本為正常情感表征,不含反諷語義,模型就會按照普通雙向編碼表征模型識別方法,進行文本情感極性分析,直接輸出情感極性結(jié)果。
b.若語句中摻雜有反諷語義,模型則會根據(jù)反諷識別結(jié)果,在普通識別的基礎(chǔ)上對情感極性進行調(diào)整,幫助糾正其中識別錯的文本語句后,輸出真實的情感極性。
基于此,協(xié)同雙向編碼表征模型可提高摻雜有反諷語義的復雜輿情評論文本情感識別的準確率,為相關(guān)部門提供更加準確可靠的算法支持。
3.1案例簡介與熱度分析2020年12月4日,安徽省安慶市望江縣一名女子意欲跳河輕生,在民警到達現(xiàn)場并安撫的情況下,該女子最終不幸溺亡。這起事件發(fā)生后,迅速引起了社會的重點關(guān)注,現(xiàn)場圍觀群眾拍攝的短視頻也迅速在微信、抖音等社交平臺傳播并引起熱議,微博也極快地產(chǎn)生了該起政府輿情的熱門話題。以“知微數(shù)據(jù)公司”旗下“知微事見”為案例分析工具,可基于其公開的事件影響力指數(shù)為輿情事件熱度分析提供參考(http://www.zhiweidata.com/),在“知微事見”中,事件影響力指數(shù)是指事件在自媒體(主要指微博和微信)和其他網(wǎng)媒平臺累積傳播效果的加和,并歸一化為(0,100)間的指數(shù)[16]。如表1所示,從2020年12月4日到12月10日20時,該輿情事件的整體影響力指數(shù)高達68.5,社會關(guān)注度遠超同期77%的社會類事件。
表1 “知微事見”影響力指數(shù)
為響應(yīng)持續(xù)發(fā)酵的網(wǎng)絡(luò)輿情,如表2所示,多家主流媒體相繼加入討論并發(fā)表評論。12月6日,“#央視主播評望江女孩輕生溺亡#”登上熱搜,最高排名第三。
表2 媒體報道情況
3.2實驗數(shù)據(jù)集的獲取與預處理本次實驗使用“八爪魚”采集器進行數(shù)據(jù)抓取,該軟件優(yōu)勢在于:軟件根據(jù)新浪微博、今日頭條等不同網(wǎng)站設(shè)計了相應(yīng)采集策略與接口,研究者可根據(jù)需要自定義參數(shù)以保證目標數(shù)據(jù)的完整性與穩(wěn)定性。
a.反諷數(shù)據(jù)集的獲取?;谛吕宋⒉┑呢S富語料資源,本文通過搜索熱門輿情事件的關(guān)鍵詞、輿情話題排行榜、微博大V等多路徑進行評論文本抓取,對反諷語義的輿情評論進行收集,用“0”表示“反諷評論”,用“1”表示“非反諷評論”。
b.正負情感數(shù)據(jù)集的獲取。同理,本文針對4.1中案例,對2020年12月4日至12月10日之間“#警察注視女生溺亡被停職#”等話題中媒體和大V發(fā)文下的網(wǎng)民評論進行數(shù)據(jù)抓取并進行標記,用“0”表示“正面評論”,用“1”表示“負面評論”。
在獲得兩個數(shù)據(jù)集后,為提高準確性,通常在實驗之前需先對數(shù)據(jù)集進行數(shù)據(jù)清洗等預處理操作。通常包括以下步驟:
a.過濾無效文本。由于數(shù)據(jù)采集均來自于新浪微博話題,因此收集到的文本數(shù)據(jù)中往往存在“轉(zhuǎn)發(fā)”以及“圖片鏈接”等,這些無效噪聲應(yīng)予以過濾。
b.去除文本中的特殊字符、帶有“微博話題”的空白數(shù)據(jù)、帶有“http://…….com”的網(wǎng)絡(luò)來源鏈接。另外,需剔除相關(guān)話題的推送鏈接,因為這也可能存在一定的情感傾向,會對原始案例產(chǎn)生干擾。例如本次研究話題下可能會出現(xiàn)“沉痛緬懷某犧牲民警”的推送鏈接,鏈接里包含的“沉痛”“緬懷”等詞會對原本數(shù)據(jù)集的情感判定帶來影響。
c.使用Jieba工具包進行分詞并去除停用詞,通過雙向編碼表征模型將文本數(shù)據(jù)轉(zhuǎn)化為詞向量。
d.最后,本文共得到反諷語句9 742條,非反諷語句9 647條,組成了19 389條語料的反諷數(shù)據(jù)集。同理,得到正向評論語句16 491條,負面評論語句16 830條,組成了33 321條語料的正負情感數(shù)據(jù)集。分別隨機選取兩個數(shù)據(jù)集中的80%作為各自訓練集,10%作為各自驗證集,10%作為各自測試集。
3.3實驗環(huán)境與超參數(shù)取值實驗工具包是Anaconda,通過谷歌官方發(fā)布的訓練前權(quán)重來使用雙向編碼表征模型,實驗環(huán)境配置如表3所示。
表3 實驗環(huán)境與配置情況
在模型訓練過程中,一般采用正則化方法可提高模型的魯棒性。為保證模型具有較高的泛化能力,在微調(diào)時通常設(shè)置較低的學習率。本實驗將學習率取值為2×10-5。其他超參數(shù)的取值如表4所示。
表4 超參數(shù)取值
3.4模型效果評估輿情評論情感分析,本質(zhì)上屬于文本情感的二分類任務(wù),因此模型評估可采用混淆矩陣法。具體來說,混淆矩陣就是通過各項指標將數(shù)據(jù)分類結(jié)果轉(zhuǎn)化為(0,1)之間的比率,并以此進行標準化衡量(比率越接近1,模型的輸出結(jié)果越好)。
精確率(下文簡稱為“P”)是指“模型預測為正向的樣本中有多少是真正的該類樣本”。如式(4)所示,TP代表“真實值是正向,模型預測為正向的樣本數(shù)”,F(xiàn)P代表“真實值是負向,但模型預測為正向的數(shù)量”。
(4)
召回率(下文簡稱為“R”)是指“樣本中屬于正向分類的數(shù)據(jù)被準確預測的比率”。如式(5)所示,F(xiàn)N代表“真實值是正向,但模型預測為負向的樣本數(shù)”。
(5)
準確率(下文簡稱為“A”),是指“模型所有預測準確的結(jié)果占總樣本量的比率”。如式(6)所示,TN代表“真實值是負向,模型認為是負向的數(shù)量”。
(6)
為對模型進行更好的整體性評價,在P與R的基礎(chǔ)上,按照式(7)產(chǎn)生指標F1。
(7)
3.5對比實驗如2.3所述,文本情感識別領(lǐng)域當前的研究熱點在于以深度學習算法解決該任務(wù)。其中較為成熟和主流的主要是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的Text-LSTM與基于卷積神經(jīng)網(wǎng)絡(luò)的Text-CNN兩種方法路線。前者利用了RNN結(jié)構(gòu)保留歷史信息并不斷增加新信息的特性,能夠適應(yīng)文本分析任務(wù)中綜合理解上下文關(guān)系的需求,并通過遺忘門、更新門和輸出門等結(jié)構(gòu)較好地解決了常規(guī)RNN網(wǎng)絡(luò)的梯度消失現(xiàn)象。后者則通過定義不同的卷積核,提取輿情評論文本中的不同局部特征,在池化層(Max pooling)處理基礎(chǔ)上對特征向量進行拼接挑選,通過由局部到整體的方法實現(xiàn)對文本的語義理解。但當前關(guān)于上述兩種深度學習模型的研究,很少就輿情評論文本中的反諷句式進行專門的針對性設(shè)計和研究。本文的協(xié)同雙向編碼表征模型,在“語義理解模塊”之外專門引入了“反諷識別模塊”,通過協(xié)同訓練,在一定程度上有效彌補了上述深度學習算法的研究不足。
基于此,在對比實驗中,可將協(xié)同雙向編碼表征模型設(shè)置為對照組,將普通雙向編碼表征模型、Text-LSTM、Text-CNN設(shè)置為實驗組。根據(jù)公式(4)至(7),計算上述四種模型對應(yīng)的P、R、A和F1值,對比結(jié)果如表5所示。
表5 實驗結(jié)果 %
對比普通雙向編碼表征模型,協(xié)同雙向編碼表征模型在準確率A上有1.5%的提升,相對錯誤率降低了24.6%。對比Text-LSTM、Text-CNN模型,協(xié)同雙向編碼表征模型的準確率分別提升了30.3%與35.1%。另外,通過各模型P、R、F1指標對比也可看出,協(xié)同雙向編碼表征模型在精確度和查全能力上都擁有更好性能。
4.1語句識別效果評價為直觀看出改進后模型對反諷語句的識別效果,本文挑選了若干具有反諷語義的輿情評論,并將各對比模型的識別結(jié)果列出。
表6 語句識別效果對比
對比可見,對照組的三種模型對于摻雜反諷語義的評論均未準確識別情感極性。而協(xié)同雙向編碼表征模型,由于融合了反諷語義信息,因而能夠?qū)浨樵u論進行針對性的處理,從整體上提升了情感識別準確性。
4.2主題可視化與管理對策在5.1的基礎(chǔ)上,基于LDA模型進行文本主題詞提取,依據(jù)詞向量的權(quán)重生成如圖6所示的觀點詞云圖。
圖6 詞云圖
正面情感極性的評論關(guān)鍵詞,主要包括“警察”“支持”“點贊”等。此類評論主要是現(xiàn)場目擊群眾以及在安徽警方發(fā)布通告后的網(wǎng)民,對事發(fā)中民警施救方法的評價。如“民警的施救是科學的,貿(mào)然下水救人反而會刺激輕生者”“支持人民警察”等。
另一方面,在情感極性為負面的評論中,關(guān)鍵詞則主要包括“圍觀”“救”“目睹”等。比起正面情緒評論,輿情事件中的負面情緒更應(yīng)引起政府有關(guān)部門的重點關(guān)注。因為一旦發(fā)酵,網(wǎng)民情緒很可能會將矛盾引向線下,甚至形成“蝴蝶效應(yīng)”影響其他事件。鑒于此,圖6為政府有關(guān)部門及時掌握網(wǎng)民訴求、穩(wěn)定網(wǎng)絡(luò)社會安定提供了突破口。產(chǎn)生這些負面情緒的原因主要包括三個方面:第一,對于施救現(xiàn)場警察在岸邊不下水的行為,網(wǎng)民認為這是不作為的表現(xiàn),相關(guān)部門未盡到職責;第二,對于少女輕生現(xiàn)象,網(wǎng)民們表示對溺水事件的悲哀和對生命的敬畏;第三,網(wǎng)友認為民警救援時應(yīng)攜救生衣、救生圈等裝備。
基于上述原因分析,相關(guān)部門應(yīng)在未來加強以下幾方面的管理:首先,各部門應(yīng)加強應(yīng)急預案準備工作,并提升自身職業(yè)技能,切實履行自身職責。其次,定期邀請專家學者、社會媒體等各方面力量,定期研討輿情事件,協(xié)助政府有關(guān)部門做好網(wǎng)絡(luò)輿情治理工作。最后,在輿情事件發(fā)生后,政府應(yīng)及時組織調(diào)查力量介入,第一時間發(fā)布通告和公開視頻資料,幫助網(wǎng)民掌握事件全貌,澄清謠言和不實言論。
針對摻雜有反諷語義的輿情評論情感識別,本文提出了一種協(xié)同雙向編碼表征模型。通過組合兩個普通雙向編碼表征模型,將反諷/非反諷、正面/負面兩種領(lǐng)域的語義信息進行合并,用反諷識別信息指導正負語義信息的理解。進一步,與普通雙向編碼表征模型和Text-LSTM等深度學習模型進行對比,實驗結(jié)果證明:在處理摻雜有反諷語義的輿情評論文本情感分析任務(wù)時,協(xié)同雙向編碼表征模型具備更好的性能,可為相關(guān)部門進行輿情管控提供更加精準的決策支持。