国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

BERT-DPCNN模型在網(wǎng)絡(luò)輿情情感分析中的應(yīng)用

2022-10-13 13:22孫丹丹鄭瑞坤
關(guān)鍵詞:卷積準確率輿情

◆孫丹丹 鄭瑞坤

(湖北工業(yè)大學(xué) 湖北 432200)

近年來,網(wǎng)絡(luò)輿情的影響力不斷擴大,特別是一些重大突發(fā)事件發(fā)生后,網(wǎng)絡(luò)輿情快速發(fā)酵,能夠形成強大的社會力量。因而,網(wǎng)絡(luò)輿情的有效引導(dǎo)與否,既事關(guān)現(xiàn)場應(yīng)急處置的成功,也關(guān)系到社會穩(wěn)定與和諧[1]。

對于網(wǎng)絡(luò)輿情的情感分析,早期研究多是通過情感詞典匹配的方法或是基于傳統(tǒng)機器學(xué)習(xí)算法[2]。情感詞典法有較強的通用性,實現(xiàn)簡單,但情感詞典有較高的要求,需要專家花費較大工作量構(gòu)建具有針對性的高質(zhì)量詞典。Tan[3]等通過情感詞典方法,構(gòu)建新聞文章的情感分析器,對新聞的標題和內(nèi)容賦予不同權(quán)重來分析蘊含的情感,進而探究其對分析結(jié)果的影響效應(yīng)。而傳統(tǒng)機器學(xué)習(xí)算法需要人工構(gòu)造十分復(fù)雜的特征,利用樸素貝葉斯、支持向量機等分類器實現(xiàn)有監(jiān)督學(xué)習(xí),再分析文本中蘊含的情感[4]。Pang等[5]運用了三種常見的機器學(xué)習(xí)算法來分析文本的情感傾向,對比研究結(jié)果發(fā)現(xiàn)支持向量機(SVM)的準確率以及查全率均高于另外兩種算法。

目前,深度學(xué)習(xí)應(yīng)用更加廣泛,文本情感分析研究領(lǐng)域逐漸采用深度學(xué)習(xí)分析方法。深度學(xué)習(xí)通過模擬人腦神經(jīng)系統(tǒng)來構(gòu)造網(wǎng)絡(luò)模型對文本進行學(xué)習(xí),從原始數(shù)據(jù)中自動提取特征,無需手工設(shè)計特征,面對海量數(shù)據(jù)的處理,在建模、遷移、優(yōu)化等方面比機器學(xué)習(xí)的優(yōu)勢更為明顯。Kim[6]最早提出將CNN用于文本情感分析,在預(yù)訓(xùn)練的詞向量上使用不同大小卷積核的CNN提取特征,對句子級的分類較機器學(xué)習(xí)有顯著優(yōu)勢。Mikolov等[7]在文本情感分析中使用RNN。相比CNN,RNN更擅于捕獲長距離依賴。RNN每個節(jié)點都能利用到之前節(jié)點的信息,因此更適用于序列信息建模。然而隨著輸入不斷增多,RNN對早期輸入的感知能力下降,產(chǎn)生梯度彌散和爆炸。針對上述問題進一步研究,提出了RNN的變體長短期記憶網(wǎng)絡(luò)(LSTM)[8]和循環(huán)門控單元(GRU)[9]等。田竹[10]將CNN與雙向GRU結(jié)合,在篇章級的文本中分析情感傾向,提高了模型的魯棒性。傳統(tǒng)深度學(xué)習(xí)模型賦予全部特征同等權(quán)重訓(xùn)練,不能區(qū)分不同特征對分類的貢獻度,Attention機制通過聚焦重要特征從而很好地解決了這一問題。Luong等[11]提出全局和局部兩種Attention機制,在英語到德語的翻譯上取得了很好的效果。Yang等[12]提出層次化Attention用于情感分析任務(wù),進一步證明了Attention機制的有效性。以上CNN與RNN以及Attention機制相結(jié)合的混合模型雖然取得了很好的效果,但大多使用Word2Vector或GloVe[13]等靜態(tài)詞向量方法,一詞多義不能較好處理。

從上述文獻可以看出,目前對于網(wǎng)絡(luò)輿情情感分析模型一般使用靜態(tài)詞向量方法,如Word2Vector、GloVe等,但存在的一詞多義問題無法較好地處理;此外,使用單一詞語層Attention機制對文本層次結(jié)構(gòu)的重要性未能充分考慮,不能充分利用句間關(guān)系。針對這些問題,本文以“新冠疫情”為例,運用BERT-DPCNN深度神經(jīng)網(wǎng)絡(luò)模型開展網(wǎng)絡(luò)輿情情感分析,為如何更好實現(xiàn)網(wǎng)絡(luò)輿情監(jiān)督提供一定參考建議。

1 BERT-DPCNN模型介紹

1.1 BERT模型

BERT是Google的Devlin[14]提出的預(yù)訓(xùn)練語言模型,把Transformer編碼器當(dāng)作基礎(chǔ)模塊來重疊,將文本中各個詞的原始詞向量作為輸入,將蘊含了文本語義后的全部詞向量作為輸出。利用注意力機制以及注意力加權(quán)操作后,序列中的任何一個字,都包含了這個字前后的信息,即這句話中所有成分的信息,當(dāng)前這個字可以用其他所有字表達出來。

為了訓(xùn)練BERT模型,做了Masked LM和Next Sentence Prediction兩項任務(wù)。通過聯(lián)合訓(xùn)練這兩項任務(wù),得到的詞向量表示更加完整,進而對輸入文本語義信息的刻畫也更加準確。在BERT模型的具體應(yīng)用中,我們無需變動BERT的核心架構(gòu),只需增加一個新的層即可。

BERT模型相對來說更加有效,一方面在于上述兩項預(yù)訓(xùn)練任務(wù),另一方面在于多層雙向Transformer[15],其主要是通過自注意力編碼增長序列和多頭注意力發(fā)現(xiàn)各個層級之間的相互關(guān)系。

1.2 DPCNN模型

DPCNN模型[16]利用加深網(wǎng)絡(luò)來提高準確率,并且計算成本增長幅度不大。DPCNN能夠?qū)㈦x散的文本結(jié)構(gòu)連續(xù)化,使其結(jié)構(gòu)轉(zhuǎn)換為下采樣層和卷積層的交替,從而使各層神經(jīng)網(wǎng)絡(luò)的計算量和數(shù)據(jù)量降低。DPCNN為了豐富詞嵌入的語義表示,使用雙層等長卷積,在每次卷積以后,都會進行最大池化,把序列長度對半壓縮,則模型可以感知翻倍的文本長度。隨著網(wǎng)絡(luò)的加深,模型能夠挖掘出文本中全局的語義信息和長距離的關(guān)聯(lián)。因此對比淺層卷積神經(jīng)網(wǎng)絡(luò),DPCNN準確率更高。

1.3 BERT-DPCNN網(wǎng)絡(luò)模型

DPCNN在實際應(yīng)用中,模型詞向量多是region embedding,但其實際上是n-gram,無法充分分析出語義信息。此外模型將詞全部壓縮至低維語義空間,導(dǎo)致含義相近的詞也許會有同一詞向量。但是在模型調(diào)參時,能夠解決這一問題。相較于DPCNN自身的詞向量,BERT生成的詞向量效率更高,并且使用Transformer,可以挖掘出基于上下文且具有研究價值的信息以及更長距離的依賴,因此本文將BERT和DPCNN結(jié)合起來。

BERT-DPCNN模型先通過BERT將輸入語料里所有詞轉(zhuǎn)換為詞向量,接著連接各個詞向量,生成向量矩陣陣X,如式(1)所示:

⊕是詞向量連接計算,xi是第i個詞的詞向量。xi:i+j是xi,xi+1,…,xi+j共有j+1個詞向量。卷積過程采用的是等長卷積來生成特征,卷積核W的大小為h,對于詞向量產(chǎn)生的特征C可用如下公式表示:

其中,b為偏差,f代表的是非線性變換函數(shù)。在進行卷積操作后得到的特征為C=[C1C2…CN-M+J],最后再進行最大池化。

2 模型應(yīng)用

2.1 數(shù)據(jù)獲取

“新冠”疫情在全球多數(shù)國家爆發(fā),人們的健康受到威脅,全球經(jīng)濟也遭受巨大損失。疫情暴發(fā)之后,出于疫情防控需要很多人居家隔離,于是激發(fā)更多的人選擇在微博、微信等網(wǎng)絡(luò)平臺表達自己的情感和觀點。由“新冠”疫情引發(fā)的網(wǎng)絡(luò)輿情作為非常態(tài)社會形態(tài)下輿情危機的典型事件,影響范圍廣且持續(xù)時間久,將其作為本文輿情分析對象意義重大。

模型應(yīng)用數(shù)據(jù)來自微博,其作為世界最大的中文社交網(wǎng)絡(luò)平臺,是網(wǎng)絡(luò)輿情的重要傳播平臺。本文將“新冠疫情”、“抗疫”等當(dāng)作關(guān)鍵詞,通過Python爬取這一突發(fā)事件下的輿情文本信息。對爬取到的輿情文本進行預(yù)處理后得到的數(shù)據(jù)有90335條,包含微博的發(fā)帖時間、發(fā)布內(nèi)容、轉(zhuǎn)發(fā)點贊數(shù)等。

2.2 模型評價指標

對于模型結(jié)果的評價,通常采用下面四個指標。

對于二分類問題,ROC曲線也是重要的模型評價方法,ROC曲線下的面積AUC代表了預(yù)測的正例在負例前面的概率,是用來分析不同算法模型好壞的重要指標。

此外,不僅要評估某個類別的分類情況,還要對全部類別的情況進行評估。基本思想是對各類別做平均,通常會用到以下方法:宏平均(Macro-Average)和微平均(Micro-Average)。

2.3 模型設(shè)置

本文BERT-DPCNN模型應(yīng)用采用Windows 10系統(tǒng),深度學(xué)習(xí)模型是在Pytorch1.1框架下搭建的,編程語言為Python3.8,計算機顯存為10G,GPU型號為RTX3080。

BERT-DPCNN模型的輸入采用BERT預(yù)訓(xùn)練模型生成的768維的embedding向量,卷積層由250個尺寸為3的卷積核組成,batch_size是128,epochs是20,F(xiàn)ocal loss是2,初始學(xué)習(xí)率是0.00005,為防止過擬合,dropout參數(shù)設(shè)置為0.1。

2.4 結(jié)果分析

為檢驗本文應(yīng)用的BERT-DPCNN模型算法的效果,主要將不同的詞向量與多種神經(jīng)網(wǎng)絡(luò)模型進行對比,詞向量包括fastText詞向量與BERT詞向量,神經(jīng)網(wǎng)絡(luò)模型有RNN、CNN、RCNN、DPCNN、BERT-CNN、BERT-RNN、BERT-RCNN和BERT-DPCNN,具體實驗結(jié)果如表1所示:

表1 深度學(xué)習(xí)模型的分類性能

通過比較實驗結(jié)果可以發(fā)現(xiàn),

(1)未采用BERT詞向量的四個模型中,CNN模型對本文文本分類的指標結(jié)果均超過其他模型,準確率達到84.96%。這說明了文本分類更加看重關(guān)鍵詞,相對來說RNN看重上下文語義則效率更低一些,準確率只有80.80%。DPCNN模型在本文文本應(yīng)用中表現(xiàn)較好,其準確率略低于CNN達到84.49%。

(2)采用BERT詞向量的深度學(xué)習(xí)模型,在準確率、召回率等評價指標上均表現(xiàn)突出,有顯著提升。具體來看,BERT-RNN相較于RNN準確率提高了6.12%,BERT-CNN相較于CNN提高了3.93%,BERT-RCNN相較于RCNN提高了7.27%,BERT_DPCNN相較于DPCNN提高了6.31%??梢?,采用BERT詞向量能夠有效地提高模型分類的準確性。

(3)對比全部模型應(yīng)用結(jié)果發(fā)現(xiàn),將BERT詞向量與DPCNN模型結(jié)合的BERT-DPCNN文本分類模型具有明顯的優(yōu)勢,其準確率高達90.80%,Recall、F1等指標結(jié)果也優(yōu)于其他模型。這主要是因為BERT-DPCNN文本分類模型選擇BERT生成詞向量,可以挖掘到更底層的特征信息,存儲更加完整全面的文本情感信息,在文本分類上也可以提供更多的依據(jù)。此外,DPCNN模型增加了用于文本分類的網(wǎng)絡(luò)深度,以提取文本中遠程關(guān)系的特征,同時引入了殘差結(jié)構(gòu),增加了多尺度信息。因此將BERT-DPCNN模型應(yīng)用到網(wǎng)絡(luò)輿情情感分析中具有十分重要的意義。

為了更直觀地體現(xiàn)BERT-DPCNN模型的優(yōu)勢,本文對各個模型的分類性能進行了可視化,將BERT-DPCNN與前面分類準確率表現(xiàn)良好的BERT-RNN、BERT-CNN和BERT-RCNN進行比較,得到混淆矩陣如圖1所示:

圖1 各模型實驗結(jié)果的混淆矩陣

BERT-DPCNN模型在該類別的預(yù)測中,Class1評論數(shù)有2115條,Class2評論數(shù)為8669條,Class3評論數(shù)為2743條。在Class1評論中,被正確分類的有1895條,被誤分類的有220條,準確率為89.60%;在Class2評論中,被正確分類的有7971條,被誤分類的有698條,準確率為91.95%;在Class3評論中,被正確分類的有2417條,被誤分類的有326條,準確率為88.12%。同理可得,在BERT-RNN模型中,評論文本的分類準確率分別為85.82%、88.22%、83.67%;在BERTCNN模型中,評論文本的分類準確率分別為87.47%、90.28%、85.64%;在BERT-RCNN模型中,評論文本的分類準確率分別為86.34%、89.00%、84.18%。

具體來看,對比評論數(shù)最多的Class2分類結(jié)果,BERT-DPCNN準確率高達91.95%,比BERT-RNN高出3.73%,比BERT-CNN高出1.67%;對比評論數(shù)最少的Class1分類結(jié)果,BERT-DPCNN準確率高達89.60%,比BERT-RNN高出3.78%,比BERT-CNN高出2.13%??梢姡徽摳黝悇e的評論數(shù)多少,本文采用的BERT-DPCNN模型對三個類別的分類準確率均高于其他模型,能夠較為準確地進行情感分類。

為了更準確分析這四個模型的實際應(yīng)用情況,采用ROC曲線對各模型的應(yīng)用情況進行分析,如圖2所示。

圖2 各模型實驗的ROC曲線

從圖中可以看到各模型的Micro_Average和Macro_Average的ROC曲線情況。對比曲線下方面積即Micro_AUC和Macro_AUC發(fā)現(xiàn),四個模型的AUC均在0.90以上,表明都具有較高的準確性。其中BERT-DPCNN模型的AUC達到0.93,高于其他模型,表明該模型在本文數(shù)據(jù)集上具有較高的分類精度。具體結(jié)果見表2。

表2 各模型的AUC

綜合本文模型在準確率、AUC等評價指標上的表現(xiàn)分析可知,因BERT詞向量對更底層特征信息的挖掘和DPCNN模型對遠程關(guān)系特征的提取,使得BERT-DPCNN模型具有較高的分類性能和分類精度。

3 結(jié)論

隨著網(wǎng)絡(luò)輿情越發(fā)復(fù)雜以及輿情危機管控的迫切要求,對于應(yīng)用大數(shù)據(jù)技術(shù)分析網(wǎng)絡(luò)輿情的需求越來越高。現(xiàn)有的網(wǎng)絡(luò)輿情情感分析模型普遍使用分詞技術(shù)結(jié)合靜態(tài)詞向量模型生成文本的向量表示,不能很好地解決一詞多義問題,且未能充分考慮文本層次結(jié)構(gòu)的重要性。本文以“新冠”疫情相關(guān)的微博文本作為研究樣本,應(yīng)用BERTDPCNN深度神經(jīng)網(wǎng)絡(luò)模型進行網(wǎng)絡(luò)輿情情感分析,并對比了常用的神經(jīng)網(wǎng)絡(luò)模型。模型應(yīng)用結(jié)果表明,BERT-DPCNN模型能夠更加準確地對輿情信息進行情感分類,進而更加有效的判斷“新冠”疫情暴發(fā)后廣大民眾的情緒走向,對有關(guān)部門把握輿論的正確導(dǎo)向和實施網(wǎng)絡(luò)輿情監(jiān)管具有較大的實用價值。

當(dāng)然,網(wǎng)絡(luò)輿情的數(shù)據(jù)集中還存在其他信息,并且模型僅在這一個實例中表現(xiàn)有效性。因此在未來的研究工作中,將會利用數(shù)據(jù)集中更多的信息以及大量的實例驗證來進一步提升模型的網(wǎng)絡(luò)輿情情感分類性能,從而為政府輿情管控部門提供較好的決策參考。

猜你喜歡
卷積準確率輿情
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
消費輿情
月度最熱輿情事件榜11月
月度最熱輿情事件榜9月