謝玉惠,肖桂榮
(福州大學(xué) 數(shù)字中國(guó)研究院(福建),福州 350108)
(福州大學(xué) 空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州 350108)
當(dāng)重大公共衛(wèi)生事件爆發(fā)時(shí),民眾的生理和心理健康均受到不同程度的威脅,突發(fā)公共衛(wèi)生事件的不可預(yù)測(cè)性、破壞性和演化的不確定性容易導(dǎo)致人們產(chǎn)生極端的負(fù)面情感并導(dǎo)致一系列嚴(yán)重的社會(huì)和經(jīng)濟(jì)問(wèn)題,隨著移動(dòng)互聯(lián)網(wǎng)的飛快發(fā)展和網(wǎng)絡(luò)社交媒體的興起,微博等社交媒體則是了解公眾想法的有效渠道之一[1].
社交媒體作為人們溝通交流、表達(dá)觀點(diǎn)的討論平臺(tái),積累了海量具有用戶痕跡數(shù)字化信息,為文本情感分類(lèi)和話題抽取提供了強(qiáng)大的數(shù)據(jù)基礎(chǔ).近年來(lái),微博、抖音、微信等移動(dòng)交流終端成為民眾網(wǎng)絡(luò)溝通和情感表達(dá)的重要途徑,使用者進(jìn)而成為信息的生產(chǎn)者和消費(fèi)者,可以在短時(shí)間內(nèi)就不同主題發(fā)表和分享意見(jiàn)、興趣和情感,如居住意見(jiàn)[2]、災(zāi)害研究[3]等領(lǐng)域微博數(shù)據(jù)已應(yīng)用甚廣.2020年初新冠肺炎爆發(fā),對(duì)居民的生命健康與國(guó)民經(jīng)濟(jì)的有序發(fā)展產(chǎn)生了極大的影響,疫情相關(guān)信息得到高度關(guān)注,以微博為代表的社交媒體,成為當(dāng)前疫情期間我國(guó)民眾獲取疫情進(jìn)展?fàn)顩r、分享信息和情緒宣泄的首選平臺(tái)[4].通過(guò)分析疫情期間的民眾微博信息,挖掘文本信息中用戶的情感極性,有助于了解公眾對(duì)于疫情的情感狀態(tài)和價(jià)值取向,從而使得有關(guān)部門(mén)能夠動(dòng)態(tài)了解民眾心理傾向,準(zhǔn)確把握事件相關(guān)輿論的發(fā)展動(dòng)態(tài).
本文基于情感分析,對(duì)新型冠狀病毒疫情期間的網(wǎng)絡(luò)輿論情感態(tài)勢(shì)進(jìn)行研究.文本情感分析最早由Nasukawa提出,是指通過(guò)自然語(yǔ)言處理實(shí)現(xiàn)文本情感色彩的挖掘、分析、歸納和推理.本文的研究?jī)?nèi)容是對(duì)疫情期間我國(guó)民眾在微博平臺(tái)上所發(fā)布的疫情相關(guān)信息的博文進(jìn)行情感極性分析.微博短文本信息包含大量的網(wǎng)絡(luò)用語(yǔ)、表情符號(hào)等,并且由于疫情的時(shí)間跨度長(zhǎng),人們所發(fā)布的博文的情感極性往往會(huì)因?yàn)闀r(shí)間或某些特殊事件的發(fā)生而改變,因此傳統(tǒng)的情感分析方法并不適用于該任務(wù).本文提出了一種融合注意力機(jī)制(attention)的CNNs-BiLSTM情感極性分析方法,將卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合起來(lái),通過(guò)注意力機(jī)制獲取文本中的關(guān)鍵詞信息,高效準(zhǔn)確實(shí)現(xiàn)數(shù)據(jù)時(shí)序和語(yǔ)義信息挖掘.
現(xiàn)階段情感分析主要有3種方法,首先是基于情感詞典獲取情感詞的情感強(qiáng)度或者極性加權(quán)計(jì)算文本的情感傾向.Hung等[5]和Hung等[6]基于情感詞典對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感分類(lèi),但由于情感詞典中情感強(qiáng)度值不靈活,后者以客觀詞出現(xiàn)在正面和負(fù)面酒店評(píng)論文本中的頻率高低為依據(jù)重新定義客觀詞的情感值來(lái)改進(jìn)情感分類(lèi).并且通用情感詞典不能完全覆蓋所有的情感詞[7],應(yīng)用于不同領(lǐng)域時(shí)也存在著明顯的局限性.網(wǎng)絡(luò)流行語(yǔ)言情感詞典、表情詞典的構(gòu)建[8]有利于微博文本情感分析,并且否定詞和修飾詞對(duì)情感分析也起到重要作用[9].利用機(jī)器學(xué)習(xí)方法進(jìn)行情感分析的精準(zhǔn)性、擴(kuò)展性與可重復(fù)性皆?xún)?yōu)于情感詞典的方法,后來(lái)越來(lái)越多的學(xué)者將目光投入關(guān)于情感分析的機(jī)器學(xué)習(xí)方法研究中.曾子明等[10]構(gòu)建了XGBoost的集成情感分析模型框架,取得了不錯(cuò)的效果.Yao等[11]基于城市Twitter數(shù)據(jù)進(jìn)行公眾情緒分析,對(duì)比了三種傳統(tǒng)機(jī)器學(xué)習(xí)模型,但是結(jié)果皆不盡人意,分類(lèi)精度不能滿足后續(xù)分析.隨著數(shù)據(jù)量的激增,文本信息的特征越來(lái)越復(fù)雜,深度學(xué)習(xí)的出現(xiàn)為自然語(yǔ)言處理任務(wù)提供了新的手段.CNN模型最早應(yīng)用于自然語(yǔ)言處理任務(wù),Wu等[12]通過(guò)CNN模型自動(dòng)挖掘相關(guān)特征來(lái)進(jìn)行情感分析,但是單一的卷積模型往往不能考慮上下文關(guān)系[13].Hossain等[14]發(fā)現(xiàn)BiLSTM技術(shù)對(duì)上下文關(guān)系的探索相對(duì)優(yōu)于其他機(jī)器學(xué)習(xí)算法精度,Dashtipour等[15]也發(fā)現(xiàn)雙層BiLSTM模型具有較高的準(zhǔn)確率,LSTM和CNN組成的神經(jīng)網(wǎng)絡(luò)架構(gòu)也有不錯(cuò)的分類(lèi)效果[16],徐緒堪等[17]利用BiLSTM與多個(gè)CNN疊加的混合模型在微信推文評(píng)論的情感分類(lèi)中取得理想效果.同時(shí)融合注意力機(jī)制的情感分析模型也得到了越來(lái)越多研究者的關(guān)注[18,19].
本文將基于情感分析,對(duì)新型冠狀病毒疫情期間的網(wǎng)絡(luò)輿論情感態(tài)勢(shì)進(jìn)行研究,以疫情期間我國(guó)民眾在微博平臺(tái)上所發(fā)布的疫情相關(guān)信息的博文為研究對(duì)象進(jìn)行情感極性分析.提出了一種融合注意力機(jī)制的CNNs-BiLSTM情感極性分析方法,將卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合起來(lái),通過(guò)注意力機(jī)制獲取文本中的關(guān)鍵詞信息,高效準(zhǔn)確實(shí)現(xiàn)數(shù)據(jù)時(shí)序和語(yǔ)義信息挖掘.
本文使用的原始微博輿情語(yǔ)料數(shù)據(jù)來(lái)自于Hu等[20]提供的社交媒體數(shù)據(jù)集(Weibo-COV V2),該輿情數(shù)據(jù)含有大規(guī)模的疫情相關(guān)微博,主要以微博活躍用戶作為爬取對(duì)象,活躍用戶更傾向于以微博作為網(wǎng)絡(luò)交流討論的工具,因此,所獲取的微博信息相對(duì)于非活躍狀態(tài)的微博用戶發(fā)表的博文更具實(shí)時(shí)性,情感狀態(tài)也更加豐富.該數(shù)據(jù)集中包括微博內(nèi)容數(shù)據(jù)和用戶信息數(shù)據(jù),為了滿足實(shí)驗(yàn)需求,先將這兩份數(shù)據(jù)根據(jù)用戶名稱(chēng)信息進(jìn)行合并,再將數(shù)據(jù)集中關(guān)于抽獎(jiǎng)、某些娛樂(lè)明星超話、以及微博信息不完整、內(nèi)容相同的微博數(shù)據(jù)刪除,再以這份數(shù)據(jù)集為基礎(chǔ)構(gòu)建一份新的微博情感極性數(shù)據(jù)集.從數(shù)據(jù)集中選取了部分微博文本數(shù)據(jù),通過(guò)人工標(biāo)注方式進(jìn)行情感極性標(biāo)注,標(biāo)記小組一共7人,為保證數(shù)據(jù)標(biāo)注的質(zhì)量,采用了交叉重復(fù)標(biāo)記,刪除了兩輪標(biāo)記不一致的文本,共整理了63975條數(shù)據(jù).為了避免因?yàn)闃颖緮?shù)量不均衡而導(dǎo)致實(shí)驗(yàn)結(jié)果不理想,其中情感表達(dá)為正向的文本數(shù)據(jù)一共31987條,情感表達(dá)為負(fù)向的數(shù)據(jù)一共31988條,標(biāo)簽語(yǔ)料數(shù)據(jù)集達(dá)到樣本的正負(fù)情感極性均勻分布.最終得到的情感標(biāo)注示例如表1所示.
數(shù)據(jù)預(yù)處理是文本情感極性分析不可缺少的前期工作,主要內(nèi)容包括數(shù)據(jù)過(guò)濾、文本分詞、去除停用詞.在所構(gòu)建的標(biāo)簽語(yǔ)料數(shù)據(jù)集中,包含許多非文本數(shù)據(jù)、標(biāo)簽、以及‘@#//【】’等特殊字符,考慮到優(yōu)化效率節(jié)省存儲(chǔ)空間以及詞向量表示準(zhǔn)確性,所以需要將這些無(wú)用的信息清除掉,主要通過(guò)正則表達(dá)式匹配來(lái)過(guò)濾信息.
文本分詞采用jieba分詞工具進(jìn)行處理,jieba分詞是以基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成有向無(wú)環(huán)圖顯示所有可能的分詞情況,以基于前綴詞典的詞頻高低作為分詞的依據(jù),對(duì)于未登錄詞則是通過(guò)加載HMM概率模型圖,使用Viterbi算法動(dòng)態(tài)規(guī)劃取得分詞結(jié)果.由于jieba工具分詞詞庫(kù)本身的局限性,可能并未涵蓋新冠疫情期間的某些熱詞,比如“逆行者、檢測(cè)率”等.因此,本文以疫情相關(guān)熱詞構(gòu)建了用戶自定義詞典,從而對(duì)jieba分詞語(yǔ)料庫(kù)進(jìn)行優(yōu)化,經(jīng)過(guò)對(duì)文本分詞后,再使用哈工大停用詞表對(duì)停用詞進(jìn)行過(guò)濾.同時(shí),考慮到年輕人的符號(hào)表達(dá)方式,如“!!!”、“???”,在本文的語(yǔ)料庫(kù)中保留了“!?”符號(hào).
本文基于卷積神經(jīng)網(wǎng)絡(luò)CNN和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)BiLSTM構(gòu)建了COVID-19疫情輿情微博情感極性分類(lèi)模型.在BiLSTM和CNN的基礎(chǔ)上引入了注意力機(jī)制,提出了一種適用于微博文本情感極性分析的卷積網(wǎng)絡(luò)與雙向長(zhǎng)短期網(wǎng)絡(luò)相結(jié)合的多通道模型(Multi-Channel-CNNAtt-BLSTMAtt,MCCB),具體結(jié)構(gòu)如圖1所示.
圖1 卷積網(wǎng)絡(luò)與雙向長(zhǎng)短期網(wǎng)絡(luò)相結(jié)合的多通道模型結(jié)構(gòu)(MCCB)
文本數(shù)據(jù)在經(jīng)過(guò)預(yù)處理后,通過(guò)向量化后輸入情感分析模型進(jìn)行下一步處理,本文以清洗后的微博疫情輿情語(yǔ)料數(shù)據(jù)進(jìn)行詞向量訓(xùn)練.該語(yǔ)料數(shù)據(jù)大小約4.3GB,采用Word2Vec工具進(jìn)行大規(guī)模文本訓(xùn)練,將文本轉(zhuǎn)化為低稠密的向量空間.本文選擇Word2Vec工具Skip-gram模型訓(xùn)練詞向量,Skip-gram模型將語(yǔ)料中的所有詞語(yǔ)作為中心詞,通過(guò)中心詞與上下文對(duì)應(yīng)關(guān)系的條件概率分布來(lái)預(yù)測(cè)其上下文的詞匯信息.表達(dá)公式如下:
(1)
其中i=t-1,t-2,t+1,t+2,Wi為上下文也就是周?chē)~匯的表示向量,Wt則代表為中心詞.而訓(xùn)練得到的詞向量表示為[W1,W2,…,Wn],其中n為文本單詞總數(shù),經(jīng)過(guò)詞嵌入層轉(zhuǎn)換后,文本則表示為[x1,x2,…,xn].Word2Vec模型具體訓(xùn)練參數(shù)如表2所示.
表2 Word2Vec模型參數(shù)
CNN作為一種特殊類(lèi)型的前向神經(jīng)網(wǎng)絡(luò),近年來(lái)被學(xué)者廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,基本結(jié)構(gòu)分為3個(gè)部分,輸入層、卷積層與池化層、全連接層[21],如圖2所示.卷積層提取特征首先是以詞向量矩陣形式表示文本,再通過(guò)不同大小的卷積核對(duì)矩陣進(jìn)行掃描,在掃描的過(guò)程中,卷積核所組成的濾波器的參數(shù)值固定不變,過(guò)濾后映射出新的特征圖,該特征圖上的所有元素都來(lái)自于參數(shù)一致的濾波器.
圖2 CNN網(wǎng)絡(luò)結(jié)構(gòu)示例
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),由一個(gè)個(gè)細(xì)胞單元與3個(gè)門(mén)組成,細(xì)胞單元是核心計(jì)算能力,記錄當(dāng)前計(jì)算狀態(tài),而遺忘門(mén)、輸入門(mén)和輸出門(mén)調(diào)節(jié)進(jìn)出存儲(chǔ)單元的信息流,遺忘門(mén)清除存儲(chǔ)單元中的無(wú)用信息,輸入門(mén)選擇當(dāng)前存儲(chǔ)單元的輸入信息,輸出門(mén)決定信息的最終輸出.
在對(duì)微博文本進(jìn)行情感分析時(shí),往往需要考慮到上下文語(yǔ)義特征對(duì)文本整體情感狀態(tài)的影響,但一般的LSTM模型語(yǔ)義捕獲只針對(duì)于文本中單向的語(yǔ)義關(guān)系,也就是忽略了下文語(yǔ)義特征對(duì)整體狀態(tài)的影響.而B(niǎo)iLSTM模型由正反兩個(gè)方向的LSTM網(wǎng)絡(luò)構(gòu)成,基于兩個(gè)不同的順序充分捕獲上下文信息,可以挖掘更為全面的文本語(yǔ)義,如在圖3所示,h1是經(jīng)過(guò)兩個(gè)LSTM層輸出的正向的隱藏狀態(tài)和反向的隱藏狀態(tài)拼接后得到相應(yīng)的句子特征向量.
圖3 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)示例
由于長(zhǎng)距離依賴(lài)性問(wèn)題,CNN或RNN對(duì)于句子的整體特征提取結(jié)果不盡如人意,而對(duì)于微博語(yǔ)料而言,并非所有的詞匯都對(duì)句子含有語(yǔ)義表達(dá)作用,因此本文通過(guò)融入注意力機(jī)制來(lái)提取句子中的重要信息,計(jì)算注意力概率分布,相對(duì)重要的部分給予更大的權(quán)重值,權(quán)重越大的特征在整個(gè)文本中越重要,以此機(jī)制把握文本總體特征.注意力機(jī)制主要結(jié)構(gòu)如圖4所示.
圖4 注意力機(jī)制結(jié)構(gòu)示例
主要公式如下:
(2)
(3)
(4)
本文提出的MCCB模型中,Input輸入層為第1層,讀取經(jīng)過(guò)清洗后的數(shù)據(jù)集.經(jīng)過(guò)分詞處理的微博文本數(shù)據(jù)傳入第2層Embedding層,向量化過(guò)程中使用Word2Vec模型,Embedding層根據(jù)傳入的詞嵌入相應(yīng)的向量,將該向量傳輸進(jìn)多通道模型中.模型的第3層為多通道特征提取層,進(jìn)入BiLSTM模型通道,可通過(guò)正負(fù)兩個(gè)方向同時(shí)捕獲語(yǔ)義信息.多個(gè)CNN模型則是為了提取句子不同尺度下的局部特征,使用不同大小的卷積核可提取不同維度的特征更好地實(shí)現(xiàn)語(yǔ)義信息的提取.利用Word2Vec模型所訓(xùn)練的詞向量維度為350,3個(gè)卷積通道的過(guò)濾器分別為1×350,2×350,3×350,池化層采用了Max Pooling操作,摒棄弱特征.BiLSTM模型通道采取L2正則化處理,進(jìn)而控制模型復(fù)雜度盡量避免過(guò)擬合發(fā)生.在第4層中引入注意力機(jī)制,提取各個(gè)通道更重要的特征信息;拼接層將所有通道輸出的特征匯總,獲取更為豐富的特征信息;匯總后的特征傳入全連接層,添加了隨機(jī)失活機(jī)制以減少冗余,并提高模型泛化能力.最后根據(jù)輸出層的Softmax分類(lèi)器判斷文本所屬的情感極性類(lèi)別.
本文實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Window10,CPU是Intel(R) Core(TM) i7-7700,采用Python語(yǔ)言,深度學(xué)習(xí)框架為T(mén)ensorFlow,GPU為NVIDIA GeForceRTX 2080ti.
本文采用精確率(Precision,P)、召回率(Recall,R)、F1值(F-score)作為情感極性分類(lèi)的評(píng)價(jià)指標(biāo).精確率(P)表示所預(yù)測(cè)出所有情感極性標(biāo)簽為正的樣本中被正確分類(lèi)的情緒樣本占所有預(yù)測(cè)標(biāo)簽為正的樣本比重,召回率(R)為所有情感極性標(biāo)簽為正的樣本樣例中,標(biāo)簽被正確識(shí)別為正樣本的比例,F1值為精確率(P)與召回率(R)的調(diào)和平均數(shù).公式如下所示:
(5)
(6)
(7)
為進(jìn)一步提升本文模型的性能需要對(duì)超參數(shù)進(jìn)行優(yōu)化,對(duì)所構(gòu)建的MCCB模型的濾波器的窗口高度、濾波器數(shù)量、BiLSTM隱藏層單元數(shù)、隨機(jī)失活率超參數(shù)進(jìn)行了調(diào)節(jié)實(shí)驗(yàn).
由圖5可以看出,隨著各通道濾波器高度的增加,模型的性能反而下降,這表明當(dāng)各通道濾波器高度設(shè)置為[1,2,3]時(shí),模型性能最佳.當(dāng)各通道濾波器數(shù)量增多時(shí),模型性能也隨之上升,各個(gè)通道濾波器數(shù)量設(shè)置為[64,128,256]時(shí)模型表現(xiàn)最優(yōu),之后開(kāi)始回落.數(shù)量相對(duì)較多時(shí)模型特征提取能力增強(qiáng),所提取的特征過(guò)多可能導(dǎo)致過(guò)擬合.當(dāng)BiLSTM隱藏層單元數(shù)為150時(shí),精確率最高,隱藏層單元數(shù)較大會(huì)導(dǎo)致模型參數(shù)增加,過(guò)擬合的風(fēng)險(xiǎn)也隨之增大.當(dāng)隨機(jī)失活率大于0.4時(shí),模型的整體性能有所下降,隨機(jī)失活的比例越大,訓(xùn)練過(guò)程中引入的噪聲就越多,特征信息不足或?qū)е履P妥R(shí)別精度下降.
圖5 不同影響因素對(duì)實(shí)驗(yàn)結(jié)果的影響
為評(píng)估本文提出的MCCB模型預(yù)測(cè)效果,將選取一些基準(zhǔn)模型在同等實(shí)驗(yàn)環(huán)境下進(jìn)行對(duì)比.本文選取的基準(zhǔn)模型具體如下:
1)邏輯回歸模型(LR)[22]:主要解決二分類(lèi)問(wèn)題,是經(jīng)典的機(jī)器學(xué)習(xí)分類(lèi)模型.
2)支持向量機(jī)(SVM)[23]:使用TF-IDF來(lái)表示文本詞語(yǔ),通過(guò)SVM算法進(jìn)行情感情感極性判斷.
3)LSTM和BiLSTM模型[24]:利用LSTM捕獲單向語(yǔ)義或BiLSTM抽取句子上下文特征,通過(guò)softmax分類(lèi)器進(jìn)行情感分析.
4) CNN-Att[25]和BiLSTM-Att模型[26]:CNN提取文本局部特征信息,或是利用BiLSTM獲取上下文語(yǔ)義信息,再以Attention計(jì)算模型輸出特征的注意力權(quán)重,最終進(jìn)入全連接層與分類(lèi)器進(jìn)行輸出.
5)CNN-BiLSTM模型:將分詞后的句子經(jīng)過(guò)詞嵌入進(jìn)行向量化,再輸入CNN中,所抽取的局部特征進(jìn)一步輸入BiLSTM中,最后通過(guò)分類(lèi)器得到最終結(jié)果.
本文用所提出的MCCB模型與其他幾種神經(jīng)網(wǎng)絡(luò)模型方法在疫情情感數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表3所示.由實(shí)驗(yàn)結(jié)果可知,LR與SVM這類(lèi)傳統(tǒng)機(jī)器學(xué)習(xí)模型實(shí)驗(yàn)效果不佳,LR模型相對(duì)簡(jiǎn)單,其模型本身無(wú)法進(jìn)行特征篩選,所擬合的數(shù)據(jù)效果欠佳;而SVM模型分類(lèi)效果雖然優(yōu)于LR模型,但針對(duì)句中的詞向量信息也只是進(jìn)行了單一的加權(quán)平均,因此傳統(tǒng)的機(jī)器學(xué)習(xí)方法不適用于現(xiàn)階段的需求.在微博情感極性分析實(shí)驗(yàn)中可明顯看出,深度學(xué)習(xí)模型的測(cè)試結(jié)果優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型.BiLSTM模型的實(shí)驗(yàn)結(jié)果相較于LSTM模型具有更高的準(zhǔn)確率,可見(jiàn)雙向單元在序列化數(shù)據(jù)處理中具有明顯優(yōu)勢(shì).在CNN網(wǎng)絡(luò)中融入注意力機(jī)制后,其分類(lèi)效果優(yōu)于LSTM模型,CNN網(wǎng)絡(luò)通過(guò)卷積窗口的滑動(dòng)學(xué)習(xí)文本的詞向量表征,能夠有效提取句子的局部特征,并且注意力機(jī)制可以在陳述性記憶中重點(diǎn)關(guān)注且定位到語(yǔ)義相關(guān)的詞匯上,能夠更好地捕獲情感詞賦予其較高的權(quán)重值.CNN-BiLSTM模型的分類(lèi)結(jié)果相對(duì)于以上幾種模型更佳,結(jié)合了CNN和BiLSTM模型兩方面的優(yōu)點(diǎn),考慮到了局部信息與上文信息的整合,但是測(cè)試結(jié)果仍稍遜于MCCB模型,通過(guò)CNN獲取局部信息后再傳遞到BiLSTM網(wǎng)絡(luò)中,但是以這種遞進(jìn)結(jié)構(gòu)進(jìn)行特征傳輸會(huì)導(dǎo)致特征信息不完整.可見(jiàn),MCCB模型相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)模型相對(duì)于文本特征的把握更具優(yōu)勢(shì),通過(guò)多通道的卷積網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)提取文本特征,比單一的CNN和BiLSTM網(wǎng)絡(luò)捕獲的信息更加全面,注意力機(jī)制的引入使模型更加關(guān)注于文本的情感部分,通過(guò)權(quán)重信息的分配使得文本表示更富有情感特征信息,這一優(yōu)勢(shì)同樣體現(xiàn)在BiLSTM和BiLSTM-Att模型的對(duì)比中,文本表示一致,但是模型在注意力機(jī)制的作用下得到了有效提升.
表3 實(shí)驗(yàn)對(duì)比結(jié)果
為進(jìn)一步探究本文所提出的MCCB模型各部分設(shè)計(jì)的優(yōu)點(diǎn),開(kāi)展了消融實(shí)驗(yàn).將MCCB模型進(jìn)行了分解,分別移除了BiLSTM網(wǎng)絡(luò)、多通道CNN網(wǎng)絡(luò)、Attention機(jī)制,以此驗(yàn)證被去除部分的有效性,為控制參數(shù)對(duì)實(shí)驗(yàn)的影響,每組實(shí)驗(yàn)超參數(shù)設(shè)置相同.實(shí)驗(yàn)結(jié)果如表4所示(w/o代表 without).
表4 消融實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出模型的每一部分結(jié)構(gòu)對(duì)于模型的性能均有明顯提升,在相同條件下,詞嵌入層使用Word2Vec所訓(xùn)練的詞向量相比采用隨機(jī)初始化字向量的方法F值有所提升,可見(jiàn)Word2Vec對(duì)詞向量的訓(xùn)練有良好效果.未加入attention機(jī)制時(shí),模型只利用CNNs和BiLSTM的特征提取優(yōu)勢(shì)也能取得不錯(cuò)的效果,但是attention機(jī)制能夠在最終結(jié)果上放大了文本特征的差異,實(shí)現(xiàn)了文本特征的進(jìn)一步挖掘.CNNs與BiLSTM的嵌入均有利于模型性能的提升,BiLSTM模型的引入可以增加語(yǔ)義信息的豐富程度,有效捕獲文本中的長(zhǎng)距離依賴(lài)與上下文信息;而移除多個(gè)通道的CNN網(wǎng)絡(luò)后,多尺度的文本局部特征被忽略導(dǎo)致F值顯著降低,這也表明了增加CNNs結(jié)構(gòu)對(duì)情感極性分析模型有積極作用.
因此,本文MCCB模型的分析結(jié)果相對(duì)于其他模型更佳,一方面充分發(fā)揮了CNN和BiLSTM模型各自的優(yōu)勢(shì),可以在提取文本中多尺度局部特征信息的同時(shí)解析上下文語(yǔ)義信息;另一方面通過(guò)構(gòu)建注意力機(jī)制獲得更多隱含信息,減少了非重點(diǎn)詞匯對(duì)于模型的影響,以多通道形式融合多種特征,實(shí)現(xiàn)了詞向量的情感增強(qiáng),使得語(yǔ)義特征與情感極性標(biāo)簽更具相關(guān)性,從而獲得最好的情感分類(lèi)效果.
基于CNN、BiLSTM以及注意力機(jī)制,提出了基于MCCB模型的疫情微博情感極性分析方法,該方法聚焦于多尺度的文本輸入特征,通過(guò)注意力機(jī)制實(shí)現(xiàn)不同維度文本特征的重要度分配.實(shí)驗(yàn)結(jié)果證明,基于注意力機(jī)制的多通道CNNs-BiLSTM情感極性分類(lèi)模型在疫情微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果較其他基準(zhǔn)模型性能更優(yōu),能夠有效識(shí)別和分析網(wǎng)絡(luò)輿情中網(wǎng)民微博博文的情感極性.本研究在數(shù)據(jù)與方法上還存在一定的不足,研究數(shù)據(jù)僅限于微博短文本,未討論模型對(duì)長(zhǎng)文本數(shù)據(jù)的分類(lèi)效果,同時(shí)未考慮加入中性文本,下一階段的研究工作是將模型部署至長(zhǎng)文本分類(lèi)中以及探討3分類(lèi)情感分析的效果.
小型微型計(jì)算機(jī)系統(tǒng)2023年6期