黃衛(wèi)東,程小香
(南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210003)
伴隨著移動(dòng)互聯(lián)網(wǎng)以及移動(dòng)終端的飛速發(fā)展,在線社交媒體的迅速普及,輿論重心逐漸由線下轉(zhuǎn)移到線上。微博誕生于2009年,是移動(dòng)互聯(lián)網(wǎng)和Web2.0時(shí)代的代表產(chǎn)品。通過微博,用戶可以利用140字的短文本形式發(fā)布信息,也可以瀏覽到正在發(fā)生的事件,滿足了用戶的社交需求和資訊需求,迅速占領(lǐng)國內(nèi)市場(chǎng)。據(jù)CNNIC統(tǒng)計(jì),截止到2020年6月月底,國內(nèi)微博用戶數(shù)量達(dá)5.23億,日活躍用戶2.3億,如此龐大的注冊(cè)用戶數(shù)量以及活躍用戶數(shù)量,讓微博成為國內(nèi)輿情研究最主要的社交媒體平臺(tái)。
通常情況下,具有不同的社會(huì)背景、生活經(jīng)歷以及教育水平的輿情參與主體會(huì)對(duì)相同輿情事件產(chǎn)生不同的情感,而這種情感影響輿情事件的發(fā)展趨勢(shì)。情感的傾向可以有效反映出參與主體對(duì)輿情事件是積極或是消極的態(tài)度,情感強(qiáng)度也可以表現(xiàn)出參與主體對(duì)輿情事件的關(guān)注度和投入度的大小。該文通過微博話題“暴雪”作為研究對(duì)象并收集相關(guān)數(shù)據(jù),構(gòu)建Bilstm+Attention+情感副詞詞典的分類模型來研究輿情參與主體的情感強(qiáng)度。
21世紀(jì)以來,大量學(xué)者針對(duì)情感進(jìn)行分類研究,涉及到的情感分類技術(shù)基本可以劃分成三種類型:基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。
基于情感詞典的方法主要依靠情感詞典的構(gòu)建對(duì)文本進(jìn)行分類,通過詞性標(biāo)注以及詞出現(xiàn)的位置來判斷文本情感。Khoo等人[1]構(gòu)建了一種通用情感詞典,命名為WKWSCI,并將其和現(xiàn)有的情感詞典分析比較,顯示出較高的分類準(zhǔn)確度。Wu等人[2]通過構(gòu)建原始情感詞典、表情符號(hào)詞典以及其他相關(guān)詞典,擴(kuò)大了情感詞覆蓋范圍,提高了實(shí)驗(yàn)的準(zhǔn)確性。周知等人[3]提出一種針對(duì)短文本的情感詞典構(gòu)建方法,其結(jié)果的準(zhǔn)確率、召回率、詞典規(guī)模均高于通用情感詞典。但由于網(wǎng)絡(luò)新詞的頻繁出現(xiàn),這類詞在一定時(shí)期內(nèi)會(huì)被廣泛使用,并對(duì)文本情感影響很大,且情感詞典未定義該類詞,導(dǎo)致情感分類準(zhǔn)確率降低。
基于機(jī)器學(xué)習(xí)的方法,包括:支持向量機(jī)、樸素貝葉斯、隨機(jī)森林等,通過統(tǒng)計(jì)的方法將文本情感進(jìn)行分類。Kumar等人[4]從亞馬遜(Amazon)中提取評(píng)論信息,并使用幾類不同的機(jī)器學(xué)習(xí)算法將其判別為積極或消極,實(shí)驗(yàn)性能通過查準(zhǔn)率、召回率和F1值來衡量。Long等人[5]基于SVM使用包含先驗(yàn)概率的樣本數(shù)據(jù)對(duì)股票論壇帖子進(jìn)行分類,并證明了其有較高的準(zhǔn)確率。陳新元等人[6]將詞典抽取的規(guī)則情感特征與機(jī)器學(xué)習(xí)的基本特征模板融合,使用樸素貝葉斯等分類器,提高情感分類的性能表現(xiàn)。但是基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)分類方法的工作量巨大,需要大量的人工提取特征,給實(shí)際工作帶來諸多不便。
對(duì)比機(jī)器學(xué)習(xí),利用深度學(xué)習(xí)算法分類方式無需人工的特征提取,可以通過模型內(nèi)部神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取。Wang等人[7]采用長短期記憶神經(jīng)網(wǎng)絡(luò)來分析文本的情感類別。楊秀璋等人[8]針對(duì)傳統(tǒng)方法對(duì)輿情事件情感分析缺乏深層次語義支持,且特征稀疏、上下文關(guān)系單薄,導(dǎo)致情感分類準(zhǔn)確率較低,無法第一時(shí)間感知輿情突發(fā)事件等問題,提出一種基于TextCNN Attention的輿情事件情感分析模型,其實(shí)驗(yàn)結(jié)果表明該模型優(yōu)于傳統(tǒng)的輿情情感分類方法。Baziotis等人[9]將Attention機(jī)制引入到LSTM中,該算法在SemEval-2017對(duì)Twitter的情感分析,獲得了較好的實(shí)驗(yàn)效果。趙宏等人[10]提出的Bert-Han模型能有效提升微博情感分析的Macro F1和Micro F1值,具有較大的實(shí)用價(jià)值。但是深度學(xué)習(xí)算法是根據(jù)語義提取特征,當(dāng)特征的相似性接近時(shí),分類效果會(huì)隨之降低,無法對(duì)情感強(qiáng)度進(jìn)行區(qū)分。
對(duì)于情感強(qiáng)度的研究,劉依歡[11]提出了評(píng)價(jià)詞的確定原則,從不同的角度對(duì)評(píng)價(jià)詞進(jìn)行分類,并論述了影響文本情感強(qiáng)度的語言因素,包括詞匯、語境、固定搭配、語法手段、標(biāo)點(diǎn)符號(hào)和表情等。來能燁[12]分析實(shí)際文本中副詞可以表達(dá)出的情感強(qiáng)度,將不同情感強(qiáng)度的副詞賦予不同權(quán)重值,通過將句子本身定義的權(quán)重值與句中副詞權(quán)值相乘來獲得文本總情感強(qiáng)度。李肇明等人[13]提出模糊量化情感詞。根據(jù)訓(xùn)練的語料庫找出情感詞,情感詞的選取標(biāo)準(zhǔn)按照高頻詞匯和情感詞強(qiáng)度權(quán)值來選取,其中情感強(qiáng)度權(quán)值采用人工標(biāo)注的方式。尹培培[14]根據(jù)現(xiàn)有的情感詞典構(gòu)建出包括情感極性和情感強(qiáng)度的情感詞典,新的情感詞典中包括修飾詞的詞典,然后基于構(gòu)建的情感詞典進(jìn)行文本的情感傾向計(jì)算。吳青林[15]從客觀情感強(qiáng)度和主觀情感強(qiáng)度兩方面分析微博情感強(qiáng)度。
針對(duì)傳統(tǒng)方法無法準(zhǔn)確感知輿情參與主體的情感強(qiáng)度、特征稀疏以及對(duì)上下文關(guān)系沒有充分挖掘的缺點(diǎn),構(gòu)建了一種Bilstm+Attention+情感副詞詞典,利用雙向長短期記憶模型自動(dòng)提取內(nèi)部特征對(duì)文本情感傾向進(jìn)行分類,并充分考慮上下文的語義聯(lián)系,引入注意力機(jī)制,增強(qiáng)文本與結(jié)果的相關(guān)性,提高分類性能。但深度學(xué)習(xí)無法準(zhǔn)確區(qū)分情感強(qiáng)度,該文將情感副詞詞典引入分類模型,構(gòu)建Bilstm+Attention+情感副詞詞典的分類模型來研究輿情參與主體的情感傾向及強(qiáng)度。
整體框架如圖1所示。
首先利用python從微博平臺(tái)的開源API接口獲取輿情參與主體的文本數(shù)據(jù)信息,保存在excel表格中。之后將數(shù)據(jù)進(jìn)行清洗,去除無意義的詞、字母以及標(biāo)點(diǎn)符號(hào),用jieba進(jìn)行分詞,關(guān)鍵詞展示以及文本長度可視化,這一步可以大致確定接下來特征提取的維度。
利用word2vec提取文本特征并計(jì)算中心詞,將文本轉(zhuǎn)化成向量形式輸入到情感分類模型中,利用Bilstm+Attention+情感副詞詞典分析情感強(qiáng)度。
Bilstm+Attention模型主要由5部分構(gòu)成,分別是輸入層、詞嵌入層、Bilstm層、Attention層和softmax輸出層,如圖2所示。
(1)輸入層(Input Layer)。
Bilstm+Attention模型的輸入層只接受詞語級(jí)形式的輸入,所以先將文本進(jìn)行jieba分詞等預(yù)處理操作后,將結(jié)果以詞的形式輸入。
(2)嵌入層(Embedding Layer)。
Bilstm+Attention模型的嵌入層選擇word2vec預(yù)訓(xùn)練好的向量,將文本中的每個(gè)詞映射到低維空間,并用表征詞語的向量來計(jì)算整個(gè)句子的表征向量。
word2vec是一種淺層的神經(jīng)網(wǎng)絡(luò)模型,其中包括兩種模型跳字模型(skip-gram)和連續(xù)詞袋模型(continuous bag of words,CBOW),以及兩種高效訓(xùn)練的方法:負(fù)采樣(negative sampling)和層序softmax(hierarchical softmax),并且word2vec詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系。
(3)雙層長短期記憶層(Bilstm Layer)。
Bilstm模型是在RNN模型上改進(jìn)而來,其主要包括兩個(gè)相反方向的傳播,每個(gè)時(shí)間點(diǎn)包含一個(gè)LSTM單元用來選擇性地記憶、遺忘和輸出信息。LSTM單元的公式如下:
it=σ(Wxixt+Whiht-1+Wcfct-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
(2)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc)
(3)
ct=itgt+ftct-1
(4)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
(5)
ht=ottanh(ct)
(6)
Bilstm模型對(duì)輸入的向量進(jìn)行前向和后向遍歷,然后將結(jié)果加和,公式如下:
(7)
h*=tanh(r)
(8)
式中,xt為t時(shí)刻的輸入詞,it為t時(shí)刻記憶門的值,ft為遺忘門,ct為t時(shí)刻的細(xì)胞狀態(tài),ht為t時(shí)刻的隱藏狀態(tài),ot為輸出門,gt為上一細(xì)胞狀態(tài),W為權(quán)重系數(shù),σ為激活函數(shù),b為偏置值。
(4)注意力機(jī)制層(Attention Layer)。
注意力機(jī)制打破了傳統(tǒng)編碼器-解碼器結(jié)構(gòu)在編解碼時(shí)都依賴于內(nèi)部一個(gè)固定長度向量的限制。注意力機(jī)制與傳統(tǒng)的Seq2Seq模型主要是前者解并不是直接把所有encoder提供的hidden state作為輸入,而是采取一種選擇機(jī)制,把最符合當(dāng)前位置的hidden state選出來。
(5)輸出層(Output Layer)。
Bilstm+Attention模型輸出層使用softmax分類:
(9)
(10)
整個(gè)模型的損失函數(shù)(loss function)為:
文本中影響情感強(qiáng)度的因素繁復(fù)多樣,最主要的研究方向就是詞匯方面,按照詞性可以將詞匯分成四種:名詞、動(dòng)詞、形容詞以及副詞。副詞是影響文本情感傾向最典型的因素,其中對(duì)情感強(qiáng)度最具有區(qū)分度的是副詞,現(xiàn)有系統(tǒng)對(duì)副詞的處理方法是根據(jù)強(qiáng)度的差異,將其細(xì)分成四個(gè)等級(jí),之后再給這四個(gè)強(qiáng)度分配不同的值,進(jìn)行情感強(qiáng)度計(jì)算。具體分級(jí)及示例如表1所示。
表1 程度副詞分級(jí)及示例
首先依據(jù)Bilstm+Attention模型將文本情感進(jìn)行正負(fù)區(qū)分,正向情感用+1來表示,負(fù)向情感用-1來表示。再利用jieba分詞工具中的標(biāo)注詞性模塊將文本中的副詞標(biāo)注出來,提取文本中的副詞,構(gòu)造情感副詞詞典。具體公式如下:
(12)
式中,Ti表示第i個(gè)文本的情感得分,bi表示第i個(gè)文本中副詞等級(jí)屬于a的個(gè)數(shù),wa=2、3、4、5,(±)i1表示第i個(gè)文本的情感正負(fù)值。
實(shí)驗(yàn)主要在Windows10環(huán)境下完成,通過tensorflow框架構(gòu)建Bilstm+Attention情感分類模型,編程語言為Python3.6。此外,為驗(yàn)證算法的有效性,進(jìn)行了系統(tǒng)的對(duì)比實(shí)驗(yàn)。
以“暴雪”為主題詞,首先利用python從微博平臺(tái)的開源API接口獲取用來實(shí)驗(yàn)的輿情參與主體的文本數(shù)據(jù)信息。數(shù)據(jù)類型有用戶id、用戶發(fā)文內(nèi)容,以及相應(yīng)的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊數(shù)量,數(shù)據(jù)總量為25 643。將數(shù)據(jù)進(jìn)行去重處理,保證所有文本都是原創(chuàng)微博,剩余24 496條數(shù)據(jù),保存在excel表格中。為了更好地訓(xùn)練Bilstm+Attention模型以及與其他模型做對(duì)比實(shí)驗(yàn),將一部分?jǐn)?shù)據(jù)進(jìn)行人工劃分情感正負(fù)傾向,部分?jǐn)?shù)據(jù)如圖3所示。
針對(duì)微博輿情事件進(jìn)行情感分析研究,其評(píng)價(jià)過程采用三個(gè)指標(biāo),即精確率(precision)、召回率(recall)和宏平均(F1-score)。其計(jì)算公式為:
(13)
(14)
(15)
式中,TP表示預(yù)測(cè)為正類且實(shí)際也為正類的數(shù)量,F(xiàn)P表示實(shí)際為負(fù)類預(yù)測(cè)為正類的數(shù)量,F(xiàn)N表示實(shí)際為正類預(yù)測(cè)為負(fù)類數(shù)量。
(1)關(guān)鍵詞云展示,如圖4所示。
在關(guān)鍵詞云中,詞語的大小表示出現(xiàn)的頻率,位置代表詞語與其他詞語的親密程度。正面情感詞有安全、及時(shí)、暢通等,負(fù)面情感詞有寒潮、災(zāi)害、患者等,也包括一些中性詞語,例如:醫(yī)院、地區(qū)、人民等。通過關(guān)鍵詞云可以在海量的數(shù)據(jù)中直觀地展示出輿情參與主體關(guān)注的重點(diǎn)方向。
(2)文本長度分布,如圖5所示。
文本長度可以為提取特征的維度提供依據(jù),根據(jù)大部分文本長度分布的區(qū)域選擇相應(yīng)大小的維度,可以提高結(jié)果的準(zhǔn)確度和可靠性。從圖5中可以看出大部分文本處于區(qū)間[30,130]之間,經(jīng)調(diào)整后,文本長度設(shè)置120時(shí),實(shí)驗(yàn)效果最佳。
(3)對(duì)比結(jié)果分析。
通過Bilstm+Attention模型對(duì)微博輿情參與主體的情感傾向進(jìn)行分析,并與其他三種深度學(xué)習(xí)算法進(jìn)行詳細(xì)的對(duì)比實(shí)驗(yàn),包括CNN+Bilstm、Bilstm、TextCNN。實(shí)驗(yàn)指標(biāo)選擇精確率(precision)、召回率(recall)以及宏平均F1(F1-score)。
分別對(duì)正面情感和負(fù)面情感的文本進(jìn)行預(yù)測(cè),并繪制如圖6所示的正面輿情結(jié)果,如圖7所示的負(fù)面輿情結(jié)果。
由圖6可知,文中算法在正面情感分析中,其精確率為0.85、召回率為0.81、宏平均F1值為0.83,這些情感分析評(píng)估結(jié)果綜合來看高于其他深度學(xué)習(xí)結(jié)果。在圖7中,微博輿情參與主體的正面情感分析評(píng)估結(jié)果總的來說也優(yōu)于其他三種算法,其精確率為0.86、召回率為0.81、宏平均F1值為0.84。通過上述對(duì)比實(shí)驗(yàn),進(jìn)一步驗(yàn)證了文中算法的良好性能。
(4)情感強(qiáng)度分析。
利用Bilstm+Attention模型對(duì)剩余的9 972條數(shù)據(jù)進(jìn)行情感傾向分類處理,得出情感傾向,利用jieba分詞工具標(biāo)注實(shí)驗(yàn)文本的詞性后將副詞提取出來,構(gòu)建副詞詞典。實(shí)驗(yàn)部分結(jié)果如圖8所示。
根據(jù)實(shí)驗(yàn)結(jié)果,將文本的情感強(qiáng)度以發(fā)布時(shí)間為基礎(chǔ)進(jìn)行累加,時(shí)間范圍為2021年11月4~14日,分別計(jì)算每天正向情感總強(qiáng)度、負(fù)向情感總強(qiáng)度,與真實(shí)情況作比較。為了更好地?cái)M合輿情走勢(shì),將結(jié)果映射到相應(yīng)的區(qū)間里,如圖9所示。
從上述兩張圖中可以看出每日的情感總強(qiáng)度與輿情走勢(shì)情況,兩者的趨勢(shì)基本一致。負(fù)面情感輿情走勢(shì)及實(shí)驗(yàn)結(jié)果的情感強(qiáng)度在11月8日達(dá)到頂峰,正面情感輿情走勢(shì)及實(shí)驗(yàn)結(jié)果的情感強(qiáng)度在11月10日達(dá)到頂峰。根據(jù)實(shí)際情況可知,8日的暴雪導(dǎo)致列車停運(yùn)、學(xué)校停課、路面濕滑等,這些事件導(dǎo)致輿情參與主體總體情感較為消極。11月10號(hào)可知,政府部門及時(shí)介入,包括疏通鐵路干線、清除路面積雪、開展相關(guān)宣傳等,有效地消除了輿情參與主體的負(fù)面情緒,緩解了緊急的事態(tài)。
針對(duì)傳統(tǒng)方法無法準(zhǔn)確感知輿情參與主體的情感強(qiáng)度、特征稀疏以及對(duì)上下文語義關(guān)系沒有充分挖掘的缺點(diǎn),構(gòu)建了一種Bilstm+Attention+情感副詞詞典,利用雙向長短期記憶模型自動(dòng)提取內(nèi)部特征對(duì)文本情感傾向進(jìn)行分類,并充分考慮上下文的語義聯(lián)系,引入注意力機(jī)制,增強(qiáng)文本與結(jié)果的相關(guān)性,提高分類性能。但深度學(xué)習(xí)無法準(zhǔn)確區(qū)分情感強(qiáng)度,該文將情感副詞詞典引入分類模型,構(gòu)建Bilstm+Attention+情感副詞詞典的分類模型來研究輿情參與主體的情感傾向及強(qiáng)度。實(shí)驗(yàn)結(jié)果表明,構(gòu)建的模型計(jì)算的輿情參與主體情感強(qiáng)度可以有效反映出輿情走勢(shì)。
對(duì)于影響情感強(qiáng)度的因素,該文只考慮了詞匯因素,像表情、特殊符號(hào)、圖片等因素也包含豐富的情感信息。在未來的研究中,將會(huì)考慮以上的問題,進(jìn)一步提高情感強(qiáng)度分類的準(zhǔn)確度。