牛長安
摘要
作為微博情感分析的主要特征,表情符號在提升分類效果方面具有的作用已經(jīng)獲得了大多數(shù)人的認(rèn)可。文章首先對微博所應(yīng)用表情符號的特征進行了概述,然后結(jié)合實際情況,以詞向量輸入、情感語義增強等層次為切入點,圍繞著能夠?qū)ξ⒉┣楦羞M行分析的、具有情感語義增強特征的深度學(xué)習(xí)模型的構(gòu)建工作展開了討論,以期能夠在某些方面給人以啟發(fā)。
【關(guān)鍵詞】微博情感分析 情感語義增強 深度學(xué)習(xí)模型
對微信、微博等新興社交媒體而言,最突出的優(yōu)勢在于人們可以在此平臺上,通過圖片、文本或是視頻的形式,表達(dá)意見、交流信息或是對個人內(nèi)容進行發(fā)布,從情感的角度對用戶數(shù)據(jù)加以分析,可以達(dá)到對產(chǎn)品滿意度或其他內(nèi)容進行獲取的目的,正是因為如此,情感分析的重要性開始為人們所熟知,微博內(nèi)容具有的特殊性,在無形之中增加了微博情感分析的難度,圍繞著微博情感分析展開探究,具有的現(xiàn)實意義自然不言而喻。
1 表情符號概述
越來越多的人選擇使用表情符號在微博中對自己的情感進行表達(dá),正是因為如此,微博平臺提供的、用于對情感需要加以表達(dá)的表情符號的數(shù)量與過去相比也呈現(xiàn)出了明顯的上升趨勢。通過對常用網(wǎng)絡(luò)原創(chuàng)表情符號進行分析能夠發(fā)現(xiàn),不同表情符號在表達(dá)情感能力的方面往往存在一定的差異,需要注意的是,雖然情感符號的使用頻率較高,能夠代表該情感符號感情明確或是含有特定感情,但是,即使感情符號的適用頻率較低,上述兩種可能仍舊存在,因此,研究人員不應(yīng)忽視低使用頻率的感情符號的重要性。除此之外,在人工標(biāo)注的過程中不難看出,對情感符號具有的情感傾向加以判斷,往往具有較高難度,因此,本文最終選定基于情感符號的EMCNN作為深度學(xué)習(xí)模型,應(yīng)用在對微博情感進行分析的過程中。
2 深度學(xué)習(xí)模型的構(gòu)建
通過上文的分析能夠看出,常用表情符號往往蘊含相應(yīng)的情感,并且具有明確的情感語義,另外,與情感詞相比較而言,表情符號的優(yōu)勢體現(xiàn)在情感的區(qū)分和指示兩方面,因此,本文所討論深度學(xué)習(xí)模型具有的情感語義,選擇表情符號所對應(yīng)詞向量作為增強工具。EMCNN模型的架構(gòu)符合自底向上、多層前向神經(jīng)等諸多要求,接下來以功能為依據(jù),將深度學(xué)習(xí)模型進行劃分,共包括詞向量輸入,情感語義增強,卷積采樣以及情感得分輸出四層。
2.1 詞向量輸入
作為模型輸入層而存在的底部詞向量詞典,其構(gòu)成分為數(shù)據(jù)集中詞語、表情符號兩大類,每一列代表一個詞向量,若詞典包含n個元素,詞向量維度是d,那么We∈Rd·N,該式代表詞向量詞典所對應(yīng)的整個矩陣。將文本序列中與單詞元素相對應(yīng)的詞向量,根據(jù)所處位置進行拼接,可得出對文本序列詞向量加以表示的矩陣,RS=,其中,代表的是在行向量方向上進行的拼接操作。
2.2 情感語義增強
如果想要得到情感空間中微博對應(yīng)的特征表示,應(yīng)當(dāng)以向量語義合成原理為依據(jù),完成下列運算:E=(RE)T·RM,其中,E代表的是情感空間中微博對應(yīng)的特征表示,RE代表的是通過拼接操作得出的表情符號序列,RM是微博所對應(yīng)詞向量的矩陣表示,作為表示微博文本序列的形式之一,RM的優(yōu)勢在于為后續(xù)應(yīng)用矩陣運算完成語義合成操作提供便利,(RE)T代表的是RE轉(zhuǎn)置,也就是說,如果選取表情符號為de個,RE∈Rd·de。需要注意的是,數(shù)據(jù)集中的微博在長度方面往往存在一定的差異,因此,如果想要保證深度學(xué)習(xí)模型具備應(yīng)有的作用,所選擇微博長度的最大值就應(yīng)當(dāng)是dm,此時,RM∈Rd·dm,如果微博長度不足dm,則可以通過將全。列向量添加在末端的方式,使微博長度與dm相等。
2.3 卷積采樣
在完成上述操作后,可針對微博特征開展卷積操作,例如,在指定窗口合成微博文本語義,假設(shè)卷積算子:Wf∈Rde·dwin,其中,dwin代表的是卷積窗口的具體大小,卷積操作則可以通過如下方式進行表示:,其中,rijf代表的是第J個詞語處,第i個卷積算子對應(yīng)的卷積結(jié)果,zj代表的是在dwin范圍,E對應(yīng)的分塊矩陣,bif表示的是i卷積算子i的偏置值。以E所對應(yīng)卷積操作方式存在的區(qū)別為依據(jù),卷積窗口的滑動類型可分為兩種,分別是寬型和窄型,本文所討論深度學(xué)習(xí)模型應(yīng)用的為寬型卷積窗口。
2.4 情感得分輸出
將上文計算得出的向量x向多層感知器進行輸入,可得出比原有層次更高的特征表示,本文所討論深度學(xué)習(xí)模型不存在隱含層的多層感知器,對輸出向量進行變換后,可得出如下情感得分向量:Score(S)-B(Whx+bh),其中,Score(S)代表的是情感得分向量,Wh代表的是多層感知器所對應(yīng)參數(shù)矩陣,bh代表的是多層感知器所對應(yīng)偏置量。另外,該深度學(xué)習(xí)模型所選用非線性變化以函數(shù)為基礎(chǔ)。
3 結(jié)論
綜上所述,文章以情感語義增強為核心,圍繞著深度學(xué)習(xí)模型的構(gòu)建展開了分析,首先以表情符號列表為對象,完成人工情感的標(biāo)注工作,這樣做的目的是對表情符號在情感指示方面具有的作用進行突出,通過分析不難看出,雖然無論是情感詞還是表情符號,在情感語義的區(qū)分度方面都具有較好的表現(xiàn),但是與表情符號相比,情感詞的判別度稍顯欠缺,因此,文中基于表情符號列表所對應(yīng)詞向量,完成了對深度學(xué)習(xí)模型的構(gòu)建工作。
參考文獻(xiàn)
[1]何炎祥,孫松濤,牛菲菲,李飛.用于微博情感分析的一種情感語義增強的深度學(xué)習(xí)模型[J].計算機學(xué)報,2017,40(04):773-790.
[2]張仰森,鄭佳,黃改娟,蔣玉茹.基于雙重注意力模型的微博情感分析方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2018,58(02):122-130.