袁瓊芳
關鍵詞:突發(fā)公共事件;深度學習;情感識別
0 引言
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)民越來越傾向借助網(wǎng)絡將自己對于突發(fā)公共事件觀點發(fā)在微博、抖音、論壇等網(wǎng)絡平臺。針對突發(fā)公共事件中網(wǎng)民發(fā)布的大量情感文本,如何快速進行網(wǎng)絡輿情的文本情感識別,通過情感識別結果及時了解網(wǎng)民對突發(fā)公共事件的真實看法,引導突發(fā)公共事件網(wǎng)絡輿情良好發(fā)展是迫切且重要的。
目前網(wǎng)絡輿情情感識別主要有三種方法,即情感詞典、機器學習和深度學習。情感詞典的識別很少考慮語境和語法的相關規(guī)則,機器學習計算過程煩瑣,在處理海量輿情文本時訓練效率低,深度學習近年來在國內輿情情感識別領域發(fā)展迅速。吳鵬等人[1]對突發(fā)事件網(wǎng)絡輿情的微博文本構建了卷積神經(jīng)網(wǎng)絡CNN情感識別模型。張海濤等人[2]爬蟲獲取微博相關話題數(shù)據(jù),驗證了深度學習相較于傳統(tǒng)機器學習在情感識別上的優(yōu)越性。黃萍等人[3]通過CNN模型對高校熱點輿情事件數(shù)據(jù)進行了情感分類,并對比了傳統(tǒng)SVM分類效果得到有效提升。劉智鵬等人[4]融合CNN與RNN模型,實現(xiàn)對商品的評價分類,對客戶的情感識別有較好識別。蔡慶平等人[5]基于Word2vec和卷積神經(jīng)網(wǎng)絡模型創(chuàng)建客戶情感分析模型,合理分析消費者對產(chǎn)品評價的情感滿意程度。
深度學習是目前最先進的文本情感識別方法,比傳統(tǒng)方法速度快、準確率高、自主性強,可以實現(xiàn)高效的輿情情感識別檢測。本文基于深度學習相關原理來構建突發(fā)公共事件網(wǎng)絡輿情的情感識別模型。
1 基于深度學習的突發(fā)公共事件網(wǎng)絡輿情情感識別模型構建
從新浪微博上爬取相關的突發(fā)公共事件網(wǎng)絡輿情數(shù)據(jù),形成突發(fā)公共事件輿情案例數(shù)據(jù)庫,對數(shù)據(jù)進行預處理后,采用OCC情感標注,運用CNN模型對數(shù)據(jù)進行卷積和池化操作后實現(xiàn)對網(wǎng)絡輿情的情感分類,研究思路如圖1。
1.1 網(wǎng)絡輿情情感規(guī)則
由于產(chǎn)生情緒是認知評價環(huán)節(jié)的結果,為此將情緒產(chǎn)生過程分解為:
一是分類。實施評價的過程分為三種情況:當僅僅注重事件對象,最重要的是態(tài)度;當僅僅關注事件對象行為,最重要的是準則;當僅僅注重事件結果,最重要的是目標。
二是量化。人們接收信息強度大小對于情感造成影響而予以改變。
三是映射。情緒認知模型存在22種合成情感,很多研究則是在相應維度映射這些情感,比如正負面。
四是表達。表達信息接收之后導致的情感,常見的是通過文字、肢體語言、面部表情等。
通過探討突發(fā)公共事件選取對象行為與事件結果兩個層面,根據(jù)突發(fā)公共事件演變所發(fā)生的結果與網(wǎng)民預期結果是否相符,判斷突發(fā)公共事件中微博輿情文本情感極性,具體模型如圖2。
情緒認知模型簡化情感規(guī)則為:
Consequences(ti,e) 是第i 條微博對應事件e,定義Goals(e) 是網(wǎng)民對于突發(fā)公共事件e 結果的期望程度,如公式(1)所示:
Des(ti,e) =Consequences(ti,e) -Goals(e) (1)
公式(2)體現(xiàn)的是現(xiàn)階段微博當中的人物行為與網(wǎng)民行為準則相符程度,Actions(ti,a) 體現(xiàn)的是現(xiàn)階段第i 條微博當中任務行為a,Standards(e) 體現(xiàn)的是任務行為與網(wǎng)民行為準則是否相符激活閾值,如果計算出的數(shù)值小于零,那么體現(xiàn)的是現(xiàn)階段微博中任務做出的相應行為與網(wǎng)民行為準則不相符。
Wor(ti,a) =Actions(ti,a) -Standards(e) (2)
通過以上的兩個公式彰顯的是事件演變所獲得的結果與網(wǎng)民期望目標是否相符以及事件當中的對象行為與網(wǎng)民行為準則是否相符,衍生出產(chǎn)生的情感極性為:
Emotions(ti,e,a) = f(des(ti,e) ,Wor(ti,a)) (3)
從以上公式所體現(xiàn)出來的是微博i 情感狀態(tài),在這一公式當中,1體現(xiàn)出來的是正面情緒,相應的0所體現(xiàn)出來的是負面情緒,f(des(ti,e) ,Wor(ti,a)) 體現(xiàn)的是Des(ti,e) 以及Wor(ti,a) 都比零數(shù)值要大,返回1;如果Des(ti,e) 以及Wor(ti,a) 都比零數(shù)值要小,返回0。
1.2 輸入處理
本文在研究過程選取Word Embedding的詞向量表示方法,在低維空間分布式映射詞中,這一低維空間當中的詞向量相互之間所存在的位置關系能夠行之有效地將其處于語義層面上存在的聯(lián)系反映出來。
假定數(shù)據(jù)集中K條微博文本,針對每條微博的xi∈Rn體現(xiàn)出來的是微博文本的第i 個詞相對應的n 維向量。卷積神經(jīng)網(wǎng)絡相對應的輸入體現(xiàn)的就是k×n 的數(shù)據(jù)矩陣,可以列出以下公式:
1.3 卷積神經(jīng)網(wǎng)絡結構分析
通過立足于自然語言文本所具備的相關特性,在借鑒相關學者對于模型設計的思路基礎上,設計出本文相應的卷積神經(jīng)網(wǎng)絡結構圖,如圖3。依托一層的卷積層與池化層使用后作用的發(fā)揮,在其中第二行、第三行、第四行三種不同大小濾波器組成進行文本的局部特征圖提取,基于此,借助于max-pooling層實施降維操作,并且最大值池化全部的特征圖,隨后依托全連接層將全部的pooling層進行連接,最后依托soft?max函數(shù)將全部特征向情感類別進行映射。
由于微博處于卷積層中,往往采取二維矩陣的形式向CNN進行輸入,實施卷積后所獲得的結果,可以通過以下公式進行顯示:
在以上的公式中,?所體現(xiàn)的是卷積運算提取特征,i:i+m-1是從第i 個一直延續(xù)到i+m-1個詞向量實施相應的卷積運算,ci是第i 個一直延續(xù)到i+m-1個詞向量實施相應的卷積運算獲得的特征圖,W是濾波器,B是偏置矩陣。將f 定義為激活函數(shù),為實現(xiàn)加快訓練收斂速度,將relu函數(shù)當成激活函數(shù),通過以下公式進行顯示:
本文在研究過程中,采取的做法是通過設計2、3、4分別乘以100的濾波器結構,從而實施卷積突發(fā)公共事件網(wǎng)絡輿情微博文本操作,除此之外,還設置所有的濾波器分別提取100張?zhí)卣鲌D譜。
在研究過程中采取實施卷積操作之后,受到卷積核存在著比較小滑動窗口的影響,會面臨出現(xiàn)特別大的特征圖現(xiàn)象,依托池化能夠確保在一定程度上的扭曲、縮放、平移等不變形,要想做到讓參數(shù)從數(shù)量層面上的顯著減少,針對卷積操作之后所獲得的300張?zhí)卣鲌D譜實施maxpooling池化操作,如公式(7) 所示。基于此,通過全連接層作用的發(fā)揮,將全部池化完畢的特征圖譜予以充分了解,具體可以通過公式(8) 進行顯示。
為實現(xiàn)預防出現(xiàn)模型過擬合現(xiàn)象,本文在研究過程實施相應的Dropout策略,不管哪次實施迭代都會進行網(wǎng)絡參數(shù)的隨機更新。在最后的輸出層,按照以下的公式能夠進行預測情感類別y 的計算:
公式(9) 中,(zor) 代表Dropout結果,w 代表L2范數(shù)正則約束之后的權重,b 代表L2范數(shù)正則約束之后的偏置。
2 實證分析
2.1 試驗目的
一是搭建基于深度學習的突發(fā)公共事件網(wǎng)絡輿情情感識別模型;二是對于模型的深度學習優(yōu)異性予以驗證。
2.2 試驗環(huán)境
本文開展基于深度學習的突發(fā)公共事件網(wǎng)絡輿情情感識別,全部試驗完成都是在服務區(qū)的虛擬機上實施,具體來說,主要是以下虛擬機環(huán)境:
Intel Xecon E5-2630的CPU;
Python2.7的編程語言;
Jieba 0.32的分詞工具;
TensorFlow 1.2的深度學習框架;
Ubuntu14.04的操作系統(tǒng);
64GB的內存;
Pycharm 5.0的編程工具;
Doc2Vec的Word embedding訓練工具。
2.3 試驗數(shù)據(jù)
選取微博平臺作為采集平臺,確定突發(fā)公共事件相關的關鍵詞和時間范圍,通過大數(shù)據(jù)爬蟲工具爬取相關微博輿情信息。數(shù)據(jù)采集后,將自然標注以及相應的情緒認知模型情感規(guī)則理論當成依據(jù),相繼實施情感標注數(shù)據(jù)集,將數(shù)據(jù)分成訓練集、測試集。
2.4 試驗變量
模型變量包括體現(xiàn)維度的詞向量、dropout以及L2范數(shù)等向量。
2.5 試驗基本內容設計相關主要研究
一是進行情感標注相關的網(wǎng)絡輿情文本操作。本文在具體的研究過程中,采取的做法是針對相應的爬蟲數(shù)據(jù)實施過濾清洗操作,按照情感規(guī)則體系進行情感分類標注。
二是表示網(wǎng)絡輿情文本。在本文實施的是jieba分詞來做好分詞處理以及去掉停用詞。本文嘗試選取DocVec 方法將所有的微博向相關的句子變量轉換,DocVec 方法的使用,增加了一個段落向量,與Word2Vec相同。隨后通過把所有的微博當成行,借助于genism中的DocVec方法的調用,從而能夠把所有的微博文本轉變成為向量。本文在開展相應的訓練過程中,實施借助Skip-gram 對詞向量訓練以及Distributed Bag of Word 對文檔向量訓練。Skip-gram是通過選取人工神經(jīng)網(wǎng)絡當成分類算法進行合理應用,按照現(xiàn)階段詞語來進行上下文概率的預測,具體可以通過圖4進行顯示。
三是深度神經(jīng)網(wǎng)絡模型構建。本文選取Phthon語言以及谷歌開發(fā)出來的開源人工智能系統(tǒng)tensor?flow作用的發(fā)揮來構建卷積神經(jīng)網(wǎng)絡模型,隨后借助交叉熵損失函數(shù)和mini-batch梯度下降方法訓練模型。在這里需要注意的是,本文通過對相關超參數(shù)進行初始化操作,隨后設置;濾波器滑動窗口成3、4、5;不管哪種濾波器都生成100張?zhí)卣鲌D,mini-batch大小則是50,除此之外,確定0.01的學習率。
四是超參數(shù)調節(jié)卷積神經(jīng)網(wǎng)絡模型。要想實現(xiàn)對于網(wǎng)絡輿情情感識別模型相關性能的進一步提升,本文采取的做法就是予以調節(jié)初始超參數(shù),比如通過詞向量體現(xiàn)維度、dropout以及L2范數(shù)等向量。
五是探討深度學習和傳統(tǒng)機器學習模型在突發(fā)公共事件網(wǎng)絡輿情識別中的差異。選取傳統(tǒng)機器學習中的支持向量機模型進行對比,通過LIBSVM工具包實現(xiàn)SVM分類算法,進行訓練相同訓練集,對比支持向量機模型訓練所獲得的結果和卷積神經(jīng)網(wǎng)絡訓練得到的相關結果,如圖5所示。
通過對SVM中的核函數(shù)類型進行分析,核函數(shù)能夠對SVM分類器性能產(chǎn)生影響,其中使用最多的核函數(shù)為Radius Basis Function、Sigmoid 以及多項式核函數(shù),在這些核函數(shù)當中,應用程度最高的是Radius Ba?sis Function,為此,本文在研究過程中選取這一核函數(shù)。與此同時,要想實現(xiàn)解除特征構建方式導致的試驗效果,SVM模型特征同樣也能夠實施word embed?ding把所有微博輿情信息通過doc2vec構建多維向量當成SVM多維特征。
六是對比分析情感識別模型是否存在相應的規(guī)則。為促成對突發(fā)公共事件網(wǎng)絡輿情構建科學情感規(guī)則,本文嘗試將訓練集成為兩個類型:第一個類型是通過情緒認知模型情感規(guī)則予以進行標注訓練集;第二個類型則是沒有通過情緒認知模型情感規(guī)則予以進行標注訓練集,研究過程中采用人工方式進行訓練集的標注,通過深度神經(jīng)網(wǎng)絡分類模型訓練兩個類型訓練集之后對比兩種結果。
3 總結
互聯(lián)網(wǎng)背景下對突發(fā)公共事件的網(wǎng)絡輿情的情感識別具有重要意義,本文通過深度學習相關理念來進行突發(fā)公共事件網(wǎng)絡輿情情感識別。本文基于情緒認知模型,首先建立情感規(guī)則框架體系,實現(xiàn)情感標注突發(fā)公共事件網(wǎng)絡輿情相關數(shù)據(jù),通過新浪微博爬取相關突發(fā)公共事件的輿情數(shù)據(jù)后,對數(shù)據(jù)進行預處理,借助于Doc2vec形成訓練集,將其作為輸入層訓練卷積神經(jīng)網(wǎng)絡模型,并且做好相關的準確率驗證工作。具體的結果為:
一是調試卷積神經(jīng)網(wǎng)絡模型算法參數(shù)過程中,濾波器窗口位于1~4時能取得最好的分類效果;控制詞向量維度較好的是200~300,不但能夠將輿情文本信息特征最大限度地表現(xiàn)出來,而且還不會出現(xiàn)過擬合;從正則化約束領域來看,最佳輿情情感識別性能應選取dropout為0.3,L2范數(shù)值則是0.4或者0.5。
二是依托情緒認知模型相應的情感規(guī)則標注數(shù)據(jù)集能夠獲得相對比較好的分類效果。
三是基于卷積神經(jīng)網(wǎng)絡模型創(chuàng)建的突發(fā)公共網(wǎng)絡輿情情感識別分類效果高于傳統(tǒng)機器學習,情感辨別的正確率更高。