袁江林,陳 剛,郭志剛,唐永旺
(戰(zhàn)略支援部隊信息工程大學 信息系統(tǒng)工程學院,河南 鄭州 450000)
在大數(shù)據(jù)背景下,從海量文本數(shù)據(jù)中挖掘出需要的文本數(shù)據(jù)是一個研究的內容。針對新聞數(shù)據(jù),從海量評論數(shù)據(jù)庫中檢索出與新聞相關且含有情感傾向性的評論成為了一個研究的問題。該問題可分為主題特征檢索問題和情感特征檢索問題。
近年來有許多文本的主題相似性算法研究。文獻[1]主要研究TF-IDF算法計算文本相似度,通過統(tǒng)計的方法在長文本上得到較好的結果。對于較長文本,文獻[2]研究了關鍵詞抽取算法抽取關鍵詞,較長文本可通過抽取部分關鍵詞,利用關鍵詞計算主題相似性。哈希算法可加快文本相似性的計算,對大數(shù)據(jù)背景下的檢索速度提升有研究意義。深度學習技術出現(xiàn)之后,在短文本上取得了較好的效果。文獻[3,4]分別研究了采用詞向量建立主題模型和實現(xiàn)相似度計算。隨著網(wǎng)絡結構越來越多,應用在自然語言處理領域的模型結構增多。長短期記憶網(wǎng)絡(long short term memory, LSTM)[5]和卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)[6]是用在自然語言處理中較為常用的結構。文獻[7]采用了卷積神經(jīng)網(wǎng)絡實現(xiàn)句子特征的表示和注意力機制的表達。文獻[8]研究采用了深度學習技術實現(xiàn)文本相似性的計算,提升了語義相似性計算的精度。上述文獻證明,采用深度學習技術可以實現(xiàn)文本相似性的計算。
情感特征檢索主要通過情感按照不同分類粒度分類實現(xiàn)。早期主要通過情感詞典與規(guī)則相結合的方法實現(xiàn)情感分類,文獻[9,10]通過利用情感詞典和規(guī)則對中文語句、新聞文本、中文微博等類型的文本做情感傾向性分析。但是情感詞典標注工作復雜,對較長的文本做情感傾向性判斷有一定的困難?;跈C器學習的情感分析算法是在基于詞典和規(guī)則之后研究較多的算法,文獻[11]通過樸素貝葉斯分類算法等機器學習分類算法實現(xiàn)了情感的分類,取得了較好的效果。基于深度學習的情感分類算法是當前情感分析研究的熱點。文獻[12]結合詞向量對中文評論實現(xiàn)情感分類,文獻[13]將詞序和CNN_LSTM網(wǎng)絡結合實現(xiàn)了情感的分類。采用深度學習算法較機器學習算法,分類精度有提升。目前情感分類較為依賴于語料的標注,但分類精度較早期已經(jīng)有了很大的提升。
目前基于檢索的方法實現(xiàn)評論的生成對主題和情感結合研究的較少,文獻[14]研究了采用TF-IDF結合深度學習的方法實現(xiàn)評論的生成,但僅限于主題特征。為了對新聞文本檢索出帶有一定情感傾向性的評論,本文采用主題特征檢索和情感特征檢索結合的方法實現(xiàn)中文評論的生成。
基于檢索的中文評論生成研究立足于新聞及評論語料庫,對新聞按照新聞內容、新聞標題、新聞關鍵詞等3個不同的粒度提取特征,新聞的評論內容屬于短評,因此可以直接做特征提取。具體實現(xiàn)流程如圖1所示。如圖1所示,基于檢索的中文評論生成首先需輸入新聞及評論語料庫,提取主題特征并計算主題相似度實現(xiàn)一次檢索。在一次檢索結果基礎上提取情感特征,實現(xiàn)情感分類,檢索出含有情感傾向性的相關評論?;谥黝}特征融合檢索和基于情感特征融合的檢索是本文研究的重點內容。
圖1 基于檢索的中文評論生成流程
其中新聞關鍵詞的提取按照采用Text-Rank的方法計算。文獻[15]研究利用Text-Rank方法實現(xiàn)關鍵詞抽取。關鍵詞抽取的Text-Rank權重迭代公式如式(1)所示
(1)
其中,V表示詞匯集合,WS表示關鍵詞之間的權重,d為調節(jié)系數(shù),In(Vi) 表示指向詞Vi的詞匯集合,outVj表示詞匯Vj指向所有詞匯的集合,wji表示詞Vj到詞Vi的邊的權重集合。
基于主題特征的一次檢索通過計算新聞主題特征和評論主題特征之間的相似度,按照相似度檢索出相關的評論。本文研究主題特征提取方法為詞向量、CNN、雙向長短期記憶網(wǎng)絡(bidirectional long short term memory,BiLSTM)、基于主題特征融合的檢索算法。
1.1.1 基于詞向量的主題特征檢索
不妨設原始文本信息為w=(w1,…,wN), 其中N表示文本的長度,w表示中文文本分詞后的詞匯集合;通過詞向量轉化后的結果為v=(v1,…,vN), 詞向量的計算公式如式(2)所示
v=word2vec(w)
(2)
由于word2vec表示的詞向量具有一定的語義相關性,因此,將新聞及評論文本向量化后,利用向量和表示新聞的主題特征,具有一定的語義特征。新聞主題特征和評論主題特征計算公式分別如式(3)、式(4)所示
(3)
(4)
其中,Lk表示新聞文本k分詞后的詞匯長度,Mj表示評論文本j分詞后的詞匯長度。主題相似度的計算公式如式(5)所示
(5)
將評論語料庫中所有評論向量化表示,計算新聞與評論語料庫之間的主題相似度。按照評論相似性排序,檢索出主題相似性較高的評論。
1.1.2 基于CNN的主題特征檢索
基于CNN的主題特征檢索的實現(xiàn)過程圖如圖2所示。先通過式(2)將文本轉換為詞向量,轉換后的詞向量用不同尺寸的多個濾波器分別濾波,即卷積過程,卷積后的結果用maxpooling提取最大的特征值組合成為文本主題特征,計算公式如式(6)、式(7)、式(8)所示
fi,n=convi(v1,v2,v3,…,vN)
(6)
fi=coni(mpli(fi,1),…,mpli(fi,p))
(7)
Tk=con(f1,…,fq)
(8)
其中, convi(·) 表示第i個尺寸的濾波器卷積,fi,n表示第i個尺寸的第n個濾波器。mpli(·) 表示第i個尺寸的濾波器池化運算;fi表示第i個尺寸的濾波器卷積池化后的向量拼接得到的新特征向量; con(·) 表示向量拼接過程,Tk表示主題特征向量。i∈[0,p],n∈[0,q] 分別表示濾波器的數(shù)量為q個,濾波器尺寸種類為p個。同理,可計算得到評論j的主題特征向量Rj。
圖2 基于CNN的主題特征檢索
最后計算新聞主題特征向量和評論主題特征向量相似度,按照相似度高的評論檢索出對應的評論文本。
1.1.3 基于BiLSTM的主題特征檢索
BiLSTM較LSTM網(wǎng)絡結構能更好利用歷史和未來信息,本文利用BiLSTM網(wǎng)絡結構計算主題特征。BiLSTM提取主題特征的結構如圖3所示。
圖3 基于BiLSTM的主題特征檢索
如圖3所示,新聞和評論信息通過詞向量編碼后輸入到BiLSTM網(wǎng)絡結構中,得到結果為h=(h1,h2,…,hLk)。 其計算公式如式(9)所示
(h1,h2,h3,…,hLk)=BiLSTM(v1,v2,v3,…,vLk)
(9)
其中,Lk表示輸入的文本的長度,取最后時刻輸出向量為主題特征向量。按照此方法得到的新聞和評論的主題特征向量分別為Rj和Tk, 其中k,j分別表示第k個新聞和第j個評論。按照式(5)計算得到主題相似度,并按照主題相似度高的評論檢索出對應的評論。
1.1.4 基于主題特征融合的檢索
基于主題特征融合的檢索立足于上述3種基本算法,將上述3種算法提取的新聞主題特征與評論主題特征分別計算相似度后取均值,提升主題特征檢索的準確性,實現(xiàn)流程如圖4所示。
圖4 基于主題特征融合的檢索算法流程
如圖4所示,將3種主題特征檢索算法并行化處理,分別計算相似度,最終評論和新聞的主題相似度的計算公式如式(10)所示
(10)
根據(jù)式(10)計算的主題相似度排序,檢索出主題相似度高的評論。
基于情感特征融合的二次檢索立足于基于主題特征的一次檢索的評論文本,通過對情感特征分類實現(xiàn)情感特征的二次檢索。主要采用多個算法融合對情感文本進行分類。具體的實現(xiàn)流程如圖5所示。
圖5 基于情感特征融合的檢索流程
如圖5所示,與基于主題特征融合的檢索流程相似,輸入新聞和一次檢索的評論后,將其分別轉換成為詞向量。然后按照基于詞向量的情感分類算法、基于BiLSTM的情感分類算法、基于CNN的情感分類算法分別計算情感類別,對情感類別結果求和,按照情感類別分別檢索出對應的評論。其模型如圖6所示。
圖6 基于情感特征融合檢索的模型
如圖6所示,基于情感特征融合檢索的子算法均可利用基于主題特征提取的特征向量,利用該向量通過全連接層網(wǎng)絡,再通過softmax層轉化為子算法分類結果;將3個子算法分類結果求和取最大值位置對應類別即為情感類別。其計算公式如下式(11)-式(14)所示
(11)
(12)
(13)
(14)
本文采集部分體育新聞及其評論數(shù)據(jù),并引用文獻[16]中的文本及評論數(shù)據(jù)作為訓練的訓練集和測試集。訓練數(shù)據(jù)和測試數(shù)據(jù)的大小見表1。
表1 新聞數(shù)據(jù)集
通過對新聞及其評論數(shù)據(jù)清理,評論詞匯的平均數(shù)量為25詞,每條新聞對應的評論數(shù)量超過20條。由于本文研究基于檢索的中文評論生成涉及到中文情感分類,因此從互聯(lián)網(wǎng)上采集NLPCC2014基于深度學習技術的情感分析(NPCC-SCDL)評測任務數(shù)據(jù)集,并添加新標注2000條評論語料用于訓練,標注2000條評論語料用于測試,語料集具體見表2。
表2 中文情感語料集
本文利用中文評論語料數(shù)據(jù)集研究,需要對新聞及評論語料分詞,由于分詞的準確性會影響模型和算法的訓練,本文從互聯(lián)網(wǎng)上采集常用輸入法中的詞庫并導入到jieba分詞詞庫中用于訓練。采用pytorch編程實現(xiàn)。并對新聞內容、新聞關鍵詞、新聞標題3種不同粒度的主題特征分別處理,用于基于主題特征的一次檢索的研究對比。
詞向量的訓練采用gensim模型訓練,維度設置為300維。CNN模型的濾波器尺寸設置為3、4、5。CNN中每種濾波器的數(shù)量設置為100,通過池化后的模型維度設置為300。BiLSTM網(wǎng)絡模型的隱藏層的維度設置為300,輸出層設置為600。網(wǎng)絡的層數(shù)設置為6層。CNN與BiLSTM的損失函數(shù)用交叉熵損失函數(shù),誤差傳遞函數(shù)用AdaDelta。在基于情感特征融合的二次檢索中,詞向量、CNN、BiLSTM的全連接層均設置為2。
實驗通過輸入新聞,按照新聞內容、新聞內容提取的關鍵詞、新聞標題3種不同粒度分別與評論語料進行主題相似度計算。
基于主題特征的一次檢索主要檢索出評論與新聞相關性,主要評價已有的新聞對應的評論與檢索出來的新聞評論之間的重合性?;谇楦刑卣魅诤系亩螜z索主要評測情感分類的準確性。其中選取準確率(Accuarcy)和F-score作為評測指標。
表3和表4為性能評估矩陣,用于評測準確率和F-score。具體的計算公式如式(15)-式(18)所示
(15)
(16)
(17)
(18)
表4 基于情感特征融合的二次檢索性能評估矩陣
其中Precision、Recall、F-score分別表示精確率、召回值和F值。
基于主題特征的一次檢索,按照新聞內容、新聞內容提取的關鍵詞、新聞標題3種不同主題粒度檢索評論,計算的F值和準確率其結果見表5。
表5 基于主題特征的一次檢索的準確性和F-score
從表5中的數(shù)據(jù)可以看出,采用不同主題粒度得到的檢索準確率不同。由于對新聞概括最全,新聞標題主題粒度下的準確率最高;新聞內容由于提取到較多無用信息,對評論主題相似性計算產(chǎn)生干擾,因此準確率較低;新聞關鍵詞是在新聞內容中抽取出的關鍵信息,但由于信息不完整,且與關鍵詞抽取算法有關聯(lián),因此準確率最低?;谥黝}特征融合的檢索算法在檢索評論準確性上要優(yōu)于其余3種算法,由于基于主題特征融合的檢索采用的3種算法求相似度取平均值,在總體上提升了判斷主題相似度的準確性。
在一次檢索的結果基礎上,利用情感特征融合的二次檢索,其計算準確率和F-score結果見表6。
表6 基于情感特征融合的二次檢索準確性和F-score
依據(jù)表6結果分析,利用基于主題特征融合的檢索算法對一次檢索的評論進行情感分類,其分類結果的準確性要高于其余3種算法。由于采用多種算法融合判定,避免了單一算法對類別判定失誤,提升了分類的準確性。
實驗在新聞標題粒度下分別與評論語料進行主題相似度計算。其結果見表7,經(jīng)過基于情感融合特征的二次檢索,檢索結果見表8。
表7 基于主題特征的一次檢索結果
表8 基于情感特征融合的二次檢索結果
從表7與表8分析可得,采用基于主題特征的一次檢索和基于情感特征融合的二次檢索可以從新聞語料庫中檢索出帶有情感傾向性的相關評論。
本文研究了在不同新聞主題粒度下,用基于主題特征融合的檢索算法和情感特征融合的檢索算法從評論語料庫檢索出與新聞相關的情感傾向性的評論。實驗結果表明,在新聞標題粒度下,檢索出的評論準確率最高,采用基于主題特征融合和情感特征融合的結果準確性較高,但是需要付出一定的計算代價。如何高效并準確檢索出含有一定主題相關性和情感傾向性的評論是研究的一個方向,若檢索不出有關內容,自動生成有關評論將是研究熱點。