(山東科技大學 計算機科學與工程學院,山東 青島 266590)
隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上的評論信息越來越多,屬性級觀點挖掘因能夠挖掘出評論中包含的各個評價對象及觀點內(nèi)容、提取評論句中有價值的信息、快速準確地得出用戶的關(guān)注點而備受關(guān)注。觀點由屬性(aspect)、觀點內(nèi)容(opinion)、持有者(holder)及情感(sentiment)組成,評價對象(aspect terms)是出現(xiàn)在評論句中涉及屬性的單詞或詞組。例如:在評論句“The service of the restaurant is good,but the food tastes general.”中,service和food是具體的評價對象,good和tastes general是其對應的觀點內(nèi)容。本研究的目的是抽取評論中包含的評價對象和觀點內(nèi)容。
屬性級觀點挖掘最早由Hu等[1-2]提出,而后引起了諸多研究者的關(guān)注。目前,常用的屬性級觀點挖掘方法可以分為無監(jiān)督學習方法和有監(jiān)督學習方法。無監(jiān)督學習方法中,Hu等[1]對數(shù)據(jù)詞性標注后以Apriori算法進行關(guān)聯(lián)規(guī)則挖掘找到頻繁名詞及名詞短語,然后對錯誤詞語進行剪枝后得到要抽取的評價對象。Popescu等[3]在文獻[1]的基礎(chǔ)上,將PMI(point-wise mutual information)加入剪枝策略中,計算頻繁項與預定義的判別短語的PMI值,確定是否為要抽取的評價對象。劉鴻宇等[4]根據(jù)依存句法模板和規(guī)則抽取頻繁項,通過剪枝處理得到要抽取的評價對象。江騰蛟等[5]提出了基于淺層語義與語法分析相結(jié)合的評價搭配抽取方法。廖祥文等[6]利用詞對齊模型抽取候選評價對象與評價搭配組合,建立多層情感關(guān)系圖,利用隨機游走方法計算置信度,最后選取置信度高的候選評價對象與觀點內(nèi)容作為輸出。這些無監(jiān)督方法相對來說可操作性強,無需大量標注數(shù)據(jù),但人工干預過多,需要提前建立模板,適用于目標領(lǐng)域較小的數(shù)據(jù)集。有監(jiān)督學習方法中,常采用PLSA(probabilistic latent semantic analysis)和LDA(latent dirichlet allocation)等主題模型;而另外一些研究者將該任務看作是文本序列標注問題,采用隱馬爾可夫模型(hidden Markov model,HMM)和條件隨機場(conditional random fields,CRF)等方法。Wei等[7]先建立詞集對評論文本進行標注,再使用HMM進行訓練,抽取評價對象和觀點內(nèi)容并判斷極性。劉全超等[8]利用CRF,選擇句法特征、語法特征、語義特征及相對位置特證,抽取評價對象與觀點內(nèi)容的搭配。丁晟春等[9]采用CRF選取詞、詞性、情感詞以及本體四個特征抽取評價對象。這類有監(jiān)督的方法準確率較高,但由于需要大量人為設(shè)計特征,所以領(lǐng)域局限性強。
最近的研究中,研究者們開始嘗試基于深度學習方法的屬性級觀點抽取方法。Irsoy等[10]使用深層雙向循環(huán)神經(jīng)網(wǎng)絡抽取觀點內(nèi)容。Liu等[11]提出使用循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)結(jié)合詞向量的方式抽取評價對象和觀點內(nèi)容。Yin等[12]提出一種無監(jiān)督的方法,利用循環(huán)神經(jīng)網(wǎng)絡學習融合依存路徑信息的詞向量,然后用詞向量作為CRF的特征來抽取評價對象。Wang等[13]提出基于注意力的LSTM模型進行屬性級的情感分類。Giannkopoulos等[14]提出B-LSTM(bidirectional long short-term memory),結(jié)合CRF的分類器從有監(jiān)督和無監(jiān)督兩類研究方向抽取評價對象信息。Wang等[15]提出一種名為RNCRF(recursive neural conditional random fields)的聯(lián)合模型抽取評價對象和觀點內(nèi)容,首先根據(jù)句子的依存句法關(guān)系構(gòu)建依存樹遞歸神經(jīng)網(wǎng)絡,將評價對象與觀點內(nèi)容的信息編碼到遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN)中學習更高級的隱層表示,然后將結(jié)果輸入CRF進行序列標注。
本研究提出一個樹結(jié)構(gòu)長短期記憶網(wǎng)絡(tree-structured long short-term memory networks,Tree LSTM),結(jié)合條件隨機場的聯(lián)合模型來抽取評價對象和觀點內(nèi)容,在很好地表征詞語之間的層次關(guān)系的同時,有效避免傳統(tǒng)CRF需要大量人工定義特征并且編寫特征模板的弊端。
以評論“iPhone is pretty good.”為例,本研究提出的聯(lián)合模型如圖1所示。模型共分為三層,底層是各詞的詞向量,中間層是Tree LSTM模塊,頂層是CRF模塊。
圖1 Tree LSTM+CRF聯(lián)合模型結(jié)構(gòu)Fig.1 Tree LSTM+CRF joint model structure
為了更好地理解本文模型,首先給出Tree LSTM中包含的各個參數(shù)含義(表1)。其中v為詞典大小,包含所有在評論語句中出現(xiàn)的詞,d為詞向量維度。
表1 Tree LSTM各參數(shù)代表內(nèi)容 Tab.1 Tree LSTM parameters representing content
構(gòu)建Tree LSTM的過程:
1) 對所有評論語句進行依存句法分析,得到每個句子的依存分析樹。
2) 按依存分析樹的結(jié)構(gòu),以LSTM單元為節(jié)點為每個句子生成Tree LSTM模塊。
圖2為根據(jù)依存句法分析得到的例句的依存分析樹和Tree LSTM。下面將基于依存句法關(guān)系,由葉子節(jié)點到內(nèi)部節(jié)點逐個計算各節(jié)點的隱向量。以圖2(b)為例,首先計算葉子節(jié)點單詞“iPhone”的隱向量值:
圖2 例句的依存分析樹及其生成的Tree LSTMFig.2 Dependent analysis tree for example sentences and its generated Tree LSTM
iiPhone=sigmoid(Wi·xiPhone+bi),
(1)
uiPhone=tanh (Wu·xiPhone+bu),
(2)
ciPhone=iiPhone⊙uiPhone,
(3)
oiPhone=sigmoid(Wo·xiPhone+bo),
(4)
hiPhone=oiPhone⊙tanh (ciPhone)。
(5)
其中,⊙代表逐元素乘積,參數(shù)含義如表1所示,在經(jīng)過LSTM多個門計算之后即可得出單詞“iPhone”的隱向量值hiPhone。其他葉子節(jié)點的隱向量值同樣方法計算得到。例如單詞“is”的隱向量值計算如下:
iis=sigmoid(Wi·xis+bi),
(6)
uis=tanh (Wu·xis+bu),
(7)
cis=iis⊙uis,
(8)
ois=sigmoid(Wo·xis+bo),
(9)
his=ois⊙tanh (cis)。
(10)
當所有葉子節(jié)點計算完畢后根據(jù)依存關(guān)系計算內(nèi)部節(jié)點的值,單詞“good”的隱向量值計算如下:
igood=sigmoid(Wi·xgood+Ui·WnsubjhiPhone+Ui·Wcop·his+
Ui·Wadvmod·hpretty+bi) ,
(11)
fgood-iPhone=sigmoid(Wf·xgood+Uf·Wnsubj·hiPhone+bf) ,
(12)
fgood-is=sigmoid(Wf·xgood+Uf·Wcop·his+bf) ,
(13)
fgood-pretty=sigmoid(Wf·xgood+Uf·Wadvmod·hpretty+bf) ,
(14)
ugood=tanh (Wu·xgood+Uu·Wnsubj·hiPhone+Uu·Wcop·his+Uu·Wadvmod·hpretty+bu) ,
(15)
cgood=igood⊙ugood+fgood-iPhone⊙ciPhone+fgood-is⊙cis+
fgood-pretty⊙cpretty,
(16)
ogood=sigmoid(Wo·xgood+Uo·Wnsubj·hiPhone+Uo·Wcop·his+
Uo·Wadvmod·hpretty+bo) ,
(17)
hgood=ogood⊙tanh(cgood) 。
(18)
在計算內(nèi)部節(jié)點隱向量值時,輸入該節(jié)點的除了該詞詞向量外,還有該詞與其多個子節(jié)點的依存關(guān)系信息。每個子節(jié)點都會有一個遺忘門去處理該子節(jié)點傳來的信息,經(jīng)過LSTM多個門單元計算后即得出此內(nèi)部節(jié)點的隱向量值,內(nèi)部節(jié)點的一般計算公式總結(jié)如下:
(19)
fjk=sigmoid(Wf·xj+Uf·Wr(jk)·hk+bf) ,
(20)
(21)
(22)
(23)
hj=oj⊙tanh (cj) 。
(24)
其中,C(j)代表當前節(jié)點j的所有子節(jié)點的集合,Wr(jk)代表單詞j、k之間的依存關(guān)系矩陣。當該句所有詞的隱向量值計算完畢后,即將結(jié)果輸入到條件隨機場中進行序列標注。
條件隨機場是序列標注任務中的主流方法之一,是一種判別式概率模型。本研究使用線性鏈條件隨機場,輸入是Tree LSTM各個節(jié)點求出的值,輸出是標簽,聯(lián)合模型如圖1所示。
對每個句子,將經(jīng)過Tree LSTM計算并輸入到CRF中的隱向量序列表示為H={h1,h2,…,hn},模型輸出的標簽序列表示為Y={y1,y2,…,yn},單詞的標注標簽本文選用標準的BIO標注方式,即yi∈{BA,IA,BO,IO,O},其中BA代表評價對象的開始部分,IA代表評價對象的內(nèi)部,BO代表觀點內(nèi)容的開始部分,IO代表觀點內(nèi)容的內(nèi)部,O代表其他詞。例如評論句“The service of the restaurant is good,but the food tastes general.”,CRF的輸入為H={hThe,hservice,hof,hthe,hrestaurant,his,hgood,hbut,hthe,hfood,htastes,hgeneral},模型的輸出結(jié)果為Y={O,BA,O,O,O,O,BO,O,O,BA,BO,IO}。
在給定輸入H的條件下,Y的條件概率分布計算:
(25)
其中:Z(H)為規(guī)范化因子,用于歸一化;ψc(Yc|H)為勢函數(shù);P(Y|H)是所有最大團C上勢函數(shù)的乘積。此處最大團包含兩類,一是Tree LSTM輸入到CRF的代表狀態(tài)特征的團,二是輸出序列中代表轉(zhuǎn)移特征的團。在計算狀態(tài)特征勢函數(shù)時,額外融合上下文窗口大小為3的信息,則詞“is”處的狀態(tài)特征勢函數(shù)計算示例如圖3所示:
圖3 詞“is”處窗口大小為3的狀態(tài)特征勢函數(shù)計算示例Fig.3 Example of state feature potential function calculation with window size 3 at word “is”
在上下文窗口為3時,節(jié)點k處的狀態(tài)特征勢函數(shù)計算公式:
(26)
(27)
式中計算勢函數(shù)時前三項代表計算窗口為3的狀態(tài)特征勢函數(shù),第四項代表計算轉(zhuǎn)移特征勢函數(shù)。
在對整個模型訓練時,應用鏈式法則利用反向傳播的方法學習各個參數(shù)。誤差首先從條件隨機場開始反向傳播,沿模型結(jié)構(gòu)傳到Tree LSTM中,ROOT指向的節(jié)點只接收到從CRF傳來的誤差,其他節(jié)點將接收到來自CRF的誤差和來自依存關(guān)系父節(jié)點傳來的誤差,LSTM單元中各門的參數(shù)也將根據(jù)鏈式法則學習更新。
本節(jié)使用SemEval Challenge 2014 任務4的數(shù)據(jù)集對模型進行訓練與測試,該數(shù)據(jù)集包含筆記本和餐館兩個領(lǐng)域的評論數(shù)據(jù),詳細信息如表2所示,該數(shù)據(jù)僅僅包含對評價對象的標注,實驗使用了Wang等[15]對觀點內(nèi)容手工標注的數(shù)據(jù)。
表2 SemEval Challenge 2014 任務4 數(shù)據(jù)集Tab.2 Dataset of SemEval Challenge 2014 Task 4
在訓練詞向量時,使用gensim word2vec方法進行訓練,餐館領(lǐng)域的訓練語料數(shù)據(jù)選擇Yelp cha-llenge dataset的評論數(shù)據(jù),筆記本領(lǐng)域訓練語料數(shù)據(jù)選擇Amazon的電子產(chǎn)品評論數(shù)據(jù),詞向量的維數(shù)在比對后選擇350維,對比實驗在2.2節(jié)中敘述。評論語句的依存句法分析樹使用Stanford Parser生成,模型中的線性鏈CRF使用CRFSuite實現(xiàn)。
由于SemEval Challenge 2014 任務4的評測模型僅對評價對象進行了抽取,為了方便比較,將本模型去除觀點內(nèi)容標簽后重新訓練學習,得到只抽取評價對象的聯(lián)合模型并命名為Tree LSTM+CRF-O。
為了驗證提出模型的有效性,本研究還實現(xiàn)了以下幾個模型:
1) SemEval-1,SemEval-2:SemEval Challenge 2014任務4評測時性能最好的兩個模型。
2) CRF-1:包含基礎(chǔ)語言特征(詞、文體、詞性、上下文、上下文詞性)的CRF模型。
3) CRF-2:包含上述基礎(chǔ)語言特征和依存關(guān)系特征(中心詞和詞之間的依存關(guān)系)的CRF模型。
4) W+L+D+B:Yin等[12]提出的CRF模型包含無監(jiān)督學習得到的詞嵌入特征、依存關(guān)系特征,線性上下文嵌入特征以及基礎(chǔ)特征模板。
5) LSTM,LSTM-CRF,Bi-LSTM-CRF:分別指LSTM為基礎(chǔ)的長短期記憶網(wǎng)絡,LSTM-CRF為長短期記憶網(wǎng)絡結(jié)合CRF的模型,Bi-LSTM-CRF為雙向長短期記憶網(wǎng)絡結(jié)合CRF的模型。LSTM網(wǎng)絡中的權(quán)重通過區(qū)間[-0.2,0.2]的隨機均勻分布初始化,隱層的大小設(shè)置為50,學習率設(shè)置為0.01。
6) RNCRF,RNCRF-O:Wang等[15]提出的遞歸神經(jīng)網(wǎng)絡和CRF的聯(lián)合模型,RNCRF-O是為方便比較而忽略掉觀點內(nèi)容標注的模型。
選用F1值作為模型性能的評價指標,計算方法如公式(28)~(30)所示。其中,TP是模型正確標注的數(shù)量,TP+FP是模型標注的總數(shù),TP+FN是測試集中存在的標注總數(shù)。
(28)
(29)
(30)
實驗結(jié)果如表3所示。
表3 各模型實驗結(jié)果的F1-Score值Tab.3 F1-Score of experimental results of each model
由表3可知,本模型比SemEval Challenge的最優(yōu)模型SemEval-1與SemEval-2效果好,在餐館與筆記本領(lǐng)域分別比SemEval-1高出2.75%和5.31%。在與普通條件隨機場的對比中,在加入依存關(guān)系特征后,CRF-2在評價對象抽取上比CRF-1在餐館和筆記本領(lǐng)域分別高出1.37%和2.14%,說明依存關(guān)系特征確實有助于評價對象的抽取,同時CRF模型的結(jié)果低于其他模型,說明深度學習方法比條件隨機場學習信息更加有效。LSTM模型的結(jié)果要差于LSTM-CRF模型,這是由于條件隨機場能夠糾正類似IA、BA這樣的標注順序錯誤,所以大部分模型都會在神經(jīng)網(wǎng)絡之后連接條件隨機場進行標注。雙向LSTM因為能夠捕獲2個方向的信息而比普通LSTM模型效果要好。本模型比RNCRF模型效果略好,說明將普通遞歸神經(jīng)網(wǎng)絡單元替換為LSTM單元和設(shè)計樹結(jié)構(gòu)下LSTM單元門結(jié)構(gòu)的計算方法是有效的;比時間序列的Bi-LSTM-CRF模型的結(jié)果好,說明樹結(jié)構(gòu)在依存關(guān)系信息的處理中優(yōu)于時間序列結(jié)構(gòu)。由于依存關(guān)系是由子單詞指向父單詞,類似于樹結(jié)構(gòu),所以在依存關(guān)系特征上樹結(jié)構(gòu)效果更好。Tree LSTM+CRF-O是去除觀點內(nèi)容標注的模型,從實驗結(jié)果可以看出,該模型性能損失不大,表明本模型魯棒性好。
圖4給出了RNCRF和Tree LSTM+CRF兩個模型實際標注的結(jié)果示例。從圖4中的例子中可看出,本模型比普通遞歸神經(jīng)網(wǎng)絡能更好地處理依存關(guān)系特征和詞本身特征,對低頻出現(xiàn)的評價對象和依存關(guān)系相對復雜的句子標注結(jié)果更好。
圖4 RNCRF與Tree LSTM+CRF標注結(jié)果對比Fig.4 Comparison of RNCRF and Tree LSTM+CRF labeling results
進一步還對不同詞向量維度對模型的影響進行了實驗。實驗選取維度范圍為50~500維,維度間隔為50,實驗結(jié)果如圖5所示。
圖5 詞向量維度對比實驗結(jié)果Fig.5 Word vector dimension comparison experiment results
由圖5可以看出,在餐館領(lǐng)域,評價對象的抽取結(jié)果普遍優(yōu)于觀點內(nèi)容的抽取結(jié)果;而在筆記本領(lǐng)域,觀點內(nèi)容的抽取結(jié)果普遍優(yōu)于對評價對象的抽取結(jié)果。而且模型在兩個領(lǐng)域下都在350維處效果最好,模型性能隨維度變化有波動但波動幅度不超過3%,模型性能相對穩(wěn)定。
評價對象和觀點內(nèi)容的抽取是觀點挖掘中的重要研究內(nèi)容。本研究提出一個基于Tree LSTM結(jié)合CRF的聯(lián)合模型來抽取評論語句中的顯式評價對象與觀點內(nèi)容。該模型包含兩部分,第一部分是根據(jù)評論語句的依存結(jié)構(gòu)樹構(gòu)建的Tree LSTM,用于融合詞向量和依存句法關(guān)系向量從而學習每個詞的高層特征;第二部分是條件隨機場,將從Tree LSTM得到的每個詞的隱向量輸入其中進行序列標注工作,將隱向量映射到代表評價對象、觀點內(nèi)容和其他詞的標簽上,實現(xiàn)了評價對象與觀點內(nèi)容的抽取。在SemEval Cha-llenge 2014 任務4的數(shù)據(jù)集上的實驗結(jié)果表明本Tree LSTM能很好地表征詞語之間的層次關(guān)系,同時聯(lián)合模型有效避免了傳統(tǒng)CRF需要構(gòu)建特征工程的弊端。
目前本模型只是實現(xiàn)了簡單的抽取工作,下一步將對評論句進行情感分析,深入分析用戶所表達的觀點;并嘗試對評論中的隱式評價對象進行抽取,以全面分析用戶的觀點。