基于Tree LSTM+CRF的屬性級觀點挖掘

2020-11-12 01:35

山東科技大學學報(自然科學版) 2020年6期

(山東科技大學計算機科學與工程學院，山東青島 266590)

隨著互聯(lián)網(wǎng)的發(fā)展，互聯(lián)網(wǎng)上的評論信息越來越多，屬性級觀點挖掘因能夠挖掘出評論中包含的各個評價對象及觀點內(nèi)容、提取評論句中有價值的信息、快速準確地得出用戶的關(guān)注點而備受關(guān)注。觀點由屬性(aspect)、觀點內(nèi)容(opinion)、持有者(holder)及情感(sentiment)組成，評價對象(aspect terms)是出現(xiàn)在評論句中涉及屬性的單詞或詞組。例如：在評論句“The service of the restaurant is good,but the food tastes general.”中，service和food是具體的評價對象，good和tastes general是其對應的觀點內(nèi)容。本研究的目的是抽取評論中包含的評價對象和觀點內(nèi)容。

屬性級觀點挖掘最早由Hu等[1-2]提出，而后引起了諸多研究者的關(guān)注。目前，常用的屬性級觀點挖掘方法可以分為無監(jiān)督學習方法和有監(jiān)督學習方法。無監(jiān)督學習方法中，Hu等[1]對數(shù)據(jù)詞性標注后以Apriori算法進行關(guān)聯(lián)規(guī)則挖掘找到頻繁名詞及名詞短語，然后對錯誤詞語進行剪枝后得到要抽取的評價對象。Popescu等[3]在文獻[1]的基礎(chǔ)上，將PMI(point-wise mutual information)加入剪枝策略中，計算頻繁項與預定義的判別短語的PMI值，確定是否為要抽取的評價對象。劉鴻宇等[4]根據(jù)依存句法模板和規(guī)則抽取頻繁項，通過剪枝處理得到要抽取的評價對象。江騰蛟等[5]提出了基于淺層語義與語法分析相結(jié)合的評價搭配抽取方法。廖祥文等[6]利用詞對齊模型抽取候選評價對象與評價搭配組合，建立多層情感關(guān)系圖，利用隨機游走方法計算置信度，最后選取置信度高的候選評價對象與觀點內(nèi)容作為輸出。這些無監(jiān)督方法相對來說可操作性強，無需大量標注數(shù)據(jù)，但人工干預過多，需要提前建立模板，適用于目標領(lǐng)域較小的數(shù)據(jù)集。有監(jiān)督學習方法中，常采用PLSA(probabilistic latent semantic analysis)和LDA(latent dirichlet allocation)等主題模型；而另外一些研究者將該任務看作是文本序列標注問題，采用隱馬爾可夫模型(hidden Markov model,HMM)和條件隨機場(conditional random fields,CRF)等方法。Wei等[7]先建立詞集對評論文本進行標注，再使用HMM進行訓練，抽取評價對象和觀點內(nèi)容并判斷極性。劉全超等[8]利用CRF，選擇句法特征、語法特征、語義特征及相對位置特證，抽取評價對象與觀點內(nèi)容的搭配。丁晟春等[9]采用CRF選取詞、詞性、情感詞以及本體四個特征抽取評價對象。這類有監(jiān)督的方法準確率較高，但由于需要大量人為設(shè)計特征，所以領(lǐng)域局限性強。

最近的研究中，研究者們開始嘗試基于深度學習方法的屬性級觀點抽取方法。Irsoy等[10]使用深層雙向循環(huán)神經(jīng)網(wǎng)絡抽取觀點內(nèi)容。Liu等[11]提出使用循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)結(jié)合詞向量的方式抽取評價對象和觀點內(nèi)容。Yin等[12]提出一種無監(jiān)督的方法，利用循環(huán)神經(jīng)網(wǎng)絡學習融合依存路徑信息的詞向量，然后用詞向量作為CRF的特征來抽取評價對象。Wang等[13]提出基于注意力的LSTM模型進行屬性級的情感分類。Giannkopoulos等[14]提出B-LSTM(bidirectional long short-term memory)，結(jié)合CRF的分類器從有監(jiān)督和無監(jiān)督兩類研究方向抽取評價對象信息。Wang等[15]提出一種名為RNCRF(recursive neural conditional random fields)的聯(lián)合模型抽取評價對象和觀點內(nèi)容，首先根據(jù)句子的依存句法關(guān)系構(gòu)建依存樹遞歸神經(jīng)網(wǎng)絡，將評價對象與觀點內(nèi)容的信息編碼到遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN)中學習更高級的隱層表示，然后將結(jié)果輸入CRF進行序列標注。

本研究提出一個樹結(jié)構(gòu)長短期記憶網(wǎng)絡(tree-structured long short-term memory networks,Tree LSTM)，結(jié)合條件隨機場的聯(lián)合模型來抽取評價對象和觀點內(nèi)容，在很好地表征詞語之間的層次關(guān)系的同時，有效避免傳統(tǒng)CRF需要大量人工定義特征并且編寫特征模板的弊端。

1 Tree LSTM+CRF

以評論“iPhone is pretty good.”為例，本研究提出的聯(lián)合模型如圖1所示。模型共分為三層，底層是各詞的詞向量，中間層是Tree LSTM模塊，頂層是CRF模塊。

圖1 Tree LSTM+CRF聯(lián)合模型結(jié)構(gòu)Fig.1 Tree LSTM+CRF joint model structure

1.1 Tree LSTM

為了更好地理解本文模型，首先給出Tree LSTM中包含的各個參數(shù)含義(表1)。其中v為詞典大小，包含所有在評論語句中出現(xiàn)的詞，d為詞向量維度。

表1 Tree LSTM各參數(shù)代表內(nèi)容 Tab.1 Tree LSTM parameters representing content

構(gòu)建Tree LSTM的過程：

1) 對所有評論語句進行依存句法分析，得到每個句子的依存分析樹。

2) 按依存分析樹的結(jié)構(gòu)，以LSTM單元為節(jié)點為每個句子生成Tree LSTM模塊。

圖2為根據(jù)依存句法分析得到的例句的依存分析樹和Tree LSTM。下面將基于依存句法關(guān)系，由葉子節(jié)點到內(nèi)部節(jié)點逐個計算各節(jié)點的隱向量。以圖2(b)為例，首先計算葉子節(jié)點單詞“iPhone”的隱向量值：

圖2 例句的依存分析樹及其生成的Tree LSTMFig.2 Dependent analysis tree for example sentences and its generated Tree LSTM

iiPhone=sigmoid(Wi·xiPhone+bi)，

(1)

uiPhone=tanh (Wu·xiPhone+bu)，

(2)

ciPhone=iiPhone⊙uiPhone，

(3)

oiPhone=sigmoid(Wo·xiPhone+bo)，

(4)

hiPhone=oiPhone⊙tanh (ciPhone)。

(5)

其中，⊙代表逐元素乘積，參數(shù)含義如表1所示，在經(jīng)過LSTM多個門計算之后即可得出單詞“iPhone”的隱向量值hiPhone。其他葉子節(jié)點的隱向量值同樣方法計算得到。例如單詞“is”的隱向量值計算如下：

iis=sigmoid(Wi·xis+bi)，

(6)

uis=tanh (Wu·xis+bu)，

(7)

cis=iis⊙uis，

(8)

ois=sigmoid(Wo·xis+bo)，

(9)

his=ois⊙tanh (cis)。

(10)

當所有葉子節(jié)點計算完畢后根據(jù)依存關(guān)系計算內(nèi)部節(jié)點的值，單詞“good”的隱向量值計算如下：

igood=sigmoid(Wi·xgood+Ui·WnsubjhiPhone+Ui·Wcop·his+

Ui·Wadvmod·hpretty+bi) ，

(11)

fgood-iPhone=sigmoid(Wf·xgood+Uf·Wnsubj·hiPhone+bf) ，

(12)

fgood-is=sigmoid(Wf·xgood+Uf·Wcop·his+bf) ，

(13)

fgood-pretty=sigmoid(Wf·xgood+Uf·Wadvmod·hpretty+bf) ，

(14)

ugood=tanh (Wu·xgood+Uu·Wnsubj·hiPhone+Uu·Wcop·his+Uu·Wadvmod·hpretty+bu) ，

(15)

cgood=igood⊙ugood+fgood-iPhone⊙ciPhone+fgood-is⊙cis+

fgood-pretty⊙cpretty，

(16)

ogood=sigmoid(Wo·xgood+Uo·Wnsubj·hiPhone+Uo·Wcop·his+

Uo·Wadvmod·hpretty+bo) ，

(17)

hgood=ogood⊙tanh(cgood) 。

(18)

在計算內(nèi)部節(jié)點隱向量值時，輸入該節(jié)點的除了該詞詞向量外，還有該詞與其多個子節(jié)點的依存關(guān)系信息。每個子節(jié)點都會有一個遺忘門去處理該子節(jié)點傳來的信息，經(jīng)過LSTM多個門單元計算后即得出此內(nèi)部節(jié)點的隱向量值，內(nèi)部節(jié)點的一般計算公式總結(jié)如下：

(19)

fjk=sigmoid(Wf·xj+Uf·Wr(jk)·hk+bf) ，

(20)

(21)

(22)

(23)

hj=oj⊙tanh (cj) 。

(24)

其中，C(j)代表當前節(jié)點j的所有子節(jié)點的集合，Wr(jk)代表單詞j、k之間的依存關(guān)系矩陣。當該句所有詞的隱向量值計算完畢后，即將結(jié)果輸入到條件隨機場中進行序列標注。

1.2 CRF

條件隨機場是序列標注任務中的主流方法之一，是一種判別式概率模型。本研究使用線性鏈條件隨機場，輸入是Tree LSTM各個節(jié)點求出的值，輸出是標簽，聯(lián)合模型如圖1所示。

對每個句子，將經(jīng)過Tree LSTM計算并輸入到CRF中的隱向量序列表示為H={h1,h2,…,hn}，模型輸出的標簽序列表示為Y={y1,y2,…,yn}，單詞的標注標簽本文選用標準的BIO標注方式，即yi∈{BA,IA,BO,IO,O}，其中BA代表評價對象的開始部分，IA代表評價對象的內(nèi)部，BO代表觀點內(nèi)容的開始部分，IO代表觀點內(nèi)容的內(nèi)部，O代表其他詞。例如評論句“The service of the restaurant is good,but the food tastes general.”，CRF的輸入為H={hThe,hservice,hof,hthe,hrestaurant,his,hgood,hbut,hthe,hfood,htastes,hgeneral}，模型的輸出結(jié)果為Y={O,BA,O,O,O,O,BO,O,O,BA,BO,IO}。

在給定輸入H的條件下，Y的條件概率分布計算：

(25)

其中：Z(H)為規(guī)范化因子，用于歸一化；ψc(Yc|H)為勢函數(shù)；P(Y|H)是所有最大團C上勢函數(shù)的乘積。此處最大團包含兩類，一是Tree LSTM輸入到CRF的代表狀態(tài)特征的團，二是輸出序列中代表轉(zhuǎn)移特征的團。在計算狀態(tài)特征勢函數(shù)時，額外融合上下文窗口大小為3的信息，則詞“is”處的狀態(tài)特征勢函數(shù)計算示例如圖3所示：

圖3 詞“is”處窗口大小為3的狀態(tài)特征勢函數(shù)計算示例Fig.3 Example of state feature potential function calculation with window size 3 at word “is”

在上下文窗口為3時，節(jié)點k處的狀態(tài)特征勢函數(shù)計算公式：

(26)

(27)

式中計算勢函數(shù)時前三項代表計算窗口為3的狀態(tài)特征勢函數(shù)，第四項代表計算轉(zhuǎn)移特征勢函數(shù)。

1.3 模型訓練

在對整個模型訓練時，應用鏈式法則利用反向傳播的方法學習各個參數(shù)。誤差首先從條件隨機場開始反向傳播，沿模型結(jié)構(gòu)傳到Tree LSTM中，ROOT指向的節(jié)點只接收到從CRF傳來的誤差，其他節(jié)點將接收到來自CRF的誤差和來自依存關(guān)系父節(jié)點傳來的誤差，LSTM單元中各門的參數(shù)也將根據(jù)鏈式法則學習更新。

2 實驗及分析

2.1 數(shù)據(jù)集及實驗設(shè)置

本節(jié)使用SemEval Challenge 2014 任務4的數(shù)據(jù)集對模型進行訓練與測試，該數(shù)據(jù)集包含筆記本和餐館兩個領(lǐng)域的評論數(shù)據(jù)，詳細信息如表2所示，該數(shù)據(jù)僅僅包含對評價對象的標注，實驗使用了Wang等[15]對觀點內(nèi)容手工標注的數(shù)據(jù)。

表2 SemEval Challenge 2014 任務4 數(shù)據(jù)集Tab.2 Dataset of SemEval Challenge 2014 Task 4

在訓練詞向量時，使用gensim word2vec方法進行訓練，餐館領(lǐng)域的訓練語料數(shù)據(jù)選擇Yelp cha-llenge dataset的評論數(shù)據(jù)，筆記本領(lǐng)域訓練語料數(shù)據(jù)選擇Amazon的電子產(chǎn)品評論數(shù)據(jù)，詞向量的維數(shù)在比對后選擇350維，對比實驗在2.2節(jié)中敘述。評論語句的依存句法分析樹使用Stanford Parser生成，模型中的線性鏈CRF使用CRFSuite實現(xiàn)。

由于SemEval Challenge 2014 任務4的評測模型僅對評價對象進行了抽取，為了方便比較，將本模型去除觀點內(nèi)容標簽后重新訓練學習，得到只抽取評價對象的聯(lián)合模型并命名為Tree LSTM+CRF-O。

2.2 實驗與結(jié)果分析

為了驗證提出模型的有效性，本研究還實現(xiàn)了以下幾個模型：

1) SemEval-1，SemEval-2：SemEval Challenge 2014任務4評測時性能最好的兩個模型。

2) CRF-1：包含基礎(chǔ)語言特征(詞、文體、詞性、上下文、上下文詞性)的CRF模型。

3) CRF-2：包含上述基礎(chǔ)語言特征和依存關(guān)系特征(中心詞和詞之間的依存關(guān)系)的CRF模型。

4) W+L+D+B：Yin等[12]提出的CRF模型包含無監(jiān)督學習得到的詞嵌入特征、依存關(guān)系特征，線性上下文嵌入特征以及基礎(chǔ)特征模板。

5) LSTM，LSTM-CRF，Bi-LSTM-CRF：分別指LSTM為基礎(chǔ)的長短期記憶網(wǎng)絡，LSTM-CRF為長短期記憶網(wǎng)絡結(jié)合CRF的模型，Bi-LSTM-CRF為雙向長短期記憶網(wǎng)絡結(jié)合CRF的模型。LSTM網(wǎng)絡中的權(quán)重通過區(qū)間[-0.2,0.2]的隨機均勻分布初始化，隱層的大小設(shè)置為50，學習率設(shè)置為0.01。

6) RNCRF，RNCRF-O：Wang等[15]提出的遞歸神經(jīng)網(wǎng)絡和CRF的聯(lián)合模型，RNCRF-O是為方便比較而忽略掉觀點內(nèi)容標注的模型。

選用F1值作為模型性能的評價指標，計算方法如公式(28)～(30)所示。其中，TP是模型正確標注的數(shù)量，TP+FP是模型標注的總數(shù)，TP+FN是測試集中存在的標注總數(shù)。

(28)

(29)

(30)

實驗結(jié)果如表3所示。

表3 各模型實驗結(jié)果的F1-Score值Tab.3 F1-Score of experimental results of each model

由表3可知，本模型比SemEval Challenge的最優(yōu)模型SemEval-1與SemEval-2效果好，在餐館與筆記本領(lǐng)域分別比SemEval-1高出2.75%和5.31%。在與普通條件隨機場的對比中，在加入依存關(guān)系特征后，CRF-2在評價對象抽取上比CRF-1在餐館和筆記本領(lǐng)域分別高出1.37%和2.14%，說明依存關(guān)系特征確實有助于評價對象的抽取，同時CRF模型的結(jié)果低于其他模型，說明深度學習方法比條件隨機場學習信息更加有效。LSTM模型的結(jié)果要差于LSTM-CRF模型，這是由于條件隨機場能夠糾正類似IA、BA這樣的標注順序錯誤，所以大部分模型都會在神經(jīng)網(wǎng)絡之后連接條件隨機場進行標注。雙向LSTM因為能夠捕獲2個方向的信息而比普通LSTM模型效果要好。本模型比RNCRF模型效果略好，說明將普通遞歸神經(jīng)網(wǎng)絡單元替換為LSTM單元和設(shè)計樹結(jié)構(gòu)下LSTM單元門結(jié)構(gòu)的計算方法是有效的；比時間序列的Bi-LSTM-CRF模型的結(jié)果好，說明樹結(jié)構(gòu)在依存關(guān)系信息的處理中優(yōu)于時間序列結(jié)構(gòu)。由于依存關(guān)系是由子單詞指向父單詞，類似于樹結(jié)構(gòu)，所以在依存關(guān)系特征上樹結(jié)構(gòu)效果更好。Tree LSTM+CRF-O是去除觀點內(nèi)容標注的模型，從實驗結(jié)果可以看出，該模型性能損失不大，表明本模型魯棒性好。

圖4給出了RNCRF和Tree LSTM+CRF兩個模型實際標注的結(jié)果示例。從圖4中的例子中可看出，本模型比普通遞歸神經(jīng)網(wǎng)絡能更好地處理依存關(guān)系特征和詞本身特征，對低頻出現(xiàn)的評價對象和依存關(guān)系相對復雜的句子標注結(jié)果更好。

圖4 RNCRF與Tree LSTM+CRF標注結(jié)果對比Fig.4 Comparison of RNCRF and Tree LSTM+CRF labeling results

進一步還對不同詞向量維度對模型的影響進行了實驗。實驗選取維度范圍為50～500維，維度間隔為50，實驗結(jié)果如圖5所示。

圖5 詞向量維度對比實驗結(jié)果Fig.5 Word vector dimension comparison experiment results

由圖5可以看出，在餐館領(lǐng)域，評價對象的抽取結(jié)果普遍優(yōu)于觀點內(nèi)容的抽取結(jié)果；而在筆記本領(lǐng)域，觀點內(nèi)容的抽取結(jié)果普遍優(yōu)于對評價對象的抽取結(jié)果。而且模型在兩個領(lǐng)域下都在350維處效果最好，模型性能隨維度變化有波動但波動幅度不超過3%，模型性能相對穩(wěn)定。

3 總結(jié)與展望

評價對象和觀點內(nèi)容的抽取是觀點挖掘中的重要研究內(nèi)容。本研究提出一個基于Tree LSTM結(jié)合CRF的聯(lián)合模型來抽取評論語句中的顯式評價對象與觀點內(nèi)容。該模型包含兩部分，第一部分是根據(jù)評論語句的依存結(jié)構(gòu)樹構(gòu)建的Tree LSTM，用于融合詞向量和依存句法關(guān)系向量從而學習每個詞的高層特征；第二部分是條件隨機場，將從Tree LSTM得到的每個詞的隱向量輸入其中進行序列標注工作，將隱向量映射到代表評價對象、觀點內(nèi)容和其他詞的標簽上，實現(xiàn)了評價對象與觀點內(nèi)容的抽取。在SemEval Cha-llenge 2014 任務4的數(shù)據(jù)集上的實驗結(jié)果表明本Tree LSTM能很好地表征詞語之間的層次關(guān)系，同時聯(lián)合模型有效避免了傳統(tǒng)CRF需要構(gòu)建特征工程的弊端。

目前本模型只是實現(xiàn)了簡單的抽取工作，下一步將對評論句進行情感分析，深入分析用戶所表達的觀點；并嘗試對評論中的隱式評價對象進行抽取，以全面分析用戶的觀點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡