基于序列標(biāo)注的引語識(shí)別初探

2019-04-02 03:08賈泓昊羅智勇

中文信息學(xué)報(bào) 2019年2期

賈泓昊,羅智勇

(北京語言大學(xué) 信息科學(xué)學(xué)院，北京 100083)

0 引言

隨著自然語言處理技術(shù)的飛速發(fā)展，句群篇章語義的分析需求日益增大。作為句群篇章語義分析的重要內(nèi)容，句間關(guān)系也受到越來越多的關(guān)注，然而在自然語言處理中關(guān)于引用這一句間關(guān)系的研究較少。句間引用關(guān)系的研究主要集中在語言學(xué)方面。

句間引用關(guān)系主要體現(xiàn)在引語中的引用句上。引語分直接引語和間接引語。從結(jié)構(gòu)上看，直接引語與間接引語均由引導(dǎo)句和引用句兩部分組成。在引導(dǎo)句中，起關(guān)鍵作用的言說動(dòng)詞對引用句有一定的管領(lǐng)作用，因此徐赳赳[1]將引導(dǎo)句的言說動(dòng)詞叫管領(lǐng)詞。引用句是被引用的部分，表明句間關(guān)系。宋柔[2]也在小句復(fù)合體的理論中將引語中的引用句叫做封閉語段，例如：

例1不過要是有人問我：“你最喜歡什么動(dòng)物？”(小說《邢老漢和狗的故事》)

例2我認(rèn)為，這絕不是畫家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫家對實(shí)有其狗的小友的紀(jì)念。(小說《邢老漢和狗的故事》)

例1是直接引語，由引導(dǎo)句“不過要是有人問我”和引用句“你最喜歡什么動(dòng)物”組成，管領(lǐng)詞為“問”。宋柔在小句復(fù)合體理論中認(rèn)為句子是有層級結(jié)構(gòu)的，指出引用句“你最喜歡什么動(dòng)物？”相對于引導(dǎo)句“不過要是有人問我”結(jié)構(gòu)上是封閉的，稱為封閉語段。例2是間接引語，包括引導(dǎo)句“我認(rèn)為”和引用句“這絕不是畫家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫家對實(shí)有其狗的小友的紀(jì)念”，管領(lǐng)詞為“認(rèn)為”，“這絕不是畫家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫家對實(shí)有其狗的小友的紀(jì)念。”是封閉語段。

本文主要識(shí)別句間引用這一關(guān)系，也就是識(shí)別表明引用關(guān)系的引用句，如例1，識(shí)別出“你最喜歡什么動(dòng)物”是引用句，也就識(shí)別出例1是引語。按照封閉語段的定義，引用句相當(dāng)于外部是封閉的，可以當(dāng)作一個(gè)總體來識(shí)別。因此，在本文中，我們主要識(shí)別的是引語中表明引用關(guān)系的引用句，引用句的識(shí)別主要有以下3個(gè)問題。

(1) 間接引語難以界定。

如上面例2：我認(rèn)為，這絕不是畫家在故作玄虛，也不是虛構(gòu)的人格化的動(dòng)物形象，一定是畫家對實(shí)有其狗的小友的紀(jì)念。(小說《邢老漢和狗的故事》)。這種間接引語沒什么特別區(qū)分標(biāo)志，人在學(xué)習(xí)時(shí)需要學(xué)習(xí)相關(guān)語法知識(shí)，區(qū)分其與一般陳述句的區(qū)別。

(2) 引導(dǎo)句和引用句相對位置不定。例如：

例3“我現(xiàn)在向你補(bǔ)求，行不行？”好像一切沒戀愛過的男人，方鴻漸把“愛”字看得太尊貴和嚴(yán)重，不肯隨便應(yīng)用在女人身上。(小說《圍城》)

例4辛楣也笑道：“孫小姐這房間住得么？李梅亭更住不得……”正說著，聽得李顧那面嚷起來。(小說《圍城》)

例5孫小姐湊上去瞧，不肯定地說：“這像是西藥?！?小說《圍城》)

如例3所示，引用句“我現(xiàn)在向你補(bǔ)求，行不行？”在句子的開頭；例4的引用句“孫小姐這房間住得么？李梅亭更住不得……”在句子的中間；例5的引用句“這像是西藥?！痹诰渥拥慕Y(jié)尾。引用句沒有固定的位置，無疑增加識(shí)別的難度。

(3) 引語分布不均。

一方面，不同領(lǐng)域引語比例相差較大(詳細(xì)介紹見表3)；整體而言，引語占比較少。我們對實(shí)驗(yàn)語料(詳細(xì)介紹見表3)進(jìn)行分析，總計(jì)13 370句語料，含有引語的句數(shù)是2 766，占比20.69%。這是一個(gè)不平衡的分類或標(biāo)注問題。

問題(1)是引語的本身問題。問題(2)需要我們采用的方法對位置信息不敏感。問題(3)需要我們在模型計(jì)算的時(shí)候采用負(fù)采樣的方法，使數(shù)據(jù)盡量平衡。

本文嘗試采用序列標(biāo)注的方法，提出基于條件隨機(jī)場(CRF)以及深度神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場相結(jié)合(BLSTM-CRF)兩種模型對引語進(jìn)行識(shí)別，同時(shí)引入管領(lǐng)詞特征來提高識(shí)別的效率。

本文第1節(jié)介紹句間關(guān)系與序列標(biāo)注的相關(guān)研究；第2節(jié)介紹條件隨機(jī)場模型；第3節(jié)介紹條件隨機(jī)場與雙向長短期記憶網(wǎng)絡(luò)相結(jié)合模型；第4節(jié)介紹實(shí)驗(yàn)及結(jié)果；第5節(jié)總結(jié)并提出下一步工作。

1 相關(guān)研究

目前在自然語言處理領(lǐng)域針對引語自動(dòng)識(shí)別的研究較少。典型的篇章句間關(guān)系語料有以下兩種：基于RST理論[3]的修辭結(jié)構(gòu)理論樹庫(rhetorical structure theory discourse treebank)[4]和基于PDTB體系的賓州篇章樹庫(Penn discourse tree bank)[5],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[6]。但是這些均是英文方面的研究，張牧宇[7]采用自身提出的中文句間關(guān)系理論，對中文句間關(guān)系進(jìn)行研究，但這些都不是特別針對引語識(shí)別的研究。

本文首次嘗試對引用這一句間關(guān)系進(jìn)行研究分析，找出引用關(guān)系中的引用句，采用序列標(biāo)注這一方法對引用句進(jìn)行自動(dòng)識(shí)別。目前，序列標(biāo)注模型主要包括：隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)[8]和條件隨機(jī)場(CRF)[9]。近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，研究者將深度神經(jīng)網(wǎng)絡(luò)引入到序列標(biāo)記任務(wù)中，具有代表性的研究工作包括： Collobert[10]使用卷積神經(jīng)網(wǎng)絡(luò)模型來解決序列標(biāo)注中通用命名實(shí)體識(shí)別的問題；Huang[11]首次采用將雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場結(jié)合的方法來進(jìn)行序列標(biāo)注，并在詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)上取得良好效果。

本文嘗試采取條件隨機(jī)場(CRF)、雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場相結(jié)合(BLSTM-CRF)這兩種方法對引語進(jìn)行識(shí)別，同時(shí)引入管領(lǐng)詞特征來提高識(shí)別的效率。實(shí)驗(yàn)結(jié)果表明，CRF模型和BLSTM-CRF模型對引語的識(shí)別精確率分別達(dá)到85.49%和80.19%，F(xiàn)值分別達(dá)到78.75%和79.60%。

2 條件隨機(jī)場(CRF)

2.1 條件隨機(jī)場介紹

條件隨機(jī)場(CRF)是給定一組輸入隨機(jī)變量條件，求另外一組輸出隨機(jī)變量的條件概率分布模型；其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾科夫隨機(jī)場。本文用到的是線性條件隨機(jī)場，直接對輸入數(shù)據(jù)進(jìn)行處理，獲得全局最優(yōu)的標(biāo)記序列。

2.2 引語的識(shí)別建模

如前所述，引語可以作為一個(gè)整體進(jìn)行識(shí)別，本文將引語識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題。該序列標(biāo)注模型可以定義為：給定一個(gè)長度為n的句子X={x1,x2,…,xn}, 從所有可能的標(biāo)記序列中挑出最可能的標(biāo)記序列Y={y1,y2,…,yn}，最終從獲得的標(biāo)記序列中還原引語的位置。

一個(gè)詞語在句子中的標(biāo)記方式有四種：B代表一個(gè)引用句的開頭，I代表引用句中間的詞語，E是一個(gè)引用句中的最后一個(gè)詞語，O則是其他非引用句的詞語。一個(gè)簡單的面向引語識(shí)別的序列標(biāo)記實(shí)例如表1所示。

表1 引語識(shí)別實(shí)例

2.3 特征模板

在神經(jīng)網(wǎng)絡(luò)中用到CRF是不需要采用特征模板的，因?yàn)樯窠?jīng)網(wǎng)絡(luò)會(huì)自己學(xué)習(xí)里面的規(guī)律，例如，下面介紹的BLSTM-CRF就是通過兩層BLSTM來學(xué)習(xí)句子的內(nèi)部規(guī)律。但是直接用條件隨機(jī)場的方式來進(jìn)行序列標(biāo)注需要特征模板。條件隨機(jī)場通常采用文本窗口的方式定義特征，特征定義方式以某字符相對于當(dāng)前位置在文本中的偏移位置來表征。本文使用了12種字符特征模板，包括一元字符特征模板C0(當(dāng)前字符)、C-1(當(dāng)前字符向前第一個(gè)字符)、C1(當(dāng)前字符向后第一個(gè)字符)、C-2(當(dāng)前字符向前第二個(gè)字符)、C2(當(dāng)前字符向后第二個(gè)字符)，二元字符特征模板C-2C-1、C-1C0、C0C1、C1C2和三元字符模板C-2C-1C0、C-1C0C1、C0C1C2。

在本模型中，我們使用兩套模板，一套考慮管領(lǐng)詞特征，另一套未考慮。未考慮管領(lǐng)詞的引語識(shí)別標(biāo)記序列實(shí)例如表1所示?？紤]管領(lǐng)詞特征時(shí)，我們在語料中多加入一列特征，管領(lǐng)詞部分標(biāo)記為1，非管領(lǐng)詞部分標(biāo)記為0。引入管領(lǐng)詞的引語識(shí)別標(biāo)記序列實(shí)例如表2所示。

表2 引入管領(lǐng)詞特征引語識(shí)別實(shí)例

3 雙向長短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(BLSTM-CRF)模型

3.1 模型介紹

圖1為本文的BLSTM-CRF模型框架。模型框架主要由以下幾個(gè)網(wǎng)絡(luò)層組成：第一層為詞向量表示層(word embedding)；第二層為循環(huán)神經(jīng)網(wǎng)絡(luò)層，包含兩層雙向LSTM循環(huán)神經(jīng)單元(BLSTM)；最后一層為CRF層。

圖1 引語識(shí)別的BLSTM-CRF模型

首先，我們通過查詢詞向量表將輸入的語句轉(zhuǎn)換為相應(yīng)的詞向量序列；同時(shí)，除詞向量外，我們還引入其他特征向量，如管領(lǐng)詞向量，將這些特征向量和詞向量拼接，作為模型的輸入；然后，將上述詞語特征向量序列輸入循環(huán)神經(jīng)網(wǎng)絡(luò)層；最后，模型將循環(huán)神經(jīng)網(wǎng)絡(luò)層在每一個(gè)時(shí)刻的輸出，作為CRF的輸入序列，生成最優(yōu)的標(biāo)記序列。

3.2 詞向量層

本文的詞向量有兩種處理方式。一種是直接查詢詞向量，將輸入的語句轉(zhuǎn)化為相應(yīng)的詞向量。但是在對引語進(jìn)行自動(dòng)識(shí)別探索時(shí)發(fā)現(xiàn)，管領(lǐng)詞對于引用識(shí)別邊界具有很大的提示作用。因此，本文從大規(guī)模文本中收集和整理出來引導(dǎo)語中常用的高頻管領(lǐng)詞表，在進(jìn)行詞向量處理的時(shí)候引入相應(yīng)的管領(lǐng)詞向量。如圖2所示。

對于管領(lǐng)詞向量我們設(shè)計(jì)如下處理方法：將原有詞向量維度增加一個(gè)維度，非管領(lǐng)詞部分賦值為0，管領(lǐng)詞全部賦值為1，并且在訓(xùn)練過程中不會(huì)改變其值，標(biāo)記為不可訓(xùn)練。

圖2 引入管領(lǐng)詞的詞向量層

3.3 雙向長短期記憶網(wǎng)絡(luò)(BLSTM)層

LSTM(long short-term memory)是長短期記憶網(wǎng)絡(luò)，是一種特殊的RNN類型，可以學(xué)習(xí)長期依賴信息。LSTM模型通過特殊設(shè)計(jì)門結(jié)構(gòu)(遺忘門、輸入門及輸出門)來控制長期狀態(tài)。

引語的識(shí)別需要充分用到上下文的信息，我們采用雙向LSTM(即BLSTM)。雙向LSTM對句子能夠從左到右進(jìn)行順序計(jì)算以及從右到左進(jìn)行逆序計(jì)算，得到兩種不同的隱層表示，然后合并成最終的隱層輸出。

3.4 條件隨機(jī)場(CRF)層

此模型將兩層BLSTM處理后的隱層輸出結(jié)果當(dāng)做CRF的輸入，獲得最優(yōu)標(biāo)記序列。

輸入一個(gè)長度為l的句子S={w1,w2,…,wl}，定義兩層BLSTM的輸出概率矩陣Pl*k，其中k是輸出標(biāo)簽的個(gè)數(shù)，在我們的問題中k=4。Pi,j是指第i個(gè)詞語被標(biāo)記為第j個(gè)標(biāo)簽的概率。對于一個(gè)待預(yù)測的標(biāo)簽序列：y={y1,y2,…,yl}，有如下定義，如式(1)所示。

(1)

其中，A是狀態(tài)轉(zhuǎn)移矩陣，Ayi,yi+1表示從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率。通過求得最大的f(s,y)，即可得到最佳的輸出標(biāo)簽序列。這里引入的CRF，其實(shí)只是對輸出標(biāo)簽二元組進(jìn)行建模，然后使用動(dòng)態(tài)規(guī)劃進(jìn)行計(jì)算即可，最終根據(jù)得到的最優(yōu)路徑進(jìn)行標(biāo)注。

4 實(shí)驗(yàn)

4.1 評測數(shù)據(jù)集

本文測試數(shù)據(jù)集來自北京語言大學(xué)中文小句復(fù)合體標(biāo)注語料，主要分為3個(gè)領(lǐng)域：百科、小說、新聞。語料的詳細(xì)信息如表3所示。

表3 數(shù)據(jù)集介紹

以上語料集中每一個(gè)小句都是按照小句復(fù)合體的理論來劃分的。在語料處理方面，為能夠清楚地表示語料中待識(shí)別的引語，我們采用BIOE標(biāo)記的方式來標(biāo)記引語。我們的標(biāo)記規(guī)則如下：B代表一個(gè)引用句的開頭，I代表引用句中間的詞語，E是一個(gè)引用句中的最后一個(gè)詞語，O則是其他非引用句的詞語。將每個(gè)語料中的含引語句子、不含引語句子均按照8∶2的比例劃分訓(xùn)練集、測試集。

4.2 實(shí)驗(yàn)結(jié)果及分析

4.2.1 百科語料

百科語料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表4所示。百科語料中引語中90%為間接引語?？梢钥闯觯诓灰牍茴I(lǐng)詞的情況下，CRF在各項(xiàng)指標(biāo)上的結(jié)果均高于BLSTM-CRF,說明BLSTM-CRF對引語內(nèi)部規(guī)律的學(xué)習(xí)能力較弱，不如直接給特征模板學(xué)習(xí)的效果顯著。管領(lǐng)詞的引入，對于模型CRF，在引語的識(shí)別方面有顯著的提升，精確率由37.50%提升到62.50%，但是在模型BLSTM-CRF上精確率只有0.9%的提升。百科語料中，在CRF中直接引入管領(lǐng)詞特征比在BLSTM-CRF中引入管領(lǐng)詞向量效果更加明顯。

表4 百科語料引語識(shí)別結(jié)果

4.2.2 新聞?wù)Z料

新聞?wù)Z料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表5所示。新聞?wù)Z料中，引語全為間接引語。在不引入管領(lǐng)詞的情況下，CRF對于新聞?wù)Z料中引語識(shí)別的精確率很高，同時(shí)引入管領(lǐng)詞對于間接引語識(shí)別的提升效果很明顯，召回率由9.09%提升到31.82%，F(xiàn)值由16.67%提升到48.28%。BLSTM-CRF對于間接引語的識(shí)別精確率很低，只有22.86%，引入管領(lǐng)詞后，召回率提升了17.31%，F(xiàn)值提升了9.71%。新聞?wù)Z料中，引入管領(lǐng)詞，對CRF與BLSTM-CRF均有一定程度的提升。

表5 新聞?wù)Z料引用識(shí)別結(jié)果

4.2.3 小說語料

小說語料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表6所示。小說語料中引語中大多數(shù)均為直接引語，占比90.00%左右。在不引入管領(lǐng)詞的情況下，CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好，說明BLSTM-CRF對于引語的區(qū)分能力較弱，對于區(qū)分規(guī)律的學(xué)習(xí)不如CRF給定的特征模板。引入管領(lǐng)詞后，CRF模型在精確率、召回率、F值上有1%左右的浮動(dòng)，而BLSTM-CRF模型在精確率、F值上分別有12.94%、7.58%的提升，在召回率上只有0.51%的提升。小說語料中，引入管領(lǐng)詞，對BLSTM-CRF有一定程度的提升。

表6 小說語料引語識(shí)別結(jié)果

4.2.4 全部語料

全部語料引語的識(shí)別實(shí)驗(yàn)結(jié)果如表7所示。在全部語料中，在不引入管領(lǐng)詞的情況下，CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好。說明BLSTM-CRF對于引語的區(qū)分能力較弱，對于區(qū)分規(guī)律的學(xué)習(xí)不如CRF。在CRF中，引入管領(lǐng)詞后召回率、F值分別僅有1.64%、0.52%的提高，提升效果不是很明顯。而在BLSTM-CRF中，在精確率、召回率、F值上均有10%左右的提升，說明引入管領(lǐng)詞向量對于BLSTM-CRF有很大程度的提升。

表7 全部語料結(jié)果

4.2.5 實(shí)驗(yàn)分析

為進(jìn)一步了解在CRF模型與BLSTM-CRF模型中，管領(lǐng)詞對引語標(biāo)注結(jié)果的影響，考慮到樣本大小，本文對全部語料進(jìn)行分析，在BLSTM-CRF中，得到CRF層的輸入，對管領(lǐng)詞與B標(biāo)簽詞語進(jìn)行相似度計(jì)算，我們發(fā)現(xiàn)有以下規(guī)律：

① 在兩個(gè)神經(jīng)網(wǎng)絡(luò)模型中均被標(biāo)注正確的引語中，引入管領(lǐng)詞向量后，管領(lǐng)詞與B標(biāo)簽詞的相似度降低；

② 引語在原BLSTM-CRF模型中標(biāo)注錯(cuò)誤，引入管領(lǐng)詞向量后，標(biāo)注正確，管領(lǐng)詞與B標(biāo)簽詞相似度降低。

對于BLSTM-CRF模型而言，引入管領(lǐng)詞特征能夠?qū)W(xué)習(xí)內(nèi)部規(guī)律起到一定的指導(dǎo)作用，降低管領(lǐng)詞與B標(biāo)簽詞的相似度，可以避免它們打上同一標(biāo)簽或者關(guān)聯(lián)標(biāo)簽，從而提升模型效果。

在CRF中，我們?nèi)〕鲆粋€(gè)考慮了管領(lǐng)詞特征的具體特征模板%x[-2,1]/%x[-1,1]/%x[0,1](接下來皆叫特征模板C)來進(jìn)行分析，計(jì)算在B標(biāo)簽詞取不同標(biāo)記時(shí)的權(quán)重變化情況，正確標(biāo)注例句如下：

例6他拍拍身邊的椅子，說，謝蘭英，你靠著我坐。(小說《邢老漢和狗的故事》)

計(jì)算“謝蘭英”在不同標(biāo)記時(shí)，特征模板C權(quán)重隨迭代次數(shù)變化值如圖3所示。

圖3 引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖

在CRF中，其他標(biāo)記正確B標(biāo)簽詞特征權(quán)重變化趨勢基本與圖3相符合。從圖中可以看出，隨著迭代次數(shù)增加，特征C使“謝蘭英”標(biāo)記為B的權(quán)重越來越大，說明特征C影響著正確的標(biāo)記結(jié)果。而不引入管領(lǐng)詞特征時(shí)，對應(yīng)的特征模板%x[-2,0]/%x[-1,0]/%x[0,0](接下來皆叫特征模板C1)，也能指導(dǎo)學(xué)習(xí)“說”與“謝蘭英”之間的關(guān)系，此時(shí)，特征模板C1權(quán)重隨迭代次數(shù)變化值如圖4所示。

圖4 不引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖

通過圖3可知，CRF的特征模板可以指定學(xué)習(xí)上下文詞語之間的關(guān)系，管領(lǐng)詞“說”對于引用開始位置“謝蘭英”有指示作用，而特征模板可以指定學(xué)習(xí)“說”與“謝蘭英”的特征關(guān)系，并且特征權(quán)重在學(xué)習(xí)的過程中會(huì)逐漸變大，學(xué)習(xí)到其中的內(nèi)部規(guī)律。通過圖3、圖4可知，對于CRF來說，不管是否引入管領(lǐng)詞特征，都可以通過特征模板直接或間接地學(xué)習(xí)管領(lǐng)詞的管領(lǐng)作用，所以總體上效果提升不大。

5 結(jié)論及下一步工作

引語識(shí)別是進(jìn)行小句復(fù)合體乃至篇章分析的重要環(huán)節(jié)。本文提出了基于序列標(biāo)注的引語識(shí)別任務(wù)，并通過CRF、BLSTM-CRF兩種方法分別對引語進(jìn)行了識(shí)別實(shí)驗(yàn)，取得了初步效果。同時(shí)測試結(jié)果表明，引入管領(lǐng)詞特征對引語識(shí)別具有重要作用。

目前，本文提出的方法沒有區(qū)分引語中嵌套的引語，例如：

例7他說：孔子說，三人行，必有我?guī)煛?自擬)

其中“三人行，必有我?guī)煛笔且镁洹翱鬃诱f，三人行，必有我?guī)煛！敝星短椎囊镁?。如何從引用句中遞歸地識(shí)別引用句是下一步的研究工作。另外，如何進(jìn)一步提高CRF、BLSTM-CRF對間接引語的識(shí)別性能，也是今后的研究內(nèi)容之一。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡