賈泓昊,羅智勇
(北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
隨著自然語言處理技術(shù)的飛速發(fā)展,句群篇章語義的分析需求日益增大。作為句群篇章語義分析的重要內(nèi)容,句間關(guān)系也受到越來越多的關(guān)注,然而在自然語言處理中關(guān)于引用這一句間關(guān)系的研究較少。句間引用關(guān)系的研究主要集中在語言學(xué)方面。
句間引用關(guān)系主要體現(xiàn)在引語中的引用句上。引語分直接引語和間接引語。從結(jié)構(gòu)上看,直接引語與間接引語均由引導(dǎo)句和引用句兩部分組成。在引導(dǎo)句中,起關(guān)鍵作用的言說動(dòng)詞對引用句有一定的管領(lǐng)作用,因此徐赳赳[1]將引導(dǎo)句的言說動(dòng)詞叫管領(lǐng)詞。引用句是被引用的部分,表明句間關(guān)系。宋柔[2]也在小句復(fù)合體的理論中將引語中的引用句叫做封閉語段,例如:
例1不過要是有人問我:“你最喜歡什么動(dòng)物?”(小說《邢老漢和狗的故事》)
例2我認(rèn)為,這絕不是畫家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫家對實(shí)有其狗的小友的紀(jì)念。(小說《邢老漢和狗的故事》)
例1是直接引語,由引導(dǎo)句“不過要是有人問我”和引用句“你最喜歡什么動(dòng)物”組成,管領(lǐng)詞為“問”。宋柔在小句復(fù)合體理論中認(rèn)為句子是有層級結(jié)構(gòu)的,指出引用句“你最喜歡什么動(dòng)物?”相對于引導(dǎo)句“不過要是有人問我”結(jié)構(gòu)上是封閉的,稱為封閉語段。例2是間接引語,包括引導(dǎo)句“我認(rèn)為”和引用句“這絕不是畫家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫家對實(shí)有其狗的小友的紀(jì)念”,管領(lǐng)詞為“認(rèn)為”,“這絕不是畫家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫家對實(shí)有其狗的小友的紀(jì)念。”是封閉語段。
本文主要識(shí)別句間引用這一關(guān)系,也就是識(shí)別表明引用關(guān)系的引用句,如例1,識(shí)別出“你最喜歡什么動(dòng)物”是引用句,也就識(shí)別出例1是引語。按照封閉語段的定義,引用句相當(dāng)于外部是封閉的,可以當(dāng)作一個(gè)總體來識(shí)別。因此,在本文中,我們主要識(shí)別的是引語中表明引用關(guān)系的引用句,引用句的識(shí)別主要有以下3個(gè)問題。
(1) 間接引語難以界定。
如上面例2:我認(rèn)為,這絕不是畫家在故作玄虛,也不是虛構(gòu)的人格化的動(dòng)物形象,一定是畫家對實(shí)有其狗的小友的紀(jì)念。(小說《邢老漢和狗的故事》)。這種間接引語沒什么特別區(qū)分標(biāo)志,人在學(xué)習(xí)時(shí)需要學(xué)習(xí)相關(guān)語法知識(shí),區(qū)分其與一般陳述句的區(qū)別。
(2) 引導(dǎo)句和引用句相對位置不定。例如:
例3“我現(xiàn)在向你補(bǔ)求,行不行?”好像一切沒戀愛過的男人,方鴻漸把“愛”字看得太尊貴和嚴(yán)重,不肯隨便應(yīng)用在女人身上。(小說《圍城》)
例4辛楣也笑道:“孫小姐這房間住得么?李梅亭更住不得……”正說著,聽得李顧那面嚷起來。(小說《圍城》)
例5孫小姐湊上去瞧,不肯定地說:“這像是西藥?!?小說《圍城》)
如例3所示,引用句“我現(xiàn)在向你補(bǔ)求,行不行?”在句子的開頭;例4的引用句“孫小姐這房間住得么?李梅亭更住不得……”在句子的中間;例5的引用句“這像是西藥?!痹诰渥拥慕Y(jié)尾。引用句沒有固定的位置,無疑增加識(shí)別的難度。
(3) 引語分布不均。
一方面,不同領(lǐng)域引語比例相差較大(詳細(xì)介紹見表3);整體而言,引語占比較少。我們對實(shí)驗(yàn)語料(詳細(xì)介紹見表3)進(jìn)行分析,總計(jì)13 370句語料,含有引語的句數(shù)是2 766,占比20.69%。這是一個(gè)不平衡的分類或標(biāo)注問題。
問題(1)是引語的本身問題。問題(2)需要我們采用的方法對位置信息不敏感。問題(3)需要我們在模型計(jì)算的時(shí)候采用負(fù)采樣的方法,使數(shù)據(jù)盡量平衡。
本文嘗試采用序列標(biāo)注的方法,提出基于條件隨機(jī)場(CRF)以及深度神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場相結(jié)合(BLSTM-CRF)兩種模型對引語進(jìn)行識(shí)別,同時(shí)引入管領(lǐng)詞特征來提高識(shí)別的效率。
本文第1節(jié)介紹句間關(guān)系與序列標(biāo)注的相關(guān)研究;第2節(jié)介紹條件隨機(jī)場模型;第3節(jié)介紹條件隨機(jī)場與雙向長短期記憶網(wǎng)絡(luò)相結(jié)合模型;第4節(jié)介紹實(shí)驗(yàn)及結(jié)果;第5節(jié)總結(jié)并提出下一步工作。
目前在自然語言處理領(lǐng)域針對引語自動(dòng)識(shí)別的研究較少。典型的篇章句間關(guān)系語料有以下兩種:基于RST理論[3]的修辭結(jié)構(gòu)理論樹庫(rhetorical structure theory discourse treebank)[4]和基于PDTB體系的賓州篇章樹庫(Penn discourse tree bank)[5],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[6]。但是這些均是英文方面的研究,張牧宇[7]采用自身提出的中文句間關(guān)系理論,對中文句間關(guān)系進(jìn)行研究,但這些都不是特別針對引語識(shí)別的研究。
本文首次嘗試對引用這一句間關(guān)系進(jìn)行研究分析,找出引用關(guān)系中的引用句,采用序列標(biāo)注這一方法對引用句進(jìn)行自動(dòng)識(shí)別。目前,序列標(biāo)注模型主要包括:隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)[8]和條件隨機(jī)場(CRF)[9]。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究者將深度神經(jīng)網(wǎng)絡(luò)引入到序列標(biāo)記任務(wù)中,具有代表性的研究工作包括: Collobert[10]使用卷積神經(jīng)網(wǎng)絡(luò)模型來解決序列標(biāo)注中通用命名實(shí)體識(shí)別的問題;Huang[11]首次采用將雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場結(jié)合的方法來進(jìn)行序列標(biāo)注,并在詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)上取得良好效果。
本文嘗試采取條件隨機(jī)場(CRF)、雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場相結(jié)合(BLSTM-CRF)這兩種方法對引語進(jìn)行識(shí)別,同時(shí)引入管領(lǐng)詞特征來提高識(shí)別的效率。實(shí)驗(yàn)結(jié)果表明,CRF模型和BLSTM-CRF模型對引語的識(shí)別精確率分別達(dá)到85.49%和80.19%,F(xiàn)值分別達(dá)到78.75%和79.60%。
條件隨機(jī)場(CRF)是給定一組輸入隨機(jī)變量條件,求另外一組輸出隨機(jī)變量的條件概率分布模型;其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾科夫隨機(jī)場。本文用到的是線性條件隨機(jī)場,直接對輸入數(shù)據(jù)進(jìn)行處理,獲得全局最優(yōu)的標(biāo)記序列。
如前所述,引語可以作為一個(gè)整體進(jìn)行識(shí)別,本文將引語識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題。該序列標(biāo)注模型可以定義為:給定一個(gè)長度為n的句子X={x1,x2,…,xn}, 從所有可能的標(biāo)記序列中挑出最可能的標(biāo)記序列Y={y1,y2,…,yn},最終從獲得的標(biāo)記序列中還原引語的位置。
一個(gè)詞語在句子中的標(biāo)記方式有四種:B代表一個(gè)引用句的開頭,I代表引用句中間的詞語,E是一個(gè)引用句中的最后一個(gè)詞語,O則是其他非引用句的詞語。一個(gè)簡單的面向引語識(shí)別的序列標(biāo)記實(shí)例如表1所示。
表1 引語識(shí)別實(shí)例
在神經(jīng)網(wǎng)絡(luò)中用到CRF是不需要采用特征模板的,因?yàn)樯窠?jīng)網(wǎng)絡(luò)會(huì)自己學(xué)習(xí)里面的規(guī)律,例如,下面介紹的BLSTM-CRF就是通過兩層BLSTM來學(xué)習(xí)句子的內(nèi)部規(guī)律。但是直接用條件隨機(jī)場的方式來進(jìn)行序列標(biāo)注需要特征模板。條件隨機(jī)場通常采用文本窗口的方式定義特征,特征定義方式以某字符相對于當(dāng)前位置在文本中的偏移位置來表征。本文使用了12種字符特征模板,包括一元字符特征模板C0(當(dāng)前字符)、C-1(當(dāng)前字符向前第一個(gè)字符)、C1(當(dāng)前字符向后第一個(gè)字符)、C-2(當(dāng)前字符向前第二個(gè)字符)、C2(當(dāng)前字符向后第二個(gè)字符),二元字符特征模板C-2C-1、C-1C0、C0C1、C1C2和三元字符模板C-2C-1C0、C-1C0C1、C0C1C2。
在本模型中,我們使用兩套模板,一套考慮管領(lǐng)詞特征,另一套未考慮。未考慮管領(lǐng)詞的引語識(shí)別標(biāo)記序列實(shí)例如表1所示??紤]管領(lǐng)詞特征時(shí),我們在語料中多加入一列特征,管領(lǐng)詞部分標(biāo)記為1,非管領(lǐng)詞部分標(biāo)記為0。引入管領(lǐng)詞的引語識(shí)別標(biāo)記序列實(shí)例如表2所示。
表2 引入管領(lǐng)詞特征引語識(shí)別實(shí)例
圖1為本文的BLSTM-CRF模型框架。模型框架主要由以下幾個(gè)網(wǎng)絡(luò)層組成:第一層為詞向量表示層(word embedding);第二層為循環(huán)神經(jīng)網(wǎng)絡(luò)層,包含兩層雙向LSTM循環(huán)神經(jīng)單元(BLSTM);最后一層為CRF層。
圖1 引語識(shí)別的BLSTM-CRF模型
首先,我們通過查詢詞向量表將輸入的語句轉(zhuǎn)換為相應(yīng)的詞向量序列;同時(shí),除詞向量外,我們還引入其他特征向量,如管領(lǐng)詞向量,將這些特征向量和詞向量拼接,作為模型的輸入;然后,將上述詞語特征向量序列輸入循環(huán)神經(jīng)網(wǎng)絡(luò)層;最后,模型將循環(huán)神經(jīng)網(wǎng)絡(luò)層在每一個(gè)時(shí)刻的輸出,作為CRF的輸入序列,生成最優(yōu)的標(biāo)記序列。
本文的詞向量有兩種處理方式。一種是直接查詢詞向量,將輸入的語句轉(zhuǎn)化為相應(yīng)的詞向量。但是在對引語進(jìn)行自動(dòng)識(shí)別探索時(shí)發(fā)現(xiàn),管領(lǐng)詞對于引用識(shí)別邊界具有很大的提示作用。因此,本文從大規(guī)模文本中收集和整理出來引導(dǎo)語中常用的高頻管領(lǐng)詞表,在進(jìn)行詞向量處理的時(shí)候引入相應(yīng)的管領(lǐng)詞向量。如圖2所示。
對于管領(lǐng)詞向量我們設(shè)計(jì)如下處理方法: 將原有詞向量維度增加一個(gè)維度,非管領(lǐng)詞部分賦值為0,管領(lǐng)詞全部賦值為1,并且在訓(xùn)練過程中不會(huì)改變其值,標(biāo)記為不可訓(xùn)練。
圖2 引入管領(lǐng)詞的詞向量層
LSTM(long short-term memory)是長短期記憶網(wǎng)絡(luò),是一種特殊的RNN類型,可以學(xué)習(xí)長期依賴信息。LSTM模型通過特殊設(shè)計(jì)門結(jié)構(gòu)(遺忘門、輸入門及輸出門)來控制長期狀態(tài)。
引語的識(shí)別需要充分用到上下文的信息,我們采用雙向LSTM(即BLSTM)。雙向LSTM對句子能夠從左到右進(jìn)行順序計(jì)算以及從右到左進(jìn)行逆序計(jì)算,得到兩種不同的隱層表示,然后合并成最終的隱層輸出。
此模型將兩層BLSTM處理后的隱層輸出結(jié)果當(dāng)做CRF的輸入,獲得最優(yōu)標(biāo)記序列。
輸入一個(gè)長度為l的句子S={w1,w2,…,wl},定義兩層BLSTM的輸出概率矩陣Pl*k,其中k是輸出標(biāo)簽的個(gè)數(shù),在我們的問題中k=4。Pi,j是指第i個(gè)詞語被標(biāo)記為第j個(gè)標(biāo)簽的概率。對于一個(gè)待預(yù)測的標(biāo)簽序列:y={y1,y2,…,yl},有如下定義,如式(1)所示。
(1)
其中,A是狀態(tài)轉(zhuǎn)移矩陣,Ayi,yi+1表示從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率。通過求得最大的f(s,y),即可得到最佳的輸出標(biāo)簽序列。這里引入的CRF,其實(shí)只是對輸出標(biāo)簽二元組進(jìn)行建模,然后使用動(dòng)態(tài)規(guī)劃進(jìn)行計(jì)算即可,最終根據(jù)得到的最優(yōu)路徑進(jìn)行標(biāo)注。
本文測試數(shù)據(jù)集來自北京語言大學(xué)中文小句復(fù)合體標(biāo)注語料,主要分為3個(gè)領(lǐng)域:百科、小說、新聞。語料的詳細(xì)信息如表3所示。
表3 數(shù)據(jù)集介紹
以上語料集中每一個(gè)小句都是按照小句復(fù)合體的理論來劃分的。在語料處理方面,為能夠清楚地表示語料中待識(shí)別的引語,我們采用BIOE標(biāo)記的方式來標(biāo)記引語。我們的標(biāo)記規(guī)則如下:B代表一個(gè)引用句的開頭,I代表引用句中間的詞語,E是一個(gè)引用句中的最后一個(gè)詞語,O則是其他非引用句的詞語。將每個(gè)語料中的含引語句子、不含引語句子均按照8∶2的比例劃分訓(xùn)練集、測試集。
4.2.1 百科語料
百科語料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表4所示。百科語料中引語中90%為間接引語??梢钥闯觯诓灰牍茴I(lǐng)詞的情況下,CRF在各項(xiàng)指標(biāo)上的結(jié)果均高于BLSTM-CRF,說明BLSTM-CRF對引語內(nèi)部規(guī)律的學(xué)習(xí)能力較弱,不如直接給特征模板學(xué)習(xí)的效果顯著。管領(lǐng)詞的引入,對于模型CRF,在引語的識(shí)別方面有顯著的提升,精確率由37.50%提升到62.50%,但是在模型BLSTM-CRF上精確率只有0.9%的提升。百科語料中,在CRF中直接引入管領(lǐng)詞特征比在BLSTM-CRF中引入管領(lǐng)詞向量效果更加明顯。
表4 百科語料引語識(shí)別結(jié)果
4.2.2 新聞?wù)Z料
新聞?wù)Z料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表5所示。新聞?wù)Z料中,引語全為間接引語。在不引入管領(lǐng)詞的情況下,CRF對于新聞?wù)Z料中引語識(shí)別的精確率很高,同時(shí)引入管領(lǐng)詞對于間接引語識(shí)別的提升效果很明顯,召回率由9.09%提升到31.82%,F(xiàn)值由16.67%提升到48.28%。BLSTM-CRF對于間接引語的識(shí)別精確率很低,只有22.86%,引入管領(lǐng)詞后,召回率提升了17.31%,F(xiàn)值提升了9.71%。新聞?wù)Z料中,引入管領(lǐng)詞,對CRF與BLSTM-CRF均有一定程度的提升。
表5 新聞?wù)Z料引用識(shí)別結(jié)果
4.2.3 小說語料
小說語料引語識(shí)別的實(shí)驗(yàn)結(jié)果如表6所示。小說語料中引語中大多數(shù)均為直接引語,占比90.00%左右。在不引入管領(lǐng)詞的情況下,CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好,說明BLSTM-CRF對于引語的區(qū)分能力較弱,對于區(qū)分規(guī)律的學(xué)習(xí)不如CRF給定的特征模板。引入管領(lǐng)詞后,CRF模型在精確率、召回率、F值上有1%左右的浮動(dòng),而BLSTM-CRF模型在精確率、F值上分別有12.94%、7.58%的提升,在召回率上只有0.51%的提升。小說語料中,引入管領(lǐng)詞,對BLSTM-CRF有一定程度的提升。
表6 小說語料引語識(shí)別結(jié)果
4.2.4 全部語料
全部語料引語的識(shí)別實(shí)驗(yàn)結(jié)果如表7所示。在全部語料中,在不引入管領(lǐng)詞的情況下,CRF模型比BLSTM-CRF模型在各項(xiàng)指標(biāo)上表現(xiàn)效果更好。說明BLSTM-CRF對于引語的區(qū)分能力較弱,對于區(qū)分規(guī)律的學(xué)習(xí)不如CRF。在CRF中,引入管領(lǐng)詞后召回率、F值分別僅有1.64%、0.52%的提高,提升效果不是很明顯。而在BLSTM-CRF中,在精確率、召回率、F值上均有10%左右的提升,說明引入管領(lǐng)詞向量對于BLSTM-CRF有很大程度的提升。
表7 全部語料結(jié)果
4.2.5 實(shí)驗(yàn)分析
為進(jìn)一步了解在CRF模型與BLSTM-CRF模型中,管領(lǐng)詞對引語標(biāo)注結(jié)果的影響,考慮到樣本大小,本文對全部語料進(jìn)行分析,在BLSTM-CRF中,得到CRF層的輸入,對管領(lǐng)詞與B標(biāo)簽詞語進(jìn)行相似度計(jì)算,我們發(fā)現(xiàn)有以下規(guī)律:
① 在兩個(gè)神經(jīng)網(wǎng)絡(luò)模型中均被標(biāo)注正確的引語中,引入管領(lǐng)詞向量后,管領(lǐng)詞與B標(biāo)簽詞的相似度降低;
② 引語在原BLSTM-CRF模型中標(biāo)注錯(cuò)誤,引入管領(lǐng)詞向量后,標(biāo)注正確,管領(lǐng)詞與B標(biāo)簽詞相似度降低。
對于BLSTM-CRF模型而言,引入管領(lǐng)詞特征能夠?qū)W(xué)習(xí)內(nèi)部規(guī)律起到一定的指導(dǎo)作用,降低管領(lǐng)詞與B標(biāo)簽詞的相似度,可以避免它們打上同一標(biāo)簽或者關(guān)聯(lián)標(biāo)簽,從而提升模型效果。
在CRF中,我們?nèi)〕鲆粋€(gè)考慮了管領(lǐng)詞特征的具體特征模板%x[-2,1]/%x[-1,1]/%x[0,1](接下來皆叫特征模板C)來進(jìn)行分析,計(jì)算在B標(biāo)簽詞取不同標(biāo)記時(shí)的權(quán)重變化情況,正確標(biāo)注例句如下:
例6他拍拍身邊的椅子,說,謝蘭英,你靠著我坐。(小說《邢老漢和狗的故事》)
計(jì)算“謝蘭英”在不同標(biāo)記時(shí),特征模板C權(quán)重隨迭代次數(shù)變化值如圖3所示。
圖3 引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖
在CRF中,其他標(biāo)記正確B標(biāo)簽詞特征權(quán)重變化趨勢基本與圖3相符合。從圖中可以看出,隨著迭代次數(shù)增加,特征C使“謝蘭英”標(biāo)記為B的權(quán)重越來越大,說明特征C影響著正確的標(biāo)記結(jié)果。而不引入管領(lǐng)詞特征時(shí),對應(yīng)的特征模板%x[-2,0]/%x[-1,0]/%x[0,0](接下來皆叫特征模板C1),也能指導(dǎo)學(xué)習(xí)“說”與“謝蘭英”之間的關(guān)系,此時(shí),特征模板C1權(quán)重隨迭代次數(shù)變化值如圖4所示。
圖4 不引入管領(lǐng)詞特征“謝蘭英”特征權(quán)重變化圖
通過圖3可知,CRF的特征模板可以指定學(xué)習(xí)上下文詞語之間的關(guān)系,管領(lǐng)詞“說”對于引用開始位置“謝蘭英”有指示作用,而特征模板可以指定學(xué)習(xí)“說”與“謝蘭英”的特征關(guān)系,并且特征權(quán)重在學(xué)習(xí)的過程中會(huì)逐漸變大,學(xué)習(xí)到其中的內(nèi)部規(guī)律。通過圖3、圖4可知,對于CRF來說,不管是否引入管領(lǐng)詞特征,都可以通過特征模板直接或間接地學(xué)習(xí)管領(lǐng)詞的管領(lǐng)作用,所以總體上效果提升不大。
引語識(shí)別是進(jìn)行小句復(fù)合體乃至篇章分析的重要環(huán)節(jié)。本文提出了基于序列標(biāo)注的引語識(shí)別任務(wù),并通過CRF、BLSTM-CRF兩種方法分別對引語進(jìn)行了識(shí)別實(shí)驗(yàn),取得了初步效果。同時(shí)測試結(jié)果表明,引入管領(lǐng)詞特征對引語識(shí)別具有重要作用。
目前,本文提出的方法沒有區(qū)分引語中嵌套的引語,例如:
例7他說:孔子說,三人行,必有我?guī)煛?自擬)
其中“三人行,必有我?guī)煛笔且镁洹翱鬃诱f,三人行,必有我?guī)煛!敝星短椎囊镁?。如何從引用句中遞歸地識(shí)別引用句是下一步的研究工作。另外,如何進(jìn)一步提高CRF、BLSTM-CRF對間接引語的識(shí)別性能,也是今后的研究內(nèi)容之一。