李東欣,禹 龍,田生偉,李 圃,趙建國
(1.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008;2.新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830008;3.新疆大學(xué) 語言學(xué)院,新疆 烏魯木齊 830046;4.新疆大學(xué) 人文學(xué)院,新疆 烏魯木齊 830046)
在篇章級別文本語義的整體理解上,準(zhǔn)確沒有歧義的指代消解對其具有很大的影響。在信息抽取、自動(dòng)文摘等自然語言處理中具有重要的作用[1]。Mc-Carthy等[2]將其轉(zhuǎn)換為二分類問題,用于判斷先行語和照應(yīng)語之間的指代關(guān)系。王榮波等[3]基于篇章級別設(shè)計(jì)的多元判別分析模型,提高了句群自動(dòng)劃分的精確度。李國臣等[4]利用機(jī)器學(xué)習(xí)算法結(jié)合優(yōu)先選擇策略,針對篇章級別的文本,進(jìn)行了指代消解研究。Ng等[5]研究了在挖掘語義信息方面指代消解所起的作用。Kong等[6]探索了更深層次的語義信息對指代消解的影響。許敏等[7]采用了格框架的方法進(jìn)行指代消解。之后,王厚峰等[8-9]在中文領(lǐng)域給出了消解人稱代詞的基本規(guī)則。董國志等[10]提出了將語料庫、規(guī)則預(yù)處理和最大熵模型相結(jié)合的方法。王海東[11]和孔芳[12]將語義角色應(yīng)用在指代消解模型中,實(shí)驗(yàn)結(jié)果顯示,引入語義角色能夠更好地提高消解模型的準(zhǔn)確率。
上述研究盡管在一定程度上提高了指代消解模型的性能,但是需要人工參與進(jìn)行特征抽取和分析,因此,仍然存在許多不足。如:過程繁瑣,耗時(shí)太久;傳統(tǒng)淺層學(xué)習(xí)方法不能夠很好地挖掘文本中深層的語義信息;處理復(fù)雜問題時(shí),常常會(huì)出現(xiàn)泛化能力不足現(xiàn)象;不能很好地挖掘語義的深層細(xì)節(jié)信息。針對上述問題,文中利用注意力機(jī)制、長短時(shí)記憶網(wǎng)絡(luò)和深度信念網(wǎng)絡(luò),構(gòu)建了一種維吾爾語的人稱代詞指代消解模型。
隨著attention機(jī)制和深度學(xué)習(xí)算法在圖像處理、目標(biāo)檢測和語音、視頻識別等眾多領(lǐng)域的廣泛應(yīng)用,也為指代消解的研究提供了全新的思路[13]。
Collobert[14]將詞匯向量化,并作為初始值來訓(xùn)練指代消解模型。胡乃全[15]將特征向量應(yīng)用在中文人稱代詞指代消解中,有效提高了系統(tǒng)的性能。Hinton[16]提出了基于RBM的Log-Bilinear語言模型。Hochreiter等利用長短記憶單元(long short-term memory)[17]模型有效解決了傳統(tǒng)的RNN訓(xùn)練時(shí)的梯度爆炸和梯度消失問題,讓RNN能真正有效地利用長短距離的信息;胡新辰等[18]將LSTM模型應(yīng)用于語義關(guān)系分類問題,并取得了很好的效果。隨后attention機(jī)制被大量應(yīng)用于各種圖像處理和自然語言處理模型中,為進(jìn)一步解決傳統(tǒng)attention機(jī)制的局限性,文獻(xiàn)[19]將attention機(jī)制和RNN模型相結(jié)合,并提出全局(global)機(jī)制和局部(local)機(jī)制。文獻(xiàn)[20]利用attention-based得到含有輸入序列節(jié)點(diǎn)注意力概率分布的語義編碼,并將其作為分類器的輸入,以緩解特征向量提取過程中的信息丟失和信息冗余等問題。
人稱代詞在維語中的形式與漢語、英語有著明顯的區(qū)別。(1)前者人稱代詞不包括反身代詞,而英語和漢語包括反身代詞;(2)維語的第三人稱代詞不僅沒有性別區(qū)分,還可以指物體;(3)一、二人稱有單復(fù)數(shù)之分,而第三人稱沒有。因此維語人稱代詞的單復(fù)數(shù)特征,為指代消解的研究提供了一個(gè)很好的依據(jù)。
文中結(jié)合attention機(jī)制、LSTM模型和深度信念網(wǎng)絡(luò)實(shí)現(xiàn)維吾爾語人稱代詞指代消解。其基本思想是:首先確定先行語和照應(yīng)語對應(yīng)的候選項(xiàng),構(gòu)建人稱代詞特征向量,挖掘出人稱代詞語義信息;然后利用多層感知器將十一項(xiàng)規(guī)則特征與挖掘出的人稱代詞語義信息進(jìn)行融合;最后由softmax分類器進(jìn)行分類,完成消解任務(wù)。指代消解整體流程如圖1所示。
圖1 基于Attention-Based LSTM-DBN的維吾爾語 人稱代詞指代消解框架
通過Attention-Based LSTM挖掘文本中照應(yīng)語和候選先行語上下文的語義特征,并作為深度信念網(wǎng)絡(luò)的輸入;然后經(jīng)過DBN進(jìn)一步挖掘出隱藏在文本中的深層語義特征;最后將挖掘出的人稱代詞語義特征與特征規(guī)則融合,經(jīng)過softmax進(jìn)行分類,完成維吾爾語人稱代詞指代消解。
圖2 維吾爾語人稱代詞指代消解模型具體框架
針對在詞匯轉(zhuǎn)換成中間向量時(shí),會(huì)導(dǎo)致很多細(xì)節(jié)信息缺失問題。文中通過添加注意力機(jī)制來提高模型輸出信息的質(zhì)量,減少計(jì)算時(shí)耗。
在圖2中θ就是歷史節(jié)點(diǎn)對最后節(jié)點(diǎn)的注意力概率,Xi是文本詞語向量表示。計(jì)算出Xi對于文章總體的影響力權(quán)重,可突出關(guān)鍵詞的作用,減少非關(guān)鍵詞對于文本整體語義的影響。文中在編碼階段使用Attention-Based機(jī)制。維吾爾語人稱代詞語義特征表達(dá)式為:
(1)
ri=tanh(Wxhm+Wprj)
(2)
rj=θHi
(3)
語義編碼θ主要是通過注意力概率權(quán)重與歷史輸入節(jié)點(diǎn)的隱藏層的狀態(tài)乘積的累加得到,表示人稱代詞經(jīng)過模型后的語義表示;K表示輸入序列的元素?cái)?shù)目;Wik表示節(jié)點(diǎn)K對于節(jié)點(diǎn)i的注意力概率權(quán)重;Wx和Wp分別是模型訓(xùn)練時(shí)hm和rj的權(quán)重向量。
LSTM模型是通過在RNN的基礎(chǔ)上添加細(xì)胞控制機(jī)制(cell state),并通過輸入門、遺忘門、輸出門的控制,解決了RNN模型長期依賴問題和序列過長導(dǎo)致的梯度爆炸問題。
針對維吾爾語人稱代詞特征選擇問題,文中采用結(jié)合注意力機(jī)制的LSTM模型用于提取特征。傳統(tǒng)的模型在挖掘文本語義信息時(shí),往往忽略了上下文語義信息,使得信息缺失嚴(yán)重。LSTM模型具有短暫的記憶存儲(chǔ)功能,在挖掘人稱代詞語義信息時(shí)可以充分利用記憶單元中存儲(chǔ)的上一時(shí)刻的詞匯信息,挖掘出當(dāng)前時(shí)刻人稱代詞的語義特征;因此LSTM模型能夠更好地從上下文中挖掘出人稱代詞的語義信息。
設(shè)輸入的詞序序列為X={X1,X2,…,Xi},在t時(shí)刻,LSTM的輸入有三個(gè):(1)當(dāng)前時(shí)刻LSTM的輸入值xt;(2)上一時(shí)刻LSTM的輸出值hkt-1;(3)上一時(shí)刻的單元狀態(tài)Ckt-1。LSTM的輸出也有兩個(gè):當(dāng)前時(shí)刻LSTM的輸出值hkt;當(dāng)前時(shí)刻的單元狀態(tài)Ckt。則在t時(shí)刻LSTM單元可以表述為:
fkt=δ(Wf·[hkt-1,xt]+bf)
(4)
ikt=δ(Wi·[hkt-1,xt]+bi)
(5)
Okt=δ(Wo·[hkt-1,xt]+bo)
(6)
hkt=Okt·tanhCkt
(7)
Ckt=fktCkt-1+iktδ(WC[hkt-1,xt]+bC)
(8)
其中,f,i,O,C分別表示模型中的遺忘門、輸入門、輸出門和記憶單元;W為權(quán)重;b為LSTM模型中的偏置項(xiàng);δ為激活函數(shù)sigmoid。
為了確保在訓(xùn)練過程中,特征向量映射到不同空間特征時(shí),都盡可能多地保留特征信息,減小對學(xué)習(xí)目標(biāo)過擬合的風(fēng)險(xiǎn),文中在模型后半部分采用深度置信網(wǎng)絡(luò)。
訓(xùn)練過程可分為:
預(yù)訓(xùn)練:單獨(dú)地?zé)o監(jiān)督地訓(xùn)練每一層RBM網(wǎng)絡(luò),確保網(wǎng)絡(luò)獲得高階抽象特征。
微調(diào):利用反向傳播網(wǎng)絡(luò)微調(diào)網(wǎng)絡(luò)的權(quán)重。
利用多層感知器將Attention-Based LSTM-DBN模型學(xué)習(xí)到的維吾爾語人稱代詞語義特征與人稱代詞特征規(guī)則進(jìn)行融合,然后將融合后的特征送到softmax分類器進(jìn)行分類,并明確照應(yīng)語和先行語的指代關(guān)系,完成維吾爾語人稱代詞指代消解研究。
將人稱代詞與其之前出現(xiàn)的名詞短語按照一定的規(guī)則進(jìn)行兩兩配對。生成訓(xùn)練實(shí)例時(shí),因?yàn)橹复湹男畔⑹且呀?jīng)知道的,所以可以先對已識別出的人稱代詞進(jìn)行判斷,確定其是否在某個(gè)指代鏈中。若在,則將其視為照應(yīng)語,并查找該照應(yīng)語對應(yīng)的先行語;如果不存在,則將該人稱代詞視為非待消解項(xiàng),而且不用尋找該人稱代詞對應(yīng)的先行語。經(jīng)過統(tǒng)計(jì)實(shí)驗(yàn)語料,在文中實(shí)驗(yàn)中,將距離某個(gè)照應(yīng)語Xn在五句之內(nèi)的所有名詞短語視為匹配項(xiàng),并將匹配項(xiàng)與該照應(yīng)語一一進(jìn)行匹配。若是存在某個(gè)名詞短語NPi(0
在生成測試實(shí)例時(shí),因?yàn)橹复湹男畔⒍际俏粗?,所以將識別出的所有人稱代詞都視為照應(yīng)語,與其距離為五句之內(nèi)的名詞短語依次進(jìn)行匹配,配對形式為<照應(yīng)語,候選先行語>,然后通過模型判斷它們之間是否存在指代關(guān)系。
不同的特征對模型的消解性能具有重要的影響。因此,提取的特征要能夠使模型快速、有效、準(zhǔn)確地對詞匯間的指代關(guān)系進(jìn)行判斷。經(jīng)過查看閱讀國內(nèi)外大量的關(guān)于漢語和英語指代消解的研究文獻(xiàn),結(jié)合維語特點(diǎn)通過實(shí)驗(yàn)篩選出以下十一個(gè)特征。
(1)如果照應(yīng)語是代詞(Anaphor Pronoun.):此特征表示為Vap={0,1},如果照應(yīng)語是代詞,則Vap=1;如果不是,則Vap=0。
(2)如果候選先行語是代詞(Candidate Pronoun.):此特征表示為Vcp={0,1},如果候選先行語是代詞,則Vcp=1;否則Vcp=0。
(3)是否嵌套(Nest Pron.):此特征表示為Vnest={0,1},如果照應(yīng)語與候選先行語都是互相嵌套,特征值Vnest=1;否則Vnest=0。
(4)性別一致性(Gender Agreement.):該特征表示為Vga={0,0.5,1},如果照應(yīng)語和候選先行語的性別一致,特征值Vga=1;如果性別不一致,則特征值Vga=0;如果照應(yīng)語和候選先行語有一個(gè)未知,特征值Vga=0.5。
(5)語義類別的一致性(Semantic Agreement.):該特征表示為Vsa={0,0.5,1},如果候選先行語與照應(yīng)語的語義類別一致,該特征值Vsa=1;如果不一致,則Vsa=0;如果照應(yīng)語和候選先行語中有一個(gè)未知,該特征值Vsa=0.5。
(6)單復(fù)數(shù)的一致性(Number Agreement.):該特征表示為Vna={0,0.5,1},如果照應(yīng)語和候選先行語的單復(fù)數(shù)一致,該特征值Vna=1;如果不一致,Vna=0;如果照應(yīng)語和候選先行語中有一個(gè)未知,則該特征值Vna=0.5。
(7)詞性的一致性(POS Agreement.):該特征表示為Vpos={0,1},如果候選先行語與照應(yīng)語詞性一致,該特征值Vpos=1;否則Vpos=0。
(8)命名實(shí)體特征(Name Entity.):該特征表示為Vname={0.1,0.3,0.6,1},若候選先行語的實(shí)體類型是人名,該特征值取1;若候選先行語的實(shí)體類型是機(jī)構(gòu)名,該特征值取0.3;若是地名,該特征值取0.6;若是其他,該特征值取0.1。
(9)語義角色特征(Semantic Role.):該特征表示為Vrole={0,1},若候選先行語的語義角色是施事者,則該特征值Vrole=1;否則Vrole=0。
(10)“格”語法一致性(Case Gramma.):該特征表示為Vcg={0,0.5,1},如果候選先行語和照應(yīng)語格語法一致,則該特征值Vcg=1;若不一致,則Vcg=0;若照應(yīng)語和候選先行語中有一個(gè)格語法未知,則該特征值Vcg=0.5。
(11)距離特征(Distance.):該特征表示照應(yīng)語和候選先行語語句的空間距離。距離越大,存在的指代關(guān)系的可能性越小。特征表示為Vdistance=g(d),對空間距離進(jìn)行逆向取值,并歸一化在0和1之間。
設(shè)空間距離為d,若d≥10,則Vdistance=1;若d<10,則Vdistance=0.1×(10-d)。
根據(jù)上述的十一個(gè)特征,提取的特征向量值如表1所示。
表1 訓(xùn)練和測試實(shí)例格式
實(shí)驗(yàn)語料來自天山網(wǎng)等維吾爾語網(wǎng)頁網(wǎng)站。首先用網(wǎng)絡(luò)爬蟲在網(wǎng)上下載網(wǎng)頁,然后經(jīng)過去重和降噪后篩選出包含小說等內(nèi)容作為實(shí)驗(yàn)語料。在維吾爾語語言學(xué)專家的幫助指導(dǎo)下,標(biāo)注完成的語料共300篇。實(shí)驗(yàn)語料中第一、二和三人稱代詞占比分別為:35.36%、11.42%、53.23%。
利用自然語言處理中常用的MUC標(biāo)準(zhǔn)對實(shí)驗(yàn)結(jié)果進(jìn)行測評。準(zhǔn)確率P:模型的準(zhǔn)確程度;召回率R:模型的完備性;F1值:指代消解性能,表達(dá)式為:
(10)
(11)
(12)
為了確保實(shí)驗(yàn)結(jié)果的有效性,避免實(shí)驗(yàn)的不確定性,在進(jìn)行實(shí)驗(yàn)時(shí),將實(shí)驗(yàn)樣本全部隨機(jī)打亂,確保數(shù)據(jù)的隨機(jī)性。實(shí)驗(yàn)采用五倍交叉驗(yàn)證,取其平均值作為實(shí)驗(yàn)結(jié)果。參數(shù)設(shè)置如下:學(xué)習(xí)率0.01;批處理樣本數(shù)15;詞向量維度150;迭代次數(shù)100;LSTM隱藏層節(jié)點(diǎn)數(shù)目110;RBM層數(shù)2。
文中采用Word Embedding將詞匯向量化表示作為本文模型輸入的數(shù)據(jù)。Word Embedding區(qū)別于傳統(tǒng)的文本數(shù)據(jù)表示方法,提供了更好的語義特征信息,可以避免傳統(tǒng)詞向量的維度過高的問題,并且解決了向量稀疏問題,從而降低了模型的訓(xùn)練難度。
WordEmbedding的不同維度,對指代消解的性能也有一定的影響,維度越高含有的語義信息也越多。為了探索不同維度的詞向量對實(shí)驗(yàn)結(jié)果的影響,文中分別將10維、50維、100維、150維、200維的詞向量作為模型的輸入數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,Word Embedding的維度選擇對模型的準(zhǔn)確率有很大的影響。隨著Word Embedding維度的增加,反映整體性能的F1值也逐步提高,并在Word Embedding維度達(dá)到150維時(shí),綜合值F1、準(zhǔn)確率P和召回率R均達(dá)到了最高值,使實(shí)驗(yàn)獲得了最優(yōu)的效果,F(xiàn)1值也達(dá)到了78.83%,準(zhǔn)確率達(dá)到了81.14%。當(dāng)將Word Embedding的維度繼續(xù)增加時(shí),綜合值F1卻沒有繼續(xù)增加,反而降低了;這是因?yàn)楦呔S度向量中雖然包含了豐富的語義信息,但是也引入了噪音和無用的干擾信息,會(huì)產(chǎn)生過擬合現(xiàn)象,造成模型對數(shù)據(jù)的泛化能力降低,影響了模型指代消解的性能。
表2 不同維度下指代消解性能對比 %
為了驗(yàn)證模型的有效性,將文中模型與傳統(tǒng)LSTM、LSTM、DBN等深度學(xué)習(xí)模型進(jìn)行對比,結(jié)果如表3所示。
表3 模型對比結(jié)果
%
從表3可知,LSTM模型在準(zhǔn)確率、召回率、綜合值等指標(biāo)上均高于傳統(tǒng)的LSTM模型,這是因?yàn)長STM模型充分利用了短時(shí)信息記憶功能的記憶單元,能夠?qū)⑸弦粫r(shí)刻存儲(chǔ)的關(guān)鍵詞匯信息用于挖掘下一時(shí)刻的詞匯語義信息。文中模型比LSTM實(shí)驗(yàn)性能更優(yōu),是因?yàn)楫?dāng)輸入文本過長時(shí),LSTM模型不僅容易丟失大量的細(xì)節(jié)信息,且不能很好地分配權(quán)重比,造成信息的缺失,從而影響模型的性能。因此文中模型加入了Attention機(jī)制。注意力機(jī)制能有效降低數(shù)據(jù)維度、提高計(jì)算速度,將輸入的長文本映射成含有語義信息的數(shù)據(jù)編碼,避免造成信息的缺失。單一的DBN模型在其評價(jià)標(biāo)準(zhǔn)上比Attention-Based LSTM-DBN模型的相對較低,是因?yàn)锳ttention-Based LSTM-DBN模型中,長短時(shí)記憶網(wǎng)絡(luò)模型能夠更好地聯(lián)系上下文,挖掘出人稱代詞語義信息,受限玻爾茲曼機(jī)網(wǎng)絡(luò)能夠保證特征向量達(dá)到最優(yōu)化,挖掘出更深層次的語義特征,從而提高輸出質(zhì)量。結(jié)果表明,文中模型在維吾爾語人稱代詞指代消解研究中性能夠優(yōu)。
在同等條件下,將文中模型與SVM、SAE、ANN進(jìn)行對比,結(jié)果如表4所示。
表4 與其他模型實(shí)驗(yàn)對比結(jié)果
%
由表4可知,3種模型中,SVM和ANN在準(zhǔn)確率、召回率、綜合值均低于文中模型。這是因?yàn)闇\層機(jī)器學(xué)習(xí)模型SVM和ANN,相較于Attention-Based LSTM-DBN挖掘文本數(shù)據(jù)中隱藏的深層語義信息的能力相對較差,不能更好地利用數(shù)據(jù)中隱藏的信息。而文中利用深層神經(jīng)網(wǎng)絡(luò)構(gòu)建的人稱代詞指代消解模型,能夠更好地適應(yīng)復(fù)雜的數(shù)據(jù)分布情況,挖掘出更深層次的語義信息。因此文中模型相較于淺層機(jī)器學(xué)習(xí)更適用于代詞的消解研究。
維吾爾語人稱代詞指代消解對于維吾爾語自然語言領(lǐng)域的研究和發(fā)展具有重要的意義。目前在自然語言領(lǐng)域的研究主要針對的是英語、漢語等大語種,而針對維吾爾語等小語種的指代消解的研究相對較少,此外也沒有充分考慮上下文的語義信息,數(shù)據(jù)轉(zhuǎn)換過程中信息丟失嚴(yán)重,不能夠很好地挖掘出更深層次的語義特征。針對這些問題,采用Attention-Based LSTM-DBN模型,對文章的上下文語義特征進(jìn)行挖掘。并且利用詞向量將文本轉(zhuǎn)換成含有豐富語義信息的特征向量作為模型的輸入。根據(jù)維吾爾語人稱代詞指代的現(xiàn)象抽取11項(xiàng)規(guī)則特征,利用兩類融合后的特征,完成維吾爾語人稱代詞指代消解研究。通過與長短時(shí)記憶網(wǎng)絡(luò)等模型進(jìn)行對比實(shí)驗(yàn),驗(yàn)證了該模型在篇章級別文本上挖掘深層語義特征的有效性,提高了維語人稱代詞指代消解的性能。而與其他模型進(jìn)行的對比實(shí)驗(yàn),驗(yàn)證了Attention-Based LSTM-DBN模型在挖掘深層次的維吾爾語人稱代詞語義信息方面比淺層機(jī)器學(xué)習(xí)算法更具優(yōu)勢,能更好地應(yīng)對復(fù)雜的數(shù)據(jù)分布情況。