何陽(yáng)宇,易曉宇,唐 亮,易綿竹,李宏欣,2
(1.解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 洛陽(yáng)校區(qū),河南 洛陽(yáng) 471003;2.密碼科學(xué)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100878)
隨著信息時(shí)代的快速發(fā)展,互聯(lián)網(wǎng)上與軍事相關(guān)的內(nèi)容大量涌現(xiàn),其中以老撾語(yǔ)形式發(fā)布的信息也越來(lái)越多,同時(shí)帶來(lái)了信息過(guò)載、不直觀、利用率低等問(wèn)題,人工很難全面、準(zhǔn)確、及時(shí)地對(duì)要點(diǎn)進(jìn)行處理分析。因此,自動(dòng)地從非結(jié)構(gòu)化文本中抽取所需信息成為解決這一難題的關(guān)鍵。
實(shí)體關(guān)系抽取作為信息抽取的主要任務(wù)之一,其目的是從非結(jié)構(gòu)化文本中抽取實(shí)體之間顯式或隱式的語(yǔ)義關(guān)聯(lián),解決關(guān)系分類問(wèn)題。作為信息抽取的關(guān)鍵環(huán)節(jié),關(guān)系抽取在語(yǔ)義檢索、自動(dòng)問(wèn)答、知識(shí)圖譜等諸多領(lǐng)域具有廣闊的應(yīng)用前景。尤其對(duì)于老撾語(yǔ)來(lái)說(shuō),大量的文本尚以非結(jié)構(gòu)化的形式存在,迫切需要進(jìn)行深入挖掘分析,為促進(jìn)老撾語(yǔ)自然語(yǔ)言處理研究以及知識(shí)庫(kù)構(gòu)建提供數(shù)據(jù)基礎(chǔ)和技術(shù)支撐。
關(guān)系抽取經(jīng)歷了基于規(guī)則模板的方法、基于傳統(tǒng)統(tǒng)計(jì)模型的方法,發(fā)展到如今的深度學(xué)習(xí)方法,在英語(yǔ)、漢語(yǔ)等大語(yǔ)種中已經(jīng)取得了很好的效果?;谏疃葘W(xué)習(xí)的關(guān)系抽取又可分為有監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督三種,其中有監(jiān)督的方法目前具有更高的準(zhǔn)確率和召回率,但是需要大量的標(biāo)注語(yǔ)料。老撾語(yǔ)作為小語(yǔ)種,研究基礎(chǔ)薄弱,標(biāo)注語(yǔ)料匱乏,為解決這一問(wèn)題,該文提出了“硬匹配(hard matching)”與“軟匹配(soft matching)”相結(jié)合的啟發(fā)式方法,自行構(gòu)建了用于關(guān)系抽取的標(biāo)注語(yǔ)料庫(kù)。
在自建語(yǔ)料庫(kù)的基礎(chǔ)上,該文提出將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型BLSTM和注意力機(jī)制用于老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系的抽取,BLSTM可以從正反兩個(gè)方向?qū)W習(xí)上下文特征,較好地捕捉雙向的長(zhǎng)距離語(yǔ)義依賴關(guān)系,非常適合長(zhǎng)句數(shù)量眾多的老撾語(yǔ)文本,而采用的多頭注意力機(jī)制能夠允許模型在不同的位置關(guān)注來(lái)自不同表征子空間的信息,進(jìn)一步突出了老撾語(yǔ)句子中對(duì)語(yǔ)義關(guān)系具有重要影響的信息,克服了單頭注意力機(jī)制只能取平均值,從而可能導(dǎo)致某些重要信息被掩蓋的缺陷。
關(guān)系抽取的方法主要可分為兩大類:基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。早期的關(guān)系抽取大多利用規(guī)則在文本中尋找與其相匹配的實(shí)例,從而推導(dǎo)出實(shí)體之間的語(yǔ)義關(guān)系。文獻(xiàn)[1]根據(jù)實(shí)體之間的謂語(yǔ)動(dòng)詞來(lái)判斷它們的關(guān)系,文獻(xiàn)[2]通過(guò)語(yǔ)義注釋句法樹(shù)生成規(guī)則進(jìn)行實(shí)體關(guān)系識(shí)別,此類方法對(duì)于特定領(lǐng)域的關(guān)系抽取準(zhǔn)確率較高,但其擴(kuò)展性和移植性較差,召回率普遍較低。文獻(xiàn)[3]綜合實(shí)體本身、實(shí)體類型、依存樹(shù)和解析樹(shù)等特征建立最大熵模型來(lái)判斷實(shí)體關(guān)系類型,文獻(xiàn)[4]在文本淺層解析的基礎(chǔ)上定義樹(shù)核函數(shù),并結(jié)合支持向量機(jī)和投票感知器抽取實(shí)體關(guān)系。隨著深度學(xué)習(xí)的興起,基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取成為近年來(lái)的研究熱點(diǎn),文獻(xiàn)[5]提出利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行關(guān)系抽取,將詞匯級(jí)別特征和句子級(jí)別特征拼接得到的向量輸入softmax分類器中預(yù)測(cè)實(shí)體關(guān)系,文獻(xiàn)[6]引入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)為解析樹(shù)的每個(gè)節(jié)點(diǎn)分配向量和矩陣,并通過(guò)模型學(xué)習(xí)命題邏輯和自然語(yǔ)言中運(yùn)算符的含義,以此產(chǎn)生任意句法類型和長(zhǎng)度的短語(yǔ)和句子的組合向量表示,最后用softmax進(jìn)行關(guān)系分類。理論上,RNN可以處理任意長(zhǎng)度的序列數(shù)據(jù),但在實(shí)際操作中,當(dāng)有用信息距離當(dāng)前處理信息較遠(yuǎn)時(shí),就容易導(dǎo)致RNN產(chǎn)生梯度消失或梯度爆炸等問(wèn)題。針對(duì)這一現(xiàn)象,文獻(xiàn)[7]提出長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),通過(guò)引入門(mén)控機(jī)制大幅度提高了處理長(zhǎng)序列數(shù)據(jù)的能力。此后,有研究者將LSTM改進(jìn)為BLSTM,并將其用于關(guān)系分類,如文獻(xiàn)[8]利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BLSTM)對(duì)完整序列進(jìn)行建模,并嵌入了詞匯、句法等特征,實(shí)驗(yàn)結(jié)果表明該方法進(jìn)一步提升了關(guān)系分類性能。近年來(lái),注意力機(jī)制也成功應(yīng)用到關(guān)系分類任務(wù)中,文獻(xiàn)[9]將BLSTM與注意力機(jī)制結(jié)合起來(lái)進(jìn)行關(guān)系抽取,注意力層可以對(duì)BLSTM網(wǎng)絡(luò)的輸出進(jìn)行加權(quán)變換,獲取句子中每個(gè)詞對(duì)語(yǔ)義關(guān)系的影響力權(quán)重,從而獲得更加準(zhǔn)確的分類結(jié)果。該文在其基礎(chǔ)上,使用多頭自注意力機(jī)制,能夠更多地關(guān)注序列內(nèi)部結(jié)構(gòu),各注意力頭不僅能執(zhí)行不同的任務(wù),還能在一定程度上體現(xiàn)句法和語(yǔ)義特征。
另一方面,目前暫無(wú)老撾語(yǔ)關(guān)系抽取方面的研究,但是與關(guān)系抽取任務(wù)密切相關(guān)的分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等已有相關(guān)成果,這為該文提供了較好的基礎(chǔ)條件。此外,作為同源語(yǔ)言的泰語(yǔ)在關(guān)系抽取方面有少量研究可供參考,文獻(xiàn)[10]利用基于特征的方法在與犯罪相關(guān)的新聞?wù)Z料中進(jìn)行關(guān)系抽取,文獻(xiàn)[11]提出基于最大熵的泰語(yǔ)句子級(jí)實(shí)體從屬關(guān)系抽取方法,以漢泰平行句對(duì)作為橋梁構(gòu)建語(yǔ)料庫(kù),然后選擇符合泰語(yǔ)特點(diǎn)的上下文特征,使用最大熵模型進(jìn)行訓(xùn)練,取得了不錯(cuò)的效果,該方法對(duì)該文有一定的啟示意義,但缺乏高質(zhì)量的漢老平行語(yǔ)料,因此不能完全適用。
綜上,該文構(gòu)建了一種基于BLSTM和多頭自注意力機(jī)制的老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系抽取模型,首先采用半自動(dòng)的方法自行構(gòu)建了相關(guān)語(yǔ)料庫(kù),在一定程度上解決了標(biāo)注語(yǔ)料稀缺的問(wèn)題,然后利用模型進(jìn)行訓(xùn)練,最后輸入softmax分類器進(jìn)行關(guān)系分類??紤]到老撾語(yǔ)的研究現(xiàn)狀和應(yīng)用需求,該文主要探討句子級(jí)的二元關(guān)系抽取。
英語(yǔ)等大語(yǔ)種已有SemEval-2010 Task 8、ACE2004等專門(mén)用于關(guān)系抽取研究的公開(kāi)標(biāo)注數(shù)據(jù)集,而老撾語(yǔ)暫無(wú)類似資源。因此,該文需自行構(gòu)建相關(guān)語(yǔ)料庫(kù)——LREC(Lao relation extraction corpus),流程見(jiàn)圖1。
圖1 老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系語(yǔ)料庫(kù)構(gòu)建流程
語(yǔ)料的主要來(lái)源為老撾國(guó)防部、人民軍、老撾通訊社等官方網(wǎng)站的軍事類新聞以及《老撾國(guó)防政策白皮書(shū)》、《國(guó)防法》等官方文件,這些語(yǔ)料具有相關(guān)性強(qiáng)、質(zhì)量高等特點(diǎn),符合該文需求。確定語(yǔ)料來(lái)源后,利用爬蟲(chóng)技術(shù)進(jìn)行爬取,然后過(guò)濾掉圖片、網(wǎng)頁(yè)標(biāo)簽、未知符號(hào)等噪聲,最后得到所需的生語(yǔ)料。
得到生語(yǔ)料后需對(duì)其進(jìn)行一系列的預(yù)處理:第一步是分句,以句號(hào)、問(wèn)號(hào)、感嘆號(hào)等作為標(biāo)志對(duì)文本進(jìn)行切分,得到約11 500個(gè)句子組成的句子集。第二和第三步分別是對(duì)句子集進(jìn)行分詞和詞性標(biāo)注,現(xiàn)有的相關(guān)工具(由昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院開(kāi)發(fā)。)主要面向通用領(lǐng)域,為提高在軍事領(lǐng)域的性能,該文在其基礎(chǔ)上融入了領(lǐng)域詞表,包括《老漢-漢老軍事詞典》[12]以及自建的老撾軍事領(lǐng)域人名、地名庫(kù)等。第四步是命名實(shí)體標(biāo)注,方法沿用文獻(xiàn)[13]。最后對(duì)語(yǔ)料庫(kù)作進(jìn)一步篩選,將所含實(shí)體數(shù)少于2個(gè)的句子剔除,操作后剩下9 211個(gè)句子。
首先,根據(jù)老撾語(yǔ)的語(yǔ)言特點(diǎn)和軍事領(lǐng)域的任務(wù)需求,預(yù)定義了10種關(guān)系類型,見(jiàn)表1。
表1 老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系類型
基于BLSTM和多頭注意力機(jī)制的老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系抽取模型整體架構(gòu)見(jiàn)圖2。該模型的第一步是將經(jīng)過(guò)預(yù)處理的句子輸入模型,提取初始特征;第二步通過(guò)嵌入層(embedding layer)將所有初始特征映射為低維稠密向量;第三步利用BLSTM從第二步獲取高層特征;第四步是引入注意力機(jī)制產(chǎn)生權(quán)重向量,并將其與BLSTM層輸出的向量加權(quán)求和,形成更高層次的特征向量;最后將所得向量輸入softmax分類器用于關(guān)系分類。
常用于關(guān)系抽取的特征包括詞、詞性、實(shí)體類型、上下位關(guān)系、相對(duì)位置關(guān)系、依存關(guān)系和語(yǔ)義角色等。由于老撾語(yǔ)缺乏依存解析、語(yǔ)義角色標(biāo)注等工具,該文選擇詞、詞性、實(shí)體類型、相對(duì)位置關(guān)系作為初始特征,前三項(xiàng)特征可利用已有的自然語(yǔ)言處理工具得到,而位置特征則通過(guò)計(jì)算當(dāng)前詞xt到實(shí)體E1和E2的相對(duì)距離獲取。給定老撾語(yǔ)句子S={x1,x2,…,xn},其中n表示S中包含的詞數(shù),那么xt到E1和E2的相對(duì)距離D1、D2可分別通過(guò)式(1)、式(2)得出,式中t1和t2分別是E1和E2的索引下標(biāo),結(jié)果為負(fù)代表xt位于實(shí)體前,反之則位于實(shí)體后,見(jiàn)圖3。位置特征的加入使模型更加明確了哪兩個(gè)實(shí)體詞需要進(jìn)行關(guān)系分類。
D1=t-t1
(1)
D2=t-t2
(2)
圖3 位置特征示例
綜上,從S中提取到的初始特征集可表示為K={k1,k2,…,kq},其中q為特征集大小,取值為4。
特征嵌入就是將初始特征映射為實(shí)數(shù)向量。通過(guò)訓(xùn)練模型可以將S轉(zhuǎn)化為一個(gè)可學(xué)習(xí)的多維參數(shù)矩陣W∈Rd×|V|,其中d表示詞向量維度,V表示詞表大小,xt通過(guò)矩陣向量積運(yùn)算便可得到對(duì)應(yīng)的詞向量表示rt,如式(3),其中vt是關(guān)于xt的獨(dú)熱表示。
rt=Wvt
(3)
(4)
圖4 LSTM模塊結(jié)構(gòu)
將嵌入層得到的向量表示et作為L(zhǎng)STM層的輸入,計(jì)算第t個(gè)詞時(shí)LSTM各個(gè)狀態(tài)特征值的過(guò)程如下所示:
第一步由遺忘門(mén)決定上一個(gè)時(shí)間步內(nèi)部狀態(tài)信息的去向,計(jì)算方法如式(5),Wxf、Whf、Wcf和bf為ft對(duì)應(yīng)的權(quán)重矩陣和偏置(bias),式(6)~式(9)中的類似符號(hào)不再贅述。
ft=σ(Wxfet+Whfht-1+Wcfct-1+bf)
(5)
it=σ(Wxiet+Whiht-1+Wcict-1+bi)
(6)
(7)
第三步是對(duì)內(nèi)部狀態(tài)進(jìn)行更新,即將ct-1更新為ct,如式(8)。
(8)
第四步是輸出。首先,確定內(nèi)部狀態(tài)的哪個(gè)部分被輸出,如式(9),然后利用tanh層對(duì)當(dāng)前時(shí)間步的內(nèi)部狀態(tài)ct進(jìn)行處理得到最終輸出,如式(10)。
ot=σ(Wxoet+Whoht-1+Wcoct+bo)
(9)
ht=ottanh(ct)
(10)
由于時(shí)序信息是按照時(shí)間從前往后依次傳播,LSTM只能依據(jù)之前時(shí)刻的信息來(lái)預(yù)測(cè)當(dāng)前時(shí)刻的輸出,但在序列建模任務(wù)中,當(dāng)前時(shí)刻的輸出往往不僅與之前的狀態(tài)有關(guān),還與未來(lái)的狀態(tài)有關(guān)。BLSTM正是為解決這一問(wèn)題提出的,它由一個(gè)正向LSTM和一個(gè)反向LSTM組成,這兩個(gè)獨(dú)立的循環(huán)網(wǎng)絡(luò)分別負(fù)責(zé)學(xué)習(xí)上文和下文的特征信息,最后拼接起來(lái)送入同一輸出層。在式(10)的基礎(chǔ)上可以得出,利用BLSTM處理句子S時(shí),第t個(gè)詞的輸出如式(11):
(11)
M=tanh(H)
(12)
A=softmax(wnM)
(13)
B=HAn
(14)
H'=tanh(B)
(15)
(16)
以上公式中,A表示注意力權(quán)重矩陣,w是訓(xùn)練所得的參數(shù)向量,wn是w的轉(zhuǎn)置(transpose),B表示完成加權(quán)變換后所得的句子向量,H'表示單一注意力頭得到的輸出特征,假設(shè)一共進(jìn)行l(wèi)次注意力計(jì)算,concat表示向量拼接,⊙表示逐元素點(diǎn)乘,最終得到的輸出為H''。
老撾語(yǔ)關(guān)系抽取實(shí)際上是一個(gè)分類問(wèn)題,輸出層為softmax分類器,將注意力層得到的H''輸入其中便得到每個(gè)關(guān)系類別的條件概率,取其中概率最大的作為模型最終預(yù)測(cè)結(jié)果。計(jì)算過(guò)程如式(17)~式(19)所示:
p(y|H'')=softmax(WsH'')+bs
(17)
(18)
為了優(yōu)化模型,采用帶有L2懲罰項(xiàng)的交叉熵(cross entropy)損失作為目標(biāo)函數(shù),如式(19)所示:
(19)
其中,θ為模型參數(shù),m為樣本數(shù),ti∈Rm是正樣例的獨(dú)熱向量表示,yi∈Rm是softmax計(jì)算出的每個(gè)關(guān)系類別的概率,λ是L2正則化超參數(shù)。
實(shí)驗(yàn)所采用的語(yǔ)料均來(lái)自LREC,共包含5 063條數(shù)據(jù),10種預(yù)定義的關(guān)系類別,按照4∶1的比例分配訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。
為了綜合評(píng)價(jià)系統(tǒng)性能,將準(zhǔn)確率(P)、召回率(R)以及F測(cè)度值(F-measure)作為評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行測(cè)試,具體定義分別如式(20)~式(22):
(20)
(21)
(22)
選用批量的Adam[15]優(yōu)化方法訓(xùn)練模型,其中帶有交叉熵?fù)p失函數(shù)。由于實(shí)驗(yàn)的參數(shù)較多,而用于老撾語(yǔ)關(guān)系抽取的語(yǔ)料相對(duì)較少,容易產(chǎn)生過(guò)擬合現(xiàn)象,因此,采用L2正則化來(lái)限制模型參數(shù)值,并且在嵌入層、BLSTM層和注意力層使用“丟棄法(dropout)”[16]策略。另外,將修正線性單元(rectified linear unit,ReLU)作為激活函數(shù)。對(duì)于具體參數(shù)值的設(shè)置,利用K折交叉驗(yàn)證法和參考過(guò)往研究經(jīng)驗(yàn)值的方法共同完成,見(jiàn)表2。
表2 參數(shù)取值情況
續(xù)表2
為了全方位地驗(yàn)證該方法的有效性,一共設(shè)置四組對(duì)比實(shí)驗(yàn),變量分別是神經(jīng)網(wǎng)絡(luò)類型(實(shí)驗(yàn)一)、注意力機(jī)制(實(shí)驗(yàn)二)、嵌入特征(實(shí)驗(yàn)三)和語(yǔ)料規(guī)模(實(shí)驗(yàn)四),其他實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置等客觀因素均保持一致,CNN等需特殊設(shè)置的方法另行闡述。
4.4.1 實(shí)驗(yàn)一
本輪實(shí)驗(yàn)選取了當(dāng)前常見(jiàn)的幾種神經(jīng)網(wǎng)絡(luò)模型:CNN、RNN、LSTM和BLSTM。其中CNN的架構(gòu)以及濾波器窗口尺寸和卷積核個(gè)數(shù)等設(shè)置借鑒文獻(xiàn)[5],RNN方法借鑒文獻(xiàn)[17],以上模型均暫不加入注意力機(jī)制,具體結(jié)果見(jiàn)表3。
表3 實(shí)驗(yàn)一結(jié)果對(duì)比
從表3可知,從1到4號(hào)實(shí)驗(yàn)結(jié)果總體呈上升趨勢(shì)。具體來(lái)看,幾種模型中CNN的效果最差,這是因?yàn)槔蠐胝Z(yǔ)中長(zhǎng)句較多,而CNN只能處理其窗口內(nèi)的信息,難以應(yīng)對(duì)長(zhǎng)程依賴問(wèn)題。RNN比CNN的結(jié)果略有上升,證明RNN可以在一定程度上緩解較長(zhǎng)序列建模問(wèn)題,但是提升能力有限,這是由于當(dāng)老撾語(yǔ)句子過(guò)長(zhǎng)時(shí),RNN會(huì)出現(xiàn)梯度消失或梯度爆炸等問(wèn)題。加入門(mén)控機(jī)制后的LSTM,其結(jié)果有較大幅度的提高,這說(shuō)明LSTM更適合處理時(shí)序數(shù)據(jù)。BLSTM方法的各項(xiàng)指標(biāo)在單向LSTM的基礎(chǔ)上又有了6%左右的提升,這意味著在老撾語(yǔ)句子中兩個(gè)方向的語(yǔ)義信息對(duì)抽取結(jié)果都非常重要,尤其是在句子結(jié)構(gòu)較長(zhǎng)且復(fù)雜的情況下,BLSTM在充分利用上下文信息方面更具優(yōu)勢(shì)。
4.4.2 實(shí)驗(yàn)二
為了驗(yàn)證注意力機(jī)制的有效性以及注意力頭數(shù)的作用,本輪實(shí)驗(yàn)設(shè)計(jì)了三個(gè)模型,分別是BLSTM、BLSTM+ATT和BLSTM+Multi-Head ATT,具體結(jié)果見(jiàn)表4。
從表4可看出,加入注意力后,抽取結(jié)果指標(biāo)均提升了4%左右,這說(shuō)明注意力機(jī)制能夠充分獲取到老撾語(yǔ)句子內(nèi)部的有用特征,在較大程度上排除冗余信息的干擾。將單一注意力擴(kuò)展為多頭注意力后,效果更加顯著,證明了多頭注意力機(jī)制可以更加全面地捕捉句子信息,進(jìn)一步提高模型的特征表達(dá)能力。
表4 實(shí)驗(yàn)二結(jié)果對(duì)比
4.4.3 實(shí)驗(yàn)三
將詞、詞性、實(shí)體類型、相對(duì)位置關(guān)系四個(gè)特征分別記為k1、k2、k3、k4。為了測(cè)試各特征對(duì)結(jié)果的影響程度,選用“BLSTM+Multi-Head ATT”作為訓(xùn)練模型,依次加入以上特征進(jìn)行對(duì)比。具體結(jié)果見(jiàn)表5。
表5 實(shí)驗(yàn)三結(jié)果對(duì)比
從表5整體情況看,所選特征都是有效的,其中,詞性特征k2和實(shí)體類型特征k3的加入對(duì)性能的提升較為明顯,這是因?yàn)槔蠐胝Z(yǔ)中表達(dá)語(yǔ)義關(guān)系的詞一般是動(dòng)詞,k2可以幫助系統(tǒng)捕捉詞性信息,而在軍事領(lǐng)域關(guān)系抽取任務(wù)中,實(shí)體類型信息對(duì)正確預(yù)測(cè)關(guān)系也有較為顯著的作用,比如,“部署”關(guān)系一般連接的是“武器裝備”類實(shí)體和“地點(diǎn)”類實(shí)體。相比之下,位置特征k4的加入對(duì)效果的提升幫助不大,這可能是因?yàn)槔蠐胝Z(yǔ)中部分詞的位置復(fù)雜多變,在一定程度上增加了k4的不確定性。
4.4.4 實(shí)驗(yàn)四
為了考察語(yǔ)料規(guī)模對(duì)系統(tǒng)的影響,本輪實(shí)驗(yàn)以500條訓(xùn)練語(yǔ)料為起點(diǎn),以500條為單位增量進(jìn)行模型訓(xùn)練,選用“BLSTM+Multi-Head ATT”作為訓(xùn)練模型,共有約4 000條訓(xùn)練語(yǔ)料,測(cè)試語(yǔ)料規(guī)模保持不變,其余參數(shù)設(shè)置和實(shí)驗(yàn)環(huán)境等均一致,結(jié)果對(duì)比見(jiàn)圖5。
圖5 實(shí)驗(yàn)四結(jié)果對(duì)比
從圖5可以看出,總體上的趨勢(shì)是隨著語(yǔ)料規(guī)模的增大,各項(xiàng)評(píng)價(jià)指標(biāo)也隨之提高,這說(shuō)明訓(xùn)練語(yǔ)料的數(shù)量是提高老撾語(yǔ)軍事領(lǐng)域關(guān)系抽取系統(tǒng)性能的關(guān)鍵因素。另一方面,在語(yǔ)料規(guī)模約為2 000條的時(shí)候,F(xiàn)值就達(dá)到了80%左右,這說(shuō)明“BLSTM+Multi-Head ATT”的方法能夠在語(yǔ)料規(guī)模較小的時(shí)候,比較全面深入地挖掘已有語(yǔ)料的上下文信息和內(nèi)部特征,實(shí)現(xiàn)較好的效果,非常適合老撾語(yǔ)語(yǔ)料匱乏的研究現(xiàn)狀,但是在達(dá)到2 000條之后,評(píng)價(jià)指標(biāo)的增速開(kāi)始放緩,這可能是因?yàn)橐延姓Z(yǔ)料的句法類型等元素的豐富程度還不夠,模型能夠?qū)W習(xí)到的特征已經(jīng)達(dá)到相對(duì)飽和的狀態(tài)。
重點(diǎn)研究探討了老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系抽取問(wèn)題。針對(duì)語(yǔ)料匱乏的情況,利用半自動(dòng)的方法自行構(gòu)建了關(guān)系抽取語(yǔ)料庫(kù),然后提出了基于BLSTM和多頭自注意力的老撾語(yǔ)軍事領(lǐng)域?qū)嶓w關(guān)系抽取模型,并結(jié)合老撾語(yǔ)語(yǔ)言特點(diǎn)和研究現(xiàn)狀引入了詞、詞性、實(shí)體類型、相對(duì)位置關(guān)系等特征,最后進(jìn)行了四輪對(duì)比實(shí)驗(yàn),其結(jié)果證明了該模型的有效性和可靠性。盡管如此,仍然有較大的改進(jìn)空間。比如,除了提及的特征以外,囿于基礎(chǔ)研究薄弱,還有依存分析、語(yǔ)義角色等特征未能使用,待今后相關(guān)工具完善后可融入其中。作為低資源語(yǔ)言的老撾語(yǔ),語(yǔ)料問(wèn)題也一直是困擾研究的難點(diǎn),今后除了繼續(xù)加大語(yǔ)料建設(shè)以外,還要積極探索更多對(duì)語(yǔ)料依賴較小的方法。另外,將研究從軍事領(lǐng)域擴(kuò)展到其他領(lǐng)域甚至開(kāi)放領(lǐng)域也是將來(lái)的研究方向。