雷樹杰 邢富坤 王聞慧
1(戰(zhàn)略支援部隊(duì)信息工程大學(xué)洛陽(yáng)校區(qū) 河南 洛陽(yáng) 471003)2(青島大學(xué)外語(yǔ)學(xué)院 山東 青島 266000)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理任務(wù)中一項(xiàng)基礎(chǔ)性的工作,可以為自動(dòng)文摘、自動(dòng)問(wèn)答和機(jī)器翻譯等更復(fù)雜的自然語(yǔ)言處理任務(wù)提供支持。對(duì)于軍事領(lǐng)域信息處理而言,軍事類命名實(shí)體的識(shí)別同樣起著基礎(chǔ)性作用,武器裝備名是軍事類命名實(shí)體的重要組成部分。
命名實(shí)體識(shí)別的難點(diǎn)在于對(duì)未登錄命名實(shí)體的識(shí)別,要求識(shí)別模型具有較好的泛化能力,而提升泛化能力不能僅靠擴(kuò)大語(yǔ)料規(guī)模,尤其是對(duì)于很難獲取大規(guī)模語(yǔ)料的領(lǐng)域而言,擴(kuò)大語(yǔ)料規(guī)模的代價(jià)大,收益不一定高。本文從挖掘利用專門領(lǐng)域知識(shí)入手,將領(lǐng)域知識(shí)與深度學(xué)習(xí)相融合,提出基于領(lǐng)域特征向量的武器裝備名識(shí)別方法,實(shí)驗(yàn)結(jié)果顯示該方法可有效提升模型對(duì)于未登錄命名實(shí)體的識(shí)別效果。
命名實(shí)體的識(shí)別研究主要受到了如CoNLL等評(píng)測(cè)會(huì)議的影響,這使得大量命名實(shí)體識(shí)別研究主要集中在人名、地名、組織機(jī)構(gòu)名、時(shí)間和數(shù)字表達(dá)上[1],而對(duì)類似于武器裝備名這樣特定領(lǐng)域?qū)嶓w的識(shí)別研究明顯不足。
對(duì)于命名實(shí)體的識(shí)別,早期的識(shí)別方法大都基于規(guī)則。自20世紀(jì)90年代后,基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法逐漸成為自然語(yǔ)言處理任務(wù)的主流。近年來(lái),隨著人工神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域取得突破性進(jìn)展,該方法也逐步應(yīng)用到自然語(yǔ)言處理任務(wù)當(dāng)中。目前,運(yùn)用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別的研究還較為有限,主要有:文獻(xiàn)[2]使用了CNN、雙向長(zhǎng)短記憶網(wǎng)絡(luò)(bidirectional long-short-term memory,Bi-LSTM)和CRF的聯(lián)合模型對(duì)命名實(shí)體進(jìn)行了識(shí)別,在采用預(yù)訓(xùn)練向量作為模型輸入的情況下,在對(duì)英文命名實(shí)體的識(shí)別中取得了最好的效果;文獻(xiàn)[3]采用BiLSTM+CRF模型對(duì)社交媒體上的命名實(shí)體進(jìn)行了識(shí)別,該模型采用預(yù)訓(xùn)練的詞向量、基于字符的詞向量和句法特征向量作為模型輸入,有效克服了社交媒體信息噪音多、句子過(guò)短的不利因素;文獻(xiàn)[4]采用融合了依存句法信息的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)對(duì)命名實(shí)體進(jìn)行了識(shí)別,在OntoNotes 5.0數(shù)據(jù)集上取得了較好的效果;文獻(xiàn)[5]在中文上訓(xùn)練了基于字的詞向量,并與基于上下文的詞向量一起作為模型的輸入,得到了優(yōu)于SVM模型和CRF模型的識(shí)別效果;文獻(xiàn)[6]將詞向量與詞性向量作為DNN的輸入來(lái)對(duì)命名實(shí)體進(jìn)行識(shí)別,取得了較好的效果。
綜合而言,人工神經(jīng)網(wǎng)絡(luò)使得命名實(shí)體識(shí)別效果有了一定程度的提升,但對(duì)未登錄命名實(shí)體的識(shí)別效果仍然不佳。目前仍存在兩點(diǎn)主要不足:首先,該方法對(duì)語(yǔ)料規(guī)模有一定的要求,如語(yǔ)料規(guī)模太小,會(huì)嚴(yán)重影響模型的識(shí)別效果,而對(duì)于特定領(lǐng)域?qū)嶓w識(shí)別任務(wù)而言,大規(guī)模且?guī)в袑?shí)體標(biāo)注信息的語(yǔ)料獲取往往面臨巨大障礙;其次,目前研究所采用的識(shí)別特征主要集中在詞形、詞性和句法特征上,對(duì)特定領(lǐng)域?qū)嶓w的領(lǐng)域特征知識(shí)挖掘和運(yùn)用明顯不足,而特定領(lǐng)域?qū)嶓w往往具有較為明顯的領(lǐng)域特征,可以用來(lái)支持對(duì)特定實(shí)體的識(shí)別,也可以一定程度上彌補(bǔ)語(yǔ)料的不足。
基于以上問(wèn)題,本文重點(diǎn)從特征層面對(duì)已有模型進(jìn)行改進(jìn)。首先專門對(duì)武器裝備名的構(gòu)造特征進(jìn)行研究,提取出武器裝備名構(gòu)造特征要素庫(kù),并基于大規(guī)模語(yǔ)料預(yù)訓(xùn)練得到詞向量與特征向量,并將二者組合在一起作為Bi-LSTM+CRF模型的輸入。實(shí)驗(yàn)結(jié)果顯示,本文的方法對(duì)特定領(lǐng)域命名實(shí)體的識(shí)別效果有著較大的提升作用,一定程度上克服了現(xiàn)有識(shí)別模型的不足。
武器裝備是武裝力量用于實(shí)施和保障戰(zhàn)斗行動(dòng)的武器、武器系統(tǒng)和軍事技術(shù)器材的統(tǒng)稱,通常分為戰(zhàn)斗裝備和保障裝備。戰(zhàn)斗裝備是指在軍事行動(dòng)中直接殺傷敵人有生力量和破壞敵方各種設(shè)施的技術(shù)手段,如槍械、火炮、坦克以及其他裝甲戰(zhàn)斗車輛、作戰(zhàn)飛機(jī)、戰(zhàn)斗艦艇、彈藥、導(dǎo)彈、水雷等。保障裝備是為了有效使用戰(zhàn)斗裝備所必需的軍事技術(shù)器材,如雷達(dá)、聲吶、通信指揮器材、軍用測(cè)繪器材、野戰(zhàn)工程機(jī)械、軍用車輛、保障艦船、輔助飛機(jī)、情報(bào)處理裝備、電子對(duì)抗裝備等。武器裝備名可分為類名與具體名兩類:類名是指某一類武器裝備名的統(tǒng)稱,例如槍(gun)、戰(zhàn)斗機(jī)(fighter)、戰(zhàn)艦(warship)等;具體名則專指某一款具體的武器裝備名稱,如“F-35A”、“M1”、“J-20”都屬于具體名。從軍事領(lǐng)域自然語(yǔ)言處理任務(wù)需求分析,無(wú)論是武器裝備的類名還是具體名都是重要的軍事領(lǐng)域?qū)S行畔?,都?yīng)作為武器裝備名稱予以分析研究。
本文通過(guò)維基百科等渠道收集整理6 402條武器裝備名稱,并基于名稱實(shí)例及命名特點(diǎn),對(duì)英文武器裝備名的構(gòu)造特征進(jìn)行了研究。
針對(duì)英文武器裝備名的總體命名特點(diǎn),本文對(duì)武器裝備名的描述分為兩層:第一層是對(duì)武器裝備名的總體性描述;第二層是對(duì)各總體性描述要素的具體劃分。每一個(gè)英文武器裝備名都可以用該分類體系進(jìn)行描述。
第一層分類將武器裝備名分為型號(hào)(A)、別稱(N)、描述(P)和縮寫(R)四類。第二層分類將第一層分類中的型號(hào)(A)做進(jìn)一步區(qū)分,區(qū)分為系列E和具體型號(hào)V;第二層分類對(duì)第一層分類中的描述(P)也做了具體區(qū)分,如表1所示。
表1 描述類要素及舉例
在上述分類體系下,英文武器裝備名的每一個(gè)內(nèi)部構(gòu)成成分都能找到其對(duì)應(yīng)的分類?;诖朔诸愺w系,本文對(duì)收集整理的6 402條英文武器裝備名進(jìn)行人工標(biāo)注,分析了每一條名稱的構(gòu)造模式與特征,并對(duì)標(biāo)注后的結(jié)果進(jìn)行了統(tǒng)計(jì)分析。表2是本文對(duì)武器裝備名的部分標(biāo)注結(jié)果。表3是對(duì)武器裝備名構(gòu)造模式的統(tǒng)計(jì)結(jié)果。
表3 武器裝備名構(gòu)成模式統(tǒng)計(jì)結(jié)果
續(xù)表3
統(tǒng)計(jì)結(jié)果顯示,英文武器裝備名構(gòu)造規(guī)律明顯:其構(gòu)成成分類型相對(duì)有限,其構(gòu)造模式相對(duì)集中穩(wěn)定。具體來(lái)講,英文武器裝備名的構(gòu)成成分類型在本文的分類體系下只有19種,而64.41%的武器裝備名的構(gòu)造模式集中在10個(gè)主要構(gòu)造模式上。這表明本文針對(duì)英文武器裝備名構(gòu)建的兩層分類體系具有很強(qiáng)的描述能力,也反映出英文武器裝備名具有明顯的領(lǐng)域特征,且該領(lǐng)域特征是自動(dòng)識(shí)別的重要依據(jù),可以用來(lái)提高模型的類型泛化能力和約束能力。
在前期調(diào)查基礎(chǔ)上,本文得到了英文武器裝備名的構(gòu)造特征要素庫(kù),訓(xùn)練了特征向量,并以該特征向量與詞向量一起作為BILSTM+CRF模型的輸入進(jìn)行訓(xùn)練和識(shí)別。本文整體訓(xùn)練和識(shí)別框架如圖1所示。
圖1 武器裝備名識(shí)別框架
近年來(lái),神經(jīng)網(wǎng)絡(luò)在人工智能領(lǐng)域進(jìn)展迅速,并逐步應(yīng)用到自然語(yǔ)言處理任務(wù)當(dāng)中。根據(jù)模型的不同架構(gòu)和處理流程,人工神經(jīng)網(wǎng)絡(luò)可以分為RNN、CNN等。這些神經(jīng)網(wǎng)絡(luò)模型因架構(gòu)的不同,使得其適用的任務(wù)類型也不同。其中,RNN因?yàn)槟芴幚黹L(zhǎng)序依賴的問(wèn)題(如自然語(yǔ)言中的上下文)而被廣泛應(yīng)用到自然語(yǔ)言處理任務(wù)當(dāng)中。但RNN容易出現(xiàn)梯度彌散和梯度爆炸問(wèn)題[7],而LSTM模型[8]可以很好地解決這個(gè)問(wèn)題。Bi-LSTM則是對(duì)LSTM的改進(jìn),通過(guò)從正向和反向兩個(gè)方向利用上下文信息來(lái)進(jìn)一步提升模型對(duì)長(zhǎng)序依賴問(wèn)題的處理能力。
本文采用Bi-LSTM+CRF模型作為命名實(shí)體訓(xùn)練和識(shí)別模型,并將預(yù)先由維基語(yǔ)料與表1所示的武器裝備名構(gòu)造要素特征庫(kù)訓(xùn)練而來(lái)的領(lǐng)域特征向量融入到模型當(dāng)中,以解決現(xiàn)有模型對(duì)特定領(lǐng)域的領(lǐng)域特征挖掘不足與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)需要大規(guī)模訓(xùn)練文本的缺陷。
本文模型整體上由輸入層、Bi-LSTM層、輸出層和CRF層組成,各層之間的數(shù)據(jù)處理流程如圖2所示。
圖2 模型整體框架
本文采用預(yù)訓(xùn)練的詞向量和預(yù)訓(xùn)練的特征向量作為模型的輸入,并使用Python的Gensim開源工具包對(duì)詞向量與特征向量進(jìn)行預(yù)訓(xùn)練。
Word2vec是神經(jīng)概率語(yǔ)言模型的一種實(shí)現(xiàn),其中包含了CBOW與Skip-gram兩種模型。Word2vec可以在構(gòu)建神經(jīng)概率語(yǔ)言模型的同時(shí)得到詞所對(duì)應(yīng)的詞向量。其中,CBOW模型是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞,而Skip-gram則是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文。來(lái)斯惟[9]在2016年證明:當(dāng)用于訓(xùn)練詞向量的語(yǔ)料規(guī)模達(dá)到百兆級(jí)時(shí),CBOW模型要好于Skip-gram模型。本文用于訓(xùn)練詞向量的語(yǔ)料規(guī)模超過(guò)了600 MB,為此,采取CBOW模型來(lái)訓(xùn)練得到詞向量。
詞向量方面,通過(guò)對(duì)來(lái)自維基百科的大規(guī)模無(wú)監(jiān)督語(yǔ)料Cwiki進(jìn)行訓(xùn)練,本文得到了各個(gè)詞所對(duì)應(yīng)的詞向量記為V={word1:vector1,word2:vector2,…,wordn:vectorn}。
特征向量方面,本文在前期調(diào)查得到的構(gòu)造特征要素庫(kù)Kf(Kf的獲取過(guò)程見4.1)的支持下,采用動(dòng)態(tài)規(guī)劃算法對(duì)來(lái)自維基百科的大規(guī)模無(wú)監(jiān)督語(yǔ)料Cwiki進(jìn)行標(biāo)注,將每一個(gè)詞轉(zhuǎn)化為其對(duì)應(yīng)的特征要素(沒(méi)有相應(yīng)特征要素的詞則被轉(zhuǎn)化為“O”),形成了與Cwiki相對(duì)應(yīng)的特征要素語(yǔ)料Cwiki-feature。以特征要素語(yǔ)料Cwiki-feature為訓(xùn)練集,本文得到了每一個(gè)特征要素所對(duì)應(yīng)的特征向量Vf={feature1:fvector1,feature2:fvector2,…,featuren:fvectorn}。由于特征向量Vf的訓(xùn)練也是通過(guò)Word2vec(采用了CBOW模型,因?yàn)檗D(zhuǎn)換后的特征要素語(yǔ)料Cwiki-feature超過(guò)了400 MB)處理,所以每一個(gè)特征向量能夠很好地表示該特征要素的上下文,也就是本文在前期武器裝備名構(gòu)造特征調(diào)查中得到的構(gòu)造模式。因此相較于直接給每個(gè)特征要素賦予一個(gè)特定向量值而言,這種特征向量獲取模式能更好地將本文前期調(diào)查得到的領(lǐng)域特征融合到模型中。
圖3 模型的輸入:詞向量+特征向量
本文采取了Bi-LSTM模型,并通過(guò)調(diào)用TensorFlow平臺(tái)的內(nèi)置代碼庫(kù)對(duì)模型進(jìn)行了實(shí)現(xiàn)。
相較于RNN而言,LSTM模型增加了記憶單元和遺忘機(jī)制。其中,輸入門決定什么值會(huì)被更新,遺忘門決定什么信息會(huì)被遺忘,而輸出門則決定什么信息會(huì)被輸出。這樣的記憶單元與遺忘機(jī)制使得LSTM模型在處理長(zhǎng)序依賴問(wèn)題上有著出色的表現(xiàn)。LSTM架構(gòu)如圖4所示。
圖4 LSTM模塊
為了彌補(bǔ)Bi-LSTM模型在序列標(biāo)注任務(wù)上的缺陷,本文在Bi-LSTM之上增加了CRF層,通過(guò)TensorFlow平臺(tái)的內(nèi)置代碼庫(kù)將輸出層的損失函數(shù)由softmax函數(shù)替換為CRF函數(shù)。
CRF模型由J.Lafferty等在2001年提出,其定義的條件概率表示為:
(1)
由于CRF模型去除了隱馬爾可夫模型(Hidden Markov Model,HMM)中不合理的輸出獨(dú)立性假設(shè),使得CRF模型能夠很好地利用整個(gè)序列內(nèi)部的信息和外部觀測(cè)信息,很好地解決了在HMM、最大熵馬爾可夫模型(Maximum-Entropy Markov Model,MEMM)中存在的標(biāo)記偏置問(wèn)題。CRF模型這樣的優(yōu)點(diǎn)也使得其在序列標(biāo)注任務(wù)中表現(xiàn)出色。
針對(duì)命名實(shí)體識(shí)別這樣一個(gè)序列標(biāo)注任務(wù),本文采用CRF模型來(lái)接受Bi-LSTM模型的輸出,將各輸出之間的轉(zhuǎn)移概率考慮進(jìn)來(lái),以此來(lái)提高模型在命名實(shí)體識(shí)別任務(wù)中的性能。
本文收集了110篇美國(guó)國(guó)防部官方網(wǎng)站2017年度的新聞報(bào)道并對(duì)其中的英文武器裝備名進(jìn)行了人工標(biāo)注。實(shí)驗(yàn)選取了其中80篇作為訓(xùn)練語(yǔ)料Ctrain,另外30篇作為測(cè)試語(yǔ)料Ctest。
在對(duì)110篇新聞報(bào)道完成標(biāo)注后,本文抽取出80篇訓(xùn)練語(yǔ)料Ctrain所包含的英文武器裝備名,并利用上文所述的兩層分類體系對(duì)這些武器裝備名進(jìn)行人工標(biāo)注。標(biāo)注完成后,本文統(tǒng)計(jì)總結(jié)了這些武器裝備名的構(gòu)成成分和構(gòu)造模式,做成包含(構(gòu)成成分-構(gòu)成成分類型)對(duì)的領(lǐng)域詞典作為構(gòu)造特征集,并將該構(gòu)造特征集充實(shí)到上文調(diào)查所得的構(gòu)造特征集中,形成了構(gòu)造特征要素庫(kù)Kf,如表4所示。Kf作為包含英文武器裝備名構(gòu)造規(guī)律的知識(shí)庫(kù)參與到對(duì)武器裝備名的識(shí)別中。
本文采用三元素標(biāo)注集:{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一個(gè)英文武器裝備名的起始部分,“I-MILIQP”表示英文武器裝備名的非起始部分,“O”表示非英文武器裝備名成分。
只有對(duì)文本當(dāng)中一個(gè)完整武器裝備名的各個(gè)部分全部標(biāo)注正確并且對(duì)該武器裝備名的后一個(gè)其他成分沒(méi)有標(biāo)注為“I-MILIQP”,本文才視為對(duì)該武器裝備名識(shí)別成功,部分標(biāo)注正確或標(biāo)注超出了該武器裝備名的界限則視為標(biāo)注失敗。
為了更加全面地描述實(shí)驗(yàn)效果,本文設(shè)置了六個(gè)評(píng)價(jià)指標(biāo),各個(gè)指標(biāo)定義如表5所示。
表5 評(píng)價(jià)指標(biāo)
其中:整體標(biāo)注的正確率Pw用來(lái)評(píng)價(jià)模型對(duì)整體文本的標(biāo)注情況;武器裝備名識(shí)別的準(zhǔn)確率Pm與召回率Rm用來(lái)評(píng)價(jià)模型對(duì)武器裝備名的識(shí)別情況;F值則用來(lái)綜合評(píng)價(jià)模型對(duì)武器裝備名的識(shí)別情況;為了排除模型對(duì)某一特定武器裝備名多次識(shí)別成功或失敗所造成的對(duì)總體評(píng)價(jià)指標(biāo)的影響,本文設(shè)置了武器裝備名type識(shí)別的召回率Rtype這一指標(biāo),在這一指標(biāo)下,對(duì)同一武器裝備名的多次識(shí)別成功只計(jì)算一次;而未登錄詞識(shí)別的召回率Ruk則用來(lái)評(píng)價(jià)模型對(duì)未登錄詞的泛化能力。
4.3.1預(yù)訓(xùn)練詞向量與特征向量模型的參數(shù)設(shè)置
本文采用Google在2013年開發(fā)的Word2vec對(duì)來(lái)自維基百科的大規(guī)模無(wú)監(jiān)督語(yǔ)料Cwiki進(jìn)行訓(xùn)練。本文采用了CBOW模型,模型窗口大小設(shè)置為5,即用當(dāng)前詞的上下文各五個(gè)詞共同表示當(dāng)前詞;模型的詞頻閾值設(shè)置為1,即對(duì)語(yǔ)料中每一個(gè)出現(xiàn)的詞都賦給一個(gè)詞向量,由此得到了一個(gè)40萬(wàn)詞級(jí)的詞向量集。對(duì)于特征向量的訓(xùn)練,本文采取了與詞向量訓(xùn)練相同的參數(shù)設(shè)置,得到了規(guī)模為140的特征向量集。
對(duì)于向量維度的選擇,本文對(duì)詞向量分別設(shè)置了{(lán)50, 100, 200}三個(gè)維度,對(duì)特征向量分別設(shè)置了{(lán)10, 25, 50}三個(gè)維度。本文將詞向量與特征向量的三個(gè)不同維度進(jìn)行組合,通過(guò)多次實(shí)驗(yàn),得到了詞向量與特征向量的最佳維度組合:50維詞向量+10維特征向量。
4.3.2Bi-LSTM+CRF模型的參數(shù)設(shè)置
本文的輸入層維度為相應(yīng)的輸入向量的維度(單獨(dú)使用詞向量為50維,使用聯(lián)合向量為60維),隱藏層的維度為128維。
受文獻(xiàn)[3,10]的啟發(fā),考慮到Adam優(yōu)化算法能夠在得到較好訓(xùn)練效果的前提下更快地收斂,因此本文采用Adam函數(shù)作為模型的優(yōu)化算法。其中,learning rate設(shè)置為0.01,gradient clip設(shè)置為5.0。
為了避免過(guò)擬合現(xiàn)象,在訓(xùn)練過(guò)程中進(jìn)行了正則化處理,設(shè)置dropout參數(shù)為0.5,即對(duì)每次輸入的訓(xùn)練數(shù)據(jù)隨機(jī)去除50%,實(shí)驗(yàn)結(jié)果也證明了進(jìn)行正則化處理的有效性。
此外,將訓(xùn)練的batch size設(shè)置為32,Bi-LSTM模型的輸入步長(zhǎng)(即一次訓(xùn)練輸入的詞數(shù))設(shè)置為訓(xùn)練數(shù)據(jù)集中的最長(zhǎng)句子長(zhǎng)度Lmax。對(duì)于長(zhǎng)度不足Lmax的句子,在訓(xùn)練時(shí)將其通過(guò)零向量補(bǔ)全,使得其長(zhǎng)度達(dá)到Lmax。因此,本文的訓(xùn)練是對(duì)每一句話進(jìn)行的,這樣做的目的是為了更好地利用每一個(gè)句子的語(yǔ)義,為識(shí)別提供支持。
4.3.3CRF模型的特征選取
在自然語(yǔ)言處理領(lǐng)域,CRF模型被廣泛使用在命名實(shí)體識(shí)別領(lǐng)域,其主要思想是將命名實(shí)體識(shí)別任務(wù)轉(zhuǎn)化為線性序列標(biāo)注任務(wù)。在實(shí)際使用中,模型使用的特征基本限定為詞形、詞性等淺層語(yǔ)言特征。但在特定領(lǐng)域中,詞性這樣的淺層語(yǔ)言學(xué)特征往往不能反映更深層的領(lǐng)域特征,從而造成了關(guān)鍵識(shí)別特征信息缺失,影響模型的識(shí)別效果。
本文通過(guò)對(duì)英文武器裝備名的內(nèi)部構(gòu)成特征進(jìn)行調(diào)查,形成了如表1所示的武器裝備名構(gòu)造特征要素庫(kù),從而可以將武器裝備名更深層次的領(lǐng)域特征融入到模型當(dāng)中。本文使用CRF++開源工具包進(jìn)行實(shí)驗(yàn),并對(duì)CRF與Bi-LSTM+CRF模型的實(shí)驗(yàn)結(jié)果進(jìn)行了比較。
4.4.1實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)分為兩個(gè)部分,第一部分分別使用輸入為詞向量V的Bi-LSTM+CRF模型和輸入為聯(lián)合向量Vunion的Bi-LSTM+CRF模型對(duì)武器裝備名進(jìn)行了識(shí)別。通過(guò)將輸入為詞向量V的Bi-LSTM+CRF模型和輸入為聯(lián)合向量Vunion的Bi-LSTM+CRF模型的識(shí)別效果進(jìn)行對(duì)比,證明特征向量對(duì)于模型識(shí)別效果的提升作用。
實(shí)驗(yàn)第二部分是將構(gòu)造特征要素庫(kù)Kf中每個(gè)詞對(duì)應(yīng)的特征要素類型作為CRF模型的特征標(biāo)簽來(lái)對(duì)武器裝備名進(jìn)行識(shí)別。對(duì)于不在特征要素庫(kù)中的詞,則其特征標(biāo)簽為“O”。通過(guò)比較融入了英文武器裝備名特征要素的CRF模型與融入了英文武器裝備名特征向量的Bi-LSTM+CRF模型的識(shí)別效果,發(fā)現(xiàn)Bi-LSTM+CRF模型并不是在任何情況下都優(yōu)于CRF模型。
4.4.2實(shí)驗(yàn)結(jié)果與分析
本文得到的實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果比較
對(duì)于第一部分實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果可以看出,Bi-LSTM+CRF模型在絕大多數(shù)指標(biāo)上都相較于CRF模型都有著較大提升,這說(shuō)明使用詞向量的Bi-LSTM+CRF模型對(duì)武器裝備名識(shí)別的有效性。其中:武器裝備名識(shí)別準(zhǔn)確率Pm相較于CRF模型有0.69%的下降,但召回率卻提升了超過(guò)30.97%;在Rtype指標(biāo)上,Bi-LSTM+CRF模型也相較于CRF模型有著18.19%的提升,這說(shuō)明前者有著較強(qiáng)的類型泛化能力;此外,Bi-LSTM+CRF模型對(duì)未登錄武器裝備名識(shí)別的召回率Ruk的提升是根本性的,達(dá)到了45.08%,這進(jìn)一步證明使用詞向量的Bi-LSTM+CRF模型較強(qiáng)的類型泛化能力。綜合來(lái)看,使用詞向量的Bi-LSTM+CRF模型相較于CRF模型有著相當(dāng)?shù)奶嵘Ч?。這一方面是Bi-LSTM+CRF模型本身的優(yōu)勢(shì),另一方面也得益于包含了一定語(yǔ)義信息的詞向量。這兩個(gè)因素共同作用,使得Bi-LSTM+CRF模型相對(duì)CRF模型而言有了一個(gè)根本性的提升。
在Bi-LSTM+CRF模型內(nèi)部來(lái)看,使用聯(lián)合向量使得Pm提升了近3.84%,Rm提升了2.05%,這證明了特征向量的有效性,也證明單純的詞向量并不能容納一個(gè)詞全部的語(yǔ)義信息,詞向量對(duì)特定領(lǐng)域特征的描述還有欠缺。此外,使用聯(lián)合向量也使得Ruk有了超過(guò)5%的提升,這證明隨著特征向量的加入,模型對(duì)未登錄武器裝備名的泛化能力也隨之提升。如:由于“F-35A”未在訓(xùn)練文本中出現(xiàn),屬于未登錄武器裝備名,單純使用詞向量并沒(méi)有將該武器裝備名識(shí)別出來(lái),但當(dāng)加入該詞條對(duì)應(yīng)的特征向量后,該詞條就被成功地識(shí)別了出來(lái),這樣的例子還有“P-8A”、“Bradley fighting vehicles”等;而“stealthy(隱形的)”由于經(jīng)常形容戰(zhàn)斗機(jī),因此單純使用詞向量時(shí),模型錯(cuò)誤地將該詞條識(shí)別為武器裝備名,但當(dāng)加入該詞對(duì)應(yīng)的特征向量后,該詞就沒(méi)有被識(shí)別為武器裝備名,類似的例子還有“hardened”等。
對(duì)于第二部分實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果可以看到,加入領(lǐng)域特征標(biāo)簽的CRF模型在各個(gè)指標(biāo)上均好于加入了領(lǐng)域特征向量的Bi-LSTM+CRF模型,其中在召回率上CRF模型超出Bi-LSTM+CRF模型16.77%,在對(duì)未登錄武器裝備名識(shí)別的召回率上CRF模型更是超出Bi-LSTM+CRF模型31.43%。這樣的實(shí)驗(yàn)結(jié)果顯示了CRF模型對(duì)稀疏特征的利用遠(yuǎn)勝Bi-LSTM+CRF模型。武器裝備名在語(yǔ)料中分布稀疏,這導(dǎo)致武器裝備名的領(lǐng)域特征要素在文本中也比較稀疏,這樣的特點(diǎn)就要求模型能夠充分利用一些稀疏特征來(lái)進(jìn)行識(shí)別,尤其是在語(yǔ)料較少的情況下,更要求模型能充分利用稀疏特征。實(shí)驗(yàn)結(jié)果表明,雖然Bi-LSTM+CRF模型在很多方面超過(guò)了CRF模型,但在利用稀疏特征這一方面,Bi-LSTM+CRF模型還有待進(jìn)一步提升。
本文首先對(duì)抽取自維基百科的6 402條英文武器裝備名進(jìn)行了構(gòu)造模式特征分析,得到了武器裝備名的構(gòu)造特征要素庫(kù),并在來(lái)自維基百科的大規(guī)模無(wú)監(jiān)督語(yǔ)料上預(yù)訓(xùn)練了詞向量與特征向量。在此基礎(chǔ)上,本文設(shè)計(jì)了兩部分實(shí)驗(yàn),分別證明了特征向量對(duì)Bi-LSTM+CRF模型的提升和CRF模型在對(duì)稀疏特征的利用上要優(yōu)于Bi-LSTM+CRF模型。同時(shí)也證明了詞向量難以表示更深層次的領(lǐng)域知識(shí),對(duì)特定領(lǐng)域進(jìn)行專門的語(yǔ)言學(xué)研究具有很大的必要性。
本文更大的意義在于:研究證實(shí)了對(duì)于很難獲取大規(guī)模語(yǔ)料的特定領(lǐng)域而言,可以通過(guò)對(duì)該領(lǐng)域領(lǐng)域知識(shí)的研究,并將該領(lǐng)域知識(shí)加入到統(tǒng)計(jì)模型當(dāng)中,以對(duì)領(lǐng)域知識(shí)研究的深度來(lái)彌補(bǔ)語(yǔ)料的不足,從而提高模型的類型泛化能力和約束能力,獲得更好的識(shí)別效果。