国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練模型的軍事領(lǐng)域命名實體識別研究

2022-10-27 14:52:52童昭王露笛朱小杰杜一
關(guān)鍵詞:語料命名軍事

童昭,王露笛,朱小杰,杜一

中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心,北京 100083

引言

近年來,隨著計算機(jī)技術(shù)的不斷發(fā)展,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法為部隊信息化與智能化建設(shè)提供了一種有效的手段。知識圖譜[1]作為描述真實世界中實體和概念以及他們之間關(guān)系的一種工具,能夠?qū)?fù)雜、海量的數(shù)據(jù)整合在一起,利用圖譜中的關(guān)系和節(jié)點描述語義關(guān)聯(lián)信息。知識圖譜中的實體是知識庫中的基本單位,同時也是構(gòu)建圖譜的核心要素,通過命名實體識別任務(wù)中包含的實體,為知識圖譜構(gòu)建提供知識支撐。為了從海量的信息中抽取有價值的數(shù)據(jù),發(fā)掘隱藏的應(yīng)用價值,通常需要用到自然語言處理(Natural Language Processing,NLP)技術(shù),而NLP 中應(yīng)用最廣泛的就是命名實體識別(Named Entity Recognition,NER)技術(shù)。命名實體識別是指從非結(jié)構(gòu)的文本數(shù)據(jù)集中抽取出結(jié)構(gòu)化的信息,并分類到預(yù)先定義的,如人名、地名、組織機(jī)構(gòu)名等特定類別中。傳統(tǒng)的命名實體識別任務(wù)主要分為三大類(實體類、時間類和數(shù)字類),或者更具體的七小類(人名、地名、機(jī)構(gòu)名、地點、時間、日期、貨幣和百分比)[2]。命名實體識別是實現(xiàn)信息抽取、搜索推薦等自然語言處理中的基礎(chǔ)任務(wù),命名實體的準(zhǔn)確識別可以促進(jìn)智能問答、知識圖譜構(gòu)建等下游任務(wù)的研究。本文的研究目標(biāo)是以自建的軍事語料作為數(shù)據(jù)支撐,以準(zhǔn)確高效地識別軍事命名實體為目標(biāo),利用深度學(xué)習(xí)的算法作為技術(shù)手段,為后續(xù)戰(zhàn)場信息情報獲取、知識圖譜構(gòu)建等提供支持,進(jìn)一步加速軍事作戰(zhàn)指揮的智能化轉(zhuǎn)型。

軍事命名實體識別涉及的實體范疇遠(yuǎn)遠(yuǎn)不止傳統(tǒng)命名實體識別的三大類和七小類,由于軍事命名實體的構(gòu)成有其自己獨(dú)特的命名法則和規(guī)律,對于這類實體的識別需要同時兼顧語言的規(guī)律性和軍事特征,因此本文的研究重點是識別帶有軍事領(lǐng)域特色的實體。相較于開放式傳統(tǒng)三大類和七小類的實體識別,需要構(gòu)建模型識別特定的軍事領(lǐng)域?qū)嶓w。本文將識別的實體分為五類:組織機(jī)構(gòu)、型號、行為、起飛地、目的地。軍事實體識別的任務(wù)可以描述為:首先,將軍事文本語料進(jìn)行預(yù)處理;然后,從中提取句子特征;最后,將特征輸入到實體識別模型中,從而識別出具有特定意義的軍事實體。

通過調(diào)研已有文獻(xiàn),軍事領(lǐng)域的實體識別的通常做法是借鑒通用領(lǐng)域的主流方法和思想,再根據(jù)軍事語料中識別實體的特點進(jìn)行一些適應(yīng)性的改進(jìn)。根據(jù)選取主流方法的不同,可以分為:基于模板規(guī)則匹配的方法[2]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]和基于深度學(xué)習(xí)的方法[4]。近年來,鑒于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和表達(dá)能力,越來越多的研究者開始開展基于深度神經(jīng)網(wǎng)絡(luò)的研究,通用做法之一是將神經(jīng)網(wǎng)絡(luò)模型與CRF 結(jié)合。由于NER 任務(wù)在自然語言處理中屬于序列標(biāo)注模型,所以通常使用BiLSTM[5]作為序列標(biāo)注模型的特征提取網(wǎng)絡(luò)。在處理中文文本時,為了避免分詞造成的語義歧義,常采用以字符向量作為輸入序列。對軍事領(lǐng)域的命名實體識別的優(yōu)化通常是在特征處理階段,例如加入字或者詞的相關(guān)特征即可對識別效果有較大的提升[6]。而對于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,文獻(xiàn)[7]提出一種層疊式的識別方法:該方法首先結(jié)合軍事目標(biāo)及屬性特點,采用樹結(jié)構(gòu)定義層級式目標(biāo)及屬性實體、活動要素及屬性實體,細(xì)化實體類別粒度,依據(jù)層級式特點對語料進(jìn)行標(biāo)注,然后采用標(biāo)簽約束轉(zhuǎn)移矩陣優(yōu)化后的BiLSTM-CRF 模型進(jìn)行實體識別,實現(xiàn)細(xì)粒度更高的實體與關(guān)聯(lián)屬性識別。除此之外,有研究把長短期記憶網(wǎng)絡(luò)模型(Long Short Term Memory,LSTM)結(jié)構(gòu)替換為更容易訓(xùn)練的門循環(huán)控制模型(Gate Recurrent Unit,GRU)結(jié)構(gòu)[8],同時研究人員加入注意力機(jī)制[9],在一定程度上提升了神經(jīng)網(wǎng)絡(luò)模型的識別性能。

本文針對中文命名實體識別準(zhǔn)確率低的問題,提出一種BERT-BiLSTM-CRF 的模型。首先,本文未使用傳統(tǒng)的Word2vec 算法生成詞向量的表示,而使用表達(dá)能力更強(qiáng)的BERT 模型生成詞向量的特征表示,將其得到的表示序列輸入BiLSTM 網(wǎng)絡(luò),獲得上下文的全局特征表示,最終經(jīng)過CRF 模塊進(jìn)行最優(yōu)標(biāo)簽序列的提取。本文在自建的開源軍事語料數(shù)據(jù)集進(jìn)行實驗,驗證本文提出的方法的有效性,同時加入多種baseline 實驗進(jìn)行對比分析,結(jié)果表明,在命名實體識別任務(wù)中,本文提出的BERT 模型方法在一定程度上解決了邊界劃分問題,同時解決了在數(shù)據(jù)集不足的情況下實體識別任務(wù)表現(xiàn)不佳的問題。

1 基于BERT 模型的軍事命名實體識別模型

1.1 實體分類

由于軍事語料不同于傳統(tǒng)通用的命名實體識別,所以首先需要建立軍事領(lǐng)域內(nèi)的命名實體的分類體系。結(jié)合開源語料數(shù)據(jù)情況并加入專家經(jīng)驗與知識,本文將識別的目標(biāo)實體分為五類:國家、型號、行為、起飛地、目的地。針對軍事業(yè)務(wù)實際需求,在對通用性與軍事領(lǐng)域數(shù)據(jù)的特點深入分析的基礎(chǔ)上,建立了能夠準(zhǔn)確、全面描述各類型軍事知識的實體表征模型,可對復(fù)雜多樣、動態(tài)演化、時空性強(qiáng)的軍事知識要素進(jìn)行表征。五類軍事領(lǐng)域目標(biāo)實體具體的類型名稱、代號和示例如表1所示。

表1 目標(biāo)實體分類Table 1 Target Entity Classification

五類實體中,組織機(jī)構(gòu)指的是不同國家的軍種簡稱,如美空軍、美海軍;型號指的是采取行為的主體作戰(zhàn)型號,如KC-135R 加油機(jī);行為是指在每一條非結(jié)構(gòu)化的軍事語料中的主體所采取的行動,如返回基地;起飛地是指主體起飛地點,如南海;目的地是指主體最終所要抵達(dá)的終點,如沖繩嘉手納基地。

1.2 模型架構(gòu)

本研究中模型構(gòu)建的思路是使用預(yù)訓(xùn)練語言模型獲取中文單字的字向量,利用字向量中的語言規(guī)律和語義知識輔助軍事實體的識別,以提升實體識別的性能。同時融合字的含邊界詞性特征,進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸入。

本文結(jié)合BERT 預(yù)訓(xùn)練模型[10]的上下文深層語義編碼、BiLSTM 神經(jīng)網(wǎng)絡(luò)的序列解碼和CRF 的序列標(biāo)注,構(gòu)建BERT-BiLSTM-CRF 實體識別框架,整體框架結(jié)構(gòu)如圖1所示,該框架以文本中的字序列、語義塊、字位置及其詞性序列為輸入,輸出為每一個字對應(yīng)的目標(biāo)類型的標(biāo)簽序列。下文依次對模型的各個模塊進(jìn)行詳細(xì)分析。

圖1 模型架構(gòu)圖Fig.1 Model architecture

1.2.1 BERT 層

傳統(tǒng)使用Word2vec 的方式去訓(xùn)練詞向量,雖然訓(xùn)練得到的向量可以表示詞語之間的關(guān)系,但這種方式的一個缺點是詞和詞之間的表示是一一對應(yīng)的靜態(tài)關(guān)系,無法根據(jù)上下文的語境對輸入序列進(jìn)行動態(tài)的表示,也正因為此,使用Word2vec 得到的詞向量會對NER 效果產(chǎn)生重要影響。

BERT 模型作為深度雙向語言表征模型,被視為一種替代靜態(tài)詞向量表示的方案,它通過利用維基百科等大規(guī)模的語料數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)的訓(xùn)練,使用一種稱為雙向的Transformer 編碼結(jié)構(gòu),使得模型能夠獲取輸入文本中的語義信息,接下來對BERT模型做詳細(xì)研究分析。

1.2.1.1 輸入和輸出層

根據(jù)下游任務(wù)的不同,BERT 模型的輸入序列可以單句形式出現(xiàn),也可以語句對的形式成對出現(xiàn)。在本文中,BERT 的輸入為具有連續(xù)語義的自然文本。在BERT 中首先會對輸入文本進(jìn)行預(yù)處理,在文本開頭和句子之間分別插入[CLS]和[SEP]符號。其次,對于最終的向量表示,BERT 使用字符的嵌入向量、分割向量和位置向量疊加得到,其中字符的嵌入向量是輸入序列中每個字符本身的向量表示;分割向量用于區(qū)分每一個字符屬于句子A 還是句子B。如果輸入序列只有一個句子,就只是用EA 表示;位置向量編碼了輸入中每個字符出現(xiàn)的位置。這些向量均在訓(xùn)練過程中通過學(xué)習(xí)得到。對于BERT 模型的輸出同樣也有兩種形式,一種是字符級別的向量表示,對應(yīng)著輸入中的每個字符;另一種輸出形式是句子級別的語義向量,即整個句子的語義表示。在本文的研究中,BERT 模型的輸出采用了第一種形式,即輸入序列的每個字符都有對應(yīng)的向量表示,該輸出接著作為輸入傳遞給后序模塊進(jìn)行進(jìn)一步的處理。

1.2.1.2 Transformer 編碼層

在BERT 模型中使用了多層雙向的Transformer編碼器對輸入的序列數(shù)據(jù)進(jìn)行編碼,其模型結(jié)構(gòu)圖如圖2 所示:其中每個Trm對應(yīng)一個單元的編碼器,E1,E2,...,En是模型的輸入,為字符向量,T1,T2,..,Tn為模型的輸出向量。

圖2 BERT 預(yù)訓(xùn)練語言模型Fig.2 BERT Pre-trained language model

從結(jié)構(gòu)來說,BERT 是將多個Transformer 編碼器堆疊進(jìn)行特征提取,而Transformer 編碼器是由Self-Attention 層和前向神經(jīng)網(wǎng)絡(luò)組成。Self-Attention的核心計算公式如下所示:

公式中Q,K,V是由矩陣Wq,WK,WV相乘可得,而Wq,WK,WV為可學(xué)習(xí)的模型訓(xùn)練參數(shù)。舉例來說,當(dāng)計算某個詞語對其他詞語的重要度時,讓當(dāng)前單詞的Q向量與其余單詞的K向量進(jìn)行點積數(shù)學(xué)運(yùn)算。對點積計算的結(jié)果使用這樣做的目的是減少語句長短對語句重要度的影響,同時也為了讓訓(xùn)練時梯度更加穩(wěn)定。隨后將計算得到的結(jié)果分值經(jīng)過softmax層得到一維的概率向量。使用Soft-Attention機(jī)制的意義是不僅可以完成對上下文的重要度進(jìn)行編碼,同時解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)長依賴的問題,加速了模型的計算能力。

基于上述的分析,我們可以總結(jié)出BERT 模型具有以下優(yōu)點:

(1)BERT 在進(jìn)行詞向量表示的過程中充分結(jié)合編碼詞的上下文,克服了目前大多數(shù)詞向量生成機(jī)制的單向性問題。

(2)使用基于Transformer 作為特征提取器,底層使用Attention 機(jī)制編碼,增強(qiáng)了模型的并行計算能力,縮短了訓(xùn)練時間。

1.2.2 BiLSTM 層

BiLSTM 層是由一個前向LSTM 網(wǎng)絡(luò)和后向LSTM 組成,相比于LSTM,BiLSTM 可以分別獲得兩個方向的上下文特征。在得到BERT 層的輸出后,BiLSTM 層會將句子的字向量序列作為各個時間的輸入,通過反向傳播算法,模型自動提取句子中的語義特征,學(xué)習(xí)符合上下文語境語義信息,softmax函數(shù)給出當(dāng)前單詞對預(yù)設(shè)標(biāo)簽的標(biāo)簽概率?;贐iLSTM 的上下文特征抽取模型的結(jié)構(gòu)如圖3 所示。

圖3 BiLSTM 模型架構(gòu)圖Fig.3 BiLSTM architecture

LSTM 層的主要結(jié)構(gòu)可以表示公式:

其中,σ 是sigmod函數(shù),i、f、o和c分別表示輸入門、遺忘門、輸出門和記憶單元;?是點積運(yùn)算,W和B代表輸入門、遺忘門和輸出門的權(quán)重矩陣和偏置向量;Xt指的是t時刻的輸入,同時是對于表示層的輸出。

1.2.3 CRF 層

在神經(jīng)網(wǎng)絡(luò)的輸出層,一般是用softmax函數(shù),而對NER 這種序列任務(wù)建模時,CRF 層的作用是對BiLSTM 網(wǎng)絡(luò)的輸出進(jìn)行編碼和規(guī)約,得到具有最大概率的合理預(yù)測序列。CRF 使用的是條件隨機(jī)場,是一種根據(jù)輸入序列預(yù)測輸出序列的判別式模型。給定輸入X,輸出預(yù)測結(jié)果y的計算公式如下所示:

其中,Ayi, yi+1表示從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的概率值,yi為y中的元素。pi,y表示第i個詞語標(biāo)記為yi的概率值。在給定輸入X情況下,輸出預(yù)測結(jié)果y的概率公式為:

其中,x表示能夠組成的所有標(biāo)簽,y表示真實標(biāo)簽。模型的目標(biāo)是最大化p(y|X),在訓(xùn)練時通過求解似然函數(shù)如下:

在訓(xùn)練時,根據(jù)公式最大化得分結(jié)果:

2 實驗結(jié)果和分析

2.1 實驗數(shù)據(jù)

針對軍事領(lǐng)域的命名實體識別問題,本文提出了一種基于預(yù)訓(xùn)練模型BERT 的軍事領(lǐng)域命名實體識別方法。本文針對軍事領(lǐng)域中的軍事情報數(shù)據(jù),以開源數(shù)據(jù)作為訓(xùn)練語料。對組織機(jī)構(gòu)、型號、行為、起飛地、目的地等五類目標(biāo)進(jìn)行識別,驗證本文所提出模型的正確性與有效性。

目前由于軍事語料領(lǐng)域的特殊性,并未有開源的軍事語料以供訓(xùn)練。同時在軍事語料領(lǐng)域缺乏統(tǒng)一的標(biāo)注方法,本文利用網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建訓(xùn)練數(shù)據(jù)集,采用開源的工具Doccano[18]和專家知識進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注,構(gòu)建中文軍事領(lǐng)域開源情報訓(xùn)練數(shù)據(jù)集。

本實驗利用爬蟲工具從公開權(quán)威的軍事網(wǎng)站上搜集得到開源軍事新聞?wù)Z料,來源包括國防科技信息網(wǎng)、網(wǎng)易軍事、環(huán)球網(wǎng)軍事、新浪軍事等。從新聞網(wǎng)頁上采集語料時以“軍情動態(tài)”、“軍事速遞”為主題詞,在爬取數(shù)據(jù)完成后,首先,對文本數(shù)據(jù)中不符合主題的“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)預(yù)處理的操作,以文本的形式保留在本地磁盤。然后,按照統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行“數(shù)據(jù)治理”,具體做法是通過正則表達(dá)式將爬蟲獲取后與網(wǎng)頁相關(guān)的符號、標(biāo)記等刪除,語料爬取完成后,需要對良莠不齊的文本進(jìn)行分辨,篩選不符合主題的文本將其去除,選取其中高質(zhì)量、相關(guān)度較高的文本,以純文本的格式保存至本地,按照統(tǒng)一的規(guī)范進(jìn)行預(yù)處理,通過代碼編寫正則表達(dá)式將文本內(nèi)容中無用的網(wǎng)頁符號、網(wǎng)頁標(biāo)簽和特殊字符剔除掉,將繁體字轉(zhuǎn)換為正常的簡體中文字符,以及統(tǒng)一全半角字符,將文本按句進(jìn)行拆分,每一行代表一句,同時要求長度不得超過LSTM 設(shè)置的最大長度。

由于軍事領(lǐng)域的命名實體標(biāo)注尚未確定統(tǒng)一的標(biāo)準(zhǔn),故本文實驗對已構(gòu)建的小量的數(shù)據(jù)集采取人工標(biāo)注并校正的方法。數(shù)據(jù)的標(biāo)注采用BMEO 四段標(biāo)記法:對于每個實體,將其第一個字標(biāo)記為“B-實體類型”,非首位字符標(biāo)記為“M-實體類型”,結(jié)尾的標(biāo)記為“I-實體類型”,對于無關(guān)字一律標(biāo)記為O。本文實驗需要識別的軍事實體共包括5種類型,數(shù)據(jù)經(jīng)過BMIO 標(biāo)注處理后共分15 類,如表2 所示:(B-ORG,M-ORG,E-ORG,B-VER,M-VER,E-VER,B-ACT,M-ACT,E-ACT,B-TAF,M-TAF,E-TAF,B-DES,M-DES,E-DES,O,)。同時為保證訓(xùn)練時采用的長度一致(均為256×1維),因此需要額外添加了一個占位符

表2 目標(biāo)實體分類Table 2 Target entity Classification

2.2 結(jié)果評價指標(biāo)

實驗采用自然語言處理領(lǐng)域3個通用的評測指標(biāo),準(zhǔn)確率P、召回率R 和F1 值(F-score),其中F1 值可以體現(xiàn)整體的測試結(jié)果,計算公式如下:

最終采用以上3種性能評測指標(biāo)的加權(quán)平均值作為實驗的性能評測指標(biāo)。

2.3 實驗設(shè)置

本文基于BERT-BiLSTM-CRF 的實體識別模型是使用BERT 進(jìn)行語料字符級別特征向量的獲取,使用BiLSTM 針對字向量進(jìn)行上下文的特征提取,借文本中長依賴的問題,最后使用CRF 層進(jìn)行輸出標(biāo)簽的規(guī)約限制,最終獲得全局的最優(yōu)標(biāo)簽序列?;贐ERT-BiLSTM-CRF 的參數(shù)設(shè)置如表3 所示。

表3 參數(shù)配置表Table 3 Parameter Configuration

2.4 實驗結(jié)果和分析

為驗證模型在軍事語料領(lǐng)域識別的正確性與有效性,在實驗階段設(shè)計了對比實驗,在相同數(shù)據(jù)集上針對不同的模型選取合適的模型超參數(shù)進(jìn)行微調(diào)。選取的對比模型有:

CRF:本文以文獻(xiàn)[17]提出的基于CRF 的面向軍事文本的命名實體識別模型作為基線對比實驗,建立融合詞特征、詞性特征、英文字母和短橫線以及數(shù)字的組合特征、左右邊界詞特性和中心詞特性的多種特征模板,使用公開的CRF++0.58 訓(xùn)練工具進(jìn)行模型的訓(xùn)練和效果預(yù)測。

HMM:本文以文獻(xiàn)[11]提出的基于HMM 作為軍事命名實體識別的對比實驗,構(gòu)建狀態(tài)集合、觀測集合以及狀態(tài)轉(zhuǎn)移矩陣,并使用開源的Scikit-Learn 開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM:BiLSTM[12]的網(wǎng)絡(luò)模型是使用雙向的LSTM 網(wǎng)絡(luò)構(gòu)建特征提取器,并使用開源的Scikit-Learn[13]開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM-CRF:本文以文獻(xiàn)[14]提出的基于BiLSTM-CRF 網(wǎng)絡(luò)模型的結(jié)構(gòu)作為對比實驗。采用Google 開源的詞向量工具Word2vec[15]方法訓(xùn)練的字符界別的特征向量,通過在字嵌入層上進(jìn)行Dropout處理來防止訓(xùn)練模型過擬合,并將該字向量的結(jié)果作為BiLSTM 網(wǎng)絡(luò)模型的輸入,得到基于上下文的特征矩陣,最后將特征矩陣交由CRF 模塊進(jìn)行編碼與規(guī)約,最終得到基于全局的最優(yōu)標(biāo)簽序列。

2.4.1 對比實驗結(jié)果分析

從實驗結(jié)果,如表4 和圖4 可以得到,本文提出的基于BERT-BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)的軍事命名實體識別模型優(yōu)于其他4 種實體識別模型。相較于HMM 和CRF 模型,BiLSTM 模型可以學(xué)到更多的語義特征信息。本文提出的模型相較與CRF 模型在F 值上提高11.04%,召回率提高10.85%,精準(zhǔn)率提高8.32%。相較于不使用BERT的BiLSTM-CRF模型,本文提出的模型在F 值上提高了1.87%,召回率提高了1.71%,精準(zhǔn)率提高了2.64%。實驗表明,實體識別任務(wù)中經(jīng)常會出現(xiàn)標(biāo)簽之間結(jié)果不成立的現(xiàn)象,而CRF 中的轉(zhuǎn)移矩陣能很好地解決標(biāo)簽之間的順序問題。除此之外,BiLSTM-CRF 比CRF 具有更加優(yōu)異的性能表現(xiàn),這是因為BiLSTM 考慮了輸入信息之間的雙向語義依賴,可以從前后兩個方向來捕捉輸入信息的特征,對于實體識別這種序列標(biāo)注問題具有更高的適用性,而結(jié)合字級別的特征向量僅考慮字的特征而忽略了結(jié)合上下文進(jìn)行實體識別的不足,本文模型結(jié)合了字特征、句子特征、位置特征生成字向量,并使用Transformer[16]訓(xùn)練字向量,充分考慮上下文信息對實體的影響,實驗取得了更優(yōu)的實體識別效果。

表4 實驗結(jié)果表Table 4 Experiment Result

圖4 實驗結(jié)果柱狀圖Fig.4 Experimental result graph

3 展望與下一步工作

本文以軍事領(lǐng)域目標(biāo)實體為識別對象,預(yù)先設(shè)定國家、型號、行為、起飛地、目的地等五類需要預(yù)測的目標(biāo)標(biāo)簽,提出一種將預(yù)訓(xùn)練語言模型BERT和BiLSTM-CRF 模型相結(jié)合應(yīng)用于軍事語料的命名實體識別的模型。BERT 模型利用大規(guī)模的語料進(jìn)行,不同于傳統(tǒng)的靜態(tài)語言模型,BERT 模型可以根據(jù)實際的業(yè)務(wù)場景以及上下文生成動態(tài)的中文詞向量,然后與經(jīng)典的BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行堆疊,生成對預(yù)先定義的五類實體的預(yù)測識別。由于本文使用的是在維基百科和書籍語料庫中進(jìn)行預(yù)訓(xùn)練的BERT 的雙向結(jié)構(gòu)和動態(tài)向量表征,能有效地學(xué)習(xí)更豐富和準(zhǔn)確的語義信息,無需人工定義的特征,因此可以提升識別模型的上下文雙向特征抽取能力,在相對較少的標(biāo)注語料成本上也能獲得效果的提升。將人工收集的軍事演習(xí)領(lǐng)域小型語料庫經(jīng)過預(yù)處理作為本次實驗的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),通過實驗證明了該方法取得了比其他幾種通用方法更好的效果,在一定程度上解決了命名實體的邊界劃分問題以及實體識別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問題。未來,會考慮使用在軍事領(lǐng)域的語料預(yù)訓(xùn)練的BERT 模型,進(jìn)一步優(yōu)化任務(wù)表現(xiàn),提高在軍事命名實體識別領(lǐng)域的性能。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
語料命名軍事
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
軍事幽默:局
軍事文摘(2009年9期)2009-07-30 09:40:44
軍事
軍事幽默
軍事文摘(2009年5期)2009-06-30 01:01:04
丰城市| 玛多县| 大荔县| 布拖县| 福建省| 嘉义县| 烟台市| 噶尔县| 溧水县| 平阴县| 剑河县| 涞源县| 衡阳县| 常德市| 射洪县| 扶绥县| 安宁市| 南召县| 兴业县| 神木县| 华蓥市| 阳谷县| 分宜县| 琼中| 保靖县| 桐城市| 西盟| 郧西县| 德州市| 运城市| 鹤山市| 镇坪县| 阿尔山市| 昌吉市| 莱芜市| 霸州市| 五河县| 莲花县| 胶南市| 闽侯县| 青冈县|