基于預(yù)訓(xùn)練模型的軍事領(lǐng)域命名實體識別研究

2022-10-27 14:52:52童昭王露笛朱小杰杜一

數(shù)據(jù)與計算發(fā)展前沿 2022年5期

童昭，王露笛，朱小杰，杜一

中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心，北京 100083

引言

近年來，隨著計算機(jī)技術(shù)的不斷發(fā)展，以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法為部隊信息化與智能化建設(shè)提供了一種有效的手段。知識圖譜[1]作為描述真實世界中實體和概念以及他們之間關(guān)系的一種工具，能夠?qū)?fù)雜、海量的數(shù)據(jù)整合在一起，利用圖譜中的關(guān)系和節(jié)點描述語義關(guān)聯(lián)信息。知識圖譜中的實體是知識庫中的基本單位，同時也是構(gòu)建圖譜的核心要素，通過命名實體識別任務(wù)中包含的實體，為知識圖譜構(gòu)建提供知識支撐。為了從海量的信息中抽取有價值的數(shù)據(jù)，發(fā)掘隱藏的應(yīng)用價值，通常需要用到自然語言處理（Natural Language Processing,NLP）技術(shù)，而NLP 中應(yīng)用最廣泛的就是命名實體識別（Named Entity Recognition,NER）技術(shù)。命名實體識別是指從非結(jié)構(gòu)的文本數(shù)據(jù)集中抽取出結(jié)構(gòu)化的信息，并分類到預(yù)先定義的，如人名、地名、組織機(jī)構(gòu)名等特定類別中。傳統(tǒng)的命名實體識別任務(wù)主要分為三大類（實體類、時間類和數(shù)字類），或者更具體的七小類（人名、地名、機(jī)構(gòu)名、地點、時間、日期、貨幣和百分比）[2]。命名實體識別是實現(xiàn)信息抽取、搜索推薦等自然語言處理中的基礎(chǔ)任務(wù)，命名實體的準(zhǔn)確識別可以促進(jìn)智能問答、知識圖譜構(gòu)建等下游任務(wù)的研究。本文的研究目標(biāo)是以自建的軍事語料作為數(shù)據(jù)支撐，以準(zhǔn)確高效地識別軍事命名實體為目標(biāo)，利用深度學(xué)習(xí)的算法作為技術(shù)手段，為后續(xù)戰(zhàn)場信息情報獲取、知識圖譜構(gòu)建等提供支持，進(jìn)一步加速軍事作戰(zhàn)指揮的智能化轉(zhuǎn)型。

軍事命名實體識別涉及的實體范疇遠(yuǎn)遠(yuǎn)不止傳統(tǒng)命名實體識別的三大類和七小類，由于軍事命名實體的構(gòu)成有其自己獨(dú)特的命名法則和規(guī)律，對于這類實體的識別需要同時兼顧語言的規(guī)律性和軍事特征，因此本文的研究重點是識別帶有軍事領(lǐng)域特色的實體。相較于開放式傳統(tǒng)三大類和七小類的實體識別，需要構(gòu)建模型識別特定的軍事領(lǐng)域?qū)嶓w。本文將識別的實體分為五類：組織機(jī)構(gòu)、型號、行為、起飛地、目的地。軍事實體識別的任務(wù)可以描述為：首先，將軍事文本語料進(jìn)行預(yù)處理；然后，從中提取句子特征；最后，將特征輸入到實體識別模型中，從而識別出具有特定意義的軍事實體。

通過調(diào)研已有文獻(xiàn)，軍事領(lǐng)域的實體識別的通常做法是借鑒通用領(lǐng)域的主流方法和思想，再根據(jù)軍事語料中識別實體的特點進(jìn)行一些適應(yīng)性的改進(jìn)。根據(jù)選取主流方法的不同，可以分為：基于模板規(guī)則匹配的方法[2]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]和基于深度學(xué)習(xí)的方法[4]。近年來，鑒于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力和表達(dá)能力，越來越多的研究者開始開展基于深度神經(jīng)網(wǎng)絡(luò)的研究，通用做法之一是將神經(jīng)網(wǎng)絡(luò)模型與CRF 結(jié)合。由于NER 任務(wù)在自然語言處理中屬于序列標(biāo)注模型，所以通常使用BiLSTM[5]作為序列標(biāo)注模型的特征提取網(wǎng)絡(luò)。在處理中文文本時，為了避免分詞造成的語義歧義，常采用以字符向量作為輸入序列。對軍事領(lǐng)域的命名實體識別的優(yōu)化通常是在特征處理階段，例如加入字或者詞的相關(guān)特征即可對識別效果有較大的提升[6]。而對于神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化，文獻(xiàn)[7]提出一種層疊式的識別方法：該方法首先結(jié)合軍事目標(biāo)及屬性特點，采用樹結(jié)構(gòu)定義層級式目標(biāo)及屬性實體、活動要素及屬性實體，細(xì)化實體類別粒度，依據(jù)層級式特點對語料進(jìn)行標(biāo)注，然后采用標(biāo)簽約束轉(zhuǎn)移矩陣優(yōu)化后的BiLSTM-CRF 模型進(jìn)行實體識別，實現(xiàn)細(xì)粒度更高的實體與關(guān)聯(lián)屬性識別。除此之外，有研究把長短期記憶網(wǎng)絡(luò)模型（Long Short Term Memory,LSTM）結(jié)構(gòu)替換為更容易訓(xùn)練的門循環(huán)控制模型（Gate Recurrent Unit,GRU）結(jié)構(gòu)[8]，同時研究人員加入注意力機(jī)制[9]，在一定程度上提升了神經(jīng)網(wǎng)絡(luò)模型的識別性能。

本文針對中文命名實體識別準(zhǔn)確率低的問題，提出一種BERT-BiLSTM-CRF 的模型。首先，本文未使用傳統(tǒng)的Word2vec 算法生成詞向量的表示，而使用表達(dá)能力更強(qiáng)的BERT 模型生成詞向量的特征表示，將其得到的表示序列輸入BiLSTM 網(wǎng)絡(luò)，獲得上下文的全局特征表示，最終經(jīng)過CRF 模塊進(jìn)行最優(yōu)標(biāo)簽序列的提取。本文在自建的開源軍事語料數(shù)據(jù)集進(jìn)行實驗，驗證本文提出的方法的有效性，同時加入多種baseline 實驗進(jìn)行對比分析，結(jié)果表明，在命名實體識別任務(wù)中，本文提出的BERT 模型方法在一定程度上解決了邊界劃分問題，同時解決了在數(shù)據(jù)集不足的情況下實體識別任務(wù)表現(xiàn)不佳的問題。

1 基于BERT 模型的軍事命名實體識別模型

1.1 實體分類

由于軍事語料不同于傳統(tǒng)通用的命名實體識別，所以首先需要建立軍事領(lǐng)域內(nèi)的命名實體的分類體系。結(jié)合開源語料數(shù)據(jù)情況并加入專家經(jīng)驗與知識，本文將識別的目標(biāo)實體分為五類：國家、型號、行為、起飛地、目的地。針對軍事業(yè)務(wù)實際需求，在對通用性與軍事領(lǐng)域數(shù)據(jù)的特點深入分析的基礎(chǔ)上，建立了能夠準(zhǔn)確、全面描述各類型軍事知識的實體表征模型，可對復(fù)雜多樣、動態(tài)演化、時空性強(qiáng)的軍事知識要素進(jìn)行表征。五類軍事領(lǐng)域目標(biāo)實體具體的類型名稱、代號和示例如表1所示。

表1 目標(biāo)實體分類Table 1 Target Entity Classification

五類實體中，組織機(jī)構(gòu)指的是不同國家的軍種簡稱，如美空軍、美海軍；型號指的是采取行為的主體作戰(zhàn)型號，如KC-135R 加油機(jī)；行為是指在每一條非結(jié)構(gòu)化的軍事語料中的主體所采取的行動，如返回基地；起飛地是指主體起飛地點，如南海；目的地是指主體最終所要抵達(dá)的終點，如沖繩嘉手納基地。

1.2 模型架構(gòu)

本研究中模型構(gòu)建的思路是使用預(yù)訓(xùn)練語言模型獲取中文單字的字向量，利用字向量中的語言規(guī)律和語義知識輔助軍事實體的識別，以提升實體識別的性能。同時融合字的含邊界詞性特征，進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸入。

本文結(jié)合BERT 預(yù)訓(xùn)練模型[10]的上下文深層語義編碼、BiLSTM 神經(jīng)網(wǎng)絡(luò)的序列解碼和CRF 的序列標(biāo)注，構(gòu)建BERT-BiLSTM-CRF 實體識別框架，整體框架結(jié)構(gòu)如圖1所示，該框架以文本中的字序列、語義塊、字位置及其詞性序列為輸入，輸出為每一個字對應(yīng)的目標(biāo)類型的標(biāo)簽序列。下文依次對模型的各個模塊進(jìn)行詳細(xì)分析。

圖1 模型架構(gòu)圖Fig.1 Model architecture

1.2.1 BERT 層

傳統(tǒng)使用Word2vec 的方式去訓(xùn)練詞向量，雖然訓(xùn)練得到的向量可以表示詞語之間的關(guān)系，但這種方式的一個缺點是詞和詞之間的表示是一一對應(yīng)的靜態(tài)關(guān)系，無法根據(jù)上下文的語境對輸入序列進(jìn)行動態(tài)的表示，也正因為此，使用Word2vec 得到的詞向量會對NER 效果產(chǎn)生重要影響。

BERT 模型作為深度雙向語言表征模型，被視為一種替代靜態(tài)詞向量表示的方案，它通過利用維基百科等大規(guī)模的語料數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)的訓(xùn)練，使用一種稱為雙向的Transformer 編碼結(jié)構(gòu)，使得模型能夠獲取輸入文本中的語義信息，接下來對BERT模型做詳細(xì)研究分析。

1.2.1.1 輸入和輸出層

根據(jù)下游任務(wù)的不同，BERT 模型的輸入序列可以單句形式出現(xiàn)，也可以語句對的形式成對出現(xiàn)。在本文中，BERT 的輸入為具有連續(xù)語義的自然文本。在BERT 中首先會對輸入文本進(jìn)行預(yù)處理，在文本開頭和句子之間分別插入[CLS]和[SEP]符號。其次，對于最終的向量表示，BERT 使用字符的嵌入向量、分割向量和位置向量疊加得到，其中字符的嵌入向量是輸入序列中每個字符本身的向量表示；分割向量用于區(qū)分每一個字符屬于句子A 還是句子B。如果輸入序列只有一個句子，就只是用EA 表示；位置向量編碼了輸入中每個字符出現(xiàn)的位置。這些向量均在訓(xùn)練過程中通過學(xué)習(xí)得到。對于BERT 模型的輸出同樣也有兩種形式，一種是字符級別的向量表示，對應(yīng)著輸入中的每個字符；另一種輸出形式是句子級別的語義向量，即整個句子的語義表示。在本文的研究中，BERT 模型的輸出采用了第一種形式，即輸入序列的每個字符都有對應(yīng)的向量表示，該輸出接著作為輸入傳遞給后序模塊進(jìn)行進(jìn)一步的處理。

1.2.1.2 Transformer 編碼層

在BERT 模型中使用了多層雙向的Transformer編碼器對輸入的序列數(shù)據(jù)進(jìn)行編碼，其模型結(jié)構(gòu)圖如圖2 所示：其中每個Trm對應(yīng)一個單元的編碼器，E1,E2,...,En是模型的輸入，為字符向量，T1,T2,..,Tn為模型的輸出向量。

圖2 BERT 預(yù)訓(xùn)練語言模型Fig.2 BERT Pre-trained language model

從結(jié)構(gòu)來說，BERT 是將多個Transformer 編碼器堆疊進(jìn)行特征提取，而Transformer 編碼器是由Self-Attention 層和前向神經(jīng)網(wǎng)絡(luò)組成。Self-Attention的核心計算公式如下所示：

公式中Q,K,V是由矩陣Wq,WK,WV相乘可得，而Wq,WK,WV為可學(xué)習(xí)的模型訓(xùn)練參數(shù)。舉例來說，當(dāng)計算某個詞語對其他詞語的重要度時，讓當(dāng)前單詞的Q向量與其余單詞的K向量進(jìn)行點積數(shù)學(xué)運(yùn)算。對點積計算的結(jié)果使用這樣做的目的是減少語句長短對語句重要度的影響，同時也為了讓訓(xùn)練時梯度更加穩(wěn)定。隨后將計算得到的結(jié)果分值經(jīng)過softmax層得到一維的概率向量。使用Soft-Attention機(jī)制的意義是不僅可以完成對上下文的重要度進(jìn)行編碼，同時解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)長依賴的問題，加速了模型的計算能力。

基于上述的分析，我們可以總結(jié)出BERT 模型具有以下優(yōu)點：

（1）BERT 在進(jìn)行詞向量表示的過程中充分結(jié)合編碼詞的上下文，克服了目前大多數(shù)詞向量生成機(jī)制的單向性問題。

（2）使用基于Transformer 作為特征提取器，底層使用Attention 機(jī)制編碼，增強(qiáng)了模型的并行計算能力，縮短了訓(xùn)練時間。

1.2.2 BiLSTM 層

BiLSTM 層是由一個前向LSTM 網(wǎng)絡(luò)和后向LSTM 組成，相比于LSTM，BiLSTM 可以分別獲得兩個方向的上下文特征。在得到BERT 層的輸出后，BiLSTM 層會將句子的字向量序列作為各個時間的輸入，通過反向傳播算法，模型自動提取句子中的語義特征，學(xué)習(xí)符合上下文語境語義信息，softmax函數(shù)給出當(dāng)前單詞對預(yù)設(shè)標(biāo)簽的標(biāo)簽概率?；贐iLSTM 的上下文特征抽取模型的結(jié)構(gòu)如圖3 所示。

圖3 BiLSTM 模型架構(gòu)圖Fig.3 BiLSTM architecture

LSTM 層的主要結(jié)構(gòu)可以表示公式：

其中，σ 是sigmod函數(shù)，i、f、o和c分別表示輸入門、遺忘門、輸出門和記憶單元；?是點積運(yùn)算，W和B代表輸入門、遺忘門和輸出門的權(quán)重矩陣和偏置向量；Xt指的是t時刻的輸入，同時是對于表示層的輸出。

1.2.3 CRF 層

在神經(jīng)網(wǎng)絡(luò)的輸出層，一般是用softmax函數(shù)，而對NER 這種序列任務(wù)建模時，CRF 層的作用是對BiLSTM 網(wǎng)絡(luò)的輸出進(jìn)行編碼和規(guī)約，得到具有最大概率的合理預(yù)測序列。CRF 使用的是條件隨機(jī)場，是一種根據(jù)輸入序列預(yù)測輸出序列的判別式模型。給定輸入X，輸出預(yù)測結(jié)果y的計算公式如下所示：

其中，Ayi, yi+1表示從標(biāo)簽yi轉(zhuǎn)移到y(tǒng)i+1的概率值，yi為y中的元素。pi,y表示第i個詞語標(biāo)記為yi的概率值。在給定輸入X情況下，輸出預(yù)測結(jié)果y的概率公式為：

其中，x表示能夠組成的所有標(biāo)簽，y表示真實標(biāo)簽。模型的目標(biāo)是最大化p(y|X),在訓(xùn)練時通過求解似然函數(shù)如下：

在訓(xùn)練時，根據(jù)公式最大化得分結(jié)果：

2 實驗結(jié)果和分析

2.1 實驗數(shù)據(jù)

針對軍事領(lǐng)域的命名實體識別問題，本文提出了一種基于預(yù)訓(xùn)練模型BERT 的軍事領(lǐng)域命名實體識別方法。本文針對軍事領(lǐng)域中的軍事情報數(shù)據(jù)，以開源數(shù)據(jù)作為訓(xùn)練語料。對組織機(jī)構(gòu)、型號、行為、起飛地、目的地等五類目標(biāo)進(jìn)行識別，驗證本文所提出模型的正確性與有效性。

目前由于軍事語料領(lǐng)域的特殊性，并未有開源的軍事語料以供訓(xùn)練。同時在軍事語料領(lǐng)域缺乏統(tǒng)一的標(biāo)注方法，本文利用網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建訓(xùn)練數(shù)據(jù)集，采用開源的工具Doccano[18]和專家知識進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注，構(gòu)建中文軍事領(lǐng)域開源情報訓(xùn)練數(shù)據(jù)集。

本實驗利用爬蟲工具從公開權(quán)威的軍事網(wǎng)站上搜集得到開源軍事新聞?wù)Z料，來源包括國防科技信息網(wǎng)、網(wǎng)易軍事、環(huán)球網(wǎng)軍事、新浪軍事等。從新聞網(wǎng)頁上采集語料時以“軍情動態(tài)”、“軍事速遞”為主題詞，在爬取數(shù)據(jù)完成后，首先，對文本數(shù)據(jù)中不符合主題的“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)預(yù)處理的操作，以文本的形式保留在本地磁盤。然后，按照統(tǒng)一的數(shù)據(jù)規(guī)范進(jìn)行“數(shù)據(jù)治理”，具體做法是通過正則表達(dá)式將爬蟲獲取后與網(wǎng)頁相關(guān)的符號、標(biāo)記等刪除，語料爬取完成后，需要對良莠不齊的文本進(jìn)行分辨，篩選不符合主題的文本將其去除，選取其中高質(zhì)量、相關(guān)度較高的文本，以純文本的格式保存至本地，按照統(tǒng)一的規(guī)范進(jìn)行預(yù)處理，通過代碼編寫正則表達(dá)式將文本內(nèi)容中無用的網(wǎng)頁符號、網(wǎng)頁標(biāo)簽和特殊字符剔除掉，將繁體字轉(zhuǎn)換為正常的簡體中文字符，以及統(tǒng)一全半角字符，將文本按句進(jìn)行拆分，每一行代表一句，同時要求長度不得超過LSTM 設(shè)置的最大長度。

由于軍事領(lǐng)域的命名實體標(biāo)注尚未確定統(tǒng)一的標(biāo)準(zhǔn)，故本文實驗對已構(gòu)建的小量的數(shù)據(jù)集采取人工標(biāo)注并校正的方法。數(shù)據(jù)的標(biāo)注采用BMEO 四段標(biāo)記法：對于每個實體，將其第一個字標(biāo)記為“B-實體類型”，非首位字符標(biāo)記為“M-實體類型”，結(jié)尾的標(biāo)記為“I-實體類型”，對于無關(guān)字一律標(biāo)記為O。本文實驗需要識別的軍事實體共包括5種類型，數(shù)據(jù)經(jīng)過BMIO 標(biāo)注處理后共分15 類，如表2 所示：（B-ORG，M-ORG，E-ORG，B-VER，M-VER，E-VER，B-ACT，M-ACT，E-ACT，B-TAF，M-TAF，E-TAF，B-DES，M-DES，E-DES，O，）。同時為保證訓(xùn)練時采用的長度一致（均為256×1維），因此需要額外添加了一個占位符。

表2 目標(biāo)實體分類Table 2 Target entity Classification

2.2 結(jié)果評價指標(biāo)

實驗采用自然語言處理領(lǐng)域3個通用的評測指標(biāo)，準(zhǔn)確率P、召回率R 和F1 值（F-score)，其中F1 值可以體現(xiàn)整體的測試結(jié)果，計算公式如下：

最終采用以上3種性能評測指標(biāo)的加權(quán)平均值作為實驗的性能評測指標(biāo)。

2.3 實驗設(shè)置

本文基于BERT-BiLSTM-CRF 的實體識別模型是使用BERT 進(jìn)行語料字符級別特征向量的獲取，使用BiLSTM 針對字向量進(jìn)行上下文的特征提取，借文本中長依賴的問題，最后使用CRF 層進(jìn)行輸出標(biāo)簽的規(guī)約限制，最終獲得全局的最優(yōu)標(biāo)簽序列?；贐ERT-BiLSTM-CRF 的參數(shù)設(shè)置如表3 所示。

表3 參數(shù)配置表Table 3 Parameter Configuration

2.4 實驗結(jié)果和分析

為驗證模型在軍事語料領(lǐng)域識別的正確性與有效性，在實驗階段設(shè)計了對比實驗，在相同數(shù)據(jù)集上針對不同的模型選取合適的模型超參數(shù)進(jìn)行微調(diào)。選取的對比模型有：

CRF：本文以文獻(xiàn)[17]提出的基于CRF 的面向軍事文本的命名實體識別模型作為基線對比實驗，建立融合詞特征、詞性特征、英文字母和短橫線以及數(shù)字的組合特征、左右邊界詞特性和中心詞特性的多種特征模板，使用公開的CRF++0.58 訓(xùn)練工具進(jìn)行模型的訓(xùn)練和效果預(yù)測。

HMM：本文以文獻(xiàn)[11]提出的基于HMM 作為軍事命名實體識別的對比實驗，構(gòu)建狀態(tài)集合、觀測集合以及狀態(tài)轉(zhuǎn)移矩陣，并使用開源的Scikit-Learn 開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM：BiLSTM[12]的網(wǎng)絡(luò)模型是使用雙向的LSTM 網(wǎng)絡(luò)構(gòu)建特征提取器，并使用開源的Scikit-Learn[13]開源的機(jī)器學(xué)習(xí)框架構(gòu)建。

BiLSTM-CRF：本文以文獻(xiàn)[14]提出的基于BiLSTM-CRF 網(wǎng)絡(luò)模型的結(jié)構(gòu)作為對比實驗。采用Google 開源的詞向量工具Word2vec[15]方法訓(xùn)練的字符界別的特征向量，通過在字嵌入層上進(jìn)行Dropout處理來防止訓(xùn)練模型過擬合，并將該字向量的結(jié)果作為BiLSTM 網(wǎng)絡(luò)模型的輸入，得到基于上下文的特征矩陣，最后將特征矩陣交由CRF 模塊進(jìn)行編碼與規(guī)約，最終得到基于全局的最優(yōu)標(biāo)簽序列。

2.4.1 對比實驗結(jié)果分析

從實驗結(jié)果，如表4 和圖4 可以得到，本文提出的基于BERT-BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)的軍事命名實體識別模型優(yōu)于其他4 種實體識別模型。相較于HMM 和CRF 模型，BiLSTM 模型可以學(xué)到更多的語義特征信息。本文提出的模型相較與CRF 模型在F 值上提高11.04%，召回率提高10.85%，精準(zhǔn)率提高8.32%。相較于不使用BERT的BiLSTM-CRF模型，本文提出的模型在F 值上提高了1.87%，召回率提高了1.71%，精準(zhǔn)率提高了2.64%。實驗表明，實體識別任務(wù)中經(jīng)常會出現(xiàn)標(biāo)簽之間結(jié)果不成立的現(xiàn)象，而CRF 中的轉(zhuǎn)移矩陣能很好地解決標(biāo)簽之間的順序問題。除此之外，BiLSTM-CRF 比CRF 具有更加優(yōu)異的性能表現(xiàn)，這是因為BiLSTM 考慮了輸入信息之間的雙向語義依賴，可以從前后兩個方向來捕捉輸入信息的特征，對于實體識別這種序列標(biāo)注問題具有更高的適用性，而結(jié)合字級別的特征向量僅考慮字的特征而忽略了結(jié)合上下文進(jìn)行實體識別的不足，本文模型結(jié)合了字特征、句子特征、位置特征生成字向量，并使用Transformer[16]訓(xùn)練字向量，充分考慮上下文信息對實體的影響，實驗取得了更優(yōu)的實體識別效果。

表4 實驗結(jié)果表Table 4 Experiment Result

圖4 實驗結(jié)果柱狀圖Fig.4 Experimental result graph

3 展望與下一步工作

本文以軍事領(lǐng)域目標(biāo)實體為識別對象，預(yù)先設(shè)定國家、型號、行為、起飛地、目的地等五類需要預(yù)測的目標(biāo)標(biāo)簽，提出一種將預(yù)訓(xùn)練語言模型BERT和BiLSTM-CRF 模型相結(jié)合應(yīng)用于軍事語料的命名實體識別的模型。BERT 模型利用大規(guī)模的語料進(jìn)行，不同于傳統(tǒng)的靜態(tài)語言模型，BERT 模型可以根據(jù)實際的業(yè)務(wù)場景以及上下文生成動態(tài)的中文詞向量，然后與經(jīng)典的BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行堆疊，生成對預(yù)先定義的五類實體的預(yù)測識別。由于本文使用的是在維基百科和書籍語料庫中進(jìn)行預(yù)訓(xùn)練的BERT 的雙向結(jié)構(gòu)和動態(tài)向量表征，能有效地學(xué)習(xí)更豐富和準(zhǔn)確的語義信息，無需人工定義的特征，因此可以提升識別模型的上下文雙向特征抽取能力，在相對較少的標(biāo)注語料成本上也能獲得效果的提升。將人工收集的軍事演習(xí)領(lǐng)域小型語料庫經(jīng)過預(yù)處理作為本次實驗的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，通過實驗證明了該方法取得了比其他幾種通用方法更好的效果，在一定程度上解決了命名實體的邊界劃分問題以及實體識別任務(wù)在數(shù)據(jù)集不足的情況下表現(xiàn)不佳的問題。未來，會考慮使用在軍事領(lǐng)域的語料預(yù)訓(xùn)練的BERT 模型，進(jìn)一步優(yōu)化任務(wù)表現(xiàn)，提高在軍事命名實體識別領(lǐng)域的性能。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡