国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Bi-LSTM+CRF模型的航母情報(bào)實(shí)體識(shí)別方法應(yīng)用

2023-01-30 04:08許山山史涯晴
計(jì)算機(jī)時(shí)代 2023年1期
關(guān)鍵詞:情報(bào)信息編隊(duì)航母

許山山,史涯晴

(陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)

0 引言

互聯(lián)網(wǎng)快速發(fā)展,信息量劇增,開源情報(bào)分析面臨巨大挑戰(zhàn)和困難。自然語(yǔ)言處理的基礎(chǔ)任務(wù)之一是命名實(shí)體識(shí)別NER(Named Entity Recognition),從航母編隊(duì)信息中識(shí)別實(shí)體是基礎(chǔ)環(huán)節(jié),也是較難的環(huán)節(jié)。首先,航母情報(bào)信息的結(jié)構(gòu)化數(shù)據(jù)不多,來(lái)自百科和新聞網(wǎng)站的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不能直接利用;其次,航母編隊(duì)可利用的已標(biāo)注的數(shù)據(jù)集幾乎沒(méi)有。另外,航母編隊(duì)信息中包含軍事領(lǐng)域的專業(yè)名詞和表述,如艦艇領(lǐng)導(dǎo)者信息、艦艇指揮機(jī)構(gòu)信息、航母戰(zhàn)斗群的任務(wù)記錄、航母艦載機(jī)信息等,直接將通用領(lǐng)域?qū)嶓w識(shí)別方法應(yīng)用到艦船情報(bào)分析領(lǐng)域效果不佳。為了解決上述問(wèn)題,本文構(gòu)建了航母編隊(duì)實(shí)體識(shí)別語(yǔ)料庫(kù),采用基于Bi-LSTM+CRF 實(shí)體識(shí)別算法,實(shí)現(xiàn)航母編隊(duì)情報(bào)信息的實(shí)體識(shí)別,輔助情報(bào)分析人員進(jìn)一步挖掘和分析相關(guān)情報(bào)信息奠定基礎(chǔ)。

1 航母信息實(shí)體識(shí)別

命名實(shí)體的研究主要分為三大類。①基于詞典和規(guī)則的方法[1]。如果獲取的樣本數(shù)據(jù)較少,利用這種方法能夠提高精度和執(zhí)行效率,但是該方法過(guò)度依賴詞典規(guī)模及詞典覆蓋率,同時(shí)需要耗費(fèi)巨大時(shí)間和精力生成規(guī)則[2]。②基于機(jī)器學(xué)習(xí)算法的方法[3-4]。常用的算法模型有條件隨機(jī)場(chǎng)CRF(Conditional Random Field)和支持向量機(jī)SVM(Support Vector Machine)等。③基于深度學(xué)習(xí)策略的方法[5-6]。通過(guò)大量數(shù)據(jù)支持,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,生成基于向量嵌入的特征表示,進(jìn)而實(shí)現(xiàn)特定領(lǐng)域的實(shí)體識(shí)別。

1.1 模型框架

Bi-LSTM+CRF 模型方法綜合應(yīng)用特征模板和神經(jīng)網(wǎng)絡(luò),其中,Bi-LSTM 是常見的的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠解決中文“詞”在中文句子中的遠(yuǎn)距離依賴問(wèn)題;CRF(Conditional Random Field)是指條件隨機(jī)場(chǎng)模型,是一種鑒別式機(jī)率模型,可以利用之前標(biāo)注過(guò)的標(biāo)簽。該模型由三部分組成:輸入層、編碼層和預(yù)測(cè)層[7],如圖1所示。輸入層作用是對(duì)中文字符或詞語(yǔ)進(jìn)行編碼,將文本向量化表示。編碼層作用是提取文本序列的抽象特征,尤其是字符或詞語(yǔ)的上下文聯(lián)系。雙向LSTM 包括前向LSTM 和反向LSTM,比單向LSTM 挖掘文本序列的整體隱含特征更加全面。預(yù)測(cè)層作用是處理編碼層的輸出,結(jié)合上下文向量的特征,輸出最終識(shí)別結(jié)果。

圖1 Bi-LSTM+CRF模型

1.2 Bi-LSTM結(jié)構(gòu)

LSTM 是一種基于RNN 的被廣泛使用模型,可以有效地解決順序標(biāo)記問(wèn)題[8]。LSTM 網(wǎng)絡(luò)引入門的策略解決反向傳播過(guò)程中的梯度消失等問(wèn)題。圖2 是Bi-LSTM 的細(xì)胞單元結(jié)構(gòu)示意圖[7]。在時(shí)刻t,xt是輸入向量,它是一個(gè)輸入字符的嵌入,ht-1是前一時(shí)刻的隱藏狀態(tài),神經(jīng)元權(quán)重W和偏差b是可訓(xùn)練參數(shù),Γf、Γu、Γo分別表示t時(shí)刻的遺忘門、記憶門、輸出門。表示t時(shí)刻的單元狀態(tài)、其中σ(x)=、tanh=。LSTM 細(xì)胞單元計(jì)算存儲(chǔ)單元Ct和ht的過(guò)程如下:遺忘門決定應(yīng)該丟棄多少先前的信息,0 表示全部丟棄,1 表示全部保留;記憶門決定應(yīng)該向單元存儲(chǔ)器中添加多少信息,使用tanh函數(shù)可以更新臨時(shí)單元的狀態(tài)信息;t時(shí)刻的每個(gè)隱藏狀態(tài)Ct和ht都由輸出門決定。圖2中每個(gè)門結(jié)構(gòu)的作用及數(shù)學(xué)表達(dá)式如表1所示。

圖2 Bi-LSTM細(xì)胞單元結(jié)構(gòu)

表1 Bi-LSTM細(xì)胞單元結(jié)構(gòu)數(shù)學(xué)表達(dá)式及門結(jié)構(gòu)功能

1.3 CRF結(jié)構(gòu)

由于不同文本屬于各個(gè)標(biāo)簽結(jié)果的概率值計(jì)算相互獨(dú)立,CRF 解決局部標(biāo)簽和上下文信息不會(huì)被歸一化函數(shù)計(jì)算的問(wèn)題,通過(guò)融合相關(guān)標(biāo)簽數(shù)據(jù),將附近標(biāo)簽的相關(guān)性納入計(jì)算范圍,實(shí)現(xiàn)較為準(zhǔn)確的標(biāo)注。

CRF 可以看作是一個(gè)線性鏈,給定一個(gè)詞序列,如下:

CRF 標(biāo)記在w中的每個(gè)符號(hào),并輸出相應(yīng)的標(biāo)記序列,如下:

定義一組K 個(gè)特征函數(shù)f(ti-1,ti,w,i),K 是特征函數(shù)的個(gè)數(shù),如下:

i 是一個(gè)符號(hào)在句子w中的位置,yi是當(dāng)前符號(hào)的標(biāo)簽,yi-1是前一個(gè)符號(hào)的標(biāo)簽,如果滿足特征函數(shù)的條件,則輸出為1,否則為0。利用特征函數(shù)對(duì)候選序列進(jìn)行評(píng)分,最終得分是所有特征函數(shù)給出的得分之和:

根據(jù)得分,選擇最可能的序列作為輸出序列,即最大概率序列。借助于歸一化因子Z,獲得每個(gè)候選序列的概率。因此,條件概率P(t|w)計(jì)算如下:

通過(guò)學(xué)習(xí),獲得最佳的權(quán)重λ,得到最佳的CRF,而CRF作為模型的輸出層,生成文本的序列標(biāo)注結(jié)果。

2 實(shí)驗(yàn)數(shù)據(jù)

2.1 數(shù)據(jù)集

針對(duì)航母實(shí)體識(shí)別分析研究,本文使用的航母編隊(duì)的專項(xiàng)領(lǐng)域BIO 標(biāo)注集的原始數(shù)據(jù)來(lái)自百度百科[9],軍事特定領(lǐng)域文本標(biāo)注數(shù)據(jù)集中命名實(shí)體的類型共有四種:人名PER(Person)、地名LOC(Location)、機(jī)構(gòu)名ORG(Organization)和裝備EQU(Equipment),非命名實(shí)體組成部分記為O。利用BIO 三元集的標(biāo)注方法進(jìn)行標(biāo)注,B-PER:人名(開頭),I-PER:人名(非開頭),B-LOC:地點(diǎn)(開頭),I-LOC地點(diǎn)(非開頭),BORG:組織機(jī)構(gòu)(開頭),I-ORG:組織機(jī)構(gòu)(非開頭),B-EQU:裝備(開頭),I-EQU:裝備(非開頭)。本文通過(guò)改造通用領(lǐng)域BIO 標(biāo)注集,構(gòu)建的航母編隊(duì)專項(xiàng)領(lǐng)域BIO 標(biāo)注集的數(shù)據(jù)規(guī)模,通用領(lǐng)域Train_data 數(shù)據(jù)集2220533 字符,Test_data 數(shù)據(jù)集177231 字符,航母編隊(duì)專項(xiàng)領(lǐng)域數(shù)據(jù)集Train_data 和Test_data 數(shù)據(jù)集108969字符。

2.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)注與參數(shù)設(shè)置

對(duì)于航母實(shí)體識(shí)別模型的識(shí)別效果,本文采用命名實(shí)體識(shí)別的通用測(cè)試指標(biāo)正確率、召回率和F1值,定義如下:

Bi-LSTM+CRF訓(xùn)練模型的重要參數(shù),如表2所示。

表2 訓(xùn)練模型重要參數(shù)表

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證Bi-LSTM-CRF 方法對(duì)航母信息實(shí)體的識(shí)別能力,本文進(jìn)行兩類實(shí)驗(yàn):實(shí)驗(yàn)類型Ⅰ:Bi-LSTM+CRF 識(shí)別效果檢測(cè);實(shí)驗(yàn)類型Ⅱ:通用數(shù)據(jù)集和專用數(shù)據(jù)集實(shí)體識(shí)別對(duì)比。

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1 實(shí)驗(yàn)一:Bi-LSTM-CRF識(shí)別效果檢測(cè)

圖3所示為模型訓(xùn)練的總體情況,圖4至圖7分別所示EQU、LOC、ORG 及PER 四個(gè)類別的實(shí)體識(shí)別正確率(precision)、召回率(recall)和F1 值隨迭代次數(shù)(epoch)變化的曲線。根據(jù)曲線圖可以看出,在經(jīng)過(guò)32 輪(epoch)迭代之后,正確率(precision)、召回率(recall)和F1 值都相對(duì)穩(wěn)定在90%左右。對(duì)武器裝備類(EQU)實(shí)體的識(shí)別效果最好,達(dá)到95%以上;對(duì)人名(PER)實(shí)體的識(shí)別效果最差,僅85%左右。

圖3 ALL結(jié)果圖

圖4 EQU結(jié)果

圖5 LOC結(jié)果

圖6 ORG結(jié)果

圖7 PER結(jié)果

3.2.2 實(shí)驗(yàn)二:通用數(shù)據(jù)集和專用數(shù)據(jù)集實(shí)體識(shí)別對(duì)比

為了驗(yàn)證Bi-LSTM+CRF 模型對(duì)航母情報(bào)的實(shí)體識(shí)別效果,本文訓(xùn)練了兩個(gè)Bi-LSTM+CRF 模型。模型Ⅰ的訓(xùn)練數(shù)據(jù)為通用領(lǐng)域的BIO 標(biāo)注集,在此基礎(chǔ)上通過(guò)改造,形成模型Ⅱ的通用領(lǐng)域的BIO 標(biāo)注集+航母編隊(duì)的專項(xiàng)領(lǐng)域BIO標(biāo)注集。這兩個(gè)模型識(shí)別出的實(shí)體數(shù)和識(shí)別正確的實(shí)體數(shù),模型Ⅰ標(biāo)注實(shí)體總數(shù)9977,返回實(shí)體總數(shù)9879,識(shí)別正確總數(shù)6665,模型Ⅱ標(biāo)注實(shí)體總數(shù)9977,返回實(shí)體總數(shù)9760,識(shí)別正確總數(shù)9090。這兩個(gè)模型對(duì)于總體和分類別的實(shí)體識(shí)別正確率(precision)、召回率(recall)、F1 值和返回的實(shí)體數(shù)(found)的結(jié)果如表3所示。

表3 不同模型針對(duì)不同類別實(shí)體識(shí)別結(jié)果

通過(guò)表3 中數(shù)據(jù)對(duì)比,可得出以下結(jié)論:①在模型Ⅱ中,非實(shí)體被識(shí)別為實(shí)體和實(shí)體名稱識(shí)別不全的數(shù)量比模型Ⅰ有所減少;②在模型Ⅱ中,將實(shí)體類別識(shí)別錯(cuò)誤的數(shù)量比模型Ⅰ少;③在模型Ⅱ中,沒(méi)有識(shí)別出B 標(biāo)簽的情況比模型Ⅰ少;④在模型Ⅱ中,正確識(shí)別的實(shí)體數(shù)目明顯多于模型Ⅰ識(shí)別出的數(shù)目,特別是與航母密切相關(guān)的武器裝備類(EQU)實(shí)體。綜合以上實(shí)驗(yàn)分析和結(jié)論,Bi-LSTM+CRF 航母實(shí)體識(shí)別模型的性能達(dá)到了預(yù)期目標(biāo)。

4 結(jié)束語(yǔ)

基于改造的BIO 標(biāo)注集,構(gòu)建了航母情報(bào)信息中文實(shí)體識(shí)別語(yǔ)料庫(kù),通過(guò)BI-LSTM+CRF 模型算法訓(xùn)練出航母實(shí)體識(shí)別模型,實(shí)現(xiàn)了對(duì)航母情報(bào)信息的有效實(shí)體識(shí)別。實(shí)驗(yàn)證明,Bi-LSTM+CRF 航母實(shí)體識(shí)別模型的性能可以達(dá)到預(yù)期目標(biāo),本研究有效提高了航母編隊(duì)情報(bào)信息領(lǐng)域命名實(shí)體識(shí)別的效率和正確率。在未來(lái)的研究中,將考慮實(shí)體間的關(guān)系抽取,為進(jìn)一步實(shí)現(xiàn)提高航母情報(bào)分析能力和效率奠定堅(jiān)實(shí)基礎(chǔ)。

猜你喜歡
情報(bào)信息編隊(duì)航母
2023年1月25日,美軍一次演習(xí)期間,空軍正在進(jìn)行編隊(duì)飛行
航母召喚,艦載機(jī)返航
航母愛(ài)出糗
基于事件驅(qū)動(dòng)的多飛行器編隊(duì)協(xié)同控制
我愛(ài)航母
在航母上起飛
淺談新時(shí)期科技情報(bào)信息工作的重要性
我國(guó)情報(bào)信息主導(dǎo)警務(wù)模式應(yīng)用中的問(wèn)題與對(duì)策探索
基于情報(bào)信息的空防安全威脅評(píng)估回歸模型研究
基于預(yù)測(cè)控制的無(wú)人機(jī)編隊(duì)內(nèi)部避碰