国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BiLSTM-CRF的軍事命名實體識別方法

2020-11-23 02:16:42高學(xué)攀吳金亮
無線電工程 2020年12期
關(guān)鍵詞:字符命名軍事

高學(xué)攀,杜 楚,吳金亮

(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)

0 引言

命名實體識別是自然語言處理中的一項基本研究任務(wù),也是信息抽取的一個子任務(wù),最早是在MUC-6會議上引入這一評測任務(wù),作為信息抽取技術(shù)的子課題供廣大學(xué)者討論研究,旨在識別出自然語言文本中的專有名詞和有意義的數(shù)量短語,并加以分類。

通用領(lǐng)域的命名實體識別已經(jīng)得到了廣泛研究,其識別方法可分為基于規(guī)則的方法和基于統(tǒng)計的方法2大類?;谝?guī)則的方法通過分析實體本身的詞匯特征和短語的搭配習(xí)慣,人工構(gòu)建規(guī)則集抽取預(yù)先定義的各種類別的實體[1],需要具備大量的專業(yè)知識,召回率低、可移植性差?;诮y(tǒng)計的方法是從給定的、己標(biāo)注好的訓(xùn)練集出發(fā),定義特征集合,并應(yīng)用學(xué)習(xí)算法訓(xùn)練統(tǒng)計模型,完成命名實體識別。目前常用的統(tǒng)計模型包括支持向量機(Support Vector Machine,SVM)[2-3]、隱馬爾可夫(Hidden Markov Models,HMM)[3-4]和條件隨機場(Conditional Random Fields,CRFs)[5-6]等,這些模型都需要人依靠邏輯直覺和訓(xùn)練語料中的統(tǒng)計信息手工設(shè)計出大量的特征,其識別性能很大程度上依賴于所設(shè)計特征的準(zhǔn)確度。目前,深度學(xué)習(xí)方法已在圖像處理任務(wù)中取得突破性進展[7-8];在自然語言處理領(lǐng)域,基于詞嵌入[9]的神經(jīng)網(wǎng)絡(luò)方法也正在快速發(fā)展,并應(yīng)用于各種文本分析任務(wù)中。相比傳統(tǒng)機器學(xué)習(xí)方法,該方法可從原始輸入中學(xué)習(xí)到更好的特征和表示,使原始數(shù)據(jù)表示經(jīng)過逐層變換和抽象后得到優(yōu)化,有助于提高實體識別的泛化性能。深度學(xué)習(xí)方法已成為當(dāng)前命名實體識別領(lǐng)域的研究熱點[10-11]。

軍事命名實體識別屬于特定領(lǐng)域[12-15]的命名實體識別,仍屬于命名實體識別領(lǐng)域的研究,旨在從軍事文本中識別與軍事相關(guān)的各種命名實體,主要包括人物姓名、軍用地名、軍事機構(gòu)名、武器裝備、設(shè)施目標(biāo)和部隊番號等,是軍事數(shù)據(jù)庫建設(shè)、軍事知識圖譜和情報分析挖掘等上層應(yīng)用的重要基礎(chǔ)工作。已有諸多學(xué)者開展對軍事命名實體識別的研究,宋瑞亮[16]提出Tri-Training算法對CRF模型進行迭代學(xué)習(xí),能夠識別軍事文本中的命名實體。馮蘊天等[5]通過分析軍事文本語法特點構(gòu)建特征集合,構(gòu)建CRF模型并引入Self-Training算法對軍事命名實體進行識別,并利用詞典和規(guī)則的方法對識別結(jié)果進行修正,比僅用CRF模型進行識別效果要好。單赫源等[6]提出一種小粒度策略下基于CRF的軍事命名實體識別方法,在保證較優(yōu)識別準(zhǔn)確率的前提下,還能降低訓(xùn)練集標(biāo)注的復(fù)雜度。

現(xiàn)有的面向軍事文本的實體識別方法大多采取基于規(guī)則或基于淺層模型的學(xué)習(xí)方法,往往需要大量的特征工程,依靠從軍事文本數(shù)據(jù)中定制、提取特征的手段制定規(guī)則或?qū)W習(xí)模型,針對真實語料中的軍事命名實體的識別效果有待提高??紤]到軍事命名實體構(gòu)成模式多樣、實體名稱組成復(fù)雜和結(jié)構(gòu)嵌套等特點,對軍事命名實體的識別任務(wù)必須兼顧其語言規(guī)律和軍事特性,并充分考慮領(lǐng)域分詞困難以及缺乏大規(guī)模人工標(biāo)注訓(xùn)練語料等諸多問題。本文針對軍事命名實體識別,主要進行以下工作:

① 構(gòu)建軍事語料庫,準(zhǔn)確標(biāo)注了十萬量級的軍事命名實體;

② 將軍事文本編碼為字向量序列作為輸入,能夠有效降低對分詞工具的依賴性,避免了分詞帶來的級聯(lián)誤差;

③ 提出BiLSTM-CRF模型,利用深度學(xué)習(xí)方法自動學(xué)習(xí)任務(wù)特征,提高了軍事命名實體識別效果。

1 軍事命名實體識別模型

1.1 總體流程

基于BiLSTM-CRF的軍事命名實體識別方法將命名實體識別問題轉(zhuǎn)為序列標(biāo)注問題,并采取BIO的數(shù)據(jù)標(biāo)注模式,即定義3種實體范圍標(biāo)簽:實體起始、實體內(nèi)部和實體之外,分別用B,I,O進行標(biāo)注。雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long-short Term Memory,BiLSTM)結(jié)合條件隨機場的序列標(biāo)注方法[17-18],既具備BiLSTM能夠充分利用上下文語境信息的能力,也具備CRF能夠避免標(biāo)注偏置問題的能力,同時也避免了CRF模型所需的復(fù)雜的特征工程,在序列標(biāo)注問題中具備強大的建模能力以及良好的性能,總體流程如圖1所示。

圖1 基于BiLSTM-CRF的軍事命名實體識別方法流程Fig.1 Procedure of military named entity recognition based on BiLSTM-CRF

歷史軍事文本數(shù)據(jù)經(jīng)由簡繁轉(zhuǎn)換、全半角轉(zhuǎn)換等預(yù)處理后,一方面基于詞嵌入技術(shù)學(xué)習(xí)字符的分布式表示,得到字向量查找表,另一方面應(yīng)用BIO標(biāo)注方法對每個句子中的每個字符進行人工標(biāo)注,得到標(biāo)注樣本集;然后,基于標(biāo)注樣本集和字向量查找表,利用BiLSTM神經(jīng)網(wǎng)絡(luò)處理輸入的字符向量序列,統(tǒng)籌上下文語義學(xué)習(xí)任務(wù)特征,并將學(xué)習(xí)到的特征接入線性鏈?zhǔn)綏l件隨機場進行軍事命名實體標(biāo)注,訓(xùn)練生成用于軍事命名實體識別的模型;最后,對于待處理的軍事文本,經(jīng)由簡繁轉(zhuǎn)換、全半角字符轉(zhuǎn)換等預(yù)處理后,輸入軍事命名實體識別的模型進行計算,標(biāo)注文本中的軍事命名實體并輸出,完成軍事命名實體識別。

1.2 字符的分布式表示

首先需要將輸入的軍事文本轉(zhuǎn)換為計算機能夠進行計算的向量形式。傳統(tǒng)針對字/詞的獨熱表示方法,無法捕捉字/詞之間的語義關(guān)系,且存在嚴(yán)重的維度災(zāi)難和數(shù)據(jù)稀疏問題。分布式表示方法能夠把字/詞映射成固定長度的低維、稠密的實值向量表示,并且可以根據(jù)向量空間中字/詞的分布引入距離來衡量字/詞之間的語義相似性,能夠很好地克服獨熱表示的缺點。尤其是在2013年,Mikolov提出word2vec模型[13],分布式表示邁入實用化階段后,深度學(xué)習(xí)在自然語言處理領(lǐng)域中的應(yīng)用達到了一個新高度。

相比于普通實體結(jié)構(gòu),軍事命名實體具有組成復(fù)雜、結(jié)構(gòu)嵌套及較強的領(lǐng)域特點,如“F-22”戰(zhàn)斗機。為有效獲取軍事命名實體中字符間的緊密結(jié)合特征,并回避專業(yè)領(lǐng)域分詞對實體識別帶來的級聯(lián)誤差,本文采用字符級別的分布式表示方法,采用word2vec中的Skip-gram模型在大規(guī)模軍事文本預(yù)料上無監(jiān)督訓(xùn)練出字符向量查找表,將字符向量序列作為模型的初始化輸入。

訓(xùn)練得到的字向量表中共5 000個字符(包括常用漢字、英文字母、數(shù)字、標(biāo)點符號及其他特殊字符)以及它們的數(shù)值向量形式。每個數(shù)值向量有100維,每一維表示一個特征。字向量表查找的過程是讓原始軍事文本中每一個字符在表上查找對應(yīng)的字向量,如果某字符在表中不存在,則被初始化為一個統(tǒng)一的數(shù)值向量。

1.3 BiLSTM-CRF序列標(biāo)注模型

用于軍事命名實體識別的BiLSTM-CRF序列標(biāo)注模型架構(gòu)如圖2所示。

圖2 BiLSTM-CRF模型架構(gòu)Fig.2 Architecture of BiLSTM-CRF model

模型的第1層是字向量映射層。以軍事文本中的句子為單位,將一個含有n個字符的句子(由字符組成的序列)記作x=(x1,x2,...,xn),其中xi表示句子的第i個字符在字典中的ID,進而可以得到每個字符的獨熱向量,維數(shù)是字典大小。利用訓(xùn)練得到的字向量查找表將軍事文本中的每個字符xi由獨熱向量映射為低維稠密的字向量ci∈Rd,d是字向量的維度,作為神經(jīng)網(wǎng)絡(luò)初始輸入的特征向量。

pt=softmax(Wht+b),

式中,W為權(quán)值參數(shù);b為偏置項。計算后,將隱狀態(tài)向量從m維映射到k維,k是標(biāo)注集的標(biāo)簽數(shù),從而得到自動提取的動向文本句子特征,記作矩陣P=(p1p2...pn)∈Rn×k??梢园裵i的每一維pij都視作將字符xi分類到第j個標(biāo)簽的打分值,值越高說明給當(dāng)前字分配該維度對應(yīng)標(biāo)記的可能性越大。LSTM模型訓(xùn)練選用交叉熵建立目標(biāo)函數(shù):

模型的第3層是CRF層,進行句子級的序列標(biāo)注。CRF層的參數(shù)是一個(k+2)×(k+2)的矩陣A,Aij表示從第i個標(biāo)簽到第j個標(biāo)簽的轉(zhuǎn)移得分,進而在為一個位置進行標(biāo)注的時候可以利用此前已經(jīng)標(biāo)注過的標(biāo)簽。如果記一個長度等于句子長度的標(biāo)簽序列為y=(y1,y2,...,yn),則模型對于句子x的標(biāo)簽等于y的打分為:

整個序列的打分等于各個位置的打分之和,而每個位置的打分由2部分得到:LSTM輸出的pi和CRF的轉(zhuǎn)移矩陣A。模型訓(xùn)練時通過最大化對數(shù)似然函數(shù)實現(xiàn)。

2 實驗驗證

2.1 實驗設(shè)置

由于目前沒有比較統(tǒng)一的軍事語料庫,因此采用人工收集的方式構(gòu)建軍事文本數(shù)據(jù)集。數(shù)據(jù)集共包括2 000篇軍事新聞和3 000份軍事報文,總計3 088 098個字符,共標(biāo)注了人物姓名、軍用地名、軍事機構(gòu)名、武器裝備名、設(shè)施目標(biāo)名和部隊名稱6類共109 797個軍事命名實體。數(shù)據(jù)集統(tǒng)計結(jié)果如表1所示。

表1 數(shù)據(jù)集統(tǒng)計Tab.1 Statistics of the dataset

評價指標(biāo)包括正確率P、召回率R和F1值:

2.2 實驗結(jié)果

為了測試本文所提方法在軍事命名實體識別上的效果,實驗采用了5折交叉驗證的方法,即將數(shù)據(jù)集隨機劃分為5份,依次使用4份進行訓(xùn)練,用剩下的1份進行測試,對結(jié)果取平均值。6類軍事命名實體識別結(jié)果如表2所示。

表2 基于BiLSTM-CRF模型的軍事命名實體識別效果

另外,為了驗證基于BiLSTM-CRF模型的軍事命名實體識別方法的有效性,在實驗比較中設(shè)置了BiLSTM模型和LSTM-CRF模型作為對比,結(jié)果如表3所示。

表3 對比實驗結(jié)果Tab.3 Results of the comparison experiment 單位:%

通過對實驗結(jié)果的分析可得,基于BiLSTM-CRF模型的軍事命名實體識別方法在6類軍事命名實體識別的準(zhǔn)確率和召回率均大于80%,且綜合識別性能均優(yōu)于2種基準(zhǔn)方法,驗證了本文所提方法的有效性。

3 結(jié)束語

針對軍事領(lǐng)域命名實體識別,通過對現(xiàn)有方法的研究與應(yīng)用現(xiàn)狀的分析,結(jié)合軍事命名實體組成復(fù)雜、結(jié)構(gòu)嵌套的特點,設(shè)計出了基于BiLSTM-CRF模型的軍事命名實體識別方法并對方法的實現(xiàn)過程進行了詳細論述。實驗結(jié)果表明,本文提出的方法在準(zhǔn)確率和召回率上均優(yōu)于基準(zhǔn)方法,且對于每一類實體的識別均有較好的識別效果,驗證了方法的有效性,具備一定的應(yīng)用前景。

猜你喜歡
字符命名軍事
尋找更強的字符映射管理器
命名——助力有機化學(xué)的學(xué)習(xí)
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村莊和神秘字符
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
軍事幽默:局
軍事文摘(2009年9期)2009-07-30 09:40:44
軍事
軍事幽默
軍事文摘(2009年5期)2009-06-30 01:01:04
五指山市| 陈巴尔虎旗| 育儿| 遂平县| 临邑县| 抚州市| 托克托县| 苏尼特左旗| 昌图县| 怀仁县| 衡东县| 佛教| 桐柏县| 班戈县| 沛县| 宁德市| 隆昌县| 怀远县| 太白县| 正宁县| 台南市| 专栏| 申扎县| 延边| 东港市| 法库县| 新晃| 新化县| 宁海县| 天水市| 耒阳市| 邢台市| 班玛县| 东乡县| 贵德县| 江津市| 方山县| 长兴县| 长乐市| 嘉善县| 凤台县|