中文命名實體識別研究方法綜述

2021-06-29 20:46:32李嘉欣王平

計算機時代 2021年4期

李嘉欣王平

摘? 要：命名實體是存在于現(xiàn)實世界里的事物，它們與現(xiàn)實世界有著相互作用、相互影響的關(guān)系，因此命名實體在一些場景里是很重要的。文章從命名實體識別的定義著手，逐步闡述它從始初到如今的發(fā)展?fàn)顩r和識別方法及手段，分析命名實體識別的主要難點，最后通過命名實體識別的三個評價指標(biāo)來判斷實體的邊界是否正確，以及實體的類型是否標(biāo)注正確。

關(guān)鍵詞：自然語言處理; 命名實體識別; 條件隨機場; 評價指標(biāo); 信息抽取

中圖分類號：TP391? ? ? ? ? 文獻標(biāo)識碼：A? ? ?文章編號：1006-8228（2021）04-18-04

Abstract： Named entities are things that exist in the real world. They interact and influence each other with the real world. Therefore， named entities are very important in some scenarios. Starting with the definition of named entity recognition， this paper gradually elaborates its development from the beginning to the present and its recognition methods and means， and analyzes the main difficulties of named entity recognition， and finally judges whether the entity boundary is correct and whether the entity type is marked correctly through three evaluation indexes of named entity recognition.

Key words： natural language processing; named entity recognition; conditional random fields; evaluation index; information extraction

0 引言

隨著大數(shù)據(jù)時代的出現(xiàn)和機器學(xué)習(xí)的發(fā)展，自然語言處理NLP變得越來越重要，而自然語言處理中的一個熱門的研究方向--命名實體識別NER也發(fā)展了起來。命名實體識別（Namedentityrecognition，NER）是機器翻譯、問答系統(tǒng)、信息抽取和自然語言處理中一項重要的任務(wù)[1]，它的目的是從給出的一段文本中找出其中所有的實體，并將實體的屬類標(biāo)注出來。如今，命名實體識別在生物醫(yī)學(xué)、警情軍事及農(nóng)業(yè)漁業(yè)等方面均有廣泛應(yīng)用。

1 命名實體識別的定義

在1991年LisaF.Rau[2]研究如何從文本中抽取公司的名稱，論文主要是將人工編寫規(guī)則的方法與啟發(fā)式算法結(jié)合以此來實現(xiàn)公司名稱識別的問題。在1993年宋柔等[3]人出了一本基于規(guī)則庫的識別方法的書用于識別人名。命名實體識別被正式的提出是在1995年的第六屆MUC會議上，在之后的第七屆MUC會議上給出了命名實體識別需要識別的三大類和七小類的實體。后來在CONLL會議上將其定義為包含名稱的短語[5]。SIGHANBakeoff-2006，Bakeoff-2007等也大多采用了這種分類[1]。除了主流的NER評測會議之外，Petasis、Alfonseca、Sekine、Borrega、Marrero等[1]學(xué)者也對命名實體的含義和類型進行熱烈的討論。

2 命名實體識別的研究方法

早期用來命名實體識別的方法主要是基于規(guī)則的方法和基于字典的方法，但隨著語料的增加制定的規(guī)則也將越來越繁瑣，使用基于規(guī)則的方法和基于字典的方法就會過于費時費力。隨著大數(shù)據(jù)時代的到來，如HMM、SVM和CRF等傳統(tǒng)的機器學(xué)習(xí)方法也被學(xué)者用于命名實體識別的任務(wù)上，到后期的深度學(xué)習(xí)方法，將神經(jīng)網(wǎng)絡(luò)模型引入進行命名實體識別和近期開始將注意力機制和遷移學(xué)習(xí)應(yīng)用其中，命名實體識別的發(fā)展正受到了各方面的持續(xù)關(guān)注。

2.1 基于詞典和規(guī)則的方法

在正式提出命名實體概念后，早期的研究主要是采用規(guī)則和字典的方法[6]。基于規(guī)則的方法和基于字典的方法都是要構(gòu)建大量的規(guī)則集或字典，然后按照需求將需要識別的漢字串放入制定的規(guī)則集中或與所構(gòu)建的字典進行匹配，經(jīng)過多次修正直到匹配成功。但這種方法只能在小數(shù)據(jù)集上得到很好的準(zhǔn)確率，而隨著數(shù)據(jù)集中數(shù)據(jù)的增加這種方式變得不再適用。

由于使用基于詞典和規(guī)則的方法進行命名實體識別存在限制，它只能在特定的語料上識別能夠得到很高的準(zhǔn)確度，這樣隨著需要識別的實體多樣化就需要制定更多的規(guī)則和更大的詞典，這樣的工作也會越來越重和越來越復(fù)雜。而隨著機器學(xué)習(xí)的發(fā)展，在進行命名實體識別的任務(wù)時也開始考慮基于統(tǒng)計機器學(xué)習(xí)的方法。

2.2 基于統(tǒng)計機器學(xué)習(xí)的方法

基于統(tǒng)計機器學(xué)習(xí)的方法有基于隱馬爾可夫模型（HiddenMarkovMode，HMM）的方法、基于最大熵（MaxmiumEntropy）的方法、基于支持向量機（SupportVectorMachine，SVM）的方法和基于條件隨機場（ConditionalRandomFields，CRF）的方法。

2.2.1 統(tǒng)計機器學(xué)習(xí)方法在NER的第一步

第一個基于支持向量機（SVM）的NE系統(tǒng)是由Yamada等人在2001年提出來的。

2002年HidekiIsozak和HidetoKazawa將支持向量機應(yīng)用在命名實體識別任務(wù)上。同年，McCallum等人將條件隨機場也應(yīng)用到命名實體識別的任務(wù)上。

在2004年莊明，老松楊，吳玲達[7]等人提出了基于統(tǒng)計的命名實體識別的方法。該方法首先將一段文本切分為幾段較短的句子，再使用自增長統(tǒng)計算法從切分后的句子中生成最初的數(shù)據(jù)集，并利用得到的信息篩選出實體。這個方法不需要建立專業(yè)領(lǐng)域的大規(guī)模語料庫，而是基于文本自身的用詞特點進行統(tǒng)計分析，在實驗中取得了良好的效果。但它的缺點是對帶有前綴的模式的生成過程難以進行有效分析而且自增長生成算法作為一種統(tǒng)計方法對低頻詞條無法有效識別。

2.2.2 統(tǒng)計機器學(xué)習(xí)方法在NER的第二步

繼統(tǒng)計機器學(xué)習(xí)的方法提出之后，人們嘗試使用統(tǒng)計與規(guī)則結(jié)合的方法用于命名實體識別。如2005年向曉雯等[8]采用了統(tǒng)計與規(guī)則結(jié)合的方法進行命名實體識別，其首先使用HMM模型對文本做詞性標(biāo)注，然后使用制定好的規(guī)則對已經(jīng)標(biāo)注的文本再有一個修改的過程，他們采用的這種方法來做命名實體識別時，其三項評價標(biāo)準(zhǔn)均得到較高的數(shù)值。

2006年張劍[9]主要是對英文文本進行命名實體識別的研究，文中分別利用了改進的隱馬爾可夫模型和條件隨機域模型兩種方法進行英文文本的命名實體識別，這個方法既兼顧了每個句子內(nèi)部的局部特征又兼顧到每個詞在同一文檔中全局特征。同年，Okanohara[10]在生物領(lǐng)域上使用改進的半監(jiān)督條件隨機場模型進行命名實體識別，主要用于識別蛋白質(zhì)，DNA和RNA等實體。

2009年高國洋，戚銀城，潘德鋒[11]等對中文地名識別進行了研究，提出了一種結(jié)合多知識的識別方法，該方法首先以CRF模型為框架，將專家知識與局部特征以及復(fù)合特征相融合進行命名實體識別;并利用構(gòu)建的規(guī)則庫對識別結(jié)果進行修正。

2010年鞠久朋等[12]也提出將條件隨機場與規(guī)則相結(jié)合的方法用于地理空間中的命名實體識別。

2.3 深度學(xué)習(xí)下的命名實體識別

隨著基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)技術(shù)在機器學(xué)習(xí)領(lǐng)域的發(fā)展越來越深入[4]。尤其是使用詞向量來表示詞語的方法，一方面解決了由于高緯度向量空間的原因?qū)е碌臄?shù)據(jù)稀疏問題，另一方面詞向量本身也比人工選擇的特征包含更多的語義信息，而且該方法可以從異構(gòu)的文本中獲取統(tǒng)一向量空間下的特征表示，給NER中的命名實體識別問題帶來強大的發(fā)展動力。

在2011年Collobert[13]等學(xué)者首次提出基于神經(jīng)網(wǎng)絡(luò)的命名實體識別方法，該方法中每個單詞具有固定大小的窗口，但未能考慮長距離單詞之間的有效信息。

2015年Yonghuiwu[14]等學(xué)者在文中先后使用了兩次深度神經(jīng)網(wǎng)絡(luò)，首先是對未標(biāo)注的文本使用一次深度神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，然后再使用一次深度神經(jīng)網(wǎng)絡(luò)對訓(xùn)練后的詞向量進行實體識別，該方法在生物學(xué)上F值超過了使用統(tǒng)計的方法進行命名實體識別。同時ZhihengHuang[15]等人使用雙向長短期記憶模型用于命名實體，文中采用雙向長短期記憶模型和條件隨機場即BILSTM-CRF模型進行命名實體識別。

2016年XuezheMal和EdurdHovy[16]提出的BILSTM-CNNs-CRF模型，相比于ZhihengHuang提出的BILSTM-CRF模型來說，文中多一步使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量，再將訓(xùn)練后的向量作為雙向長短期記憶模型的輸入，再使用CRF對輸出建立標(biāo)簽關(guān)系，以此來更有效的實現(xiàn)實體識別。

MouradGridach，HatemHaddad在2017年先前用于現(xiàn)代標(biāo)準(zhǔn)阿拉伯語（MSA）的命名實體識別（NER）模型在很大程度上依賴于功能和地名詞典的使用，這非常耗時。在文中介紹了一種基于雙向選通遞歸單元（GRU）結(jié)合條件隨機場（CRF）的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)，這種新穎的體系結(jié)構(gòu)可以消除了對大多數(shù)手工工程功能的需求。

2.4 近期的命名實體識別研究方法

近期的命名實體識別方法除了在循環(huán)神經(jīng)網(wǎng)絡(luò)模型進行模型改進提出門控GRU模型外，還嘗試使用CNN、SVM、Lattice、BERT等模型進行語言預(yù)訓(xùn)練，并在模型中引入注意力機制、遷移學(xué)習(xí)等來提高命名實體識別的準(zhǔn)確度。

周曉磊[17]等人提出了使用SVM-BILSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型對財產(chǎn)糾紛案件進行命名實體識別。文中提出構(gòu)建一個關(guān)于財產(chǎn)糾紛裁判文書的語料庫，首先使用支持向量機將文本中包含實體的句子篩選出來，然后輸入給BILSTM-CRF模型進行訓(xùn)練，最后使用訓(xùn)練好的模型對財產(chǎn)糾紛裁判文書進行命名實體識別王博冉[18]等人方法利用LatticeLSTM模型來提取句子中的詞匯詞，從而將文本中詞信息輸入到基于字符的循環(huán)神經(jīng)網(wǎng)絡(luò)-條件隨機場模型中。與基于字符和基于詞的命名實體識別方法相比，本文提出模型的優(yōu)勢是其利用顯性詞匯信息而不是字符序列進行標(biāo)注，且得到的分詞誤差率也得到了大幅度下降。

王子牛[19]等人提出了基于BERT的神經(jīng)網(wǎng)絡(luò)方法進行命名實體識別。BERT預(yù)訓(xùn)練語言模型具有雙向Transformer結(jié)構(gòu)不僅可以增強字的語義表示，還可以根據(jù)其上下文生成語義向量。文中提出的方法結(jié)合BERT和BILSTM-CRF模型對中文實體進行識別，以無需添加任何特征的方式提升了實體識別的準(zhǔn)確率、召回率及F1值，驗證了該方法的有效性。

武惠[20]等人提出了一種基于遷移學(xué)習(xí)的命名實體識別模型即TrBILSTM-CRF模型，該模型通過遷移學(xué)習(xí)算法將源域的信息遷移到所需的目標(biāo)域中以此可以從其他領(lǐng)域獲取到目前工作任務(wù)中所需要的信息。實驗結(jié)果表明，TrBILSTM-CRF模型在小規(guī)模數(shù)據(jù)集上進行中文機構(gòu)名命名實體識別時，其準(zhǔn)確率、召回率和F值相比于其他方法，取得了較好的效果。

3 命名實體識別的研究難點

由于中文的多樣性且并沒有可以將其劃分開的明顯標(biāo)注，這導(dǎo)致我們在對中文進行命名實體識時會更加的困難。實體能否被準(zhǔn)確的從文本中識別出來主要在這兩個方面：是否可以準(zhǔn)確的劃分出實體的邊界;是否可以準(zhǔn)確的判斷出實體屬類。

中文命名實體識別的難點有以下幾個方面。

⑴ 命名實體的定義：在對中文進行實體識別時，可以發(fā)現(xiàn)中文實體的數(shù)量龐大且屬類也很模糊，這就導(dǎo)致我們在對中文命名實體進行定義時會有很大的分歧。首先是在對其進行命名實體識別時需要大量的標(biāo)注數(shù)據(jù)而這恰恰也是我們?nèi)鄙俚?，而且在對?shù)據(jù)進行標(biāo)注時還需要有一個命名實體的標(biāo)準(zhǔn)，這也是目前的難點之一。

⑵ 歧義的消解：傳統(tǒng)的詞典規(guī)則方法可以很容易召回文本序列中在詞表匹配到的詞，但它的局限在無法解決歧義問題。一種典型的歧義是多種可能劃分的問題，比如下面這個例子。輸入序列：看到良方正在澆花?？梢苑譃椋嚎吹?良方/正在/澆花;也能分為：看到/良方正/在/澆花。

⑶ 邊界的界定：雖然深度學(xué)習(xí)對歧義的消解有顯著優(yōu)勢，但它通常會遇到的問題是對新詞的邊界把握模糊。而詞典中包含了大量詞的邊界信息。因此如何把詞典信息融入到深度學(xué)習(xí)模型中是近幾年研究的主流?，F(xiàn)如今的方法是先對文本進行中文分詞，再對得到的詞進行標(biāo)注。

⑷ 缺少標(biāo)注數(shù)據(jù)：我們在進行命名實體識別的過程中不可缺少的就是已經(jīng)標(biāo)注好的數(shù)據(jù)，這也是在進行機器訓(xùn)練中不能缺少的一環(huán)。但這些標(biāo)注好的數(shù)據(jù)都是需要人工去標(biāo)注的，這樣就需要更多的人力投入到這個過程中，而這個已有的標(biāo)注數(shù)據(jù)并不完全適用于各個領(lǐng)域，這樣，在我們對特殊領(lǐng)域進行命名實體識別時就必須先人工構(gòu)建這個領(lǐng)域的標(biāo)注數(shù)據(jù)庫，一旦這個標(biāo)注數(shù)據(jù)庫不夠準(zhǔn)確或者數(shù)據(jù)不夠多，就會使得計算機的學(xué)習(xí)能力大幅度下降且難以訓(xùn)練出好的結(jié)果，這也是命名實體識別的難點之一。

4 展望

命名實體識別作為機器翻譯、問答系統(tǒng)、信息抽取和自然語言處理的研究熱點之一。通過閱讀，近年來學(xué)者們在神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上通過引入注意力機制和遷移學(xué)習(xí)等方法以此取得了大量新的研究成果，而命名實體識別未來的發(fā)展也將圍繞這些方面。如今我們通過構(gòu)建法律、生物、醫(yī)學(xué)、軍事等領(lǐng)域的數(shù)據(jù)庫并在該數(shù)據(jù)庫上進行實驗，都取得了不錯的結(jié)果。

但這里不可避免會遇到未登錄詞的問題，未登錄詞指的是那些沒有被收錄在詞典中但必須切分出來的詞。而如何識別并處理未登錄詞將是命名實體識別未來的一個重要研究方向。因此，后面的工作我們不僅要將已有的命名實體識別方法應(yīng)用在各個領(lǐng)域上還要通過不斷的改進模型來提高命名實體識別的準(zhǔn)確度，并在命名實體識別的基礎(chǔ)上對未登錄詞展開研究。

參考文獻（References）：

[1] 劉瀏，王東波.命名實體識別研究綜述[J].情報學(xué)報，2018.37（3）：329-340

[2] RauLF.Extracting Company Names from Text[C].In：Proceeding softhe 7th IEEE Conference on Artificial Intelligence Applications.1991：29-32

[3] 宋柔.基于語料庫和規(guī)則庫的人名識別方法[M].計算語言學(xué)研究與應(yīng)用，北京語言學(xué)院出版社，1993.

[4] 陳曙東，歐陽小葉.命名實體識別技術(shù)綜述[J].無線電通信技術(shù)，2020.46（3）：251-260

[5] Grishman R，Sundheim B.Message Understanding?Conference-6：ABriefHistory[C].In：Proceeding softhe 16th International Conferenceon Computational Linguistics，1996.

[6] 隋臣.基于深度學(xué)習(xí)的中文命名實體識別研究[D].浙江大學(xué)碩士學(xué)位論文，2017.

[7] 莊明，老松楊，吳玲達.一種統(tǒng)計和詞性相結(jié)合的命名實體發(fā)現(xiàn)方法[J].計算機應(yīng)用，2004.1：22-24

[8] 向曉雯，史曉東，曾華琳.一個統(tǒng)計與規(guī)則相結(jié)合的中文命名實體識別系統(tǒng)[J].計算機應(yīng)用，2005.10：2404-2406

[9] 張劍.基于CRF的英文命名實體識別研究[D].哈爾濱工業(yè)大學(xué)碩士學(xué)位論文，2006.

[10] Daisuke Okanohara，Yusuke Misyao.Yoshimasa Tsuruka.Improvingthe Scalability of Semi-Markov Conditional Random Fiekds for Named Entity Recognition[C].Proceeding softhe21 "International Conferenceon Computational Linguisticsand 44th Annual Meetingofthe ACL，2006：465-472

[11] 高國洋，戚銀城，潘德鋒.基于條件隨機場與規(guī)則相結(jié)合的中文地名識別[J].電腦開發(fā)與應(yīng)用，2009.22（8）：26-28

[12] 鞠久朋，張偉偉，寧建軍，周國棟.CRF與規(guī)則相結(jié)合的地理空間命名實體識別[J].計算機工程，2011.37（7）：210-212，215

[13] COLLOBERTR，WESTONJ，BOTTOUL，etal.Natural Language Processing（almost） from Scratch[J].Journal of Machine Learning Research，2011.12（Aug）：2493

[14] YonghuiW，MinJiang，JianboLei，HuaXu.Named Entity Recognitionin Chinese Clinical Text Using Deep Neural Network.Studiesin Health Technology and Informatics，2015：624-628

[15] Zhiheng Huang，Wei Xu and Kai Yu.Bidirectional LSTM-CRF Models for Sequence Tagging[J].arXiv，2015.1508.01991

[16] MAX，HOVYE.End-to-end Sequence Labeling ViaBi-directional LSTM-CNNs-CRF[J].arXivpreprintarXiv：1603.01354，2016.

[17] 周曉磊，趙薛蛟，劉堂亮，宗子瀟，王其樂，里劍橋.基于SVM-BILSTM-CRF模型的財產(chǎn)糾紛命名實體識別方法[J].計算機系統(tǒng)應(yīng)用，2019.28（1）：245-250

[18] 王博冉，林夏，朱曉東，朱萬琳，馬學(xué)華.LatticeLSTM神經(jīng)網(wǎng)絡(luò)法中文醫(yī)學(xué)文本命名實體識別模型研究[J].中國衛(wèi)生信息管理雜志，2019.16（1）：84-88

[19] 王子牛，姜猛，高建瓴，陳婭先.基于BERT的中文命名實體識別方法[J].計算機科學(xué)，2019.46（S2）：138-142

[20] 武惠，呂立，于碧輝.基于遷移學(xué)習(xí)和BILSTM-CRF的中文命名實體識別[J].小型微型計算機系統(tǒng)，2019.40（6）：1142-1147

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中文命名實體識別研究方法綜述