中文領(lǐng)域命名實(shí)體識別綜述

2021-08-19 10:35焦凱楠朱容辰

計算機(jī)工程與應(yīng)用 2021年16期

焦凱楠，李欣，2，朱容辰

1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院，北京100038

2.安全防范技術(shù)與風(fēng)險評估公安部重點(diǎn)實(shí)驗室，北京100026

命名實(shí)體識別（Named Entity Recognition，NER）是自然語言處理（Natural Language Processing，NLP）領(lǐng)域的子任務(wù)，通常解釋為從一段非結(jié)構(gòu)化文本中，將那些人類通過歷史實(shí)踐規(guī)律認(rèn)識、熟知或定義的實(shí)體識別出來，同時也代表了具有根據(jù)現(xiàn)有實(shí)體的構(gòu)成規(guī)律發(fā)掘廣泛文本中新的命名實(shí)體的能力。實(shí)體是文本中意義豐富的語義單元，識別實(shí)體的過程分為兩階段，首先確定實(shí)體的邊界范圍，然后將這個實(shí)體分配到所屬類型中去[1]。

1991年Rau[2]隱式地提出了NER任務(wù)，需求是從文本中提取公司名稱。在1996年之后，NER作為信息抽取的一項子任務(wù)的屬性在第六屆消息理解會議（Message Understanding Conference 6，MUC-6）上被正式確立。

NER的提取對象隨著相關(guān)評測會議的進(jìn)行不斷豐富。最先開始的英文文本實(shí)體集中在三大基本類[3]——person（人物）、organization（組織機(jī)構(gòu)）、geographical location（地理位置）上，同時輔助于currency（貨幣）、time（時間日期）、percentage expression（百分?jǐn)?shù)表達(dá)式）的識別，前者屬于實(shí)體類（entity type），后者屬于數(shù)字類（numeric type）。而person類下包含了名字、昵稱、代稱[4]、外文譯名[5]等識別任務(wù)，location類對城市、道路、區(qū)劃等名詞進(jìn)行識別。隨著NER研究的推進(jìn)，提取實(shí)體范圍更廣，實(shí)體分類更加精細(xì)，不同語種、不同學(xué)科領(lǐng)域被包含進(jìn)來。

NER技術(shù)隨著相關(guān)評測會議的舉辦逐漸明確研究目標(biāo)[6]。英文NER技術(shù)對于中文NER發(fā)展具有借鑒意義，中英文的構(gòu)成差異和中文顯著區(qū)別于英文的特性，促進(jìn)了相關(guān)中文評測會議的發(fā)展。英文是單詞和符號的組合，英文單詞由空格隔開，具有大小寫、詞根詞綴等特性。中文由單個漢字和符號組成，因此中文NLP研究最初集中在漢語自動化分詞[7]上，中文NER相較于英文文本缺少了一些單詞粒度信息。

促進(jìn)中文NER發(fā)展的會議有SigHAN、863中文IP評測會議等。NER在SIGHAN Bakeoff-2010之后[6]，不再作為評測任務(wù)出現(xiàn)，后續(xù)如命名實(shí)體消歧、命名實(shí)體鏈接任務(wù)被加入信息抽取任務(wù)中，NER最新進(jìn)展被發(fā)表在ACL、AAAI、COLING、EMNLP、NAACL等NLP頂級會議中[1]。

1 中文領(lǐng)域命名實(shí)體識別

面向特定領(lǐng)域的NER任務(wù)——領(lǐng)域命名實(shí)體識別（Domain Named Entity Recognition，DNER）產(chǎn)生于工業(yè)界對于NER業(yè)務(wù)場景的開放與擴(kuò)展。中文DNER是在中文NER所識別的基本實(shí)體類別上提出的領(lǐng)域適應(yīng)分類方案。表1列出了部分領(lǐng)域與所識別實(shí)體的對應(yīng)關(guān)系。

表1 特定領(lǐng)域與對應(yīng)實(shí)體Table 1 Specific domain and corresponding entities

這些領(lǐng)域的實(shí)體類型不盡相同，卻是組成各自領(lǐng)域文本的基本語義單元。部分實(shí)體也是對三大類基本實(shí)體的細(xì)粒度在場景下的擴(kuò)充，如訴訟當(dāng)事人、恐怖分子等實(shí)體類型是person類實(shí)體在具體場景下的細(xì)化。

1.1 中文領(lǐng)域命名實(shí)體識別分類

DNER屬于NER面向不同行業(yè)領(lǐng)域的子任務(wù)，DNER技術(shù)依賴于NER技術(shù)發(fā)展，DNER廣度取決于我國工業(yè)化場景的集合，依據(jù)2017年國家標(biāo)準(zhǔn)《國民經(jīng)濟(jì)行業(yè)分類》將我國行業(yè)分為20個門類、97個大類等。表2分別展示了行業(yè)門類信息和根據(jù)該分類標(biāo)準(zhǔn)統(tǒng)計所得的DNER研究及論文情況。

以搜索條件“篇名：實(shí)體識別”在知網(wǎng)得到的603篇文獻(xiàn)標(biāo)題經(jīng)過jieba分詞、去除論文標(biāo)題常用停用詞作為統(tǒng)計總數(shù)。因搜索條件嚴(yán)格限制了領(lǐng)域關(guān)鍵詞必須出現(xiàn)在論文標(biāo)題內(nèi)，同時未納入同時段英文論文發(fā)表數(shù)目，因此所得數(shù)目與實(shí)際研究數(shù)量會有稍許差異。表2說明了衛(wèi)生和社會工作類研究比例突出，占所有文獻(xiàn)的70.3%。

1.2 中文領(lǐng)域命名實(shí)體識別的作用

由表2可知，某一個領(lǐng)域頻繁地被選擇代表該領(lǐng)域?qū)τ贜ER技術(shù)的迫切需求，如通過挖掘日產(chǎn)且數(shù)量巨大的半結(jié)構(gòu)化電子病歷以助力現(xiàn)代化醫(yī)療的建設(shè)，通過挖掘日產(chǎn)且龐雜的社交媒體信息反映大眾偏好，通過挖掘涉恐新聞報道中潛在恐怖組織痕跡對于維護(hù)現(xiàn)代化社會的和平穩(wěn)定具有重要意義。

研究集中的領(lǐng)域使得NER技術(shù)的迭代速度加快，使復(fù)用到其他領(lǐng)域的可能性驗證實(shí)驗周期縮短。技術(shù)與產(chǎn)業(yè)的結(jié)合作為驅(qū)動力，使某個趨于成熟的DNER形成了一套從數(shù)據(jù)預(yù)處理、模型選擇、領(lǐng)域內(nèi)新實(shí)體的處理框架，復(fù)用至其他DNER中，加快產(chǎn)業(yè)文本的結(jié)構(gòu)化速度。表2隱含的DNER不均衡發(fā)展情況是領(lǐng)域遷移能力不成熟的體現(xiàn)，這受限于NER技術(shù)基礎(chǔ)。DNER不僅致力于特定領(lǐng)域?qū)嶓w識別準(zhǔn)確率的提高，也對新領(lǐng)域?qū)嶓w提取效率的提高提出了要求。

表2 行業(yè)門類所對應(yīng)領(lǐng)域NERTable 2 Industry category corresponding to domain NER

NER是NLP領(lǐng)域的重要基礎(chǔ)任務(wù)，其基礎(chǔ)性正體現(xiàn)在NER任務(wù)性能的提高進(jìn)一步有利于非結(jié)構(gòu)化文本朝結(jié)構(gòu)化文本的轉(zhuǎn)化，有利于大數(shù)據(jù)時代中分類別大型知識庫的構(gòu)建，有利于問答對話系統(tǒng)的精準(zhǔn)意圖識別，有利于機(jī)器翻譯中正確的槽位填充等。隨著NER識別自然語言中已有類別的新實(shí)體的能力和新類別的新實(shí)體的能力的提高，現(xiàn)有知識庫得到了擴(kuò)充，從而推動了在此基礎(chǔ)上人工智能與自然語言知識圖譜的發(fā)展[1]。

2 中文領(lǐng)域命名實(shí)體識別構(gòu)成

2.1 中文領(lǐng)域命名實(shí)體識別框架

DNER框架參照NER的一般研究流程，如圖1所示。當(dāng)DNER研究領(lǐng)域確定后，需要完成的NER基礎(chǔ)操作如數(shù)據(jù)源的獲取、評價指標(biāo)的確立等，之后在技術(shù)選擇階段根據(jù)領(lǐng)域及數(shù)據(jù)集特點(diǎn)制定相應(yīng)的方法。

圖1 中文領(lǐng)域命名實(shí)體識別框架Fig.1 Chinese domain named entity recognition framework

2.2 領(lǐng)域數(shù)據(jù)源確定

確定提取領(lǐng)域后，根據(jù)領(lǐng)域數(shù)據(jù)來源的差異來輔助確定實(shí)體類型。當(dāng)數(shù)據(jù)源包含新聞文本時，實(shí)體類型需包含person、location、organization三類基本實(shí)體在領(lǐng)域內(nèi)的細(xì)粒度角色。如在制定影視DNER實(shí)體標(biāo)簽時，明星、電視劇都是構(gòu)建影視知識圖譜所需的基本實(shí)體單元，明星既是person類實(shí)體在娛樂領(lǐng)域的細(xì)化，亦是娛樂領(lǐng)域的獨(dú)有實(shí)體，即訓(xùn)練好的NER模型會把娛樂新聞中出現(xiàn)的人名識別為明星、導(dǎo)演等細(xì)化角色。三類基本實(shí)體的數(shù)據(jù)來源多為評測會議數(shù)據(jù)集，多由新聞文本組成，如表3所示。因此當(dāng)研究領(lǐng)域的數(shù)據(jù)源包含新聞時，待識別實(shí)體類型需包含以上三類基本實(shí)體。

表3 公開數(shù)據(jù)集與實(shí)體類型Table 3 Exposed data sets and entity types

領(lǐng)域數(shù)據(jù)源還包括領(lǐng)域?qū)I(yè)文本，此時需要根據(jù)專業(yè)文本特點(diǎn)制定實(shí)體規(guī)范。如涉恐、軍事領(lǐng)域的數(shù)據(jù)既包含了互聯(lián)網(wǎng)公開數(shù)據(jù)，也囊括了保密數(shù)據(jù)如作戰(zhàn)文書、專業(yè)數(shù)據(jù)，如GTD[10]（Global Terrorism Database）。表4列出了一些領(lǐng)域的專業(yè)文本來源。領(lǐng)域?qū)I(yè)文本有相關(guān)規(guī)范文件予以背書，識別需求與任務(wù)關(guān)系明確，將專業(yè)相關(guān)術(shù)語、文獻(xiàn)配合以任務(wù)驅(qū)動，使得實(shí)體規(guī)范不易產(chǎn)生歧義并能迅速投入標(biāo)注過程。

表4 領(lǐng)域的專業(yè)數(shù)據(jù)來源Table 4 Professional domain data sources

2.3 領(lǐng)域?qū)嶓w類型及規(guī)范制定

DNER需要嚴(yán)格實(shí)體標(biāo)簽，也稱為實(shí)體類型。領(lǐng)域內(nèi)實(shí)體各具特點(diǎn)，需制定適應(yīng)實(shí)體識別框架的領(lǐng)域?qū)嶓w規(guī)范。如圖2所示，確定領(lǐng)域后，若領(lǐng)域數(shù)據(jù)包含新聞類數(shù)據(jù)源，則實(shí)體類型需要包含三大類基本實(shí)體——person、location、organization在領(lǐng)域場景下的細(xì)化角色；若數(shù)據(jù)來源主要為專業(yè)文獻(xiàn)及出版物，則實(shí)體類型根據(jù)業(yè)務(wù)需求制定。細(xì)化角色的確定及具體的實(shí)體類型規(guī)范由領(lǐng)域?qū)＜覅⒖济?guī)范類書籍討論或依據(jù)本體構(gòu)建。

圖2 中文領(lǐng)域?qū)嶓w規(guī)范Fig.2 Chinese domain entity specification

實(shí)體規(guī)范制定難點(diǎn)之一在于工業(yè)場景對于實(shí)體的細(xì)粒度化。細(xì)粒度實(shí)體識別是在基本實(shí)體范疇下的細(xì)化方案，如person類下的明星實(shí)體。OntoNotes[8]數(shù)據(jù)集最早提出細(xì)化實(shí)體粒度方案，在7大類下制定了45個子類，為相關(guān)領(lǐng)域具體實(shí)體制定提供了解決思路。表5列出了三類基本實(shí)體的細(xì)化方案，當(dāng)前基本實(shí)體的識別效果出色，但在具體領(lǐng)域下，盡管識別的實(shí)體屬于三類的子類，但因子類標(biāo)簽固有的一層語義關(guān)系易使識別產(chǎn)生混淆，從而對此類DNER提出了挑戰(zhàn)。

表5 三大類實(shí)體細(xì)化方案列舉Table 5 Enumeration of detailed schemes for three major categories of entities

難點(diǎn)二是特定領(lǐng)域內(nèi)實(shí)體標(biāo)準(zhǔn)未被唯一確定，領(lǐng)域語料庫無法融合。表6中的軍事實(shí)體類型的制定依據(jù)均為具有軍事意義的實(shí)體，但差異在于實(shí)體類型名、實(shí)體類數(shù)目、細(xì)粒度實(shí)體定義、數(shù)據(jù)來源的確定，這四點(diǎn)差異使得不同學(xué)者構(gòu)建的軍事實(shí)體語料集和提出的相關(guān)算法無法及時遷移和比較。

表6 軍事領(lǐng)域?qū)嶓w細(xì)化方案列舉Table 6 Enumeration of detailed schemes for military entities

領(lǐng)域?qū)嶓w規(guī)范一般由領(lǐng)域?qū)＜覅⒖枷嚓P(guān)專業(yè)規(guī)范根據(jù)業(yè)務(wù)聯(lián)合確定。如表4所示，專業(yè)特征極強(qiáng)、區(qū)分力強(qiáng)的實(shí)體領(lǐng)域包括醫(yī)學(xué)、數(shù)學(xué)等學(xué)科領(lǐng)域，橋梁檢測、航天等工業(yè)領(lǐng)域。醫(yī)學(xué)領(lǐng)域的蛋白質(zhì)、疾病等實(shí)體，化學(xué)領(lǐng)域的有機(jī)物等實(shí)體不屬于三大基本類別，不因數(shù)據(jù)源的不同而產(chǎn)生歧義，同時有權(quán)威出版規(guī)范加以背書，實(shí)體規(guī)范更易制定，標(biāo)注更易進(jìn)行，面對新實(shí)體的出現(xiàn)也更易進(jìn)行更新和補(bǔ)充。

在制定領(lǐng)域?qū)嶓w規(guī)范時參考與之任務(wù)相近領(lǐng)域的實(shí)體規(guī)范，能夠減少實(shí)體類別歧義，如表7所示，軍事、涉恐領(lǐng)域因涉及國際形勢研判，數(shù)據(jù)源存在交叉，制定出的實(shí)體有相似之處。

表7 反恐領(lǐng)域?qū)嶓w及數(shù)據(jù)來源Table 7 Entities and data sources in field of counter-terrorism

基于本體理論[17]制定領(lǐng)域?qū)嶓w類型，以文本結(jié)構(gòu)化為目標(biāo)，將提取的實(shí)體作為實(shí)例化本體元素并按照本體結(jié)構(gòu)存入知識庫中，是知識庫填充的技術(shù)基礎(chǔ)。有學(xué)者[17]歸納總結(jié)領(lǐng)域知識，構(gòu)建了審判文書本體提取司法領(lǐng)域?qū)嶓w。本體推理技術(shù)的發(fā)展如類的一致性檢查[18]，可以避免定義本體直接運(yùn)行后出現(xiàn)的類不一致錯誤，在理論層面解決實(shí)體類型之間的矛盾。

較低的領(lǐng)域?qū)嶓w規(guī)范認(rèn)同度使得人類表現(xiàn)低于深度學(xué)習(xí)NER模型的表現(xiàn)。有學(xué)者提出限制性標(biāo)注原則[19]，明確了實(shí)體標(biāo)注不重疊、不嵌套、不包含標(biāo)點(diǎn)符號。強(qiáng)制規(guī)定實(shí)體不會跨越標(biāo)點(diǎn)符號有助于標(biāo)注方案的實(shí)際執(zhí)行，從制定實(shí)體規(guī)范到標(biāo)注工程仍然富含挑戰(zhàn)，不僅需要培訓(xùn)專業(yè)標(biāo)注人員保證標(biāo)注不能自相矛盾，還需檢驗標(biāo)注數(shù)據(jù)集質(zhì)量。醫(yī)學(xué)領(lǐng)域提出了IAA檢測[20]，標(biāo)注后由不同專家進(jìn)行交叉檢驗，根據(jù)指標(biāo)估計標(biāo)注體系的合理性，該方法逐漸被其他領(lǐng)域采用。

綜上可知，DNER的第一步是數(shù)據(jù)源的選取，第二步是根據(jù)任務(wù)需求嚴(yán)格制定實(shí)體類型并制定提取標(biāo)準(zhǔn)。健壯的實(shí)體類型規(guī)范有助于領(lǐng)域語料庫匯集，表3中的評測會議數(shù)據(jù)集具有質(zhì)量高但覆蓋領(lǐng)域不全面的特點(diǎn)，此時領(lǐng)域語料集的補(bǔ)充顯得尤為重要。

2.4 領(lǐng)域標(biāo)注數(shù)據(jù)集的標(biāo)注規(guī)范

數(shù)據(jù)集標(biāo)注規(guī)范即命名實(shí)體輸入模型前的表示。主要標(biāo)準(zhǔn)標(biāo)注規(guī)范由評測會議制定，為多數(shù)研究所認(rèn)可，也可根據(jù)實(shí)體類型自行制定。常見標(biāo)注規(guī)范如下：

（1）BIO，自CoNLL 2003使用。創(chuàng)新性提出以flagcategory方式進(jìn)行標(biāo)注，B代表實(shí)體首部，B-school表示一個school實(shí)體首部；I代表實(shí)體內(nèi)部或結(jié)束，I-person表示一個person實(shí)體內(nèi)部或尾部；O代表非命名實(shí)體，標(biāo)注規(guī)范約束了B-school后應(yīng)為I-school而非I-person。根據(jù)模型需要利用的信息以及原始數(shù)據(jù)集是否需預(yù)先分詞，標(biāo)注粒度可分為詞語級和字級，如圖3所示。

圖3 BIO標(biāo)注規(guī)范Fig.3 BIO annotation specification

（2）BIOES，BIO的擴(kuò)展。在BIO的基礎(chǔ)上，使E表示實(shí)體尾部；I僅表示實(shí)體內(nèi)部成分；S表示由一個詞或字構(gòu)成的單獨(dú)命名實(shí)體，區(qū)別于B（I*）E形式的復(fù)雜實(shí)體；O含義不變。

（3）Markup標(biāo)注，為OntoNotes[8]使用，是一種類XML規(guī)范。使用字段設(shè)置類型，表示實(shí)體型實(shí)體標(biāo)簽，表示數(shù)字型實(shí)體標(biāo)簽，如圖4所示。

圖4 Markup標(biāo)注規(guī)范Fig.4 Markup annotation specification

有學(xué)者使用中文分詞任務(wù)的BMES標(biāo)注規(guī)范[21]進(jìn)行實(shí)體標(biāo)注，BMES字母含義類似于BIOES；在此基礎(chǔ)上有學(xué)者擴(kuò)充了刑事案件文本實(shí)體標(biāo)簽[22]，提出含7個標(biāo)注符號的bmelros體系，其中b、e是實(shí)體左右邊界，m是實(shí)體內(nèi)部，l、r分別為實(shí)體左、右提示詞，s和o繼承自BIOES。具體標(biāo)注規(guī)范的選擇由數(shù)據(jù)集及訓(xùn)練方式?jīng)Q定，選擇字或詞來標(biāo)注取決于算法利用字級別或詞級別信息。BIOES標(biāo)注規(guī)范因更準(zhǔn)確地指代了實(shí)體的內(nèi)部特征，被證明能提高識別效率[23]，但后續(xù)深度學(xué)習(xí)出現(xiàn)的預(yù)訓(xùn)練語言模型使用了BIO標(biāo)注，BIO與BIOES格式可輕松進(jìn)行轉(zhuǎn)化。

2.5 領(lǐng)域評價指標(biāo)確定

NER常用評價指標(biāo)有precision（精確率）、recall（召回率）、F1，有時以Micro-F1、Macro-F1來輔助評定識別效果。

對輸入模型句子中的每一個token進(jìn)行多分類。NER中的gold_tag代表真實(shí)標(biāo)簽，predict_tag代表預(yù)測標(biāo)簽，若需要識別出N類實(shí)體，則為任一類實(shí)體i，i∈N，計算：

TPi：gold_tag與predict_tag均為i的token數(shù)目。

TNi：predict_tag、gold_tag均非i的token數(shù)目。

FPi：predict_tag為i、gold_tag非i的token數(shù)目。

FNi：predict_tag非i、gold_tag為i的token數(shù)目。

precision：識別正確的實(shí)體標(biāo)簽數(shù)量占全部predict_tag標(biāo)簽為該實(shí)體標(biāo)簽標(biāo)記數(shù)量的比例。

recall：識別正確的實(shí)體標(biāo)簽數(shù)量占全部gold_tag為該實(shí)體標(biāo)簽的比例。

Micro-F1：將為每一類實(shí)體i計算precisioni和recalli時所需的基礎(chǔ)因子TPi、FPi、FNi加權(quán)求和運(yùn)算得到precisionmicro和recallmicro，并代入F1的運(yùn)算公式。

由公式可以看出，Micro-F1受各類別實(shí)體數(shù)目分布的影響，若數(shù)據(jù)集中實(shí)體分布不均，則Micro-F1能夠客觀描述提取效果。

Macro-F1：將所有類別的precision總和與recall總和分別求平均值，并代入F1公式進(jìn)行運(yùn)算。

由公式可以看出，Macro-F1不考慮各類別實(shí)體數(shù)目具體分布的影響，被具有較高precision和recall的實(shí)體類別所影響。

由上述計算公式可知，NER評估指標(biāo)一般在token級別上計算，即在逐字標(biāo)注的基礎(chǔ)上，判斷每個字與對應(yīng)答案是否一致，而不考慮字前后是否屬于相同實(shí)體等約束條件。但當(dāng)識別出的命名實(shí)體被用于下游任務(wù)時，在完整實(shí)體級別計算上述指標(biāo)會更有用。實(shí)體級別即同時考慮實(shí)體邊界和實(shí)體類型，在表8所示六種情形下，CoNLL[24]、ACE[25]、MUC[3]、SemEval[26]等評測會議規(guī)定了細(xì)致的解決方案。如SemEval提出的精確模式規(guī)定只將情形1計入識別正確時會導(dǎo)致準(zhǔn)確率較低，可以把情形2、情形3也計入識別正確[27]以提高相關(guān)指標(biāo)。某些DNER應(yīng)用只需識別句子中的實(shí)體邊界即可計入識別正確，如影視文本將《紅玫瑰與白玫瑰》識別為書名或電影名均計為正確，前提是將這7個字視為完整實(shí)體。

表8 實(shí)體標(biāo)注結(jié)果Table 8 Entity labeling results

綜上所示，若領(lǐng)域內(nèi)沒有公開用于評測的數(shù)據(jù)集，則同領(lǐng)域內(nèi)不同方法的優(yōu)劣很難在不同數(shù)據(jù)集上比較，誤差可能出現(xiàn)在：

（1）實(shí)體標(biāo)注種類和數(shù)目的不同。

（2）評價指標(biāo)在計算實(shí)現(xiàn)上的不同。

3 中文領(lǐng)域命名實(shí)體識別技術(shù)發(fā)展

DNER技術(shù)依賴于NER技術(shù)的發(fā)展。NER從基于詞典、規(guī)則的模式匹配方法，到統(tǒng)計機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法，再到基于融合其他研究方向先進(jìn)技術(shù)的思想，如應(yīng)用計算機(jī)視覺（Computer Vision，CV）領(lǐng)域取得成功的圖神經(jīng)網(wǎng)絡(luò)，或NLP另一個子任務(wù)“機(jī)器翻譯”提出的Attention機(jī)制，NER技術(shù)發(fā)展路線如圖5所示。

圖5 NER技術(shù)發(fā)展路線Fig.5 Technical development route of NER

3.1 基于詞典和規(guī)則的模式匹配方法

模式匹配方法應(yīng)用最早，也被稱作NER專家系統(tǒng)方法（Expert System，ES）。ES要求包含專業(yè)最高水平知識，提取專家知識并將其轉(zhuǎn)換為規(guī)則形式?；谠~典和規(guī)則的模式匹配方法需要領(lǐng)域?qū)＜矣烧Z法規(guī)則等構(gòu)造大量的規(guī)則模板，符合ES知識獲取的定義。

模式匹配方法包括：

（1）維護(hù)一個數(shù)量大且全的詞典，如鑒于少數(shù)民族人名特點(diǎn)，有學(xué)者構(gòu)建了維吾爾語人名數(shù)據(jù)詞典進(jìn)行維吾爾語NER[28]，若文本中有實(shí)體未被詞典收錄，則手動錄入詞典以供下一次識別。

（2）在詞典基礎(chǔ)上，增加實(shí)體的構(gòu)造規(guī)則，據(jù)此提取實(shí)體。典型的規(guī)則[1]包括關(guān)鍵詞、位置詞、中心詞等元素。如中文譯名NER[29]利用普通人名的構(gòu)成規(guī)律——全稱如[姓+名]，代稱如[姓+職位]、[老（小）＋姓]等模式進(jìn)行識別；化學(xué)物質(zhì)NER利用化學(xué)物質(zhì)的構(gòu)成模式——化學(xué)介詞+化學(xué)詞頭+化學(xué)符號[30]，使用正則表達(dá)式進(jìn)行化學(xué)物質(zhì)名稱提取。

基于模式匹配方法的NLP系統(tǒng)如University of Sheffield NLP開發(fā)的NLP框架GATE[31]，有著清晰的NER規(guī)范。GATE下的JAPE組件是一種專屬于GATE的模式匹配語言，編寫語法與正則表達(dá)式相似，由實(shí)體在文本中的特征來確定構(gòu)造規(guī)則。不同的構(gòu)造規(guī)則會產(chǎn)生沖突，如[武漢市長江大橋]能被分成[武漢市長|江大橋]或[武漢市|長江大橋]等兩種合乎語法規(guī)范的實(shí)體，此時主要使用基于前向匹配或后向匹配或兩者結(jié)合的算法[32]來解決此類沖突。亦可借鑒英文詞干算法原理[33]，統(tǒng)計實(shí)體出現(xiàn)的頻率作為實(shí)體分割優(yōu)先級的依據(jù)，缺點(diǎn)是不易變通。

模式匹配方法準(zhǔn)確率高，但眾多實(shí)體識別規(guī)則的制定依賴領(lǐng)域?qū)＜?，領(lǐng)域間基本無復(fù)用。此外，領(lǐng)域詞典需定期維護(hù)，不斷涌現(xiàn)的新實(shí)體與實(shí)體的不規(guī)則性使得難以構(gòu)造完備的詞典。即使存在缺點(diǎn)，模式匹配方法依舊被應(yīng)用，因為某些領(lǐng)域?qū)嶓w的規(guī)則可以被窮舉95%以上，規(guī)則仍是提取裁判文書部分實(shí)體[17]的首選，同時在之后的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)NER模型中加入規(guī)則和字典能夠提高準(zhǔn)確率。

3.2 基于統(tǒng)計機(jī)器學(xué)習(xí)的方法

統(tǒng)計機(jī)器學(xué)習(xí)時代，NER的發(fā)展基于大規(guī)模有標(biāo)注語料庫（監(jiān)督數(shù)據(jù)集）的出現(xiàn)，從編制全面的不易變通的規(guī)則系統(tǒng)到期待機(jī)器通過大規(guī)模語料庫的訓(xùn)練自動識別語言規(guī)律。語料庫中的語言學(xué)知識體現(xiàn)在用特征模板來解釋實(shí)體上下文的特征，使機(jī)器理解實(shí)體周圍成分的含義，這稱為特征提取，目的是為了提高統(tǒng)計模型的準(zhǔn)確率。

文本特征是指將文本的特點(diǎn)轉(zhuǎn)換成數(shù)值[32]。針對中國人名識別和性別判斷問題[32]，特征定為名字中是否包含某個特征字，并將名字用特征表示。如“余秋雨”是一位男性作家，名字由“秋”“雨”組成，但許多女性名字中包含了“雨”字，此時無法直接通過“雨”字判斷性別，因此將名字表示為多個特征字的組合，從而讓機(jī)器通過大量語料來學(xué)習(xí)。特征的種類不定，數(shù)量不定，若將中國人名的特征字增加到5個，如表9所示，人名中的單字都從特征字中選取，則“余秋雨”可表示為5維向量[1，1，0，0，0]后再輸入機(jī)器學(xué)習(xí)模型。當(dāng)特征條件包括了所有常用漢字后，就可以給常見人名向量化的特征表示。

表9 特征模板Table 9 Characteristics of template

特征模板用來自動化提取特征，挑選特征并設(shè)計特征模板的過程是特征工程[32]。統(tǒng)計機(jī)器學(xué)習(xí)的NER的關(guān)鍵在于特征選取，這些特征來自于反映某類實(shí)體特性的特征集合。特征集合通過統(tǒng)計分析訓(xùn)練語料反映了待提取實(shí)體的特性，包括具體的漢字特征、上下文特征、詞典及詞性特征等[34]。有學(xué)者[35]為實(shí)體設(shè)計了包含只考慮單元素原子特征模板和多原子特征模板結(jié)合的組合特征模板的特征工程，并通過原子特征模板的加入順序驗證了特征模板的有效性，得出特征模板并非越多越好的結(jié)論。有學(xué)者提出在訓(xùn)練時應(yīng)優(yōu)先選擇貢獻(xiàn)度大的特征[36]，并證明組合特征模板可以提升系統(tǒng)的性能。同時一些外部資源如分詞結(jié)果[7]、外部知識庫如知網(wǎng)[37]也被當(dāng)作特征錄入特征集合中。

隨著將標(biāo)注語料集和選定的特征模板輸入到隱馬爾科夫模型[38]（Hidden Markov Model，HMM）、最大熵[39]（Maximum Entropy，ME）、支持向量機(jī)[40]（Support Vector Machine，SVM）、決策樹[29]（Decision Tree，DT）、條件隨機(jī)場[36]（Conditional Random Fields，CRF）等統(tǒng)計機(jī)器學(xué)習(xí)模型中，NER作為序列標(biāo)注任務(wù)的屬性被固定下來，即通過預(yù)測文本中的每個字的標(biāo)簽判斷其是否為一個實(shí)體。

上述機(jī)器模型各有所長，HMM作為概率圖模型以發(fā)射概率、隱藏概率、初始概率對應(yīng)了中文人名識別的角色標(biāo)注[4]問題，使用viterbi算法找到最佳標(biāo)記序。ME在給定數(shù)據(jù)集上選擇一個模型使未知結(jié)果的分布盡可能與現(xiàn)有分布實(shí)現(xiàn)一致均勻分布。CRF作為生成圖模型，吸收了ME綜合有效語言信息的優(yōu)點(diǎn)，不依附于HMM嚴(yán)格的獨(dú)立性假設(shè)，并排除了其他非生成圖模型的標(biāo)記偏置缺點(diǎn)，逐漸成為DNER應(yīng)用的主要模型。針對上述優(yōu)缺點(diǎn)，有學(xué)者利用模型改進(jìn)思想，利用層疊CRF進(jìn)行旅游領(lǐng)域NER[41]。漢語詞法分析系統(tǒng)ICTCLAs采用層疊HMM[4]去識別三大類基本實(shí)體，底層實(shí)體識別的結(jié)果為高層實(shí)體識別提供特征。

統(tǒng)計機(jī)器學(xué)習(xí)的NER受限于高質(zhì)量的大規(guī)模標(biāo)注語料庫以及對豐富的、不畏懼語料變遷挑戰(zhàn)的特征模板的需要，構(gòu)建特征模板開銷巨大但準(zhǔn)確率會相應(yīng)提高，因此在后續(xù)NER發(fā)展中，特征工程的保留也可助力實(shí)體識別。

3.3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)提供了代替復(fù)雜龐大的特征工程的解決方案，讓機(jī)器自動找出潛在的特征模板集合。End-to-End解決問題的思路是將數(shù)據(jù)輸入模型，由模型得到結(jié)果，第一步是如何更好地表示文本。

3.3.1詞向量與預(yù)訓(xùn)練語言模型發(fā)展

文本中的詞語最初表示為one-hot編碼向量，即僅以該詞在詞典中的位置作為代表詞語的向量，受制于詞典的覆蓋能力，也無法表示詞語之間的聯(lián)系。將文本表示成機(jī)器能理解的向量而非簡單的數(shù)字組合，是詞向量相對于one-hot編碼所做的貢獻(xiàn)。

CV領(lǐng)域利用神經(jīng)網(wǎng)絡(luò)從圖像里提取特征的思路被NLP借鑒。神經(jīng)網(wǎng)絡(luò)語言模型[42]（Neural Network Language Model，NNLM）被用來訓(xùn)練詞向量，目的是通過無監(jiān)督訓(xùn)練方法得到合理存在的語句。Word2vec[43]是NNLM后提出的詞向量訓(xùn)練方式，包括兩種訓(xùn)練步驟，分別是根據(jù)中心詞推理上下文窗口內(nèi)單詞的skip-gram和根據(jù)上下文窗口推理中心詞的CBOW。GloVe[44]克服Word2vec只能看到窗口內(nèi)上下文信息的缺點(diǎn)，由詞向量共現(xiàn)理論通過矩陣分解利用了全局信息。GloVe和Word2vec根據(jù)后續(xù)任務(wù)的不同而各有優(yōu)勢，如有學(xué)者[40]指出GloVe訓(xùn)練出的詞向量后接SVM效果更好。

文本詞向量表示后，神經(jīng)網(wǎng)絡(luò)被用來提取向量化的文本特征。CV領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）被最早應(yīng)用于NER[45]，提取句子級別的特征。CNN卷積運(yùn)算與文本序列輸入的特征不符，具有時間序列特征的循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）被用于深層次的語義特征提取，為了使未來的狀態(tài)也能預(yù)測當(dāng)前時刻的輸出，雙向RNN如BI-LSTM[46]、BI-GRU[47]被提出。RNN的訓(xùn)練速度受限于其時間序列性，CNN模型卷積核權(quán)值共享可降低計算復(fù)雜度、多卷積核可并行計算的優(yōu)點(diǎn)被重新重視。有學(xué)者[46]提出了空洞迭代卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，通過疊加CNN擴(kuò)大模型的感受野，提高模型的訓(xùn)練和預(yù)測速度。提取特征后的文本輸入至解碼網(wǎng)絡(luò)得到最佳預(yù)測標(biāo)簽序列。

如表10所示，一系列預(yù)訓(xùn)練語言模型（Pre-trained Language Model，PLM）的產(chǎn)生使得Word2vec和GloVe這兩種詞向量被稱作靜態(tài)詞向量，無法解決一詞多義現(xiàn)象，訓(xùn)練結(jié)果是一個固定的詞向量矩陣，不能被動態(tài)修改，也就無法真正理解文本語義。PLM通過兩階段來訓(xùn)練詞向量，首先使用NNLM來訓(xùn)練，然后根據(jù)下游任務(wù)進(jìn)行微調(diào)。ELMO為了達(dá)到更好的效果，在第一階段使用BILSTM作為特征提取器提取雙向文本信息；GPT則采用Transformer特征提取器[59]提取單向文本信息，Transformer特征抽取器在機(jī)器翻譯任務(wù)上效果顯著，訓(xùn)練的詞向量可以解決一詞多義；BERT使用Transformer提取雙向文本特征，并采用CBOW方式訓(xùn)練雙向語言模型，通過MLM訓(xùn)練方式隨機(jī)去除文本中的一些實(shí)體去訓(xùn)練語言模型，使得訓(xùn)練效果顯著高于GPT。

表10 文本向量化表示的發(fā)展Table 10 Development of textual vectorization

BERT的出色表現(xiàn)使一些學(xué)者開始思考如何降低BERT訓(xùn)練所需的資源而達(dá)到同樣效果，因此RoBERTa[53]、AlBERT[52]、TinyBERT[57]、SpanBERT[56]等PLM被相繼提出。BERT類模型的輸入長度偏短，在生成式任務(wù)如文本摘要上表現(xiàn)不佳，因此XLNet[51]提出了自回歸語言模型和自編碼語言模型來貼合生成式文本規(guī)律，并應(yīng)用Transformer-XL解決長文本特征提取問題。百度提出了ERNIE[55]模型專門訓(xùn)練中文的詞向量，GPT模型也已經(jīng)發(fā)展到了GPT-3[60]。

3.3.2深度學(xué)習(xí)模型解決NER問題架構(gòu)

PLM動態(tài)訓(xùn)練詞向量使文本獲得更好的向量化表示，進(jìn)而利用特征提取器提取文本特征，再通過解碼器獲得預(yù)測的序列標(biāo)簽，具體如下：

（1）對輸入文本基于靜態(tài)詞向量或者動態(tài)的PLM進(jìn)行向量化表示（Input Representation，IR），具體分為基于字（character）或單詞（word）的方式，或融合兩種方式的信息（hybrid）進(jìn)行向量化。IR階段需要有效地融合詞和字的信息[61]，還可輔助以統(tǒng)計機(jī)器學(xué)習(xí)方法使用的特征工程。

（2）文本編碼層（Context Encoder，CE）或序列建模層，對于IR階段輸出的向量化文本采用特征提取器進(jìn)一步提取文本特征。

（3）標(biāo)簽解碼層（Tag Decoder，TD），將CE層輸出的向量輸入解碼網(wǎng)絡(luò)得到最佳序列標(biāo)簽。

圖6 展示了根據(jù)領(lǐng)域文本特征選擇不同的文本向量化方法與特征提取器的組合。Word2vec-BILSTMCRF[62]的組合取得了當(dāng)時英文NER最佳的效果，之后被應(yīng)用到中文NER中，深度學(xué)習(xí)時代BERT-BILSTM-CRF的組合[63]也成為了性能提升時的參照。表11列出的論文標(biāo)題展示了DNER的研究趨勢，符合圖6的深度學(xué)習(xí)模型架構(gòu)。深度學(xué)習(xí)準(zhǔn)確率高，但仍需要大規(guī)模的標(biāo)注數(shù)據(jù)集和高資源的算力，PLM的應(yīng)用對于小模型的訓(xùn)練是一種負(fù)擔(dān)。

圖6 深度學(xué)習(xí)模型解決NER架構(gòu)Fig.6 Architecture of deep learning models to solve NER

表11 基于深度學(xué)習(xí)的論文標(biāo)題Table 11 Titles of paper based on deep learning

3.4 基于多方融合的深度學(xué)習(xí)方法

一些NLP書籍[74]將分詞放在NER章節(jié)前，產(chǎn)生一種先分詞再進(jìn)行NER的認(rèn)識，但這兩個任務(wù)并非嚴(yán)格的前驅(qū)后繼關(guān)系。有學(xué)者將這兩個任務(wù)都看成序列標(biāo)注問題，采用相同模型[61]進(jìn)行訓(xùn)練，同時提高兩個任務(wù)的準(zhǔn)確率，這是多任務(wù)方法解決NER的應(yīng)用。多任務(wù)也被用于關(guān)系抽取，先進(jìn)行NER，將NER識別結(jié)果輸入關(guān)系抽取模型是關(guān)系抽取的pipeline方法[75]。

有學(xué)者[75]提出閱讀理解式的解決方案，將實(shí)體規(guī)范編碼成問題代入模型查找實(shí)體，在部分?jǐn)?shù)據(jù)集上取得了較好效果。有學(xué)者[76]提出利用詞典信息的深度學(xué)習(xí)NER框架，具有更高的準(zhǔn)確率，不同于模式匹配方法中詞典信息的利用方式——將文本與詞典碰撞，若存在該詞語就以觸發(fā)詞的方式進(jìn)行識別，這樣會存在一些規(guī)則沖突問題。此處是在對輸入文本進(jìn)行編碼時，將詞典信息作為特征融入到輸入表示中，形成Lattice結(jié)構(gòu)[76]或使用基本圖網(wǎng)絡(luò)[77]、多維圖網(wǎng)絡(luò)[78]來融合詞典信息。為了避免對CE層進(jìn)行繁瑣的設(shè)計，保持CE層繼續(xù)使用BiLSTM，有學(xué)者[21]提出了soft-lexicon，通過設(shè)計IR層來利用詞典中的所有詞。在此基礎(chǔ)上FLAT結(jié)構(gòu)[79]被提出，為lattice中的每一個字再編碼其所屬詞中對應(yīng)的位置信息。

3.5 中文領(lǐng)域命名實(shí)體識別技術(shù)框架

圖7 給出了DNER的技術(shù)解決框架。首先根據(jù)領(lǐng)域獲得的數(shù)據(jù)集規(guī)模及實(shí)體規(guī)律性選擇使用機(jī)器學(xué)習(xí)方法或模式匹配方法；在大數(shù)據(jù)集前提下，根據(jù)工程量確定是否使用特征工程，特征工程與HMM、SVM等機(jī)器學(xué)習(xí)模型聯(lián)合使用；若不使用特征工程，則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量或PLM，領(lǐng)域內(nèi)已訓(xùn)練的詞向量可以被微調(diào)復(fù)用；深度學(xué)習(xí)時代的NER沒有摒棄規(guī)則或者特征工程等方法，在將詞典信息融合至模型的過程中，還可應(yīng)用Attention機(jī)制[80]、圖神經(jīng)網(wǎng)絡(luò)[77]、遷移學(xué)習(xí)[81]等其他領(lǐng)域的新技術(shù)。

圖7 領(lǐng)域NER解決框架Fig.7 Domain NER solution framework

4 中文領(lǐng)域命名實(shí)體識別發(fā)展

4.1 應(yīng)用發(fā)展

DNER系列研究體現(xiàn)了NER既是信息抽取的重要子任務(wù)，也是業(yè)務(wù)文本結(jié)構(gòu)化的基本步驟這兩大特點(diǎn)，DNER有助于完成以下工作：

（1）構(gòu)建領(lǐng)域高質(zhì)量標(biāo)注語料庫

目前研究集中在有監(jiān)督數(shù)據(jù)領(lǐng)域的學(xué)習(xí)，CLUENER語料[9]構(gòu)建過程中提到了機(jī)器訓(xùn)練的樣本數(shù)多于人類，是人類表現(xiàn)不如機(jī)器理解樣本標(biāo)簽含義從而表現(xiàn)不佳的理由之一。深度學(xué)習(xí)需要質(zhì)量高的標(biāo)注數(shù)據(jù)集，DNER的研究必然會為領(lǐng)域貢獻(xiàn)一部分語料知識，如何整合語料促進(jìn)語料融合，從而實(shí)現(xiàn)技術(shù)遷移是當(dāng)前DNER的研究趨勢。同屬領(lǐng)域的不同研究因受限于業(yè)務(wù)的細(xì)節(jié)，從而決定了在制定規(guī)范時實(shí)體類型和數(shù)量的差異，造成子業(yè)務(wù)提取指標(biāo)增加的同時遷移能力減弱。因此在DNER研究之初，需要構(gòu)思數(shù)據(jù)集及標(biāo)注規(guī)范問題，這也是不可避免的步驟。制定優(yōu)秀強(qiáng)壯的標(biāo)注規(guī)范，借鑒該領(lǐng)域前人的標(biāo)注規(guī)范，或是觸類旁通與子任務(wù)相近領(lǐng)域的實(shí)體制定規(guī)范，充分利用有限的語料，能夠為NER后續(xù)任務(wù)提供幫助。

（2）能夠構(gòu)建領(lǐng)域知識庫

涉恐DNER是為了我國網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫而構(gòu)建[82]，因我國目前還沒有自己的網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫。隨著在本體概念上構(gòu)建知識庫的觀念的回歸，在領(lǐng)域本體架構(gòu)下，通過DNER方法提取本體架構(gòu)中的各項實(shí)例并錄入數(shù)據(jù)庫中是可選擇的途徑。知識庫涉及的內(nèi)容龐雜，但其基礎(chǔ)屬性是由本體的基本單元所構(gòu)成，隨著NER技術(shù)的成熟，新涌現(xiàn)實(shí)體被識別并被自動添加到現(xiàn)有知識庫中，文本中的關(guān)鍵信息也能被挖掘。在反恐領(lǐng)域，恐怖組織的準(zhǔn)確識別能夠為恐怖形勢的研判提供幫助，可以通過關(guān)聯(lián)恐怖組織周圍實(shí)體關(guān)注動態(tài)，此外通過提取的反恐領(lǐng)域?qū)嶓w內(nèi)在地構(gòu)成了反恐事件的框架，因反恐實(shí)體標(biāo)簽在定義時就內(nèi)化了一層與事件的語義關(guān)系信息。一些公司將知識庫應(yīng)用于搜索查詢?nèi)蝿?wù)，并通過知識庫構(gòu)建相關(guān)比賽促進(jìn)了NER的發(fā)展。

（3）能夠構(gòu)建領(lǐng)域知識圖譜

與構(gòu)建知識庫的原理相似，知識圖譜更關(guān)注于智能問答，林業(yè)領(lǐng)域植物知識圖譜[83]的構(gòu)建是為了林業(yè)病蟲害研究，影視知識圖譜[84]的構(gòu)建是為了展示作品與影視行業(yè)工作人員、影視公司之間的關(guān)系。知識圖譜中所包含的基本單元就是有意義的實(shí)體，而知識庫包含實(shí)體及實(shí)體附加的其他屬性。從實(shí)體流轉(zhuǎn)到知識庫再到知識圖譜是被認(rèn)可的路徑。知識圖譜構(gòu)建技術(shù)不僅在于NER技術(shù)的提升，也需要其他NLP子任務(wù)的協(xié)助，如關(guān)系抽取、實(shí)體鏈接技術(shù)等，這也是多任務(wù)進(jìn)行NER的基本目標(biāo)，通過訓(xùn)練同一模型在節(jié)約訓(xùn)練資源的同時提高多重任務(wù)的效率。

4.2 研究熱點(diǎn)

NER的發(fā)展汲取了不同階段的優(yōu)點(diǎn)，體現(xiàn)在模式匹配方法仍然可以應(yīng)用在實(shí)體規(guī)律性強(qiáng)的領(lǐng)域，如司法領(lǐng)域提取裁判文書中某些實(shí)體的規(guī)則可以被窮舉90%，以及詞典信息也在更好地融入深度模型架構(gòu)；統(tǒng)計機(jī)器學(xué)習(xí)方法提出的特征工程的概念也輔助應(yīng)用于深度學(xué)習(xí)模型框架，選取分詞、上下文等特征對輸入信息進(jìn)行編碼，從而提取一些固定模板無法提取的特征；深度學(xué)習(xí)End-to-End的特性通過改變神經(jīng)網(wǎng)絡(luò)架構(gòu)捕捉隱含文本信息，提高準(zhǔn)確率卻耗費(fèi)算力。根據(jù)NER不同發(fā)展階段的特點(diǎn)，列舉如下研究熱點(diǎn)：

（1）高質(zhì)量領(lǐng)域數(shù)據(jù)集的獲取。當(dāng)前領(lǐng)域NER數(shù)據(jù)語料缺乏，開展一類新的DNER的首要步驟是領(lǐng)域數(shù)據(jù)集的構(gòu)建。標(biāo)注資源匱乏會導(dǎo)致大型深度學(xué)習(xí)模型無法有效部署和訓(xùn)練，有標(biāo)注的高質(zhì)量的監(jiān)督數(shù)據(jù)集一定能為深度學(xué)習(xí)助力。在資源限制條件下，需采取其他方法來擴(kuò)大領(lǐng)域數(shù)據(jù)集。國內(nèi)對于無監(jiān)督領(lǐng)域的學(xué)習(xí)較國外少[85]，自學(xué)習(xí)算法[86]和主動學(xué)習(xí)[86]分別是兩種利用半監(jiān)督學(xué)習(xí)（少量標(biāo)注樣本）和無監(jiān)督學(xué)習(xí)（大量未標(biāo)注樣本）的算法，其概念來源于CV領(lǐng)域，但這兩種方式并未完全解決標(biāo)注資源緊缺帶來的困難。自學(xué)習(xí)算法會挑選出與初始部分樣本較相近的樣本，則模型學(xué)習(xí)到新的信息速度變慢，還會有標(biāo)注錯誤的累積問題。主動學(xué)習(xí)算法依然通過人力來審查每輪的新標(biāo)注樣本，相當(dāng)于減少了人工標(biāo)注量，但可能會忽略含有其他豐富信息的樣本。

（2）促進(jìn)現(xiàn)有領(lǐng)域語料庫的融合以實(shí)現(xiàn)技術(shù)遷移。由于目前一些DNER的研究并非使用了統(tǒng)一語料庫，采用了相同的實(shí)體制定規(guī)范，這對于大規(guī)模語料庫的構(gòu)建提出了難題，已被訓(xùn)練過的資源無法得到有效擴(kuò)展，無法做到資源共享，這從實(shí)體的規(guī)范制定和標(biāo)注工程兩方面對DNER提出了要求。

（3）DNER通用實(shí)現(xiàn)框架的構(gòu)建。在3.3.2節(jié)中探討了DNER對于通用NER技術(shù)的應(yīng)用可行性，說明了一種深度學(xué)習(xí)時代DNER研究的一般模式，如使用PLM/Word Embedding-Encoder-Decoder（預(yù)訓(xùn)練語言模型或詞向量-文本編碼-解碼）的模式。由于不同領(lǐng)域?qū)嶓w類型分布及標(biāo)注規(guī)范不同，在不考慮以上差異前提下，論證特定領(lǐng)域NER是否可以采用一種通用方法識別各領(lǐng)域不同類型的實(shí)體，表11列出題目中的技術(shù)正在應(yīng)用這一模式。除此之外，新模式的嘗試需要各領(lǐng)域的反復(fù)實(shí)踐以驗證，通用方法的成熟會使得表2中部分領(lǐng)域DNER的產(chǎn)出速度加快。

（4）基于多方融合的深度學(xué)習(xí)時代NER技術(shù)的提高。首先是多任務(wù)進(jìn)行NER的思想，DNER為下游任務(wù)提供所需實(shí)體，如準(zhǔn)確的DNER是主題詞發(fā)現(xiàn)技術(shù)的基礎(chǔ)，有助于實(shí)現(xiàn)領(lǐng)域更友好的分詞，有助于關(guān)系抽取中對于實(shí)體的準(zhǔn)確定位等，多任務(wù)的共同提高能夠節(jié)約訓(xùn)練資源。其次是將Attention機(jī)制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)思想等技術(shù)與現(xiàn)有NER模型架構(gòu)融合，分別對主體架構(gòu)的某些側(cè)面進(jìn)行改進(jìn)，及時記錄結(jié)構(gòu)的改進(jìn)帶來效果的正負(fù)反饋。

本文從中文領(lǐng)域命名實(shí)體的概念開始，介紹了開展中文領(lǐng)域命名實(shí)體識別研究的所需基礎(chǔ)條件，如數(shù)據(jù)集的獲取和實(shí)體規(guī)范的確立，以及所需研究框架，如從模式匹配方法至深度學(xué)習(xí)方法，由于神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)出色，著重介紹了深度學(xué)習(xí)時代從文本向量化到實(shí)體提取所需的一些模型。NER對于NLP領(lǐng)域重要性同樣體現(xiàn)在中文DNER的發(fā)展促進(jìn)工業(yè)場景化NLP任務(wù)的提高。目前研究熱點(diǎn)和難點(diǎn)集中在多方融合技術(shù)促進(jìn)實(shí)體提取方法的改進(jìn)與已有研究資源的集合上，DNER的自動化發(fā)現(xiàn)新實(shí)體的功能能夠讓人們自動地監(jiān)視網(wǎng)絡(luò)中指數(shù)式增長的信息，緩解人力資源的配置。NER技術(shù)不斷推陳出新，促進(jìn)非結(jié)構(gòu)化文本的有效信息自動結(jié)構(gòu)化。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡