国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文領(lǐng)域命名實(shí)體識別綜述

2021-08-19 10:35焦凱楠朱容辰
計算機(jī)工程與應(yīng)用 2021年16期
關(guān)鍵詞:實(shí)體規(guī)范領(lǐng)域

焦凱楠,李 欣,2,朱容辰

1.中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京100038

2.安全防范技術(shù)與風(fēng)險評估公安部重點(diǎn)實(shí)驗室,北京100026

命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的子任務(wù),通常解釋為從一段非結(jié)構(gòu)化文本中,將那些人類通過歷史實(shí)踐規(guī)律認(rèn)識、熟知或定義的實(shí)體識別出來,同時也代表了具有根據(jù)現(xiàn)有實(shí)體的構(gòu)成規(guī)律發(fā)掘廣泛文本中新的命名實(shí)體的能力。實(shí)體是文本中意義豐富的語義單元,識別實(shí)體的過程分為兩階段,首先確定實(shí)體的邊界范圍,然后將這個實(shí)體分配到所屬類型中去[1]。

1991年Rau[2]隱式地提出了NER任務(wù),需求是從文本中提取公司名稱。在1996年之后,NER作為信息抽取的一項子任務(wù)的屬性在第六屆消息理解會議(Message Understanding Conference 6,MUC-6)上被正式確立。

NER的提取對象隨著相關(guān)評測會議的進(jìn)行不斷豐富。最先開始的英文文本實(shí)體集中在三大基本類[3]——person(人物)、organization(組織機(jī)構(gòu))、geographical location(地理位置)上,同時輔助于currency(貨幣)、time(時間日期)、percentage expression(百分?jǐn)?shù)表達(dá)式)的識別,前者屬于實(shí)體類(entity type),后者屬于數(shù)字類(numeric type)。而person類下包含了名字、昵稱、代稱[4]、外文譯名[5]等識別任務(wù),location類對城市、道路、區(qū)劃等名詞進(jìn)行識別。隨著NER研究的推進(jìn),提取實(shí)體范圍更廣,實(shí)體分類更加精細(xì),不同語種、不同學(xué)科領(lǐng)域被包含進(jìn)來。

NER技術(shù)隨著相關(guān)評測會議的舉辦逐漸明確研究目標(biāo)[6]。英文NER技術(shù)對于中文NER發(fā)展具有借鑒意義,中英文的構(gòu)成差異和中文顯著區(qū)別于英文的特性,促進(jìn)了相關(guān)中文評測會議的發(fā)展。英文是單詞和符號的組合,英文單詞由空格隔開,具有大小寫、詞根詞綴等特性。中文由單個漢字和符號組成,因此中文NLP研究最初集中在漢語自動化分詞[7]上,中文NER相較于英文文本缺少了一些單詞粒度信息。

促進(jìn)中文NER發(fā)展的會議有SigHAN、863中文IP評測會議等。NER在SIGHAN Bakeoff-2010之后[6],不再作為評測任務(wù)出現(xiàn),后續(xù)如命名實(shí)體消歧、命名實(shí)體鏈接任務(wù)被加入信息抽取任務(wù)中,NER最新進(jìn)展被發(fā)表在ACL、AAAI、COLING、EMNLP、NAACL等NLP頂級會議中[1]。

1 中文領(lǐng)域命名實(shí)體識別

面向特定領(lǐng)域的NER任務(wù)——領(lǐng)域命名實(shí)體識別(Domain Named Entity Recognition,DNER)產(chǎn)生于工業(yè)界對于NER業(yè)務(wù)場景的開放與擴(kuò)展。中文DNER是在中文NER所識別的基本實(shí)體類別上提出的領(lǐng)域適應(yīng)分類方案。表1列出了部分領(lǐng)域與所識別實(shí)體的對應(yīng)關(guān)系。

表1 特定領(lǐng)域與對應(yīng)實(shí)體Table 1 Specific domain and corresponding entities

這些領(lǐng)域的實(shí)體類型不盡相同,卻是組成各自領(lǐng)域文本的基本語義單元。部分實(shí)體也是對三大類基本實(shí)體的細(xì)粒度在場景下的擴(kuò)充,如訴訟當(dāng)事人、恐怖分子等實(shí)體類型是person類實(shí)體在具體場景下的細(xì)化。

1.1 中文領(lǐng)域命名實(shí)體識別分類

DNER屬于NER面向不同行業(yè)領(lǐng)域的子任務(wù),DNER技術(shù)依賴于NER技術(shù)發(fā)展,DNER廣度取決于我國工業(yè)化場景的集合,依據(jù)2017年國家標(biāo)準(zhǔn)《國民經(jīng)濟(jì)行業(yè)分類》將我國行業(yè)分為20個門類、97個大類等。表2分別展示了行業(yè)門類信息和根據(jù)該分類標(biāo)準(zhǔn)統(tǒng)計所得的DNER研究及論文情況。

以搜索條件“篇名:實(shí)體識別”在知網(wǎng)得到的603篇文獻(xiàn)標(biāo)題經(jīng)過jieba分詞、去除論文標(biāo)題常用停用詞作為統(tǒng)計總數(shù)。因搜索條件嚴(yán)格限制了領(lǐng)域關(guān)鍵詞必須出現(xiàn)在論文標(biāo)題內(nèi),同時未納入同時段英文論文發(fā)表數(shù)目,因此所得數(shù)目與實(shí)際研究數(shù)量會有稍許差異。表2說明了衛(wèi)生和社會工作類研究比例突出,占所有文獻(xiàn)的70.3%。

1.2 中文領(lǐng)域命名實(shí)體識別的作用

由表2可知,某一個領(lǐng)域頻繁地被選擇代表該領(lǐng)域?qū)τ贜ER技術(shù)的迫切需求,如通過挖掘日產(chǎn)且數(shù)量巨大的半結(jié)構(gòu)化電子病歷以助力現(xiàn)代化醫(yī)療的建設(shè),通過挖掘日產(chǎn)且龐雜的社交媒體信息反映大眾偏好,通過挖掘涉恐新聞報道中潛在恐怖組織痕跡對于維護(hù)現(xiàn)代化社會的和平穩(wěn)定具有重要意義。

研究集中的領(lǐng)域使得NER技術(shù)的迭代速度加快,使復(fù)用到其他領(lǐng)域的可能性驗證實(shí)驗周期縮短。技術(shù)與產(chǎn)業(yè)的結(jié)合作為驅(qū)動力,使某個趨于成熟的DNER形成了一套從數(shù)據(jù)預(yù)處理、模型選擇、領(lǐng)域內(nèi)新實(shí)體的處理框架,復(fù)用至其他DNER中,加快產(chǎn)業(yè)文本的結(jié)構(gòu)化速度。表2隱含的DNER不均衡發(fā)展情況是領(lǐng)域遷移能力不成熟的體現(xiàn),這受限于NER技術(shù)基礎(chǔ)。DNER不僅致力于特定領(lǐng)域?qū)嶓w識別準(zhǔn)確率的提高,也對新領(lǐng)域?qū)嶓w提取效率的提高提出了要求。

表2 行業(yè)門類所對應(yīng)領(lǐng)域NERTable 2 Industry category corresponding to domain NER

NER是NLP領(lǐng)域的重要基礎(chǔ)任務(wù),其基礎(chǔ)性正體現(xiàn)在NER任務(wù)性能的提高進(jìn)一步有利于非結(jié)構(gòu)化文本朝結(jié)構(gòu)化文本的轉(zhuǎn)化,有利于大數(shù)據(jù)時代中分類別大型知識庫的構(gòu)建,有利于問答對話系統(tǒng)的精準(zhǔn)意圖識別,有利于機(jī)器翻譯中正確的槽位填充等。隨著NER識別自然語言中已有類別的新實(shí)體的能力和新類別的新實(shí)體的能力的提高,現(xiàn)有知識庫得到了擴(kuò)充,從而推動了在此基礎(chǔ)上人工智能與自然語言知識圖譜的發(fā)展[1]。

2 中文領(lǐng)域命名實(shí)體識別構(gòu)成

2.1 中文領(lǐng)域命名實(shí)體識別框架

DNER框架參照NER的一般研究流程,如圖1所示。當(dāng)DNER研究領(lǐng)域確定后,需要完成的NER基礎(chǔ)操作如數(shù)據(jù)源的獲取、評價指標(biāo)的確立等,之后在技術(shù)選擇階段根據(jù)領(lǐng)域及數(shù)據(jù)集特點(diǎn)制定相應(yīng)的方法。

圖1 中文領(lǐng)域命名實(shí)體識別框架Fig.1 Chinese domain named entity recognition framework

2.2 領(lǐng)域數(shù)據(jù)源確定

確定提取領(lǐng)域后,根據(jù)領(lǐng)域數(shù)據(jù)來源的差異來輔助確定實(shí)體類型。當(dāng)數(shù)據(jù)源包含新聞文本時,實(shí)體類型需包含person、location、organization三類基本實(shí)體在領(lǐng)域內(nèi)的細(xì)粒度角色。如在制定影視DNER實(shí)體標(biāo)簽時,明星、電視劇都是構(gòu)建影視知識圖譜所需的基本實(shí)體單元,明星既是person類實(shí)體在娛樂領(lǐng)域的細(xì)化,亦是娛樂領(lǐng)域的獨(dú)有實(shí)體,即訓(xùn)練好的NER模型會把娛樂新聞中出現(xiàn)的人名識別為明星、導(dǎo)演等細(xì)化角色。三類基本實(shí)體的數(shù)據(jù)來源多為評測會議數(shù)據(jù)集,多由新聞文本組成,如表3所示。因此當(dāng)研究領(lǐng)域的數(shù)據(jù)源包含新聞時,待識別實(shí)體類型需包含以上三類基本實(shí)體。

表3 公開數(shù)據(jù)集與實(shí)體類型Table 3 Exposed data sets and entity types

領(lǐng)域數(shù)據(jù)源還包括領(lǐng)域?qū)I(yè)文本,此時需要根據(jù)專業(yè)文本特點(diǎn)制定實(shí)體規(guī)范。如涉恐、軍事領(lǐng)域的數(shù)據(jù)既包含了互聯(lián)網(wǎng)公開數(shù)據(jù),也囊括了保密數(shù)據(jù)如作戰(zhàn)文書、專業(yè)數(shù)據(jù),如GTD[10](Global Terrorism Database)。表4列出了一些領(lǐng)域的專業(yè)文本來源。領(lǐng)域?qū)I(yè)文本有相關(guān)規(guī)范文件予以背書,識別需求與任務(wù)關(guān)系明確,將專業(yè)相關(guān)術(shù)語、文獻(xiàn)配合以任務(wù)驅(qū)動,使得實(shí)體規(guī)范不易產(chǎn)生歧義并能迅速投入標(biāo)注過程。

表4 領(lǐng)域的專業(yè)數(shù)據(jù)來源Table 4 Professional domain data sources

2.3 領(lǐng)域?qū)嶓w類型及規(guī)范制定

DNER需要嚴(yán)格實(shí)體標(biāo)簽,也稱為實(shí)體類型。領(lǐng)域內(nèi)實(shí)體各具特點(diǎn),需制定適應(yīng)實(shí)體識別框架的領(lǐng)域?qū)嶓w規(guī)范。如圖2所示,確定領(lǐng)域后,若領(lǐng)域數(shù)據(jù)包含新聞類數(shù)據(jù)源,則實(shí)體類型需要包含三大類基本實(shí)體——person、location、organization在領(lǐng)域場景下的細(xì)化角色;若數(shù)據(jù)來源主要為專業(yè)文獻(xiàn)及出版物,則實(shí)體類型根據(jù)業(yè)務(wù)需求制定。細(xì)化角色的確定及具體的實(shí)體類型規(guī)范由領(lǐng)域?qū)<覅⒖济?guī)范類書籍討論或依據(jù)本體構(gòu)建。

圖2 中文領(lǐng)域?qū)嶓w規(guī)范Fig.2 Chinese domain entity specification

實(shí)體規(guī)范制定難點(diǎn)之一在于工業(yè)場景對于實(shí)體的細(xì)粒度化。細(xì)粒度實(shí)體識別是在基本實(shí)體范疇下的細(xì)化方案,如person類下的明星實(shí)體。OntoNotes[8]數(shù)據(jù)集最早提出細(xì)化實(shí)體粒度方案,在7大類下制定了45個子類,為相關(guān)領(lǐng)域具體實(shí)體制定提供了解決思路。表5列出了三類基本實(shí)體的細(xì)化方案,當(dāng)前基本實(shí)體的識別效果出色,但在具體領(lǐng)域下,盡管識別的實(shí)體屬于三類的子類,但因子類標(biāo)簽固有的一層語義關(guān)系易使識別產(chǎn)生混淆,從而對此類DNER提出了挑戰(zhàn)。

表5 三大類實(shí)體細(xì)化方案列舉Table 5 Enumeration of detailed schemes for three major categories of entities

難點(diǎn)二是特定領(lǐng)域內(nèi)實(shí)體標(biāo)準(zhǔn)未被唯一確定,領(lǐng)域語料庫無法融合。表6中的軍事實(shí)體類型的制定依據(jù)均為具有軍事意義的實(shí)體,但差異在于實(shí)體類型名、實(shí)體類數(shù)目、細(xì)粒度實(shí)體定義、數(shù)據(jù)來源的確定,這四點(diǎn)差異使得不同學(xué)者構(gòu)建的軍事實(shí)體語料集和提出的相關(guān)算法無法及時遷移和比較。

表6 軍事領(lǐng)域?qū)嶓w細(xì)化方案列舉Table 6 Enumeration of detailed schemes for military entities

領(lǐng)域?qū)嶓w規(guī)范一般由領(lǐng)域?qū)<覅⒖枷嚓P(guān)專業(yè)規(guī)范根據(jù)業(yè)務(wù)聯(lián)合確定。如表4所示,專業(yè)特征極強(qiáng)、區(qū)分力強(qiáng)的實(shí)體領(lǐng)域包括醫(yī)學(xué)、數(shù)學(xué)等學(xué)科領(lǐng)域,橋梁檢測、航天等工業(yè)領(lǐng)域。醫(yī)學(xué)領(lǐng)域的蛋白質(zhì)、疾病等實(shí)體,化學(xué)領(lǐng)域的有機(jī)物等實(shí)體不屬于三大基本類別,不因數(shù)據(jù)源的不同而產(chǎn)生歧義,同時有權(quán)威出版規(guī)范加以背書,實(shí)體規(guī)范更易制定,標(biāo)注更易進(jìn)行,面對新實(shí)體的出現(xiàn)也更易進(jìn)行更新和補(bǔ)充。

在制定領(lǐng)域?qū)嶓w規(guī)范時參考與之任務(wù)相近領(lǐng)域的實(shí)體規(guī)范,能夠減少實(shí)體類別歧義,如表7所示,軍事、涉恐領(lǐng)域因涉及國際形勢研判,數(shù)據(jù)源存在交叉,制定出的實(shí)體有相似之處。

表7 反恐領(lǐng)域?qū)嶓w及數(shù)據(jù)來源Table 7 Entities and data sources in field of counter-terrorism

基于本體理論[17]制定領(lǐng)域?qū)嶓w類型,以文本結(jié)構(gòu)化為目標(biāo),將提取的實(shí)體作為實(shí)例化本體元素并按照本體結(jié)構(gòu)存入知識庫中,是知識庫填充的技術(shù)基礎(chǔ)。有學(xué)者[17]歸納總結(jié)領(lǐng)域知識,構(gòu)建了審判文書本體提取司法領(lǐng)域?qū)嶓w。本體推理技術(shù)的發(fā)展如類的一致性檢查[18],可以避免定義本體直接運(yùn)行后出現(xiàn)的類不一致錯誤,在理論層面解決實(shí)體類型之間的矛盾。

較低的領(lǐng)域?qū)嶓w規(guī)范認(rèn)同度使得人類表現(xiàn)低于深度學(xué)習(xí)NER模型的表現(xiàn)。有學(xué)者提出限制性標(biāo)注原則[19],明確了實(shí)體標(biāo)注不重疊、不嵌套、不包含標(biāo)點(diǎn)符號。強(qiáng)制規(guī)定實(shí)體不會跨越標(biāo)點(diǎn)符號有助于標(biāo)注方案的實(shí)際執(zhí)行,從制定實(shí)體規(guī)范到標(biāo)注工程仍然富含挑戰(zhàn),不僅需要培訓(xùn)專業(yè)標(biāo)注人員保證標(biāo)注不能自相矛盾,還需檢驗標(biāo)注數(shù)據(jù)集質(zhì)量。醫(yī)學(xué)領(lǐng)域提出了IAA檢測[20],標(biāo)注后由不同專家進(jìn)行交叉檢驗,根據(jù)指標(biāo)估計標(biāo)注體系的合理性,該方法逐漸被其他領(lǐng)域采用。

綜上可知,DNER的第一步是數(shù)據(jù)源的選取,第二步是根據(jù)任務(wù)需求嚴(yán)格制定實(shí)體類型并制定提取標(biāo)準(zhǔn)。健壯的實(shí)體類型規(guī)范有助于領(lǐng)域語料庫匯集,表3中的評測會議數(shù)據(jù)集具有質(zhì)量高但覆蓋領(lǐng)域不全面的特點(diǎn),此時領(lǐng)域語料集的補(bǔ)充顯得尤為重要。

2.4 領(lǐng)域標(biāo)注數(shù)據(jù)集的標(biāo)注規(guī)范

數(shù)據(jù)集標(biāo)注規(guī)范即命名實(shí)體輸入模型前的表示。主要標(biāo)準(zhǔn)標(biāo)注規(guī)范由評測會議制定,為多數(shù)研究所認(rèn)可,也可根據(jù)實(shí)體類型自行制定。常見標(biāo)注規(guī)范如下:

(1)BIO,自CoNLL 2003使用。創(chuàng)新性提出以flagcategory方式進(jìn)行標(biāo)注,B代表實(shí)體首部,B-school表示一個school實(shí)體首部;I代表實(shí)體內(nèi)部或結(jié)束,I-person表示一個person實(shí)體內(nèi)部或尾部;O代表非命名實(shí)體,標(biāo)注規(guī)范約束了B-school后應(yīng)為I-school而非I-person。根據(jù)模型需要利用的信息以及原始數(shù)據(jù)集是否需預(yù)先分詞,標(biāo)注粒度可分為詞語級和字級,如圖3所示。

圖3 BIO標(biāo)注規(guī)范Fig.3 BIO annotation specification

(2)BIOES,BIO的擴(kuò)展。在BIO的基礎(chǔ)上,使E表示實(shí)體尾部;I僅表示實(shí)體內(nèi)部成分;S表示由一個詞或字構(gòu)成的單獨(dú)命名實(shí)體,區(qū)別于B(I*)E形式的復(fù)雜實(shí)體;O含義不變。

(3)Markup標(biāo)注,為OntoNotes[8]使用,是一種類XML規(guī)范。使用字段設(shè)置類型,表示實(shí)體型實(shí)體標(biāo)簽,表示數(shù)字型實(shí)體標(biāo)簽,如圖4所示。

圖4 Markup標(biāo)注規(guī)范Fig.4 Markup annotation specification

有學(xué)者使用中文分詞任務(wù)的BMES標(biāo)注規(guī)范[21]進(jìn)行實(shí)體標(biāo)注,BMES字母含義類似于BIOES;在此基礎(chǔ)上有學(xué)者擴(kuò)充了刑事案件文本實(shí)體標(biāo)簽[22],提出含7個標(biāo)注符號的bmelros體系,其中b、e是實(shí)體左右邊界,m是實(shí)體內(nèi)部,l、r分別為實(shí)體左、右提示詞,s和o繼承自BIOES。具體標(biāo)注規(guī)范的選擇由數(shù)據(jù)集及訓(xùn)練方式?jīng)Q定,選擇字或詞來標(biāo)注取決于算法利用字級別或詞級別信息。BIOES標(biāo)注規(guī)范因更準(zhǔn)確地指代了實(shí)體的內(nèi)部特征,被證明能提高識別效率[23],但后續(xù)深度學(xué)習(xí)出現(xiàn)的預(yù)訓(xùn)練語言模型使用了BIO標(biāo)注,BIO與BIOES格式可輕松進(jìn)行轉(zhuǎn)化。

2.5 領(lǐng)域評價指標(biāo)確定

NER常用評價指標(biāo)有precision(精確率)、recall(召回率)、F1,有時以Micro-F1、Macro-F1來輔助評定識別效果。

對輸入模型句子中的每一個token進(jìn)行多分類。NER中的gold_tag代表真實(shí)標(biāo)簽,predict_tag代表預(yù)測標(biāo)簽,若需要識別出N類實(shí)體,則為任一類實(shí)體i,i∈N,計算:

TPi:gold_tag與predict_tag均為i的token數(shù)目。

TNi:predict_tag、gold_tag均非i的token數(shù)目。

FPi:predict_tag為i、gold_tag非i的token數(shù)目。

FNi:predict_tag非i、gold_tag為i的token數(shù)目。

precision:識別正確的實(shí)體標(biāo)簽數(shù)量占全部predict_tag標(biāo)簽為該實(shí)體標(biāo)簽標(biāo)記數(shù)量的比例。

recall:識別正確的實(shí)體標(biāo)簽數(shù)量占全部gold_tag為該實(shí)體標(biāo)簽的比例。

Micro-F1:將為每一類實(shí)體i計算precisioni和recalli時所需的基礎(chǔ)因子TPi、FPi、FNi加權(quán)求和運(yùn)算得到precisionmicro和recallmicro,并代入F1的運(yùn)算公式。

由公式可以看出,Micro-F1受各類別實(shí)體數(shù)目分布的影響,若數(shù)據(jù)集中實(shí)體分布不均,則Micro-F1能夠客觀描述提取效果。

Macro-F1:將所有類別的precision總和與recall總和分別求平均值,并代入F1公式進(jìn)行運(yùn)算。

由公式可以看出,Macro-F1不考慮各類別實(shí)體數(shù)目具體分布的影響,被具有較高precision和recall的實(shí)體類別所影響。

由上述計算公式可知,NER評估指標(biāo)一般在token級別上計算,即在逐字標(biāo)注的基礎(chǔ)上,判斷每個字與對應(yīng)答案是否一致,而不考慮字前后是否屬于相同實(shí)體等約束條件。但當(dāng)識別出的命名實(shí)體被用于下游任務(wù)時,在完整實(shí)體級別計算上述指標(biāo)會更有用。實(shí)體級別即同時考慮實(shí)體邊界和實(shí)體類型,在表8所示六種情形下,CoNLL[24]、ACE[25]、MUC[3]、SemEval[26]等評測會議規(guī)定了細(xì)致的解決方案。如SemEval提出的精確模式規(guī)定只將情形1計入識別正確時會導(dǎo)致準(zhǔn)確率較低,可以把情形2、情形3也計入識別正確[27]以提高相關(guān)指標(biāo)。某些DNER應(yīng)用只需識別句子中的實(shí)體邊界即可計入識別正確,如影視文本將《紅玫瑰與白玫瑰》識別為書名或電影名均計為正確,前提是將這7個字視為完整實(shí)體。

表8 實(shí)體標(biāo)注結(jié)果Table 8 Entity labeling results

綜上所示,若領(lǐng)域內(nèi)沒有公開用于評測的數(shù)據(jù)集,則同領(lǐng)域內(nèi)不同方法的優(yōu)劣很難在不同數(shù)據(jù)集上比較,誤差可能出現(xiàn)在:

(1)實(shí)體標(biāo)注種類和數(shù)目的不同。

(2)評價指標(biāo)在計算實(shí)現(xiàn)上的不同。

3 中文領(lǐng)域命名實(shí)體識別技術(shù)發(fā)展

DNER技術(shù)依賴于NER技術(shù)的發(fā)展。NER從基于詞典、規(guī)則的模式匹配方法,到統(tǒng)計機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法,再到基于融合其他研究方向先進(jìn)技術(shù)的思想,如應(yīng)用計算機(jī)視覺(Computer Vision,CV)領(lǐng)域取得成功的圖神經(jīng)網(wǎng)絡(luò),或NLP另一個子任務(wù)“機(jī)器翻譯”提出的Attention機(jī)制,NER技術(shù)發(fā)展路線如圖5所示。

圖5 NER技術(shù)發(fā)展路線Fig.5 Technical development route of NER

3.1 基于詞典和規(guī)則的模式匹配方法

模式匹配方法應(yīng)用最早,也被稱作NER專家系統(tǒng)方法(Expert System,ES)。ES要求包含專業(yè)最高水平知識,提取專家知識并將其轉(zhuǎn)換為規(guī)則形式?;谠~典和規(guī)則的模式匹配方法需要領(lǐng)域?qū)<矣烧Z法規(guī)則等構(gòu)造大量的規(guī)則模板,符合ES知識獲取的定義。

模式匹配方法包括:

(1)維護(hù)一個數(shù)量大且全的詞典,如鑒于少數(shù)民族人名特點(diǎn),有學(xué)者構(gòu)建了維吾爾語人名數(shù)據(jù)詞典進(jìn)行維吾爾語NER[28],若文本中有實(shí)體未被詞典收錄,則手動錄入詞典以供下一次識別。

(2)在詞典基礎(chǔ)上,增加實(shí)體的構(gòu)造規(guī)則,據(jù)此提取實(shí)體。典型的規(guī)則[1]包括關(guān)鍵詞、位置詞、中心詞等元素。如中文譯名NER[29]利用普通人名的構(gòu)成規(guī)律——全稱如[姓+名],代稱如[姓+職位]、[老(小)+姓]等模式進(jìn)行識別;化學(xué)物質(zhì)NER利用化學(xué)物質(zhì)的構(gòu)成模式——化學(xué)介詞+化學(xué)詞頭+化學(xué)符號[30],使用正則表達(dá)式進(jìn)行化學(xué)物質(zhì)名稱提取。

基于模式匹配方法的NLP系統(tǒng)如University of Sheffield NLP開發(fā)的NLP框架GATE[31],有著清晰 的NER規(guī)范。GATE下的JAPE組件是一種專屬于GATE的模式匹配語言,編寫語法與正則表達(dá)式相似,由實(shí)體在文本中的特征來確定構(gòu)造規(guī)則。不同的構(gòu)造規(guī)則會產(chǎn)生沖突,如[武漢市長江大橋]能被分成[武漢市長|江大橋]或[武漢市|長江大橋]等兩種合乎語法規(guī)范的實(shí)體,此時主要使用基于前向匹配或后向匹配或兩者結(jié)合的算法[32]來解決此類沖突。亦可借鑒英文詞干算法原理[33],統(tǒng)計實(shí)體出現(xiàn)的頻率作為實(shí)體分割優(yōu)先級的依據(jù),缺點(diǎn)是不易變通。

模式匹配方法準(zhǔn)確率高,但眾多實(shí)體識別規(guī)則的制定依賴領(lǐng)域?qū)<?,領(lǐng)域間基本無復(fù)用。此外,領(lǐng)域詞典需定期維護(hù),不斷涌現(xiàn)的新實(shí)體與實(shí)體的不規(guī)則性使得難以構(gòu)造完備的詞典。即使存在缺點(diǎn),模式匹配方法依舊被應(yīng)用,因為某些領(lǐng)域?qū)嶓w的規(guī)則可以被窮舉95%以上,規(guī)則仍是提取裁判文書部分實(shí)體[17]的首選,同時在之后的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)NER模型中加入規(guī)則和字典能夠提高準(zhǔn)確率。

3.2 基于統(tǒng)計機(jī)器學(xué)習(xí)的方法

統(tǒng)計機(jī)器學(xué)習(xí)時代,NER的發(fā)展基于大規(guī)模有標(biāo)注語料庫(監(jiān)督數(shù)據(jù)集)的出現(xiàn),從編制全面的不易變通的規(guī)則系統(tǒng)到期待機(jī)器通過大規(guī)模語料庫的訓(xùn)練自動識別語言規(guī)律。語料庫中的語言學(xué)知識體現(xiàn)在用特征模板來解釋實(shí)體上下文的特征,使機(jī)器理解實(shí)體周圍成分的含義,這稱為特征提取,目的是為了提高統(tǒng)計模型的準(zhǔn)確率。

文本特征是指將文本的特點(diǎn)轉(zhuǎn)換成數(shù)值[32]。針對中國人名識別和性別判斷問題[32],特征定為名字中是否包含某個特征字,并將名字用特征表示。如“余秋雨”是一位男性作家,名字由“秋”“雨”組成,但許多女性名字中包含了“雨”字,此時無法直接通過“雨”字判斷性別,因此將名字表示為多個特征字的組合,從而讓機(jī)器通過大量語料來學(xué)習(xí)。特征的種類不定,數(shù)量不定,若將中國人名的特征字增加到5個,如表9所示,人名中的單字都從特征字中選取,則“余秋雨”可表示為5維向量[1,1,0,0,0]后再輸入機(jī)器學(xué)習(xí)模型。當(dāng)特征條件包括了所有常用漢字后,就可以給常見人名向量化的特征表示。

表9 特征模板Table 9 Characteristics of template

特征模板用來自動化提取特征,挑選特征并設(shè)計特征模板的過程是特征工程[32]。統(tǒng)計機(jī)器學(xué)習(xí)的NER的關(guān)鍵在于特征選取,這些特征來自于反映某類實(shí)體特性的特征集合。特征集合通過統(tǒng)計分析訓(xùn)練語料反映了待提取實(shí)體的特性,包括具體的漢字特征、上下文特征、詞典及詞性特征等[34]。有學(xué)者[35]為實(shí)體設(shè)計了包含只考慮單元素原子特征模板和多原子特征模板結(jié)合的組合特征模板的特征工程,并通過原子特征模板的加入順序驗證了特征模板的有效性,得出特征模板并非越多越好的結(jié)論。有學(xué)者提出在訓(xùn)練時應(yīng)優(yōu)先選擇貢獻(xiàn)度大的特征[36],并證明組合特征模板可以提升系統(tǒng)的性能。同時一些外部資源如分詞結(jié)果[7]、外部知識庫如知網(wǎng)[37]也被當(dāng)作特征錄入特征集合中。

隨著將標(biāo)注語料集和選定的特征模板輸入到隱馬爾科夫模型[38](Hidden Markov Model,HMM)、最大熵[39](Maximum Entropy,ME)、支持向量機(jī)[40](Support Vector Machine,SVM)、決策樹[29](Decision Tree,DT)、條件隨機(jī)場[36](Conditional Random Fields,CRF)等統(tǒng)計機(jī)器學(xué)習(xí)模型中,NER作為序列標(biāo)注任務(wù)的屬性被固定下來,即通過預(yù)測文本中的每個字的標(biāo)簽判斷其是否為一個實(shí)體。

上述機(jī)器模型各有所長,HMM作為概率圖模型以發(fā)射概率、隱藏概率、初始概率對應(yīng)了中文人名識別的角色標(biāo)注[4]問題,使用viterbi算法找到最佳標(biāo)記序。ME在給定數(shù)據(jù)集上選擇一個模型使未知結(jié)果的分布盡可能與現(xiàn)有分布實(shí)現(xiàn)一致均勻分布。CRF作為生成圖模型,吸收了ME綜合有效語言信息的優(yōu)點(diǎn),不依附于HMM嚴(yán)格的獨(dú)立性假設(shè),并排除了其他非生成圖模型的標(biāo)記偏置缺點(diǎn),逐漸成為DNER應(yīng)用的主要模型。針對上述優(yōu)缺點(diǎn),有學(xué)者利用模型改進(jìn)思想,利用層疊CRF進(jìn)行旅游領(lǐng)域NER[41]。漢語詞法分析系統(tǒng)ICTCLAs采用層疊HMM[4]去識別三大類基本實(shí)體,底層實(shí)體識別的結(jié)果為高層實(shí)體識別提供特征。

統(tǒng)計機(jī)器學(xué)習(xí)的NER受限于高質(zhì)量的大規(guī)模標(biāo)注語料庫以及對豐富的、不畏懼語料變遷挑戰(zhàn)的特征模板的需要,構(gòu)建特征模板開銷巨大但準(zhǔn)確率會相應(yīng)提高,因此在后續(xù)NER發(fā)展中,特征工程的保留也可助力實(shí)體識別。

3.3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)提供了代替復(fù)雜龐大的特征工程的解決方案,讓機(jī)器自動找出潛在的特征模板集合。End-to-End解決問題的思路是將數(shù)據(jù)輸入模型,由模型得到結(jié)果,第一步是如何更好地表示文本。

3.3.1詞向量與預(yù)訓(xùn)練語言模型發(fā)展

文本中的詞語最初表示為one-hot編碼向量,即僅以該詞在詞典中的位置作為代表詞語的向量,受制于詞典的覆蓋能力,也無法表示詞語之間的聯(lián)系。將文本表示成機(jī)器能理解的向量而非簡單的數(shù)字組合,是詞向量相對于one-hot編碼所做的貢獻(xiàn)。

CV領(lǐng)域利用神經(jīng)網(wǎng)絡(luò)從圖像里提取特征的思路被NLP借鑒。神經(jīng)網(wǎng)絡(luò)語言模型[42](Neural Network Language Model,NNLM)被用來訓(xùn)練詞向量,目的是通過無監(jiān)督訓(xùn)練方法得到合理存在的語句。Word2vec[43]是NNLM后提出的詞向量訓(xùn)練方式,包括兩種訓(xùn)練步驟,分別是根據(jù)中心詞推理上下文窗口內(nèi)單詞的skip-gram和根據(jù)上下文窗口推理中心詞的CBOW。GloVe[44]克服Word2vec只能看到窗口內(nèi)上下文信息的缺點(diǎn),由詞向量共現(xiàn)理論通過矩陣分解利用了全局信息。GloVe和Word2vec根據(jù)后續(xù)任務(wù)的不同而各有優(yōu)勢,如有學(xué)者[40]指出GloVe訓(xùn)練出的詞向量后接SVM效果更好。

文本詞向量表示后,神經(jīng)網(wǎng)絡(luò)被用來提取向量化的文本特征。CV領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被最早應(yīng)用于NER[45],提取句子級別的特征。CNN卷積運(yùn)算與文本序列輸入的特征不符,具有時間序列特征的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)被用于深層次的語義特征提取,為了使未來的狀態(tài)也能預(yù)測當(dāng)前時刻的輸出,雙向RNN如BI-LSTM[46]、BI-GRU[47]被提出。RNN的訓(xùn)練速度受限于其時間序列性,CNN模型卷積核權(quán)值共享可降低計算復(fù)雜度、多卷積核可并行計算的優(yōu)點(diǎn)被重新重視。有學(xué)者[46]提出了空洞迭代卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,通過疊加CNN擴(kuò)大模型的感受野,提高模型的訓(xùn)練和預(yù)測速度。提取特征后的文本輸入至解碼網(wǎng)絡(luò)得到最佳預(yù)測標(biāo)簽序列。

如表10所示,一系列預(yù)訓(xùn)練語言模型(Pre-trained Language Model,PLM)的產(chǎn)生使得Word2vec和GloVe這兩種詞向量被稱作靜態(tài)詞向量,無法解決一詞多義現(xiàn)象,訓(xùn)練結(jié)果是一個固定的詞向量矩陣,不能被動態(tài)修改,也就無法真正理解文本語義。PLM通過兩階段來訓(xùn)練詞向量,首先使用NNLM來訓(xùn)練,然后根據(jù)下游任務(wù)進(jìn)行微調(diào)。ELMO為了達(dá)到更好的效果,在第一階段使用BILSTM作為特征提取器提取雙向文本信息;GPT則采用Transformer特征提取器[59]提取單向文本信息,Transformer特征抽取器在機(jī)器翻譯任務(wù)上效果顯著,訓(xùn)練的詞向量可以解決一詞多義;BERT使用Transformer提取雙向文本特征,并采用CBOW方式訓(xùn)練雙向語言模型,通過MLM訓(xùn)練方式隨機(jī)去除文本中的一些實(shí)體去訓(xùn)練語言模型,使得訓(xùn)練效果顯著高于GPT。

表10 文本向量化表示的發(fā)展Table 10 Development of textual vectorization

BERT的出色表現(xiàn)使一些學(xué)者開始思考如何降低BERT訓(xùn)練所需的資源而達(dá)到同樣效果,因此RoBERTa[53]、AlBERT[52]、TinyBERT[57]、SpanBERT[56]等PLM被相繼提出。BERT類模型的輸入長度偏短,在生成式任務(wù)如文本摘要上表現(xiàn)不佳,因此XLNet[51]提出了自回歸語言模型和自編碼語言模型來貼合生成式文本規(guī)律,并應(yīng)用Transformer-XL解決長文本特征提取問題。百度提出了ERNIE[55]模型專門訓(xùn)練中文的詞向量,GPT模型也已經(jīng)發(fā)展到了GPT-3[60]。

3.3.2深度學(xué)習(xí)模型解決NER問題架構(gòu)

PLM動態(tài)訓(xùn)練詞向量使文本獲得更好的向量化表示,進(jìn)而利用特征提取器提取文本特征,再通過解碼器獲得預(yù)測的序列標(biāo)簽,具體如下:

(1)對輸入文本基于靜態(tài)詞向量或者動態(tài)的PLM進(jìn)行向量化表示(Input Representation,IR),具體分為基于字(character)或單詞(word)的方式,或融合兩種方式的信息(hybrid)進(jìn)行向量化。IR階段需要有效地融合詞和字的信息[61],還可輔助以統(tǒng)計機(jī)器學(xué)習(xí)方法使用的特征工程。

(2)文本編碼層(Context Encoder,CE)或序列建模層,對于IR階段輸出的向量化文本采用特征提取器進(jìn)一步提取文本特征。

(3)標(biāo)簽解碼層(Tag Decoder,TD),將CE層輸出的向量輸入解碼網(wǎng)絡(luò)得到最佳序列標(biāo)簽。

圖6 展示了根據(jù)領(lǐng)域文本特征選擇不同的文本向量化方法與特征提取器的組合。Word2vec-BILSTMCRF[62]的組合取得了當(dāng)時英文NER最佳的效果,之后被應(yīng)用到中文NER中,深度學(xué)習(xí)時代BERT-BILSTM-CRF的組合[63]也成為了性能提升時的參照。表11列出的論文標(biāo)題展示了DNER的研究趨勢,符合圖6的深度學(xué)習(xí)模型架構(gòu)。深度學(xué)習(xí)準(zhǔn)確率高,但仍需要大規(guī)模的標(biāo)注數(shù)據(jù)集和高資源的算力,PLM的應(yīng)用對于小模型的訓(xùn)練是一種負(fù)擔(dān)。

圖6 深度學(xué)習(xí)模型解決NER架構(gòu)Fig.6 Architecture of deep learning models to solve NER

表11 基于深度學(xué)習(xí)的論文標(biāo)題Table 11 Titles of paper based on deep learning

3.4 基于多方融合的深度學(xué)習(xí)方法

一些NLP書籍[74]將分詞放在NER章節(jié)前,產(chǎn)生一種先分詞再進(jìn)行NER的認(rèn)識,但這兩個任務(wù)并非嚴(yán)格的前驅(qū)后繼關(guān)系。有學(xué)者將這兩個任務(wù)都看成序列標(biāo)注問題,采用相同模型[61]進(jìn)行訓(xùn)練,同時提高兩個任務(wù)的準(zhǔn)確率,這是多任務(wù)方法解決NER的應(yīng)用。多任務(wù)也被用于關(guān)系抽取,先進(jìn)行NER,將NER識別結(jié)果輸入關(guān)系抽取模型是關(guān)系抽取的pipeline方法[75]。

有學(xué)者[75]提出閱讀理解式的解決方案,將實(shí)體規(guī)范編碼成問題代入模型查找實(shí)體,在部分?jǐn)?shù)據(jù)集上取得了較好效果。有學(xué)者[76]提出利用詞典信息的深度學(xué)習(xí)NER框架,具有更高的準(zhǔn)確率,不同于模式匹配方法中詞典信息的利用方式——將文本與詞典碰撞,若存在該詞語就以觸發(fā)詞的方式進(jìn)行識別,這樣會存在一些規(guī)則沖突問題。此處是在對輸入文本進(jìn)行編碼時,將詞典信息作為特征融入到輸入表示中,形成Lattice結(jié)構(gòu)[76]或使用基本圖網(wǎng)絡(luò)[77]、多維圖網(wǎng)絡(luò)[78]來融合詞典信息。為了避免對CE層進(jìn)行繁瑣的設(shè)計,保持CE層繼續(xù)使用BiLSTM,有學(xué)者[21]提出了soft-lexicon,通過設(shè)計IR層來利用詞典中的所有詞。在此基礎(chǔ)上FLAT結(jié)構(gòu)[79]被提出,為lattice中的每一個字再編碼其所屬詞中對應(yīng)的位置信息。

3.5 中文領(lǐng)域命名實(shí)體識別技術(shù)框架

圖7 給出了DNER的技術(shù)解決框架。首先根據(jù)領(lǐng)域獲得的數(shù)據(jù)集規(guī)模及實(shí)體規(guī)律性選擇使用機(jī)器學(xué)習(xí)方法或模式匹配方法;在大數(shù)據(jù)集前提下,根據(jù)工程量確定是否使用特征工程,特征工程與HMM、SVM等機(jī)器學(xué)習(xí)模型聯(lián)合使用;若不使用特征工程,則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量或PLM,領(lǐng)域內(nèi)已訓(xùn)練的詞向量可以被微調(diào)復(fù)用;深度學(xué)習(xí)時代的NER沒有摒棄規(guī)則或者特征工程等方法,在將詞典信息融合至模型的過程中,還可應(yīng)用Attention機(jī)制[80]、圖神經(jīng)網(wǎng)絡(luò)[77]、遷移學(xué)習(xí)[81]等其他領(lǐng)域的新技術(shù)。

圖7 領(lǐng)域NER解決框架Fig.7 Domain NER solution framework

4 中文領(lǐng)域命名實(shí)體識別發(fā)展

4.1 應(yīng)用發(fā)展

DNER系列研究體現(xiàn)了NER既是信息抽取的重要子任務(wù),也是業(yè)務(wù)文本結(jié)構(gòu)化的基本步驟這兩大特點(diǎn),DNER有助于完成以下工作:

(1)構(gòu)建領(lǐng)域高質(zhì)量標(biāo)注語料庫

目前研究集中在有監(jiān)督數(shù)據(jù)領(lǐng)域的學(xué)習(xí),CLUENER語料[9]構(gòu)建過程中提到了機(jī)器訓(xùn)練的樣本數(shù)多于人類,是人類表現(xiàn)不如機(jī)器理解樣本標(biāo)簽含義從而表現(xiàn)不佳的理由之一。深度學(xué)習(xí)需要質(zhì)量高的標(biāo)注數(shù)據(jù)集,DNER的研究必然會為領(lǐng)域貢獻(xiàn)一部分語料知識,如何整合語料促進(jìn)語料融合,從而實(shí)現(xiàn)技術(shù)遷移是當(dāng)前DNER的研究趨勢。同屬領(lǐng)域的不同研究因受限于業(yè)務(wù)的細(xì)節(jié),從而決定了在制定規(guī)范時實(shí)體類型和數(shù)量的差異,造成子業(yè)務(wù)提取指標(biāo)增加的同時遷移能力減弱。因此在DNER研究之初,需要構(gòu)思數(shù)據(jù)集及標(biāo)注規(guī)范問題,這也是不可避免的步驟。制定優(yōu)秀強(qiáng)壯的標(biāo)注規(guī)范,借鑒該領(lǐng)域前人的標(biāo)注規(guī)范,或是觸類旁通與子任務(wù)相近領(lǐng)域的實(shí)體制定規(guī)范,充分利用有限的語料,能夠為NER后續(xù)任務(wù)提供幫助。

(2)能夠構(gòu)建領(lǐng)域知識庫

涉恐DNER是為了我國網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫而構(gòu)建[82],因我國目前還沒有自己的網(wǎng)絡(luò)恐怖信息數(shù)據(jù)庫。隨著在本體概念上構(gòu)建知識庫的觀念的回歸,在領(lǐng)域本體架構(gòu)下,通過DNER方法提取本體架構(gòu)中的各項實(shí)例并錄入數(shù)據(jù)庫中是可選擇的途徑。知識庫涉及的內(nèi)容龐雜,但其基礎(chǔ)屬性是由本體的基本單元所構(gòu)成,隨著NER技術(shù)的成熟,新涌現(xiàn)實(shí)體被識別并被自動添加到現(xiàn)有知識庫中,文本中的關(guān)鍵信息也能被挖掘。在反恐領(lǐng)域,恐怖組織的準(zhǔn)確識別能夠為恐怖形勢的研判提供幫助,可以通過關(guān)聯(lián)恐怖組織周圍實(shí)體關(guān)注動態(tài),此外通過提取的反恐領(lǐng)域?qū)嶓w內(nèi)在地構(gòu)成了反恐事件的框架,因反恐實(shí)體標(biāo)簽在定義時就內(nèi)化了一層與事件的語義關(guān)系信息。一些公司將知識庫應(yīng)用于搜索查詢?nèi)蝿?wù),并通過知識庫構(gòu)建相關(guān)比賽促進(jìn)了NER的發(fā)展。

(3)能夠構(gòu)建領(lǐng)域知識圖譜

與構(gòu)建知識庫的原理相似,知識圖譜更關(guān)注于智能問答,林業(yè)領(lǐng)域植物知識圖譜[83]的構(gòu)建是為了林業(yè)病蟲害研究,影視知識圖譜[84]的構(gòu)建是為了展示作品與影視行業(yè)工作人員、影視公司之間的關(guān)系。知識圖譜中所包含的基本單元就是有意義的實(shí)體,而知識庫包含實(shí)體及實(shí)體附加的其他屬性。從實(shí)體流轉(zhuǎn)到知識庫再到知識圖譜是被認(rèn)可的路徑。知識圖譜構(gòu)建技術(shù)不僅在于NER技術(shù)的提升,也需要其他NLP子任務(wù)的協(xié)助,如關(guān)系抽取、實(shí)體鏈接技術(shù)等,這也是多任務(wù)進(jìn)行NER的基本目標(biāo),通過訓(xùn)練同一模型在節(jié)約訓(xùn)練資源的同時提高多重任務(wù)的效率。

4.2 研究熱點(diǎn)

NER的發(fā)展汲取了不同階段的優(yōu)點(diǎn),體現(xiàn)在模式匹配方法仍然可以應(yīng)用在實(shí)體規(guī)律性強(qiáng)的領(lǐng)域,如司法領(lǐng)域提取裁判文書中某些實(shí)體的規(guī)則可以被窮舉90%,以及詞典信息也在更好地融入深度模型架構(gòu);統(tǒng)計機(jī)器學(xué)習(xí)方法提出的特征工程的概念也輔助應(yīng)用于深度學(xué)習(xí)模型框架,選取分詞、上下文等特征對輸入信息進(jìn)行編碼,從而提取一些固定模板無法提取的特征;深度學(xué)習(xí)End-to-End的特性通過改變神經(jīng)網(wǎng)絡(luò)架構(gòu)捕捉隱含文本信息,提高準(zhǔn)確率卻耗費(fèi)算力。根據(jù)NER不同發(fā)展階段的特點(diǎn),列舉如下研究熱點(diǎn):

(1)高質(zhì)量領(lǐng)域數(shù)據(jù)集的獲取。當(dāng)前領(lǐng)域NER數(shù)據(jù)語料缺乏,開展一類新的DNER的首要步驟是領(lǐng)域數(shù)據(jù)集的構(gòu)建。標(biāo)注資源匱乏會導(dǎo)致大型深度學(xué)習(xí)模型無法有效部署和訓(xùn)練,有標(biāo)注的高質(zhì)量的監(jiān)督數(shù)據(jù)集一定能為深度學(xué)習(xí)助力。在資源限制條件下,需采取其他方法來擴(kuò)大領(lǐng)域數(shù)據(jù)集。國內(nèi)對于無監(jiān)督領(lǐng)域的學(xué)習(xí)較國外少[85],自學(xué)習(xí)算法[86]和主動學(xué)習(xí)[86]分別是兩種利用半監(jiān)督學(xué)習(xí)(少量標(biāo)注樣本)和無監(jiān)督學(xué)習(xí)(大量未標(biāo)注樣本)的算法,其概念來源于CV領(lǐng)域,但這兩種方式并未完全解決標(biāo)注資源緊缺帶來的困難。自學(xué)習(xí)算法會挑選出與初始部分樣本較相近的樣本,則模型學(xué)習(xí)到新的信息速度變慢,還會有標(biāo)注錯誤的累積問題。主動學(xué)習(xí)算法依然通過人力來審查每輪的新標(biāo)注樣本,相當(dāng)于減少了人工標(biāo)注量,但可能會忽略含有其他豐富信息的樣本。

(2)促進(jìn)現(xiàn)有領(lǐng)域語料庫的融合以實(shí)現(xiàn)技術(shù)遷移。由于目前一些DNER的研究并非使用了統(tǒng)一語料庫,采用了相同的實(shí)體制定規(guī)范,這對于大規(guī)模語料庫的構(gòu)建提出了難題,已被訓(xùn)練過的資源無法得到有效擴(kuò)展,無法做到資源共享,這從實(shí)體的規(guī)范制定和標(biāo)注工程兩方面對DNER提出了要求。

(3)DNER通用實(shí)現(xiàn)框架的構(gòu)建。在3.3.2節(jié)中探討了DNER對于通用NER技術(shù)的應(yīng)用可行性,說明了一種深度學(xué)習(xí)時代DNER研究的一般模式,如使用PLM/Word Embedding-Encoder-Decoder(預(yù)訓(xùn)練語言模型或詞向量-文本編碼-解碼)的模式。由于不同領(lǐng)域?qū)嶓w類型分布及標(biāo)注規(guī)范不同,在不考慮以上差異前提下,論證特定領(lǐng)域NER是否可以采用一種通用方法識別各領(lǐng)域不同類型的實(shí)體,表11列出題目中的技術(shù)正在應(yīng)用這一模式。除此之外,新模式的嘗試需要各領(lǐng)域的反復(fù)實(shí)踐以驗證,通用方法的成熟會使得表2中部分領(lǐng)域DNER的產(chǎn)出速度加快。

(4)基于多方融合的深度學(xué)習(xí)時代NER技術(shù)的提高。首先是多任務(wù)進(jìn)行NER的思想,DNER為下游任務(wù)提供所需實(shí)體,如準(zhǔn)確的DNER是主題詞發(fā)現(xiàn)技術(shù)的基礎(chǔ),有助于實(shí)現(xiàn)領(lǐng)域更友好的分詞,有助于關(guān)系抽取中對于實(shí)體的準(zhǔn)確定位等,多任務(wù)的共同提高能夠節(jié)約訓(xùn)練資源。其次是將Attention機(jī)制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)思想等技術(shù)與現(xiàn)有NER模型架構(gòu)融合,分別對主體架構(gòu)的某些側(cè)面進(jìn)行改進(jìn),及時記錄結(jié)構(gòu)的改進(jìn)帶來效果的正負(fù)反饋。

本文從中文領(lǐng)域命名實(shí)體的概念開始,介紹了開展中文領(lǐng)域命名實(shí)體識別研究的所需基礎(chǔ)條件,如數(shù)據(jù)集的獲取和實(shí)體規(guī)范的確立,以及所需研究框架,如從模式匹配方法至深度學(xué)習(xí)方法,由于神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)出色,著重介紹了深度學(xué)習(xí)時代從文本向量化到實(shí)體提取所需的一些模型。NER對于NLP領(lǐng)域重要性同樣體現(xiàn)在中文DNER的發(fā)展促進(jìn)工業(yè)場景化NLP任務(wù)的提高。目前研究熱點(diǎn)和難點(diǎn)集中在多方融合技術(shù)促進(jìn)實(shí)體提取方法的改進(jìn)與已有研究資源的集合上,DNER的自動化發(fā)現(xiàn)新實(shí)體的功能能夠讓人們自動地監(jiān)視網(wǎng)絡(luò)中指數(shù)式增長的信息,緩解人力資源的配置。NER技術(shù)不斷推陳出新,促進(jìn)非結(jié)構(gòu)化文本的有效信息自動結(jié)構(gòu)化。

猜你喜歡
實(shí)體規(guī)范領(lǐng)域
來稿規(guī)范
來稿規(guī)范
PDCA法在除顫儀規(guī)范操作中的應(yīng)用
來稿規(guī)范
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
領(lǐng)域·對峙
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
新常態(tài)下推動多層次多領(lǐng)域依法治理初探