摘 要: 命名實(shí)體識(shí)別是自然語言處理領(lǐng)域的一項(xiàng)關(guān)鍵任務(wù),其目的在于從自然語言文本中識(shí)別出具有特定含義的實(shí)體,如人名、地名、機(jī)構(gòu)名和專有名詞等。在命名實(shí)體識(shí)別任務(wù)中,研究人員提出過多種方法,包括基于知識(shí)和有監(jiān)督的機(jī)器學(xué)習(xí)方法。近年來,隨著互聯(lián)網(wǎng)文本數(shù)據(jù)規(guī)模的快速擴(kuò)大和深度學(xué)習(xí)技術(shù)的快速發(fā)展,深度學(xué)習(xí)模型已成為命名實(shí)體識(shí)別的研究熱點(diǎn),并在該領(lǐng)域取得顯著進(jìn)展。文中全面回顧現(xiàn)有的命名實(shí)體識(shí)別深度學(xué)習(xí)技術(shù),主要分為四類:基于卷積神經(jīng)網(wǎng)絡(luò)模型、基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型、基于Transformer模型和基于圖神經(jīng)網(wǎng)絡(luò)模型的命名實(shí)體識(shí)別。此外,對(duì)深度學(xué)習(xí)的命名實(shí)體識(shí)別架構(gòu)進(jìn)行了介紹。最后,探討命名實(shí)體識(shí)別所面臨的挑戰(zhàn)以及未來可能的研究方向,以期推動(dòng)命名實(shí)體識(shí)別領(lǐng)域的進(jìn)一步發(fā)展。
關(guān)鍵詞: 命名實(shí)體識(shí)別; 深度學(xué)習(xí); 自然語言處理; 卷積神經(jīng)網(wǎng)絡(luò); 循環(huán)神經(jīng)網(wǎng)絡(luò); Transformer; 圖神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TN919?34 " " " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " 文章編號(hào): 1004?373X(2024)06?0032?11
Survey of named entity recognition research based on deep learning
ZHANG Jiyuan1, 2, 3, QIAN Yurong1, 2, 3, LENG Hongyong2, 3, 5, HOU Shuxiang2, 3, 4, CHEN Jiaying1, 2, 3
(1. School of Software, Xinjiang University, Urumqi 830000, China;
2. Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China;
3. Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830000, China;
4. School of Information science and Engineering, Xinjiang University, Urumqi 830000, China;
5. School of computer science, Beijing Institute of Technology, Beijing 100081, China)
Abstract: Named entity recognition is a crucial task in the field of Natural Language Processing, which aims to identify entities with specific meanings from natural language texts, such as person names, place names, institution names, and proper nouns. In the task of named entity recognition, researchers have proposed various methods, including those based on domain knowledge and supervised machine learning approaches. In recent years, with the rapid expansion ofinternet text data and the rapid development of deep learning techniques, deep learning models have become aresearch hotspot in named entity recognition and have made significant progress in this field. A comprehensive review of existing deep learning techniques for named entity recognition is provided, categorizing them into four main categories: models based on convolutional neural networks (CNN), recurrent neural networks (RNN), Transformer models, and graph neural networks (GNN) for NER. An overview of deep learning architectures for named entity recognition is presented. The challenges faced by named entity recognition and potential research directions in the future are explored to promote further development in the field of named entity recognition.
Keywords: named entity recognition; deep learning; natural language processing; convolutional neural networks; recurrent neural network; Transformer; graph neural network
0 "引 "言
自然語言處理(Natural Language Processing, NLP)是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域的重要研究方向,主要研究人與計(jì)算機(jī)之間用自然語言進(jìn)行有效交流的理論和方法。信息提取(Information Extraction, IE)是NLP的一個(gè)重要子領(lǐng)域,通常涉及命名實(shí)體的提取、命名實(shí)體之間的關(guān)系以及實(shí)體所涉及的事件等方面的處理。其中,命名實(shí)體識(shí)別(Named Entity Recognition, NER)是IE的子任務(wù)之一,它將自然語言文本中的專有名稱劃分為個(gè)人、地點(diǎn)、組織名稱等。NER任務(wù)的準(zhǔn)確性對(duì)進(jìn)一步的IE任務(wù),如關(guān)系和事件的提取[1],有著重要影響。此外,在各種NLP應(yīng)用中,如文本理解[2?3]、信息檢索[4?5]、自動(dòng)文本摘要[6]、問答[7]、機(jī)器翻譯[8]和知識(shí)庫構(gòu)建[9]等方面,NER也發(fā)揮著重要作用。
命名實(shí)體(Name Entity, NE)最初是在1995年的第六屆消息理解會(huì)議(MUC)上提出的,主要指文本中具有特定名稱的單詞或短語。它通常包括三大類(實(shí)體類、時(shí)間類和數(shù)字類)和七個(gè)子類(人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比)[10]。NER旨在識(shí)別文本中的專有名詞,并將其正確分類。自MUC 6會(huì)議以來,NER已成為NLP領(lǐng)域的研究熱點(diǎn)。許多科學(xué)事件,如CoNLL03[11]、ACE[12]、IREX[13]和TREC實(shí)體軌道[14],都對(duì)NER進(jìn)行了深入研究。NER實(shí)例圖如圖1所示。
目前,NER任務(wù)主要分為三類方法:基于規(guī)則和字典的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。在早期的NER任務(wù)中,通常使用基于規(guī)則和字典的方法。這些方法依賴于手動(dòng)開發(fā)的基于實(shí)體特征分析的規(guī)則、詞典、正字特征和本體,而無需標(biāo)注數(shù)據(jù)。規(guī)則模板依賴于知識(shí)庫和字典的建立,是一個(gè)簡單而有效的處理文本中眾多實(shí)體的方法。例如,1991年Rau在IEEE人工智能應(yīng)用大會(huì)上發(fā)表一篇關(guān)于“提取和識(shí)別公司名稱”的論文,主要使用啟發(fā)式算法和手動(dòng)規(guī)則編寫[15]。1997年,張小衡和王玲玲使用基于規(guī)則的方法來識(shí)別中國的大學(xué)名稱[16],準(zhǔn)確率和召回率分別為97.3%和96.9%。另外,D. Farmakiotou等人在2000年提出一種基于規(guī)則的希臘金融文本命名實(shí)體識(shí)別方法[17],而香港理工大學(xué)的王寧等人在2002年使用基于規(guī)則的方法實(shí)現(xiàn)有效的名稱識(shí)別[18]。然而,基于規(guī)則和字典的方法通常依賴于特定的語言、領(lǐng)域和知識(shí)庫,這限制了它們的適用性,并且維護(hù)成本很高。因此,近年來,這些方法逐漸被基于統(tǒng)計(jì)學(xué)習(xí)的方法所取代。
基于統(tǒng)計(jì)學(xué)習(xí)的方法主要包括有監(jiān)督和無監(jiān)督的學(xué)習(xí)方法。近年來,基于特征的有監(jiān)督學(xué)習(xí)方法逐漸成為NER任務(wù)的主流方法。這種方法將NER任務(wù)視為多類分類問題,并使用特定的特征集來提取與實(shí)體相關(guān)的特征。這些特征用于訓(xùn)練機(jī)器學(xué)習(xí)模型,例如隱馬爾可夫模型和支持向量機(jī)等。
這些方法通常需要大量標(biāo)記數(shù)據(jù)來訓(xùn)練模型,但在一些特定任務(wù)和領(lǐng)域中,它們已經(jīng)取得相當(dāng)不錯(cuò)的性能。例如,D. M. Bikel等人提出一種基于手工特征工程的監(jiān)督式命名實(shí)體識(shí)別系統(tǒng),對(duì)名稱、時(shí)間表達(dá)式、日期和數(shù)值表達(dá)式進(jìn)行分類[19]。然而,傳統(tǒng)的基于機(jī)器學(xué)習(xí)的實(shí)體提取方法存在嚴(yán)重問題,即嚴(yán)重依賴專家的特征工程,模型的泛化能力較差。
基于無監(jiān)督學(xué)習(xí)的實(shí)體識(shí)別方法通常采用聚類或利用實(shí)體與術(shù)語之間的相似性對(duì)語料庫中的詞匯特征進(jìn)行統(tǒng)計(jì)分析,來實(shí)現(xiàn)實(shí)體識(shí)別。例如,D. Nadeau等人提出一種基于無監(jiān)督學(xué)習(xí)的NER系統(tǒng),采用簡單的啟發(fā)式方法對(duì)給定文本中的實(shí)體進(jìn)行分類[20]。然而,由于無監(jiān)督學(xué)習(xí)方法的模型訓(xùn)練依賴于數(shù)據(jù)本身,因此需要使用數(shù)量更大、質(zhì)量更高的數(shù)據(jù)來提高模型性能。同時(shí),由于缺乏領(lǐng)域?qū)I(yè)知識(shí),其實(shí)體識(shí)別準(zhǔn)確率也難以保證。近年來,隨著互聯(lián)網(wǎng)文本數(shù)據(jù)的快速增長和深度學(xué)習(xí)技術(shù)的進(jìn)步,出現(xiàn)大量基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法。這些方法無需依賴專家特征工程,采用端到端的方式就可以直接從原始輸入中學(xué)習(xí)特征表示,能更好地提高識(shí)別準(zhǔn)確率和效率。
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的方法不僅在自然語言處理領(lǐng)域取得顯著進(jìn)展,而且在計(jì)算機(jī)視覺(Computer Vision, CV)、圖像處理等領(lǐng)域也獲得重要成果。在NER任務(wù)中,基于深度神經(jīng)網(wǎng)絡(luò)的方法具有顯著優(yōu)勢。深度神經(jīng)網(wǎng)絡(luò)往往具備多層神經(jīng)網(wǎng)絡(luò),經(jīng)過在訓(xùn)練集上的訓(xùn)練,能更好地從原始輸入數(shù)據(jù)中提取復(fù)雜特征,最后利用非線性激活函數(shù)來實(shí)現(xiàn)預(yù)測任務(wù)。
例如,R. Collobert等人提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的NER方法[21];而Huang等人則提出一種基于雙向長短時(shí)記憶網(wǎng)絡(luò)的序列標(biāo)注方法[22]。這些方法基于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,獲得更高的識(shí)別準(zhǔn)確率??傮w而言,基于深度學(xué)習(xí)的NER方法為解決實(shí)際應(yīng)用中的復(fù)雜問題提供了一種有效的途徑,并且在實(shí)踐中已經(jīng)得到廣泛應(yīng)用與認(rèn)可。
1 "常用命名實(shí)體識(shí)別數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
1.1 "數(shù)據(jù)集
自1996年Grishman和Sundheim首次提出NER任務(wù)以來,已經(jīng)為命名實(shí)體識(shí)別創(chuàng)建了許多共享任務(wù)和數(shù)據(jù)集。例如,CoNLL 2002(Tjong Kim Sang,2002)和CoNLL 2003(Tjong?Kim Sang和De Meulder)是根據(jù)西班牙語、荷蘭語、英語和德語的新聞通信文章創(chuàng)建的,CoNLL重點(diǎn)關(guān)注4個(gè)實(shí)體——個(gè)人PER、地點(diǎn)LOC、組織ORG和其他MISC。本文總結(jié)出目前廣泛使用的中英文NER數(shù)據(jù)集,如表1所示。
表1總結(jié)一些廣泛使用的數(shù)據(jù)集,并列出它們的數(shù)據(jù)源以及實(shí)體類型(也稱為標(biāo)簽類型)的數(shù)量。如表1所示,在2005年之前,數(shù)據(jù)集主要是通過對(duì)新聞文章標(biāo)注少量的實(shí)體類型來構(gòu)造的,適用于粗粒度的NER任務(wù)。后來,基于各種文本源開發(fā)更多的數(shù)據(jù)集,包括維基百科的文章、對(duì)話和用戶生成的文本(如推特、YouTube評(píng)論和W?NUT中的StackExchange帖子)。標(biāo)簽類型的數(shù)量也在明顯增加,例如NCBIDisase中就有790個(gè)標(biāo)簽。而像OntoNotes的目標(biāo)是注釋大量不同文本類型的語料庫,包括網(wǎng)絡(luò)日志、新聞文章、脫口秀、廣播、Usenet新聞組和對(duì)話式電話語音,其中包含語法和謂詞論證結(jié)構(gòu)等結(jié)構(gòu)信息,以及本體和共指等淺層語義信息。從1.0~5.0版本,OntoNotes目前擁有18類命名實(shí)體。此外,本文還列出一些特定領(lǐng)域的數(shù)據(jù)集,比如在PubMed和MEDLINE文本上開發(fā)的數(shù)據(jù)集。
1.2 "評(píng)價(jià)指標(biāo)
NER系統(tǒng)的評(píng)估通常與人工注釋進(jìn)行比較,以確定系統(tǒng)是否能正確地標(biāo)記文本中的實(shí)體。這種比較可以通過兩種方式來量化,即寬松匹配和精確匹配。
在寬松匹配中,它允許系統(tǒng)標(biāo)記的實(shí)體與人工注釋的實(shí)體在一定程度上不完全匹配,但仍然可以被視為正確。具體來說,寬松匹配可以分為部分匹配和類型匹配兩種方式。部分匹配是指系統(tǒng)標(biāo)記的實(shí)體與人工注釋的實(shí)體在部分單詞上匹配;類型匹配是指系統(tǒng)標(biāo)記的實(shí)體類型與人工注釋的實(shí)體類型匹配,但實(shí)體的具體單詞可能不同。在實(shí)際的評(píng)測中,往往是以精確匹配為主。在精確匹配評(píng)估中,系統(tǒng)需要同時(shí)正確識(shí)別實(shí)體的邊界和類型,否則將被視為錯(cuò)誤。具體而言,系統(tǒng)的輸出與標(biāo)注數(shù)據(jù)進(jìn)行比較,以計(jì)算誤判(False Positive, FP)、漏判(False Negative, FN)和正確判定(True Positive, TP)實(shí)例的數(shù)量,從而計(jì)算精確度、召回率和F1分?jǐn)?shù)等評(píng)價(jià)指標(biāo)。
[Precision=TPTP+FP] (1)
[Recall=TPTP+FN] (2)
[F1=2Precision·RecallPrecision+Recall] (3)
式中:精確度(Precision)指的是系統(tǒng)正確標(biāo)記的實(shí)體數(shù)量與系統(tǒng)總標(biāo)記數(shù)量之比;召回率(Recall)指的是系統(tǒng)正確標(biāo)記的實(shí)體數(shù)量與標(biāo)注中所有實(shí)體數(shù)量之比;F1分?jǐn)?shù)是精確度和召回率的加權(quán)平均數(shù),它是評(píng)估NER系統(tǒng)性能最常用的指標(biāo)之一。
此外,宏觀平均F1分?jǐn)?shù)(Macro?F1)和微觀平均F1分?jǐn)?shù)(Micro?F1)都考慮多種實(shí)體類型的性能。其中Macro?F1分別計(jì)算每個(gè)實(shí)體類型的F1分?jǐn)?shù),然后取F1分?jǐn)?shù)的平均值:
[Precisioni=TPiTPi+FPi] (4)
[Recalli=TPiTPi+FNi] (5)
式中:[Precisioni]和[Recalli]表示第i類標(biāo)簽的精確率和召回率。
[Precisionmicro=i=1nTPii=1nTPi+i=1nFPi] (6)
[Recallmicro=i=1nTPii=1nTPi+i=1nFNi] (7)
[F1micro=2Precisionmicro·RecallmicroPrecisionmicro+Recallmicro] (8)
式中n是標(biāo)簽總數(shù)。
微平均F?score聚合所有實(shí)體類型的個(gè)體FN、FP和TP,并用它們來獲得統(tǒng)計(jì)數(shù)據(jù)。
[Precisionmacro=1ni=1nPrecisioni] (9)
[Recallmacro=1ni=1nRecalli] (10)
[F1macro=2Precisionmacro·RecallmacroPrecisionmacro+Recallmacro] (11)
由于Macro?F1對(duì)各類別的精確度和召回率求平均值,因此并沒有考慮數(shù)據(jù)數(shù)量的問題。這種情況下,Precision和Recall值較高的類別會(huì)對(duì)F1值的影響較大。
2 "基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究現(xiàn)狀
目前,用于NER任務(wù)的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network, CNN)[23]、循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network, RNN)[24]、長短期記憶網(wǎng)絡(luò)模型(Long?Short Term Memory, LSTM)[25]、雙向LSTM模型(Bi?directional LSTM, Bi?LSTM)、基于Transformer的預(yù)訓(xùn)練模型[26]和圖神經(jīng)網(wǎng)絡(luò)模型。在這些模型中,基于條件隨機(jī)場(Conditional Random Field, CRF)[27]的Bi?LSTM是NER任務(wù)中最常用的模型之一。它使用Bi?LSTM提取句子特征,并使用CRF對(duì)標(biāo)簽之間的依賴關(guān)系進(jìn)行建模。這些模型具有利用大量數(shù)據(jù)進(jìn)行訓(xùn)練、自動(dòng)提取文本中的重要特征、實(shí)現(xiàn)更高識(shí)別準(zhǔn)確率等顯著優(yōu)勢。特別是Bi?LSTM在處理長文本序列和捕獲句子中的雙向信息方面非常有效,使其非常適合實(shí)體本地化[28?29]。
2.1 "基于卷積神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法
盡管CNN更多被應(yīng)用于CV領(lǐng)域,但是其強(qiáng)大的局部特征捕捉能力也讓它被廣泛應(yīng)用于文本序列的特征提取。如R. Collobert等人提出一種句子級(jí)的模型,通過卷積層提取每個(gè)單詞周圍的局部特征[21]。模型將卷積層提取的局部特征向量組合構(gòu)成全局特征向量,再利用池化操作對(duì)每個(gè)特征進(jìn)行降維操作,獲取更具代表性的文本特征。在這個(gè)過程中,R. Collobert等人使用多通道CNN方法,即利用多個(gè)卷積核提取文本序列的不同特征,將提取出的特征拼接成多個(gè)通道的特征圖,并將這些特征圖輸入到后續(xù)的分類器中進(jìn)行NER任務(wù)[21]。相較于單通道CNN,多通道CNN能更好地捕捉文本序列中的予以信息,進(jìn)而提高模型性能,提升NER的準(zhǔn)確性和魯棒性。
Ma和Hovy同時(shí)采用CNN來提取詞語的特征表示[30]。首先,他們使用CNN在字符級(jí)別上捕捉詞法特征;然后,將字符級(jí)表示和嵌入式詞語連接起來,再輸入RNN上下文編碼器中進(jìn)行處理。G. Aguilar等人提出一種多任務(wù)的NER方法。該方法利用CNN在字符級(jí)別上捕捉正字法特征和單詞形狀[31]。Wu等人使用卷積層來生成由多個(gè)全局隱節(jié)點(diǎn)表示的全局特征[32]。然后將局部特征和全局特征輸入到標(biāo)準(zhǔn)仿射網(wǎng)絡(luò)中,以識(shí)別臨床文本中的命名實(shí)體。
2.2 "基于循環(huán)神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法
相較于全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network, FNN)需要固定輸入長度的問題,RNN由循環(huán)單元構(gòu)成,能夠處理變長的輸入數(shù)據(jù),更適合類似于文本數(shù)據(jù)這樣的時(shí)序輸入。RNN在計(jì)算時(shí)根據(jù)前一個(gè)時(shí)間步的隱藏狀態(tài)和當(dāng)前輸入向量計(jì)算當(dāng)前時(shí)間步的隱藏狀態(tài)。通過雙向模型的疊加,可以利用前后文信息進(jìn)行預(yù)測。RNN對(duì)時(shí)間維度特征的強(qiáng)大捕捉能力在NLP的各類任務(wù)中都是最為適用的模型之一。
2.2.1 "長短時(shí)記憶網(wǎng)絡(luò)
在應(yīng)對(duì)長序列時(shí),傳統(tǒng)的RNN往往會(huì)出現(xiàn)梯度消失或梯度爆炸的問題,而這些問題會(huì)嚴(yán)重影響模型的訓(xùn)練效果。為此,研究人員提出一種特殊類型的RNN,即LSTM。在LSTM中,內(nèi)存單元替換隱藏層更新。記憶單元由輸入門、遺忘門、具有自回路連接的神經(jīng)元和輸出門組成。自回路連接確保存儲(chǔ)單元的狀態(tài)在一個(gè)時(shí)間步驟到另一個(gè)時(shí)間步驟之間保持不變。輸入門決定輸入信號(hào)對(duì)存儲(chǔ)單元狀態(tài)的影響,輸出門決定存儲(chǔ)單元狀態(tài)對(duì)其他神經(jīng)元的影響。最后,遺忘門通過控制記憶單元的自回路連接,允許每個(gè)單元保留或遺忘其最后的狀態(tài)。LSTM通過引入門結(jié)構(gòu)來控制信息的流動(dòng),可以對(duì)冗余信息進(jìn)行遺忘,并加強(qiáng)對(duì)有效信息的記憶,從而在一定程度上緩解梯度問題,更適用于長序列場景。
得益于長距離依賴能力,LSTM在NER任務(wù)中能夠有效提取上下文的語義信息,并更好地理解文本內(nèi)容,從而提高模型的識(shí)別準(zhǔn)確率。如O. Kuru等人提出一種基于LSTM的字符級(jí)NER方法,即CharNER[33]。CharNER將句子視為字符序列,利用LSTM提取字符級(jí)別的表示。它為每個(gè)字符而不是每個(gè)單詞輸出標(biāo)記分布,然后從字符級(jí)別標(biāo)記獲取單詞級(jí)別標(biāo)記。實(shí)驗(yàn)結(jié)果表明,以字母為主要表示單位的輸入方式優(yōu)于以單詞為基本輸入單位的方式。CharNER的方法還可以解決一些NLP任務(wù)中單詞分割和詞性標(biāo)注的挑戰(zhàn)。
2.2.2 "雙向長短時(shí)記憶網(wǎng)絡(luò)
Bi?LSTM作為一種能夠?qū)π蛄兄械纳舷挛男畔⑦M(jìn)行建模的神經(jīng)網(wǎng)絡(luò)模型,可以通過前向和后向兩個(gè)方向的處理,有效地捕捉到序列中每個(gè)位置的上下文信息。目前在NER領(lǐng)域中較為流行的模型包括Bi?LSTM和Bi?LSTM?CRF。相較于O. Kuru等人的工作,Wan等人使用Bi?LSTM替換單向的LSTM,能更好地獲取字符特征。再通過softmax層,可將數(shù)據(jù)特征轉(zhuǎn)換為標(biāo)注結(jié)果,進(jìn)而實(shí)現(xiàn)序列標(biāo)注任務(wù),并應(yīng)用在NER任務(wù)中[34]。Ma和Hovy提出一種結(jié)合Bi?LSTM、CNN和CRF的神經(jīng)網(wǎng)絡(luò)模型[30],利用GloVe[35]預(yù)訓(xùn)練的維度為100的詞嵌入以自動(dòng)提取單詞及字符級(jí)特征,利用CRF對(duì)標(biāo)簽序列進(jìn)行全局建模,避免Bi?LSTM在處理長序列時(shí)可能存在的信息遺漏問題,從而提高序列標(biāo)注的性能。Bi?LSTM編碼示意圖如圖2所示。
2.2.3 "門控循環(huán)單元
門控循環(huán)單元(Gated Recurrent Unit, GRU)[36]是一種常用的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。GRU的基本結(jié)構(gòu)包括重置門、更新門和隱藏狀態(tài)。重置門控制忘記歷史信息的程度,而更新門控制合并新信息的程度。兩個(gè)門都取決于當(dāng)前輸入和前一個(gè)時(shí)間步的隱藏狀態(tài)。更新后的隱藏狀態(tài)會(huì)同時(shí)考慮當(dāng)前輸入和以前的隱藏狀態(tài)。通過逐步重置和更新輸入數(shù)據(jù)的歷史信息,GRU可以有效地對(duì)順序數(shù)據(jù)進(jìn)行建模,特別是在長序列中,同時(shí)避免梯度消失和爆炸的問題。相較于傳統(tǒng)的RNN模型,GRU擁有更好的長期記憶能力;與LSTM對(duì)比,GRU又擁有更少的參數(shù),易于訓(xùn)練。
Rei等人利用門機(jī)制將字符級(jí)表示與詞嵌入相結(jié)合[37]。Yang等人使用深度GRU模型在字符和單詞級(jí)別編碼形態(tài)和上下文信息[38]。他們的模型能動(dòng)態(tài)地決定從字符或單詞級(jí)表示中使用多少信息??傮w而言,GRU已成為近年來NER等序列建模任務(wù)的主流模型之一。
2.3 "基于Transformer的命名實(shí)體識(shí)別方法
Transformer是一種利用自注意力機(jī)制來建模序列的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它會(huì)對(duì)自然語言處理任務(wù)產(chǎn)生革命性的影響。在NER任務(wù)中,也有許多基于轉(zhuǎn)換器的方法被提出。無論是生成式預(yù)訓(xùn)練Transformer(Generative Pre?trained Transformer, GPT)[39]還是BERT(Bidirectional Encoder Representation from Transformer)[40]都是基于Transformer模型的預(yù)訓(xùn)練模型,相較于傳統(tǒng)的Word2Vec[41]和GloVe[35],這些預(yù)訓(xùn)練模型能根據(jù)上下文獲得更加準(zhǔn)確的表示,對(duì)于諸如NER之類的下游任務(wù)也有著明顯的提升效果,如圖3所示。盡管BERT作為早期的預(yù)訓(xùn)練模型還存在著一定的局限性,如靜態(tài)掩碼策略,后期的一些工作,如RoBERTa[42]、Albert[43]、XLNet[44]等都對(duì)BERT類模型進(jìn)行改善,但是利用基于Transformer模型的預(yù)訓(xùn)練模型進(jìn)行NER任務(wù)也已然成為一種新的范式。
2.4 "基于GNN的命名實(shí)體識(shí)別方法
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型不同,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)是一種用于處理圖結(jié)構(gòu)數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu),通過迭代地傳遞和聚合節(jié)點(diǎn)間的信息來學(xué)習(xí)節(jié)點(diǎn)的表示,以推斷其狀態(tài)或標(biāo)簽。GNN的核心思想在于將節(jié)點(diǎn)的表示視為其鄰居節(jié)點(diǎn)表示的函數(shù),并通過多輪迭代更新節(jié)點(diǎn)表示,從而融合局部和全局的圖結(jié)構(gòu)信息。在命名實(shí)體識(shí)別任務(wù)中,GNN將NER任務(wù)轉(zhuǎn)化為在圖結(jié)構(gòu)上的節(jié)點(diǎn)分類問題,其中每個(gè)節(jié)點(diǎn)表示一個(gè)單詞或字符,節(jié)點(diǎn)的標(biāo)簽表示其是否屬于命名實(shí)體。GNN通過建模節(jié)點(diǎn)之間的關(guān)系和上下文信息學(xué)習(xí)到更為準(zhǔn)確的節(jié)點(diǎn)表示。常見的GNN方法包括基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的NER模型和基于圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)的NER模型。基于GCN的模型利用卷積操作來聚合鄰居節(jié)點(diǎn)的信息,通過多層GCN網(wǎng)絡(luò)來學(xué)習(xí)節(jié)點(diǎn)的表示。而基于GAT的模型則通過自注意力機(jī)制,根據(jù)節(jié)點(diǎn)之間的重要性動(dòng)態(tài)地聚合鄰居節(jié)點(diǎn)的特征。
2.4.1 "基于GCN的命名實(shí)體識(shí)別方法
對(duì)于NER任務(wù),GCN能夠有效地捕捉節(jié)點(diǎn)之間的上下文關(guān)系和信息傳遞能力。傳統(tǒng)的NER方法主要基于局部上下文和序列信息,但在處理實(shí)體之間的關(guān)聯(lián)性和上下文語境時(shí)存在一定的局限性,盡管可以用上下文特征表示,但這些模型往往對(duì)全局關(guān)系進(jìn)行了錯(cuò)誤的表示。GCN通過結(jié)合圖結(jié)構(gòu)和節(jié)點(diǎn)特征,能夠更好地利用實(shí)體之間的關(guān)聯(lián)信息。
基于GCN的NER模型利用卷積操作來聚合鄰居節(jié)點(diǎn)的信息。具體而言,GCN通過迭代地傳遞和聚合節(jié)點(diǎn)特征,使得節(jié)點(diǎn)能夠融合其直接鄰居節(jié)點(diǎn)的信息。這種信息傳遞和聚合的過程能夠捕捉實(shí)體之間的上下文信息,有助于提取實(shí)體的特征表示。通過多層GCN網(wǎng)絡(luò)的堆疊,模型可以逐步學(xué)習(xí)到更抽象和語義豐富的節(jié)點(diǎn)表示。
T. T. H. Hanh等人提出結(jié)合上下文特征和圖卷積網(wǎng)絡(luò)的全局特征來提高NER性能,并通過廣泛的實(shí)驗(yàn)進(jìn)行驗(yàn)證[45]。Tang等人使用交叉GCN來同時(shí)處理兩個(gè)方向的字符有向無環(huán)圖,引入了全局注意力GCN塊來學(xué)習(xí)以全局上下文為條件的節(jié)點(diǎn)表示[46]。
2.4.2 "基于GAT的命名實(shí)體識(shí)別方法
GAT與GCN的核心思想相似,都是通過節(jié)點(diǎn)之間的信息傳遞和聚合來學(xué)習(xí)節(jié)點(diǎn)的表示,基于圖卷積操作對(duì)節(jié)點(diǎn)之間的關(guān)聯(lián)性進(jìn)行建模。然而,在聚合方式和權(quán)重分配方面,它們有明顯的差異。GCN采用固定的鄰居聚合策略,通過對(duì)鄰居節(jié)點(diǎn)的特征進(jìn)行均值或加權(quán)求和來更新節(jié)點(diǎn)的表示。這種聚合方式無法自適應(yīng)地分配權(quán)重,對(duì)所有鄰居節(jié)點(diǎn)采用相同的權(quán)重,未能精細(xì)建模節(jié)點(diǎn)之間的重要性。相比之下,GAT引入了自注意力機(jī)制,通過計(jì)算節(jié)點(diǎn)之間的注意力系數(shù)來靈活地分配權(quán)重。它通過加權(quán)聚合鄰居節(jié)點(diǎn)的特征表示來更新每個(gè)節(jié)點(diǎn)的表示,權(quán)重由注意力系數(shù)決定。GAT能夠根據(jù)節(jié)點(diǎn)之間的相關(guān)性自適應(yīng)地學(xué)習(xí)節(jié)點(diǎn)的重要性,并更好地捕捉實(shí)體之間的上下文信息和語境。Chen等人在研究中通過引入額外的圖注意力網(wǎng)絡(luò)層來增強(qiáng)短語內(nèi)部依賴性的表示[47]。Wang等人提出一種多態(tài)圖注意力網(wǎng)絡(luò),從多個(gè)維度上動(dòng)態(tài)調(diào)節(jié)匹配字符與匹配詞之間的細(xì)粒度相關(guān)性,以增強(qiáng)字符表征[48]。Tian提出一種有助于詞匯增強(qiáng)型漢語NER且選詞簡單有效的多任務(wù)學(xué)習(xí)方法[49]。該方法中的一項(xiàng)任務(wù)是對(duì)匹配的單詞進(jìn)行評(píng)分,并從中選擇前K個(gè)更有幫助的單詞;另一項(xiàng)任務(wù)是通過多頭注意力網(wǎng)絡(luò)對(duì)所選單詞進(jìn)行整合,并通過字符級(jí)序列標(biāo)記進(jìn)一步實(shí)現(xiàn)中文NER。GAT通過注意力權(quán)重的優(yōu)化能夠強(qiáng)化與實(shí)體相關(guān)的鄰居節(jié)點(diǎn)的特征表示,從而提升命名實(shí)體識(shí)別的準(zhǔn)確性。
GAT和GCN在模型結(jié)構(gòu)上也存在差異。GAT具有更高的靈活性,能夠?yàn)槊總€(gè)節(jié)點(diǎn)計(jì)算獨(dú)立的注意力權(quán)重,從而學(xué)習(xí)到不同節(jié)點(diǎn)之間的關(guān)聯(lián)模式。相反,GCN采用固定的鄰居聚合策略,在信息傳遞過程中使用相同的權(quán)重分配。常用基于深度學(xué)習(xí)的方法總結(jié)如表2所示。
3 "命名實(shí)體識(shí)別的深度學(xué)習(xí)架構(gòu)
在深度學(xué)習(xí)環(huán)境下,NER通常被視為一個(gè)序列標(biāo)注問題。在序列標(biāo)注中,針對(duì)輸入序列(通常是文本句子),模型需要為每個(gè)輸入元素(通常是單詞或字符)預(yù)測一個(gè)標(biāo)簽,這個(gè)標(biāo)簽可以是命名實(shí)體類別,也可以是其他類型的標(biāo)記,如詞性標(biāo)注、情感分析等。在NER中,模型的目標(biāo)是預(yù)測輸入句子中每個(gè)單詞的命名實(shí)體標(biāo)簽,例如人名、地名、組織名等。因此,NER問題也可以被視為多類分類問題的一種,其中每個(gè)輸入元素需要被分類為多個(gè)標(biāo)簽中的一個(gè)或多個(gè)。
如本文在第2節(jié)中所述,在解決NER問題時(shí),常見的深度學(xué)習(xí)網(wǎng)絡(luò),如CNN、RNN、LSTM通常被用于學(xué)習(xí)輸入序列中的上下文信息,并對(duì)每個(gè)輸入元素進(jìn)行分類。相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),近些年來出現(xiàn)的一些基于預(yù)訓(xùn)練模型的NER方法如BERT、RoBERTa等,和結(jié)合圖神經(jīng)網(wǎng)絡(luò)的方法,往往具備更好的性能。
深度神經(jīng)網(wǎng)絡(luò)用于NER是由CNN?CRF模型[21]開創(chuàng)的,其中CNN用于獲取輸入文本的特征,可以理解為編碼器,而CRF層則作為解碼器,用于生成對(duì)應(yīng)的標(biāo)簽。通過應(yīng)用固定大小的上下文窗口,該模型在NER任務(wù)中F1值高達(dá)89.59%。
J. P. C. Chiu等也提出一種使用CNN從字符嵌入中提取字符特征和每個(gè)單詞的字符類型特征的方法[50]。這些字符向量與單詞嵌入和額外的單詞級(jí)特征連接在一起,然后將級(jí)聯(lián)的輸入提供給多層LSTM,其中每一層依次彼此連接。在每個(gè)時(shí)間步,線性層和log?softmax層都通過解碼每個(gè)前向?qū)雍秃笙驅(qū)拥妮敵鰜矸謩e計(jì)算每個(gè)標(biāo)簽類別的對(duì)數(shù)概率(向量)。最后,將這兩個(gè)向量求和以產(chǎn)生最終輸出。除此之外,DBpedia中已知命名實(shí)體的列表也被用作外部知識(shí)源。
迭代擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated CNN, ID?CNN)是一種基于CNN的模型,與傳統(tǒng)的CNN不同之處在于,它可以對(duì)輸入進(jìn)行多次迭代。在NER任務(wù)中,E. Strubell等人使用ID?CNN和CRF混合模型進(jìn)行序列標(biāo)記,其中ID?CNN被用于提取單詞級(jí)別的特征,而CRF則用于對(duì)整個(gè)序列進(jìn)行結(jié)構(gòu)化的預(yù)測[51]。相比于其他前沿模型,ID?CNN允許固定長度的卷積在輸入中并行運(yùn)行,具有更好的處理較大上下文和結(jié)構(gòu)化預(yù)測的能力,并且可以充分利用GPU的并行機(jī)會(huì),實(shí)現(xiàn)更快的序列標(biāo)記過程。相較于CNN,Huang等人提出一系列基于RNN的NER任務(wù)模型[22],這些模型包括LSTM、Bi?LSTM、LSTM?CRF和Bi?LSTM?CRF。在Bi?LSTM?CRF中,詞嵌入和額外的單詞特征(如拼寫和上下文特征)被輸入到Bi?LSTM網(wǎng)絡(luò)中,以產(chǎn)生單詞級(jí)別的表示。然后,該單詞級(jí)別表示被傳遞到CRF層,以預(yù)測輸出標(biāo)簽。相較于CNN?CRF模型,Bi?LSTM?CRF模型對(duì)詞嵌入的依賴性較小,F(xiàn)1值也達(dá)到90.10%。
除前文提到的Lample、Ma和Hovy等人在Bi?LSTM上的工作外,Yao等人也通過提出一個(gè)輕量級(jí)架構(gòu)“CNN?CNN?LSTM模型”,為NER任務(wù)引入深度主動(dòng)學(xué)習(xí)算法,該模型由卷積字符、單詞編碼器以及LSTM標(biāo)簽解碼器組成[52]。在這項(xiàng)工作中,他們證明通過深度主動(dòng)學(xué)習(xí)可以大幅減少標(biāo)記數(shù)據(jù)的數(shù)量。該模型通過Word2Vec訓(xùn)練的潛在詞嵌入進(jìn)行初始化,并且在訓(xùn)練期間對(duì)這些詞嵌入進(jìn)行微調(diào)?;谏疃葘W(xué)習(xí)的NER模型總結(jié)如表3所示。
4 "研究趨勢
從谷歌Word2Vec到最近的BERT模型,NER從深度學(xué)習(xí)的進(jìn)步中受益匪淺。預(yù)訓(xùn)練的詞嵌入允許開發(fā)不需要復(fù)雜特征工程的深度學(xué)習(xí)模型。這些進(jìn)步不僅為NER帶來新的挑戰(zhàn),同時(shí)也為潛在的未來研究方向提供機(jī)會(huì)。
4.1 "中文NER
相對(duì)于英文,中文的標(biāo)注數(shù)據(jù)較少,這給深度學(xué)習(xí)模型的訓(xùn)練帶來了一定的困難。缺乏大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)限制了深度學(xué)習(xí)在中文NER任務(wù)中的性能表現(xiàn)。此外,中文擁有豐富的詞匯和復(fù)雜的語法結(jié)構(gòu),給深度學(xué)習(xí)模型的訓(xùn)練帶來了一定的困難。在中文NER任務(wù)中,需要解決命名實(shí)體的邊界識(shí)別、實(shí)體類型多樣性和歧義性等問題,這進(jìn)一步提高了任務(wù)的難度[53]。另外,中文命名實(shí)體通常由多個(gè)字符組成,而字符級(jí)別的特征表示相對(duì)較弱。由于缺乏準(zhǔn)確建模上下文信息,可能導(dǎo)致對(duì)命名實(shí)體的識(shí)別和分類產(chǎn)生誤判。
同時(shí),中文文本中經(jīng)常出現(xiàn)多個(gè)實(shí)體嵌套的情況,即一個(gè)實(shí)體包含另一個(gè)實(shí)體。如何準(zhǔn)確識(shí)別和處理這種嵌套實(shí)體關(guān)系,以捕捉更準(zhǔn)確的實(shí)體邊界和層次結(jié)構(gòu),是中文NER中的一個(gè)關(guān)鍵問題。
隨著語言建模技術(shù)的不斷改進(jìn)和現(xiàn)實(shí)世界的應(yīng)用對(duì)更復(fù)雜的自然語言處理的需求,NER將越來越受到研究人員的關(guān)注。然而,NER通常被視為下游應(yīng)用程序的預(yù)處理組件和特定NER任務(wù)的要求,如實(shí)體類型和嵌套實(shí)體的檢測,都由這些應(yīng)用程序的需求決定。此外,由于數(shù)據(jù)注釋的固有挑戰(zhàn),包括質(zhì)量、一致性和復(fù)雜性問題,開發(fā)更高效的注釋方法對(duì)于推進(jìn)NER研究至關(guān)重要。基于這項(xiàng)調(diào)查的結(jié)果,本文列出以下NER研究的進(jìn)一步探索方向。
4.2 "細(xì)粒度NER和邊界檢測
對(duì)現(xiàn)實(shí)世界應(yīng)用的需求使得細(xì)粒度的NER和邊界檢測成為研究人員關(guān)注的領(lǐng)域。盡管現(xiàn)有的許多文獻(xiàn)都集中在一般領(lǐng)域的粗粒度NER[31?32,54],但本文認(rèn)為有必要在特定領(lǐng)域?qū)?xì)粒度NER進(jìn)行更多研究,以支持各種實(shí)際的單詞應(yīng)用。細(xì)粒度NER面臨的挑戰(zhàn)是,當(dāng)命名實(shí)體具有多個(gè)實(shí)體類型時(shí),實(shí)體類型的數(shù)量和復(fù)雜性會(huì)顯著增加。這需要重新評(píng)估常見的NER方法,這些方法通常使用B?I?e?S(實(shí)體類型)和O等解碼標(biāo)簽同時(shí)檢測實(shí)體邊界和類型。其中,一種方法是將實(shí)體邊界檢測定義為一種專門任務(wù),用于檢測實(shí)體的邊界,同時(shí)忽略實(shí)體類型。邊界檢測和實(shí)體類型分類的解耦是實(shí)現(xiàn)邊界檢測的更通用和穩(wěn)健的解決方案。該解決方案可以在不同的領(lǐng)域之間共享,并為實(shí)體類型分類提供專門的領(lǐng)域特定方法。準(zhǔn)確的實(shí)體邊界也有效地減少了實(shí)體鏈接到知識(shí)庫中錯(cuò)誤的傳播。盡管一些研究將實(shí)體邊界檢測作為NER[55?56]的一個(gè)中間步驟(即子任務(wù)),但目前還沒有專門關(guān)注實(shí)體邊界檢測以提供魯棒識(shí)別器的現(xiàn)有工作。
4.3 "多模態(tài)NER
實(shí)際應(yīng)用場景中的數(shù)據(jù)通常是多樣化的,實(shí)體識(shí)別不僅僅取決于文本本身,還與其他模態(tài)的信息,如圖像、音頻和視頻等相關(guān)聯(lián)。引入多模態(tài)數(shù)據(jù)可以更好地捕捉這些信息,并且提高NER的性能。例如:在醫(yī)療領(lǐng)域,醫(yī)學(xué)圖像和臨床報(bào)告都可以提供對(duì)疾病和治療的關(guān)鍵信息;在社交媒體分析中,文本和圖像可以相互補(bǔ)充,幫助確定實(shí)體的邊界和類型。多模態(tài)NER結(jié)合多種類型的數(shù)據(jù),以便更全面地描述實(shí)體,并提高識(shí)別的準(zhǔn)確性。
4.4 "時(shí)空?qǐng)D
時(shí)空?qǐng)D是一種用于序列數(shù)據(jù)處理的圖形結(jié)構(gòu),其中節(jié)點(diǎn)表示時(shí)間步長,邊表示時(shí)間步長之間的依賴關(guān)系。在深度學(xué)習(xí)中,時(shí)空?qǐng)D常用于語音處理、自然語言處理、圖像處理等領(lǐng)域中的序列數(shù)據(jù)。在NER任務(wù)中,時(shí)空?qǐng)D可以用于識(shí)別文本中的命名實(shí)體,如人名、地名、組織機(jī)構(gòu)等。通過將文本表示為時(shí)空?qǐng)D,可以更好地理解文本中實(shí)體之間的關(guān)系,并提高實(shí)體識(shí)別的準(zhǔn)確性和效率。
5 "結(jié) "語
本文主要介紹基于深度學(xué)習(xí)的NER技術(shù)的研究背景、研究現(xiàn)狀以及NER的深度學(xué)習(xí)架構(gòu),并介紹基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer模型和圖神經(jīng)網(wǎng)絡(luò)模型的命名實(shí)體識(shí)別方法。最后,本文討論基于深度學(xué)習(xí)的命名實(shí)體識(shí)別技術(shù)未來可能會(huì)面臨的研究趨勢。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和應(yīng)用,基于深度學(xué)習(xí)的NER技術(shù)已經(jīng)取得令人矚目的進(jìn)展和很好的效果。未來可以繼續(xù)探索更加有效的編碼器、解碼器和特征提取方法,同時(shí)結(jié)合領(lǐng)域知識(shí)和先驗(yàn)信息,進(jìn)一步提高NER任務(wù)的性能。此外,也可以將基于深度學(xué)習(xí)的NER技術(shù)應(yīng)用到更多的場景中,為信息處理和人機(jī)交互等領(lǐng)域提供更加優(yōu)質(zhì)的服務(wù)。
注:本文通訊作者為錢育蓉。
參考文獻(xiàn)
[1] 劉源,劉勝全,常超義,等.基于依存圖卷積的實(shí)體關(guān)系抽取模型[J].現(xiàn)代電子技術(shù),2022,45(13):111?117.
[2] 馮宇航,邵劍飛,張小為,等.基于特征融合的中文新聞文本情感分類方法研究[J].現(xiàn)代電子技術(shù),2023,46(3):62?68.
[3] 鄭文麗,熊貝貝,林燕奎,等.基于上下文感知自適應(yīng)卷積網(wǎng)絡(luò)的實(shí)驗(yàn)室文本分類[J].現(xiàn)代電子技術(shù),2023,46(13):85?90.
[4] 王藝皓,丁洪偉,王麗清,等.基于BERT的情感分析研究[J].現(xiàn)代電子技術(shù),2021,44(9):110?114.
[5] 帥訓(xùn)波,石文昌,馮梅,等.面向用戶體驗(yàn)增強(qiáng)的信息檢索評(píng)估模型研究[J].電子技術(shù)應(yīng)用,2023,49(8):88?92.
[6] 張少迪,艾山·吾買爾,鄭炅,等.高并發(fā)漢英信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2019,42(16):104?107.
[7] LIU A T, XIAO W, ZHU H, et al. QaNER: prompting question answering models for few?shot named entity recognition [EB/OL]. [2022?01?11]. https://arxiv.org/pdf/2203.01543.pdf.
[8] MOTA P, CABARR?O V, FARAH E. Fast?paced improvements to named entity handling for neural machine translation [C]// Proceedings of the 23rd Annual Conference of the European Association for Machine Translation. Ghent, Belgium: ACM, 2022: 141?149.
[9] VEENA G, KANJIRANGAT V, GUPTA D. AGRONER: An unsupervised agriculture named entity recognition using weighted distributional semantic model [J]. Expert systems with applications, 2023, 229: 120440.
[10] 高翔,王石,朱俊武,等.命名實(shí)體識(shí)別任務(wù)綜述[J].計(jì)算機(jī)科學(xué),2023,50(z1):26?33.
[11] SANG E F T K, DE MEULDER F. Introduction to the CoNLL?2003 shared task: language?independent named entity recognition [J]. Development, 1837, 922: 1341.
[12] DODDINGTON G R, MITCHELL A, PRZYBOCKI M, et al. The automatic content extraction (ACE) program–tasks, data, and evaluation [EB/OL]. [2023?02?14]. http://www.lrec?conf.org/proceedings/lrec2004/pdf/5.pdf.
[13] DEMARTINI G, IOFCIU T, DE VRIES A P. Overview of the INEX 2009 entity ranking track [C]// Focused Retrieval and Evaluation: 8th International Workshop of the Initiative for the Evaluation of XML Retrieval. Schloss Dagstuhl: Springer, 2010: 254?264.
[14] BALOG K, SERDYUKOV P, VRIES A P. Overview of the TREC 2010 entity track [EB/OL]. [2022?07?14]. https://www.xueshufan.com/publication/3013426078.
[15] RAU L F. Extracting company names from text [C]// 1991 Proceedings. The Seventh IEEE Conference on Artificial Intelligence Application. [S.l.]: IEEE, 1991: 29?32.
[16] 張小衡,王玲玲.中文機(jī)構(gòu)名稱的識(shí)別與分析[J].中文信息學(xué)報(bào),1997(4):22?33.
[17] FARMAKIOTOU D, KARKALETSIS V, KOUTSIAS J, et al. Rule?based named entity recognition for Greek financial texts [C]// Proceedings of the Workshop on Computational Lexicography and Multimedia Dictionaries. Greece: University of Patras, 2000: 75?78.
[18] 王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識(shí)別[J].中文信息學(xué)報(bào),2002(2):1?6.
[19] BIKEL D M, MILLER S, SCHWARTZ R, et al. Nymble: a high?performance learning name?finder [C]// 5th Applied Natural Language Processing Conference. Washington, USA: ACL, 1997: 194?201.
[20] NADEAU D, TURNEY P D, MATWIN S. Unsupervised named?entity recognition: Generating gazetteers and resolving ambiguity [C]// Advances in Artificial Intelligence: 19th Conference of the Canadian Society for Computational Studies of Intelligence. Québec, Canada: Springer, 2006: 266?277.
[21] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of machine learning research, 2011, 12: 2493?2537.
[22] HUANG Z, XU W, YU K. Bidirectional LSTM?CRF models for sequence tagging [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM, 2018: 1049?1058.
[23] LE CUN Y, BOSER B, DENKER J, et al. Handwritten digit recognition with a back?propagation network [C]// Proceedings of the 2nd International Conference on Neural Information Processing Systems. Cambridge: ACM, 1989: 396?404.
[24] MEDSKER L R, JAIN L C. Recurrent neural networks [J]. Design and applications, 2001, 5: 64?67.
[25] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 1997, 9(8): 1735?1780.
[26] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 6000?6010.
[27] WALLACH H M. Conditional random fields: an introduction [J]. Technical reports, 2004, 53(2): 267?272.
[28] MIKOLOV T, DEORAS A, POVEY D, et al. Strategies for training large scale neural network language models [C]// 2011 IEEE Workshop on Automatic Speech Recognition amp; Understanding. Waikoloa: IEEE, 2011: 196?201.
[29] LEE H Y, TSENG B H, WEN T H, et al. Personalizing recurrent?neural?network?based language model by social network [J]. IEEE/ACM transactions on audio, speech, and language processing, 2016, 25(3): 519?530.
[30] MA X, HOVY E. End?to?end Sequence Labeling via Bi?directional LSTM?CNNs?CRF [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: ACM, 2016: 1064?1074.
[31] AGUILAR G, MAHARJAN S, LóPEZ?MONROY A P, et al. A multi?task approach for named entity recognition in social media data [J]. W?NUT, 2017, 2017: 148.
[32] WU Y, JIANG M, LEI J, et al. Named entity recognition in Chinese clinical text using deep neural network [J]. Studies in health technology and informatics, 2015, 216: 624.
[33] KURU O, CAN O A, YURET D. Charner: Character?level named entity recognition [C]// COLING 2016, 26th International Conference on Computational Linguistics, Proceedings of the Conference. Osaka, Japan: ACL, 2016: 911?921.
[34] WAN Q, LIU J, WEI L, et al. A self?attention based neural architecture for Chinese medical named entity recognition [J]. Mathematical biosciences and engineering, 2020, 17(4): 3498?3511.
[35] PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014: 1532?1543.
[36] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder?decoder for statistical machine translation [EB/OL]. [2023?02?25]. http://www.arxiv.org/pdf/1406.1078.pdf.
[37] REI M, CRICHTON G K O, PYYSALO S. Attending to characters in neural sequence labeling models [EB/OL]. [2023?01?12]. http://arxiv.org/pdf/1611.04361.
[38] YANG Z, SALAKHUTDINOV R, COHEN W. Multi?task cross?lingual sequence tagging from scratch [EB/OL]. [2023?11?05]. http://arxiv.org/pdf/1603.06270.
[39] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre?training [EB/OL]. [2022?12?07]. https://www.docin.com/p?2176538517.html.
[40] KENTON J D M W C, TOUTANOVA L K. BERT: pre?training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, MN, USA: Association for Computational Linguistics, 2019: 4171?4186.
[41] RONG X. Word2vec parameter learning explained [EB/OL]. [2022?11?09]. http://www.arxiv.org/pdf/1411.2738.pdf.
[42] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. [2022?11?20]. https://www.xueshufan.com/publication/2965373594.
[43] LAN Z, CHEN M, GOODMAN S, et al. Albert: A lite bert for self?supervised learning of language representations [C]// International Conference on Learning Representations. Addis Ababa: ICLR, 2020: 102?108.
[44] YANG Z, DAI Z, YANG Y, et al. XLNet: Generalized autoregressive pretraining for language understanding [C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, BC, Canada: 5753?5763.
[45] HANH T T H, DOUCET A, SIDERE N, et al. Named entity recognition architecture combining contextual and global features [C]// Towards Open and Trustworthy Digital Societies: 23rd International Conference on Asia?Pacific Digital Libraries. Cham: Springer, 2021: 264?276.
[46] TANG Z, WAN B, YANG L. Word?character graph convolution network for chinese named entity recognition [J]. IEEE/ACM transactions on audio, speech, and language processing, 2020, 28: 1520?1532.
[47] CHEN C, KONG F. Enhancing entity boundary detection for better chinese named entity recognition [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]: Springer, 2021: 20?25.
[48] WANG Y, LU L, WU Y, et al. Polymorphic graph attention network for Chinese NER [J]. Expert systems with applications, 2022(11): 117467.
[49] TIAN X, BU X, HE L. Multi?task learning with helpful word selection for lexicon?enhanced Chinese NER [J]. Applied intelligence: the international journal of artificial intelligence, neural networks, and complex problem?solving technologies, 2023(16): 53.
[50] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM?CNNs [J]. Transactions of the association for computational linguistics, 2016, 4: 357?370.
[51] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate sequence labeling with iterated dilated convolutions [EB/OL]. [2023?04?01]. https://arxiv.org/abs/1702.02098v1.
[52] YAO L, LIU H, LIU Y, et al. Biomedical named entity recognition based on deep neutral network [J]. International journal of hybrid information technology, 2015, 8(8): 279?288.
[53] 趙繼貴,錢育蓉,王魁,等.中文命名實(shí)體識(shí)別研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(1):15?27.
[54] ROJAS M, BRAVO?MARQUEZ F, DUNSTAN J. Simple yet powerful: an overlooked architecture for nested named entity recognition [C]// Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics. 2022: 2108?2117.
[55] GHADDAR A, LANGLAIS P. Robust lexical features for improved neural network named?entity recognition [EB/OL]. [2023?01?27]. http://arxiv.org/abs/1806.03489.
[56] ZHAI F, POTDAR S, XIANG B, et al. Neural models for sequence chunking [C]// Proceedings of the Thirty?First AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017: 3365?3371.