趙繼貴,錢育蓉,王 魁,侯樹祥,陳嘉穎
1.新疆大學 軟件學院,烏魯木齊 830000
2.新疆大學 新疆維吾爾自治區(qū)信號檢測與處理重點實驗室,烏魯木齊 830046
3.新疆大學 軟件工程重點實驗室,烏魯木齊 830000
4.中國科學院大學 經濟與管理學院,北京 101408
5.新疆大學 信息科學與工程學院,烏魯木齊 830000
命名實體識別(named entity recognition,NER)是自然語言處理中的一項重要任務,這項任務最初是在1987年的信息理解會議[1](Message Understanding Conference,MUC)上作為實體關系分類的子任務被提出的。NER 的主要目標是確定實體的邊界和類型。它從自然語言文本中識別出具有特定意義的實體,并能夠準確識別它們的類型,這些實體的類型主要包括人名、組織名、地名等,如圖1 所示是NER 實例。NER 主要從非結構化文本中提取有價值的信息,這些信息可應用于許多NLP 下游任務中,如信息檢索[2]、知識圖譜[3]、問答系統(tǒng)[4]、輿情分析[5]、生物醫(yī)學[6-7]、推薦系統(tǒng)[8]等任務。
圖1 NER實例Fig.1 NER identification example
大多數命名實體識別都是在英文基礎上進行研究[9],英文的命名實體具有比較明顯的形式標志,對實體邊界的識別比較容易[10],在英文中,單詞之間存在分隔符來識別邊界,每個單詞都有完整的含義。與英文相比,中文命名實體識別任務較為困難[11]。中文命名實體識別的難點在于:
(1)詞邊界模糊。中文沒有像英文等語言一樣使用空格或其他分隔符來表示詞邊界,這種特點導致中文命名實體識別面臨著邊界歧義和識別困難的問題。例如,“計算機科學與技術系”中“計算機科學與技術”是一個復合詞,邊界不明確。
(2)語義多樣化。中文存在大量多義詞,一個詞匯可能會被用于不同的上下文中表示不同的含義,因此,命名實體識別模型需要具備更強的上下文理解能力才能正確地將其分類。
(3)形態(tài)特征模糊。在英語中,一些指定類型的實體的第一個字母通常是大寫的,例如指定人員或地點的名稱。這種信息是識別一些命名實體的位置和邊界的明確特征。在中文命名實體識別中缺乏漢語形態(tài)的顯式特征,增加了識別的難度。
(4)中文語料庫內容較少。命名實體識別需要大量的標注數據來訓練模型,但中文標注數據數量及質量有限,導致命名實體識別模型的訓練更為困難。
針對以上問題,本研究按照中文命名實體識別研究的發(fā)展歷程從基于規(guī)則的方法、基于統(tǒng)計模型的方法和基于深度學習的方法三方面進行總結。
本章主要介紹CNER 數據集,包括公共數據集、競賽數據集、私有數據集;其次詳細介紹NER 的標注方案,最后介紹NER的評估指標。
數據集提供標準的實體標注信息,用于評估不同算法和模型在中文命名實體識別任務上的性能表現(xiàn),從而比較不同算法和模型的優(yōu)劣。數據集中包含大量的中文文本和相應的實體標注信息,可以作為算法和模型的訓練、測試和驗證數據。高質量的數據集往往能夠提高模型訓練的質量和預測的準確率。通過使用數據集進行訓練,使得算法和模型具備識別中文命名實體的能力。目前根據數據集的來源和可用性,一般可以將數據集分為公共數據集,競賽數據集以及私有數據集[12]。
常用的中文公共數據集如表1所示,在各類數據集中包括社交媒體(Weibo)、電子簡歷(RESUME)、新聞(人民日報)等不同來源的語料庫。MSRA 數據集由中國微軟亞洲研究院發(fā)布,包含了多種不同的任務,包括中文分詞、命名實體識別、詞性標注等。該數據集的標注質量較高,是研究和評估中文自然語言處理技術的重要資源。Weibo 數據集是一個包含微博文本的大規(guī)模中文社交媒體數據集,由中國新浪公司提供,Weibo 數據集規(guī)模較大,具有很高的噪聲和語言變異性,其標注質量較差。MSRA 和Weibo 數據集是中文命名實體識別中最廣泛使用的語料庫。Resume數據集由上市公司高管簡歷處理而成的,具有多樣性、大規(guī)模和結構化的特點。OntoNotes 數據集包含新聞、廣播、對話、文學作品等多種文本類型,包括大量的文本樣本和標注數據,具有較大的規(guī)模的信息量。如表2 所示是四個通用數據集的數量統(tǒng)計,標注數量有限,為此CLUE 組織基于清華大學開源文本分類數據集THUCTC,選取部分數據進行NER,發(fā)布了CLUENER2020 數據集[13],它包含新聞、論壇、微博等領域的中文文本,并標注了人名、地名、組織機構名等10 種不同的實體類型,并已完成多項基線模型評估,有望成為未來通用的CNER數據集。
表1 中文命名實體識別數據集Table 1 Chinese named entity recognition datasets
表2 常用公開數據集統(tǒng)計Table 2 Common public dataset statistics
競賽數據集的特點通常是數據多,且標注精細。包括SIGHAN Bakeoff 2006 數據集、DuEE 2021 數據集等。其中,SIGHAN Bakeoff 2006數據集由中文信息處理國際會議(SIGHAN)組織的中文分詞和命名實體識別競賽而來,包含新聞、文學、網絡等領域的中文文本。DuEE 2021 數據集由百度公司組織的中文事件抽取競賽而來,包含新聞、微博等不同領域的中文文本,并標注了實體、事件、關系等信息。
在命名實體識別中,通常使用序列標注的方法對輸入的內容進行標注,序列標注的方法一般分為兩類:原始標注和聯(lián)合標注。中文命名實體識別任務中最常見的四個實體標簽是:PER(人物),LOC(地點),ORG(組織),GPE(地緣政治實體)。實體標注的標簽類型如表3所示。
表3 實體標注類型Table 3 Entity annotation types
三種常見的實體識別序列標注方法主要是BIO標注、BMES標注以及BIOSE標注方案。除以上三種常見的標注外,還有其他多種實體標注方式如IOB 標注方案。Reimers等人[14]比較了IOB、BIO、BIOES標記方案,提出標簽方案會影響NER性能,并通過實驗表明BIO和BIOES標注方案在NER任務中的性能要優(yōu)于IOB標注方案。
評估NER的性能主要有精確匹配和寬松匹配兩種方式[15]。精確匹配指的是模型輸出的實體與標注數據完全匹配,包括實體類型和邊界位置都與標注數據完全一致。寬松匹配指的是模型輸出的實體與標注數據部分匹配,但是存在誤判或誤漏的情況。相比之下,使用精確匹配的評估方式更合理。通常使用精確度(Precision)、召回率(Recall)和F1分數(F1-score)來進行評估。
Precision 指模型正確預測出的命名實體數量與所有預測出的實體數量的比例,Recall指模型能夠正確識別的命名實體數量與文本中所有命名實體數量的比例,F(xiàn)-score 是準確率和召回率的調和平均值,平衡的F-score是最常用的評估指標。Precision、Recall、F1-score的具體表達式如下:
傳統(tǒng)的中文命名實體識別的方法主要有兩類:基于規(guī)則的方法、基于統(tǒng)計模型的方法?;谝?guī)則的方法主要依賴于專家設計的規(guī)則和模板來識別命名實體,通常需要考慮詞性、語法、上下文信息等多個方面的特征,借助這些特征來解決詞邊界劃分模糊以及語義多樣化問題?;诮y(tǒng)計的方法則是通過機器學習算法,從大量的語料庫中學習輸入的中文的特征和規(guī)律,使用基于特征工程的方法提取輸入文本的形態(tài)特征以達到命名實體識別的目的。
基于規(guī)則的方法具有簡單易用、可解釋性強、適用范圍廣的優(yōu)點?;谝?guī)則的方法根據一些匹配規(guī)則從文本中選擇匹配的實體,這些規(guī)則主要基于正則表達式或字典。正則表達式由這些特定字符的預定義特定字符和組合形成,以表達字符串或文本的過濾邏輯。字典由實體集合建立,一般采用的方法是從已有的知識庫、詞典、語料庫等數據源中構建,根據標注好的樣本文本,設計一些匹配規(guī)則,匹配規(guī)則可以基于詞語、詞性、上下文信息等。
Hanisch等人[16]為解決所考慮的生物體中大量的歧義同義詞,遵循基于規(guī)則的方法提出ProMiner 系統(tǒng),該系統(tǒng)主要利用預處理的同義詞詞典識別生物醫(yī)學文本中的蛋白質提及和潛在基因。Akkasi 等人[17]利用從訓練數據集中提取的規(guī)則提出ChemTok 分詞器,實驗結果表明,在ChemTok輸出上訓練的分類器在分類性能和錯誤分割實體的數量方面優(yōu)于其他的分類器。Quimbaya等人[18]通過提出基于字典的方法對電子健康記錄進行命名實體識別,對可能組合進行評估,結果顯示,在命名實體的識別過程中,召回率提高明顯,對精確度的影響有限。
為減輕人工工作量,研究人員通過機器學習來制定和生成規(guī)則,如Collins 等人[19]提出的深度學習方法CoTrain,通過根據語料庫對規(guī)則集應用無監(jiān)督訓練迭代來獲得更多的規(guī)則。王寧等人[20]在金融領域利用規(guī)則的方法對公司名進行識別,根據金融新聞文本的深入分析總結出公司名的結構特征及上下文信息,在封閉的測試環(huán)境和開放的測試環(huán)境中準確率分別為97.13%和62.18%?;谝?guī)則的方法根據特定的領域來制定規(guī)則,在特定的語料庫中能夠取得較高的精度,但是存在規(guī)則制定成本高、規(guī)則泛化性能弱等局限性。
基于統(tǒng)計模型的方法通過構建概率模型來預測文本中每個詞的實體標記,將命名實體識別問題向序列標注問題轉換。經典的基于統(tǒng)計的機器學習模型已成功用于NER 任務中,這些模型通常使用基于特征工程的方法來提取特征,然后通過訓練學習到的模型來預測命名實體。常用的機器學習方法包括:隱馬爾可夫模型[21](hidden Markov model,HMM)、條件隨機場模型[22](conditional random field,CRF)、最大熵模型[23](maximum entropy model,MEM)、支持向量機[24](support vector machine,SVM)等。
張華平等人[25]提出基于角色標注的中國人名自動識別的方法,采取HMM 方法對分詞結果進行角色標注,通過對最佳角色序列的最大匹配來識別和分類命名實體,在人民日報數據集上取得了95.20%的準確率。張玥杰等人[26]提出一種融合多特征的MEM中文命名實體識別的模型,該模型將規(guī)則和機器學習的方法相結合,能融合局部與全局多種特征,在SIGHAN2008 NER語料庫中F1值達到了86.31%。陳霄等人[27]針對中文組織機構名的識別任務為解決訓練數據不足的問題,提出一種基于SVM 的分布遞增式學習的方法,利用主動學習的策略對訓練樣本進行選擇,逐步增加分類器訓練樣本的規(guī)模,提高了學習器的識別精度,實驗表明采用主動學習策略的SVM 算法是有效的,在人民日報數據集上準確率為81.7%。Hu 等人[28]使用CRF 作為中文NER模型,比較基于字符級和單詞級的兩個不同層次模型的效果,利用不同的訓練尺度和特征集來研究模型與訓練語料庫的關系及其利用不同特征的能力。表4 比較了常用的機器學習方法的優(yōu)缺點。
表4 常用基于統(tǒng)計的機器學習方法總結Table 4 Summary of common statistical-based machine learning methods
傳統(tǒng)的中文名命名實體識別方法包括基于規(guī)則的方法和基于統(tǒng)計模型的方法,相比之下基于規(guī)則的方法適用于對特定領域的實體識別任務,而基于統(tǒng)計模型的方法適用于處理復雜的實體識別的任務,尤其是在處理大規(guī)模數據時具有優(yōu)勢,能更好地挖掘數據之間的關系,提高預測的準確率。表5 總結了主流的傳統(tǒng)的CNER模型,統(tǒng)一使用F1值作為評價指標。
表5 傳統(tǒng)的CNER模型總結Table 5 Summary of traditional CNER models
深度學習方法在圖像識別[34]、語音識別[35]和自然語言處理[36]領域中廣泛應用?;谏疃葘W習的方法在中文命名實體識別研究中具有準確性高、魯棒性強、可解釋性強以及處理效率高等優(yōu)點,深度學習的方法通過大量的訓練提取上下文信息之間的語義聯(lián)系,可以解決語義多樣化問題,結合分詞工具、長短期神經網絡等方法能夠解決詞邊界劃分問題,對提高自然語言處理的水平和應用場景的廣泛性具有重要的作用[37]。
本文從基于深度學習的CNER 框架模型的角度進行研究[15],從嵌入層、編碼層、標簽解碼層三個層面進行分析。嵌入層主要將輸入的文本轉換為向量的形式表示,將每個單詞或字符映射到一個固定維度的實數向量上,使得神經網絡能夠更好地處理文本數據,在嵌入層中包括基于字符、基于詞、基于字符和詞的混合嵌入。編碼層將嵌入層中的向量進行編碼,轉換為一組高層次的特征表示,利用神經網絡進行深度學習,提取特征。標簽解碼層將上下文相關的表示作為輸入并生成與輸入序列相對應的標簽序列。如圖2所示,是基于深度學習的CNER的模型基本架構。
圖2 基于深度學習的CNER模型架構Fig.2 Deep learning based CNER model architecture
傳統(tǒng)的嵌入方式使用One-Hot編碼[38]的方式對輸入文本進行向量化,使用One-Hot 編碼后,每個特征都被表示為一個向量。但這些向量之間沒有明顯的語義聯(lián)系。由于中文是一種高度歧義的語言,單詞或短語在不同上下文中可能會有不同的含義。因此,不能直接使用這些向量來推斷特征之間的語義聯(lián)系,但是分布式表示[39]是自動從文本中學習的,它可以自動捕獲標記的語義和語法屬性,能夠從上下文中獲取更多的信息,提高對實體的識別準確性。按照分布式表示將嵌入層分為基于字符的模型、基于詞的模型和混合模型。
3.1.1 基于字符的模型
基于字符的模型將單詞表示為字符序列的方法,它通過輸入文本的字符級別表示,不需要明確的詞邊界信息,可以更好地處理CNER中的邊界模糊問題?;谧址哪P途哂锌梢蕴幚砦粗男略~匯、對于拼音或漢字形式相似的實體具有一定的魯棒性的優(yōu)點。
為解決相鄰字符之間強聯(lián)系的問題,Zhang 等人[40]提出一種新的動態(tài)嵌入方法,該方法使用注意力機制來組合嵌入層中的字符和單詞向量特征?;趩蝹€字符特征的序列標注方法被廣泛應用于中文命名實體識別任務,改善單個字符的表示方法,可提高實體識別的性能。為此,羅輝等人[41]提出了一種面向實體識別任務的中文字符表示方法,將這種字符表示輸入到BiLSTMCRF實體識別模型中進行實體識別,證明了所提出的字符表示方法有效性?;谧址哪P痛嬖诓荒軘y帶語義信息、難以處理歧義詞的缺點[42]。
3.1.2 基于詞的模型
基于詞的模型是將中文數據集的文本以詞語的形式作為輸入,借助分詞系統(tǒng)[43]對數據集進行分詞。基于詞的模型可以捕捉到詞與詞之間的語義關系,在處理一些長詞匯的實體時具有良好的效果?;谠~的模型存在分詞錯誤和在處理不規(guī)則的詞以及新詞時比較困難的缺點。
為解決不能利用長距離語境信息的問題,Chen 等人[44]提出一種用于詞分割的+新型神經網絡模型,該模型采用長短期記憶神經網絡,將之前的重要信息保存在記憶單元中,避免了局部上下文窗口大小的限制。Ma等人[45]使用雙向LSTM、CNN 和CRF 的組合,提出一種中性網絡結構,自動從單詞和字符級別的表示中獲益,實現(xiàn)了端到端的NER,不需要特征工程或數據預處理,能適用于廣泛的序列標簽任務。在中文電子病歷命名實體識別任務中,張華麗等人[46]為了消除傳統(tǒng)命名實體識別方法高度依賴人工提取特征不足,結合詞嵌入技術將電子病歷文本序列進行詞向量化表示,設計了雙向長短時記憶(Bi-LSTM)網絡與條件隨機場(CRF)結合的網絡模型,并在聯(lián)合網絡的基礎上添加注意力機制,從而優(yōu)化實體識別準確率。
3.1.3 混合模型
混合模型是將基于字符的模型和基于詞的模型結合起來,由于基于字符的模型存在字與字之間語義提取缺失問題,基于詞的模型存在分詞錯誤的問題,同時將字符和詞作為嵌入表示可以使模型具有較好的魯棒性和識別精度。Zhang 等人[47]提出Lattice LSTM 模型,首次將詞典信息融入到基于字符的模型中,與基于字符的方法相比,該模型明確地利用單詞和單詞序列信息。與基于詞的方法相比,該模型不會受到分割錯誤的影響。Liu 等人[48]提出WC-LSTM 模型,該方法將詞信息添加到詞的起始或結束字符中,在獲取詞邊界信息的同時減輕分詞錯誤的影響,并且探索出四種不同的策略,將單詞信息編碼為固定大小的表示形式,以實現(xiàn)高效的批量訓練。
隨著預訓練模型[49]的蓬勃發(fā)展,被應用于許多研究領域。預訓練的語言模型在NLP 研究中可以捕獲有利于下游任務的豐富知識,例如長期依賴關系、層次關系等。NLP 中預訓練的主要優(yōu)點是預訓練過程中有無限數量的訓練數據,需要標注的數據量大大降低,降低訓練成本[50]。其中基于Transformer 的雙向編碼(bidirectional encoder representations from Transformer,BERT)模型[51]是中文命名實體識別中最常用的預訓練模型,BERT 模型可以考慮整個輸入句子的上下文信息,有助于提高模型對命名實體的理解和識別準確性。對于給定的字符,BERT將其字符位置嵌入、句子位置嵌入和字符嵌入作為輸入連接起來,然后使用掩碼語言模型[52]對輸入句子進行深度雙向表示預訓練,以獲得強大的上下文字符嵌入。
Jia 等人[53]是第一個研究如何利用輸入文檔文本的規(guī)模來增強NER 的人,使用CharEntity-Transformer 將實體信息集成到BERT中,該模型使用字符和實體表示的組合來增強自注意力。Chang 等人[54]提出一種基于BERT 的命名實體識別方法,構建一個BERT-BiLSTMIDCNN-CRF模型,使用BERT進行預訓練,將訓練好的詞向量輸入雙向長短期記憶網絡和迭代擴張卷積網絡進行特征提取。然后結合兩個神經網絡的輸出特征,最后通過條件隨機場對預測結果進行修正,實驗結果表明了預訓練模型Bert 在處理文本嵌入起著重要作用。楊飄等人[55]利用BERT 預訓練生成詞向量,提出了基于BERT的BERT-BIGRU-CRF模型,在MSRA中文數據集上進行測試獲得了不錯的結果,F(xiàn)1值達到了95.43%。
表6 是嵌入層的分布式輸入模型的優(yōu)缺點以及一些代表模型的總結。
表6 嵌入層輸入分布式模型總結Table 6 Summary of embedded layer input distributed models
編碼層主要是將嵌入層輸入的文本轉換成一個高維的特征向量,方便后續(xù)的分類器對文本進行分類。中文命名實體識別的目標是學習一個好的特征表示,使得模型能夠對中文文本進行命名實體識別。在中文命名實體識別的編碼層中通常是采用卷積神經網絡、循環(huán)神經網絡、遞歸神經網絡和Transformer 等其他類型的網絡來提取特征,建立上下文關系。
3.2.1 卷積神經網絡
卷積神經網絡[60](convolutional neural network,CNN)是一種常用的深度學習模型,CNN最初是為計算機視覺研究開發(fā)的,但它已被證明可以有效地捕獲具有卷積運算的n-gram(單詞或字符嵌入)的信息語義特征[61]。CNN 通過卷積操作從局部特征中提取更高級別的特征,能夠有效地處理文本中的依賴關系。
Goodfellow等人[62]提出一個具有多個Softmax分類器的CNN 模型,其中每個分類器負責多位數輸入圖像中每個順序位置的字符預測。Jaderberg 等人[63]引入一種新的基于條件隨機場(CRF)的CNN 模型,共同學習用于場景文本識別的字符序列預測和二元生成。為充分利用GPU并行性,Gui等人[64]提出基于卷積神經網絡(CNN)的方法,該方法使用重新思考機制結合詞典對并行匹配的句子進行建模,實驗結果表明,該方法的識別效率更快。史占堂等人[65]為解決命名實體識別任務時存在一字多詞、增加額外存儲與詞典匹配時間等問題,提出一種CNN-Head Transformer編碼器(CHTE)模型,利用不同窗口大小的CNN獲取Transformer中6個注意力頭的Value 向量,使CHTE 模型在保留全局語義信息的同時增強局部特征和潛在詞信息表示,提升了Transformer在命名實體識別領域的性能表現(xiàn)。
3.2.2 循環(huán)神經網絡
循環(huán)神經網絡[66](recurrent neural network,RNN)是一種用于處理序列數據的神經網絡,它在時間上是有狀態(tài)的,可以利用前面的上下文信息來預測出當前的輸出,核心思想是通過引入“循環(huán)”來處理序列數據,使網絡能夠記住之前的狀態(tài),并將這些狀態(tài)作為輸入影響后續(xù)的輸出。Quyang 等人[67]提出一種用于CNER 的深度學習模型,該模型采用雙向RNN-CRF架構,使用連接的n-gram字符表示來捕獲豐富的上下文信息。但是RNN在處理長序列是容易出現(xiàn)梯度消失或爆炸的問題,導致神經網絡難以學習到長期依賴的關系。為了解決這些問題,后續(xù)研究人員提出一些改進的RNN 結構。Dong等人[37]將雙向LSTM-CRF神經網絡用于CNER,該網絡同時利用字符級和部首級表示,是第一個研究BLSTMCRF架構中的中文部首級表示,并且在沒有精心設計的功能的情況下獲得更好的性能,在MSRA 數據集上F1分數達到了當時最先進的性能90.95%。
3.2.3 Transformer
Transformer是一種深度神經網絡模型,由谷歌團隊在2017 年提出的神經網絡模型[68],它只基于注意力機制,而不是采用循環(huán)和卷積,旨在解決序列到序列的自然語言問題,在中文命名實體識別中取得不錯的性能,且將訓練時間大幅度壓縮。
Transformer的核心組成部分是自注意力機制[69],它能夠在一個序列中計算每個元素與其他元素的關聯(lián)性,從而為序列中的每個元素賦予權重,進而實現(xiàn)上下文感知。Transformer由編碼器和解碼器組成,其中編碼器將輸入序列映射到隱藏表示,解碼器則將隱藏表示轉化為輸出序列。Yan等人[70]提出TENER模型,這是一種采用自適應Transformer Encoder 的NER 架構,用于對字符級特征和單詞級特征進行建模。Li 等人[71]提出FLAT:FLAT-lattice transformer 模型,將晶格結構轉換為由跨度組成的平面結構,利用Transformer 的強大功能和精心設計的位置編碼,可以充分利用晶格信息,并且具有出色的并行化能力。
解碼層是NER 模型最后的階段,主要任務是將上下文表示作為輸入并生成與輸入序列相對應的標簽序列,目前主流方法有兩種:MLP+Softmax與CRF。
3.3.1 多層感知器+歸一化指數函數
多層感知器[72](multilayer perceptron,MLP)是一種由多層感知機或神經元組成的神經網絡。當MLP在輸出層使用歸一化指數函數(Softmax)[73]作為激活函數時,通常使用交叉熵[74]損失來訓練它,交叉熵損失是輸入的預測概率分布和真實概率分布之間的差異的度量。MLP使用線性變換和非線性激活函數的組合來計算輸入文本中每個單詞的每個可能的實體類的分數。Softmax激活函數被應用于MLP的最后一層的輸出,從而在每個單詞的可能實體類上產生概率分布。在訓練期間,訓練MLP 以最小化輸入的預測概率分布和真實概率分布之間的交叉熵損失。目標是調整MLP神經元的權重和偏差,使每個單詞的預測實體類概率與真實標簽匹配。在推理過程中,MLP 用于預測輸入文本中每個單詞最可能的實體類。這可以通過為每個單詞選擇具有最高預測概率的實體類來實現(xiàn)。然后可以使用得到的實體標簽來提取輸入文本中的命名實體并對其進行分類。
3.3.2 條件隨機場
條件隨機場(CRF)模型[75]作為一種判別式概率模型,可以直接建模序列標注任務中標簽之間的依賴關系,能夠有效地解決標簽之間的沖突和歧義問題。CRF模型通常會利用已經預測出的局部標簽序列,通過對全局標簽序列的建模,來計算全局最優(yōu)的標簽序列,提高序列標注的準確性和魯棒性。
在CNER任務中,通常將經過神經網絡輸出的每個單詞的概率分布作為CRF 的輸入特征,并將CRF 輸出的每個標簽分配給相應的單詞。CRF 通常使用基于特征的方法來建立輸入和輸出標簽之間的條件概率分布,這些特征可以是當前單詞的特征(如詞性、詞向量等),也可以是前后相鄰單詞之間的特征(如詞性標注、命名實體類型等)。
基于深度學習的中文命名實體識別屬于端到端的模型,模型可以通過參數自動調節(jié),規(guī)避多模塊模型中模塊之間相互影響產生偏差的弊端,同時也降低了模型的復雜度。除了從基于CNER框架模型的結構嵌入層、編碼層、標簽解碼層進行研究之外,基于深度學習的中文命名實體識別還從基于神經網絡、序列標注模型、基于前饋和雙向模型、基于注意力機制、引入外部知識,以及直接使用大規(guī)模預訓練模型進行實體識別。常用于命名實體識別領域的深度學習神經網絡有:卷積神經網絡和循環(huán)神經網絡以及它們的變體長短期記憶網絡、雙向長短期記憶網絡和門控循環(huán)單元等。為了提高中文命名實體識別的精度,一些模型引入了外部知識,如詞典、知識庫等。這些外部知識可以幫助模型更好地理解文本中的命名實體,并更準確地識別出它們。趙浩新等人[76]直接利用中文筆畫序列生成字向量,旨在模擬筆畫構造漢字的規(guī)律,以此來增強漢字的特征表示,從而提升命名實體識別的效果。為將詞匯信息的特征添加到基于字符嵌入的模型中,閆河等人[77]提出了一種結合詞匯信息特征的中文命名實體識別方法,采用帶有殘差連接的門控空洞卷積網絡提取序列局部特征來表示詞匯信息特征,并添加句子級注意力機制來增強網絡的長序列建模能力,通過稀疏注意力機制將得到的全局和局部特征進行結合,去除特征融合中的冗雜信息,輸出包含詞匯信息特征的文本特征,證明了結合詞匯信息在中文命名實體識別的精度上提升的有效性。表7 總結近五年來基于深度學習的CNER模型,并統(tǒng)計在MSRA數據集和Weibo數據集上的表現(xiàn),其中使用F1分數作為主要評價指標。
表7 近五年基于深度學習的CNER模型總結Table 7 Summary of CNER model based on deep learning in last five years
相比于英文的命名實體識別,中文的命名實體識別的語料庫是比較少的,擴充中文的語料庫是CNER未來研究的趨勢之一[98-99]?,F(xiàn)有的CNER語料庫在規(guī)模上仍然比較有限,需要更多的數據來訓練更精準的模型,在網絡上爬取大量的文本數據,并利用人工標注的方法來構建更大規(guī)模的CNER 模型庫。高質量的數據集對NER模型的訓練和測試是至關重要的,可以通過對現(xiàn)有的CNER 語料庫利用人工智能技術自動糾錯來改善CNER語料庫的質量。對于某些特定領域的命名實體,現(xiàn)有的CNER 語料庫可能不足以提供足夠的訓練數據??梢钥紤]利用領域專家知識來構建領域特定的CNER語料庫,從而提高模型在該領域的性能。
NER的任務通常不考慮嵌套實體問題,但通過對于大量中文文本信息的分析和調查,發(fā)現(xiàn)嵌套實體出現(xiàn)在具體文本中的概率相當大,每個實體對應多個標簽,所以嵌套實體抽取CNER 未來研究的一個熱點和難點。在處理嵌套實體時,通常使用神經網絡模型識別文本中的實體,并預測它們之間的嵌套關系。此外,一些基于規(guī)則的方法和基于超圖的方法也被用來解決嵌套實體抽取的問題。未來在處理中文嵌套NER 時,可以考慮利用嵌套實體的內部實體和外部實體的信息,從底層文本中獲取更細粒度的語義信息,實現(xiàn)更深入的文本理解。
目前信息呈現(xiàn)出多模態(tài)化,如何將這些多模態(tài)化的信息進行實體抽取成為一大研究熱點。多模態(tài)的命名實體識別是指在多個模態(tài)的輸入數據中同時識別命名實體。這些模態(tài)可以是文本、圖像、語音或視頻等。多模態(tài)的命名實體識別可以更全面地理解和分析多媒體數據,從而提高自然語言處理、計算機視覺和語音識別等領域的信息抽取應用效果。Arshad 等人[100]提出一個端到端模型,學習文本和圖像的聯(lián)合表示。實驗表明,該模型能夠以更高的精度捕獲文本和視覺上下文,在Twitter 多模態(tài)命名實體識別數據集上表現(xiàn)出最先進的性能。Zhang 等人[101]為MNER 提出一種基于去偏差對比學習的方法,該方法通過跨模態(tài)對比學習增強的模態(tài)對齊,對比學習采用了硬樣本挖掘策略和去偏差的對比損失來緩解數量和實體類型的偏向,分別從全局上學習對齊文本和圖像的特征空間。多模態(tài)的命名實體識別在實際應用中具有廣泛的應用前景,在智能語音助手[102]、智能駕駛[103]、智能醫(yī)療[104]等領域中,多模態(tài)的命名實體識別可以幫助系統(tǒng)更好地理解用戶的意圖和需求,提高系統(tǒng)的智能化程度。
隨著中文命名實體識別技術的不斷提升,中文命名實體識別在垂直領域有著越來越廣泛的應用。在金融領域,CNER 可以用于識別金融新聞中的公司名稱、股票代碼等信息,幫助投資者及時獲取最新的市場信息。此外,CNER還能夠用于識別金融交易中的實體及其關系,幫助風險管理和監(jiān)管部門對金融市場進行監(jiān)管。在醫(yī)療領域,CNER 可以用于識別醫(yī)學文獻中的疾病、藥品、治療方法等實體,幫助醫(yī)生快速獲取最新的醫(yī)學信息,并進行診斷和治療。同時,CNER 還可以用于識別醫(yī)療記錄中的患者信息、醫(yī)生信息等實體,幫助醫(yī)療機構管理和數據分析。在法律領域,CNER可以用于識別法律文書中的人名、地名、組織機構名等實體,幫助律師和法官快速獲取相關信息,進行案件分析和裁決。將成熟的中文命名實體模型應用到垂直領域能給人們的生活帶來極大的便捷。
近年來,隨著深度學習技術的快速發(fā)展,中文命名實體識別算法的精度得到了大幅的提升,并且不斷有新的方法被提出。但是當前中文命名實體識別研究仍然存在著許多挑戰(zhàn)和問題,如語料庫數據較少、嵌套實體抽取困難以及多模態(tài)實體抽取等。未來的研究方向應該聚焦于解決這些問題,提高中文命名實體識別算法的準確性和效率,同時拓展其應用范圍,使其能夠更好地滿足實際應用的需求。