黃晴雁,牟永敏
(北京信息科技大學(xué)計(jì)算機(jī)學(xué)院,北京 100101)
命名實(shí)體識(shí)別(Named Entity Recognition,NER),也稱為實(shí)體提取,是指對(duì)文本中特定的實(shí)體進(jìn)行識(shí)別并對(duì)區(qū)分其種類。近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域(Natural Language Processing,NLP)廣泛應(yīng)用,取得了良好的效果,命名實(shí)體識(shí)別作為基礎(chǔ)任務(wù)得到了進(jìn)一步的發(fā)展。作為信息抽取的子任務(wù),從非結(jié)構(gòu)化文本中識(shí)別并抽取結(jié)構(gòu)化的數(shù)據(jù),需要命名實(shí)體識(shí)別技術(shù)作為支撐。同時(shí),隨著人工智能的發(fā)展,對(duì)文本語義層面的研究得到了國內(nèi)外學(xué)者的廣泛關(guān)注,對(duì)命名實(shí)體識(shí)別的研究有助于理解語義層面的知識(shí)。
從語言分析的過程來看,命名實(shí)體識(shí)別屬于詞法分析中的未登錄詞識(shí)別,也就是識(shí)別文本中的命名實(shí)體(Named Entity,NE)。MUC-6最早將命名實(shí)體作為你一個(gè)明確的概念和研究對(duì)象提出,以及后來的MUC-7規(guī)定了命名實(shí)體包括三大類(實(shí)體類、時(shí)間類和數(shù)字類)和七小類(人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣和百分比)。ACE將命名實(shí)體中的機(jī)構(gòu)名和地名進(jìn)行了細(xì)分,增加了地理-政治實(shí)體和設(shè)施實(shí)體,之后又增加了交通工具實(shí)體和武器實(shí)體。
實(shí)際早期對(duì)于命名實(shí)體識(shí)別的研究,主要集中于對(duì)一般“專有名詞”[1]的識(shí)別,包括三類名詞:人名、地名、機(jī)構(gòu)名。后來隨著研究的逐漸展開,研究者們將對(duì)命名實(shí)體識(shí)別的研究擴(kuò)展到了更多的特定領(lǐng)域。張劍等[2]在農(nóng)業(yè)領(lǐng)域進(jìn)行了命名實(shí)體識(shí)別,采用基于條件隨機(jī)場的方法,將農(nóng)業(yè)命名實(shí)體分為病蟲害、作物、化肥及農(nóng)藥4種命名實(shí)體。張磊[3]將命名實(shí)體識(shí)別的研究應(yīng)用在了軌道交通領(lǐng)域,并且提出了一種基于條件隨機(jī)場、半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的方法,形成了一個(gè)統(tǒng)一的技術(shù)框架。佘俊等[4]為了能快速、準(zhǔn)確地將分散在Web網(wǎng)頁中的音樂實(shí)體抽取出來,提出了一種規(guī)則與統(tǒng)計(jì)相結(jié)合的中文音樂實(shí)體識(shí)別方法,并實(shí)現(xiàn)了音樂命名實(shí)體識(shí)別系統(tǒng)。
在語言種類方面,命名實(shí)體識(shí)別對(duì)英語、中文、德語、日語、西班牙語、葡萄牙語等都有相應(yīng)研究。最初的研究主要以英文為主,后來逐漸發(fā)展到對(duì)多語言和獨(dú)立語言進(jìn)行研究。2003年舉辦的“963”測(cè)評(píng)最早將漢語命名實(shí)體識(shí)別作為評(píng)測(cè)任務(wù)提出。2006年SIGHAN正式將命名實(shí)體識(shí)別問題作為其評(píng)測(cè)比賽的一項(xiàng)任務(wù)。近幾年,國內(nèi)很多研究者對(duì)我國少數(shù)民族的語言進(jìn)行了命名實(shí)體識(shí)別研究。金明等[5]對(duì)藏語進(jìn)行了命名實(shí)體識(shí)別研究;吳金星[6]在蒙古語命名實(shí)體識(shí)別研究的基礎(chǔ)上構(gòu)建了蒙古語語料加工繼承平臺(tái);塔什甫拉提·尼扎木丁[7]對(duì)維吾爾語文本中的人名命名實(shí)體進(jìn)行了識(shí)別研究。
命名實(shí)體識(shí)別是多種自然語言處理技術(shù)的重要基礎(chǔ),對(duì)于句法分析、語法分析、語義分析等都有著極其重要的影響,主要應(yīng)用在信息抽取、機(jī)器翻譯、問答系統(tǒng)等方面。
文本信息抽取是在自然語言文本中抽取出指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)。趙軍等[8]對(duì)開放式文本的信息抽取進(jìn)行了研究,認(rèn)為命名實(shí)體識(shí)別是信息抽取的基礎(chǔ),同時(shí)也是重中之重,并且對(duì)于知識(shí)庫的構(gòu)建、網(wǎng)絡(luò)內(nèi)容的管理、語義搜索等都具有重要的應(yīng)用價(jià)值。
機(jī)器翻譯,又稱為自動(dòng)翻譯,利用計(jì)算機(jī)將一種自然語言轉(zhuǎn)換為另一種自然語言。在機(jī)器翻譯時(shí),通常需要對(duì)專有名詞如人名、地名、機(jī)構(gòu)名等進(jìn)行精確翻譯。例如中國漢語人名翻譯成英文時(shí)大多用拼音表示,且需要名在前姓在后,而其他普通詞語則需要翻譯成對(duì)應(yīng)的英文。陳懷興等[9]對(duì)命名實(shí)體的機(jī)器翻譯等價(jià)對(duì)方法進(jìn)行了研究,通過實(shí)體等價(jià)對(duì)對(duì)齊,得到了較高正確率的機(jī)器翻譯結(jié)果。因此,準(zhǔn)確而高效地識(shí)別出文本中的命名實(shí)體,對(duì)于提高機(jī)器翻譯的準(zhǔn)確率有重要意義。
問答系統(tǒng)是信息檢索系統(tǒng)的一種高級(jí)形式,用準(zhǔn)確、簡潔的自然語言回答用戶用自然語言提出的問題。周波[10]對(duì)面向問答系統(tǒng)的實(shí)體識(shí)別與分類進(jìn)行了研究,認(rèn)為實(shí)體識(shí)別是問答系統(tǒng)的關(guān)鍵技術(shù)之一,直接關(guān)系到問句類型的判斷和答案的抽取。
目前,關(guān)于命名實(shí)體識(shí)別的方法主要分為:基于詞典和規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法等。而且,現(xiàn)在較為流行的是將其中兩種方法結(jié)合甚至是三種結(jié)合,可以充分利用不同方法的優(yōu)點(diǎn),提高學(xué)習(xí)的準(zhǔn)確度和效率。
早期的命名實(shí)體識(shí)別工作大多都采用手工編寫字典和規(guī)則的方法,并且由相關(guān)領(lǐng)域的專家來完成,其研究的重點(diǎn)是根據(jù)研究領(lǐng)域的特征構(gòu)造詞典并編寫規(guī)則模板。一般來說,規(guī)則的構(gòu)造需要考慮到該領(lǐng)域的關(guān)鍵字、指示詞、中心詞、前后綴等特征,依賴于已制定的詞典和知識(shí)庫,通過模式匹配或字符串匹配等方法來識(shí)別出命名實(shí)體。其中,詞典負(fù)責(zé)已有詞匯的識(shí)別,規(guī)則負(fù)責(zé)未登錄詞的識(shí)別。
早在2000年,F(xiàn)armkiotou,D等[11]提出了基于規(guī)則的用于希臘金融文本中的命名實(shí)體的識(shí)別算法。他們認(rèn)為,典型的命名實(shí)體識(shí)別系統(tǒng)應(yīng)是由詞典和語法組成的。其中,詞典是指研究領(lǐng)域中特有的詞匯,而語法是指該領(lǐng)域語言所具有的特征。在新的領(lǐng)域進(jìn)行研究時(shí),該領(lǐng)域的詞典應(yīng)該是通過手工的方法或者機(jī)器學(xué)習(xí)技術(shù)根據(jù)其特點(diǎn)來制定的。因此,他們提出了一個(gè)基于人工構(gòu)建詞典的命名實(shí)體識(shí)別系統(tǒng),并在希臘金融新聞?wù)Z料庫上進(jìn)行了測(cè)試,取得了令人滿意的效果。
近幾年來,基于字典和規(guī)則的方法在學(xué)術(shù)研究上應(yīng)用較少,且基本上是與基于統(tǒng)計(jì)的方法混合使用,而在實(shí)際產(chǎn)業(yè)中應(yīng)用較多。一方面,基于字典和規(guī)則的方法精確度較高,往往可以滿足實(shí)際應(yīng)用中對(duì)準(zhǔn)確率的要求,而且在工業(yè)中的應(yīng)用僅限于固定的領(lǐng)域,即便是有新詞,對(duì)識(shí)別系統(tǒng)的改動(dòng)也不會(huì)太大;另一方面,由于語言的復(fù)雜性和靈活性,該方法中規(guī)則的編寫費(fèi)時(shí)費(fèi)力且難以涵蓋所有的語言現(xiàn)象,建設(shè)成本較高,并且該方法依賴于具體的領(lǐng)域、語言,可移植性不好,會(huì)遇到知識(shí)瓶頸問題。
圖1為基于詞典和規(guī)則的命名實(shí)體識(shí)別方法的基本處理過程,其中包括了新規(guī)則與新詞的添加。
圖1 基于規(guī)則和詞典方法的基本流程
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法將命名實(shí)體識(shí)別看做一個(gè)分類問題或者序列標(biāo)注問題,需要利用經(jīng)過人工標(biāo)注的語料進(jìn)行訓(xùn)練。目前該方法主要包括以下幾種模型:隱馬爾科夫模型(Hidden Markov Mode,HMM)、最大熵模型(Maximum Entropy,ME)、條件隨機(jī)場(Condi?tional Random Fields,CRF)、決策樹(Decision Tree)等。總的來說,該方法的步驟主要可以總結(jié)為:預(yù)處理語料、抽取特征并制定特征模板、訓(xùn)練模型、優(yōu)化模型。
圖2為基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別的流程。
圖2 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的基本流程
近幾年來,機(jī)器學(xué)習(xí)在命名實(shí)體識(shí)別方面取得了很大的進(jìn)展,研究者們一直致力于設(shè)計(jì)識(shí)別效果更好、應(yīng)用范圍更廣的算法,并取得了一定的成功。
2018年,周法國等[12]提出了一種基于轉(zhuǎn)移學(xué)習(xí)的中文命名實(shí)體識(shí)別算法,將命名實(shí)體識(shí)別看做分類任務(wù),進(jìn)行了中文人名、地名、組織機(jī)構(gòu)名的識(shí)別。該算法有統(tǒng)計(jì)與規(guī)則相結(jié)合,利用初始標(biāo)注語料及規(guī)則模板形成規(guī)則,對(duì)規(guī)則進(jìn)行統(tǒng)計(jì)訓(xùn)練得到規(guī)則標(biāo)注序列。所謂轉(zhuǎn)移學(xué)習(xí),主要是基于成功轉(zhuǎn)換數(shù)據(jù)來更正數(shù)據(jù),依據(jù)錯(cuò)誤率獲得較大的成功。其中心思想是開始以一些簡單的結(jié)論應(yīng)用于問題,然后在每個(gè)步驟應(yīng)用轉(zhuǎn)換,選擇出每次轉(zhuǎn)換的最優(yōu)結(jié)論再次應(yīng)用于問題,當(dāng)選擇的轉(zhuǎn)換在足夠的空間內(nèi)不再修改數(shù)據(jù)時(shí)算法停止。實(shí)驗(yàn)驗(yàn)證,該模型獲得了較好的結(jié)果。
高冰濤等[13]認(rèn)為傳統(tǒng)的生物醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)代價(jià)較高,因此關(guān)注命名實(shí)體識(shí)別的遷移學(xué)習(xí)。他們?cè)跈?quán)值學(xué)習(xí)模型的基礎(chǔ)上,構(gòu)建了基于遷移學(xué)習(xí)的隱馬爾可夫模型算法BioTrHMM,其目的是降低生物醫(yī)學(xué)文本中命名實(shí)體識(shí)別對(duì)目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)的需求。BioTrHMM算法在使用較少的目標(biāo)領(lǐng)域數(shù)據(jù)的情況下,以相關(guān)領(lǐng)域數(shù)據(jù)為輔助數(shù)據(jù)集,利用數(shù)據(jù)引力的方法計(jì)算權(quán)值來評(píng)估輔助數(shù)據(jù)集的樣本在目標(biāo)領(lǐng)域——生物醫(yī)學(xué)領(lǐng)域?qū)W習(xí)中的貢獻(xiàn)程度,從而進(jìn)行知識(shí)的遷移。該研究選取了GENIA語料庫中的數(shù)據(jù)集,取得了較好的實(shí)驗(yàn)結(jié)果。
Yukun Chen等[14]提出了一種基于主動(dòng)學(xué)習(xí)的臨床命名實(shí)體識(shí)別標(biāo)注系統(tǒng),任務(wù)是從臨床筆記中提取問題、治療和實(shí)驗(yàn)室相關(guān)實(shí)驗(yàn)的概念。該標(biāo)注系統(tǒng)是基于已經(jīng)標(biāo)注的句子迭代地構(gòu)建命名實(shí)體識(shí)別模型,并且選擇下一個(gè)句子進(jìn)行標(biāo)注。系統(tǒng)的前端是一個(gè)用戶推斷界面,用戶可以通過特定的查詢引擎在系統(tǒng)提供的句子中標(biāo)記臨床命名實(shí)體。系統(tǒng)的后端會(huì)根據(jù)用戶的注釋對(duì)CRF模型進(jìn)行迭代訓(xùn)練,并根據(jù)查詢引擎選擇最有用的句子。該系統(tǒng)的工作流程如圖3所示:
圖3 主動(dòng)學(xué)習(xí)模型
李剛等[15]將研究的關(guān)注點(diǎn)放在近年來發(fā)展迅速的微博等網(wǎng)絡(luò)社交平臺(tái)上,認(rèn)為其獨(dú)特的形式對(duì)傳統(tǒng)的命名實(shí)體識(shí)別技術(shù)提出了新的挑戰(zhàn)。因此,他們提出了一種基于條件隨機(jī)場模型的改進(jìn)方法,針對(duì)微博文本短小、語義含糊等特點(diǎn),引入外部數(shù)據(jù)源提取主題特征和詞向量特征來訓(xùn)練模型,針微博數(shù)據(jù)規(guī)模大、人工標(biāo)準(zhǔn)化處理代價(jià)大的特點(diǎn),采取一種基于最小置信度的主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)強(qiáng)化模型的訓(xùn)練效果。研究選取了新浪微博數(shù)據(jù)集,并且考慮了中文的深層語義。實(shí)驗(yàn)證明,該方法與傳統(tǒng)的條件隨機(jī)場方法相比F值提高了4.54%。
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法對(duì)特征選取的要求較高,對(duì)語料庫的依賴較大[2]。該方法的難點(diǎn)是構(gòu)建特征工程,需要從語料文本中選取對(duì)研究任務(wù)有積極影響的特征。而對(duì)于特征的構(gòu)建,需要考慮選擇的特征是否能有效地反映該類實(shí)體的特點(diǎn),可以利用的特征包括字符、詞性、詞邊界等。同時(shí),組合特征可以表達(dá)出更復(fù)雜的含義[16]。
一般來說,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種。早期機(jī)器學(xué)習(xí)專家提出了人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Net?works),與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法不同。近幾年來,隨著科學(xué)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域掀起了一股熱潮,同時(shí)也越來越多地將其應(yīng)用到了自然語言處理上。近幾年,比較通用的基礎(chǔ)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有BLSTM-CRF、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等,都取得了不錯(cuò)的識(shí)別效果。
Feng Y H等[17]針對(duì)傳統(tǒng)的命名實(shí)體識(shí)別方法需要構(gòu)建特征工程和獲取相關(guān)領(lǐng)域的知識(shí),然而代價(jià)昂貴的問題,提出了一種基于BLSTM(Bidirectional Long Short-Term Memory)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的命名實(shí)體識(shí)別方法。該方法利用基于上下文的詞向量和基于字的字向量,前者表達(dá)命名實(shí)體的上下文信息,后者表達(dá)構(gòu)成命名實(shí)體的前綴、后綴和領(lǐng)域信息;同時(shí),利用標(biāo)注序列中標(biāo)簽之間的相關(guān)性對(duì)BLSTM的代價(jià)函數(shù)進(jìn)行約束,并將領(lǐng)域知識(shí)嵌入模型的代價(jià)函數(shù)中,進(jìn)一步增強(qiáng)模型的識(shí)別能力。實(shí)驗(yàn)表明,所提方法的識(shí)別效果優(yōu)于傳統(tǒng)方法。
李麗雙等[18]在生物醫(yī)學(xué)領(lǐng)域進(jìn)行了命名實(shí)體識(shí)別任務(wù)研究,提出了一種基于CNN-BLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型。首先利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練出單詞的具有形態(tài)特征的字符級(jí)向量,并從大規(guī)模背景語料訓(xùn)練得到具有語義特征信息的詞向量,然后將二者進(jìn)行組合作為輸入,再構(gòu)建適合生物醫(yī)學(xué)命名實(shí)體識(shí)別的BLSTM-CRF深層神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)數(shù)據(jù)來自于BiocreativeⅡGM和JNLPBA2004生物醫(yī)學(xué)語料,實(shí)驗(yàn)結(jié)果的F-值分別為89.09%和74.40%。圖4為該模型的結(jié)構(gòu)框架。
2018年,Yanyao Shen等[19]提出了利用深度主動(dòng)學(xué)習(xí)進(jìn)行命名實(shí)體識(shí)別任務(wù)。將主動(dòng)學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,可以利用少量的標(biāo)注數(shù)據(jù)獲得較高的學(xué)習(xí)準(zhǔn)確度。由于主動(dòng)學(xué)習(xí)的計(jì)算成本很高,因此他們提出了一個(gè)基于CNN-CNN-LSTM結(jié)構(gòu)的輕量級(jí)模型。眾所周知,在收集有標(biāo)注的數(shù)據(jù)集的時(shí)候,需要依靠大量的
人工標(biāo)注,準(zhǔn)確標(biāo)注出正確的命名實(shí)體類別是非常耗時(shí)耗力的。因此,提出深度主動(dòng)學(xué)習(xí)方法以便于減少標(biāo)注量,降低數(shù)據(jù)標(biāo)注的成本。實(shí)驗(yàn)表明,該模型能夠迅速地對(duì)樣本進(jìn)行預(yù)測(cè)和評(píng)估不確定度。
圖4 生物醫(yī)學(xué)命名實(shí)體識(shí)別的CNN-BLSTM-CRF模型
Akash Bharadwaj等[20]提出了一種注意力神經(jīng)模型(Attentional Neural Model)。該模型在原始的BLSTMCRF模型上加入了音韻特征,并在字符向量上使用注意力機(jī)制來關(guān)注并學(xué)習(xí)更有效的字符。該模型可以快速地應(yīng)用于有少量數(shù)據(jù)或沒有數(shù)據(jù)的新語言領(lǐng)域,從而實(shí)現(xiàn)了跨語言的遷移學(xué)習(xí)。
深度學(xué)習(xí)使用詞向量表示詞語、字向量表示字,解決了傳統(tǒng)命名實(shí)體識(shí)別方法需要花費(fèi)大量精力構(gòu)建特征工程的問題,甚至?xí)斯?gòu)建特征工程包含更多的語義信息。雖然深度學(xué)習(xí)在命名實(shí)體識(shí)別研究上已經(jīng)取得了較好結(jié)果,但仍有很多研究者致力于將新的技術(shù)應(yīng)用到命名實(shí)體識(shí)別問題上。當(dāng)前的研究趨勢(shì)主要集中在兩個(gè)方面:一是使用流行的注意力機(jī)制(Atten?tion Mechanism)來提高模型的效果;二是致力于利用少量的標(biāo)注訓(xùn)練數(shù)據(jù)進(jìn)行研究。
本文在前人研究的基礎(chǔ)上對(duì)基于BLSTM-CRF的命名實(shí)體識(shí)別方法進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)所采用的數(shù)據(jù)是來自全國知識(shí)圖譜與語義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing,CCKS)2017年任務(wù)二和2018年任務(wù)一的數(shù)據(jù),均是來自于中文臨床電子病歷。
本文實(shí)驗(yàn)采用的模型是BLSTM-CRF結(jié)構(gòu),并分別對(duì)兩組數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)數(shù)據(jù)以字符為單位進(jìn)行了標(biāo)注,采用了BIO標(biāo)注方法,即B表示實(shí)體的首字,I表示實(shí)體的非首字,而O表示該字不屬于實(shí)體的任何一部分。
2017年評(píng)測(cè)大會(huì)的實(shí)驗(yàn)數(shù)據(jù)給出了疾病和診斷、身體部位、癥狀和體征、檢查和檢驗(yàn)以及治療五類實(shí)體,本文用不同的標(biāo)識(shí)符號(hào)分別對(duì)其進(jìn)行了標(biāo)識(shí),并進(jìn)行了統(tǒng)計(jì),如表1所示。
表1 CCKS測(cè)評(píng)2017年Task2實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
從表1中可以看出,該任務(wù)給出的訓(xùn)練集中疾病和診斷這一類實(shí)體僅有502個(gè),治療類實(shí)體僅有694個(gè),而身體部位這類實(shí)體有8072個(gè),五類實(shí)體之間的數(shù)量有較大的差距。在BIO標(biāo)注基礎(chǔ)上,有如下標(biāo)注例子:
腸 鳴 音 活躍,雙 下 肢無水腫
B-Te I-TeI-TeO O O B-B I-B I-B O B-S I-S O
2018年的數(shù)據(jù)將實(shí)體分為了手術(shù)、解剖部位、癥狀描述、獨(dú)立癥狀以及藥物五類。同樣,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),如表2所示:
表2 CCKS測(cè)評(píng)2018年Task1實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
從表2中可以看出,2018年該任務(wù)給出的訓(xùn)練集中除解剖部位類實(shí)體有7838個(gè),其他四類實(shí)體的數(shù)量差距相對(duì)較小。
該模型的結(jié)構(gòu)如圖5所示:
圖5 BLSTM-CRF結(jié)構(gòu)圖
模型是以句子為單位進(jìn)行輸入,將一句話看作n個(gè)字符的序列(x1,x2,…xn)。Look-up層將句子中的每一個(gè)字符xi映射為低維度稠密的字向量(character em?bedding)xi∈Rd,其中,d是字向量的維度。
BLSTM結(jié)構(gòu)對(duì)文本的上下文有記憶和過濾的能力,對(duì)長距離的信息能有效地運(yùn)用,對(duì)序列數(shù)據(jù)所包含的信息能夠動(dòng)態(tài)捕獲。將每個(gè)句子的字符序列(x1,x2,…xn)作為BLSTM的輸入,正向LSTM返回序列反向LSTM返回序列直接拼接得到BLSTM在t時(shí)刻的輸出,表示為
由于CEF是全局范圍內(nèi)統(tǒng)計(jì)歸一化的條件轉(zhuǎn)移概率矩陣,因此,CRF層對(duì)文本進(jìn)行了句子級(jí)別的序列標(biāo)注,使模型可以學(xué)習(xí)到標(biāo)簽的上下文關(guān)系。
通過調(diào)整模型的參數(shù),得到較為理想的實(shí)驗(yàn)結(jié)果如表3所示:
表3 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,訓(xùn)練語料的規(guī)模能夠?qū)ψR(shí)別結(jié)果產(chǎn)生較大的影響。總的來說,BLSTM-CRF模型能取得較好的識(shí)別效果。2017年數(shù)據(jù)的實(shí)驗(yàn),對(duì)訓(xùn)練數(shù)據(jù)較多的身體部位、癥狀和體征、檢查和檢驗(yàn)三類實(shí)體分別取得了92.57%、95.67%、93.99%的識(shí)別效果。然而對(duì)于訓(xùn)練數(shù)據(jù)較少的疾病和診療、治療這兩類實(shí)體的識(shí)別效果就不理想,僅取得了49.43%和49.08%的識(shí)別效果。同樣,對(duì)于2018年的實(shí)驗(yàn)數(shù)據(jù)來說仍是如此。但整體識(shí)別效果在75%-90%之前。
自然語言處理領(lǐng)域最為關(guān)心的技術(shù)問題之一是如何高效率地從不規(guī)范的非結(jié)構(gòu)化文本數(shù)據(jù)中,獲取并組織成結(jié)構(gòu)化的文本數(shù)據(jù)。命名實(shí)體識(shí)別任務(wù)作為自然語言處理的基礎(chǔ)任務(wù),能夠有目的性地對(duì)文本進(jìn)行結(jié)構(gòu)化處理。雖然,對(duì)于命名實(shí)體識(shí)別的研究已趨近于成熟,但是仍有很多學(xué)者認(rèn)為該問題還未得到完善解決,對(duì)命名實(shí)體的外延和內(nèi)涵的探討還遠(yuǎn)未結(jié)束。目前,深度學(xué)習(xí)發(fā)展火熱,仍將是命名實(shí)體識(shí)別研究最為關(guān)注的領(lǐng)域,減少語料數(shù)據(jù)的標(biāo)注、擴(kuò)展研究領(lǐng)域也將是命名實(shí)體識(shí)別研究的重點(diǎn)。