秦健 侯建新 謝怡寧 何勇軍
摘 要:針對醫(yī)療文本命名實體識別缺乏足夠標記數(shù)據(jù)的問題,提出了一種新的命名實體識別神經(jīng)網(wǎng)絡和數(shù)據(jù)增強方法。該方法首先利用漢字的拼音和筆畫來擴展Bert詞向量,使Bert詞向量能夠包含更多先驗知識;接著將命名實體識別模型與分詞模型進行聯(lián)合訓練,以增強模型對于實體邊界的判別能力;最后采用改進的數(shù)據(jù)增強方法處理訓練數(shù)據(jù),能夠在避免模型過擬合的同時增加模型對于命名實體的識別效果。在CCKS-2019提供的電子病歷文本上的實驗結(jié)果表明,所提出的方法在小樣本情況下能有效提高命名實體識別的準確率,在訓練數(shù)據(jù)減少一半的情況下,識別率仍能保持沒有明顯下降。
關(guān)鍵詞:命名實體識別;小樣本;數(shù)據(jù)增強;聯(lián)合訓練;特征融合
DOI:10.15938/j.jhust.2021.04.013
中圖分類號:TP391.1
文獻標志碼:A
文章編號:1007-2683(2021)04-0094-08
Abstract:Aiming at the problem that medical text named entity recognition lacks sufficient labeled data, a newly named entity recognition deep neural network and data enhancement method is proposed. First of all, the Bert word vector is extended with pinyin and strokes of Chinese characters to make it contain more useful information. Then the named entity recognition model and the word segmentation model are jointly trained to enhance the model′s ability to recognize entity boundaries. Finally, an improved data enhancement method is used to process the training data, which can increase the recognition effect of the model on named entities while avoiding overfitting of the model. The experimental results on the electronic medical record text provided by CCKS-2019 show that the proposed method can effectively improve the accuracy of named entity recognition in the case of small samples and the recognition rate can still be maintained without a significant decrease when the training data is reduced by half.
Keywords:named entity recognition; few-shot; data augmentation; joint training; feature fusion
0 引 言
隨著互聯(lián)網(wǎng)、5G技術(shù)和人工智能的不斷深入發(fā)展,文本信息化處理已成為當今時代的必然要求。作為文本處理的關(guān)鍵技術(shù)之一,命名實體識別的目的在于提取和識別文本中的特定詞匯。目前基于深度學習的命名實體識別方法已成為主流,雖然提高了識別性能,但模型訓練需要大量的標注數(shù)據(jù)。由于缺少足夠的訓練數(shù)據(jù)導致一些新興領(lǐng)域很難得到快速發(fā)展。因此研究小樣本的命名實體識別具有重要的現(xiàn)實意義。
早期命名實體識別大多使用基于字典和規(guī)則的方法[1],其構(gòu)建需要專家的專業(yè)知識,識別的效果和可移植性較差。后來,機器學習逐漸成為命名實體識別的主流方法,主要有隱馬爾可夫模型[2]、最大熵[3]與條件隨機場[4-5]模型等。這些方法與傳統(tǒng)的規(guī)則和字典相結(jié)合取得了很好的效果。隨著技術(shù)的不斷深入發(fā)展,深度學習技術(shù)在命名實體識別中也取得了巨大的成功[6],其中代表模型為BiLSTM+CRF[7](bi-directional long short-term memory, BiLSTM)模型。研究人員在深度學習網(wǎng)絡的基礎(chǔ)上引入漢字的字形特征[8]或者與其他模型聯(lián)合訓練[9]來改良網(wǎng)絡也取得了很好的效果。與此同時,語言模型也取得了長足發(fā)展,能夠更好的將文本材料中的蘊含信息融入到詞向量中[10-11],出現(xiàn)了Word2vec[12],ELMo詞向量[13],通用語言模型GPT[14]以及Bert[15]等模型,有力地促進了自然語言的發(fā)展。
深度學習和機器學習方法依賴于大量的標注語料,因此針對小樣本的無監(jiān)督學習、半監(jiān)督學習和數(shù)據(jù)增強越來越受到關(guān)注。無監(jiān)督學習大多使用聚類算法將同類實體進行聚類,之后再對其類別進行判斷。無監(jiān)督學習在缺少標注數(shù)據(jù)的垂直領(lǐng)域具有一定的實用性,但在特定領(lǐng)域內(nèi)存在領(lǐng)域擴展性差和實體歧義的問題[16]。半監(jiān)督學習借助于少量標注語料和大量未標注語料來訓練模型,首先借助于標記語料對于模型進行訓練,并用此模型去預測未標注語料。若預測結(jié)果概率大于設(shè)定閾值,則更新這個語料的標簽并加入到標記語料中。之后重復這個過程用于擴大訓練語料,從而獲得一個效果較好的模型[17]。但隨著半監(jiān)督學習訓練的不斷進行,自動標記的數(shù)據(jù)中噪聲容易不斷積累導致模型效果的下降。因此研究小樣本的監(jiān)督學習顯得尤為重要。
醫(yī)療文本中實體相較于其他領(lǐng)域有其自身的特點。首先醫(yī)療實體有比較明顯的形態(tài)特征,疾病名和身體部位等實體常與人的身體器官相關(guān),如“胸痛”、“腹積水”、“腦”等實體,這些實體都表現(xiàn)出比較明顯的偏旁特征;醫(yī)療實體的很多名稱來源于英文的音譯,如“奧沙利柏”和“奧沙利鉑”。由于翻譯和書寫習慣的不同,有時會選擇同音字來表示相同的實體,這樣情況下拼音對于命名實體識別起到重要的幫助。醫(yī)療文本中實體的多樣性復雜性也增加了對于實體邊界的判別能力,因此可以借助于分詞模型來增加命名實體識別模型對于實體邊界的判別能力。
為了能夠在較小訓練數(shù)據(jù)的情況下進行命名實體識別,本文提出了基于特征融合的聯(lián)合訓練模型。網(wǎng)絡共包含4層,第一層為字特征卷積層char_CNN,使用CNN(convolutional neural networks, CNN)網(wǎng)絡提取漢字的筆畫和拼音特征;第二層為Bert詞向量層,并且使用char_CNN的輸出來擴展Bert詞向量;之后使用雙向長短時記憶網(wǎng)絡BiLSTM層從長距離上下文中學習特征表示,最后采用CRF層對于標簽進行解碼。此外,我們提出一個統(tǒng)一的框架來聯(lián)合訓練命名實體識別和中文分詞模型。在此框架中,命名實體識別模型和中文分詞模型共享char_CNN+Bert層作為網(wǎng)絡的詞向量,但分詞模型擁有一個獨立的CRF用于分詞標簽解碼。最后還對訓練數(shù)據(jù)進行了合理的增強,首先把每一個訓練語句的實體部分隨機替換為同類實體,非實體的部分進行隨機刪除和插入[18]。這樣可以在保持句子結(jié)構(gòu)性的前提下擴展出更多有效的句子,并通過隨機刪除和插入來減少句子之間的相似性。實驗結(jié)果表明,我們提出的模型效果優(yōu)于如今主流的模型,而且通過我們的數(shù)據(jù)增強,模型在小樣本的情況下依然可以取得較好的識別效果。
1 網(wǎng)絡模型和數(shù)據(jù)增強
1.1 模型框架
本文設(shè)計的特征融合的聯(lián)合訓練模型如圖1所示。網(wǎng)絡主要由命名實體識別模型和分詞模型兩個部分構(gòu)成,它們共享char_CNN+Bert層作為詞向量特征提取層,但各自擁有不同的獨立CRF解碼層。在實體識別模型中,輸入的語句首先進入到char_CNN層和Bert層,char_CNN層對于漢字的拼音筆畫特征進行特征提取,并且與Bert層輸出的字特征向量進行拼接;拼接后的字特征向量輸入到Bi-LSTM進行進一步的特征提取,并學習語句包含的上下文信息,最后將Bi-LSTM輸出結(jié)果輸入到CRF中進行最終的實體預測。而分詞模型使用的詞向量同樣是由經(jīng)過char_CNN擴展后的Bert提供,并將擴展后的詞向量直接輸入到CRF模塊中進行分詞的預測。下面將對網(wǎng)絡的各層信息進行詳細介紹。
1)字特征卷積層char_CNN
字特征卷積層主要包括拼音筆畫編碼層和CNN卷積神經(jīng)網(wǎng)絡兩個部分,我們分別對這兩個部分進行介紹。
拼音筆畫編碼層需要對漢字進行拆分編碼,為網(wǎng)絡引入漢字的拼音筆畫特征。英文中可以根據(jù)單詞的詞根詞綴來猜測其意義和性質(zhì),漢字的筆畫以及偏旁部首中也蘊含著大量的信息。而且在醫(yī)療領(lǐng)域內(nèi)的實體往往較為明顯的形態(tài)特征,比如在檢查部位和手術(shù)等試題中經(jīng)常出現(xiàn) “腰”、“肝”、“腦”等身體部位,他們都使用“月”作為偏旁。因此引入漢字的筆畫可以使網(wǎng)絡更好的識別醫(yī)療實體。許多醫(yī)療領(lǐng)域的藥名都來自英語,雖然它們的書寫不同,但讀音卻很相似,所以在命名實體識別中引入拼音特征具有積極意義。使用一個“明”為例進行拆分,其結(jié)果見圖2。每個字拆分后依次按照聲母、韻母、聲調(diào)、筆畫進行排列,其中漢字的筆畫我們選用四角碼來表示。四角碼一共有5位數(shù),前四位用0-9分別表示漢字四個角的單筆或復筆的筆形;第五位由漢字右下角上方的一個筆形決定,用來區(qū)分前四位同碼的漢字。
目前,CNN已廣泛應用于圖像局部信息的提取。因為漢字拆分后長度較短且固定,信息比較集中,因此通過CNN網(wǎng)絡來提取漢字的拼音和筆畫特征。這里的CNN網(wǎng)絡由一個一維卷積網(wǎng)絡和一個一維最大池化層構(gòu)成,卷積核大小設(shè)置為3,激活函數(shù)選擇ReLU(Rectified Linear Unit, ReLU)激活函數(shù),最后將最大池化層的輸出展開,方便對Bert進行擴展。
普通CNN由卷積層和池化層組成。對于特征的處理,CNN是通過卷積核來完成的。卷積核是一個由用戶定義大小的權(quán)重矩陣,其權(quán)值由后續(xù)的學習得到。卷積核將每一個局部的特征提取出來作為輸出。池化層則是通過特定的池化操作對特征進行處理。對特征的卷積操作可以用式(1)來表示,而池化操作可由式(2)表示。
其中Hi表示第i層特征,f(x)是一個非線性激活函數(shù),表示卷積核與特征的卷積操作。pooling(x)為池化操作,bi表示第i層的偏置。
2)Bert字編碼層
谷歌團隊在2018年發(fā)布了Bert模型,作為一種預訓練模型。Bert在自然語言處理的11項測試任務中取得了最好的成績,極大地推動了自然語言處理的發(fā)展[15]。Bert模型是由無監(jiān)督學習方法在通用數(shù)據(jù)文本中訓練得到,它的訓練不需要標記數(shù)據(jù),所以可以在大規(guī)模文本上訓練以取得更好的先驗知識。Bert主要使用Transformer作為核心結(jié)構(gòu),其具體框架如圖3所示。Transformer完全基于自注意力機制來訓練詞向量,通過自注意力計算出每一個詞和所有詞之間的關(guān)系,根據(jù)詞與詞之間的相互關(guān)系得出詞之間的聯(lián)系和該詞在句子中的權(quán)重。通過這種方式得到的詞向量能夠有效利用上下文的信息,因此Bert在不同任務中都能取得很好的效果。
3)BiLSTM層
作為循環(huán)神經(jīng)網(wǎng)絡的改進模型,LSTM能很好地抑制梯度下降和梯度爆炸,并且能捕獲長距離序列信息,具有很強的序列建模能力。在命名實體識別中,LSTM可以感知到距離實體較遠的信息,可以提高命名實體的識別率。例如:“小明患有青光眼,疾病讓他看不清周圍的物體”,盡管“青光眼”和“看不清”有較長的距離,但是可以從“看不清”推斷出“青光眼”是一種眼類疾病。實體的上下文一般都有較為重要的信息,因此使用雙向LSTM從全局上學習上下文信息。每一個LSTM單元主要包含:輸入門、輸出門、忘記門和細胞狀態(tài)。具體如圖4所示。
它們的更新方式如公式(3)到公式(8)所示:
其中:ft、it、Ct、ot分別代表忘記門、輸入門、細胞狀態(tài)和輸出門;Wf、Wi、Wc、Wo為不同狀態(tài)的權(quán)值;bf、bi、bc、bo是不同狀態(tài)的偏置;ht和Wt分別為輸入和輸出;C~t是計算過程中的臨時細胞狀態(tài);σ為sigmoid激活函數(shù)。
4)CRF輸出層
在命名實體識別任務中,相鄰的標簽通常有較強的相關(guān)性[19] ,因此我們在命名實體識別任務中使用CRF,而非Softmax這樣的獨立解碼層。
假設(shè)給定輸入序列X=(x1,x2,x3,…,xn),其對應的標簽序列為Y=(y1,y2,y3,…,yn)。使用式(9)可以機算出標簽序列的得分。
其中:A表示轉(zhuǎn)移得分矩陣,矩陣元素Ai,j表示標簽i轉(zhuǎn)移到標簽j的轉(zhuǎn)移得分。設(shè)y0和yn+1為句子的起始標簽和終止標簽,標簽種類為k,則A∈R(k+2)*(k+2)。P∈Rn*k是輸出層的得分矩陣,矩陣元素pi,j表示第i個詞在第j個標簽下輸出的得分。
5)聯(lián)合分詞模型
命名實體識別可以看作是兩個子任務的組合:從文本中識別出實體名稱的邊界并對其進行分類。識別實體的邊界是一項困難的任務,很多時候?qū)嶓w的邊界存在歧義性。比如“長江大橋”,可以被看作是“長江”和“大橋”兩個實體也可以被看成一個實體。而中文分詞模型的任務便是將中文文本分成單個詞,也就是對于文本中詞的邊界進行判斷。因此分詞模型和實體識別模型高度相關(guān),聯(lián)合分詞模型的訓練能夠有效的提高實體識別的準確性[9]。引入分詞模型后,網(wǎng)絡擁有兩個CRF輸出,模型的總體損失可以使用式(10)進行表示。
其中:LNER和LCWS分別表示命名實體識別和分詞任務的損失;λ∈[0,1)是控制分詞任務損失在總損失中相對重要性的系數(shù),在本文中λ的值為0.3。模型優(yōu)化的目標是損失函數(shù)最小化,損失函數(shù)包括分詞和命名實體識別兩個部分,在模型優(yōu)化的過程中,分詞和命名實體識別兩個任務可以相互促進,從而獲取更好的表現(xiàn)效果。
1.2 數(shù)據(jù)增強
合理的數(shù)據(jù)增強能夠在保存原始數(shù)據(jù)分布和標簽的情況下,使模型在小樣本情況下也能夠取得較好的訓練效果[18]。因此需要對訓練集數(shù)據(jù)進行合理的擴充,具體實現(xiàn)步驟如下:
Step1:提取訓練數(shù)據(jù)中所有的實體,并且按照類別進行保存;
Step2:通過網(wǎng)絡收集相關(guān)實體,對現(xiàn)有實體集進行適當擴充;
Step3:對句子進行擴充,其具體步驟是將一個句值中的每個實體隨機替換為同類實體,并以該句的派生句數(shù)作為增益系數(shù);
Step4:對于句中實體外的字詞,進行隨機的刪除,刪除的概率為p1,此處選擇10%的概率;
Step5:對于句中非實體的每個位置進行隨機插入,插入的詞語選用哈工大停用詞表,插入的概率為p2,這里選擇10%的概率。
首先通過分析標記文本來建立實體集合。接著替換訓練數(shù)據(jù)集中的實體為實體集中同類實體,可以有效增加標記數(shù)據(jù)的數(shù)量。但這樣的操作會讓語句有明顯的人工特點,同時句子的重復性也比較高,這會造成模型過擬合和魯棒性差。于是我們學習Xie等[20]的操作,在句子中引入噪聲,為了不破壞原本實體,在非實體的每個位置進行隨機插入哈工大停止用詞。
2 實驗效果及分析
2.1 數(shù)據(jù)準備
實驗數(shù)據(jù)來源于中國知識圖譜與語義計算大會CCKS2019(China conference on knowledge graph and semantic computing)的電子病歷命名實體識別任務,共1000份真實的臨床語料,訓練集數(shù)據(jù)包含600條語料,而驗證集和測試集分別有200條語料。數(shù)據(jù)集共有6類實體,分別為疾病與診斷、解剖部位、影像檢查、實驗室檢驗、藥物、手術(shù)。
2.2 數(shù)據(jù)格式化
這里使用BIO(B-begin,I-inside,O-outside)標注法,將每個元素標注為“B-X”、“I-X”或“O”。其中,B和I分別表示實體的開頭和中間,X表示這個實體所屬的類別,“O”表示不屬于任何類型。同時我們通過北大分詞工具pkuseg[21]來引入分詞信息,其中“B”、“M”、“E”、“W”分別表示一個詞語的開始、中間、結(jié)尾和單個字。標注效果如表1所示。
2.3 評價指標
為了衡量網(wǎng)絡模型對實體的發(fā)現(xiàn)能力,以及命名實體識別的準確性兩項指標。選擇了嚴格評價指標和松弛評價指標兩種評價方式。對同一文本而言,嚴格的評價指標是指當且僅當滿足公式(11)、(12)、(13)的情況下,才判定識別正確。
松弛標準需要同一條語句滿足公式(14)和(15)才認定為識別正確。
其中:Pi和Yi分別表示預測和實際的實體,符號用于連接屬性和實體,posb和pose表示標簽的開始和結(jié)束位置,而category表示實體的類別,Piposb表示預測的第i個實體的開始位置。
本文通過F1值來評價模型的表現(xiàn),F(xiàn)1值的計算如公式(16)所示:
其中:precision和recall分別表示模型的準確率和召回率。
2.4 數(shù)據(jù)增益系數(shù)
隨著數(shù)據(jù)數(shù)量的增長,模型的訓練時間將變得越來越長,但對數(shù)據(jù)進行擴充而獲得的效果提升不會隨著數(shù)據(jù)量的增長一直提高,所以我們要選擇一個合適的擴充數(shù)量。訓練數(shù)據(jù)集中有600份標記文本。隨機選擇其中20%數(shù)據(jù),即120份數(shù)據(jù)進行擴充,根據(jù)前人的推薦參數(shù)[18],擴大系數(shù)應在8~16之間。本文在經(jīng)典的命名實體識別網(wǎng)絡Word2Vec+BiLSTM+CRF網(wǎng)絡中進行了相應的實驗。實驗結(jié)果如圖5所示。
實驗選取20%數(shù)據(jù)進行數(shù)據(jù)增強操作,并設(shè)置不同的增益系數(shù)作為對比。隨著增益系數(shù)的不斷增加,模型的表現(xiàn)也越來越好。增益系數(shù)從4增長到8時模型效果提升明顯,但是增益系數(shù)在12以上時模型的提升明顯減小,增益系數(shù)達到16以上時模型基本沒有任何提升。所以合理的增益系數(shù)應在10~12之間,本文選擇10為增益系數(shù)。
2.5 數(shù)據(jù)增強實驗
在Word2Vec+BiLSTM+CRF模型中分別對20%、40%、50%、60%、80%和100%數(shù)據(jù)進行增強,增益系數(shù)選擇10。具體效果如圖6和表2所示。從實驗結(jié)果可以看出,訓練數(shù)據(jù)在50%及以下時模型訓練的效果下降明顯,在20%的數(shù)據(jù)時候松弛評價標準下F1值僅有0.203,準確性僅為原始數(shù)據(jù)的14。
本文提出的數(shù)據(jù)增強方案能有效提高小樣本下模型的訓練效果,在不同數(shù)量的訓練數(shù)據(jù)下,都取得了較為明顯的提升。20%的原始數(shù)據(jù)在增強之后,嚴格和松弛評價標準較沒有經(jīng)過數(shù)據(jù)增強的模型分別提升了252%和261%。60%的訓練數(shù)據(jù)經(jīng)過數(shù)據(jù)增強后效果超過同一模型在原數(shù)據(jù)上的訓練效果。利用本文提出的數(shù)據(jù)增強方法能夠有效提高模型在小樣本下的表現(xiàn)。
2.6 模型評價
對于本文提出的神經(jīng)網(wǎng)絡,分別選取在命名實體識別領(lǐng)域常見的神經(jīng)網(wǎng)絡模型作為對比。這里選擇Word2Vec+BiLSTM+CRF模型、Word2Vec+ BiLSTM+Sotfmax模型、Bert+CRF模型、Bert+Softmax模型、Bert+BiLSTM+CRF模型、特征融合模型和聯(lián)合訓練模型作為對比模型。其中特征融合模型采用char_CNN+BERT+CRF結(jié)構(gòu)。聯(lián)合訓練模型則是Bert+BiLSTM+CRF命名實體識別模型和BERT+CRF分詞模型進行聯(lián)合訓練,他們共享同一個Bert的輸出。具體結(jié)果如表3和表4所示。
通過對比試驗可以發(fā)現(xiàn),隨著詞向量中包含的先驗知識數(shù)量的提升,命名實體識別網(wǎng)絡的總體效果也在不斷提升。以BiLSTM+CRF為例,采用Bert詞向量比word2Vec詞向量的松弛評價標準F1值提高了0.028,當使用漢字的拼音筆畫特征擴展后的Bert作為詞向量,比Bert詞向量本身松弛評價標準提高了0.07。這說明我們引入漢字的拼音筆畫到詞向量中能夠有效的優(yōu)化命名實體識別的效果。CRF層對于命名實體識別的效果也遠好于使于Softmax,因為CRF能有效利用上下文信息提高命名實體識別的效果。通過與分詞模型聯(lián)合訓練,命名實體識別在松弛評價標準下并沒有多少提升,但是在嚴格評價標準下F1值卻有0.06的提升,說明我們使用分詞模型的聯(lián)合訓練能幫助我們提高實體邊界的識別能力。本文提出的融合模型在松弛評價標準和嚴格評價標注下都取得了最好的成績,充分的體現(xiàn)了改進后神經(jīng)網(wǎng)絡效果的優(yōu)越性。
2.7 不同模型下的數(shù)據(jù)增強
將文中提出的數(shù)據(jù)增強技術(shù)應用到主流框架之中,也取得很好的表現(xiàn),這里使用50%的數(shù)據(jù)進行增強。具體結(jié)果如圖7所示,圖中的W為Word2Vec的縮寫。
經(jīng)過數(shù)據(jù)增強操作后,模型性能都有很大的提升,與此同時文本中提出的融合模型在不同大小的數(shù)據(jù)集下都顯示出了最好識別的效果。Word2Vec+BiLSTM+Sotfmax和Bert+Softmax模型采用本文提出的數(shù)據(jù)增強操作,僅憑借一半的訓練數(shù)據(jù)集就取得遠超完整數(shù)據(jù)集訓練的效果。使用50%訓練數(shù)據(jù)獲得的模型效果更是優(yōu)于Word2Vec+BiLSTM+CRF模型在原數(shù)據(jù)集上的表現(xiàn),與Bert+BiLSTM+CRF模型的效果也相差較小,經(jīng)過數(shù)據(jù)增強后效果又有了新的提升。這說明本文提出方法能夠有效提高在小樣本情況下的實體識別效果。
3 結(jié) 語
本文針對小樣本下的醫(yī)療命名實體識別提出了一種新的解決方法,包括新的神經(jīng)網(wǎng)絡和改進后的數(shù)據(jù)增強操作。新的神經(jīng)模型采用拼音筆畫特征擴展后的Bert作為詞向量,聯(lián)合分詞模型進行訓練,模型在不同大小的數(shù)據(jù)集下都取得了性能提升。改進后的數(shù)據(jù)增強操作能夠在保持原有句式不變的情況下擴展出大量數(shù)據(jù),提高了模型在小樣本情況下的性能。實驗表明通過我們的方法能夠有效提高小樣本下的命名實體識別效果。
參 考 文 獻:
[1] SHAALAN K, RAZA H. NERA:Named Entity Recognition for Arabic[J]. Journal of the Association for Information Science and Technology, 2009, 60(8):1652.
[2] 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,4(2):87.
YU Hongkui, ZHANG Huaping, LIU Qun, et al. Chinese Named Entity Identification Using Cascaded Hidden Markov model[J]. Journal on Communications, 2006, 4(2):87.
[3] BO C, YI-DAN S, QI D. Automatic Recognition of Chinese Name Based on Maximum Entropy[J]. Computer Engineering and Applications, 2009, 45(4):227.
[4] LI L, ZHOU R, HUANG D, et al. Brief Communication:Two-phase Biomedical Named Entity Recognition Using CRFs[J]. Computational Biology and Chemistry, 2009, 33(4):334.
[5] DANG T H, LE H Q, NGUYEN T M, et al. D3NER:Biomedical Named Entity Recognition Using CRF-biLSTM Improved with Fine-tuned Embeddings of Various Linguistic Information[J]. Bioinformatics, 2018, 34(20):3539.
[6] LECUN Y, BENGIO Y, HINTON G. Deep Learning[J]. Nature, 2015, 521(7553):436.
[7] LUO L, YANG Z, YANG P, et al. An Attention-based BiLSTM-CRF Approach to Document-level Chemical Named Entity Recognition[J]. Bioinformatics, 2018, 34(8):1381.
[8] LIU Z, YANG M, WANG X, et al. Entity Recognition from Clinical Texts Via Recurrent Neural Network[J]. BMC Medical Informatics and Decision Making, 2017, 17(2):67.
[9] WU F, LIU J, WU C, et al. Neural Chinese Named Entity Recognition Via CNN-LSTM-CRF and Joint Training with Word Segmentation[C]//The World Wide Web Conference. 2019:3342.
[10]BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching Word Vectors with Subword Information[J]. Transactions of the Association for Computational Linguistics, 2017, 5:135.
[11]YU J, JIAN X, XIN H, et al. Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017:286.
[12]MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C]//Advances in Neural Information Processing Systems. 2013:3111.
[13]PETERS M E, NEUMANN M, IYYER M, et al. Deep Contextualized Word Representations[C]//Proceedings of NAACL-HLT. 2018:2227.
[14]RADFORD A, WU J, CHILD R, et al. Language Models are Unsupervised Multitask Learners[J]. OpenAI Blog, 2019, 1(8):9.
[15]DEVLIN J, CHANG M W, LEE K, et al. Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. ArXiv Preprint ArXiv:1810.04805, 2018.
[16]REN X, EL-KISHKY A, WANG C, et al. Clustype:Effective Entity Recognition and Typing by Relation Phrase-based Clustering[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015:995.
[17]PREZ, ALICIA, WEEGAR R, et al. Semi-supervised Medical Entity Recognition:A Study on Spanish and Swedish Clinical Corpora[J]. Journal of Biomedical Informatics, 2017, 71:16.
[18]WEI J, ZOU K. EDA:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP), 2019:6382.
[19]MA X, HOVY E. End-to-end Sequence Labeling Via Bi-directional Lstm-cnns-crf[J]. ArXiv Preprint ArXiv:1603.01354, 2016.
[20]XIE Z, WANG S I, LI J, et al. Data Noising as Smoothing in Neural Network Language Models[J]. ArXiv Preprint ArXiv:1703.02573, 2017.
[21]LUO R, XU J, ZHANG Y, et al. PKUSEG:A Toolkit for Multi-domain Chinese Word Segmentation[J]. ArXiv Preprint ArXiv:1906.11455, 2019.
(編輯:溫澤宇)