黃銘,劉捷,戴齊
(西南交通大學計算機與人工智能學院,成都 611756)
隨著數據挖掘與人工智能的發(fā)展,人們對數據潛在價值的重視程度日益提升。作為知識抽取的重要組成部分,命名實體識別成為當下研究熱點之一。命名實體識別常作為序列標注任務處理,需要同時預測實體的邊界及實體的類別。目前,命名實體識別常采用Bi-LSTM作為文本特征提取器,并使用CRF(conditional random fields)對標簽的相對關系進行約束,組合形成Bi-LSTMCRF[1]作為模型進行訓練。此外,針對訓練文本的詞嵌入,采用單詞的字符特征與預訓練的詞向量結合的形式,常用的字符特征提取方法包括CNN[2-3](convolutional neural networks)、LSTM[4](long short-term memory)等。不同于英文命名實體識別,中文命名實體識別的訓練文本沒有明確的詞邊界,需要進行分詞處理。因此,中文命名實體識別常伴隨錯誤傳播問題,分詞錯誤將直接導致命名實體識別錯誤,且不同的分詞方法分詞結果不同可能導致詞嵌入時OOV(out of vocabu?lary)。
研究表明,針對命名實體識別任務,基于字粒度的詞嵌入方法性能要優(yōu)于基于詞粒度的詞嵌入方法[5-6]。然而,基于字粒度的詞嵌入方法同樣存在問題。首先,基于字粒度的詞嵌入方法能夠傳遞的信息有限,會忽略文本中許多隱含信息。此外,相同字在不同詞語中表達的含義也可能不同。例如,在鐵路領域,“正線”和“到發(fā)線”中的“線”指鐵路中的軌道線路,而“接地線”中的線表示電路中的電纜。這使得基于字粒度的詞嵌入方法的文本特征提取難度變大,而LSTM雖然能夠學習上下文信息,但對局部特征的提取能力不足,僅使用Bi-LSTM存在對潛在特征的提取能力不足的問題。此外,命名實體中常伴有實體嵌套,CRF結合常規(guī)的BIOES或BIO編碼方式無法完成對嵌套實體的標注。
針對上述兩個問題,本文采取基于字的詞向量嵌入方法,使用ANN對詞向量進行學習,并使用CNN提取局部的詞匯特征,通過結合字詞特征并使用Bi-LSTM學習文本上下文信息,并采用合并標簽標注方法解決實體嵌套問題。最后,本文在多個數據集上進行對比實驗,驗證了模型的有效性。
命名實體識別指從文本中識別出特定類型實體的過程,常作為序列標注問題。根據使用方法不同可將其分為兩類:統計學習方法和深度學習方法。統計學習方法的常用模型包括HMM(hid?den markov models)和CRF。Ratinov等人[7]使用BIOES標注結合詞典與詞性標注特征在CoNLL03等數據集上取得當時最優(yōu)效果。Zhou等人[8]利用手工提取特征結合HMM在多個數據集上取得改進。王蓬輝等人[9]使用生成對抗網絡自動生成大量數據標注,并將其應用于醫(yī)療實體識別并展現出良好的效果。雖然統計學習方法在過去的工作中展現出良好的效果,但此類方法需要結合領域知識和大量特征工程,需要消耗大量的人力資源,且普適性較差。隨著深度學習的發(fā)展,神經網絡模型在序列標注任務中展現出良好的效果,基于深度學習的命名實體識別方法應運而生,許多學者提出基于神經網絡的自動學習方法。Huang等人[1]提出使用LSTM-CRF模型進行命名實體識別,并取得當時最優(yōu)效果。張應成等人[10]使用LSTM-CRF進行商情實體識別。Chiu等人[2]和Ma等人[3]使用CNN提取字符特征,結合LSTM-CRF模型提出LSTM-CNNs-CRF模型。買買提阿依甫等人[11]將LSTM-CNNs-CRF模型應用于維吾爾文命名實體識別。羅熹等人[12]使用結合多頭自注意力機制與Bi-LSTM-CRF模型,對中文臨床文本進行命名實體識別。Yang等人[13]提出使用nbest策略改進CRF,并整合各類表征學習方法提出NCRFpp開源框架。隨著BERT等的預訓練模型出現,許多學者基于BERT模型提出了許多高性能模型。Emelyanov等人[14]整合Bert、Bi-LSTM、多頭注意力機制及NCRF,在命名實體識別任務及文本分類任務中取得良好效果。此外,由于中文文本的特殊性,針對中文命名實體識別的研究亦層出不窮。例如,Liu等人[5]和Li等人[6]針對中文命名實體識別的詞嵌入粒度進行研究,證明了基于字的詞嵌入方法具有更好的性能。Zhang等人[15]通過使用Lattice LSTM進行表征學習,同時使用了基于字的詞向量嵌入和基于詞的詞向量嵌入方法,并多個數據集上證明有效。
命名實體識別常伴有實體嵌套問題,如圖1所示。
圖1 嵌套實體示意圖
實體嵌套問題在各個領域普遍存在,如生物[16-17]、醫(yī)療[18]等。針對命名實體識別中的實體嵌套問題,國內外許多學者提出了解決方案。目前,現有的嵌套實體識別的處理方法可分為四種。第一種方法將命名實體識別任務作為序列標注任務,使用多層的扁平實體識別模型識別嵌套實體。Alex等人[16]提出使用多層CRF進行嵌套命名實體識別,每層CRF負責標注特定類型的實體。Ju等人[17]通過動態(tài)堆疊扁平實體識別網絡,動態(tài)識別大實體中的小實體,直至沒有實體被識別出為止,有效解決實體嵌套識別問題。第二種為基于超圖的命名實體識別方法。Lu等人[19]及Muis等人[20]先后提出基于超圖的嵌套實體識別模型。第三種為Wang等人[21]采用的Shift-Reduce系統,Shift-Reduce系統將嵌套實體識別任務轉換為Action序列預測任務,結合Stack-LSTM取得了良好的識別效果。最后一種為基于MRC(machine reading comprehension)的方法,Li等人[22]提出將命名實體識別任務轉換為MRC問題,針對每種類型實體,通過問答的方式分別提取文本中的句子類型。文中提出的實體頭尾指針標注方法目前在多個領域得到了廣泛應用。
雖然許多學者提出了針對命名實體識別的解決方案,但針對中文命名實體識別基于字進行詞嵌入潛在問題的研究較少,結合字詞向量進行文本表征的Latice LSTM在訓練時需要查找詞表,導致訓練效果較慢。本文針對中文命名實體識別的字嵌入特征提取困難問題,提出使用ANN、CNN及Bi-LSTM的組合網絡CACL(Combination of ANN CNN and LSTM)作為文本表征學習的方法,增強了神經網絡特征提取能力。此外,針對命名實體識別的嵌套實體問題,本文采用經典的序列標注方法,通過使用合并序列標簽結合CRF的形式進行嵌套實體的標注。
本文模型由表征學習方法及實體識別方法組成,模型示意圖如圖2所示。
圖2 模型示意圖
如圖2所示,模型共包括5個部分:詞嵌入層、ANN、CNN、Bi-LSTM與CRF。其中,詞嵌入層、ANN、CNN及Bi-LSTM為模型的表征學習方法。其中,Bi-LSTM層數可根據實際情況增減。為實現嵌套實體識別,模型最后一部分使用合并標簽標注方法結合CRF進行實體標注。
2.1.1 詞嵌入層
詞嵌入層旨在將原始文本轉換為分布式的向量表示。給定長度為n的句子S={w1,w2,w3,…,wn},其中wi表示原始文本中的第i個字。通過查找預訓練的詞向量,詞嵌入層將原始文本S轉換為分布式的向量表示S={w1,w2,w3,…,wn},其中未找到對應詞向量的字通過隨機初始化的詞向量進行嵌入。
2.1.2 ANN
ANN是一種淺層的全連接神經網絡,通過連接大量神經元的加權運算與激活函數構成。本文利用ANN對文本的詞向量進行進一步學習,使其能夠更準確表示原始文本特征,其運算公式如式(1)所示。
其中anni為ANN的輸出向量,wi為詞嵌入后獲取的文本的向量表示;Wa和b a為神經網絡的自學習參數,Wa為權重矩陣,ba為偏移量矩陣;tanh為激活函數。
2.1.3 CNN
CNN是一類包含卷積運算的神經網絡,通過使用卷積核平移進行輸入向量的局部加權求和進行表征學習,對局部特征提取能力較強。由于本文是針對文本進行卷積操作,因此此處使用一維卷積進行特征提取,計算公式如式(2)所示。
其中l(wèi)為卷積核長度ωm為卷積核中第m個待學習參數。此外,為保證卷積后文本長度不變,卷積核長度應設置為單數,并使用長度為(l-1)/2的空值對文本前后進行填充。
2.1.4 Bi-LSTM
Bi-LSTM是LSTM的變體,由一層前向LSTM和一層后向LSTM組成,通過連接兩層LSTM的輸出,可以有效學習序列前后的關聯關系,其計算公式如式(3)所示。
如上文所述,本文采用合并標簽標注方法結合CRF進行嵌套實體標注,以下將對方法進行詳細介紹。
2.2.1 合并標簽方法
合并標簽方法通過將嵌套實體單個字符的多個標簽合并形成新的標簽,解決了單層標簽無法標注嵌套實體的問題,如圖3所示。
圖3 合并標簽示意圖
如圖3所示,“隧道”中心臟為“build”類型實體,“隧道襯砌”為“struct”類型實體。若通過常規(guī)的BIOES標注,“隧”和“道”都需要兩個標簽才能完成標注,CRF無法進行解碼。因此,本文通過合并標簽形成新的標簽,再使用CRF對其進行解碼。
2.2.2 CRF
CRF是一個概率模型,通過給定輸入x與前一時刻的狀態(tài)yt-1預測當前狀態(tài)yt。其概率計算公式如式(4)所示。
其中φt和φp為特征函數,用于預測輸入x與y之間的關聯概率,用于表示當前狀態(tài)與前一個狀態(tài)的轉換概率。x為模型輸入,yt為當前狀態(tài),yt-1表示前一時刻狀態(tài)。最終,我們選用概率最大的狀態(tài)作為當前狀態(tài)預測值。此外,為了使CRF的輸入維度與標簽類別數保持一致,本文通過一個全連接層對Bi-LSTM的輸出進行降維,計算公式如式(5)所示。
其中Wl與b l為神經網絡待學習矩陣,oi為i時刻Bi-LSTM的輸出向量。
3.1.1 實驗方案及評價指標
本文實驗主要涉及5種文本表征方法,包括Bi-LSTM、IDs-CNN、Bi-GRU、CACL及Lattice LSTM[15]。其中,Bi-LSTM、IDs-CNN、Bi-GRU為序列數據表征常用的表征方法,CNN-LSTM為本文模型,而Lattice LSTM為Zhang等人提出的另一種融合字詞特征的表征網絡。此外,為驗證模型參數對模型性能影響,本文對模型中涉及的超參數進行實驗,并分析其對模型性能的影響,模型各參數如表1所示。
表1 實驗模型參數
其中,學習率及詞嵌入維度選用中文自然語言處理中常用的學習率0.001及詞嵌入維度300。詞向量采用Python gensim庫中的word2vec模型針對WIKI百科中文語料庫訓練獲取。神經網絡神經元數量取100-500,變化梯度為100。Dropou取[0.1-0.9],變化梯度為0.2。CNN的卷積核大小kernel size設為[3,5],并將填充長度padding分別設為[1,2]以保證卷積后句子長度不變,IDs-CNN的層數設置為4層。
實驗評價指標采用精確率(Precision)、召回率(Recall)及F1值,計算公式如式(6)、式(7)及式(8)所示。
其中TP表示將正類預測為正類數,即識別出的正確的實體數量;FP表示將負類預測為正類數,即識別出的錯誤的實體數量;F N表示將正類預測為負類數,即未識別出的實體的數量。
3.1.2 實驗環(huán)境設置
本文實驗主要針對鐵路領域文本,使用《城際鐵路設計規(guī)范》TB10623-2014(以下簡稱TB10623)進行標注獲取訓練數據。此外,為進一步驗證模型有效性,本文選用第六屆中國健康信息處理會議(CHIP2020)命名實體識別子任務的公開數據集進行實驗,以下簡稱CHIP2020。數據集的簡介如表2所示。
表2 數據集簡介
如表2所示,CHIP訓練集中包含15000條訓練數據及5000條驗證數據,包含疾病、臨床表現等9類實體;TB10623數據集包含895條訓練數據和228條驗證數據,包含電氣設備、設計參數等6類實體。此外,由于CHIP2020數據集的測試集不包含標注,本文將訓練集按照8∶2的比例進行切分,分為訓練集和測試集。
此外,本文采用的實驗環(huán)境如表3所示。
表3 實驗環(huán)境設置
為驗證模型參數對模型性能影響,并選取最優(yōu)實驗參數,本部分實驗使用CHIP2020數據集,針對模型的隱藏神經元數量、Dropout參數及卷積神經網絡卷積核大小進行分別進行梯度取值對比。
3.2.1 隱藏神經元數量參數驗證
模型的隱藏神經元數量表示神經網絡中每一層中包含的神經元數量,增加模型的隱藏神經元數量可以有效增強模型的學習能力,但神經元數量過多會導致計算量增加和過擬合現象。本文對模型中的隱藏神經元數量分別取100-500,變化梯度為100進行對比實驗,實驗結果如圖4所示。
圖4 隱藏神經元數量對模型性能影響
當隱藏神經元數量為200—400時,模型性能趨于較好,且趨于穩(wěn)定。因此,出于對模型性能考慮,本文取200為隱藏神經元數量。
3.2.2 Dropout參數驗證
Dropout表示模型訓練時的丟失率,是Hinton等人[23]于2012年提出的防止過擬合的方法,過高的Dropout參數會導致模型學習能力下降,且收斂速度下降,而過低的Dropout參數將導致其效果不明顯。因此,本文選用0.1—0.9區(qū)間對其進行實驗,變化梯度為0.2。其實驗結果如圖5所示。
如圖5所示,當Dropout取0.5時模型取得最優(yōu)性能。因此,本文選用0.5為最終的Dropout參數。
圖5 Dropout對模型性能影響
3.2.3 卷積核大小驗證
CNN卷積核大小設置直接決定卷積計算范圍,由于本文使用CNN對局部的詞匯特征進行學習。因此,僅選用大小為3和5的卷積核進行實驗,實驗結果如表4所示。
表4 卷積核大小對模型影響
當卷積核大小為3時,模型效果最佳。因此,本文選用3為卷積核大小。
本部分實驗采用合并標簽方法作為嵌套實體識別方法,并使用Bi-LSTM、Bi-GRU、IDs-CNN及Lattice LSTM作為基線模型驗證CACL作為表征學習方法有效性。其中,模型參數取各模型多次實驗結果平均后最佳參數,實驗結果如表5所示。
由表5可知,CACL作為表征學習方法的模型在兩個數據集上展現出最優(yōu)效果。
表5 有效性驗證實驗結果
在CHIP2020數據集實驗中,CACL的F1值比次優(yōu)模型的F1值分別高出1.21%和1.82%,同時模型的Precis i on和Recall均高于其他基線模型。而Lattice LSTM作為融合字詞特征的另一模型,其F1值略高于除CACL外其他模型,且除驗證集Recall指標略低于Bi-LSTM外,其他指標皆高于其他模型。此外,Bi-LSTM的訓練效果略高于IDs-CNN及Bi-GRU。
在TB10632數據集的實驗中,CACL的F1值在Dev及Test數據集中比次優(yōu)模型分別高出1.82%和1.59%,且除Test數據集中的Recall指標外,模型Precis i on及Recall指標均高于其他基線模型。而Lattice LSTM的各項指標均同樣高于除CACL外的其他模型。此外,與CHIP2020數據集不同,優(yōu)于TB10632數據集中文本較短,因此IDs-CNN的訓練效果略優(yōu)于Bi-LSTM及Bi-GRU。
以上結果表明,融合字詞特征可以有效提高命名實體識別能力,且CACL具有更好的文本表征效果。
本文針對中文命名實體識別字向量嵌入方法文本表征學習困難問題,提出使用CACL作為文本表征學習方法,并對比現有嵌套實體識別方法,提出一種新穎的中文嵌套命名實體識別模型。實驗結果表明,ANN-Bi-LSTM作為中文命名實體識別表征學習方法是有效的。此外,嵌套實體識別方法對比實驗,本文選用Shift-Reduce系統作為嵌套實體識別方法,并與基線模型進行對比,證明本文模型的有效性。
當然,本文工作也具有一定的局限性。一方面,除了本文使用的本團隊標注的鐵路相關實驗數據外,本文模型僅在CHIP2020數據集進行驗證,針對其他領域數據集的有效性仍需進一步驗證。此外,針對TB10632數據集的實驗效果較差,需要進一步調整才能應用于實際應用場景。在未來工作中,我們將對模型做進一步改進并使用更多其他領域數據來驗證模型。