李冬梅,檀 穩(wěn)
北京林業(yè)大學 信息學院,北京 100083
隨著互聯(lián)網(wǎng)的發(fā)展,人們對信息質(zhì)量的要求越來越高,信息抽取、信息檢索、機器翻譯、知識圖譜等領(lǐng)域成為研究的重點。其中,信息抽取的任務是識別并提取文檔中特定的事實信息,以結(jié)構(gòu)化、易理解的形式表示,以便用戶查詢和使用[1]。而命名實體識別(named entity recognition,NER)是信息抽取中一項重要的任務,其目的是識別出文本中表示命名實體的成分,是研究文本中語義知識的基礎,對語義分析、智能檢索、自動問答和意見挖掘等領(lǐng)域的研究有重要作用[2]。命名實體識別任務早期主要識別三大類實體,消息理解會議(message understanding conferences,MUC)規(guī)定三大類實體包括命名實體、時間表達式和數(shù)量表達式,其中命名實體分為人名、地名和機構(gòu)名[3]。在各類評測會議和自然語言處理應用的推動下,命名實體識別任務的目標不斷擴展。自動內(nèi)容抽?。╝utomatic content extraction,ACE)項目對地名和機構(gòu)名實體進行了擴充,增加設施和地理-政治兩種實體[4]。自然語言學習會議(conference on natural language learning,CoNLL)在MUC 定義的基礎上,增加了其他命名實體[5]。隨著命名實體識別技術(shù)的發(fā)展,在特定領(lǐng)域下的命名實體識別研究引起了研究者們的重視,對領(lǐng)域命名實體識別的研究逐漸深入,如軍事領(lǐng)域[6]、農(nóng)業(yè)領(lǐng)域[7]、商品領(lǐng)域[8]等。
命名實體識別任務主要的方法包括兩大類:一類是基于規(guī)則的方法,人工構(gòu)建有限規(guī)則,并從文本中匹配符合這些規(guī)則的字符串;一類是基于統(tǒng)計機器學習的方法,一般先給定命名實體的多個類別,從而使用相應的模型對出現(xiàn)在文本中的實體進行分類。
早期的命名實體識別研究采用的一般為基于規(guī)則的方法,如Grishman 提出的Proteus 系統(tǒng)[9],Krupka等提出的NetOwl系統(tǒng)[10],Humphreys等提出的Lasie-Ⅱ系統(tǒng)[11]。Collins等則提出了DL-CoTrain方法,預定義種子規(guī)則集,接著在語料中對種子規(guī)則集進行無監(jiān)督的訓練迭代,從而得到更多的規(guī)則,再將得到的規(guī)則集應用于命名實體的分類,在人名、地名和機構(gòu)名三類實體的分類準確率均超過了91%[12]。在中文命名實體識別任務中,孫茂松等根據(jù)人名用字、姓氏、人名稱謂等信息研究規(guī)則集,從而進行人名的識別[13]。譚紅葉等利用大規(guī)模地名庫和文本中地名用字的統(tǒng)計信息,結(jié)合上下文信息和不同的規(guī)則在地名識別上取得較好的效果[14]。尼扎木丁等針對維吾爾語黏著性特點,從三個角度對單詞進行拆分從而將其作為特征加入條件隨機場模型中,實現(xiàn)了維吾爾語的人名識別,并且根據(jù)維吾爾語中漢族人的人名特點,提出了基于規(guī)則的漢族人名識別方法[15]?;谝?guī)則的方法雖然對于特定的語料有較好的效果,但是人工定義規(guī)則的難度較大,難以制定足夠完善的規(guī)則來支撐相關(guān)應用,存在較多的限制。一方面,在基于規(guī)則的方法中,命名實體識別的效果跟規(guī)則集的復雜程度息息相關(guān),依靠人工制定大量規(guī)則的可行性太低,相應的方法愈發(fā)顯得笨重。另一方面,規(guī)則的領(lǐng)域依賴性太強,在不同領(lǐng)域之間的可移植性很差。
基于統(tǒng)計機器學習的方法不依賴于人工構(gòu)建的規(guī)則,而是考慮文本的各類特征,利用各類機器學習模型實現(xiàn)命名實體的識別。隨著機器學習技術(shù)在自然語言處理領(lǐng)域的廣泛應用,基于統(tǒng)計機器學習的方法成為研究的主流。這類方法可以分為兩種思路:一種是首先識別命名實體的邊界,再對已識別的命名實體進行分類;另一種是序列化標注方法。Fleischman等綜合考慮特征和模型的選擇,分析了詞頻、主題詞和WordNet等特征對命名實體分類的影響,并且研究了K近鄰、樸素貝葉斯和神經(jīng)網(wǎng)絡等算法在命名實體分類任務中的適應性[16]。Chen等首先利用深度置信網(wǎng)絡進行命名實體的檢測,接著對檢測出的命名實體進行分類,分類準確率能夠達到91.46%[17]。上述方法的性能受限于命名實體邊界識別的效果,尤其在漢語命名實體識別任務中,命名實體邊界的識別準確率對模型整體的效果影響較大。因此,研究者們傾向于采用序列標注的方法進行命名實體識別。
序列標注的方法假設文本中的每個詞(漢語中一般為字),存在若干個候選的類別標簽,并利用機器學習模型對文本中的每個詞進行序列化的自動標注。典型的機器學習模型有隱馬爾可夫模型[18](hidden Markov model,HMM)、支持向量機[19](support vector machine,SVM)、最大熵[20](maximum entropy,ME)、CRF(conditional random fields)[21]等。隨著深度學習技術(shù)的發(fā)展,特別是使用詞向量來表示詞語的方法的出現(xiàn),給命名實體識別帶來強大的發(fā)展動力。Peng 等研究借鑒LSTM(long short term memory)在自動分詞上較好的表現(xiàn),提出一種LSTM與CRF相結(jié)合的模型,比之前方法的F值提高了5%[22]。Lample 等提出了基于BiLSTM-CRF(bi-directional long short term memory-CRF)和基于轉(zhuǎn)換方法的兩種神經(jīng)網(wǎng)絡模型,同時從標注語料和未標注語料中獲取特征,在四種語言上均獲得了較好的NER(named entity recognition)效果[23]。Dong 等利用深度學習技術(shù),以卷積神經(jīng)網(wǎng)絡作為分類器進行電子病歷命名實體的識別,取得不錯的結(jié)果[24]。此外,先驗的知識對命名實體識別任務有較好的促進作用,如知識圖譜等。付宇新等利用開源的命名實體系統(tǒng)DBpedia Spotlight進行命名實體識別任務的優(yōu)化[25]。在原有系統(tǒng)的基礎上利用中文相關(guān)知識對候選集進行增量式擴展,且在對實體上下文進行特征選擇時采用點互信息率的方法,最后通過基于主題向量的二次消歧方法提高了標注的準確率。
鑒于深度學習技術(shù)在命名實體識別任務中的良好表現(xiàn),本文研究如何挖掘和利用植物屬性文本中的隱含特征,提出BCC-P(BiLSTM-CNN-CRF model in plant)方法。該方法充分利用BiLSTM模型獲取植物屬性文本的上下文和時序等信息,并以CNN(convolutional neural network)模型進一步學習植物屬性文本的隱含特征,其后經(jīng)過CRF 模型進行優(yōu)化得到最終的序列標注結(jié)果。本文的主要貢獻有:提出了基于BiLSTM、CNN 和CRF 的命名實體識別方法BCC-P;研究了不同模型在植物屬性文本命名實體識別任務中的適應性。
領(lǐng)域命名實體識別需要解決如何對領(lǐng)域命名實體進行建模的問題,通用的命名實體識別模型往往在該問題上存在不足。田家源等通過利用CRF模型和領(lǐng)域詞典完成了面向互聯(lián)網(wǎng)資源的醫(yī)學命名實體的識別[26]。
中國植物志中的植物屬性文本存在較為明顯的特點:一是其文本描述方式類似,文本中相同的命名實體存在類似的上下文;二是文本的長度有限,且不同長度的文本分布較為均勻。本文提出的命名實體識別方法BCC-P首先根據(jù)現(xiàn)有植物本體和知識庫實現(xiàn)語料的半自動化標注,大大減少人工標注的代價,模型結(jié)構(gòu)圖如圖1所示。BCC-P 的核心部分由基于BiLSTM 的特征提取模塊、基于CNN 的特征提取模塊和基于CRF 的標注模塊構(gòu)成,實現(xiàn)對植物屬性文本多層次的抽象建模。
對于植物屬性文本,BCC-P 方法假設輸入為一個句子,首先通過WordEmbedding 得到句子的分布式向量表示。接著利用BiLSTM 網(wǎng)絡提取句子中的上下文等特征,學習得到句子的隱含特征表示。進一步利用卷積神經(jīng)網(wǎng)絡對句子的隱含特征進行抽象建模,得到句子的深度隱含特征。最后,利用CRF算法對植物屬性文本進行序列標注,得到全局最優(yōu)的標注結(jié)果。
BCC-P方法的步驟如下所示。
步驟1對植物屬性文本語料進行標注,得到基于字的標注語料,構(gòu)建算法的訓練語料與測試語料。
步驟2對語料中的植物屬性文本進行基于字的向量化表示,得到該文本的特征向量。
Fig.1 Structure of BCC-P model圖1 BCC-P模型結(jié)構(gòu)圖
步驟3將步驟2得到的特征向量輸入BiLSTM模塊,分別利用LSTM 單元計算前向和后向的狀態(tài)值,將兩個狀態(tài)值進行拼接得到最終的隱含狀態(tài)表示h={h1,h2,…,hn}。
步驟4將步驟3獲得的隱含狀態(tài)h輸入到CNN模塊中,經(jīng)過卷積層對h進行處理,再經(jīng)過池化層和全連接層處理,得到植物屬性文本的深度特征表示H。
步驟5將步驟4中植物屬性文本的深度特征表示H作為輸入數(shù)據(jù)傳輸?shù)紺RF 模塊,計算在特征表示為H的狀態(tài)下,文本在不同標簽下的概率,得到得分最高的標簽序列。
步驟6計算步驟5得到的標簽序列與實際標注結(jié)果之間的誤差,利用誤差函數(shù)計算誤差對各模塊中神經(jīng)元之間連接權(quán)值的影響,對其進行修正。
步驟7計算全局誤差。
步驟8判斷全局誤差是否達到要求,當誤差達到要求的精度時結(jié)束算法,否則進行步驟9。
步驟9判斷學習次數(shù)是否達到設定的上限,若達到上限則結(jié)束算法,否則從語料中選擇其余的植物屬性文本以及對應的標注信息,重復進行步驟2到步驟9的學習過程。
BCC-P 方法先對植物屬性文本進行建模,根據(jù)文本中命名實體與上下文之間的關(guān)聯(lián)關(guān)系,提取文本中上下文依存的特征。進一步對該特征進行深度抽象,構(gòu)建基于CNN的特征提取模塊,得到植物屬性文本的深度特征表示,并通過卷積和池化層在一定程度上降低了參數(shù)的規(guī)模。最后經(jīng)過CRF模塊完成最終的標注結(jié)果輸出。在算法的空間復雜度方面,BCC-P方法的空間復雜度跟各模塊的模型容量息息相關(guān),可表示為O(N+M+Q),其中N表示BiLSTM模塊中的參數(shù)數(shù)目,M表示CNN模塊中的參數(shù)數(shù)目,Q表示CRF模塊中的參數(shù)數(shù)目。由于模型復雜度和參數(shù)規(guī)模的限制,BCC-P方法整體的效率有待提高。
植物屬性文本包含的是某種植物的屬性描述信息,分析中國植物志中的植物屬性文本可以發(fā)現(xiàn),這些文本的描述方式較為統(tǒng)一和規(guī)范。另外,這些文本中上下文的依賴關(guān)系也較為明顯,因此需要有效地提取文本中上下文包含的信息。
本文采用BiLSTM 模型對植物屬性文本中的上下文信息進行建模,BiLSTM是屬于循環(huán)神經(jīng)網(wǎng)絡的一種改進。循環(huán)神經(jīng)網(wǎng)絡是一種包含循環(huán)結(jié)構(gòu)的網(wǎng)絡,能夠?qū)⒅暗臍v史信息連接到當前信息,具有保持信息的能力。但是它存在兩個問題:一是單向輸入的結(jié)構(gòu)無法利用未來的信息,Schuster等設計了雙向循環(huán)神經(jīng)網(wǎng)絡,將序列數(shù)據(jù)從兩個方向分別輸入模型,且連接到相同的輸出層,有效解決了第一個問題[27]。二是隨著時間間隔的增長,循環(huán)神經(jīng)網(wǎng)絡很難學習跨度較大的信息之間的聯(lián)系,Hochreiter 等提出的LSTM 單元可以解決這個問題[28]。BiLSTM 模型跟標準的雙向循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)類似,同時又在隱含層單元處采用LSTM 結(jié)構(gòu),其網(wǎng)絡展開結(jié)構(gòu)圖如圖2所示。
LSTM 單元的內(nèi)部信息記憶功能由三個控制門實現(xiàn)。其中,ft表示遺忘門,it表示輸入門,ot表示輸出門,它們共同控制存儲歷史和未來信息的細胞狀態(tài)Ct。對于輸入的植物屬性描述句子X=[word1,word2,…,wordn],得到它的分布式表示x=[x1,x2,…,xn]。xt和ht分別表示LSTM單元的輸入信息和輸出信息,則LSTM單元的輸出可由式(1)計算得到。
Fig.2 Structure of BiLSTM network圖2 BiLSTM網(wǎng)絡結(jié)構(gòu)圖
其中,ot計算t時刻LSTM 單元的輸出,可由式(2)得到。
Ct計算t時刻記憶單元的候選值,可由式(3)和式(4)得到。
其中,ft計算t時刻之前的信息對當前細胞狀態(tài)Ct的影響,由式(5)計算得到;it計算t時刻的信息對Ct的影響,由式(6)計算得到。
當輸入句子信息經(jīng)過該模塊之后,得到BiLSTM模型學習的句子隱含特征h={h1,h2,…,hn}。
提取植物屬性文本的上下文特征能夠有效表征其蘊含的語義化信息,然而對于句子中命名實體本身的特征表示也至關(guān)重要,如“一年生”表示的是Type 類型實體。因此,提取植物屬性文本中命名實體相關(guān)的局部特征十分必要。對于BiLSTM 模型得到的隱含特征h,本文采用經(jīng)典卷積神經(jīng)網(wǎng)絡對句子進行深層次的建模,得到更加抽象化的句子表示。基于CNN 的特征提取模塊的結(jié)構(gòu)采用卷積層、池化層和全連接層組合的方式。第一步將輸入數(shù)據(jù)經(jīng)過卷積層得到若干個feature map。第二步在池化層采用最大池化的方法,壓縮輸入的特征并保留數(shù)據(jù)中的有效信息,降低模型復雜度。最終使用全連接層進行調(diào)整正則化,得到輸入句子的最終特征表示H。該模塊的網(wǎng)絡結(jié)構(gòu)圖如圖3所示。
對于輸入的特征h,是一個n×m的矩陣,其中n表示最大句子長度,m表示對句子中每個字進行WordEmbedding的維度。定義K個卷積核,每個卷積核的滑動窗口大小設置為s,則在卷積層中,每個卷積核以窗口s在輸入特征h上以步長為1進行滑動,得到的特征圖可由式(7)計算得到。
經(jīng)過池化層處理之后,得到全局特征R,其中第i位元素可由式(8)計算得到。
其中,Wp為所有卷積核的權(quán)重,最后利用全連接層可得到最終特征表示H。
Fig.3 Structure of feature extraction module based on CNN圖3 基于CNN的特征提取模塊結(jié)構(gòu)圖
經(jīng)過兩個特征提取模塊之后,得到了植物屬性文本的深度隱含特征表示,進一步可得到其序列標注結(jié)果。在進行標注時,HMM模型假設觀測序列之間是獨立的,且當前狀態(tài)僅依賴于先前的狀態(tài),從而對序列的轉(zhuǎn)移概率和表現(xiàn)概率直接進行建模來統(tǒng)計共現(xiàn)概率。因此其對特征選擇的要求比較高,不適用于BCC-P 方法。最大熵馬爾可夫模型(maximum entropy Markov model,MEMM)克服了HMM輸出獨立性的問題,引入了特征函數(shù)使模型保留了更多的信息,通過計算條件狀態(tài)轉(zhuǎn)移概率和表現(xiàn)概率來得到局部最優(yōu)的結(jié)果,因此容易陷入局部最優(yōu)解,導致標簽偏置的問題。此外,通過SVM 等分類模型也可進行序列標注,通過對序列中的數(shù)據(jù)進行單獨分類得到標注結(jié)果,但是這種方法欠缺對序列上下文特征的考慮,需要引入復雜的操作且易出現(xiàn)誤差傳遞的問題。CRF 模型則不存在上述問題,CRF 模型計算在當前特征下輸出的條件概率,將同一個特征在不同位置求和,進行全局歸一化處理,從而將局部的特征轉(zhuǎn)化為全局的特征得到全局最優(yōu)的解,避免了標簽偏置的問題。本文采用CRF算法對特征提取模塊的輸出的特征表示H進行建模,得到植物屬性文本的序列標注結(jié)果。在CRF模塊中,通過對訓練樣本的學習,可得到一些隱含的約束,例如命名實體的第一個字一般以B-作為前綴,最后一個字以E-作為前綴。對于輸入植物屬性描述句子X,對應的實際標簽序列為Y,并且得到特征提取模塊的輸出H。則可通過式(9)計算在特征H下,模型輸出標簽為Y=[y1,y2,…,yn]的概率。
其中,ψi(yi-1,yi,H)表示CRF的勢函數(shù),′表示第i個預測標簽值。
在模型訓練過程中,將當前參數(shù)條件下概率最高的序列作為輸出結(jié)果,并根據(jù)模型輸出結(jié)果與實際標注結(jié)果的誤差對模型參數(shù)進行調(diào)整優(yōu)化。
本文采用的植物屬性信息文本搜集自中國植物志[29],將無屬性相關(guān)描述的文檔去除后,得到有效文檔集合作為最終的數(shù)據(jù)集。數(shù)據(jù)集的整體信息如表1所示。
Table 1 Statistics of dataset表1 數(shù)據(jù)集統(tǒng)計信息
得到最終數(shù)據(jù)集之后,本文將文檔中的無效符號去除,例如HTML標簽符號、無意義特殊符號、列表符號等。根據(jù)現(xiàn)有知識庫和林業(yè)本體,對數(shù)據(jù)集進行自動化標注。采用BIOES 標注模式進行標注,B-前綴表示命名實體的第一個詞,I-前綴表示命名實體中間的詞,E-前綴表示命名實體的最后一個詞,O表示其他無關(guān)字符,S-表示單個字符。標注后輔以人工抽樣檢查,確定標注效果,優(yōu)化調(diào)整后得到最終的標注結(jié)果。對數(shù)據(jù)集中的命名實體進行分析,統(tǒng)計得到標注的實體總數(shù)達到2 518 007個,分析結(jié)果如表2所示。
Table 2 Statistics of labeling result表2 標注結(jié)果統(tǒng)計
本文采用準確率和F1值兩個評價指標,綜合對植物屬性文本的命名實體識別效果進行評估。其中,F(xiàn)1值計算準確率和召回率的調(diào)和平均數(shù),如式(10)所示。
式中,P表示準確率的值,R表示召回率的值。
將數(shù)據(jù)集隨機劃分為兩部分,分別作為訓練集和測試集,訓練集包含26 538篇文檔,測試集包含6 594篇文檔。首先考慮植物屬性描述句子的向量表示對實驗效果的影響,分別選擇one-hot和Word2Vec對句子進行表示,結(jié)果如表3所示。從實驗結(jié)果可以發(fā)現(xiàn),使用Word2Vec 對句子進行分布式表示相對于傳統(tǒng)的one-hot 表示方法有比較明顯的優(yōu)勢,說明Word2Vec能夠表示更豐富的信息。
Table 3 Influence of sentence representation on experimental results表3 句子表示對實驗結(jié)果的影響
第二部分研究模型隨著迭代次數(shù)和批處理大小變化的擬合情況,所得結(jié)果見圖4。隨著迭代次數(shù)的增加,模型的擬合效果逐漸提升,并且趨于穩(wěn)定。而在選擇批處理大小方面,批處理的數(shù)目越小,模型的命名實體識別效果越好。
Fig.4 Influence of iterations and batch size in BCC-P圖4 BCC-P中迭代次數(shù)和批處理大小的影響
本文選擇了CRF 模型、BiLSTM-CRF 模型和BiLSTM+CNN-CRF模型進行對比實驗,三組模型均采用Word2Vec 作為句子的分布式表示,并在構(gòu)建的數(shù)據(jù)集上進行訓練和測試。其中,在BiLSTM-CRF模型的基礎上,加入基于CNN 模型進行植物信息文本字信息的提取,并將BiLSTM 模型的結(jié)果和CNN模型的結(jié)果進行拼接,結(jié)合CRF 模型得到BiLSTM+CNN-CRF模型。實驗結(jié)果如表4所示。
Table 4 Result of different models表4 模型的評估結(jié)果
由實驗結(jié)果可以發(fā)現(xiàn),CRF 模型取得了82.52%的準確率,說明其在植物屬性文本命名實體識別任務上具有良好的適應性,能夠有效對植物屬性文本進行抽象建模。而BiLSTM-CRF模型的效果相對于CRF模型有明顯的提升,在F1值上提高了6.5%,準確率上提高了7.16%。上述結(jié)果說明利用BiLSTM 網(wǎng)絡提取句子中的上下文信息,從而對句子進行深層次建模的方法,可以有效挖掘植物屬性文本中的語義特征。BiLSTM+CNN-CRF 模型在整體表現(xiàn)上優(yōu)于BiLSTM-CRF 模型,說明利用CNN 模型提取的植物屬性文本特征可作為上下文特征的補充,以提升命名實體識別的效果。此外,其與BCC-P 方法之間的差距很小,說明利用復雜的拼接特征在對文本的表示方面有優(yōu)勢,但是該方法由于自身的結(jié)構(gòu)原因,在空間復雜度上相較于其他方法更高。本文提出的BCC-P 方法的命名實體識別效果在幾種模型中最好,相對于BiLSTM-CRF 模型在F1值上提高了1.79%,在準確率上提高了2.12%,說明BCC-P方法對于句子隱含特征提取的效果更好,植物屬性文本中命名實體本身的特征對識別效果有正向的影響。另外,從四組實驗可以發(fā)現(xiàn),F(xiàn)1值總是低于準確率,說明在植物屬性文本的命名實體識別任務中,命名實體的召回率相較準確率稍低。原因可能是采用的BIOES標注方式較復雜,導致模型的識別效果受到影響。
本文致力于研究植物屬性文本的命名實體識別任務,構(gòu)建了植物屬性文本命名實體識別的數(shù)據(jù)集,并在此基礎上提出了基于深度神經(jīng)網(wǎng)絡的BCC-P方法。BCC-P方法充分考慮了植物屬性文本中上下文之間的依存關(guān)系,利用深度神經(jīng)網(wǎng)絡挖掘句子中的隱含特征,從而完成對植物屬性文本命名實體的識別。通過實驗對比了模型在不同輸入特征下的表現(xiàn),驗證了它們在植物屬性文本命名實體識別任務中的有效性。其次,還將BCC-P 方法與CRF 模型、BiLSTMCRF模型和BiLSTM+CNN-CRF模型進行對比,結(jié)果表明BCC-P 方法在F1值和準確度上都有所提高,能夠有效應用于植物屬性文本的命名實體識別任務。實驗結(jié)果驗證了BiLSTM 網(wǎng)絡在文本語義特征提取方面的有效性,以及CNN 在命名實體特征挖掘上的實用性。然而,本文的方法也存在著不足,相對于通用命名實體識別模型存在差距,識別效果還有提升的空間,可探索通用命名實體識別模型在領(lǐng)域語料上的遷移效果。此外,BCC-P 方法沒有較好地利用文本的其他特征,例如語法特征、句法結(jié)構(gòu)特征和聚類特征等,可在特征選擇的多樣性方面繼續(xù)研究。