何馨宇,李麗雙
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116023)
近年來,網(wǎng)絡(luò)與信息技術(shù)不斷發(fā)展,生物研究者對醫(yī)學(xué)領(lǐng)域持續(xù)關(guān)注,生物研究方向的相關(guān)文獻(xiàn)呈指數(shù)級數(shù)量增長,這使得相關(guān)研究人員從海量的醫(yī)學(xué)文獻(xiàn)中快速獲取有益的知識(shí)變得相當(dāng)困難,因此生物醫(yī)學(xué)信息抽取技術(shù)應(yīng)運(yùn)而生。
生物醫(yī)學(xué)領(lǐng)域信息抽取的最終目的是將研究者感興趣的非結(jié)構(gòu)化數(shù)據(jù)以結(jié)構(gòu)化的形式表示與呈現(xiàn),方便研究。生物領(lǐng)域信息抽取經(jīng)歷了從生物醫(yī)學(xué)命名實(shí)體識(shí)別到二元關(guān)系抽取,再到生物醫(yī)學(xué)事件抽取的發(fā)展過程。其中,生物事件抽取屬于復(fù)雜的關(guān)系抽取,是為描述更為復(fù)雜的、更為詳細(xì)的分子變化的過程而提出的。一個(gè)生物事件由一個(gè)觸發(fā)詞和一個(gè)或者多個(gè)要素組成,如在句子片段“Prevented induction of 1L-10 production by gp41 in mo-nocytes”中,參與事件的蛋白質(zhì)為IL-10和gp41,包含三個(gè)事件,分別為Gene_expression事件,Positive_regulation事件和Negative_regulation事件,該片段中存在的事件如圖1所示,三個(gè)事件的事件結(jié)構(gòu)如下:
事件1(Type:Gene_expression,Trigger:production,Theme:IL-10);
事件2(Type:Positive_regulation,Trigger:induction,Theme:事件1,Cause:gp41);
事件3(Type:Negative_regulation,Trigger:Prevented,Theme:事件2)。
圖1 文本片段生物事件示例圖
生物事件抽取方法主要分為兩類: 分階段的pipeline方法和聯(lián)合事件抽取方法。其中分階段的pipeline方法為目前較為主流的事件抽取方法,該方法將事件抽取分為觸發(fā)詞識(shí)別、要素識(shí)別和后處理三個(gè)階段,即先識(shí)別觸發(fā)詞,再根據(jù)觸發(fā)詞識(shí)別結(jié)果進(jìn)行要素識(shí)別,最后通過后處理將觸發(fā)詞和要素構(gòu)成整個(gè)事件。由于觸發(fā)詞識(shí)別錯(cuò)誤很有可能被傳播到要素識(shí)別階段,從而影響整個(gè)生物醫(yī)學(xué)事件抽取的性能,所以在分階段的事件抽取過程中,生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別起到了至關(guān)重要的作用。研究顯示,有超過60%的抽取錯(cuò)誤要?dú)w因于觸發(fā)詞識(shí)別階段[1]。因此,本文將觸發(fā)詞識(shí)別任務(wù)作為研究重點(diǎn)。目前,觸發(fā)詞識(shí)別方法大體可以分成兩大類。
一是基于淺層機(jī)器學(xué)習(xí)的方法。這類方法一般將觸發(fā)詞識(shí)別視為一個(gè)多分類任務(wù)。通常需要人工的總結(jié)、抽取特征,代價(jià)較大,且系統(tǒng)的泛化能力較差。[2]Bjorne[3]等使用SVM作為分類器,抽取了觸發(fā)詞的形態(tài)學(xué)特征、句子特征、詞性、詞干特征及依存鏈上的信息等,在BioNLP’09SharedTask取得了最好的結(jié)果。Pyysalo等[4]總結(jié)了上下文、依存關(guān)系等豐富特征,并通過SVM進(jìn)行分類,在MLEE語料[4]上的F值為75.84%;Zhou等[5]使用了半監(jiān)督的學(xué)習(xí)模型,通過引入未標(biāo)注的語料和事件抽取中的隱藏話題來識(shí)別觸發(fā)詞,在MLEE語料上的F值為76.89%;Zhou等[6]將領(lǐng)域知識(shí)中學(xué)習(xí)到的特征與人工特征進(jìn)行融合,通過SVM進(jìn)行觸發(fā)詞分類,在MLEE語料上的F值為78.32%。
二是基于神經(jīng)網(wǎng)絡(luò)和詞向量的方法。為了解決生物醫(yī)學(xué)事件觸發(fā)詞提取過程中人工設(shè)計(jì)特征較為復(fù)雜以及缺乏語義信息等問題,基于詞向量和神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法最近相繼被提出。神經(jīng)網(wǎng)絡(luò)通常以詞向量作為模型的輸入,用于獲取詞與詞之間的語義信息。同時(shí),網(wǎng)絡(luò)模型可以自動(dòng)地學(xué)習(xí)一些抽象的特征,避免了機(jī)器學(xué)習(xí)模型人工設(shè)計(jì)復(fù)雜特征帶來的問題。Wang等[7]通過詞向量得到詞之間的句法和語義功能信息,然后將生成的特征向量送到神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類。Nie等[8]將Skip-gram模型得到的詞向量轉(zhuǎn)化成特征矩陣,用于初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重,以解決神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練時(shí)只得到局部最優(yōu)解的問題。
上文提及的方法均為一階段的觸發(fā)詞識(shí)別方法。該類方法直接對觸發(fā)詞進(jìn)行分類,即一次性識(shí)別觸發(fā)詞類型和非觸發(fā)詞。一階段方法訓(xùn)練代價(jià)較大,且對于生物醫(yī)學(xué)領(lǐng)域語料中存在的常見問題——數(shù)據(jù)不平衡問題也沒有得到很好的解決。因此,本文提出了一種基于兩階段的觸發(fā)詞識(shí)別方法: 將觸發(fā)詞識(shí)別分為識(shí)別和分類兩個(gè)階段。第一階段,僅識(shí)別文本中的觸發(fā)詞正例,但不區(qū)分這些觸發(fā)詞的類型, 分類任務(wù)中涉及到的類型僅為正例和負(fù)例;第二階段,僅針對第一階段識(shí)別出的觸發(fā)詞正例進(jìn)行分類,分類任務(wù)中涉及到的類型全部為正例,所以,兩個(gè)階段中均對類不平衡有所緩解。此外,兩階段方法可以有效地避免過多的負(fù)例對正例分類造成的干擾。同時(shí),在訓(xùn)練時(shí)間上,兩階段方法所用時(shí)間也更短、更高效。
深度學(xué)習(xí)采用詞向量作為輸入,可以避免由于人工特征向量稀疏而造成的維度災(zāi)難問題[9],并且能夠避免淺層機(jī)器學(xué)習(xí)方法中人工總結(jié)設(shè)計(jì)特征費(fèi)時(shí)費(fèi)力的不足。而深層神經(jīng)網(wǎng)絡(luò)能夠?qū)υ紨?shù)據(jù)逐層進(jìn)行表示優(yōu)化,使得數(shù)據(jù)表示對分類更有利,從而提升系統(tǒng)性能。因此,本文在兩個(gè)階段的不同分類任務(wù)中均采用了目前較為流行的長短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)。此外,本文利用大規(guī)模的生物醫(yī)學(xué)文獻(xiàn)訓(xùn)練了一種基于依存關(guān)系的詞向量,與傳統(tǒng)的Skip-gram模型相比,基于依存關(guān)系的詞向量可以獲得更加豐富的語義信息,有助于提升觸發(fā)詞的識(shí)別性能。而雙向LSTM和句子向量對于LSTM性能的提升也具有一定的作用,是本文觸發(fā)詞識(shí)別方法能夠取得較好效果的關(guān)鍵因素。
圖2所示為本文觸發(fā)詞識(shí)別的整體框架,該框架主要由兩部分構(gòu)成: 數(shù)據(jù)的向量表示,基于雙向LSTM和兩階段方法的觸發(fā)詞識(shí)別。在數(shù)據(jù)的向量表示部分,本文先按照預(yù)訓(xùn)練的依存詞向量,通過查表的方式將原始文本轉(zhuǎn)換為詞向量作為輸入。此外,在訓(xùn)練的過程中不斷對預(yù)訓(xùn)練的詞向量進(jìn)行微調(diào),得到微調(diào)后的詞向量,再通過對兩套詞向量進(jìn)行相關(guān)運(yùn)算獲得句子級的向量特征信息,對輸入進(jìn)行優(yōu)化。在基于雙向LSTM和兩階段方法的觸發(fā)詞識(shí)別部分,本文在深度學(xué)習(xí)框架Theano的基礎(chǔ)上,分別通過雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建了兩階段方法中的二分類和多分類模型對輸入數(shù)據(jù)進(jìn)行觸發(fā)詞類型預(yù)測,相關(guān)內(nèi)容將在后文詳細(xì)闡述。
圖2 基于兩階段方法的觸發(fā)詞識(shí)別框架
1.1.1 依存詞向量
詞向量也稱為詞嵌入或詞表達(dá),使用詞向量替代傳統(tǒng)的one-hot方式用于詞匯表示,解決了one-hot表示帶來的維數(shù)災(zāi)難問題。近年來,隨著深度學(xué)習(xí)在文本挖掘領(lǐng)域的不斷發(fā)展,詞向量也得到了更為廣泛的應(yīng)用。將詞向量作為額外特征或者直接作為學(xué)習(xí)算法的輸入,已經(jīng)對許多文本挖掘系統(tǒng)性能起到了提升作用。
目前較為常用的詞向量訓(xùn)練工具是由Mikolov等于2013年發(fā)布的word2vec[10],Mikolov等提供了ContinuousBag-of-Word(CBOW)和Skip-gram兩種常用的詞向量訓(xùn)練模型,分別利用周圍詞預(yù)測目標(biāo)詞和利用目標(biāo)詞預(yù)測周圍詞。然而,與其他利用線性上下文信息來訓(xùn)練詞向量的其他自然語言處理任務(wù)不同,生物醫(yī)學(xué)觸發(fā)詞識(shí)別需要更多來自依存上下文的信息。為此,本文在word2vec的傳統(tǒng)模型基礎(chǔ)上,利用句子中詞語的依存關(guān)系,通過依存上下文來代替?zhèn)鹘y(tǒng)word2vec模型中線性上下文訓(xùn)練得到依存詞向量,使得觸發(fā)詞識(shí)別過程獲得更多的語義信息支持。
在本文中,我們從PubMed數(shù)據(jù)庫中下載了5.7GB的摘要內(nèi)容,對摘要原文進(jìn)行分句分詞處理后,將其送至Gdep解析工具得到依存解析結(jié)果。最后,利用word2vecf[11]將得到的依存上下文信息用于訓(xùn)練所需要的依存詞向量。Gdep是一個(gè)專門針對生物文本的依存句法分析工具,能夠以較高的準(zhǔn)確率對生物文本進(jìn)行句法分析。如圖3所示,依存上下文可以捕獲使用小窗口線性上下文難以獲得的長距離詞間的關(guān)系,例如,在線性上下文中,當(dāng)線性窗口大小為1和2時(shí),“discovers”“star”和“telescope”的關(guān)系很難確定。因此,相較于線性上下文訓(xùn)練得到的詞向量(例如Skip-gram、CBOW等模型),依存詞向量可以獲得更多的語義信息,從而提高觸發(fā)詞識(shí)別性能。
圖3 依存關(guān)系示例
1.1.2 句子向量
在原始的LSTM框架中,所有的輸入都是基于詞級的向量特征信息,并且需要通過輸入門控制其讀入到記憶單元中。但是單純的詞級向量容易忽視句子本身潛在的特征信息,而把句子信息作為一種補(bǔ)充輸入,有助于在隱層抽象出更加精確的特征表示。為了能夠建立起單詞與句子之間的潛在關(guān)系,本文在BLSTM框架中融入句子級的向量特征信息,從而將句子信息通過讀入門輸入到記憶單元中,獲得更加豐富的文本信息。
預(yù)訓(xùn)練的詞向量包含了訓(xùn)練語料中無法捕捉到的特征信息,不斷微調(diào)的詞向量包含了更豐富、更具有針對性的文本信息,句子向量建立了單詞與句子之間的潛在關(guān)系。實(shí)驗(yàn)證明,句子向量在生物觸發(fā)詞識(shí)別任務(wù)上也具有一定的提升性能。
1.2.1LSTM神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)在有監(jiān)督的訓(xùn)練過程中的誤差傳播會(huì)隨著神經(jīng)網(wǎng)絡(luò)遞歸深度的增加而不斷地減小或夸大,這種影響被稱之為梯度彌散[13]。為了解決梯度彌散問題,20世紀(jì)90年代的研究人員進(jìn)行了各種各樣的嘗試,目前Hochreiter和Schmidhuber[14]提出的長短時(shí)記憶(longshort-termmemory,LSTM)結(jié)構(gòu)是目前最受研究者青睞也是最有效的用來解決遞歸神經(jīng)網(wǎng)絡(luò)梯度彌散問題的方法。LSTM的基本構(gòu)成單位是一個(gè)記憶存儲(chǔ)塊,其主要包括一個(gè)記憶單元和三組具有自適應(yīng)性的元素乘法門,即輸入門、忘記門和輸出門。這三個(gè)門是非線性的求和單元,旨在收集存儲(chǔ)塊內(nèi)外的激活信息,并且通過乘法運(yùn)算控制記憶單元中的激活值。正是這種有選擇的讀寫上下文信息的優(yōu)勢極大地彌補(bǔ)了梯度彌散的缺陷。
雙向LSTM神經(jīng)網(wǎng)絡(luò)[15]的基本思想是對每一句話分別采用順序(從第一個(gè)詞開始,從左往右遞歸)和逆序(從最后一個(gè)詞開始,從右向左遞歸)遞歸神經(jīng)網(wǎng)絡(luò)計(jì)算得到兩套不同的隱層表示,如圖4所示。然后通過向量求和或拼接的方式計(jì)算得到最終的隱層表示。這樣,文本序列中的每個(gè)單詞的隱層都包含完整的前后上下文信息。相較于單向LSTM而言,雙向LSTM可以提供更為全面的語義信息,從而提高系統(tǒng)性能。
圖4 雙向遞歸神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)
1.2.2 兩階段方法
在本文中,我們采用了兩階段的觸發(fā)詞識(shí)別方法。將觸發(fā)詞的識(shí)別過程分為識(shí)別和分類兩個(gè)階段。
(1) 識(shí)別階段
在這個(gè)階段中,生物醫(yī)學(xué)文獻(xiàn)中的觸發(fā)詞和非觸發(fā)詞被區(qū)別開來,但不對識(shí)別出的觸發(fā)詞進(jìn)行分類,即此階段為觸發(fā)詞二分類任務(wù)。在此階段,我們通過雙向LSTM構(gòu)建觸發(fā)詞二分類模型,并對預(yù)測出來的觸發(fā)詞正例進(jìn)行篩選,作為第二階段的輸入。
(2) 分類階段
在這個(gè)階段中,為識(shí)別階段得到的觸發(fā)詞確定其具體類型,此階段為觸發(fā)詞的多分類任務(wù)。在此階段,我們通過雙向LSTM構(gòu)建觸發(fā)詞多分類模型,并將第一階段識(shí)別出來的正例按照預(yù)定義的19種觸發(fā)詞類型進(jìn)行分類,之后在預(yù)測結(jié)果中加回第一階段過濾掉的預(yù)測負(fù)例,從而得到MLEE語料測試集的完整預(yù)測結(jié)果。
為了更好地與一階段方法比較,本文在觸發(fā)詞識(shí)別的兩階段實(shí)驗(yàn)中均采用了與一階段方法相同的雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建觸發(fā)詞二分類和多分類的模型,同時(shí)采用了依存詞向量捕捉詞語語義信息,增加了句子向量信息,建立詞級特征和句子級特征之間的聯(lián)系,豐富上下文信息,得到更加精確的隱層表示。
為了對本文提出的觸發(fā)詞識(shí)別方法進(jìn)行評價(jià),本文在生物信息抽取領(lǐng)域的通用語料——MLEE[7]語料上進(jìn)行了觸發(fā)詞識(shí)別實(shí)驗(yàn)。MLEE語料由Pyysalo[4]組織標(biāo)注,不僅抽取分子級別的事件,而且還面向細(xì)胞、組織、器官等更多的生物實(shí)體相關(guān)的事件,共包含了19種事件類型,涵蓋了從分子到器官水平的大多數(shù)事件類型。這些事件類型按照功能可以被分為“Anatomical”“Molecular”“General”“Planned”四大類,具體類型包括“Cellproliferation”“Regulation”“Bloodvesseldevelopment”等。此外,MLEE語料為了豐富事件表示還引入了更加精確的事件描述。該數(shù)據(jù)集的數(shù)據(jù)靜態(tài)分布如表1所示。
表1 MLEE數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)
本文使用三個(gè)性能評價(jià)指標(biāo)評價(jià)每類觸發(fā)詞的性能,分別是準(zhǔn)確率Precision(P)、召回率Recall(R)和F值F-score(F)。其定義為公式:
其中TP(true positives)表示正例中判斷正確的樣本數(shù),F(xiàn)P(false positives)表示負(fù)例中判斷錯(cuò)誤的樣本數(shù),F(xiàn)N(false negatives)表示正例中判斷錯(cuò)誤的樣本數(shù)。
為了能夠更好地比較不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之間觸發(fā)詞識(shí)別的性能差異,本文對所有實(shí)驗(yàn)采用了統(tǒng)一的參數(shù)標(biāo)準(zhǔn)。在一階段方法和兩階段方法中的不同階段訓(xùn)練模型時(shí),梯度下降的學(xué)習(xí)率均設(shè)置為0.001,最大迭代次數(shù)設(shè)置為200次,隱層節(jié)點(diǎn)數(shù)為200,輸入層的上下文窗口規(guī)定為 5。
2.2.1 依存詞向量vs Skip-gram模型詞向量
如1.1節(jié)所述,基于依存關(guān)系的詞向量可以獲得更多的語義信息,從而提高觸發(fā)詞識(shí)別性能。為了驗(yàn)證依存詞向量對于觸發(fā)詞識(shí)別性能的影響,本文針對基于單向LSTM的一階段觸發(fā)詞識(shí)別方法,分別采用了兩種不同的詞向量,即通過word2vec詞向量訓(xùn)練工具,Skip-gram模型訓(xùn)練的普通詞向量和使用word2vecf[11]詞向量訓(xùn)練工具訓(xùn)練的基于依存關(guān)系的詞向量,詞向量維度均為200。觸發(fā)詞識(shí)別性能如表2所示(第1行&第2行),基于依存詞向量的觸發(fā)詞識(shí)別F值較基于Skip-gram模型訓(xùn)練的詞向量的觸發(fā)詞識(shí)別F值提高1.8%。
表2 不同方法的觸發(fā)詞識(shí)別性能對比
2.2.2 基于LSTM的觸發(fā)詞識(shí)別vs.基于BLSTM的觸發(fā)詞識(shí)別結(jié)果
為了能夠在單向的基礎(chǔ)上, 進(jìn)一步探究雙向遞歸神經(jīng)網(wǎng)絡(luò)的識(shí)別性能,實(shí)驗(yàn)采用了對正向和逆向LSTM的隱層相加的方式表示新的隱層,識(shí)別的F值為73.62%,比單向的LSTM提高了1.47%,如表2第2行&第3行所示。從性能上看,無論是召回率還是準(zhǔn)確率,雙向的LSTM遞歸神經(jīng)網(wǎng)絡(luò)明顯優(yōu)于單向的遞歸神經(jīng)網(wǎng)絡(luò)。這主要是因?yàn)殡p向的遞歸神經(jīng)網(wǎng)絡(luò)可以訪問更加豐富的上下文信息。
2.2.3 句子向量對觸發(fā)詞識(shí)別性能的影響
為了驗(yàn)證句子向量對于雙向LSTM性能的影響,本文在上述實(shí)驗(yàn)的基礎(chǔ)上增加了句子向量。如前文所述,本文句子向量的計(jì)算采取的是句子中所有單詞對應(yīng)的預(yù)訓(xùn)練詞向量和微調(diào)后詞向量的差值加和求平均的方式。如表2所示,從性能上看,增加句子向量后的F值(第4行)較不加句子向量的F值(第3行)提升了3.51%,可見句子級的向量特征信息可以通過獲取豐富的文本信息從而提升系統(tǒng)的識(shí)別性能。
2.2.4 一階段方法的觸發(fā)詞識(shí)別vs.兩階段方法的觸發(fā)詞識(shí)別結(jié)果
在兩階段的觸發(fā)詞識(shí)別方法中,觸發(fā)詞識(shí)別被分為識(shí)別和分類兩個(gè)階段。在識(shí)別階段,候選實(shí)例僅被識(shí)別為觸發(fā)詞和非觸發(fā)詞兩類,語料中的類型數(shù)目比例為“所有正例總數(shù): 負(fù)例總數(shù)”,而一階段方法中類型的比例為“每個(gè)子類數(shù)目: 負(fù)例總數(shù)”。顯然,對于兩階段方法中的第一階段而言,這個(gè)比例將大于一階段方法的相應(yīng)比例,從而緩解了類不平衡的問題;在分類階段,由于只對識(shí)別階段篩選出來的預(yù)測正例進(jìn)行分類,數(shù)據(jù)集中類的不平衡問題也得到了很好的緩解。此外,這種方式也可以有效地避免過多的負(fù)例對正例分類造成的干擾。同時(shí),實(shí)驗(yàn)表明,在訓(xùn)練時(shí)間上,兩階段方法的訓(xùn)練時(shí)間也更短,更高效。綜上,針對觸發(fā)詞識(shí)別任務(wù)而言,兩階段方法是一個(gè)比較有效的方法。為了驗(yàn)證兩階段方法的有效性,本文在基于依存詞向量、雙向LSTM和句子向量的實(shí)驗(yàn)基礎(chǔ)上結(jié)合了兩階段方法,實(shí)驗(yàn)結(jié)果如表2(第5行)所示,兩階段方法的觸發(fā)詞識(shí)別相較于一階段方法F值提高了1.33%。
2.2.5 本文系統(tǒng)與其他系統(tǒng)整體性能的比較
為了更好地評價(jià)本文提出方法的性能,我們選取了MLEE語料,將生物觸發(fā)詞識(shí)別的現(xiàn)有參考文獻(xiàn)與本文進(jìn)行了整體性能比較,結(jié)果如表3所示。本文所提出的方法在總體性能上,分別比Pyysalo等[4]基于豐富特征的SVM的分類方法F值高2.62%;比Zhou等[5]基于半監(jiān)督的學(xué)習(xí)模型,通過引入未標(biāo)注的語料和事件抽取中的隱藏話題來識(shí)別觸發(fā)詞的方法F值高1.57%;比Wang[7]基于依存關(guān)系的詞向量的觸發(fā)詞識(shí)別的方法F值高1.36%;比Nie[8]等神經(jīng)網(wǎng)絡(luò)和詞向量的方法F值高1.23%。此外,Zhou等人[6]將大規(guī)模語料中學(xué)習(xí)到的領(lǐng)域知識(shí)與人工總結(jié)的語義、句法等特征進(jìn)行融合,然后通過SVM進(jìn)行觸發(fā)詞分類,取得了目前MLEE語料上觸發(fā)詞識(shí)別的最好性能,本文方法F值比Zhou高0.14%。相較而言,本文方法通過深層神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,避免了抽取人工特征時(shí)的代價(jià)。
表3 本文系統(tǒng)與其他系統(tǒng)的性能比較* Nie et al.[8]原文中觸發(fā)詞識(shí)別結(jié)果為14類,本文按照19類對其進(jìn)行了換算。
2.2.6 本文系統(tǒng)與其他系統(tǒng)在19個(gè)子類上的性能比較
MLEE語料上共有19種預(yù)定義事件類型,為了更好地分析本文所提出方法的觸發(fā)詞識(shí)別性能,我們分別在19個(gè)子類上與Pyysalo[9]、Zhou[11]、Nie[13]的觸發(fā)詞識(shí)別性能進(jìn)行了比較,具體如表4所示。
表4 本文系統(tǒng)與其他系統(tǒng)在19個(gè)子類上的性能比較
可以看出,相較于Pyysalo提出的基于特征的SVM分類方法,本文提出的方法在八種類型的觸發(fā)詞識(shí)別性能上優(yōu)于文獻(xiàn)[4]的方法,例如在“Cell proliferation”,“Positive regulation”和“Binding”等類型上F值分別提升了6.06%、4.05%和0.39%。相較于Zhou等[6]的機(jī)器學(xué)習(xí)方法,本文提出的方法在六種類型的觸發(fā)詞識(shí)別性能上優(yōu)于文獻(xiàn)[6]的方法,例如在“Breakdown”,“Positive regulation”, “Regulation”和“Binding”等類型上F值分別提升了18.19%、1.89%、0.45%和0.76%。與Nie等[8]基于神經(jīng)網(wǎng)絡(luò)和觸發(fā)詞的方法相比,本文提出的方法有七種類型的觸發(fā)詞抽取結(jié)果好于文獻(xiàn)[8]。其中“Positive regulation”和“Remodeling”等類型上F值分別提升了2.91%、50%??傮w來看,本文方法在處理“Negative regulation”“Positive regulation”“Regulation”以及“Binding”等復(fù)雜事件類型時(shí)具有一定優(yōu)勢,而這些復(fù)雜事件觸發(fā)詞的抽取往往更需要語義信息的支持。
本文針對生物觸發(fā)詞識(shí)別任務(wù),提出了一種基于雙向LSTM和兩階段方法的觸發(fā)詞識(shí)別模型,在生物事件抽取通用語料——MLEE語料上獲得了較好的性能。主要結(jié)論如下:
首先,在生物觸發(fā)詞識(shí)別任務(wù)中,淺層的機(jī)器學(xué)習(xí)方法需要設(shè)計(jì)復(fù)雜的人工特征、豐富的專業(yè)領(lǐng)域知識(shí),以及大量的實(shí)驗(yàn)選擇特征。這一方面增加了系統(tǒng)的設(shè)計(jì)成本,另一方面也對系統(tǒng)的移植帶來了困難。從而,本文采用了深層神經(jīng)網(wǎng)絡(luò)方式識(shí)別觸發(fā)詞。而LSTM神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)長距離依賴的信息,避免了傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)在處理長句子時(shí)產(chǎn)生的梯度彌散問題。因此,本文提出了基于雙向LSTM的觸發(fā)詞識(shí)別模型。
其次,為了獲取更好的數(shù)據(jù)表示,本文針對PubMed數(shù)據(jù)庫中下載的大規(guī)模語料訓(xùn)練了基于依存關(guān)系的詞向量,該詞向量可以捕獲長距離詞間的關(guān)系,從而獲得更加豐富的語義信息。此外,本文在預(yù)訓(xùn)練詞向量的基礎(chǔ)上擴(kuò)展了一套隨著訓(xùn)練過程不斷微調(diào)的詞向量,進(jìn)而通過計(jì)算得到句子向量,句子向量信息可以建立起詞級特征和句子級特征之間的聯(lián)系,豐富上下文信息,得到更加精確的隱層表示。
最后,本文采用的兩階段方法可以緩解訓(xùn)練過程中存在的類不平衡問題。兩階段方法將觸發(fā)詞識(shí)別分成識(shí)別和分類兩個(gè)階段,通過將一次分類轉(zhuǎn)換為兩次分類,每個(gè)階段數(shù)據(jù)不平衡的嚴(yán)重性低于一次分類,間接地緩解了數(shù)據(jù)不平衡問題。此外,在兩階段方法中,由于第二階段只對預(yù)測的正例進(jìn)行多分類,可以有效避免過多的負(fù)例對正例分類造成的干擾。同時(shí),實(shí)驗(yàn)表明,在訓(xùn)練時(shí)間上,兩階段方法的訓(xùn)練時(shí)間也更短、更高效。綜上,針對觸發(fā)詞識(shí)別任務(wù)而言,兩階段方法是一個(gè)比較有效的方法。
[1] Bj?rne J. Biomedical event extraction with machine learning[J]. TUCS Dissertations, 2014(178): 1-121.
[2] Vlachos A. Two strong baselines for the BioNLP 2009 event extraction task[C]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing. Association for Computational Linguistics, 2010: 1-9.
[3] Bjorne J, Juho H, Filip G, et al. Extracting complex biological events with rich graph-based feature sets[C]//Proceedings of the Workshop on BioNLP: Shared Task, 2009: 10-18.
[4] Pyysalo S, Ohta T, Miwa M, et al. Event extraction across multiple levels of biological organization[J]. Bioinformatics, 2012, 28(18): i575-i581.
[5] Zhou D, Zhong D. A semi-supervised learning framework for biomedical event extraction based on hidden topics[J]. Artificial Intelligence in Medicine, 2015, 64(1): 51-58.
[6] Zhou D, Zhong D, He Y. Event trigger identification for biomedical events extraction using domain knowledge[J]. Bioinformatics, 2014, 30(11): 1587-1594.
[7] Wang J, Zhang J, Yuan A, et al. Biomedical event trigger detection by dependency-based word embedding[C]//Proceedings of IEEE International Conference on Bioinformatics and Biomedicine. IEEE, 2015: 429-432.
[8] Nie Y, Rong W, Zhang Y, et al. Embedding assisted prediction architecture for event trigger identification[J]. Journal of Bioinformatics & Computational Biology, 2015, 13(3): 575-577.
[9] Yoshua B, Rejean D, Pascal V, et al. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research (JMLR), 2003, 3: 1137-1155.
[10] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. 2013, arXiv preprint arXiv: 1301.3781.
[11] Levy O, Goldberg Y. Dependency-based word embeddings[C]//Proceedings of Meeting of the Association for Computational Linguistics, 2010: 302-308.
[12] Li L, Jin L, Jiang Y, et al. Recognizing biomedical named entities based on the sentence vector/twin word embeddings conditioned bidirectional LSTM[C]//Proceedings of China National Conference on Chinese Computational Linguistics. Springer International Publishing, 2016: 165-176.
[13] Kolen J, Kremer S. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies[M]. Wiley-IEEE Press, 2007, 28(2): 237-243.
[14] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[15] Schuster M, Paliwal K. Bidirectional recurrent neural networks[J]. Signal Processing, 1997, 45(11): 2673-2681.