馬瑞民,馬民艷,王浩暢
(東北石油大學計算機與信息技術(shù)學院,黑龍江大慶 163318)
基于分類器串聯(lián)融合的生物醫(yī)學命名實體識別
馬瑞民,馬民艷,王浩暢
(東北石油大學計算機與信息技術(shù)學院,黑龍江大慶 163318)
鑒于生物醫(yī)學命名實體識別的多數(shù)模型使用單機器學習算法時識別效果不好,提出一種基于條件隨機域(CRFs)與最大熵(Maxent)分類器融合的方法,利用基分類器之間的相關(guān)性和互補性,結(jié)合有效的特征集合,進行再學習,得到融合模型.實驗表明,該模型的識別性能與單一分類器和JNLPBA專題會議相關(guān)的系統(tǒng)比較,取得很好成績,F測度達到70.7%,證明該融合方法有效.
條件隨機域;最大熵;分類器融合;特征提取;生物醫(yī)學命名實體識別
生物醫(yī)學的快速發(fā)展產(chǎn)生大量的生物醫(yī)學數(shù)據(jù),從生物醫(yī)學文獻中發(fā)掘出隱含的生物醫(yī)學知識是生物醫(yī)學信息抽取的重要意義所在.生物醫(yī)學命名實體識別是生物醫(yī)學信息抽取的一項重要任務(wù),它主要是從醫(yī)學文獻中發(fā)現(xiàn)基因、蛋白質(zhì)、DNA、RNA等生物醫(yī)學命名實體.目前,生物醫(yī)學命名實體識別的方法主要有基于字典、基于規(guī)則和基于機器學習3種方法[1].
在生物醫(yī)學命名實體識別的研究初期,常使用基于字典的方法,如 Krauthammer M等[2]利用DNA和蛋白質(zhì)序列比較工具BLAST識別生物醫(yī)學命名實體.此方法簡單實用,對于字典中存在的生物醫(yī)學命名實體有極高的識別準確率;但由于新的生物醫(yī)學命名實體不斷出現(xiàn),所以基于字典的方法對于自由文本的生物醫(yī)學命名實體識別效果不佳.
Olsson F等[3]利用基于規(guī)則的方法識別生物醫(yī)學命名實體,F達到67%.與基于詞典的方法比較,基于規(guī)則方法的識別性能有所增強,但它具有花費大量人工勞動、可移植性差等缺點.
近年來,基于機器學習的方法成為生物醫(yī)學命名實體識別的重要方法.文獻[4-7]分別提出基于隱馬爾可夫模型、感知器、支持向量機、最大熵的方法,這些方法把詞性、詞形等特征融入到機器學習模型中,利用訓練得到的學習模型從生物醫(yī)學文本集合中識別指定類型的名稱.Zhou Guodong等[4]的研究 F達到74%.
由于基于機器學習的方法能夠判別生物醫(yī)學命名實體數(shù)據(jù)庫中未包含的實體,方法靈活.該方法已成為生物醫(yī)學命名實體識別研究的主流方法.目前,生物醫(yī)學命名實體識別的多數(shù)識別模型是使用單機器學習算法,單機器學習算法不能夠取得非常好的識別效果.這說明單一算法結(jié)合豐富的特征并不能完全表達生物醫(yī)學命名實體的特點.通過對各種統(tǒng)計學習方法的分析可以發(fā)現(xiàn),不同的學習模型之間存在著互補性和相關(guān)性,所以分類器融合是一種改進的新思路.
為此,筆者采用條件隨機域算法和最大熵算法二者融合的方法,結(jié)合豐富的特征集合,包括局部特征、全文特征和外部資源特征,以提高生物醫(yī)學命名實體識別的識別性能.
條件隨機域(Conditional Random Fields,CRFs)在自然語言處理領(lǐng)域當中適合解決標注序列化數(shù)據(jù)任務(wù),模型的特性表明它非常適用于生物醫(yī)學領(lǐng)域的命名實體識別研究,該算法詳見文獻[8].
最大熵(Maximum Entropy,Maxent)算法在自然語言處理方面也是一種主要的處理方法.該方法最大的優(yōu)點是,實驗者只需要考慮提取特征,而不用考慮如何使用這些特征,每個特征的貢獻由相應(yīng)的權(quán)值來決定,而這些權(quán)值可由 GIS學習算法自動得到,該算法詳見文獻[9].
圖1 分類器融合圖示
如果把單個分類器比作一個決策者,分類器融合的方法就相當于多個決策者共同進行一項決策.
分類器融合的基本思想見圖1.選用豐富的特征集合,首先利用條件隨機域算法訓練得到一個基本分類器M1,輸出結(jié)果為C1,然后把 C1添加到特征集合中,再利用最大熵算法進行訓練和測試,即將這2種基本分類器進行融合,得到分類器M2,最終的測試訓練結(jié)果為C2.
生物醫(yī)學命名實體識別中常用的特征主要有:局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;全文特征,即文本符號在整個篇章中的上下文特征;外部資源特征,如使用一些外部資源詞典等.
使用7種特征[10]:
(1)單詞本身.把單詞本身作為一個識別特征.
(2)詞形特征.由于生物醫(yī)學命名實體一般含有數(shù)字、大寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征.本實驗將大寫字母用‘A’替換,數(shù)字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a(chǎn)’替換.
(3)標準化拼寫特征.某些同類的生物醫(yī)學命名實體拼寫方式很類似,如NP-1and NP-5.對這些類似詞采取方法處理,如Jcllc-B,將它規(guī)范化為‘Aaaaa—A’,將連續(xù)相同的字符再縮短,即‘Aa—A’.此方法能夠?qū)⑵磳懴嗨频拿麑嶓w提取的特征保持一致.
(4)詞性特征.生物醫(yī)學命名實體的大寫字母特征對其識別性能貢獻不大,并且生物醫(yī)學命名實體多是描述性的名稱而且名稱很長,所以,詞性特征對識別生物醫(yī)學命名實體邊界很有幫助.本系統(tǒng)使用 GEN IA tagger2.0.2[11]詞性標注器,該詞性標注器是生物醫(yī)學領(lǐng)域文本專用的詞性標注器.
(5)關(guān)鍵詞特征.利用統(tǒng)計方法在訓練集中統(tǒng)計出高頻的生物醫(yī)學命名實體關(guān)鍵詞,將這些詞是否出現(xiàn)作為特征.
(6)別名特征.把已經(jīng)識別出來的生物醫(yī)學命名實體保存在一個表中,當系統(tǒng)開始識別某個詞時,生物醫(yī)學命名實體識別算法會對該詞是否是表中詞的別名做出決定.
(7)字典特征.使用一些字典資源作為特征加入特征向量空間,有Common Word詞典、Species詞典、Tissue詞典和 Endings of Chem icals詞典[12]等.
如句子:Number of GLucocorticoid(p rotein)recep to rs in lymphocytes(cell-type)and their sensitivity to hormone action特征提取見表1.
表1 特征提取實例
實驗采用的語料是JNLPBA 2004,用它進行訓練和測試.JNLPBA的訓練語料由 GEN IA 3.02語料中的2 000篇摘要組成,測試語料由當時未出版的404篇M EDL INE摘要組成.
實驗使用2 000篇訓練語料,語料中的命名實體分為5類:DNA、RNA、Protein、Cell—line和 Cell—type.利用.net平臺、采用c#編程語言完成文中實驗系統(tǒng),實驗結(jié)果由精確率(P)、召回率(R)和 F測度(F)評價,且使用全部匹配模式.
表2 CRFs與Maxent融合模型各類別實體實驗結(jié)果
利用CRFs算法與Maxent算法進行融合,融合模型對各類別實體實驗結(jié)果見表2,其中O-verall為5類生物醫(yī)學命名實體的平均值.
為驗證融合方法的有效性,本實驗測試CRFs和Maxent單一分類器的識別性能,F測度分別為69.2%和67.5%,采用 CRFs與 M axent融合方法后,F測度達到70.7%,結(jié)果見表3.
表3 CRFs與Maxent單一分類器與融合后結(jié)果
由表3可以看出,CRFs的性能要高于M axent,而融合后的分類器比單一分類器的識別性能提高1.5%左右,證明該融合方法有效.
基于CRFs與Maxent融合的系統(tǒng)和JNLPBA專題會議相關(guān)系統(tǒng)比較的結(jié)果見表4.由表4可以看出,該方法取得較好的效果.
表4 CRFs與Maxent融合與JNLPBA相關(guān)系統(tǒng)結(jié)果
通過分析實驗數(shù)據(jù),可以得到:
(1)最大熵模型獲得的是所有滿足約束條件的模型中信息熵極大的模型.此模型中二值化特征只是記錄特征的出現(xiàn)與否,而文本分類需要知道特征的強度,因此它在分類方法中不是最優(yōu)的;但是它能解決統(tǒng)計模型中參數(shù)平滑的問題.
(2)CRFs模型是在M axent模型的基礎(chǔ)上改進的,它能更好地利用待識別文本中所提供的上下文信息,并且避免嚴格的獨立性假設(shè)和數(shù)據(jù)歸納偏置問題.
(3)CRFs模型和最大熵模型融合后,系統(tǒng)性能明顯提高,F測度達到70.7%.這是因為CRFs模型能夠賦予M axent模型適當?shù)臋?quán)重,有效利用基分類器結(jié)果之間的互補性和相關(guān)性,從而提高識別性能.
提出了基于CRFs分類器和Maxent分類器融合的方法.該方法利用2種分類器之間的互補性和相關(guān)性,有效地彌補單一分類器的不足.實驗表明,結(jié)合有效特征集合,將CRFs分類器和M axent分類器融合是一種非常有效的融合方法,融合后識別性能明顯優(yōu)于基于單分類器的識別系統(tǒng),F測度達到70.7%,對于一定領(lǐng)域內(nèi)的生物醫(yī)學命名實體識別任務(wù)有很好的效果.
[1]王浩暢,趙鐵軍.生物醫(yī)學文本挖掘技術(shù)的研究與進展[J].中文信息學報,2008,22(3):89-98.
[2]Krauthammer M,Rzhetsky A,Morozov P,et al.Using BLAST for identifying gene and p rotein names in journal articles[J].GENE,2000,259(1):245-252.
[3]Olsson F,Er iksson G,Franzen K,et al.Notions of co rrectness w hen evaluating p rotein name taggers[C/OL]//Proceedings of the 19 th international conference on computational linguistics.2002:765-771[2007-05-10].http://www.sics.se/~fredriko/papers/coling02.pdf.
[4]Zhou Guodong,Zhang Jie,Su Jian,et al.Recognizing names in biomedical texts:a machine learning app roach[J].Bioinformatics,2004,20(7):1178-1190.
[5]胡俊鋒,陳浩,陳蓉,等.基于感知器的生物醫(yī)學命名實體邊界識別算法[J].計算機應(yīng)用;2007,27(12):3026-3031.
[6]王浩暢,趙鐵軍.基于SVM的生物醫(yī)學命名實體識別[J].哈爾濱工程大學學報,2006,27(增):570-574.
[7]L N Y F,TSA IT H,Chou W C,et al.A maximum entropy app roach to biomedical named entity recognition[C/OL]//4th workshop on datamining in bioinfo rmatics.2004:56-61[2007-05-01].http://iasl.iis.sinica.edu.tw/w ebpdf/paper-2004-A—Maximum—Entropy—App roach—to—Biomedical—Named_Entity—Recognition.pdf.
[8]Lafferty J,M ccallum A,Pereira F.Conditional random fields:p robabilistic models for segmenting and labeling sequence data.p roc.of the 18th international conference on machine learning[C].San Francisco:2001:282-289.
[9]Tom M.機器學習[M].北京:機械工業(yè)出版社,2000:166-170.
[10]馬瑞民,馬民艷.基于CRFs的多策略生物醫(yī)學命名實體識別[J].齊齊哈爾大學學報,2011,27(1):39-42.
[11]Yoshimasa T,Yuka T,Kim Jin-Dong,et al.Developing a robust part-of-speech tagger fo r biomedical text[A].Advances in Info rmatics-10th panhellenic conference on info rmatics[C].Japen,[s.l.]2005.
[12]M ika S R.Protein names peeled p recisely off free text[J].Bioinfo rmatics,2004,20:241-247.
[13]Finkel J,Dingare S,Nguyen H,et al.Exp loiting context fo r biomedical entity recognition:from syntax to the web[A].Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications(JNLPBA-2004)[C].Geneva:Sw itzerland,2004.
[14]Settles B.Biomedical named entity recognition using conditional random fields and novel feature sets[A].Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications(JNLPBA-2004)[C].Geneva,Sw itzerland,2004.
[15]Song Y,Km E,Lee G G,et al.POSB DTM-NER in the shared task of BioNLP/NLPBA 2004[C]//Proceedings of the joint wo rkshop on natural language p rocessing in biomedicine and its app lications,2004:100-103[2007-05-01].http://isoft.postech.ac.kr/publication/iconf/bionlp04—song.pdf.
Bio-entity recogn ition based on cascade generalization/2011,35(2):91-94
M A Rui-m in,M A M in-yan,WANG Hao-chang
(College of Com puter and Inform ation Technology,N ortheast Petroleum University,Daqing,Heilongjiang 163318,China)
Currently,most of methods for bio-entity recognition are based on a single machine learning algo rithm and it can not achieve better perfo rmance.Therefo re,in this paper,w e p ropose a cascade generalization method based on the CRFs and Maxentw hich makes use of the compensation and relativity among different classifiers.Experimental results show that the cascade generalization method isobviously superior to the individual classifier based method and the most state of the art system s in JNLPBA conferences.F value reached 70.7%,show ing that the fusion method is effective.
conditional random fields;maximum entropy;cascade generalization;feature extraction;bio-entity recognition
TP311.135
A
1000-1891(2011)02-0091-04
2010-11-03;審稿人:劉賢梅;編輯:陸雅玲
黑龍江省自然科學基金項目(F200603)
馬瑞民(1958-),男,教授,主要從事數(shù)據(jù)庫及相關(guān)技術(shù)方面的研究.