陳基
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
命名實(shí)體識(shí)別綜述
陳基
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
MUC-6第一次提出命名實(shí)體識(shí)別[1],現(xiàn)在在自然語言處理中已經(jīng)被廣泛使用。信息抽取就是從非結(jié)構(gòu)化的文本中(例如,新聞)抽取結(jié)構(gòu)化的數(shù)據(jù)和特定的關(guān)系。在定義任務(wù)的過程中人們注意到識(shí)別信息單元的名稱,像人名、機(jī)構(gòu)名、地名、時(shí)間等是必不可少的。識(shí)別上面所說的實(shí)體的名稱,就叫做命名實(shí)體識(shí)別[1]。命名實(shí)體識(shí)別是信息抽取的子任務(wù),識(shí)別的好壞直接關(guān)系到抽取的好壞。
早期的命名實(shí)體識(shí)別工作,主要識(shí)別一般的“專有名詞”[2],包括三類名詞:人名、地名、機(jī)構(gòu)名。這也是MUC-6最早定義的任務(wù)要識(shí)別的名詞。隨著研究的進(jìn)行,人們對(duì)這些名詞進(jìn)行更細(xì)致的劃分。對(duì)于地名,可以進(jìn)行細(xì)分為:國家名、省/州、城市名、街道名等[3]。類似的人名可以細(xì)分為:政客、演員等[4]。除了識(shí)別一般的專有名詞,人們也開始關(guān)注對(duì)于特定領(lǐng)域的命名實(shí)體識(shí)別。在生物醫(yī)學(xué)領(lǐng)域,對(duì)于基因名、蛋白質(zhì)名的識(shí)別已經(jīng)有許多工作在開展,也取得了不錯(cuò)的效果[5]。針對(duì)社交媒體文本中存在大量的電影、歌曲等,識(shí)別電影名、歌曲名、郵件地址等實(shí)體[6]。隨著研究范圍的擴(kuò)大,針對(duì)不同的特定問題特定領(lǐng)域,越來越多的實(shí)體類型被提出。
早期的研究大多數(shù)通過人工構(gòu)造規(guī)則的方法,現(xiàn)在多采用監(jiān)督學(xué)習(xí)的方法,自動(dòng)構(gòu)造規(guī)則或者進(jìn)行序列標(biāo)注。監(jiān)督學(xué)習(xí)的從發(fā)點(diǎn)是從標(biāo)注好的文檔的正負(fù)例里面學(xué)習(xí)特征,通過自動(dòng)學(xué)習(xí)到的這些特征來識(shí)別命名實(shí)體。1.1部分對(duì)序列標(biāo)注方法進(jìn)行更細(xì)致的介紹。序列標(biāo)注的方法的主要缺點(diǎn)是需要大量標(biāo)注好的語料。當(dāng)沒辦法獲取大規(guī)模的語料或者代價(jià)比較昂貴時(shí),人們提出其他的解決方法,包括:半監(jiān)督和無監(jiān)督方法。這兩部分內(nèi)容在1.2和1.3中介紹。
1.1有監(jiān)督方法
有監(jiān)督學(xué)習(xí)方法將命名實(shí)體識(shí)別看做序列標(biāo)注問題。序列標(biāo)注模型包括:隱馬爾科夫模型 Hidden Markov Models(HMM)[7],最大熵馬爾科夫模型Maximum Entropy Markov Models(MEMM)和條件隨機(jī)場Conditional Random Fields(CRF)[8]等。這些模型都是基于大量的標(biāo)注語料,定義一系列實(shí)體,通過學(xué)習(xí)得到基于特征的判別規(guī)則。隱馬爾科夫模型描述了一個(gè)含有隱含未知參數(shù)的馬爾可夫過程,針對(duì)命名實(shí)體識(shí)別這里的未知參數(shù)為實(shí)體類型。
隱馬爾科夫模型考慮了上下文信息,測試時(shí)求得的解是全局最優(yōu)的解,得到最優(yōu)的馬爾科夫鏈,這是傳統(tǒng)分類算法做不到的。隱馬爾科夫模型缺點(diǎn)是假設(shè)可觀測變量之間獨(dú)立,而且限制觀測變量是詞語本身,限制了特征的選擇。例如像字?jǐn)?shù)、DF詞頻、位置等對(duì)實(shí)體類型很有預(yù)示作用的特征都無法很方便地使用。
最大熵馬爾科夫模型只計(jì)算給定可觀測變量下隱藏變量的概率,將模型由隱馬爾科夫的生成模型變成判別模型,克服了隱馬爾科夫的模型的缺點(diǎn),可以方便使用各種特征。不過也帶來新的問題——標(biāo)記偏置問題。
條件隨機(jī)場模型將最大熵馬爾科夫模型里面的條件概率轉(zhuǎn)化為特征函數(shù)的形式,分解為兩部分:轉(zhuǎn)移特征和狀態(tài)特征。通過訓(xùn)練得到不同特征的權(quán)值,測試的時(shí)候一般采用維特比(Viterbi)算法進(jìn)行求解。條件隨機(jī)場模型克服最大熵馬爾科夫模型的標(biāo)記偏置問題,不過也帶類訓(xùn)練速度偏慢的問題。
在這些模型基礎(chǔ)上,國內(nèi)外學(xué)者針對(duì)不同的問題還提出許多改進(jìn)的版本:層疊隱馬爾科夫模型[9]、層疊條件隨機(jī)場[10]等。
1.2半監(jiān)督方法
半監(jiān)督也叫弱監(jiān)督,主要的技術(shù)叫拔靴法(Bootstrapping),只提供很少的標(biāo)注數(shù)據(jù),例如一些種子用于開始的學(xué)習(xí)。例如識(shí)別疾病名的系統(tǒng),需要用戶提供一些樣例。然后系統(tǒng)就會(huì)搜索包含這些實(shí)體的句子,辨別它們的上下文環(huán)境。接著系統(tǒng)就會(huì)尋找其他跟之前樣例有相識(shí)的上下文的疾病名。學(xué)習(xí)的過程就是不斷地循環(huán)這個(gè)過程,發(fā)現(xiàn)新的上下文,發(fā)現(xiàn)新的疾病名,產(chǎn)生大量的基疾病名和上下文。辨別上下文環(huán)境的方法包括:M.Collins和Singer采用模板的方式[11]、A.Cucchiarelli和 Velardi采用句法分析樹[12]等。半監(jiān)督的方法可以在很少量的標(biāo)注數(shù)據(jù)和大量無標(biāo)注的數(shù)據(jù)條件下,取得比較好的效果。
1.3無監(jiān)督方法
無監(jiān)督學(xué)習(xí)最典型的方法是聚類。比如,通過相似的上下文將不同的命名實(shí)體聚到一起。當(dāng)然還有其他的無監(jiān)督方法,包括:基于外部資源(wordNet)[13],當(dāng)針對(duì)某個(gè)特定的領(lǐng)域的標(biāo)注語料沒有時(shí)候,可以采用外部資源比如wordNet進(jìn)行遷移學(xué)習(xí)。首先,通過詞在大規(guī)模語料中的共現(xiàn),對(duì)wordNet里面的同義詞分配一個(gè)實(shí)體類型。然后對(duì)于給定的文檔中一個(gè)詞,通過比較一定窗口的上下文,給它分配一個(gè)實(shí)體類型?;邳c(diǎn)互信息[14],將點(diǎn)互信息做為特征對(duì)給定的詞進(jìn)行分類,判斷輸入哪個(gè)類型。還有基于詞匯模板[15]等。
特征是在算法假設(shè)下描述詞的各種屬性。例如一個(gè)布爾型的特征,如果當(dāng)前單詞是大寫則為真,否則為假。特征一般用特征向量表示,一個(gè)維度代表一個(gè)特征取值可以是布爾型、數(shù)值型等,整個(gè)向量就表示詞在假設(shè)條件下所有屬性。特征一般分為三類:詞級(jí)別特征,包括詞本身是否大小寫、前后文的詞、詞性等;字典級(jí)別特征,判斷當(dāng)前詞是否屬于某個(gè)字典,如地名字典,姓名字典等;全局特征。
命名實(shí)體識(shí)別一般采用這幾個(gè)評(píng)價(jià)指標(biāo):精確率(Precision)、召回率(Recall)和F值。
表1
精確率p和召回率r定義如下:
F值是精確率和召回率的調(diào)和平均值。
命名實(shí)體識(shí)別作為信息抽取的子任務(wù),從一開始提出就得到國內(nèi)外學(xué)者的重視,并成為研究熱點(diǎn),取得眾多進(jìn)展。本文主要從三類技術(shù)方法:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),介紹了相關(guān)的研究工作。一般文本的命名實(shí)體識(shí)別已經(jīng)相當(dāng)成熟,目前大部分命名實(shí)體識(shí)別研究,側(cè)重于對(duì)特點(diǎn)領(lǐng)域的命名實(shí)體,例如生物醫(yī)學(xué)、社交媒體。
[1]Grishman,Ralph;Sundheim,B.1996.Message Understanding Conference-6:A Brief History.In Proc.International Conference on Computational Linguistics.
[2]hielen,Christine.1995.An Approach to Proper Name Tagging for German.In Proc.Conference of European Chapter of the Association for Computational Linguistics.SIGDAT.
[3]Lee,Seungwoo;Geunbae Lee,G.2005.Heuristic Methods for Reducing Errors of Geographic Named Entities Learned by Bootstrapping.In Proc.International Joint Conference on Natural Language Processing.
[4]Fleischman,Michael;Hovy.E.2002.Fine Grained Classification of Named Entities.In Proc.Conference on Computational Linguistics.
[5]Settles,Burr.2004.Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets.In Proc.Conference on Computational Linguistics.Joint Workshop on Natural Language Processing in Biomedicine and Its Applications.
[6]X Liu,M Zhou-Information Processing&Management,2013
[7]Bikel,Daniel M.;Miller,S.;Schwartz,R.;Weischedel,R.1997.Nymble:a High-Performance Learning Name-finder.In Proc.Conference on Applied Natural Language Processing.
[8]McCallum,Andrew;Li,W.2003.Early Results for Named Entity Recognition with Conditional Random Fields,Features Induction and Web-Enhanced Lexicons.In Proc.Conference on Computational Natural Language Learning.
[9]劉杰.基于統(tǒng)計(jì)的中文機(jī)構(gòu)名實(shí)體識(shí)別的研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(03)
[10]俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006(02)
[11]Collins,Michael;Singer,Y.1999.Unsupervised Models for Named Entity Classification.In Proc.of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.
[12]Cucchiarelli,Alessandro;Velardi,P.2001.Unsupervised Named Entity Recognition Using Syntactic and Semantic Contextual Evidence.Computational Linguistics 27:1.123-131,Cambridge:MIT Press.
[13]Alfonseca,Enrique;Manandhar,S.2002.An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery.In Proc.International Conference on General WordNet.
[14]Etzioni,Oren;Cafarella,M.;Downey,D.;Popescu,A.-M.;Shaked,T.;Soderland,S.;Weld,D.S.;Yates,A.2005.Unsupervised Named-Entity Extraction from the Web:An Experimental Study.Artificial Intelligence 165.91-134
Named Entity Recognition;Conditional Random Fields;Information Extraction;Evaluation Index
Survey of Named Entity Recognition
CHEN Ji
(College of Computer Science,Sichuan University,Chengdu,Chengdu 610065)
1007-1423(2016)03-0024-03
10.3969/j.issn.1007-1423.2016.03.006
陳基(1990-),男,福建福州人,研究生碩士,研究方向?yàn)閿?shù)據(jù)挖掘
2015-12-15
2015-12-30
互聯(lián)網(wǎng)的普及和發(fā)展,信息資源得到極大的豐富,同時(shí)也造成信息過載的問題。人們迫切需要快速準(zhǔn)確地獲取信息的技術(shù)方法,信息抽取技術(shù)就應(yīng)運(yùn)而生。命名實(shí)體識(shí)別作為信息抽取的一個(gè)子任務(wù)被提出,受到國內(nèi)外學(xué)者的重視,并進(jìn)行一系列研究。探討命名實(shí)體的概念和意義,對(duì)現(xiàn)有的命名實(shí)體識(shí)別研究進(jìn)行總結(jié)歸納。
命名實(shí)體;條件隨機(jī)場;信息抽取;評(píng)價(jià)指標(biāo)
With the growing popularity and development of the Internet,information resources have been greatly enriched,but also result in information overload problem.For people's need of technical method that can find out information fast and accurately,information extraction technology is brought into being.Information extraction is presented as a subtask;named entity recognition is attached great importance. A series of studies are doing by scholars.Discusses the concept and significance of named entity,and gives a summary to named entity recognition.