付瑞吉 秦兵 劉挺
摘要:命名實(shí)體識(shí)別是自然語言處理領(lǐng)域的一個(gè)重要任務(wù),為許多上層應(yīng)用提供支持。本文主要研究漢語開放域命名實(shí)體邊界的識(shí)別。由于目前該任務(wù)尚缺乏訓(xùn)練語料,而人工標(biāo)注語料的代價(jià)又太大,本文首先基于雙語平行語料和英語句法分析器自動(dòng)標(biāo)注了一個(gè)漢語專有名詞語料,另外基于漢語依存樹庫(kù)生成了一個(gè)名詞復(fù)合短語語料,然后使用自學(xué)習(xí)方法將這兩部分語料融合形成命名實(shí)體邊界識(shí)別語料,同時(shí)訓(xùn)練邊界識(shí)別模型。實(shí)驗(yàn)結(jié)果表明自學(xué)習(xí)的方法可以提高邊界識(shí)別的準(zhǔn)確率和召回率。
關(guān)鍵詞:開放域命名實(shí)體識(shí)別; 自學(xué)習(xí); 訓(xùn)練語料融合
中圖分類號(hào):TP391.12 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2014)04-0001-05
Abstract:Named entity recognition is an important task in the domain of Natural Language Processing, which plays an important role in many applications. This paper focuses on the boundary identification of Chinese open-domain named entities. Because the shortage of training data and the huge cost of manual annotation, the paper proposes a self-training approach to identify the boundaries of Chinese open-domain named entities in context. Due to the lack of training data, the paper firstly generates a large scale Chinese proper noun corpus based on parallel corpora, and also transforms a Chinese dependency tree bank to a noun compound training corpus. Subsequently, the paper proposes a self-training-based approach to combine the two corpora and train a model to identify boundaries of named entities. The experiments show the proposed method can take full advantage of the two corpora and improve the performance of named entity boundary identification.
Key words:Open-domain Named Entity Recognition; Self-training; Training Corpus Combination
0引言
命名實(shí)體是文本中承載信息的重要語言單位,命名實(shí)體的識(shí)別和分類在信息抽取、開放域問答、信息檢索以及機(jī)器翻譯等領(lǐng)域都占有非常重要的地位。輸入自然語言文本,命名實(shí)體識(shí)別的任務(wù)在于將其中事物的名稱標(biāo)記出來并給予適當(dāng)?shù)恼Z義類別。傳統(tǒng)命名實(shí)體由于類別有限,并不能滿足自然語言處理領(lǐng)域上層任務(wù)的全部需求,因此本文專注于開放域命名實(shí)體邊界的識(shí)別的研究。
傳統(tǒng)命名實(shí)體識(shí)別的主流方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,使用標(biāo)注好的訓(xùn)練集訓(xùn)練模型,然后用訓(xùn)練好的模型來進(jìn)行命名實(shí)體的識(shí)別,并且大多數(shù)采用序列標(biāo)注的方法,可以一次性將邊界和類別都標(biāo)出。但對(duì)于開放域命名實(shí)體來說,由于涉及的領(lǐng)域非常多,類型多且無法預(yù)知,所以人工標(biāo)注語料是不現(xiàn)實(shí)的。由于英語中專有名詞首字母通常大寫,所以英語中專有名詞的識(shí)別相對(duì)容易,有的研究直接會(huì)將首字母大寫的單詞串作為命名實(shí)體候選[1]。因此,本文轉(zhuǎn)而利用英語的短語結(jié)構(gòu)句法分析,借助少量規(guī)則標(biāo)注專有名詞短語,再通過雙語平行語料將邊界信息映射到漢語端[2],從而實(shí)現(xiàn)命名實(shí)體邊界識(shí)別語料的自動(dòng)標(biāo)注。但由于開放域命名實(shí)體的范圍更大,一些命名實(shí)體在英語中并沒有被標(biāo)為專有名詞,例如“大規(guī)模殺傷性武器(weapon of mass destruction)”、“中國(guó)近代史(the modern history of China)”等。因此,研究中另外基于一個(gè)漢語依存樹庫(kù),利用一些啟發(fā)式的規(guī)則標(biāo)注名詞復(fù)合短語,隨后即使用半指導(dǎo)的自學(xué)習(xí)方法將兩部分語料融合并訓(xùn)練命名實(shí)體邊界識(shí)別模型。
與傳統(tǒng)自學(xué)習(xí)方法不同之處在于,傳統(tǒng)的自學(xué)習(xí)方法是基于一個(gè)已標(biāo)注的集合和一個(gè)未標(biāo)注的集合進(jìn)行的,而本文則是基于兩個(gè)部分標(biāo)注的語料。本文的方法大概分為以下幾個(gè)步驟。首先,使用專有名詞語料訓(xùn)練模型,自動(dòng)識(shí)別名詞復(fù)合短語語料中的專有名詞;然后,將語料中原有的名詞復(fù)合短語和自動(dòng)標(biāo)注的專有名詞及短語融合,得到初始的命名實(shí)體邊界訓(xùn)練語料;接著,即在初始訓(xùn)練語料上訓(xùn)練命名實(shí)體邊界識(shí)別模型,識(shí)別專有名詞短語語料中的命名實(shí)體,選擇高置信度的實(shí)例加入到訓(xùn)練語料中,如此迭代直到模型的性能穩(wěn)定為止。
綜上所述,本文提出了一種基于自學(xué)習(xí)的語料融合及模型訓(xùn)練的方法,用于漢語開放域命名實(shí)體識(shí)別邊界的識(shí)別。實(shí)驗(yàn)證明本文的自學(xué)習(xí)方法是有效的,在測(cè)試集上獲得了最好的F1值。
1自學(xué)習(xí)方法介紹
自學(xué)習(xí)(self teaching),或叫自訓(xùn)練(self training)是常用的半指導(dǎo)機(jī)器學(xué)習(xí)方法。學(xué)術(shù)界對(duì)自學(xué)習(xí)有兩種主要的定義。第一種定義是“單一視角的弱指導(dǎo)算法”,由Ng和Cardie(2003)提出[3]。按照這種定義,可使用bagging方法從訓(xùn)練數(shù)據(jù)中隨機(jī)采樣訓(xùn)練多個(gè)分類器,預(yù)測(cè)時(shí)使用投票的方法決定最終的類別。利用這些分類器預(yù)測(cè)未標(biāo)注數(shù)據(jù),將“全票通過”的數(shù)據(jù)加入到訓(xùn)練集中,重新訓(xùn)練一組分類器,如此迭代,直到分類性能穩(wěn)定。各分類器均采用相同的視角(view,可以理解為特征)訓(xùn)練。第二種定義是“基于分類器自己的標(biāo)注結(jié)果重新訓(xùn)練分類器的方法”,由Clark等人(2003)提出[4]。首先在一個(gè)小規(guī)模的已標(biāo)注數(shù)據(jù)上訓(xùn)練模型,然后使用該模型自動(dòng)處理未標(biāo)注數(shù)據(jù),選擇置信度最高的一部分自動(dòng)處理的數(shù)據(jù)加入到訓(xùn)練集合中。接著重新訓(xùn)練模型,如此迭代,直到模型性能不再發(fā)生改進(jìn)為止。這種方法中,模型利用自己的預(yù)測(cè)結(jié)果指導(dǎo)自己訓(xùn)練,所以叫做“自學(xué)習(xí)”。高置信度的數(shù)據(jù)通常基于一個(gè)閾值來判斷,高于這個(gè)閾值才可選作訓(xùn)練數(shù)據(jù),如此做法的目的即在于避免錯(cuò)誤被加強(qiáng)。本文中,采取了第二種定義。迄今為止,自學(xué)習(xí)方法已經(jīng)成功應(yīng)用于自然語言的多個(gè)處理任務(wù)中,包括傳統(tǒng)命名實(shí)體識(shí)別[5]、詞義消歧[6]、句法分析[7]等。
2基于自學(xué)習(xí)方法的命名實(shí)體邊界識(shí)別
經(jīng)過分析發(fā)現(xiàn),開放域命名實(shí)體大概包括專有名詞和名詞復(fù)合短語兩部分。專有名詞通常指事物特定的名詞,如“姚明”、“中國(guó)”、“伊拉克戰(zhàn)爭(zhēng)”等。而名詞復(fù)合短語則用來表示語義更加寬泛的事物的名稱,如“大規(guī)模殺傷性武器”、“中國(guó)近代史”等, 這些也屬于開放域命名實(shí)體的范疇。 當(dāng)然, 還有一些專有名詞同時(shí)也是名詞復(fù)合短語。因此, 研究通過分別構(gòu)建這兩部分語料,再通過自學(xué)習(xí)方法融合語料并訓(xùn)練命名實(shí)體邊界識(shí)別的模型。
2.1訓(xùn)練語料構(gòu)建
2.1.1基于雙語平行語料的漢語專有名詞識(shí)別語料構(gòu)建
在此,即基于中英雙語平行語料,并通過上節(jié)提出的方法來構(gòu)建漢語命名實(shí)體邊界識(shí)別的語料庫(kù)。在英語上,借用了短語結(jié)構(gòu)句法分析工具來識(shí)別英語的專有名詞短語,由于英語具有大小寫特征,因此對(duì)專有名詞的識(shí)別尤其具有先天的優(yōu)勢(shì)。圖1給出了一個(gè)短語結(jié)構(gòu)句法分析的例子,其中“Ming”和“Yao”都被標(biāo)為了專有名詞(NNP),并且兩者結(jié)合形成了一個(gè)更大的名詞短語(NP),“Houston”和“Rockets”也是類似的情況,只不過在構(gòu)成更大名詞短語的時(shí)候加入了定冠詞the。
本文設(shè)計(jì)了一些規(guī)則來標(biāo)注專有名詞短語,如表1所示,其中的NNP均可替換為NNPS(復(fù)數(shù)形式的專有名詞)。然后,仍使用上一節(jié)提出的方法將英語端的標(biāo)記映射到漢語端,實(shí)現(xiàn)語料的標(biāo)注。
由圖3可知,整個(gè)方法分為初始語料構(gòu)建、初始語料融合和基于自學(xué)習(xí)的模型訓(xùn)練三個(gè)步驟。具體過程論述如下。
(1)初始語料的構(gòu)建:這一步是基于雙語平行語料和漢語句法樹庫(kù)分別構(gòu)建專有名詞短語語料和名詞復(fù)合短語語料,更多細(xì)節(jié)可詳見上一節(jié)。
(2)初始語料融合:利用專有名詞短語語料訓(xùn)練序列標(biāo)注模型,本文采用條件隨機(jī)域模型(CRF),并利用該模型對(duì)名詞復(fù)合短語語料進(jìn)行自動(dòng)標(biāo)注。標(biāo)注后,即選取高質(zhì)量的標(biāo)注結(jié)果和原有的名詞復(fù)合短語語料進(jìn)行融合,得到開放域命名實(shí)體邊界識(shí)別的語料。融合時(shí)如果遇到嵌套情況,則保留較長(zhǎng)的命名實(shí)體;如果遇到重疊的情況,則丟棄當(dāng)前的句子,保證語料的質(zhì)量。
(3)基于自學(xué)習(xí)的模型訓(xùn)練:在獲得了一個(gè)小規(guī)模的命名實(shí)體邊界識(shí)別的語料(稱為初始語料)后,再通過自學(xué)習(xí)的方法逐步將專有名詞語料融合進(jìn)來,形成一個(gè)更大規(guī)模的語料。其中的自學(xué)習(xí)是一個(gè)迭代增強(qiáng)的過程:首先利用初始語料訓(xùn)練命名實(shí)體邊界識(shí)別模型,然后使用該模型標(biāo)注專有名詞短語語料;接著就要選取高置信度的實(shí)例作為初始語料的補(bǔ)充,擴(kuò)充后的語料又可以用來訓(xùn)練新的模型,如此迭代直到模型性能穩(wěn)定為止。
3實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
在語料構(gòu)建方面,本文選取雙語平行語料LDC2003E14和斯坦福的短語結(jié)構(gòu)句法分析工具來生成漢語專有名詞短語訓(xùn)練語料,基于上一節(jié)中的方法,最終獲得145 747句專有名詞短語訓(xùn)練語料。名詞復(fù)合短語的生成則是基于哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工標(biāo)注的6萬句漢語依存關(guān)系樹庫(kù)(HIT-IR Dependency Treebank)[9]。
在模型特征方面,本文則在上述的依存關(guān)系樹庫(kù)上統(tǒng)計(jì)動(dòng)詞依存關(guān)系的分值,并選用約400萬百度百科詞條及其開放類別信息挖掘命名實(shí)體的構(gòu)成模式。
為了評(píng)測(cè),進(jìn)一步從OntoNotes 4.0語料中隨機(jī)選取了8 789句標(biāo)注,共包含19 315個(gè)命名實(shí)體,平均每個(gè)實(shí)體包含2.02個(gè)詞。而且,由其中隨機(jī)篩選1/5作為開發(fā)集,剩下的4/5為測(cè)試集。
3.2自學(xué)習(xí)置信度閾值的選取
自學(xué)習(xí)的一個(gè)主要參數(shù)是每輪迭代增加新的訓(xùn)練語料時(shí)使用的置信度閾值θ。本文以句子為單位進(jìn)行考察,如果命名實(shí)體邊界識(shí)別模型對(duì)整句s序列標(biāo)注的置信度Ps>θ,則將s加入訓(xùn)練語料中,并從專有名詞語料庫(kù)中移除,否則將繼續(xù)留存在專有名詞語料庫(kù)中,等待下一輪迭代時(shí)考察。在實(shí)驗(yàn)中,也嘗試了改變?chǔ)鹊娜≈?,觀察自學(xué)習(xí)方法的學(xué)習(xí)曲線,圖4顯示了三個(gè)例子,即當(dāng)θ的取值分別為0.65、0.92和0.95時(shí)的情況。
由圖4的三個(gè)學(xué)習(xí)曲線中,可以看到當(dāng)θ取值較小時(shí),自學(xué)習(xí)的方法并不能改進(jìn)模型,性能反而有微弱的下降。這是因?yàn)殚撝颠^小,使得新加入的語料中噪聲過多,影響了模型的訓(xùn)練,而且不佳的模型會(huì)導(dǎo)致產(chǎn)生更多的噪聲,形成惡性循環(huán)。而當(dāng)θ取值過大時(shí),自學(xué)習(xí)的收斂速度就會(huì)變慢,如當(dāng)θ=0.95時(shí),就需要40次左右迭代,模型才能收斂;只有當(dāng)θ=0.92時(shí),模型在13次迭代后即可收斂,并且最終的性能差距很小。因此,通過對(duì)訓(xùn)練速度和模型性能的綜合評(píng)定,選取0.92為自學(xué)習(xí)置信度閾值。
其后,又在測(cè)試集上對(duì)本文涉及到的幾個(gè)模型進(jìn)行了對(duì)比,結(jié)果如表2所示。單純使用專有名詞語料(MNNP)或名詞
4結(jié)束語
本文針對(duì)開放域命名實(shí)體邊界識(shí)別問題,提出了基于自學(xué)習(xí)的語料融合和模型訓(xùn)練方法。首先分別基于雙語平行語料和漢語依存樹庫(kù)自動(dòng)標(biāo)注漢語專有名詞語料和名詞復(fù)合短語語料。然后基于自學(xué)習(xí)的方法將這兩部分語料互補(bǔ)融合,形成命名實(shí)體邊界識(shí)別的語料,同時(shí)在此基礎(chǔ)上訓(xùn)練邊界識(shí)別模型。實(shí)驗(yàn)證明了自學(xué)習(xí)方法的有效性,在開放域的測(cè)試語料上,本方法得到了最好的F1值0.661 3。
參考文獻(xiàn):
[1]EVANS R. A framework for named entity recognition in the open domain[J]. Recent Advances in Natural Language Processing III: Selected Papers from RANLP 2003, 2004, 260:267–274.
[2]FU Ruiji, QIN Bing, LIU Ting. Exploiting multiple sources for open-domain hypernym discovery[C]// Proceedings of EMNLP 2013, 2013:1224–1234.
[3]NG V, CARDIE C. Weakly supervised natural language learning without redundant views[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003,1:94–101.
[4]CLARK S, CURRAN J R, OSBORNE M. Bootstrapping POS taggers using unlabelled data[C]// Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,2003,4:49–55.
[5]KOZAREVA Z, BONEV B, MONTOYO A. Self-training and co-training applied to Spanish named entity recognition[M]. MICAI 2005: Advances in Artificial Intelligence. Springer, 2005:770–779.
[6]MIHALCEA R. Co-training and self-training for word sense disambiguation[C]//Proceedings of the Conference on Computational Natural Language Learning (CoNLL-2004), 2004.
[7]McClosky D, Charniak E, Johnson M. Effective self-training for parsing[C]. Proceedings of the main conference on human language technology conference of the North American Chapter of the Association of Computational Linguistics. 2006:152-159.
[8]趙軍, 黃昌寧. 漢語基本名詞短語結(jié)構(gòu)分析模型[J]. 計(jì)算機(jī)學(xué)報(bào), 1999, 22(2):141–146.
[9]LIU Ting, MA Jinshan, LI Sheng. Building a dependency treebank for improving Chinese parser[J]. Journal of Chinese Language and Computing ,2006,16(4): 207-224.