基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注的研究

2010-06-05 09:02:36姜尚仆陳群秀

中文信息學(xué)報(bào) 2010年1期

姜尚仆，陳群秀

(1. 清華大學(xué) 信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室，北京 100084； 2. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，北京 100084)

1 引言

規(guī)則和統(tǒng)計(jì)相結(jié)合的研究方法是當(dāng)前計(jì)算語言學(xué)界主流的研究方法，是今后發(fā)展的方向。本文對(duì)基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注進(jìn)行了研究，提出了一個(gè)準(zhǔn)確率較高的基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注算法。

日語分詞和詞性標(biāo)注是以日語為源語言的機(jī)器翻譯系統(tǒng)的第一個(gè)模塊，是其重要組成部分。日語分詞和詞性標(biāo)注還被廣泛應(yīng)用于日語的各種自然語言處理的任務(wù)中。因此，日語分詞和詞性標(biāo)注算法的研究有著重要的意義。和中文類似，日語的詞語之間沒有明顯的分隔符，日語詞法分析也包括了分詞和詞性標(biāo)注兩個(gè)部分。

對(duì)于序列標(biāo)注，近年來提出了很多算法，包括HMM[1]、ME[2-3]、CRFs[4]和感知器[5]等。中文分詞和詞性標(biāo)注通常被看成一類序列標(biāo)注問題，而采用字標(biāo)注的方法，例如對(duì)每個(gè)字標(biāo)注B/I[6]或者B/M/E/S[7]來實(shí)現(xiàn)詞語切分。然而，在日語分詞中，這種方法并不能取得很好的效果[8]，這一是由于日語詞語相對(duì)較長，而字標(biāo)注的窗口較小，不能獲取足夠的上下文特征，二是由于日語中大量存在的假名作為一種拼音文字，沒有實(shí)際的語義。而通常來說，基于詞典的日語分詞算法，即使是最大匹配，也能獲得80%以上的正確率。詞典能提供詞性、鄰接關(guān)系、詞形變換規(guī)則等很多先驗(yàn)知識(shí)，這些都是字符特征無法獲得的。對(duì)于未登錄詞(OOV)，也可以通過抽取詞語中的字符特征來進(jìn)行識(shí)別[9]。因此，一些基于詞特征的分詞算法成為了日語分詞的主流算法。文獻(xiàn)[10]使用基于詞的2階HMM，并對(duì)某些容易產(chǎn)生歧義的詞語添加了3階特征，以達(dá)到效率和效果的平衡。文獻(xiàn)[11]使用了字和詞的混合HMM，分別處理未登錄詞和登錄詞的情況。文獻(xiàn)[8]則使用了基于CRFs的方法，和常用的CRFs不同的是，它使用了基于詞的特征。

另一方面，傳統(tǒng)的分詞和詞性標(biāo)注方法將兩個(gè)步驟串行執(zhí)行，帶來了誤差累積的問題。近年來，很多研究都在嘗試將兩者合二為一[13-15]。實(shí)驗(yàn)證明，聯(lián)合的方法無論是分詞正確性還是詞性標(biāo)注正確性都有了一定提高。

本文提出了一種基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注方法。類似于文獻(xiàn)[12，14]中文分詞和詞性標(biāo)注的方法，本文使用基于感知器的統(tǒng)計(jì)模型，并采用了聯(lián)合分詞和詞性標(biāo)注。不同的是，在此基礎(chǔ)上增加了鄰接屬性這種基于規(guī)則的特征。我們使用的特征模板和文獻(xiàn)[8]中類似，但由于感知器和CRFs相比模板選擇更為靈活，因此除了鄰接屬性的特征外，還添加了詞性的Trigram特征。實(shí)驗(yàn)結(jié)果表明：該方法和開源詞法分析系統(tǒng)MeCab在分詞和詞性標(biāo)注的準(zhǔn)確性上相當(dāng)。

2 基于規(guī)則的日語分詞和詞性標(biāo)注研究

基于規(guī)則的分詞算法是早期日語分詞的常用算法。這種方法的優(yōu)點(diǎn)是事先總結(jié)歸納好的規(guī)則可以覆蓋絕大部分的語言事實(shí)，準(zhǔn)確性高并且計(jì)算比較簡單，速度快。本節(jié)首先介紹日語的詞語特征，在此基礎(chǔ)上介紹了基于規(guī)則的使用鄰接表的分詞算法。

2.1 日語詞語特征

和中文類似，日語的詞語間沒有分隔符，然而，日語又具有一些有別于中文的特點(diǎn)，了解這些特點(diǎn)，對(duì)于進(jìn)行較好的日語詞法分析有著重要的意義。日語主要具有如下一些詞法特征：

1) 日語依靠助詞或者助動(dòng)詞的黏著來表示每個(gè)詞語在句中的成分，因此助詞和助動(dòng)詞的正確識(shí)別對(duì)詞法分析的正確性非常重要。

日語中助詞(Particle)和助動(dòng)詞(Auxiliary Verb)可以統(tǒng)稱為附屬詞，從語法功能上和中文的助詞比較接近。日語中有三種字符類型：平假名(Hiragana)、片假名(Katakana)和漢字。漢字常用于實(shí)詞，而且數(shù)量眾多，比較不容易產(chǎn)生切分和詞性標(biāo)注的歧義。片假名一般用于外來詞匯，出現(xiàn)較少且分界明顯。而平假名一共只有50多個(gè)字符，卻廣泛存在于各種詞性中，尤其是在附屬詞中數(shù)量繁多且詞語長度較短，詞語邊界的劃分更加困難。因此，在日語的詞法分析中，附屬詞通常會(huì)詞匯化(Lexicalized)，即詞語本身作為和詞性類似特征來使用[8，10]。

2) 日語的動(dòng)詞、形容詞、形容動(dòng)詞和助動(dòng)詞有活用形。

對(duì)于屬于這些詞性的詞，其原始形態(tài)被稱為基本形。而根據(jù)這些詞在句子中的不同成分和作用，又有連體形、連用形、未然形、終止形、假定形、命令形、推量形等不同的活用形。

詞語的活用會(huì)影響到鄰接關(guān)系。例如，連體形后面通常會(huì)連接體言。這種活用形的匹配關(guān)系可以用來確定一些分詞或者詞性標(biāo)注的結(jié)果，因此，將這種匹配關(guān)系引入分詞算法是可能會(huì)有幫助的。其中一種引入的方法就是鄰接屬性和鄰接表。

2.2 鄰接屬性和鄰接表

詞性標(biāo)注算法通常使用N-gram模型來表示連續(xù)n個(gè)詞語詞性之間的相關(guān)性。然而，僅僅使用詞性的N-gram模型表示能力有限，往往不能描述復(fù)雜的語法性質(zhì)。ME和CRFs成功的解決了這個(gè)問題，通過引入各種復(fù)雜的、可重疊的特征模板，實(shí)現(xiàn)了性能的提高。例如，在中文詞性標(biāo)注中，字符的特征被廣泛應(yīng)用[6-7]。

同樣，在日語詞法分析中，僅僅依靠詞性的N-gram模型是不夠的。對(duì)于兩個(gè)相鄰的詞語，一些細(xì)化的詞類別，例如動(dòng)詞、形容詞、形容動(dòng)詞和助動(dòng)詞的活用形類型，人名、地名等命名實(shí)體等都可以作為鄰接關(guān)系的特征來使用。

基于鄰接表的分詞算法就是這樣一種對(duì)相鄰詞語可能的搭配進(jìn)行分析的算法。鄰接表是事先根據(jù)語言學(xué)規(guī)律歸納總結(jié)出來的一套用來表示日語相鄰詞語之間可能的鄰接組合的規(guī)則。我們對(duì)每個(gè)詞語都指定了一個(gè)左鄰接屬性和一個(gè)右鄰接屬性。任意兩個(gè)相鄰的詞語，后一個(gè)的左鄰接屬性和前一個(gè)的右鄰接屬性的組合決定了這兩個(gè)詞語之間的匹配程度。我們用人工總結(jié)歸納出102種左鄰接屬性和99種右鄰接屬性，并定義任意的一對(duì)組合能否匹配，這種匹配關(guān)系就是鄰接表。例如，在詞典中有這樣的詞條：

五 8 6分 11 66

它表示“五”(五)的右鄰接屬性和左鄰接屬性分別為8(代表“JRN8 數(shù)詞”)和6(代表“JLN6 數(shù)詞”)，“分”(分鐘)的右鄰接屬性和左鄰接屬性分別為11(代表“JRNB 単位”)和66(代表“JSF9 後助數(shù)詞”)。如果“五”的右鄰接屬性8和“分”的左鄰接屬性66的組合在鄰接表中存在，則“五分”就成為一個(gè)可能的詞語搭配。

除了人工指定相鄰兩個(gè)鄰接屬性對(duì)能否匹配的方法，這種匹配規(guī)則也可以使用概率模型來表示，并利用分詞語料庫進(jìn)行參數(shù)估計(jì)。由于鄰接屬性通過人工分析了各種可能會(huì)影響相鄰詞語搭配的特征，因此能實(shí)現(xiàn)較好的分詞和詞性標(biāo)注結(jié)果，同時(shí)又不會(huì)造成過擬合。

2.3 詞典構(gòu)成

我們使用的詞典由名詞詞典、形容詞詞典等18部分類詞典組成的大規(guī)模的詞典，共有詞條72.7萬。每個(gè)詞條除了詞語本身以外，還記錄了詞語的詞性、左鄰接屬性和右鄰接屬性。對(duì)于動(dòng)詞、形容詞、形容動(dòng)詞和助動(dòng)詞這些有活用形的詞語，我們根據(jù)一個(gè)動(dòng)詞基本形詞典，通過活用形變化規(guī)則，生成其所有活用形的詞條。例如下面的動(dòng)詞詞條：

あたら 56 9 あたる

表示“あたら”所對(duì)應(yīng)的基本型為“あたる”，其右鄰接屬性和左鄰接屬性分別為56(表示“JEM5 未然a-nal”)和9(表示“JLV1 動(dòng)詞”)。

3 在基于統(tǒng)計(jì)的框架下加入基于規(guī)則的特征

由于基于規(guī)則的方法靈活性較差并且對(duì)語言事實(shí)的覆蓋面不夠全面等固有缺陷，結(jié)合基于統(tǒng)計(jì)的方法往往能為性能帶來較大提升。本文使用了基于統(tǒng)計(jì)的感知器算法[5]作為整個(gè)算法的框架，在其中融合基于規(guī)則的特征。感知器算法是CRFs的一種替代算法，并且具有和CRFs類似的性能。這種方法被廣泛應(yīng)用于詞性標(biāo)注[5]和中文分詞[12，14-15]中。

3.1 特征模板

本文選取的特征模板如表1所示。在基本模板中，對(duì)未登錄詞使用了基于字符的特征，對(duì)助詞、助動(dòng)詞和標(biāo)點(diǎn)等詞語進(jìn)行了詞匯化(見2.1節(jié))，并使用了詞性的Trigram特征。此外，還加入了鄰接屬性(見2.2節(jié))的特征，由于鄰接屬性和詞性基本上是多對(duì)一的關(guān)系，因此沒有使用鄰接屬性和詞性結(jié)合的特征。

表1 本文算法使用的特征模板①

3.2 參數(shù)訓(xùn)練

輸入：訓(xùn)練集(X,Y)

算法：

Fort=1…T,i=1…N

3.3 解碼算法

由于感知器算法的訓(xùn)練參數(shù)過程只依賴于解碼，它處理特征模板的能力強(qiáng)大而靈活。對(duì)于復(fù)雜的特征模板，通?？梢允褂眉阉?Beam Search)算法[12]進(jìn)行解碼。文獻(xiàn)[14]提出了多重集束搜索(Multi-beam Search)算法對(duì)使用單一感知器進(jìn)行聯(lián)合分詞和詞性標(biāo)注的解碼方法進(jìn)行改進(jìn)，解決使用集束搜索由于搜索空間過大導(dǎo)致的準(zhǔn)確性下降的問題。集束搜索和多重集束搜索用啟發(fā)式的方法對(duì)搜索空間進(jìn)行壓縮，通常能得到較優(yōu)解，而且速度較快。

由于本文使用的特征狀態(tài)空間比較簡單，使用Viterbi算法不但可以求得最優(yōu)解，而且速度也不慢。因此，本文使用Viterbi算法來進(jìn)行解碼，狀態(tài)轉(zhuǎn)移方程為：

其中，score(p′,p,r,lex)是當(dāng)前狀態(tài)的得分，w是當(dāng)前詞語，p″,p′,p是最后三個(gè)詞語的詞性。當(dāng)w需要詞匯化時(shí)，lex=w；否則lex=NULL。Uni,bi和tri分別表示當(dāng)前位置Unigram, Bigram和Trigram特征的得分。

4 實(shí)驗(yàn)和結(jié)果分析

4.1 訓(xùn)練數(shù)據(jù)

實(shí)驗(yàn)使用的訓(xùn)練語料是北京外國語大學(xué)的日漢雙語語料庫，里面的文章來自日語小說原著和翻譯。我們從中選取了7MB的日語原文，對(duì)它進(jìn)行了預(yù)處理，劃分出段落46 730段，句子114 228句，然后分別使用一個(gè)基于字詞混合HMM的分詞系統(tǒng)(使用了文獻(xiàn)[11]中的方法)和開源日語分詞系統(tǒng)MeCab對(duì)這些句子進(jìn)行詞法分析，其中有10 475句切分結(jié)果完全一致。在切分不同的句子中，取出部分針對(duì)句子不一致的部分進(jìn)行修正，共整理出11 000句句子作為訓(xùn)練語料。由于資源有限，暫時(shí)沒有對(duì)這部分訓(xùn)練語料進(jìn)行人工校對(duì)。

4.2 測試集

日語分詞目前還沒有公開的評(píng)測，因此我們自己構(gòu)建了一個(gè)小規(guī)模的測試集。測試語料來源于網(wǎng)頁，共有9 154句日語句子。使用的對(duì)比系統(tǒng)是基于字詞混合HMM的分詞系統(tǒng)和開源日語分詞系統(tǒng)MeCab。其中第一個(gè)系統(tǒng)使用了文獻(xiàn)[11]中的框架，利用詞典來識(shí)別登錄詞，利用字特征來識(shí)別未登錄詞，并加入了基于統(tǒng)計(jì)的鄰接屬性規(guī)則(見2.2節(jié))。MeCab使用的是文獻(xiàn)[8]中基于詞的CRFs的算法。由于MeCab使用的詞性分類標(biāo)準(zhǔn)和我們標(biāo)注的標(biāo)準(zhǔn)差異較大，因此MeCab在這個(gè)數(shù)據(jù)集上詞性標(biāo)注的準(zhǔn)確率無法得到。為了比較，實(shí)驗(yàn)結(jié)果中添加了文獻(xiàn)[8]中列出的MeCab在Kyoto Corpus上的實(shí)驗(yàn)結(jié)果作為參考。對(duì)于本文提出的方法，分別測試了使用基本特征模板(見表1)和基本模板加鄰接屬性兩種情況，實(shí)驗(yàn)結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

4.3 結(jié)果分析

實(shí)驗(yàn)結(jié)果表明，在只使用基本模板的情況下，本文的方法比其他方法略差。而加上鄰接屬性模板后系統(tǒng)的性能超過了基于字詞混合HMM的方法，和MeCab的性能基本相當(dāng)。一方面，由于感知器算法采用了判別訓(xùn)練，在訓(xùn)練集較小的情況下比HMM的生成模型具有更好的效果；另一方面，相對(duì)于基本模板，由于加入了鄰接屬性的特征，相鄰詞語的搭配將更加符合語法規(guī)則。下面給出一個(gè)正確分詞和詞性標(biāo)注的例子：

①本文使用的詞性:名詞N,量詞U,助詞X,動(dòng)詞V,形容詞AJ,形容動(dòng)詞AV,助動(dòng)詞XV,接助詞XC,連體詞L,連續(xù)詞C,副詞D,代詞P,數(shù)詞M,感嘆詞I,標(biāo)點(diǎn)T,格助詞XN,副助詞XD,系助詞S,終助詞XE,接頭詞H。

分詞和詞性標(biāo)注錯(cuò)誤的情況大多數(shù)是由于未登錄詞導(dǎo)致的，可見系統(tǒng)在處理未登錄詞方面的能力還較弱。這一方面是由于實(shí)驗(yàn)中使用的詞典還不完善，其中存在一些錯(cuò)誤和遺漏；另一方面也是由于使用的未登錄詞的特征模板相對(duì)簡單。此外，分詞正確但詞性標(biāo)注錯(cuò)誤的情況也較多。實(shí)驗(yàn)中使用的訓(xùn)練語料是抽取了兩個(gè)已有系統(tǒng)分詞相同的部分，由于兩個(gè)系統(tǒng)的詞性標(biāo)注標(biāo)準(zhǔn)不一致，詞性標(biāo)注選取了前一個(gè)系統(tǒng)的結(jié)果，且沒有經(jīng)過人工校對(duì)，這些問題可能會(huì)對(duì)參數(shù)估計(jì)產(chǎn)生不良影響。日語中存在一些形容連用和副詞等常見的多詞性的情況也常常產(chǎn)生錯(cuò)誤。下面是一個(gè)錯(cuò)誤的例子：

原文: この庭はよく叡山を借景としたものです。(譯文: 這個(gè)是借睿山為遠(yuǎn)景而造的庭院。)結(jié)果: この L 庭 N は XS よく AJ 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T 人工: この L 庭 N は XS よく D 叡山 N を XN 借景 N と XN し V た XV もの N です XV 。 T

よく在這里有兩種詞性，并且語法上都是合理的，結(jié)果選擇了錯(cuò)誤的那個(gè)詞性。要避免這種錯(cuò)誤一方面需要提高訓(xùn)練語料的規(guī)模和質(zhì)量，一方面可能需要引入其他的特征或使用其他的模型。

5 結(jié)論和展望

本文提出了一種基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注方法，并且使用基于單一感知器的聯(lián)合分詞和詞性標(biāo)注算法進(jìn)行訓(xùn)練和解碼。由于鄰接屬性特征的引入，算法的正確性得到了較大提高，超過了基于字詞混合HMM的系統(tǒng)，和開源日語詞法分析系統(tǒng)MeCab的性能基本相當(dāng)。鄰接屬性作為一種人工確定的標(biāo)準(zhǔn)，具有很高的區(qū)分能力，我們僅僅使用了一些簡單的特征模板，就得到了較好的結(jié)果，而且訓(xùn)練和解碼過程也很簡單。分詞和詞性標(biāo)注聯(lián)合的算法和串行算法相比，也能有效減少誤差傳遞。

當(dāng)然，更多的特征可能會(huì)對(duì)結(jié)果有進(jìn)一步的提高，例如更高階的N-gram特征，或者更多的字符特征。我們只在未登錄詞中使用了字符特征，實(shí)際上，字符特征可能對(duì)已登錄詞的識(shí)別也有幫助。此外多重集束搜索算法的提出也保證了加入更多特征后的解碼過程仍然可解。

[1] Lawrence. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recogonition[C]//Proceedings of IEEE, 1989.

[2] Patnaparkhi and Adwait. A maximum entropy part-of-speech tagger[C]//Proceedings of the EMNLP, 1996.

[3] A. McCallum, D. Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation[C]//Proceedings of ICML, 2000.

[4] J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of ICML, 2001.

[5] Michael Collins. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]//Proceedings of EMNLP, 2002.

[6] F. Peng, F. Feng, and A. McCallum. Chinese segmentation and new word detection using conditional random fields[C]//Proceedings of COLING, 2004.

[7] N. Xue and L. Shen. Chinese word segmentation as LMR tagging[C]//Proceedings of ACL SIGHAN Workshop, 2003.

[8] T. Kudo, K. Yamamoto, and Y. Matsumoto. Applying conditional random fields to Japanese morphological analysis[C]//Proceedings of EMNLP, 2004.

[9] K. Uchimoto, C. Nobata, A. Yamada, S. Sekine, H. Isahara. Morphological analysis of the spontaneous speech corpus[C]//Proceedings of COLING, 2002.

[10] M. Asahara. Corpus-based Japanese morphological analysis[D]. Japan: NAIST, 2003.

[11] T. Nakagawa. Chinese and Japanese word segmentation using word-level and character-level information[C]//Proceedings of COLING, 2004.

[12] Y. Zhang and S. Clark. Chinese segmentation with a word-based perceptron algorithm[C]//Proceedings of ACL, 2007.

[13] H. Ng and J. Low. Chinese part-of-speech tagging: one-at-a-time or all-at-once? Word-based or character-based?[C] //Proceedings of EMNLP, 2004.

[14] Y. Zhang and S. Clark. Joint word segmentation and POS tagging using a single perceptron[C]//Proceedings of ACL, 2008.

[15] W. Jiang, L. Huang, Q. Liu, Y. Lu. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of ACL, 2008.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡