姜文斌, 吳金星,烏日力嘎,那順烏日圖,劉 群
(1. 中國科學(xué)院 計(jì)算技術(shù)研究所,中國科學(xué)院 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021)
形態(tài)分析對于黏著語來說,是大多數(shù)自然語言處理任務(wù)的基礎(chǔ)。漢語的詞形較為簡單,當(dāng)前的詞法分析已經(jīng)做到實(shí)際可用的水平[1-4],而對于形態(tài)復(fù)雜的民族語言如蒙古語和維吾爾語,形態(tài)分析的準(zhǔn)確率仍有較大的提升空間[5-11]。這一方面是因?yàn)檫@些語言的研究起步較晚,另一方面更是因?yàn)轲ぶZ本身構(gòu)詞規(guī)律的復(fù)雜性。
與漢語的字符順次拼接的構(gòu)詞方式相比,蒙古語和維吾爾語等形態(tài)豐富的語言構(gòu)詞規(guī)律更加復(fù)雜。這類語言的詞語通常由詞干和若干起修飾作用詞綴組成樹狀結(jié)構(gòu),形態(tài)分析任務(wù)需要解析出詞語的詞干和詞綴構(gòu)成。我們之前提出了一種針對蒙古語構(gòu)詞特性的形態(tài)分析模型。該模型將蒙古語語句的詞法分析結(jié)果描述為有向圖結(jié)構(gòu),圖中節(jié)點(diǎn)表示分析結(jié)果中的詞干、詞綴及其相應(yīng)標(biāo)注,而邊則表示節(jié)點(diǎn)之間的轉(zhuǎn)移或生成關(guān)系。為這些轉(zhuǎn)移或生成關(guān)系賦以合適的概率形式,則形態(tài)分析的過程就是尋找其所有概率乘積最大的有向圖。該模型取得了較高的性能,但它存在致命的缺點(diǎn)。模型依據(jù)從人工語料庫中抽取出的詞干表和詞綴表,通過遞歸搜索為每個詞枚舉所有可能的切分標(biāo)注候選。顯然,該方式無法處理含有未登錄詞干的詞語。
我們?yōu)槊晒耪Z形態(tài)分析的有向圖模型提出了一種新穎的詞干詞綴切分策略。該方法以判別式分類的思路,將詞語的詞干詞綴切分建模為詞中字母的標(biāo)注問題。這可以和基于字符分類原理的判別式漢語分詞進(jìn)行類比,詞中字母串對應(yīng)到漢語分詞的句中字串,詞干詞綴的切分對應(yīng)到漢語詞語的切分。對每個字母進(jìn)行分類所依據(jù)的特征,是取自鄰近窗口內(nèi)的字母子序列。這使得詞干詞綴切分模塊具有了泛化能力,能夠處理詞中含有未登錄詞干的問題。
我們在內(nèi)蒙古大學(xué)開發(fā)的20萬詞規(guī)模的三級標(biāo)注人工語料庫(內(nèi)蒙古大學(xué)拉丁語料)上進(jìn)行實(shí)驗(yàn)。我們隨機(jī)分割出5%和5%的句子分別作為開發(fā)集和測試集,剩余的90%的句子全部作為訓(xùn)練集。在整個測試集上,采用判別式詞干詞綴切分的最終模型取得了95.2%的詞級切分標(biāo)注正確率,與采用基于詞干表和詞綴表的簡單枚舉方法的情形持平。而對于測試集中含有未登錄詞干的詞,詞級切分標(biāo)注正確率比采用簡單枚舉的情形提高了7個百分點(diǎn)。
在本文的剩余章節(jié),我們首先介紹之前提出的生成式有向圖形態(tài)分析模型,然后描述基于判別式分類的詞干詞綴切分方法,在展示該系統(tǒng)實(shí)驗(yàn)結(jié)果并進(jìn)行相應(yīng)的分析說明后,我們對本文工作給出總結(jié)。
同詞語形態(tài)簡單的漢語或者英語相比,詞語形態(tài)豐富的蒙古語的詞法分析更像是一個對樹結(jié)構(gòu)進(jìn)行選擇并對樹中節(jié)點(diǎn)進(jìn)行標(biāo)注的過程,而不是一個簡單的線性序列標(biāo)注問題。這里,我們先從較為簡單的任務(wù)說起,即單純切分的有向圖模型。
有向圖模型把語句中各詞的分析結(jié)果定義為鏈狀結(jié)構(gòu):
這里,S(stem)表示詞干,A(adjoin)表示連寫詞綴,D(disjoint)表示分寫詞綴。我們用虛線連接的兩個A(或D)表示0或多個連寫詞綴(或分寫詞綴)。在詞干到詞綴之間以及詞綴到后續(xù)詞綴之間,箭頭表示生成或者轉(zhuǎn)移關(guān)系。對于整個語句,分析結(jié)果則可描述為樹狀結(jié)構(gòu):
與單個詞的分析結(jié)果結(jié)構(gòu)相比,整句分析結(jié)構(gòu)中增加了相鄰詞的詞干之間的生成或轉(zhuǎn)移關(guān)系,從而在所有詞干和詞綴之間形成一個拓?fù)溆行虻臉浣Y(jié)構(gòu)。樹中節(jié)點(diǎn)即表示詞干或者詞綴,而節(jié)點(diǎn)之間的邊則表示詞干到詞干、詞干到詞綴以及詞綴到詞綴的生成或轉(zhuǎn)移關(guān)系。
有向圖模型為樹中的各種不同的邊設(shè)計(jì)相應(yīng)的權(quán)重,這些權(quán)重的度量反映了節(jié)點(diǎn)之間生成或轉(zhuǎn)移規(guī)律的強(qiáng)弱。這樣,求解整句詞法切分結(jié)果的過程,即為在所有可能的候選樹中尋找權(quán)重之和最高的樹的過程。有向圖模型用類似于隱馬模型使用中的轉(zhuǎn)移概率來描述樹中邊的權(quán)重。根據(jù)邊指向?qū)ο蟮牟煌腥缦聝煞N轉(zhuǎn)移概率:
a)P(S|Sngram) 詞干到詞干的轉(zhuǎn)移概率,類似于ngram語言模型。
b)P(X|S/Xngram) 其他詞綴的生成概率,X代表詞綴,即A或者D。S/Xngram指當(dāng)前詞綴之前的詞干或詞綴組成的ngram歷史。
給定一個候選樹T,有向圖模型用這些概率的乘積表示該候選的整體生成概率:
為簡潔起見,公式中隱藏了兩個條件概率的歷史條件。容易看出,這可以理解為傳統(tǒng)的N-gram語法模型向樹結(jié)構(gòu)的拓展。
對聯(lián)合切分和標(biāo)注進(jìn)行建模的關(guān)鍵,在于如何讓標(biāo)注信息有效地參與描述句中各詞的形態(tài)結(jié)構(gòu)生成過程。對應(yīng)于單純切分的模型結(jié)構(gòu),有向圖模型為標(biāo)注信息設(shè)計(jì)了一個同步樹狀結(jié)構(gòu)以描述詞干和詞綴標(biāo)注之間的生成和轉(zhuǎn)換關(guān)系。所謂同步是指樹的結(jié)構(gòu)和單純切分模型的樹結(jié)構(gòu)完全一致,只不過樹中對應(yīng)節(jié)點(diǎn),對后者而言是詞干或詞綴,對前者而言是相應(yīng)的標(biāo)注。另外,有向圖模型設(shè)計(jì)兩項(xiàng)概率描述兩個平行的樹結(jié)構(gòu)中節(jié)點(diǎn)之間的映射關(guān)系:
a)P(X|t(X))X代表詞干或詞綴,t(X)代表其標(biāo)注。此概率類似于隱馬模型中狀態(tài)到觀察的生成概率。
b)P(t(X) |X) 此項(xiàng)概率代表詞干或詞綴X被賦予標(biāo)注t(X) 的概率。此項(xiàng)概率參與建模使得模型傾向于為選擇常見的標(biāo)注。
這兩項(xiàng)條件概率在平行樹結(jié)構(gòu)的節(jié)點(diǎn)之間可表示為不同方向的有邊,從而建立起平行樹結(jié)構(gòu)之間的映射關(guān)系,構(gòu)建描述能力更強(qiáng)的有向圖模型:
求解切分和標(biāo)注結(jié)果的過程,即為在候選有向圖中尋找概率最大的有向圖。有向圖G的概率定義為:
P(G)=P(T)×P(t(T))×P(T,t(T))
其中,P(t(T))表示標(biāo)注樹t(T)的概率,它和P(T)的定義一樣,只需把詞干和詞綴換成相應(yīng)的標(biāo)注。P(T,t(T))表示平行樹結(jié)構(gòu)T和t(T)的映射概率,它定義為平行樹中所有節(jié)點(diǎn)對的條件概率的乘積:
理論上,P(G)的三項(xiàng)乘子概率對于候選有向圖的優(yōu)選可能具有不同的決策力,故為它們賦以合適的相對加權(quán)有望提升模型性能。但在本工作中暫不考慮乘子加權(quán)問題,這相當(dāng)于所有加權(quán)均為1。
出現(xiàn)在單純切分模型和聯(lián)合切分與標(biāo)注模型的各項(xiàng)概率,均可以用極大似然估計(jì)的方式從人工標(biāo)注的詞法分析語料庫中統(tǒng)計(jì)得來。其中對于詞干到詞干轉(zhuǎn)移概率、詞綴到詞綴轉(zhuǎn)移概率、詞干到詞綴生成概率、相應(yīng)的標(biāo)注之間的三種轉(zhuǎn)移或生成概率,可以借助成熟的工具包如SRI語言模型工具來實(shí)現(xiàn)[15]。
解碼過程首先枚舉各詞的可能分析結(jié)果候選,并緊接著進(jìn)行動態(tài)規(guī)劃搜索確定各詞的最優(yōu)候選。需要注意的是,蒙古語詞的某些字符在特定情境下會發(fā)生變形。基于對訓(xùn)練語料的觀察和分析,我們對之前工作所用的變形規(guī)則進(jìn)行了更改和擴(kuò)充:
a) 詞干詞綴劃分過程中,字母串AYI、EYI、OYI、VYI、OYI和UYI中間的字符Y在特定情形下會丟掉。
b) 詞干詞綴劃分過程中,字母串GA、HA、YA、RA、MA、YE、RE和OS在特定情形下,需在中間添加下劃線。
實(shí)際解碼過程中我們采用簡單枚舉的方案,在每一處可以應(yīng)用變形規(guī)則的地方,我們分別嘗試應(yīng)用和不應(yīng)用兩種選擇,從而為待分析詞枚舉出所有可能的變形狀態(tài)。每個變形狀態(tài)都將用于候選分析結(jié)果的生成,這些候選分析結(jié)果由接下來的動態(tài)規(guī)劃解碼過程進(jìn)行排歧。動態(tài)規(guī)劃的解碼就是自左到右的viterbi搜索,考慮到文章篇幅的限制,這里不再詳述。
接下來我們介紹基于判別式分類的詞干詞綴切分策略。詞干詞綴切分用于詞法分析器解碼過程的第一階段,即詞語的候選分析結(jié)果枚舉。
對于給定的待分析蒙古文詞或者其變形形態(tài):
W=C1C2…Cn
其中Ci(1<=i<=n)是W中的第i個字母,n為字母序列的長度。詞干詞綴切分即為字母序列的劃分問題:
C1C2…Cn→C1:e1Ce1+1:e2…Cem-1+1:em
其中,em=n,字母序列C1:n劃分為m個子序列。第一個子序列C1:e1是詞干,剩余的字母序列是連寫詞綴或分寫詞綴。
這是典型的序列劃分問題,可以用序列標(biāo)注的方式進(jìn)行建模。我們將其與基于判別式字符分類的漢語分詞進(jìn)行類比,將每個蒙古文字母Ci分類為如下四種類別之一:
b: 詞干或詞綴的開始字母
m: 詞干或詞綴的中間字母
e: 詞干或詞綴的結(jié)束字母
s: 單字母作為詞干或詞綴
當(dāng)對整個蒙古文詞字母序列完成標(biāo)注之后,標(biāo)注為bm*e或者s的字母子序列即為詞干或者詞綴,相應(yīng)地我們得到一個候選的詞干詞綴切分結(jié)果。對字符分類所采用的特征,是以該字符為中心的特定長度窗口中的字符元組。我們所用的特征模板列在下面表格中。其中,C0表示當(dāng)前考察的字母,C_i/Ci表示C0左邊/右邊的第i個字母。借助這些特征模板,我們從訓(xùn)練語料中抽取字母分類實(shí)例,然后用張樂開發(fā)的最大熵工具包*http://homepages.inf.ed.ac.uk/s0450736/maxent-toolkit.html.訓(xùn)練字符分類器。
表1 字符分類采用的特征模板
考慮到詞干詞綴切分的歧義性,我們?yōu)榇治稣Z句中的每個詞及其變形形態(tài)都生成N個最佳的切分方案。通過為N選擇合適的值,可以在保證分析速度的同時取得較高的分析精度。N最佳切分方案可以采用類似于立方體剪枝[16]的策略高效地求得。借助詞干和詞綴的詞性列表,我們可以為每一個詞干詞綴切分候選枚舉出所有可能的詞性標(biāo)注方案,從而得到待切分蒙古文詞可能的候選分析結(jié)果集。
我們在內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院開發(fā)的20萬詞規(guī)模詞法分析語料庫上進(jìn)行實(shí)驗(yàn)。該語料庫共包括14 115個完整的句子,我們從中隨機(jī)抽取出各5%的語句分別用做開發(fā)集和測試集,各含705句,剩余90%的語句用作訓(xùn)練集,含12 705句。模型各項(xiàng)概率均從訓(xùn)練集中以極大似然估計(jì)法統(tǒng)計(jì)得來。其中,詞干到詞干轉(zhuǎn)移概率、詞綴到詞綴轉(zhuǎn)移概率、詞干到詞綴生成概率、相應(yīng)的標(biāo)注之間的三種轉(zhuǎn)移或生成概率,我們直接借助成熟的語言模型工具包SRILM,以WB平滑方式訓(xùn)練三元模型。我們沿用之前工作所用的評測指標(biāo),包括:
a) 詞級正確率Pw。
以詞為單位計(jì)量,僅當(dāng)詞內(nèi)詞干、詞綴及其標(biāo)注均正確時,該詞才是分析正確的。
b) 詞干詞綴級正確率Psa,召回率Rsa和Fsa值。
以詞干和詞綴為單位計(jì)量,僅當(dāng)詞干或詞綴及相應(yīng)標(biāo)注正確時,該詞干或詞綴才是分析正確的。因此,詞干和詞綴可類比為漢語詞法分析中的詞。此評價標(biāo)準(zhǔn)引自文獻(xiàn)[7]。
c) 相應(yīng)的不考慮標(biāo)注信息的評測指標(biāo):Pw-t,Psa-t,Rsa-t和Fsa-t。
表2 變形規(guī)則改進(jìn)和判別式詞干詞綴切分帶來的整體性能提升/%
對比表2的第1、2行,變形規(guī)則的改進(jìn)帶來了大幅度的整體性能提升*之前工作中我們不對分寫詞綴和連寫詞綴進(jìn)行區(qū)分。本文的形態(tài)分析器則區(qū)分兩種詞綴,但仍沿用之前的評測標(biāo)準(zhǔn)。。這說明,通過增加有用的變形規(guī)則模板和改變變形規(guī)則的應(yīng)用模式,我們更有可能為待分析蒙古文詞找到其正確的變形形態(tài),雖然這將產(chǎn)生更多的變形形態(tài)候選并進(jìn)而導(dǎo)致更大的候選分析結(jié)果集,但后續(xù)的排歧過程仍能有效地找出最佳候選分析結(jié)果。然而,在改進(jìn)變形規(guī)則的基礎(chǔ)上進(jìn)一步采用判別式的詞干詞綴切分,分析精度的提升并不明顯,如表2的2、3行所示。
表3 判別式詞干詞綴切分對于詞干未登錄情形的性能提升/%
我們認(rèn)為,采用判別式詞干詞綴切分策略,其優(yōu)勢更加體現(xiàn)在詞中含有未登錄詞干的情形。當(dāng)待分析詞的詞干和詞綴都在訓(xùn)練語料中出現(xiàn)時,基于詞干表和詞綴表的簡單枚舉方法就能找到正確的分析結(jié)果候選。對于蒙古語來說,詞綴的數(shù)目是有限的,訓(xùn)練語料的數(shù)據(jù)可以輕易地覆蓋全部詞綴。詞干的情況則復(fù)雜得多,新生詞和外來詞隨著社會發(fā)展會不斷涌現(xiàn)。當(dāng)待分析詞的詞干在訓(xùn)練語料中不存在時,簡單枚舉方式無法找到正確的分析結(jié)果候選。而判別式的詞干詞綴切分策略則可能具有良好的泛化能力,如同漢語分詞中的情形。表3的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了我們的假設(shè)。對于含有未登錄詞干的詞,判別式的詞干詞綴切分策略帶來了大幅度的性能提升。
本文為蒙古語形態(tài)分析的有向圖模型提出了一種新穎的詞干詞綴切分策略。該方法以判別式分類的思路,將詞語的詞干詞綴切分建模為詞中字母的標(biāo)注問題。與基于詞干表和詞綴表的簡單枚舉方式相比,基于判別式分類的詞干詞綴切分策略具有良好的泛化能力,能夠有效處理詞中含有未登錄詞干的問題。我們在內(nèi)蒙古大學(xué)開發(fā)的20萬詞規(guī)模的三級標(biāo)注人工語料庫(內(nèi)蒙古大學(xué)拉丁語料)上進(jìn)行實(shí)驗(yàn)。對于測試集中含有未登錄詞干的詞,判別式詞干詞綴切分策略使得詞級切分標(biāo)注正確率提高了7個百分點(diǎn)。
[1] Hwee Tou Ng and Jin Kiat Low. Chinese part-of-speech tagging: One-at-a-time or all-at-once? Wordbased or character-based?[C]//Proceedings of EMNLP, 2004:277-284.
[2] Wenbin Jiang, Liang Huang, Yajuan Lv, and Qun Liu. A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 46th ACL, 2008:897-904.
[3] Huaping Zhang, Qun Liu, Xueqi Cheng, Hao Zhang and Hongkui Yu. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model[C]//Preceedings of Second SIGHAN workshop affiliated with 41th ACL, 2003:63-70.
[4] 米海濤, 熊德意, 劉群. 中文詞法分析與句法分析融合策略研究[J]. 中文信息學(xué)報(bào),2008:22(2):10-17.
[5] 那順烏日圖, 雪艷, 葉嘉明. 現(xiàn)代蒙古語語料庫加工技術(shù)的新進(jìn)展—新一代蒙古語詞語自動切分與標(biāo)注系統(tǒng)[C]//第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會,2005.
[6] 那順烏日圖, 淑琴. 面向信息處理的蒙古語規(guī)范化探究[J]. 中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版), 2007.
[7] 侯宏旭, 劉群, 那順烏日圖, 等. 基于統(tǒng)計(jì)語言模型的蒙古文詞切分[J]. 模式識別與人工智能,2009,22:108-112.
[8] 趙偉,侯宏旭,從偉,宋美娜. 基于條件隨機(jī)場的蒙古語詞切分研究[J]. 中文信息學(xué)報(bào), 2010,24(5):31-35.
[9] 叢偉. 基于層疊隱馬爾科夫模型的蒙古語詞切分系統(tǒng)的研究[D]. 內(nèi)蒙古大學(xué)碩士畢業(yè)論文,2009.
[10] 艷紅, 王斯日古楞. 基于HMM的蒙古文自動詞性標(biāo)注研究[J]. 內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2010.
[11] 古麗拉·阿東別克,米吉提·阿布力米提. 維吾爾語詞切分方法初探[J]. 中文信息學(xué)報(bào),2004,18(6):61-65.
[12] Lawrence. R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proceedings of IEEE, 1989:257-286.
[13] John Lafferty and AndrewMcCallum and Fernando Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML, 2001:282-289.
[14] McCallum, A., Freitag, D. and Pereira, F. Maximum entropy Markov models for information extraction and segmentation[C]//Proc. ICML, 2000:591-598.
[15] Stolcke and Andreas. Srilm - an extensible language modeling toolkit[C]//Proceedings of the International Conference on Spoken Language Processing, 2002:311-318.
[16] Huang Liang and David Chiang. 2005. Better k-best parsing [C]//Proceedings of the IWPT, 2005: 53-64.