華卻才讓,劉 群,趙海興
(1.陜西師范大學(xué)計(jì)算機(jī)學(xué)院,陜西西安710062;2.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海西寧810008;3.中國科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190)
藏語詞性標(biāo)注(Part-of-Speech Tagging,POS Tagging)作為藏語自然語言處理中一個(gè)基礎(chǔ)研究工作,目標(biāo)是給藏語文本中每個(gè)詞語指派一個(gè)正確的分類標(biāo)記。其成果可應(yīng)用于句法分析、語義分析、形態(tài)分析以及機(jī)器翻譯,對藏文信息處理技術(shù)的發(fā)展具有重要意義。目前藏語詞性標(biāo)注還處在研究階段,還沒有可實(shí)用的詞性標(biāo)注工具。本項(xiàng)目組研發(fā)了基于感知機(jī)訓(xùn)練模型的判別式藏語自動(dòng)分詞系統(tǒng),在領(lǐng)域較廣泛的500句藏語語料上的測試準(zhǔn)確率為96.8%[1],已在2011年藏漢機(jī)器翻譯評(píng)測中得到了應(yīng)用。本文以青海師范大學(xué)制訂的“信息處理用藏語詞類標(biāo)記規(guī)范”為詞性標(biāo)記集[2],首先回顧藏語詞性標(biāo)注的相關(guān)研究工作,重點(diǎn)分析本文提出的基于感知機(jī)詞語標(biāo)注訓(xùn)練模型、符合藏語詞法特性的特征選擇和解碼標(biāo)注方法,經(jīng)實(shí)驗(yàn)證明,在573句人工標(biāo)注的語料上進(jìn)行了相關(guān)實(shí)驗(yàn),取得了較好的效果。
近年來藏語詞性標(biāo)注方面開展的研究工作大致包括三個(gè)方面:(1)詞性規(guī)范。(2)詞性詞典和標(biāo)注語料庫建設(shè)。(3)標(biāo)注系統(tǒng)的開發(fā)。才讓加等2005年提出并制訂了《信息處理用藏語詞類標(biāo)記規(guī)范》(討論稿),該規(guī)范規(guī)定了信息處理中藏語詞類17個(gè)大類,21個(gè)一級(jí)類和60多個(gè)二級(jí)詞類,給出了相應(yīng)的詞性標(biāo)注代碼[2]。扎西加等結(jié)合《語門文法概要》、《詞論》和《新編藏語文法》等書籍中藏文詞語分類,探討了藏語自然語言處理中的詞類劃分,詞語劃分為26個(gè)基本類和9個(gè)特殊類[3]。2009年,才智杰、才讓加等構(gòu)建了9萬多條藏語詞性標(biāo)注詞典,并結(jié)合詞性詞典開發(fā)了基于規(guī)則的班智達(dá)藏語詞性標(biāo)注系統(tǒng)[4],在封閉語料上測試,取得了較好的效果。2010年,扎西加等標(biāo)注了近4萬多條規(guī)模的藏語詞典[3]。2011年,史曉東等用HMM方法將漢語分詞系統(tǒng)移植到藏語分詞,實(shí)驗(yàn)對分詞取得了93%的精確率、83.174%的詞性標(biāo)注精確率[5]。另外青海師范大學(xué)、西藏大學(xué)和西北民族大學(xué)等在詞性標(biāo)注語料庫的建設(shè)方面做了大量工作,相繼構(gòu)建了較大規(guī)模的標(biāo)注語料庫。藏語詞性標(biāo)注的研究相對分詞較少,而且相對于98%的漢語詞性標(biāo)注精確率[6]和藏語96%的分詞精確率,藏語詞性標(biāo)注的精確率還比較低,目前還存在比較大的提升空間。
藏語詞語分類同樣存在許多棘手的問題,其中主要的困難可歸納為:(1)藏文文法中對實(shí)詞、格助詞、不自由虛詞、自由虛詞和動(dòng)詞等給出了較詳細(xì)的定義和語法范疇。格助詞和虛詞有具體形式標(biāo)志、接續(xù)規(guī)則和用法,而動(dòng)詞具有現(xiàn)在時(shí)、過去式、將來時(shí)和命令式等屈折形態(tài)結(jié)構(gòu)變化,但是書面藏語中能發(fā)生屈折變化的動(dòng)詞僅占整個(gè)單音節(jié)動(dòng)詞60%左右[7],因此藏語詞語類別無法完全從形態(tài)變化上判別。(2)藏語中詞語兼類現(xiàn)象比較嚴(yán)重,尤其是常用詞具有不同的用法。例如,圖1所示的一個(gè)句子中出現(xiàn)了5個(gè)兼類詞。根據(jù)我們對現(xiàn)有人工標(biāo)注的1.1萬句語料(包括13.3萬個(gè)詞)的統(tǒng)計(jì),發(fā)現(xiàn)兼類詞占到2.7%(包括1 043個(gè)兼類詞),但是兼類詞的詞次占到了24.2%(包括32 077個(gè)詞次的兼類詞)。兼類類別包括兩類、三類和四類等兼類,其中兩類兼類包括動(dòng)詞和名詞、數(shù)詞和名詞、數(shù)詞和疑問詞、屬格和后綴、名詞和終結(jié)詞、代詞和接續(xù)詞、于格和名詞、從格和名詞、人名和一般名詞、地名和一般名詞、方位詞和名詞、語素和名詞等兼類;另外還存在未登錄詞(特殊的兼類詞)。在我們的方法中,未對該類詞依據(jù)上下文特征統(tǒng)計(jì)分值判別為唯一的詞性之前,認(rèn)為該詞為所有可能的詞性的兼類詞,因而藏語文本中詞類歧義排除的任務(wù)量比較大,成為了詞性標(biāo)注的首要任務(wù)。(3)詞性標(biāo)注規(guī)范,到目前藏語還沒有一個(gè)統(tǒng)一的被廣泛認(rèn)可的藏語詞類劃分標(biāo)準(zhǔn),詞類劃分的粒度和標(biāo)記符號(hào)不統(tǒng)一。例如,青海師范大學(xué)的藏語分類標(biāo)記集中共有66個(gè)代碼,西藏大學(xué)藏語詞類標(biāo)記集共有26個(gè)基本類和9個(gè)特殊類。因此對標(biāo)注語料的共享和信息處理帶來了一定的困難。
圖1 詞性標(biāo)注實(shí)例
基于感知機(jī)文本序列標(biāo)注方法是一種在線的學(xué)習(xí)方法,在句法分析[7]中取得了比較好的效果,具有易定義特征、訓(xùn)練速度快和分類效果好等特性。此方法同樣在Unicode編碼藏語分詞中得到了驗(yàn)證[1]。設(shè)輸入句子xi∈X,輸出標(biāo)注序列yi∈Y,X表示訓(xùn)練語料中的所有句子,Y表示對應(yīng)的詞性標(biāo)注結(jié)果。本文采用青海師范大學(xué)制訂的詞性標(biāo)注規(guī)范,其中藏文詞語詞性代碼包括66個(gè)。那么最佳詞性標(biāo)注序列為
其中Φ(xi,yi)表示輸入句子和產(chǎn)生標(biāo)注序列的特征向量,→w表示訓(xùn)練后得到的特征權(quán)重。
感知機(jī)在線訓(xùn)練方法的特點(diǎn)是易定義特征,而特征模板的定義和選擇恰恰是判別式分類方法的關(guān)鍵。本文考察了影響藏語句法和詞法結(jié)構(gòu)的多種因素,歸納為(1)藏語的主賓謂語序中,動(dòng)居句尾、物主詞居前、位置詞居后、形居名后[8];(2)藏語動(dòng)詞形態(tài)分“三時(shí)一式”、使動(dòng)與非使動(dòng)、自主與不自主;(3)主格、屬格、于格和從格等主要格詞類具有固定的接續(xù)特征,且與形態(tài)動(dòng)詞相關(guān)[9]。接續(xù)規(guī)則與前一個(gè)詞的最后一個(gè)音節(jié)的后置字相關(guān),譬如,(冰箱內(nèi)外的溫度)”中屬格的接續(xù)要參照詞的后置字考慮到藏語詞法特征,本系統(tǒng)確定了訓(xùn)練和解碼特征模板,見表1。藏語詞性標(biāo)注訓(xùn)練特征模板內(nèi)容分五類:(1)一元特征:單個(gè)詞的特征信息;(2)二元特征:由兩個(gè)詞的共同特征信息構(gòu)成;(3)三元特征:由當(dāng)前詞和其前后兩個(gè)詞的特征信息構(gòu)成;(4)五元特征:由特征窗口范圍內(nèi)所有詞的特征信息構(gòu)成;(5)詞接續(xù)特征:由藏語格助詞接續(xù)規(guī)律及動(dòng)名詞結(jié)構(gòu)相關(guān)的特征等信息構(gòu)成,其中后者由表示行為或動(dòng)作的名詞(nv)相關(guān)的特征信息構(gòu)成。
表1 藏語詞性標(biāo)注訓(xùn)練特征模板
選擇了感知機(jī)訓(xùn)練用特征模板后,關(guān)鍵的核心任務(wù)是在人工標(biāo)注訓(xùn)練語料上進(jìn)行特征權(quán)重的訓(xùn)練,以構(gòu)建感知機(jī)模型,本文為防止過擬合現(xiàn)象采取了平均特征權(quán)重。詞性標(biāo)注平均感知機(jī)權(quán)重訓(xùn)練如算法1所示:GEN(x)產(chǎn)生輸入句子xi的候選標(biāo)注結(jié)果,Φ(xi,yi)表示輸入句子和產(chǎn)生標(biāo)注序列的特征向量,選擇×Φ(xi,yi)得分最高的標(biāo)注序列。ti表示正確(訓(xùn)練實(shí)例)的標(biāo)注序列。用正確標(biāo)注序列的特征向量和產(chǎn)生的最好標(biāo)注序列的特征向量之差更新權(quán)重,累加后取平均為→w。輔助權(quán)重向量v用于累加每次迭代后權(quán)重。
算法1 詞性標(biāo)注平均感知機(jī)權(quán)重訓(xùn)練算法
詞性標(biāo)注過程實(shí)際為利用已經(jīng)訓(xùn)練好的感知機(jī)模型,句子中按詞序列分別對每個(gè)詞可能的詞性獲取其上下文特征分?jǐn)?shù),計(jì)算其特征權(quán)重,累加句子中每個(gè)詞性標(biāo)注序列上所有權(quán)重,權(quán)重最高的為最佳標(biāo)注序列。從訓(xùn)練語料和詞性詞典統(tǒng)計(jì)得每個(gè)詞可能的詞性有66個(gè),計(jì)算量比較大,因此用詞性詞典確定每個(gè)詞可能的詞性,然后用Viterbi算法得出每個(gè)詞可能的權(quán)重。藏語詞性標(biāo)注系統(tǒng)TiPosTag的總體框架見圖2。
圖2 藏語詞性標(biāo)注總體框架
圖3 實(shí)例“聽那人的建議不會(huì)錯(cuò)?!钡脑~性標(biāo)注示意圖
用動(dòng)態(tài)規(guī)劃對句子中詞序列標(biāo)注時(shí),每個(gè)詞至少存在一個(gè)候選詞性,最壞情況有66個(gè)候選詞性,是未登錄詞的情況。圖3所示,在實(shí)例“聽那人的建議不會(huì)錯(cuò)。”中,多個(gè)詞有兩個(gè)準(zhǔn)詞性,也就是說這些詞是名副其實(shí)的兼類詞。其中最粗的有向箭頭路徑表示算法獲得的最佳路徑,此路徑的累加權(quán)重最大,而所有實(shí)線都是可能存在的路徑。由于特征集的最大窗口為4,當(dāng)前準(zhǔn)詞性之前的第2個(gè)準(zhǔn)詞性到第1個(gè)詞性之間,依據(jù)前者的入口可能存在多條路徑,此時(shí)我們選擇權(quán)重最大的那條路徑。圖中第2個(gè)詞“”和第3個(gè)詞“”之間具有屬格黏著格特征,使第2個(gè)詞排除了與接續(xù)詞兼類可能性。這樣到第3個(gè)詞的gz標(biāo)記可能存在dfrz和nnrz兩個(gè)前驅(qū)路徑,都是從rz發(fā)出,因此路徑dfrz被剪枝,只選擇分值最大的路徑。
我們利用基于規(guī)則的班智達(dá)詞性標(biāo)注系統(tǒng)生成詞性標(biāo)注語料,經(jīng)人工修改后確定2.2萬多句詞性標(biāo)注句子為感知機(jī)模型訓(xùn)練語料。為滿足詞語標(biāo)注要求,詞性詞典是從訓(xùn)練語料、班智達(dá)詞性詞典轉(zhuǎn)為UTF8編碼后的9.3萬多條詞語、1.9千條地名詞語、1.6萬條人名詞典以及計(jì)算機(jī)等專用詞典中抽取,總共抽取到12.36萬余條藏語詞條。系統(tǒng)在人工建立的573句藏語詞性標(biāo)注測試集上,分別做了完全分好詞的句子的標(biāo)注測試和分詞標(biāo)注一體化測試,見藏文詞性標(biāo)注系統(tǒng)TiPosTag的性能表2。
由表2我們可以發(fā)現(xiàn),系統(tǒng)對已經(jīng)分好詞的語料的分類標(biāo)注明顯好于分詞標(biāo)注一體化。此外,針對系統(tǒng)對測試語料中兼類詞、未登錄詞、人名、地名以及藏語格助詞接續(xù)等的分類標(biāo)注結(jié)果,進(jìn)行了人工分析。兼類詞標(biāo)注精確率為98.53%,主要錯(cuò)誤集中在一般名詞和人名的兼類;未登錄詞多數(shù)為名詞,其標(biāo)注正確率為98.23%;地名、團(tuán)體和機(jī)關(guān)等的標(biāo)注正確率為97.37%;數(shù)字和數(shù)詞的標(biāo)注正確率為100%;藏語格助詞屬格、主格、于格、接續(xù)格、修飾格、終結(jié)詞以及兼類格助詞等標(biāo)注正確。
表2 藏文詞性標(biāo)注系統(tǒng)TiPosTag的性能
在分析了現(xiàn)有的藏語文本詞類標(biāo)注方法基礎(chǔ)上,本文提出了基于判別式模型的藏語文本詞類標(biāo)注方法,結(jié)合藏語詞語接續(xù)和詞法特征,選擇了模型訓(xùn)練特征模板,系統(tǒng)用感知機(jī)擬合訓(xùn)練特征權(quán)重,構(gòu)建了模型庫。從訓(xùn)練語料和專用詞典中抽取了12.36萬條規(guī)模的詞性詞典,最終在573句測試集上進(jìn)行了系統(tǒng)評(píng)測,在已經(jīng)分好詞的測試集上標(biāo)注精確率達(dá)98.26%,分詞標(biāo)注一體化模式標(biāo)注精確率達(dá)94.49%,基本達(dá)到了實(shí)用水平。
下一步我們計(jì)劃把基于統(tǒng)計(jì)的藏語命名實(shí)體如人名、地名和機(jī)構(gòu)名等功能模塊集成到本系統(tǒng)中,以提高詞性標(biāo)注準(zhǔn)確性。同時(shí)嘗試將本系統(tǒng)應(yīng)用于藏語依存句法和藏漢機(jī)器翻譯等研究工作中。
[1] 孫萌,劉群等.基于判別式分類和重排序技術(shù)的藏文分詞[C]//第十二屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集,2011.
[2] 才讓加.藏語語料庫詞語分類體系及標(biāo)記集研究[J].中文信息學(xué)報(bào),2009,23(4):146-148.
[3] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學(xué)報(bào),2009.24(3):113-123.
[4] 才智杰,才讓卓瑪.班智達(dá)藏文標(biāo)注詞典設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(5):46-49.
[5] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4):54-56.
[6] 劉遙峰,王志良,王傳經(jīng).中文分詞和詞性標(biāo)注模型[J].計(jì)算機(jī)工程,2010,36(4):16-19.
[7] Collins,Michael.Discriminative training methods for hidden markov models:Theory and experiments with perceptron algorithms[C]//Proceedings of the Empirical Methods in Natural Language processing Conference,Philadelphia,America,2002:1-8.
[8] 扎塘·降白益西堅(jiān)參.新編藏文文法[M].拉薩:西藏人民出版社,1997.
[9] 格桑居冕.實(shí)用藏文文法[M].成都:四川民族出版社.1987.
[10] 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社2008.