拉瑪扎西,才智杰,班瑪寶
(1. 青海師范大學 計算機學院,青海 西寧 810016;2. 青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008;3. 藏文信息處理教育部重點實驗室,青海 西寧 810008)
藏文是一種典型邏輯格語法體系的拼音文字[1],由實詞和虛詞按一定的語法結(jié)構(gòu)組合而成。實詞具有具體詞匯意義,包括名詞、代詞、動詞、形容詞、數(shù)詞等,可以單獨使用;而虛詞沒有實際意義,包括語法虛詞[2](格助詞和接續(xù)助詞)和關(guān)聯(lián)詞等,不能單獨使用。計算機自動識別虛詞對文本的歧義消解、句法分析、句型及語義處理等具有重要作用,并在藏文分詞[3]和停用詞選取[4]等方面有重要的應(yīng)用價值?,F(xiàn)有文獻中未見詳細面向自然語言處理的藏文虛詞特征及其個數(shù)的分析,并且沒有研究多音節(jié)虛詞的識別。本文在分析傳統(tǒng)藏文虛詞研究成果的基礎(chǔ)上,初步統(tǒng)計了面向自然語言處理的藏文虛詞,并分析了藏文虛詞的特征,從而提出了基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識別策略。
本文組織結(jié)構(gòu)如下: 第1節(jié)分析藏文虛詞識別的研究現(xiàn)狀和主要技術(shù)方法;第2節(jié)歸納并總結(jié)傳統(tǒng)藏文文法和面向自然語言處理的藏文虛詞,確定面向自然語言處理的虛詞數(shù)量及特征;第3節(jié)設(shè)計基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識別方法;第4節(jié)實驗驗證算法的有效性,并對存在的問題進行分析;第5節(jié)是結(jié)論與展望。
分詞既是藏語自然語言處理的一項基礎(chǔ)性研究工作,也是一個存在很多難點的研究范疇。陳玉忠等[2]在分析藏文文本自動切分難點時指出,藏文分詞中較難解決的問題有四類: ①由實詞—實詞、實詞—虛詞、虛詞—實詞、虛詞—虛詞的交集性字段引起的錯誤; ②由實詞—實詞、實詞—虛詞、虛詞—實詞、虛詞—虛詞的組合型歧義字段引起的錯誤; ③由緊縮詞識別引起的錯誤; ④由未登錄詞引起的錯誤。在這四類錯誤中,前三項與虛詞的識別有關(guān)。因此,藏文虛詞(包括緊縮詞)的識別問題引起學者們的關(guān)注。其中,緊縮詞是一種特殊的虛詞,學者們先后研究了緊縮詞的識別問題。才智杰[5]首次提出了緊縮詞的“添加—還原法”識別方法,識別準確率達99.83%,取得了理想效果。完么扎西等[6]在“添加—還原法”的基礎(chǔ)上利用藏文文法規(guī)則識別緊縮詞,其識別準確率達99.95%。李亞超等[7]為解決無法識別未登錄詞后的緊縮詞問題,提出了基于條件隨機場的緊縮詞識別方法,其識別準確率達98.91%,克服了“還原法”中不能識別“未登錄詞+緊縮詞”的問題。華卻才讓等[8]利用藏文緊縮詞識別音節(jié)的方法,識別準確率達到了99.91%??挡女彽萚9]采用基于詞位的統(tǒng)計分析方法識別藏文緊縮詞的準確率為95.89%,解決了未登錄詞對識別效果的影響。拉瑪扎西等[10]通過剖析現(xiàn)有藏文緊縮詞識別方法,分析藏文字詞的特征,有針對性地提出了基于規(guī)則、添加—還原法與最大熵模型相結(jié)合的藏文緊縮格識別方法,其識別準確率達到了99.26%,相比現(xiàn)有準確率,有明顯的提高。同樣,在一般虛詞識別方面,學者們也提出了若干識別方法。趙棟材[11]通過建立虛詞兼類詞典庫,在采用正向最大匹配算法對文本切分后,利用不自由虛詞的接續(xù)規(guī)則識別虛詞(單音節(jié)虛詞)。高定國等[12]提出了基于規(guī)則的藏文虛詞識別方法,其識別準確率達97.08%。拉巴頓珠等[13]通過建立虛詞兼類詞典、單音節(jié)詞典、規(guī)則的不自由虛詞詞典庫等識別藏文虛詞。由以上文獻可見,特殊虛詞緊縮詞的識別問題利用統(tǒng)計與規(guī)則相結(jié)合的方法可以得到解決,但一般虛詞的識別還不能滿足實際需求。一般虛詞的識別主要有兩個不足點: ①識別方法只用了規(guī)則法。由于虛詞的多樣性,僅依靠規(guī)則不能識別出好的效果。正如文獻[12]在實驗分析中指出,在規(guī)則法的基礎(chǔ)上引入統(tǒng)計方法,可以提高藏文虛詞識別率。②沒有具體分析虛詞的特征,只是籠統(tǒng)地將藏文文法中提到的虛詞認定為面向自然語言處理的虛詞對象,其識別對象沒有完全囊括藏文文本中的虛詞。
在藏文虛詞識別研究的文獻中,沒有明確藏文虛詞及其數(shù)量,因而在自然語言處理的各項研究中沒能獲得理想的成果。研究面向藏語自然語言處理的藏文虛詞識別方法,依據(jù)藏文文法理論,并將其具體化,才能取得好的效果。本節(jié)通過分析傳統(tǒng)藏文文法中虛詞的定義及數(shù)量,確定了面向自然語言處理的藏文虛詞,并分析其特點。
藏文文法《三十頌》是一部最早闡述藏文文法的專著,里面有專門闡述藏文虛詞的內(nèi)容?!度灐窂恼Z法功能角度給出了虛詞的定性描述: 虛詞是指按語境添接在實詞的前或中或尾部后,使各零散的實詞具有一定意義的功能詞[14]。《三十頌》中羅列的虛詞都是單音節(jié)虛詞。在后續(xù)的研究中,學者們對《三十頌》做了很多不同的解讀,將虛詞按音節(jié)數(shù)分為單音節(jié)虛詞和多音節(jié)虛詞[15]。文獻[14,16-18]解讀《三十頌》中對虛詞的闡述,羅列了藏文虛詞(下文中把這類虛詞稱為語法虛詞),各文獻收錄的藏文語法虛詞數(shù)量統(tǒng)計見表1。
表1 藏文語法虛詞數(shù)量統(tǒng)計表
表2 藏文補遺虛詞統(tǒng)計表
表2中的補遺虛詞不包含語法虛詞,語法虛詞在藏文真實文本中經(jīng)常出現(xiàn),起到轉(zhuǎn)折、關(guān)聯(lián)等作用。
由于自然語言處理的特殊需求,面向自然語言處理的虛詞不能直接選用傳統(tǒng)藏文文法中規(guī)定的虛詞,需要分析語法虛詞中單音節(jié)虛詞的語法作用以及在文本中的詞性,并對個別在藏文文法中提到的補遺虛詞進行相應(yīng)處理后,才能最終確定虛詞識別任務(wù)的處理對象。
本文在選取和識別面向自然語言處理的虛詞時,遵循以下5條原則。
本文從表1、表2羅列的虛詞中,遵循以上5條原則,確定了面向自然語言處理的552個虛詞,面向自然語言處理的藏文虛詞及其分布如表3所示。
表3 面向自然語言處理的藏文虛詞及分布表
由表3可知,在552個面向自然語言處理的藏文虛詞中,有72個語法虛詞和480個補遺虛詞。72個語法虛詞中兼類虛詞有50個,480個補遺虛詞中兼類虛詞有16個。藏文語法虛詞中兼類虛詞所占比例高達69.44%,對虛詞的識別帶來了困難。語法虛詞中自由虛詞有12個,不自由虛詞有60個,占語法虛詞總數(shù)的83.33%,480個補遺虛詞都為自由虛詞。從虛詞所含音節(jié)角度看,單音節(jié)虛詞有106個,多音節(jié)虛詞有446個,可見藏文虛詞以多音節(jié)為主。
藏文虛詞除了表示語法意義和不能單獨使用的共性特征外,還具有以下5種個性特征。
(1) 黏著特征
(2) 兼類特征
(3) 實詞中包含單音節(jié)虛詞的特征
(4) 多音節(jié)虛詞包含單音節(jié)虛詞的特征
(5) 多音節(jié)虛詞具有嵌套特征。
本文采用逆向最大匹配法和最大熵模型相結(jié)合的混合策略識別藏文虛詞。其識別模型如圖1所示。
圖1 基于混合策略的藏文虛詞識別模型
圖1是根據(jù)藏文虛詞特征提出的基于規(guī)則法和最大熵模型相結(jié)合的混合策略模型。針對虛詞中具有黏著特征的緊縮詞識別已有很多研究,其識別準確率達99.83%以上,本文運用了文獻[5,10]中提出的“添加—還原法”和基于規(guī)則、添加還原法與最大熵模型相結(jié)合的藏文緊縮詞識別方法,具體參見文獻[5,10]。針對藏文虛詞的第(4)類特征,文章采用多音節(jié)虛詞優(yōu)先識別策略,因此,基于混合策略的藏文虛詞識別模型包含多音節(jié)虛詞識別模塊和單音節(jié)虛詞識別模塊。
多音節(jié)虛詞識別模塊在“包含虛詞的實詞庫”中對文本預(yù)處理中逆向提取的8音節(jié)字串進行查找,若找到,則可斷定8音節(jié)字串中無虛詞;否則,在“多音節(jié)虛詞庫”上采用逆向最大匹配法判斷是否為多音節(jié)虛詞。這里只提取8音節(jié)字串的原因是藏文多音節(jié)虛詞中最大音節(jié)數(shù)為8,而且“包含虛詞的實詞庫”中的最大音節(jié)數(shù)也不超過8個。其中,“包含虛詞的實詞庫”含719個詞條,“多音節(jié)虛詞庫”含446個詞條。
單音節(jié)識別模塊首先判斷多音節(jié)模塊未能識別的最后一個單音節(jié)虛詞是否為兼類詞,若該單音節(jié)虛詞不是兼類虛詞,則一定為虛詞;否則,該單音節(jié)有可能是虛詞,也有可能是實詞。然后,對這個單音節(jié)用最大熵模型判別其是否為虛詞。由于單音節(jié)兼類虛詞有33個,因而判別虛詞的兼類性也比較簡單。
Jaynes于1957年首次提出最大熵原理,被廣泛應(yīng)用于自然語言處理領(lǐng)域。其基本原理是,在已知部分信息的前提下,關(guān)于未知分布最合理的推斷應(yīng)該符合已知信息最不確定或最大隨機的推斷[20]。藏文虛詞識別可看作是一個序列標注問題,標注時對每個對象隨機標注一個標簽,并建立已知特征x的條件下輸出標簽y的概率分布模型p(p∈P)。其中,x屬于上下文信息集X(x∈X),y屬于對應(yīng)的標簽集Y(y∈Y)。從訓(xùn)練集中可獲得N個樣本集,即S={(x1,y1),(x2,y2),…,(xn,yn)},根據(jù)這些樣本可以定義一個事件空間,其特征是一個二值函數(shù)f:X×Y→{0,1},其定義如式(1)所示。
則模型p的熵為:
(1)
從式(1)中可得出最大熵模型,如式(2)所示。
(2)
式(2)中的C為符合約束條件的模型集合,然后計算滿足C條件的最大p*,如式(3)所示。
(3)
其中,z(x)是歸一化常數(shù),并有式(4)。
(4)
式(3)、式(4)中的λi為模型參數(shù),即特征fi對應(yīng)的權(quán)重λi,可通過IIS算法來估計。
最大熵模型中,如何針對研究對象選擇有效的上下文特征是一個關(guān)鍵問題。本文根據(jù)藏文詞語音節(jié)的分布特點及上下文激發(fā)環(huán)境確定模型,并抽取特征模板。本文選取的特征模板如表4所示。
表4 特征模板
為了驗證本文提出的藏文虛詞識別方法的有效性,我們從青海師范大學才智杰教授研究小組建立的藏語語料庫中選取了含30 404個音節(jié)的語料作為測試語料,語料領(lǐng)域包括政治、教材、歷史、小說、新聞等五種題材。語料中含9 187個藏文虛詞,利用本文提出的藏文虛詞識別方法正確識別出了9 040個虛詞,共出現(xiàn)187個識別錯誤,實驗數(shù)據(jù)見表5。
表5 虛詞識別實驗數(shù)據(jù)
藏語虛詞識別既是藏語自然語言處理的一項基礎(chǔ)性工作,也是一項具有挑戰(zhàn)性的研究工作,在藏文分詞和停用詞選取等方面有重要的應(yīng)用價值。本文重點探討了面向自然語言處理的藏語虛詞及其語法特征,確定了面向自然語言處理的虛詞及數(shù)量,提出了規(guī)則法和最大熵模型相結(jié)合的藏文虛詞識別混合策略。實驗表明,該方法識別藏文虛詞的準確率、召回率和F1值分別達98.39%、98.75%、98.57%。今后在該研究成果的基礎(chǔ)上,將進一步研究藏文分詞及停用詞選取技術(shù),為藏文詞向量表示奠定基礎(chǔ)。