瑪依拉·艾尼扎提, 胡學(xué)鋼
(1.合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽 合肥 230009;2.新疆輕工業(yè)職業(yè)技術(shù)學(xué)院 計算機系,新疆 烏魯木齊 830021)
新疆維吾爾自治區(qū)是多民族的地區(qū),其中維吾爾族人口有926萬,占總?cè)丝诘?6%。隨著信息化的不斷發(fā)展,積聚了大量的知識,然而這些知識和信息主要以英語和漢語為載體,極大地影響了維吾爾語言使用者的學(xué)習(xí),造成漢維群眾交流困難及一系列的社會和政治問題。另一方面,隨著少數(shù)民族語言信息處理技術(shù)的興起,維吾爾語信息處理技術(shù)經(jīng)過20多年的發(fā)展已取得一定成果,如維文操作系統(tǒng)、維文辦公軟件等。但是,針對自然語言處理中的一些基礎(chǔ)性的課題,如語言分析、詞性標注、對齊、自動獲取等研究相對較少,極大地制約了維文分析的發(fā)展。因而,本文研究維吾爾文的語料庫獲取問題,對機器翻譯、雙語詞典的編纂、自動問答、信息檢索、信息抽取等領(lǐng)域[4]的研究具有重要價值[1-4]。
雙語語料庫是包含2種語言互譯信息的特殊的語料庫,能夠提供2種語言之間的匹配信息,在翻譯知識獲取、雙語詞典建立、基于實例的機器翻譯、詞義消歧等領(lǐng)域有著重要的應(yīng)用價值。大規(guī)模雙語語料庫的建設(shè)是進行基于語料庫研究的基礎(chǔ);而目前互聯(lián)網(wǎng)上存在著豐富的雙語資源,為短期內(nèi)建成大規(guī)模的雙語語料庫提供了可能。
目前,雙語語料庫的研究主要圍繞漢英雙語展開[5-6],其中對齊技術(shù)是普遍采用的一種方法[7-8]。然而,關(guān)于維文和其他少數(shù)民族語言的研究相對較少[9-11]。為此,本文在研究漢語文本分析技術(shù)的基礎(chǔ)上,結(jié)合維吾爾語詞的特點,在進行了分詞、詞性標注的基礎(chǔ)上,通過漢維的文本對齊,提出了一種雙語語料庫的構(gòu)建方法。
本文基于漢維對齊方法,提出一種漢維雙語語料庫的構(gòu)建方法,該方法主要分以下幾個步驟,首先針對維文進行詞干提取、詞性標注,在此基礎(chǔ)上,對漢維文本進行對齊,最后基于對齊方法由已有的漢文語料庫構(gòu)建維文語料庫,其原理如圖1所示。
圖1 對齊語料自動獲取原理
維吾爾語中詞切分包括音節(jié)切分、詞根切分和詞干切分,本文主要采用詞干切分。所謂詞干就是指維吾爾語文本中的表示完整詞匯意義的整體,維文中詞干提取包括2個步驟:從維文中提取出詞,并去除詞中的構(gòu)形附加成分;將去除了構(gòu)形附加成分的部分還原為詞典中的原形詞。
(1)詞干切分方法。由于維吾爾語中有很多構(gòu)詞附加成分構(gòu)成新詞的能力很強,所以有很多詞干加了構(gòu)詞附加成分以后構(gòu)成了其他的詞干。如“書加了構(gòu)詞附加成分以后構(gòu)成了“圖書館”。在切分詞干時,由于有這樣的詞干同時存在,所以在切分時存在多種切分形式,因此本文中采取全切分方法,即列舉所有可能的切分形式。具體方法為:從維吾爾語單詞的右邊起,與詞干表進行匹配,從而找到詞干的候選邊界,如圖2所示。
圖2 詞干切分方法
圖2中,通過邊界將單詞劃分為2部分,右側(cè)setm表示從詞右邊切分出的候選詞干,左側(cè)是切除了詞干后的構(gòu)形附加成分。
(2)詞干還原。維文中,尤其是在書面語中,詞干原形加了構(gòu)形附加成分以后,會發(fā)生輔音增加、元音弱化、元音脫落等情況,導(dǎo)致找不到完全匹配的詞干,為此必須進行詞干還原。
下面詳細解釋各種不同情況的處理辦法:① 輔音增加,詞干表中的詞干+輔音,并且該詞干以元音結(jié)尾時,刪除詞干后的輔音進行詞干還原;② 元音弱化,當(dāng)待切分詞失配的位置為,且詞干中對應(yīng)位置為時,對待切分詞進行音節(jié)切分,當(dāng)所在的音節(jié)為開音節(jié),則將用替換;③ 元音脫落,當(dāng)失配的位置為詞干的第2個元音(該元音為),且該元音以后位置上的字母與待切分詞串從該元音位置開始的字母都相同,則將插入待切分詞中的相應(yīng)位置。
本文中維語詞性標注方法遵循以下幾個規(guī)則:以“.”為標志讀取一個句子;句子劃分后,按空格讀取詞匯;對每個詞進行語料庫中的現(xiàn)成詞的比較,若該詞匯在語料庫中不存在,則認為是生詞,不進行標注,將其作為生詞插入到當(dāng)前語料庫中。
具體詞性標注過程算法描述如下:
上述算法描述中有2個關(guān)鍵函數(shù)firstTagging和Viterbi,下面分別對其進行說明。
(1)first Tagging。表示對詞干進行初始詞性標注,其具體步驟描述為:① 將該詞干在詞干表中進行查詢;②若該詞干在詞干表中的詞性唯一,則該詞干的詞性唯一確定;否則將這些詞性作為候選詞;③ 若詞干為未登錄詞,則查詢詞干表中的附加成分來確定詞干的候選詞性。
(2)Viertbi。該算法是一種基于句子的詞性標注算法,它通過為每個句子選取一個最可能的標記串來完成對整個句子的詞性標注;該算法采用動態(tài)規(guī)劃方法,通過計算詞性狀態(tài)序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個狀態(tài)節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最快獲取詞性序列。
Viterbi算法是詞性標注系統(tǒng)中的重要算法。假定有N個詞性標記,給定詞串中有M個詞??紤]最壞的情況,掃描到每一個詞時從當(dāng)前詞前面一個詞的各個詞性標記(N個)到當(dāng)前詞的各個詞性標記(N個),有N2條路徑,掃描完整個詞串(長度為M),計算次數(shù)為M個N2相加,即對于確定的詞性標注系統(tǒng)而言,N是確定的,因此隨著M長度的增加,計算時間以線性方式增長。也就是說,Viterbi算法的計算復(fù)雜性是線性的,因而算法的時間開銷隨著約束長度的增加而增加。
在本文維吾爾語詞性標注的應(yīng)用中,為了縮短約束長度N,將詞性明確的詞作為含有兼類詞或者未登錄詞的子詞串的邊界,即將一個句子分為若干個邊界詞性確定的子句,分別計算詞性概率最大的標記串。該方法減少了需要搜索的路徑,因而降低了Viterbi算法的時間復(fù)雜度。
雙語語料庫是一種包含2種語言互譯信息的特殊的語料庫,對齊技術(shù)是加工雙語文本的核心。
定義1 對齊就是從互譯的不同語言文本中找出互譯片斷的過程,雙語語料庫對齊可分為段落、句子、短語、單詞等不同級別的加工深度,語料庫的加工深度決定了語料庫所能提供的知識的粒度。
定義2 錨點的作用就是將整個語料庫分成一些小的對齊片斷;同時把每一對相對應(yīng)的句子稱作句珠(Sentence bead)。
通過漢維詞匯對之間的特征比較,已有的研究首先對漢語句子進行分詞,找到可以用于漢維語料庫分段的錨點詞匯對,并在此基礎(chǔ)上通過錨點詞所在句子的匹配獲得錨點句子對來進行分段。但是這種方法僅適合于具有較多高頻固定詞的雙語文本的分段對齊,對于高頻固定詞較少的雙語文本,該方法則會出現(xiàn)由于數(shù)據(jù)稀疏問題導(dǎo)致分段太粗及準確率下降。然而現(xiàn)實中,尤其是網(wǎng)絡(luò)上的文本數(shù)據(jù),90%以上段落并不對應(yīng)或者沒有明顯的段落標記,從而使得自然段的對齊比較困難,并且分段太粗,因此針對這種情況有必要進行重新分段。本文提出將2篇互譯的雙語文本各看成一個整體,對文本中段落進行重新組合后對齊。
例1 睡覺了:/r睡覺/v了/y,
例2 他 去 醫(yī) 院 了:他/r 去/v 醫(yī) 院/n了/y,
由上述例子可以看出,對一個雙語平行文本的段落對齊,就是要找出2種語言文本中段落之間的對應(yīng)關(guān)系,那么對齊后的文本就表現(xiàn)為具有相等段落總數(shù)的互譯組塊序列。其中,r表示代詞,v表示動詞,n表示名詞。針對漢維語言的特點,本文針對對齊過程中句子順序不一致的問題,總結(jié)出漢維對齊的部分規(guī)則,見表1所列。
表1 句子順序不一致性的規(guī)則
基于上述方法,本文使用C#實現(xiàn)了漢維雙語語料庫的自動獲取系統(tǒng),該原型系統(tǒng)流程描述如圖3所示。
圖3 實驗原型系統(tǒng)流程示意圖
文本分析結(jié)果如圖4所示,維文語料庫的獲取如圖5所示。
圖4 漢維對齊的文本分析結(jié)果
圖5 漢維對齊語料測試
本文主要探索了利用對齊技術(shù)構(gòu)建漢維雙語語料庫的方法,首先對漢維文本分別進行分詞和詞性標注,在此基礎(chǔ)上通過實際文本對照分析,建立漢維2個語料之間的規(guī)則,利用這些規(guī)則建立2個語言的對齊語料。此外,基于上述方法實現(xiàn)了漢維雙語語料庫的自動獲取系統(tǒng)。
[1]Dolan W B,Pinkham J,Richardson S D.NSR-MT:the Microsoft research machine translation system [C]//American Massage Therapy Association,2002:237-239.
[2]Wu D,Xia X.Large scale automatic extraction of an English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.
[3]韓曉東,王曉博,劉 超.中文文檔與源代碼間關(guān)聯(lián)關(guān)系提取方法的研究[J].合肥工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2010,33(2):188-192,207.
[4]Fattah M A,Ren F,Shingo K.Adaptive threshold parameters for bilingual dictionary extraction from the Internet archive[J].International Journal Information,2005,8(1):165-175.
[5]王占軍,姚衛(wèi)東.一種漢英雙語句子自動對齊算法[J].計算機仿真,2009,26(2):329-333.
[6]錢麗萍,趙鐵軍,楊沫昀,等.基于譯文的英漢雙語句子自動
對齊[J].小型微型計算機系統(tǒng),2001,22(1):123-125.[7]劉 昕,周 明,朱勝火,等.基于自動抽取詞匯信息的雙語句子對齊[J].計算機學(xué)報,1998,21(Z1):151-161.
[8]李維剛,劉 挺,張 宇,等.基于長度和位置信息的雙語句子對 齊 方 法 [J].哈 爾 濱 工 業(yè) 大 學(xué) 學(xué) 報,2006,38(5):689-694.
[9]熱西旦·塔依,吐爾根·依布拉音.漢文-維吾爾文雙語語料庫中基于詞典譯文的句子對齊方法研究[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2009,26(3):359-363.
[10]田生偉,吐爾根·依布拉音,禹 龍,等.多策略漢維句子對齊[J].計算機科學(xué),2010,37(4):215-219.
[11]熱西旦·塔依,吐爾根·依布拉音.漢文-維吾爾文雙語語料庫中段落對齊技術(shù)研究[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2010,27(1):102-105.