于 新,吳 健,洪錦玲
(1.中國科學院 軟件研究所,北京 100190;2. 中國科學院 研究生院,北京 100190)
雙語語料庫是從事統(tǒng)計機器翻譯等自然語言處理研究必不可少的基礎資源。構(gòu)建雙語語料庫的關鍵技術之一是對齊,即在雙語文本中找到互為翻譯的源文和譯文片段,對齊的單位包括篇章、段落、句子、短語、詞語等,不同的自然語言應用要求做到不同單位的對齊。對于雙語而言,構(gòu)建句子級別的對齊語料庫是構(gòu)建平行雙語語料庫的基本任務。
目前,藏文信息處理的重心正逐步從文字處理向文本處理轉(zhuǎn)移,漢藏機器翻譯/輔助翻譯研發(fā)都需要大規(guī)模漢藏雙語平行語料庫作為基礎。但是構(gòu)建大規(guī)模(百萬句對)漢藏平行語料庫,僅靠手工對齊是不現(xiàn)實的,因此對漢藏語言句子自動對齊的研究是有意義且必要的。
英法、英德、漢英等語言的雙語句子對齊算法已經(jīng)較為成熟。句子對齊算法有很多,主要分三大類: 基于長度的算法[1-2]、基于詞匯的算法[3-9]和綜合使用句子長度與詞匯的算法[10-12]?;陂L度的句子對齊方法只適用于在沒有或只有很少噪聲的文本上使用,基于長度方法給出的動態(tài)規(guī)劃框架是解決句子對齊問題的優(yōu)秀選擇,也被之后的眾多研究者采用?;谠~匯的方法,魯棒性好,模型選得普遍較復雜,獲得詞匯對應的過程時間耗費嚴重,并且抽取互譯詞對需要大量的已加工好的句子對齊的語料作為訓練語料,這對于剛起步的藏文信息處理是不現(xiàn)實的。Haruno和Yamazaki[8]的方法,適用于語法結(jié)構(gòu)相差很大的語言,在算法中只考慮實詞之間的匹配,這符合漢藏語言語法結(jié)構(gòu)相差大的實際情況,但這需要對詞語進行標注,目前還沒有對藏文詞語的詞性進行整理,沒有標注工具來進行這項工作。Ma Xiaoyi[9]的方法利用了詞典,取得了很好的對齊效果,這個方法就漢藏語言目前的現(xiàn)狀來說是可以借鑒的較好選擇。至于其他方法,在有充足語料和資源的情況下,可以進一步嘗試,進一步考察這些算法被用于漢藏句子對齊的有效性。
從雙語句子對齊問題的本身特點來看,起決定作用的還是譯文的對應關系,所得句珠是否準確首先取決于其中詞匯的對譯程度如何?;谠~典的句子對齊充分利用了句對中詞匯的互譯信息。詞匯的對應信息可以通過已有資源來獲得,例如詞典,也可在文本中通過一定的方法獲得,例如通過翻譯模型獲得。通過詞典的方式來獲得詞匯信息簡單直接,但詞典信息資源可能不夠豐富。通過翻譯模型等方法從原文中獲得詞匯互譯的信息,這種方法操作起來較為復雜,時間復雜度較高,需要大量訓練語料。
目前,還沒有對漢藏句子自動對齊的研究。漢藏句子對齊有其特殊性?;谠~典的方法用于漢藏對齊,要解決的第一個問題是藏文分句問題。這個問題在研究的過程中已得到解決,本文主要論述對齊的算法及實現(xiàn)過程,藏文分句問題暫不予討論。漢藏句子對齊與其他語言的另一不同之處在于漢語和藏文兩種語言都需要分詞,藏文的一個音節(jié)不是一個有獨立含義的語義單元,不能被看作詞語,藏文詞與詞之間沒有明確的分隔標記,因此藏文和漢語、日語等東方語言相似,同樣存在著分詞問題。而由于采用不同的分詞方法,導致漢語和藏文分詞粒度不同,影響了漢藏句子對齊正確率。
下面來具體介紹基于詞典的漢藏句子對齊方法及上述問題的解決方法。
該算法在動態(tài)規(guī)劃的框架下,尋找最優(yōu)對齊路徑。最優(yōu)的含義是指這條路徑上所有句對的總得分最高,每一句對的得分是按照評分函數(shù)計算的。評分函數(shù)綜合考慮了源譯文的詞語互譯個數(shù),句子長度以及句對對齊模式(0-1,1-0,1-1,1-2,2-1,2-2,1-3,3-1)的概率。其中,源譯文的互譯詞語按照出現(xiàn)的頻度給了不同的權(quán)重,一個詞對在句子中出現(xiàn)次數(shù)越多,權(quán)重越大;而這個詞對在整個文本中出現(xiàn)的頻率越大,權(quán)重越小。
任給一組句子(Si,Ti)定義為
C= {c1,c2,...,cn-1,cn},B= {b1,b2,...,bn-1,bn}
其中ci和bi是分詞后的詞語。假定有k對互為翻譯的詞對,分別為(c1′,b1′), (c2′,b2′)…(ck′,bk′), 則(Si,Tj)的相似度定義為:
其中,stf(cm,bm)是(cm,bm)這對互為翻譯的詞語在句對中出現(xiàn)的次數(shù),由查詞典得到的,每查到一個詞,值就增加1;
idtf(cm)為cm在Si中出現(xiàn)的總次數(shù)與cm在其所在文本中出現(xiàn)的總次數(shù)的比值。idtf(cm)起調(diào)節(jié)權(quán)重的作用,一個詞語在篇章中出現(xiàn)頻率越高,所占權(quán)重越小。
|Si|和|Tj|分別是源語言Si和目標語言Tj中的句子數(shù);
LSi和LTj分別是Si和Tj中的句子長度;
為了克服算法將更多句子組合在一起的傾向,引入懲罰因子matching_penalty(|Si|, |Tj|),是對不同對齊模式的懲罰,前面已經(jīng)提到過,1:1模式的句珠占90%的比例,其他模式根據(jù)所占比例給予適當?shù)膽土P,當|Si| = 1 且|Tj| = 1時為1,其他情況為區(qū)間[0,1]內(nèi)的值;
length_penalty則是由長度決定的懲罰因子。
S(i,j)代表從文本開始到第i個源語言句子和第j個目標語言句子的最優(yōu)路徑的得分,Sim(i,j)代表第i個源語言句子與第j個目標語言句子的相似度得分,由評分函數(shù)得到。考慮了1-0,0-1,1-1,1-2,2-1,2-2,1-3, 3-1共8種對齊模式。
下面給出算法核心部分的偽碼和流程圖:
MatchSentences(ChineseSentences, TibetanSentences)
{
score <- MatchSentencesWithLexicion(ChineseSentenceWordFrequency, TibetanSentenceWordFrequency)
if(max(ChineseSentencesLength*TibetanToChineseRatio, TibetanSentencesLength ) > 60)
{
computer lengthPenalty
score = score * lengthPenalty
return score
}
}
圖1 MatchSentencesWithLexicion流程圖
由于漢語文本和藏文文本都需要進行分詞,這就產(chǎn)生了一個新的問題,漢藏分詞粒度不同。
漢語和藏文的分詞粒度不同,是因為藏文分詞采用的基于詞典的最大匹配的方法,造成長詞覆蓋短詞,導致切分粒度過大。漢語分詞使用的ICTCLAS采用層疊隱馬爾可夫模型,分詞的顆粒度較小。
表1是漢語和藏文分詞不同的具體的例子。
表1 漢語和藏文分詞粒度分詞前后比較
續(xù)表
分詞粒度不同,在詞典中便查不到對應詞語,會使k值減小,從而使Sim(Si,Tj)減小,句對相似度降低,影響對齊效果。
采用進一步查找藏漢詞典的方法來找到互譯詞對。采用增加藏漢詞典的方式,對漢語中未找到對應翻譯詞語的大顆粒的藏文詞語進一步查找藏漢詞典,若找到互譯漢語,將其拿到漢語原文中匹配,匹配成功,k值增加,從而消除分詞粒度不同對句子對齊造成的影響,如圖1右半部分所示。
根據(jù)上述算法,研發(fā)了實用的漢藏句子對齊系統(tǒng)。
用準確率(Precision)、召回率(Recall)、F測度值(F-measure)來評價實驗結(jié)果。
用來評價句子對齊系統(tǒng)的標準對齊語料是先由算法運行出結(jié)果,然后由人工校正后得到的。因為藏文句子的判斷標準有時不是很明確,可能出現(xiàn)標準語料的結(jié)果會與算法給出結(jié)果不統(tǒng)一的現(xiàn)象。會使正確率略有下降。
實驗所使用的語料是根據(jù)項目需要收集的,均屬于政治領域,題材可分為法律、政府公文、偉人著作三種,從中選取部分文件進行實驗。法律選取的是《法律匯編》的27篇文檔、偉人著作選取的是《江澤民文選》和《毛澤東選集》共18篇文檔,政府公文選取的是近幾年中共中央的報告和公文共25篇文檔,所用語料的漢語版從網(wǎng)上下載得到,藏文版來自中央編譯局。
所有語料都整理成以篇章形式存儲。首先用篇章對齊工具由人工來篇章對齊生成篇章對齊的XML文件,作為漢藏句子對齊的輸入。
篇章對齊XML文件和句子對齊XML文件都以藏文國家標準編碼(擴充集A)utf-8編碼。
語料有可能是網(wǎng)上下載,或是OCR識別等等。不經(jīng)過預處理的語料包含許多噪聲數(shù)據(jù),使用這樣的數(shù)據(jù)作為對齊輸入,會嚴重影響對齊效果。
主要預處理工作包括: 去除噪聲標簽,人工修正遺漏的段落分割標記,去掉方正排版標記,編碼轉(zhuǎn)換以及字符歸一化。
實驗采用的詞典為漢藏詞典。這個詞典是對漢藏對照詞典、藏漢大辭典、藏漢英電子詞典合并去重后得到的,共137 873詞條。
詞典的詞匯覆蓋率和翻譯與譯文的吻合度直接影響對齊結(jié)果,因此需先對詞典作一個評估。
表2是對所使用的詞典進行的評價,所用語料為從實驗語料中挑選出的5篇文章??梢钥闯?, 不考慮重復出現(xiàn)的詞語,所用詞典中能夠查到的漢語詞數(shù)所占文章總的漢語詞數(shù)百分比約為90%;在詞典中出現(xiàn)的漢語,不考慮重復出現(xiàn)的詞,對應的藏文釋義在文章中出現(xiàn)并被正確分詞,這樣的詞語所占的百分比約為55%。
表2 對詞典的評價
詞典找不到藏文釋義的原因有三:
1) 詞典自身缺陷。詞典的釋義不全面,這是因為藏文詞語, 一事物多詞現(xiàn)象嚴重, 僅“太陽”一詞在不同場合下就有一百多種說法[14],一部詞典很難覆蓋所有的釋義。
2) 翻譯是意譯的。
3) 分詞錯誤,并且漢語和藏文的分詞粒度不同。
評分函數(shù)中matching_penalty(m,n)是對不同對齊模式(1-0,0-1,1-1,1-2,2-1,2-2, 1-3,3-1)所做的懲罰,實驗中matching_penalty(m,n)采用的參數(shù)為:
程序會對句子長度相差較大的句子作出懲罰
ChineseLen: 漢語句組長度;
TibetanLen: 藏文句組長度。
c: 單位長度藏文對單位長度漢語的比值, 對600句對統(tǒng)計得到的期望值為1.208。其中,漢語句子按照漢字個數(shù)(含標點)計算長度,藏文句子按照音節(jié)個數(shù)來計算長度。
對齊是按照篇章來進行的,表3是對每種題材的文檔分別累計取得的結(jié)果。法律文本的對齊結(jié)果最好,平均正確率為82.86%; 偉人著作次之, 平均正確率為80.83%;政府報告最差,平均正確率為78.99%。
將三種題材的文檔累計,得到總的實驗句對數(shù)目為28 697句,得到平均正確率為81.11%,平均召回率為83.86%,平均F測度值為82.47%。
每種類型的文本都有對齊結(jié)果好的篇章,和對齊結(jié)果不好的篇章。分析個別錯誤較多的文本,發(fā)現(xiàn)影響對齊正確率的因素有以下幾點:
1) 格式問題。
分句只能正確切分句子,而不能切分出短語,無論在漢語和藏文文本中都會出現(xiàn)小標題形式出現(xiàn)的短語,而這些地方?jīng)]有被正確換行,因此文本中這種情況出現(xiàn)較多的話,會影響正確率。
表3 實驗結(jié)果匯總
從語料中選出3篇文本,將格式校正之前和校正之后的對齊結(jié)果做了比較,如表 4所示。
2) 分句錯誤。尤其是在數(shù)字編號的地方較易出錯。在漢語標點符號冒號、分號處,藏文的對應不是很明確, 有時可以斷句, 有時有連接詞不能斷句,出錯較多。
表4 格式整理之前與之后對齊結(jié)果比較
3) 翻譯是意譯的,尤其是口語化比較嚴重的文章,句中的翻譯與在詞典中查到的詞語不能對應,在偉人著作中出現(xiàn)比較多。
4) 標準對齊是由人工校正得到的,里面有許多人為的判斷,句子是否應該斷句,有時人為的判斷與采用的規(guī)則難以統(tǒng)一,即標準句對并不是百分之百正確的,也會影響到正確率。
本文首次對漢藏句子自動對齊進行了探索性研究及實現(xiàn)。采用基于詞典的方法來進行漢藏句子自動對齊,該方法借助詞典找出句對中的互譯詞對,低頻詞語占權(quán)重大,高頻詞語占權(quán)重小,利用動態(tài)規(guī)劃框架根據(jù)評分函數(shù)尋找最優(yōu)路徑,并采用反查藏漢詞典的方法解決了漢藏分詞顆粒度不同造成的互譯詞對減少的問題。并對所用詞典進行了評價。
實現(xiàn)了一個實用化的漢藏對齊系統(tǒng),在正確率上仍有很大的提升空間。文獻[9]中在將近4 000句的漢英語料上做對齊,正確率達到96.4%,召回率96.3%。漢藏句子對齊的結(jié)果和漢英的相比還是有一定差距的。
實驗結(jié)果和語料的選取有很大關系,本文選取的語料數(shù)量上已經(jīng)足夠發(fā)現(xiàn)較多的問題,但在領域上不夠全面。
1) 做一部高頻詞典,文獻[9]中僅用4 000詞的高頻詞典就達到96.4%的正確率,采用高頻詞典不會影響正確率,可以減少查詞典的時間,提高效率。
2) 對分句問題做更嚴謹?shù)囊?guī)則總結(jié)。根據(jù)實際中出現(xiàn)的各種錯誤,不斷歸納總結(jié)。
3) 提高藏文分詞正確率,采用更好的分詞方法,消除分詞粒度不同的問題。
[1] Brown P F, Lai J C, Mercer R L. Aligning sentences in parallel corpora[C]//Proceedings of 29th Annual Meeting of the Association For Computational Linguistics.Berkeley, CA: ACL, 1991: 169-176.
[2] William A.Gale, Kenneth W.Church. A Program for Aligning Sentences in Bilingual Corpora[J].Computational Linguistics. 1993,19(1):75-90.
[3] M. Kay & K. Roescheisen. Text-Translation Alignment[J].Computational Linguistics 1993,19(1), 121-142.
[4] S. F. Chen. Aligning Sentences in Bilingual Corpora Using Lexical Information [C]//the proceeding of Annual meeting of ACL - 31, 1993:9-16.
[5] Utsuro T, Ikeda H,Yamane M,et al.Bilingual Text Matching Using Bilingual Dictionary and Statistics[C]//Proceedings of the 15th conference on Computational linguistics, volume 2, 1994: 1076-1082.
[6] Melamed I D, Melamed A geometric approach to mapping bitext correspondence[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing,1996: 1-12.
[7] Dagan I, Church K W, Gale W A. Robust Bilingual Word Alignment for Machine Aided Translation[C]//Proceedings of the Workshop on Very Large Corpora, 1993: 1-8.
[8] Haruno, Masahiko, and Takefumi Yamazaki. High-performance bilingual text alignment using statistical and dictionary information[C]//ACL 34, 1996: 131-138.
[9] Ma X. Champollion: A Robust Parallel Text Sentence Aligner[C]//Proceedings of LREC-2006: Fifth International Conference on Language Resources and Evaluation, 2006: 489-492.
[10] DeKai Wu. Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria [C]//the proceeding of Annual meeting of ACL-32,1993: 80-87.
[11] Moore R C. Fast and Accurate Sentence Alignment of Bilingual Corpora[C]//Proceedings of AMTA. Springer-Verlag, 2002: 135-144.
[12] Simard M, Foster G F, Isabelle P.Using Cognates to Align Sentences in Bingual Corpora[C]//Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation,1992: 67-81.
[13] 李鵬. 高性能的中英文句子對齊算法及其應用[D]. 清華大學. 2009.
[14] 趙晨星, 楊兵. 藏文信息處理技術發(fā)展的廣闊前景[J]. 青海師范大學學報(自然科學版),1999,1.