国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢藏短語對抽取中短語譯文獲取方法研究

2011-06-14 03:34諾明花劉匯丹丁治明
中文信息學(xué)報 2011年3期
關(guān)鍵詞:漢藏語塊藏文

諾明花,吳 健,劉匯丹,丁治明

(1. 中國科學(xué)院 軟件研究所,北京 100190;2. 中國科學(xué)院 研究生院,北京 100049)

1 引言

本文工作核心是要針對特定領(lǐng)域漢藏多策略機器輔助翻譯系統(tǒng)(MSCT_CAT)構(gòu)建短語對齊庫的需求,獲取藏文譯文。MSCT_CAT是基于實例的輔助翻譯系統(tǒng),它通過檢索實例句子庫,短句庫和短語庫來提供相似的參考譯文。

基于短語的統(tǒng)計機器翻譯的優(yōu)勢在于短語能夠抓住局部上下文的依賴關(guān)系。迄今為止,已經(jīng)出現(xiàn)了多種短語抽取方法[1-8]。其中,有些計算復(fù)雜度太高,代價很高;有些模型依賴于詞對齊的結(jié)果,有些依賴于句法分析結(jié)果,對資源的要求很高。本文要從漢藏對齊語料中抽取互譯短語對。由于藏文自身的繁雜性及使用范圍相對較小的特點,加之當(dāng)前藏文信息處理技術(shù)還在起步階段,藏語語料庫建設(shè),自動分詞標(biāo)注等與機器翻譯相關(guān)的基礎(chǔ)研究尚未形成系統(tǒng)。GIZA++等開源詞對齊工具對訓(xùn)練語料庫規(guī)模有一定要求,特定領(lǐng)域漢藏句對齊語料規(guī)模有限,漢藏詞對齊正確率為進一步做短語抽取而言不可取。因此,考慮目前還沒有詞性、句法層面上加工過的語料,漢藏短語獲取方法一定擺脫對詞對齊、句法分析等資源的依賴。

本文獲取的短語是廣義上的,它是由若干個單詞組成的語塊。MSCT_CAT的短語庫只要有漢語短語以及它的藏文譯文即可以轉(zhuǎn)成TMX庫,以供檢索和返回短語譯文用。本文的思路是先從句對齊雙語語料中獲取有效漢語語塊,對包含待譯語塊的句對求交集,得到候選譯文,最后經(jīng)過后處理得到漢藏互譯語塊并保持到短語庫中。

2 翻譯基本模型

王辰[9]提出了一種基于序列相交的短語譯文獲取方法,該方法不依賴于額外資源信息的特點正符合目前藏文資源匱乏,可以借鑒到MSCT_CAT的短語庫構(gòu)建模型中。

本節(jié)先分析藏文短語類型,再介紹TIA譯文獲取模型。為了使用詞序列相交方法,漢藏兩種語言的文本都需要分詞。本文使用斯坦福的中文分詞開源項目和中國科學(xué)院軟件研究所多語言信息處理研究室開發(fā)的藏文分詞模塊分別對漢藏單語語料進行分詞。

2.1 藏文短語類型

在藏文實際文本中,從不同層面來分析短語特性時可以得出以下結(jié)論。

? 其次,漢藏互譯對之間對應(yīng)關(guān)系有兩種形式;經(jīng)過分析收集的漢藏句對齊語料發(fā)現(xiàn)雙語短語中的漢語單詞既有只有一種譯文的,也有兩個或以上的譯文的。一個原文短語對應(yīng)一個譯文較常見,這里不舉例說明,這種現(xiàn)象本文稱為一詞一譯,簡稱一對一(1-1)。由于翻譯機構(gòu)的地域性或者上下文意譯,同一個中文有不同譯法,類似一詞多義,這種現(xiàn)象本文稱為一詞多譯,簡稱一對多(1-n)。

2.2 藏文短語譯文獲取模型

漢藏雙語句對詞序列相交的示例見表1。

表1 漢藏雙語句對詞序列相交示例表

從以上分析可以得出兩個句對SPr與SPt相交公式,表示如下:

Q={Q1,Q2, …,Qk} 為句對SPr和SPt中漢語句子CSr和CSt的交集,Q中包含Qi(1≤i≤k)待翻譯的中文短語;T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集,T中肯定包含Qi的譯文,可以通過漢藏詞典確定 (Qi,Tj)漢藏互譯對。

待翻譯中文短語由多個漢語單詞構(gòu)成,表示如公式(2):

Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查找,如果詞典中有譯項計數(shù)并保存到一個鏈結(jié)構(gòu)L中,一定會存在某個Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件,保留為候選譯文。當(dāng)Qi中有未找到譯項的Qi+θ時,設(shè)定一個閾值(本文取0.66),對待譯漢語語塊中查詞典成功率大于閾值的保留譯文,對小于閾值的候選譯文進一步計算其在序列相交過程中累計的頻次權(quán)值,保留權(quán)值高的候選,丟棄權(quán)值低的候選譯文。最終保留的Tj+ω(1≤ω≤g)構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的,也可以是非連續(xù)的。

3 藏文短語譯文獲取

本文提出藏文詞串頻率統(tǒng)計算法(簡稱TSM)和藏文詞串序列相交算法(簡稱TIA)兩種方法獲取短語譯文。TSM可以滿足短語連續(xù)性,但是只能抽取1-1的短語對。而TIA可以彌補TSM的不足,能夠抽取1-n的漢藏短語對。TIA使用的語料為漢藏句對齊雙語語料庫,將通過漢藏詞序列相交模型,獲取1-n的漢藏互譯短語對。

3.1 藏文詞串頻率統(tǒng)計算法

先簡單描述一下詞串頻率統(tǒng)計算法思想。給定一個待翻譯漢語語塊Q,TSM需要解決怎樣確定Q的譯文P。TSM算法目標(biāo)是獲取1-1的互譯對。為了算法描述便利,先假定部分符號表示。

?SP表示語料中所有包含Q的句對集合;

?Sn表示SP中句對數(shù);

?TSS表示SP中藏文句子集;

?CS表示公共子串。

以上符號通用于3.1節(jié)和3.2節(jié)。TSM算法生成公共子串CS過程描述如下:

1. 從TSS中,任選一個藏文句子TS。

2. 為TS建立一個單詞列表WL,并保留TS中的詞序。

3.WL中詞在TSS范圍內(nèi)以句子為單位做詞頻統(tǒng)計。

4. 標(biāo)記所有滿足詞頻為Sn的單詞,獲取CS的集合,用ICS來表示。

5. 使用雙語詞典過濾ICS中與Q不相關(guān)的公共子串,用UCS表示。

6. 按照WL中詞序恢復(fù)CS的鄰接性和連續(xù)性。

7. 使用TSW過濾模塊過濾CS邊界高頻干擾信息得到譯文P。

藏文詞串頻率統(tǒng)計算法抽取到的1-1互譯對(Q,P)能夠很好地滿足MSCT_CAT構(gòu)建短語庫的需求。TSM算法只適合1-1的連續(xù)和非連續(xù)短語抽取,然而以下兩個因素導(dǎo)致漢藏語料中存在漢語短語有多種譯法的情況,降低TSM的召回率。

? 短語中部分漢語單詞可以對應(yīng)意義相同的多個藏文單詞,不同的譯者選擇不一致。

? 根據(jù)上下文意譯時,藏文格特征和后修飾特征[12]引起中心詞之外的部分不一致。

3.2 藏文詞串序列相交算法

為了提高召回率,TIA重點解決1-n的短語對抽取問題。漢藏詞序列相交模型中提到,對包含Q的漢藏句對計算公共子串確定P后可以獲取漢藏短語對(Q,P)。從公式(1)得知,句對的序列相交由若干個藏文公共子串CS組成。將為每個CS構(gòu)造一個樹結(jié)構(gòu)T的話,句對的序列相交可以組成一個森林。T由中心節(jié)點和修飾節(jié)點兩種節(jié)點組成。表2給出兩種節(jié)點各個字段及功能,以便后續(xù)算法描述。

表2中的中心節(jié)點用來存儲藏文句子取交后的CS的所有中心語,用ITN表示,修飾節(jié)點記錄與其相關(guān)聯(lián)的中心節(jié)點的修飾語,用SYN表示。因此,T的根節(jié)點是tag域為1的ITN節(jié)點,T的葉子是next域為空的ITN節(jié)點。對某個ITN來說,syn域指向左節(jié)點,next域指向右節(jié)點。CS中某個中心節(jié)點的左子樹是由其在語料中出現(xiàn)的所有格特征和后修飾特征通過SYN的next域鏈接而成的鏈表SL。

表2 公共子串樹節(jié)點各個域及功能表

由公式(2),Q由若干個詞Qi(1≤i≤l) 組成。取交過程中Q的所有候選譯文均保存為表2的節(jié)點,生成樹T或森林F。T或F中并不是所有節(jié)點組成最終譯文,通過確認過程滿足以下兩個條件的節(jié)點才會被選為最終譯文的一部分。

1) 譯文中一定包含任意Qi(1≤i≤l)的譯文;

2) 所有候選譯文的支持度和等于Sn。

TIA算法核心是為已知的漢語語塊Q構(gòu)建公共子串森林F,以及遍歷F來確認Q的最終譯文P。構(gòu)建F的過程描述如下:

TIA構(gòu)建F的過程

1. Choose any two sentencesTS1andTS2fromTSSat random.

2. CalculateTS1∩TS2results, denote asIL.

3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.

4. Construct forestFofSL, based on table 3.

5. for eachTSinTSS-{TS1,TS2}

6. for each treeTinF

7. ifTScontainsTthen

8. plus 1 tofreqfor all nodes inTand exit.

9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S?SL) then

10. newly-built aSYNand assign theSto field syn and exit.

11. end for

12. end for

以上取交過程生成一個森林F。下一步是通過遍歷F確認Q的譯文P。P是CS的集合,藏語譯文確認過程描述如下。其中用A,B,C,D分別將P標(biāo)記為1-1,1-n,,連續(xù)或非連續(xù)短語等短語類型。

TIA藏語譯文確認過程

1. inttn=0,i=0.

2. for eachTinF

3. for eachtwinT

4. iffreqequalsSn

5. addtwto{Pi} andi++.

6. else if sum offreqinSLequalsSn

7. add sy_tw ofSLto {Pi} and

i++.

8. else

9. discardT.

10. end for

11.tn++

12. end for

13. iftn==1

14. (Q,P) are marked asA

15. Iftn>1

16. (Q,P) are marked as B

17. Ifi==1

18.Pis marked asC

19.elseifi> 1 then

20.Pis marked asD

可以示例說明藏文譯文確認過程。假設(shè),在漢藏平行語料中有50個句對包含待翻譯語塊Q,取交后獲取兩個公共子串CS1和CS2。為CS1和CS2構(gòu)建樹結(jié)構(gòu),分別用T1和T2表示,如圖1。

圖1 譯文確認過程

待譯語塊Qi的譯文Tj的確認過程是對由T1和T2組成的森林的搜索過程。在圖1 中,T1的根節(jié)點W11的freq域值等于50,因此被標(biāo)記為最終譯文的組成部分。W12_sy1是W12的修飾語,同時W12_sy1和W12的freq域值的和等于50,因此詞組[W12,W12_sy1] 被接受。W13的freq域為50,它被接受為最終譯文的組成部分。W14的freq域值小于50,從而被丟棄。同樣原理,W21和W22被接受。Qi的最終翻譯譯文Tj是由兩棵樹T1和T2對應(yīng)的字符串中所有被接受并標(biāo)記的節(jié)點序列的集合,P={W11[W12|W12_sy1]W13,W21W22}。

因為使用了公共子串樹和森林結(jié)構(gòu),TIA既能抽取1-1短語,又能抽取1-n短語。同時TIA也不會遺漏非連續(xù)短語,能夠滿足藏文短語的連續(xù)性。從而可以滿足MSCT_CAT的短語庫構(gòu)建需求。

4 實驗

實驗數(shù)據(jù)是漢藏法律法規(guī)和公文報告等特定領(lǐng)域語料。漢語語料通過網(wǎng)上下載處理得到,藏文語料由西藏翻譯局提供。收集到的原始語料通過篇章對齊和句子對齊后,最終形成短語對抽取模塊可以處理的五份漢藏語料,語料的統(tǒng)計數(shù)據(jù)見表3。表中,最后一列短語對數(shù)為計算召回率時人工確認的平行語料中所含的短語對數(shù)量。

表3 語料信息

4.1 藏文短語連續(xù)性驗證

在實驗中,對五組語料分別用TSM和TIA進行短語抽取之后,采用計算機輔助人工的方法判斷互譯對正確與否,實驗的準(zhǔn)確率(P)定義為:

召回率(R)定義為:

TSM算法簡單,容易實現(xiàn)。它抽取的連續(xù)短語準(zhǔn)確率較高。TSM抽取的1-1連續(xù)短語(C)和非連續(xù)短語(D)統(tǒng)計結(jié)果見表4。TIA算法因為考慮到同一個中文單詞的不同表示以及藏文的格特征和后修飾特征,準(zhǔn)確率沒有TSM好,但也能滿足系統(tǒng)需求。TIA抽取的連續(xù)短語和非連續(xù)短語統(tǒng)計結(jié)果見表5。表4和表5中D表示不連續(xù)(Discontinuous),C表示連續(xù)(Continuous)。

表4 TSM抽取結(jié)果

表5 TIA抽取結(jié)果的連續(xù)性統(tǒng)計表

數(shù)據(jù)表明,兩種算法抽取的短語召回率都很低,TIA與TSM比較召回率明顯提高,原因有以下幾點: (1)漢藏詞典數(shù)據(jù)稀疏問題。雖然算法中采用閾值和短語頻次權(quán)值來保留部分候選譯文,無法徹底解決數(shù)據(jù)稀疏問題。(2)漢藏分詞粒度不一致,一些漢語兩詞組成的短語在藏文中對應(yīng)一個詞,不再是短語。(3)漢語有效語塊是從單語語料中抽取的,只要有實際意義就可取。藏文是SOV型語言,其中部分漢語語塊在平行語料中失去了句法特征,所以很難找到譯文。(4)語料中1-n短語對的存在造成TSM的召回率明顯不如TIA的好。

4.2 藏文短語對應(yīng)關(guān)系驗證

為了證明TIA算法抽取1-n短語對的有效性,分析TIA從五組語料中抽取到的短語對的漢藏對應(yīng)關(guān)系。表6給出漢藏短語對應(yīng)關(guān)系分布情況及準(zhǔn)確率和召回率。

表6 TIA抽取結(jié)果的對應(yīng)關(guān)系統(tǒng)計表

很顯然,語料中非連續(xù)藏文短語和1-n的藏文短語均不能忽略不計。TIA可以抽取連續(xù)和非連續(xù)的短語。同時,它能抽取1-1和1-n的漢藏短語對。TIA算法獲取的短語譯文準(zhǔn)確率達81%。

實驗結(jié)果分析得知,由于數(shù)據(jù)稀疏問題,語料1和語料4中低頻短語對(在語料中出現(xiàn)次數(shù)很少)較頻繁出現(xiàn),從而導(dǎo)致語料1和語料4的準(zhǔn)確率在同組試驗中低于其他語料。低頻短語在序列相交過程中攜帶了額外的與譯文無關(guān)內(nèi)容,這些干擾信息使準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率,但會損失召回率。從表3可以看出,語料5在五組語料中句對數(shù)最多;每組實驗結(jié)果中,語料5的準(zhǔn)確率最佳,這表明通常語料變大可以提高覆蓋率,較高的覆蓋率能提高準(zhǔn)確率。

5 結(jié)束語

在目前漢藏語料資源匱乏、語料處理技術(shù)不成熟的前提下,本文提出獲取藏語譯文的方法。依據(jù)包含待翻譯漢語語塊的漢藏句對公共子串的思想,分別嘗試藏文詞串頻率統(tǒng)計算法和藏文詞串序列相交算法獲取待譯漢語語塊的譯文。

然而,文章提出的方法召回率太低,這是下一步研究的重點。提高召回率后,可以將抽取的短語融入翻譯模型中進行實際翻譯工作。目前收集的漢藏平行語料中存在數(shù)據(jù)稀疏問題,TSM和TIA都是依賴于統(tǒng)計的,對數(shù)據(jù)稀疏問題無可奈何。改進語料覆蓋率有利于擴建漢藏短語庫。

[1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.

[2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics, 1997,23(3):377-403.

[3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003:567-573.

[4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162.

[5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.

[6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.

[7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.

[8] 何彥青,周玉,宗成慶,等.基于“松弛尺度”的短語翻譯對抽取方法[J].中文信息學(xué)報,2007,21(5):91-95.

[9] 王辰,宋國龍,吳宏林,等.基于序列相交的短語譯文獲取[J].中文信息學(xué)報,2009,23(1):39-43.

[10] 周季文,傅同和.藏漢互譯教程[M].北京:民族出版社,1999.

[11] 張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.

[12] 陳玉忠,李保利,俞士汶,蘭措吉. 基于格助詞和接續(xù)特征的藏文自動分詞方案[C]//第一屆學(xué)生計算語言學(xué)研討會論文集.北京,2002.

猜你喜歡
漢藏語塊藏文
小學(xué)英語語塊教學(xué)策略
敦煌本藏文算書九九表再探
科技漢語語塊的類型和特征
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
信息化環(huán)境下英語語塊教學(xué)模式在小學(xué)英語教學(xué)中的運用
語塊教學(xué)在高中英語教學(xué)中的應(yīng)用分析
黑水城和額濟納出土藏文文獻簡介
基于條件隨機場的藏文人名識別研究
漢藏姐妹一家親
古代漢藏文化交流研究成果(1979-2011)述評
固始县| 分宜县| 新田县| 西安市| 沅陵县| 霍山县| 紫云| 江安县| 张家港市| 昌江| 茂名市| 木里| 宁安市| 廉江市| 山阴县| 宜兴市| 驻马店市| 赫章县| 阳曲县| 普陀区| 上杭县| 古田县| 瑞金市| 宜阳县| 舒兰市| 依安县| 景宁| 贡嘎县| 凤凰县| 闽侯县| 临夏市| 恩施市| 宁海县| 翼城县| 迁安市| 航空| 济宁市| 南木林县| 巴林左旗| 鄂尔多斯市| 天长市|