楊倩倩,秦旭明
(惠州工程職業(yè)學(xué)院,廣東 惠州 5610000)
基于交互式機(jī)器翻譯的譯文查詢行文預(yù)測技術(shù)
楊倩倩,秦旭明
(惠州工程職業(yè)學(xué)院,廣東 惠州 5610000)
隨著信息交流的密切,人工翻譯工作量大,且收益較低,矛盾凸顯。文中基于此背景以交互式機(jī)器翻譯技術(shù)(IMT)為核心,針對各類用戶翻譯過程中查詢調(diào)用行為出現(xiàn)的頻繁鼠標(biāo)、鍵盤切換問題,提出了一種交互機(jī)器替代的智能預(yù)測模型。此預(yù)測模型采用翻譯條件選擇機(jī)制,搭配對齊模型、翻譯模型、語言模型等進(jìn)行全面語義分析,在較大程度上保證了查詞行為預(yù)測的可行性。經(jīng)過測試,在人工雙語對齊類語料中,預(yù)測準(zhǔn)確性達(dá)64.99%,尤其在各類語義明確的名詞類句段預(yù)測時(shí),精確度可達(dá)72.28%。基于此種執(zhí)行效率,機(jī)器交互翻譯系統(tǒng)雖無法完全替代人工翻譯過程,但可大幅減少重復(fù)、底層的勞動(dòng)行為,使人從機(jī)械的操作中解放出來。在改善用戶交互翻譯體驗(yàn)的同時(shí),大幅提升工作效率。
交互機(jī)器翻譯;對齊模型;語言模型;翻譯預(yù)測
近年來,由于大規(guī)模語料翻譯需求的擴(kuò)大,使得機(jī)器翻譯的研究和應(yīng)用得以快速發(fā)展,機(jī)譯速度不斷提升。然而,無論基于哪種翻譯規(guī)則的機(jī)譯系統(tǒng)均無法有效地解決模糊性語義和多重語境下,復(fù)雜語段的精準(zhǔn)表達(dá)問題。導(dǎo)致機(jī)器翻譯質(zhì)量低下,無法滿足人們研究和學(xué)習(xí)的要求。針對這種情況,國內(nèi)外眾多研究機(jī)構(gòu)陸續(xù)開始深入研究機(jī)器翻譯系統(tǒng)的改良與優(yōu)化。
在此背景下,Kay最早提出了交互式機(jī)器翻譯系統(tǒng),由用戶自己負(fù)責(zé)復(fù)雜類語段的內(nèi)容定義,消除歧義,并確定語義走向[1-3]。隨后由機(jī)器規(guī)則系統(tǒng)對照用戶所提供的內(nèi)容進(jìn)行原文翻譯,這樣的工作方式使翻譯質(zhì)量得到較大提升,也使得翻譯的自由度和使用范圍更廣。但該種工作方式只在某些特定的翻譯應(yīng)用中具備優(yōu)勢,而在大部分常規(guī)翻譯需求中,譯文質(zhì)量參差不齊,無法保持一定水準(zhǔn)的翻譯精度。另外,消除語法歧義的工作對于翻譯用戶而言難度較高,尤其對陌生語種,缺乏實(shí)踐操作的可行性[4-8]。
隨后,研究逐漸從人機(jī)交互過程轉(zhuǎn)移到了譯文后編輯處理中來,期望通過人機(jī)整合來實(shí)現(xiàn)效率和質(zhì)量的提升。雖國內(nèi)外眾多翻譯交互系統(tǒng)為此提出了多種解決方案,如快捷鍵操作、切換設(shè)定等,卻均不夠完善[9-12]。因此,本文基于譯文和原意的對齊關(guān)系,嘗試進(jìn)行查詢操作的預(yù)測行為分析,在輸入檢測過程中預(yù)測可能出現(xiàn)的翻譯結(jié)果,減少大量的人工對比與切換行為,實(shí)現(xiàn)高質(zhì)、省時(shí)的文獻(xiàn)翻譯。
文獻(xiàn)翻譯過程中,用戶為保證翻譯質(zhì)量,經(jīng)常要對單詞進(jìn)行譯文釋義對照查詢,工作量大。若是對整個(gè)翻譯過程建立模型,可將實(shí)現(xiàn)交互的抽象過程分化由大量的源語片段S=s1,s2,s3…sn,以及與之對應(yīng)的一組中間參考語段T=t1,t2,t3…tn構(gòu)成[13-14]。規(guī)定當(dāng)前所處翻譯位置為i,則理論上翻譯選擇概率為p(sj|i,T)。因此,對于原文語段的翻譯可轉(zhuǎn)化為對概率P值最大的最優(yōu)化解答。
可由式(1)表示最大概率值。
sj=argsjmax(sj|iT)
(1)
若假設(shè)每一種語義出現(xiàn)概率相等,可由貝葉斯公式推得式(2)
sj=argsjmaxp(sj|i,T)=
argsjmaxP(T|i,sj)p(i|sj)p(sj)=
argsjmaxP(T|i,sj)p(i|sj)
ln(sj)=argsjmax(lnp(T|i,sj)+lnp(i|sj))
(2)
考慮到上式各乘積項(xiàng)對結(jié)果ln(sj)的影響不同,可進(jìn)行加權(quán)(w)運(yùn)算,得
ln(sj)=argsjmax(w×lnp(T|i,sj)+(1-w)lnp(i|sj))
(3)
以上為預(yù)測概率模型的建立。通過原語單詞sj、中間譯文T關(guān)系和目標(biāo)語義的對齊概率求得最優(yōu)解,即最佳翻譯。然而,上述模型只分抽象出單一語段與其對應(yīng)中間譯文的相關(guān)概率,無法在實(shí)際復(fù)雜語義環(huán)境中使用,還需進(jìn)一步優(yōu)化。
1.1 語段對齊概率模型分析
在復(fù)雜語段中可能包含多個(gè)詞性相同的詞匯。因此,若要精確表述原語詞匯sj翻譯到位置i的翻譯概率,需要進(jìn)一步將位置參數(shù)引入概率估計(jì)條件中,即建立p(i│j,sj)概率計(jì)算。但進(jìn)行此類位置多層疊加型翻譯計(jì)算,將會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)系數(shù)問題,同時(shí)模型復(fù)雜程度過高,影響計(jì)算效率。因此,文中轉(zhuǎn)而采用對齊概率模型來進(jìn)行較長語段的概率估計(jì)。
引入Toutanova等人提出的基于上下文詞匯關(guān)聯(lián)模型的傳統(tǒng)化對齊模型統(tǒng)計(jì)算法,求得期望最大值,并將所有特征參量(詞性、語義標(biāo)記、多重語義、抽象意及歧義)等包含在特征函數(shù)中,可得
本文選取對案例地各特征帶有明顯情感描述的評論,共861條,采用“-5,-3,-1,1,3,5”的分值分別表示“嚴(yán)重不滿”“比較不滿”“輕度不滿”“一般滿意”“比較滿意”和“非常滿意” 6種不同情感,通過等權(quán)賦值對旅游者情感及強(qiáng)度進(jìn)行評分,計(jì)算公式為:
(4)
其中,Z^是歸一化常數(shù),與T參量和S參量有關(guān);λt為模型參量;ft為特征函數(shù),其內(nèi)參量由具體語義和句法進(jìn)行定義。
此外,可以根據(jù)句法及翻譯需求來進(jìn)行模型模板定義。表1列出了部分特征模板所代表的元素或位置參量信息,稱為原子模板,其在概念上等同于當(dāng)前翻譯位置下的各類特征函數(shù)。
表1 原子特征模板范例
需要注意的是,原子模板僅表征了特征函數(shù)的一個(gè)單一屬性,無法完整表征語段的具體含義。因此,在實(shí)際應(yīng)用中需要建立復(fù)合原子模板。通過模板的不同組合,將參量數(shù)值化后,得到具體的語義表征,即一個(gè)二值特征函數(shù)式
(5)
由于翻譯內(nèi)容的復(fù)雜性,單一的原子模板無法全面表征。因此,本文準(zhǔn)備了40個(gè)以上的復(fù)合模板來應(yīng)對實(shí)際語段內(nèi)的復(fù)雜結(jié)構(gòu)和多重釋義的選擇。
1.2 相關(guān)概率模型計(jì)算
(6)
2.1 實(shí)驗(yàn)設(shè)置
首先,依據(jù)最大熵算法得出語料對齊概率模型,由式(6)得到相關(guān)概率模型。綜合兩式,取0.05等間隔下[0,1]間任意3個(gè)候選值,評分機(jī)制參考MRR(Mean Reciprocal Rank)定義如下
其中,Sh指代候選數(shù)量;Q指代當(dāng)前譯文;Ri指代翻譯候選;n指代譯文預(yù)測的數(shù)目;Scorrect(Ri)指代正確候選的位置; RR(Ri)指代當(dāng)前位置的得分。
2.2 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析
2.2.1 權(quán)值概率分析
數(shù)據(jù)預(yù)測正確率,如圖1所示。權(quán)值[0,1],預(yù)測正確率峰值對應(yīng)w=0.15,準(zhǔn)確率達(dá)65,27%,MRR評分趨于54.23%,同步達(dá)到最大值點(diǎn)。
圖1 預(yù)測正確率曲線和對應(yīng)MRR
分析圖中曲線可得,當(dāng)w=0時(shí),即僅當(dāng)對齊模型存在時(shí),翻譯精確率為64.99%;當(dāng)w=1取最大值,此時(shí)只存在相關(guān)概率模型,正確率降為25.32%。當(dāng)兩種概率模型混合存在時(shí),正確率在峰值處提升了0.82個(gè)百分點(diǎn),且整體正確率會(huì)隨著相關(guān)概率模型權(quán)值的增加而降低。
2.2.2 語段詞性的預(yù)測與分析
圖2中列舉了人工翻譯對照的漢英雙語材料中各類詞性語段占比,明顯看出名詞與動(dòng)詞占有絕大部分比重。
圖2 語段中各類詞性占比
圖3給出了語料庫中各常用詞性單詞的預(yù)測正確率,從中可以看出:實(shí)詞正確率最高。而通常語料中名詞與動(dòng)詞占比最大。因此,基于這種語料查詢預(yù)測方式下翻譯質(zhì)量將得到較大提升。而實(shí)驗(yàn)結(jié)果顯示,影響實(shí)詞翻譯正確率(名詞72.28%,動(dòng)詞63.7%)的主要因素在于:其他詞性的單詞翻譯依據(jù)相關(guān)模型預(yù)測,而模糊翻譯將降低翻譯準(zhǔn)確率。
圖3 各類詞性正確率
本文以文獻(xiàn)翻譯過程的詞義轉(zhuǎn)化作為研究對象,引用交互式機(jī)器翻譯方式進(jìn)行語段翻譯結(jié)果的可能性分析,通過建立對齊模型進(jìn)一步提升復(fù)雜語段翻譯的準(zhǔn)確率。與傳統(tǒng)的上下文預(yù)測方式相比,基于對齊模型和相關(guān)概率模型的預(yù)測法可有效縮小中間參量范圍,提高模型翻譯效率及預(yù)測準(zhǔn)確率。同時(shí),本文充分考慮了語段翻譯存在的特征選擇性,將其加入到翻譯模型產(chǎn)量中,并以Niutrains語料庫做了全面的實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果表明,名詞、動(dòng)詞性語段為主的語料翻譯質(zhì)量較高,達(dá)72.28%,其他詞性單詞的翻譯準(zhǔn)確率相對較低。據(jù)此還可進(jìn)行下一步的研究與模型改良,實(shí)現(xiàn)語料翻譯質(zhì)量的再提升。
[1] Kay M.The proper place of men and machines in language translation[J].Machine Translation,1997,12(1/2):3-23.
[2] Foster G,Isabelle P,Plamondon P.Target-text mediated interactive machine translation[J].Machine Translation,1997,12(1/2):175-194.
[3] Simard M,Ueffing N,Isabelle P,et a1.Rule—based translation with statistical phrase—based post—editing[C].Stroudsburg:Proceedings of the 2nd Workshop on Statistical Machine Translation,Association for Computational Linguistics,2007.
[4] Foster G,Langlais P,Lapalme G.User-friendly text pre-diction for translators[C].Stroudsburg:Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2002.
[5] Koehn P,Haddow B.Interactive assistance to human translators Using statistical machine translation methods[C]. Menlo Park: Proceedings of AAAI Conference on Artificial Intelligence,2011.
[6] Hassan S,Mihalcea R.Semantic relatedness using salient semantic analysis[C].Menlo Park:Proceedings of AAAI Conference on Artificial Intelligence,2011.
[7] Sanchis-Trilles G,Ortiz-Martinez D,Civera J,et a1.Improving interactive machine translation via mouse actions[C].Stroudsburg:Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2008.
[8] Toutanova K,Ilhan H T,Manning C D.Extensions to HMM-based statistical word alignment models [C].Stroudsburg:EMNL 2002:Proceedings of the ACL_02 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2002.
[9] Langlais P,Lapalime G.Trans type: development-evaluation cycles to boost translator’s productivity[J]. Machine Translation,2002,17(2):77-98.
[10] 張華.交互式機(jī)器翻譯技術(shù)研究[D].沈陽:沈陽航空航天大學(xué),2014.
[11] 付一韜.基于正向多約束的交互式機(jī)器翻譯技術(shù)研究[D].沈陽:沈陽航空航天大學(xué),2016.
[12] 程善伯.短語翻譯系統(tǒng)中的交互翻譯研究[D].南京:南京大學(xué),2016.
[13] 季鐸,馬斌,葉娜.交互式機(jī)器翻譯中譯文查詢行為的預(yù)測技術(shù)[J].計(jì)算機(jī)應(yīng)用,2015,35(4):1009-1012.
[14] 龐觀松,張黎莎,蔣盛益.跨語言智能學(xué)術(shù)搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2011,41(5):63-68.
Research on the Technology of Text Query Based on Interactive Machine Translation
YANG Qianqian,QIN Xuming
(Huizhou Engineering Vocational and Technical College,Huizhou 5610000,China)
Nowadays,the exchange of information is very close,and the translation and inquiry of documents become the high frequency behavior in the process of research and study. However,the workload of manual translation is too large,and the income is low. Based on the background of interactive technology to Machine Translation (IMT) as the core,to solve the problem of frequent switching behavior of mouse and keyboard call query all kinds of users in the translation process,put forward a prediction model of intelligent interactive machine replacement. This prediction model is based on the translation condition selection mechanism,with the alignment model,the translation model and the language model. After testing,the accuracy of prediction is 64.99%,which is more than 72.28%,especially in all kinds of semantic NOUN class. Based on the efficiency of the system,the system can not completely replace the manual translation process,but it can greatly reduce duplication,the bottom of the labor behavior,so that people from the mechanical operation of the liberation. While improving the user interaction translation experience and greatly improve work efficiency.
interactive Machine Translation; alignment model; language model; translation prediction
TP391.7
A
1007-7820(2017)11-110-04
2017- 05- 10
楊倩倩(1983-),女,講師。研究方向:英語翻譯。
10.16180/j.cnki.issn1007-7820.2017.11.030