国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雙向詞典和語(yǔ)義相似度計(jì)算相結(jié)合的詞對(duì)齊算法

2015-05-04 07:45:16尹寶生
關(guān)鍵詞:組塊分詞詞典

尹寶生,楊 陽(yáng)

(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,沈陽(yáng) 110136)

?

雙向詞典和語(yǔ)義相似度計(jì)算相結(jié)合的詞對(duì)齊算法

尹寶生,楊 陽(yáng)

(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,沈陽(yáng) 110136)

基于統(tǒng)計(jì)的詞對(duì)齊方法需要大規(guī)模的雙語(yǔ)語(yǔ)料作為輸入,難以避免數(shù)據(jù)稀疏的問題并且算法時(shí)間開銷大。針對(duì)句子或段落級(jí)的實(shí)時(shí)性對(duì)齊需求,提出了一種基于雙向詞典和語(yǔ)義相似度計(jì)算的高效詞對(duì)齊算法,通過采用動(dòng)態(tài)組塊切分和匹配、基于知網(wǎng)的語(yǔ)義相似度計(jì)算、基于最大匹配的沖突消解和剪枝消歧等策略,有效地解決了由于翻譯的靈活性和多樣性帶來的近似譯文的詞對(duì)齊問題。實(shí)驗(yàn)表明,該算法不僅繼承了基于詞典詞對(duì)齊算法的優(yōu)點(diǎn),同時(shí)還改進(jìn)了傳統(tǒng)基于詞典詞對(duì)齊算法的不足,有效提升了詞對(duì)齊的正確率和召回率,在小規(guī)模雙語(yǔ)語(yǔ)料和實(shí)時(shí)性對(duì)齊方面具有更好的適用性。

詞對(duì)齊;雙向詞典;動(dòng)態(tài)組塊切分和匹配;語(yǔ)義相似度計(jì)算

雙語(yǔ)語(yǔ)料庫(kù)(Bilingual Corpus)包含兩種不同語(yǔ)言間的互譯信息,是基于統(tǒng)計(jì)(Statistic-Based)機(jī)器翻譯[1]和基于實(shí)例(Example-Based)機(jī)器翻譯[2]的重要知識(shí)源之一,被廣泛應(yīng)用于詞典編纂、詞義消歧和命名實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)。然而,未經(jīng)任何處理的雙語(yǔ)語(yǔ)料庫(kù)(即生語(yǔ)料,Raw Corpus)不能直接應(yīng)用在相關(guān)的自然語(yǔ)言處理任務(wù)中。依據(jù)互譯片段的大小,雙語(yǔ)語(yǔ)料庫(kù)對(duì)齊分為多個(gè)層次:篇章對(duì)齊、段落對(duì)齊、句對(duì)齊和詞對(duì)齊。所謂詞對(duì)齊是指從源文和譯文中匹配詞語(yǔ)級(jí)別的對(duì)應(yīng)關(guān)系,詞語(yǔ)一級(jí)的對(duì)齊互譯片段最小,含有更細(xì)粒度的雙語(yǔ)互譯信息,需要豐富的資源和多種方法的融合,處理過程相比其他層次對(duì)齊更加復(fù)雜。

目前,詞對(duì)齊的處理方法主要有:

(1)基于統(tǒng)計(jì)的詞對(duì)齊方法:通過對(duì)大規(guī)模雙語(yǔ)語(yǔ)料的統(tǒng)計(jì)訓(xùn)練,獲得詞語(yǔ)一級(jí)的同現(xiàn)概率,把它作為詞對(duì)齊的依據(jù)。文獻(xiàn)[3]根據(jù)Brown[4]提出的基于信源信道模型的統(tǒng)計(jì)翻譯方法,實(shí)現(xiàn)了第一個(gè)詞對(duì)齊軟件包GIZA。文獻(xiàn)[5-6]對(duì)GIZA進(jìn)行優(yōu)化并發(fā)布新版的詞對(duì)齊軟件包,稱為GIZA++。基于統(tǒng)計(jì)翻譯模型方法的技術(shù)理論比較完善,主要不足是雙語(yǔ)語(yǔ)料庫(kù)規(guī)模的限制,難以避免數(shù)據(jù)稀疏的問題,并且算法時(shí)間開銷大,不適合小規(guī)模雙語(yǔ)語(yǔ)料庫(kù)、時(shí)間要求高的應(yīng)用。

(2)基于語(yǔ)言學(xué)的詞對(duì)齊方法:主要思想是利用語(yǔ)言資源和語(yǔ)言學(xué)知識(shí)來進(jìn)行詞語(yǔ)級(jí)別的對(duì)齊。很多學(xué)者依據(jù)該方法進(jìn)行了研究,如文獻(xiàn)[7]提出的基于雙語(yǔ)詞典的漢英詞對(duì)齊算法;文獻(xiàn)[8]基于錨點(diǎn)詞對(duì)的雙語(yǔ)詞對(duì)齊算法研究;文獻(xiàn)[9]基于語(yǔ)言學(xué)上相似性的觀點(diǎn)并充分利用語(yǔ)言學(xué)知識(shí)來進(jìn)行詞對(duì)齊。基于語(yǔ)言學(xué)的詞對(duì)齊方法可以獲得很高的對(duì)齊正確率,往往受到分詞準(zhǔn)確率以及雙語(yǔ)資源規(guī)模的影響,對(duì)齊召回率不高。因此,本文采用動(dòng)態(tài)組塊切分匹配方法和基于知網(wǎng)對(duì)未對(duì)齊的組塊進(jìn)行語(yǔ)義層面的相似度擴(kuò)展對(duì)齊加以處理。

近幾年,多位學(xué)者從不同的角度對(duì)詞對(duì)齊進(jìn)行了研究,如文獻(xiàn)[10]基于深度神經(jīng)網(wǎng)絡(luò)探索了一種新的詞對(duì)齊模型;文獻(xiàn)[11]從約束雙語(yǔ)命名實(shí)體之間的對(duì)齊角度出發(fā),提出了一種改進(jìn)詞對(duì)齊結(jié)果的方法;文獻(xiàn)[12]提出的基于對(duì)偶分解的詞對(duì)齊搜索算法,其基本思想是將復(fù)雜的問題分解為兩個(gè)相對(duì)簡(jiǎn)單的子問題,迭代求解直至收斂;文獻(xiàn)[13]為減少詞對(duì)齊的錯(cuò)誤,提出一種基于對(duì)齊困惑度的雙語(yǔ)語(yǔ)料過濾方法和一種改進(jìn)的判別式詞對(duì)齊算法。

本文使用英漢、漢英兩部詞典進(jìn)行詞對(duì)齊,因?yàn)樵~典含有豐富、高質(zhì)量的源語(yǔ)言(Source Language)和目標(biāo)語(yǔ)(Target Language)之間的互譯信息,是諸多自然語(yǔ)言處理任務(wù)的基礎(chǔ)性資源。目前,隨著詞典規(guī)模的不斷擴(kuò)充,充分利用現(xiàn)有的詞典來解決詞對(duì)齊問題已成為一種直接可靠的選擇。

針對(duì)句子或段落級(jí)的實(shí)時(shí)性對(duì)齊需求,本文提出一種基于雙向詞典和語(yǔ)義相似度計(jì)算的高效詞對(duì)齊算法,實(shí)現(xiàn)了一種即時(shí)性詞對(duì)齊方法,利用英漢、漢英兩部詞典進(jìn)行詞對(duì)齊,基本思想是雙向融合。本文使用詞典驅(qū)動(dòng)的動(dòng)態(tài)組塊切分匹配方法,不需要預(yù)先對(duì)漢語(yǔ)句子進(jìn)行分詞處理,有效避免了漢語(yǔ)分詞不當(dāng)而無法使用詞典進(jìn)行對(duì)齊的問題。另外,針對(duì)詞典的完備性問題,本文基于知網(wǎng)對(duì)未對(duì)齊的組塊進(jìn)行了語(yǔ)義層面的相似度擴(kuò)展對(duì)齊,明顯提高了對(duì)齊的召回率。

1 詞對(duì)齊的問題描述

詞對(duì)齊是在句對(duì)齊的基礎(chǔ)上,自動(dòng)獲得詞語(yǔ)一級(jí)的對(duì)應(yīng)關(guān)系。不同英漢句對(duì)間內(nèi)容和形式的差異,導(dǎo)致詞對(duì)齊存在多種復(fù)雜的對(duì)應(yīng)關(guān)系,如:一對(duì)一、多對(duì)一、一對(duì)多和多對(duì)多等。另外,英語(yǔ)和漢語(yǔ)分屬印歐語(yǔ)系和漢藏語(yǔ)系,各語(yǔ)言獨(dú)有的特點(diǎn)使得英漢雙語(yǔ)對(duì)齊不滿足順序上的絕對(duì)對(duì)齊,經(jīng)常出現(xiàn)前后交叉的現(xiàn)象。

圖1 詞對(duì)齊實(shí)例1

一對(duì)一:starboard[19,27]=> 右舷[4-5];probe[49,53]=> 探測(cè)器[12-14]

多對(duì)一:LunarModule′s[4,17]=> 登月艙[0-2]

圖2 詞對(duì)齊實(shí)例2

一對(duì)多:LRE[12,14]=> 液體火箭發(fā)動(dòng)機(jī)[0-6]

交叉現(xiàn)象:leak[4,7]=> 泄漏[8-9];LRE[12,14]=> 液體火箭發(fā)動(dòng)機(jī)[0-6]

英語(yǔ)多省略、漢語(yǔ)多補(bǔ)充的特點(diǎn)導(dǎo)致詞對(duì)齊中經(jīng)常出現(xiàn)空對(duì)和對(duì)空的現(xiàn)象(空對(duì),指譯文沒有對(duì)應(yīng)的源文;對(duì)空,指源文沒有對(duì)應(yīng)的譯文),如圖1、2所示:

空對(duì):NULL => 的[3-3];對(duì)空:a[19,19]=> NULL

目前,漢語(yǔ)中關(guān)于詞還沒有一個(gè)絕對(duì)統(tǒng)一的定義,漢語(yǔ)的分詞界限尚未徹底解決,這就是分詞顆粒度問題,相同的漢語(yǔ)句子在不同領(lǐng)域分詞結(jié)果也不盡相同。然而,現(xiàn)有的詞對(duì)齊方法很大程度上依賴于分詞的效果,如何解決分詞帶來的弊端,是英漢詞對(duì)齊中的關(guān)鍵問題。本文中,登錄詞和未登錄詞的界定以詞典為標(biāo)準(zhǔn),即詞典中出現(xiàn)的詞為登錄詞,否則為未登錄詞。

2 詞對(duì)齊算法描述

本文提出的方法不對(duì)漢語(yǔ)句子進(jìn)行分詞處理,而是使用詞典驅(qū)動(dòng)的動(dòng)態(tài)組塊切分匹配方法,避免了漢語(yǔ)分詞不當(dāng)而無法使用詞典進(jìn)行對(duì)齊的問題,提高了詞典的翻譯覆蓋率,并且算法很好地處理了英文節(jié)點(diǎn)相同,中文位置相交的情況以及N對(duì)N等問題。采用基于知網(wǎng)的語(yǔ)義相似度計(jì)算、基于最大匹配的沖突消解和剪枝消歧等策略,實(shí)現(xiàn)了雙語(yǔ)未對(duì)齊組塊間的擴(kuò)展對(duì)齊,提高了對(duì)齊召回率,算法流程如圖3所示:

圖3 算法流程圖

2.1 雙語(yǔ)句子處理

英文句子處理:按照英文為詞(空格作為自然分界符)、標(biāo)點(diǎn)符號(hào)獨(dú)立的原則,把英文句子最細(xì)化分詞形成獨(dú)立的單詞集合,記錄單詞的位置信息;然后,基于英漢詞典對(duì)集合中的英文單詞進(jìn)行組合,形成所有可能的詞或詞組,查詢英漢詞典,返回其對(duì)應(yīng)的所有中文譯項(xiàng)。將不能在詞典中查詢到的詞或詞組進(jìn)行詞形還原,包括名詞復(fù)數(shù)變換(specialists/specialist)、形容詞比較級(jí)、最高級(jí)變化(narrower/ narrow、warmest/ warm)、大寫變換(Appropriate / appropriate)以及動(dòng)詞時(shí)態(tài)還原(verified / verify、manufacturing/ manufacture);最后,對(duì)詞形還原的詞或詞組查詢英漢詞典,返回其對(duì)應(yīng)的所有譯項(xiàng)。

漢語(yǔ)句子處理:詞對(duì)齊中經(jīng)常會(huì)由于漢語(yǔ)分詞的差異而產(chǎn)生不同的對(duì)齊結(jié)果,從而影響對(duì)齊的準(zhǔn)確率和召回率,如圖4所示:

圖4 分詞不同產(chǎn)生不同的對(duì)齊結(jié)果

為了解決漢語(yǔ)分詞不當(dāng)產(chǎn)生的不完全對(duì)齊問題,降低漢語(yǔ)分詞增加的一對(duì)多、多對(duì)多等現(xiàn)象,算法不對(duì)漢語(yǔ)句子進(jìn)行預(yù)先確定性分詞處理,使用詞典驅(qū)動(dòng)的動(dòng)態(tài)組塊切分匹配方法。首先,按照漢語(yǔ)為字、標(biāo)點(diǎn)符號(hào)獨(dú)立的原則,把漢語(yǔ)句子最細(xì)化分詞形成獨(dú)立的字集合;然后,對(duì)集合中的字進(jìn)行組合,并以詞典是否包含該組合為標(biāo)準(zhǔn),得到所有可能的詞或詞組;最后,對(duì)得到的詞或詞組查詢漢英詞典,返回其對(duì)應(yīng)的所有英文譯項(xiàng)。

2.2 英中(EC)、中英(CE)單向詞對(duì)齊

在2.1節(jié)中,算法分別獲得基于英漢詞典、漢英詞典形成的譯項(xiàng)集合,EC單向?qū)R是對(duì)集合中的中文譯項(xiàng)元素逐一判斷的過程,當(dāng)與譯文中的詞或詞組匹配時(shí),則返回源文及其對(duì)應(yīng)的中文譯項(xiàng)元素作為EC單向?qū)R結(jié)果。

同理,CE單向?qū)R是對(duì)集合中的英文譯項(xiàng)元素逐一判斷的過程,當(dāng)與源文中的詞或詞組匹配時(shí),則返回譯文及其對(duì)應(yīng)的英文譯項(xiàng)元素作為CE單向?qū)R結(jié)果。

2.3 雙向?qū)R結(jié)果的合并

對(duì)EC、CE單向?qū)R結(jié)果進(jìn)行雙向合并,按照EC單向?qū)R結(jié)果從前向后、由長(zhǎng)到短排序,舍棄重復(fù)的對(duì)齊結(jié)果,保存全部可能的詞對(duì)齊結(jié)果,具體處理過程如下:

(1)中英文完全一樣的節(jié)點(diǎn),舍棄CE中的對(duì)齊結(jié)果,對(duì)齊等級(jí)(LEVEL)加1,LEVEL=2表示EC單向?qū)R和CE單向?qū)R均有對(duì)齊,如:

EC單向?qū)R結(jié)果:aerocraft[45,53]=> 飛行器[13-15]

CE單向 對(duì)齊結(jié)果:飛行器[13,15]=> aerocraft[45-53]

合并譯項(xiàng):aerocraft[45,53]=> 飛行器[13-15]LEVEL:2

(2)若英文的起始位置一樣,原節(jié)點(diǎn)的結(jié)束位置比新節(jié)點(diǎn)的結(jié)束位置要大,則保存CE中的對(duì)齊結(jié)果,如:

EC單向?qū)R結(jié)果:OrbitalModule[23,36]=> 軌道艙[15-17]

CE 單向?qū)R結(jié)果:軌道[15,16]=> Orbital[23-29]

保存全部譯項(xiàng): OrbitalModule[23,36]=> 軌道艙[15-17]LEVEL:2

Orbital[23,29]=> 軌道[15-16]LEVEL:2

(3)新節(jié)點(diǎn)的開始位置比原節(jié)點(diǎn)的開始位置要大,直接保存CE中的對(duì)齊結(jié)果。

2.4 雙向?qū)R結(jié)果的融合處理

對(duì)雙向合并對(duì)齊結(jié)果進(jìn)行融合處理,融合策略如下:

(1)英文節(jié)點(diǎn)相同、中文位置相交的情況,采取最大匹配的原則,選擇中文譯項(xiàng)最長(zhǎng)的對(duì)齊結(jié)果消解沖突,如:

infrastructure[45,58]=> 基礎(chǔ)設(shè)施[12-15]LEVEL:2

infrastructure[45,58]=> 基礎(chǔ)[12-13]LEVEL:2

保留對(duì)齊結(jié)果:infrastructure[45,58]=> 基礎(chǔ)設(shè)施[12-15]LEVEL:2

(2)英文節(jié)點(diǎn)相同、中文節(jié)點(diǎn)開始位置不同的情況:i)若待匹配的英文節(jié)點(diǎn)前面存在一個(gè)最近有效匹配的英文節(jié)點(diǎn),則記錄該英文節(jié)點(diǎn)對(duì)應(yīng)的中文譯項(xiàng)的開始位置信息;ii)否則,記錄后面一個(gè)最近有效匹配的英文節(jié)點(diǎn)對(duì)應(yīng)的中文譯項(xiàng)的開始位置信息。

把上面得到的開始位置信息作為參考點(diǎn)RePoint,計(jì)算它與待對(duì)齊中文節(jié)點(diǎn)之間的相對(duì)距離OpDist。算法按照最近原則匹配,保留相對(duì)距離最短的對(duì)齊結(jié)果,如:

chargedparticles[18,34]=> 帶電粒子[19-22]LEVEL:2

chargedparticles[18,34]=> 帶電粒子[35-38]LEVEL:2

最近有效匹配的對(duì)齊:accelerate[7,16]=> 加速[17-18]LEVEL:2

RePoint=17,OpDistA=︱17-19︱

保留對(duì)齊結(jié)果:chargedparticles[18,34]=> 帶電粒子[19-22]LEVEL:2

(3)匹配某個(gè)節(jié)點(diǎn)后,對(duì)其后續(xù)的節(jié)點(diǎn)進(jìn)行剪枝消歧處理:a)舍棄和已匹配的中文譯項(xiàng)相同的譯項(xiàng);b)把已匹配的英文開始、結(jié)束位置信息作為區(qū)間的左、右端點(diǎn),舍棄子區(qū)間對(duì)應(yīng)的所有譯項(xiàng)。如:

turbinepropulsion[12,29]=> 渦輪推進(jìn)[1-4]LEVEL:2

turbine[12,18]=> 渦輪[1-2]LEVEL:1

propulsion[20,29]=> 推進(jìn)[3-4]LEVEL:2

舍棄譯項(xiàng):turbine[12,18]=> 渦輪[1-2]LEVEL:1

propulsion[20,29]=> 推進(jìn)[3-4]LEVEL:2

2.5 基于語(yǔ)義相似度計(jì)算的擴(kuò)展對(duì)齊

我們對(duì)翻譯公司的調(diào)研發(fā)現(xiàn),翻譯人員在處理大規(guī)模翻譯任務(wù)時(shí)需要多人協(xié)作共同完成,不同翻譯人員的背景文化和語(yǔ)言習(xí)慣是不同的,相同的單詞往往會(huì)有不同的翻譯結(jié)果。另外,相同的源語(yǔ)言單詞(如:“capsule”)翻譯成目標(biāo)語(yǔ)言時(shí)有多種的表達(dá)方式(如:“太空艙”、“航天艙”和“密封艙”)。結(jié)合實(shí)際翻譯中語(yǔ)言表達(dá)的多樣性和翻譯的靈活性,詞典不可能完全收錄詞語(yǔ)的解釋。針對(duì)該問題,算法在進(jìn)行雙向融合處理之后,基于知網(wǎng)對(duì)未對(duì)齊的組塊進(jìn)行語(yǔ)義層面的相似度擴(kuò)展對(duì)齊,提高了對(duì)齊的召回率。

2.5.1 語(yǔ)義相似度計(jì)算

知網(wǎng)[14](HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。

關(guān)于詞語(yǔ)相似度的計(jì)算,文獻(xiàn)[15]基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算是這樣解釋的,對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2,如果W1有n個(gè)概念:S11,S12,……,S1n,W2有m個(gè)概念:S21,S22,……,S2m,則W1和W2的相似度是各個(gè)概念的相似度之最大值,如式(1)所示:

(1)

這樣,兩個(gè)詞語(yǔ)之間的相似度計(jì)算就歸結(jié)到了兩個(gè)概念之間的相似度計(jì)算。知網(wǎng)中的概念是用義原來表示的,所以義原相似度計(jì)算是概念相似度計(jì)算的前提。

文獻(xiàn)[16]從信息論的角度出發(fā),兩個(gè)事物的相似度不僅與其個(gè)性有關(guān),更應(yīng)與其共性有關(guān)。定義義原相似度計(jì)算公式如式(2)所示:

(2)

其中Depth(p)表示義原p在整體義原層次體系中所處的層數(shù)位置,即義原深度。Spd(p1,p2)、Dsd(p1,p2)分別表示義原p1和p2的重合度、相異度。

知網(wǎng)收錄的詞語(yǔ)分為虛詞和實(shí)詞兩類,由于虛詞和實(shí)詞的不可替換性,因此它們的概念相似度總為0;知網(wǎng)中虛詞的描述僅使用了“{句法義原}”或“{關(guān)系義原}”,對(duì)于虛詞之間的相似度只需計(jì)算虛詞對(duì)應(yīng)的句法義原(關(guān)系義原)間的相似度即可。

在知網(wǎng)中,實(shí)詞概念DEF項(xiàng)的描述分成4個(gè)部分:(1)第一基本義原;(2)其他基本義原;(3)關(guān)系義原;(4)符號(hào)義原。給出任意實(shí)詞概念S1和S2,其各部分的相似度分別為Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2),則兩個(gè)實(shí)詞的語(yǔ)義相似度如式(3)所示:

(S1,S2)Simi(S1,S2)

(3)

其中,βi表示可調(diào)參數(shù),分別描述了DEF項(xiàng)中各部分的權(quán)重,β1+β2+β3+β4=1,β1≥β2≥β3≥β4。式中通過第一部分對(duì)其他部分的語(yǔ)義相似度起強(qiáng)制制約作用,突出第一基本義原的重要程度。另外,文獻(xiàn)[16]通過對(duì)未登錄詞(知網(wǎng)中以外的詞)進(jìn)行概念切分、組合概念的語(yǔ)義自動(dòng)生成和相似度計(jì)算,解決了未登錄詞無法參與語(yǔ)義相似度計(jì)算的難題,基于知網(wǎng)實(shí)現(xiàn)了任意兩個(gè)漢語(yǔ)詞語(yǔ)在語(yǔ)義層面的相似度計(jì)算。本文基于上述方法來計(jì)算兩個(gè)漢語(yǔ)詞語(yǔ)的語(yǔ)義相似度,參數(shù)設(shè)置:β1=0.5,β2=0.2,β3=0.17,β4=0.13。

2.5.2 語(yǔ)義相似度的擴(kuò)展對(duì)齊

在很多情況下,待對(duì)齊詞語(yǔ)的譯項(xiàng)并沒有被詞典收錄,但其對(duì)應(yīng)的譯文和詞典的譯項(xiàng)在語(yǔ)義層面上具有極高的相似性,如表1所示:

表1 詞典譯項(xiàng)與未登錄詞的語(yǔ)義相似度

在進(jìn)行雙向融合處理之后,算法基于知網(wǎng)對(duì)未對(duì)齊的組塊進(jìn)行語(yǔ)義層面的相似度擴(kuò)展對(duì)齊。語(yǔ)義相似度擴(kuò)展對(duì)齊中融入停用詞過濾環(huán)節(jié),算法僅過濾英文和中文停用詞集合中包含的停用詞,保留含有停用詞的未對(duì)齊組塊(如:“a series of”、“give rise to”、“預(yù)期的”)。英文停用詞集合包含“it”、“the”、“at”、“of”等常見的停用詞129條;中文停用詞集合包含“的”、“著”、“啊”、“也好”等常見的停用詞200條。另外,為了解決“24.5±0.9%”、“#0”和英文縮寫之類的符號(hào),在2.1節(jié)英文句子處理時(shí)把所有單詞組合強(qiáng)制翻譯成本身。

基于知網(wǎng)的語(yǔ)義擴(kuò)展對(duì)齊流程:首先,在雙向融合詞對(duì)齊結(jié)果的基礎(chǔ)上對(duì)雙語(yǔ)句對(duì)過濾,獲得未對(duì)齊的英文片段和中文片段;然后,基于英漢詞典對(duì)未對(duì)齊的英文片段進(jìn)行英文最細(xì)化分詞、預(yù)處理及停用詞過濾等環(huán)節(jié),基于漢英詞典對(duì)未對(duì)齊的中文片段進(jìn)行最細(xì)化分詞處理及停用詞過濾處理;最后,基于知網(wǎng)進(jìn)行語(yǔ)義相似度的擴(kuò)展對(duì)齊,實(shí)現(xiàn)模糊匹配(Fuzzy Matching)。

模糊匹配采取最大匹配沖突消解原則和剪枝消歧策略,具體過程如下:(1)將未對(duì)齊的英文組塊形成的譯項(xiàng)集合分別與未對(duì)齊的中文組塊進(jìn)行語(yǔ)義相似度計(jì)算,滿足指定相似度閾值λ(本文中設(shè)λ=1.0)則進(jìn)行對(duì)齊,保留滿足閾值且最長(zhǎng)的英文組塊及譯文(對(duì)齊結(jié)果),并過濾已對(duì)齊的英文組塊及其包含的英文子組塊;(2)如果集合元素的每個(gè)中文譯項(xiàng)與全部中文組塊均達(dá)不到指定閾值,則刪除該英文組塊及其對(duì)應(yīng)的所有譯項(xiàng);(3)依次取得下一個(gè)英文組塊對(duì)應(yīng)的中文譯項(xiàng),循環(huán)執(zhí)行上述步驟,直到未對(duì)齊的英文組塊形成的譯項(xiàng)集合為空集,算法結(jié)束。

3 實(shí)驗(yàn)與分析

3.1 評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)用到的測(cè)試語(yǔ)料是一本系統(tǒng)工程(System Engineering)雙語(yǔ)書籍[17],共9章,約20萬字規(guī)模。該批語(yǔ)料的特點(diǎn)是專業(yè)術(shù)語(yǔ)豐富、內(nèi)容關(guān)聯(lián)度高、語(yǔ)言規(guī)范性強(qiáng)。從文章中隨機(jī)抽取500個(gè)句對(duì)作為標(biāo)準(zhǔn)測(cè)試集并進(jìn)行詞對(duì)齊的人工校對(duì)。使用的英漢、漢英詞典來自靈格斯中的朗道英漢、朗道漢英詞典,分別包含詞條數(shù)2,410,778條、2,248,593條。對(duì)齊結(jié)果使用準(zhǔn)確率、召回率和F值3個(gè)指標(biāo)進(jìn)行評(píng)價(jià),定義如式(4)、(5)、(6)所示:

(4)

(5)

(6)

本文使用詞典驅(qū)動(dòng)的動(dòng)態(tài)組塊切分匹配方法,不需要預(yù)先對(duì)漢語(yǔ)句子進(jìn)行分詞處理,有效避免了漢語(yǔ)分詞不當(dāng)而無法使用詞典進(jìn)行對(duì)齊的問題。傳統(tǒng)詞對(duì)齊方法需要對(duì)漢語(yǔ)句子進(jìn)行分詞處理之后再進(jìn)行對(duì)齊,把傳統(tǒng)詞對(duì)齊方法作為對(duì)比實(shí)驗(yàn)來驗(yàn)證預(yù)先分詞對(duì)于詞對(duì)齊的影響,漢語(yǔ)句子采用中科院分詞系統(tǒng),對(duì)齊結(jié)果(λ=1.0)如表2所示:

在基于知網(wǎng)的語(yǔ)義擴(kuò)展對(duì)齊中,為了避免過對(duì)齊現(xiàn)象,需要對(duì)相似度閾值λ進(jìn)行合理的設(shè)置。通過實(shí)驗(yàn)驗(yàn)證當(dāng)閾值λ設(shè)定為1.0時(shí),F(xiàn)-score最高,對(duì)齊效果最佳,如圖5所示:

表2 英漢詞對(duì)齊結(jié)果

圖5 不同λ值對(duì)詞對(duì)齊結(jié)果的影響

在配置為Win7系統(tǒng)、Intel(R)Core(TM)i3-2350M CPU @ 2.30GHz 2.30GHz、內(nèi)存2GB的機(jī)器上,實(shí)驗(yàn)總運(yùn)行時(shí)間為50 566 ms,平均運(yùn)行時(shí)間為101.13 ms/句對(duì)。

3.2 實(shí)驗(yàn)結(jié)果分析

分析表2和表3的實(shí)驗(yàn)數(shù)據(jù),可以得出:

(1)基于詞典的詞對(duì)齊方法,可以獲得很高的正確率。EC單向?qū)R、CE單向?qū)R和雙向融合3種方法分別取得85.66%、83.70%和93.28%的對(duì)齊正確率。歸因于詞典含有豐富的、高質(zhì)量的源語(yǔ)言和目標(biāo)語(yǔ)之間的互譯信息;

(2)盡管詞典規(guī)模足夠龐大,單向?qū)R結(jié)果的召回率依舊不高。影響召回率偏低的主要因素是系統(tǒng)輸出的正確對(duì)齊數(shù)太少,僅使用單向?qū)R方法不能得到較好的詞對(duì)齊效果;

(3)雙向融合的方法明顯提高了對(duì)齊的效果,相比EC單向?qū)R和CE單向?qū)RF值分別提高了10.51個(gè)百分點(diǎn)和14.79個(gè)百分點(diǎn)。相比雙向融合的方法,基于知網(wǎng)的語(yǔ)義相似度擴(kuò)展對(duì)齊明顯提高了對(duì)齊的召回率,從82.65%提高到90.35%;

(4)本算法平均運(yùn)行時(shí)間為每句對(duì)101.13 ms,實(shí)現(xiàn)了一種高效、實(shí)時(shí)性詞對(duì)齊算法;

(5)和傳統(tǒng)詞對(duì)齊方法對(duì)比,本文的方法有效避免了漢語(yǔ)分詞對(duì)詞對(duì)齊的影響。利用雙向融合思想和語(yǔ)義擴(kuò)展對(duì)齊獲得了高質(zhì)量的詞對(duì)齊資源。

4 結(jié)語(yǔ)

詞典含有豐富的、高質(zhì)量的源語(yǔ)言和目標(biāo)語(yǔ)言之間的互譯信息,是進(jìn)行雙語(yǔ)對(duì)齊最直接可靠的資源。針對(duì)句子或段落級(jí)的實(shí)時(shí)性對(duì)齊需求,本文提出基于雙向詞典和語(yǔ)義相似度計(jì)算的高效詞對(duì)齊算法,采取詞典驅(qū)動(dòng)的動(dòng)態(tài)組塊切分和匹配、最大匹配沖突消解原則、最近匹配原則和剪枝消歧策略,基于知網(wǎng)對(duì)未對(duì)齊的組塊進(jìn)行語(yǔ)義層面的擴(kuò)展對(duì)齊,在不降低對(duì)齊正確率的情況下明顯提高了對(duì)齊的召回率。通過實(shí)驗(yàn)驗(yàn)證,該方法可以得到高質(zhì)量的詞對(duì)齊資源,既可用于實(shí)際工程應(yīng)用,也為自然語(yǔ)言處理的許多任務(wù)提供了基礎(chǔ)性、有價(jià)值的詞對(duì)齊資源。此外,相比于基于統(tǒng)計(jì)的詞對(duì)齊方法,該方法在只有小規(guī)模語(yǔ)料和實(shí)時(shí)性對(duì)齊等方面具有更好的適用性。

[1]Brown P,Della P S,Della P V,et al.The mathematics of statistical machine translation:parameter estimation[J].Computational Linguistics,1993,19(2):263-311.

[2]Nagao M.A framework of a mechanical translation between japanese and english by analogy principle[A].In:A.Elithorn andR.Baneji,editors,Artificial and Human Intelligence,1984:173-180.

[3]AI-Onaizan Y,Curin J,Jahr M,et al.Statistical machine translation,final report,JHU workshop[DB/OL].http://www.clsp.jhu.edu/ws99/projects/mt/final_report/mt-final-report.ps,1999.

[4]Brown P F,Cocke J,Della-Pietra S A,et al.A statistical approach to machine translation[J].Computational Linguistics,1990,16(2):79-85.

[5]Och F J,Ney H.Improved statistical alignment models[C].Proceedings of 38th Annual Meeting of Association for Computational Linguistics.Hong Kong,China,2000:440-447.

[6]Och F J,Ney H.A comparison of alignment models for statistical machine translation[C].Proceedings of the 18th International Conference on Computational Linguistics.Saarbrucken,Germany,2000:1086-1090.

[7]鄧丹,劉群,俞鴻魁.基于雙語(yǔ)詞典的漢英詞對(duì)齊算法研究[J].計(jì)算機(jī)工程,2005,31(16):45-47.

[8]張孝飛,陳肇雄,黃河,等.基于錨點(diǎn)詞對(duì)的雙語(yǔ)詞對(duì)齊算法[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(2):330-334.

[9]晉薇,黃河燕,夏云慶.基于語(yǔ)義相似度并運(yùn)用語(yǔ)言學(xué)知識(shí)進(jìn)行雙語(yǔ)語(yǔ)句詞對(duì)齊[J].計(jì)算機(jī)科學(xué),2002,29(11):44-47.

[10]Yang N,Liu S J,Li M,et al.Word alignment modeling with context dependent deep neural network[C].Proceedings of 51th Annual Meeting of Association for Computational Linguistics.Sofia,Bulgaria,2013:166-175.

[11]羅維,吉宗誠(chéng),呂雅娟,等.一種改進(jìn)詞對(duì)齊的新方法[C].第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì).2010:292-298.

[12]沈世奇,劉洋,孫茂松.基于對(duì)偶分解的詞對(duì)齊搜索算法[J].中文信息學(xué)報(bào),2013,27(4):9-15.

[13]梁華參,趙鐵軍.統(tǒng)計(jì)機(jī)器翻譯中雙語(yǔ)語(yǔ)料的過濾及詞對(duì)齊的改進(jìn)[J].智能計(jì)算機(jī)與應(yīng)用,2013,3(4):10-14.

[14]董振東,董強(qiáng).《知網(wǎng)》[DB/OL].下載地址:http://www.keenage.com,1999.

[15]劉群,李素建.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002:59-76.

[16]夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007,33(6):191-194.

[17]張新國(guó).系統(tǒng)工程手冊(cè)[M].北京:機(jī)械工業(yè)出版社,2013:2-10.

(責(zé)任編輯:劉劃 英文審校:劉紅江)

Word-alignment algorithm combined with bidirectional dictionary and semantic similarity calculation

YIN Bao-sheng,YANG Yang

(Research Center for Human-Computer Interaction,Shenyang Aerospace University,Shenyang 110136,China)

Word-alignment based on statistical method requiresa large-scale bilingual corpus as input,soit is difficult to avoid the problem of data sparse and the algorithmtime overhead.This paper presents anefficient word-alignment algorithm based on bidirectional dictionary and semantic similarity calculation to satisfy the demand for real-time alignment of sentence or paragraph level.The approximate translation of word-alignment problem due to the flexibility and diversity of translation can beeffectively solved by taking dynamic block segmentation and matching,semantic similarity calculation based on the HowNet,the conflict resolution based on the maximum matching and the pruning disambiguation.Compared with the standard algorithm,the experimental results show that the accuracy rate and recall ratecan be effectively improved bythis alignment method on a small-scalebilingual corpus and real-timealignment with better adaptability.

word-alignment;bidirectional dictionary;dynamic block segmentation and matching;semantic similarity calculation

2014-10-08

遼寧省百千萬人才基金項(xiàng)目(項(xiàng)目編號(hào):04021401)

尹寶生(1975-),男,遼寧沈陽(yáng)人,副教授,主要研究方向:知識(shí)管理和機(jī)器翻譯,E-mail:ybs@ge-soft.com。

2095-1248(2015)02-0067-08

TP391

A

10.3969/j.issn.2095-1248.2015.02.014

猜你喜歡
組塊分詞詞典
橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
結(jié)巴分詞在詞云中的應(yīng)用
評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
值得重視的分詞的特殊用法
陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
英語(yǔ)詞匯組塊學(xué)習(xí)路徑研究——組塊法
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
《胡言詞典》(合集版)刊行
岢岚县| 长汀县| 赤水市| 昭通市| 乐陵市| 运城市| 高陵县| 浠水县| 五原县| 阳朔县| 包头市| 永登县| 双辽市| 海丰县| 莎车县| 湘阴县| 壤塘县| 施甸县| 朔州市| 辽阳县| 淳安县| 余干县| 阜阳市| 望都县| 保德县| 黄大仙区| 天全县| 枝江市| 科技| 茶陵县| 怀柔区| 井冈山市| 焉耆| 邵东县| 通州市| 大竹县| 扎兰屯市| 清远市| 太和县| 宁武县| 安康市|