基于對譯信息的漢英句子自動對齊①

2010-12-07 02:09:12張緒華

當(dāng)代外語研究 2010年9期

張緒華

(上海交通大學(xué),上海,200240)

引言

由于能夠提供兩種語言之間豐富的匹配信息,平行語料庫已經(jīng)成為語料庫語言學(xué)研究的一個重點,在語言對比研究、翻譯研究、外語教學(xué)、雙語詞典編纂以及機器翻譯等領(lǐng)域有著重要的應(yīng)用價值。國外已經(jīng)建成的大型平行語料庫有加拿大漢莎英—法平行語料庫、奧斯陸大學(xué)英語—挪威語平行語料庫等;國內(nèi)有中科院計算語言研究所的大規(guī)模漢—英對應(yīng)語料庫、北京大學(xué)計算語言學(xué)研究所等單位聯(lián)合開發(fā)可在線檢索的“BABLE漢—英平行語料庫”和北京外國語大學(xué)的“通用漢—英對應(yīng)語料庫”,以及上海交通大學(xué)在建的英漢雙向平行語料庫等。

建設(shè)平行語料庫面臨的瓶頸問題是語料庫文本語言單位對應(yīng)的精確性,這主要是不同的語言在語序、句子結(jié)構(gòu)和邏輯意義的表達(dá)方面都存在著明顯的差異(甄鳳超、張霞2004)。所謂平行語料庫的對齊指從源語言文本和翻譯文本中找出互譯片斷的過程,可實現(xiàn)為段落、句子、短語、單詞等不同級別的對齊。但目前研究者普遍采用的對齊方法或不適用于漢英語料的對齊或?qū)R精度不高。針對這些問題本文提出一種新的對齊方法:即“錨點②與重疊信息”(anchor and overlap)。這種方法能更大限度利用雙語文本中對譯的語言信息將文本對齊,避免了基于長度對齊方法的錯誤蔓延問題和基于詞匯對齊方法中由于錨點不足導(dǎo)致的對齊效果不理想的問題,提高了平行語料庫對齊的效率。

本文首先簡述已有的句子對齊方法,然后結(jié)合語言樣本實例,介紹基于“錨點與重疊信息”漢英句子自動對齊方法的步驟。

1. 已有對齊方法的簡介

在平行語料庫句子級對齊(記作AS)方法中,一個句子級對齊單位是一個二元組,記作AS=,其中Si和Ti分別由一個或多個自然句組成,Si與Ti之間具有“翻譯關(guān)系”(柏曉靜等2002)。一種語言中的一組句子在內(nèi)容上與另外一種語言中的一組句子具有對應(yīng)關(guān)系,這兩組句子就被稱做句對(Sentence alignment或bead)(Manning & Schütze 2001:468)。對應(yīng)語句有1∶0、0∶1、1∶1、1∶2、2∶1、1∶3、3∶1、2∶2等句對比例(設(shè)定冒號前為中文句數(shù),冒號后為英文句數(shù),即1∶2表示1句中文對應(yīng)2句英文,2∶1表示2句中文對應(yīng)1句英文,其余類推)(王克非2004∶101)。例1和例2分別為1∶1和1∶2句對示例:

例1:1:1句對:在這個美好的夜晚,我很高興同大家在這里相聚,參加2005年北京《財富》全球論壇的開幕式。

I am very delighted to be with you here to join in the opening ceremony of the 2005 Fortune Global Forum in Beijing on this beautiful evening.

例2:1:2句對:北京就是一座有3000多年悠久歷史的文明古城,800多年前北京開始建都。

The city of Beijing, with its long history of over 3,000 years, stands testimony to that effort.

It became the nation’s capital over 800 years ago.

用手工完成庫容龐大的平行語料庫的句子對齊不太現(xiàn)實,因此我們需要采用一定的方法,通過計算機程序?qū)崿F(xiàn)雙語文本的自動對齊。90年代初期國外學(xué)者開始了平行語料庫句子層次自動對齊的研究,并提出了幾種不同的方法,包括基于長度的對齊方法(length-based method)、基于詞匯的對齊方法(lexical-method)和基于長度和詞典相結(jié)合(the combination method)的對齊方法(黃俊紅、黃萍、范云2004)。

基于長度的對齊方法假定源語言文本的句子長度與譯文句子長度有很強的相關(guān)性,即源語言中的長句翻譯為目標(biāo)語時仍然是較長的句子,短句則翻譯為較短的句子。在基于長度的對齊方法中,有的研究以句子中的單詞數(shù)作為長度度量的方法(Brown 1991),有的以句子中的字符數(shù)作為長度度量的方法(Gale & Church 1993)。在語源相近的語言如英語和法語中,基于長度的對齊方法很有效。Brown和Gale分別用這兩種基于長度的方法對加拿大漢莎英—法雙語語料庫進(jìn)行自動對齊處理,準(zhǔn)確率達(dá)到98%以上(轉(zhuǎn)引自王建新 2005:121)?；陂L度對齊方法的特點是把句子對齊看作是句子長的函數(shù),并且不需要額外的詞典信息。缺點是一旦此方法偶然出錯,便不可能自動糾正,致使錯誤蔓延,對齊準(zhǔn)確率嚴(yán)重下降。

基于詞匯的對齊方法又被稱為基于詞典的對齊方法。Kay和R?scheisen(1993)最早提出基于雙語詞典的對齊方法,雙語詞典包含詞匯的對譯信息,是進(jìn)行詞對齊的重要資源。這種方法基于以下假設(shè),即包含最大數(shù)量對譯詞的一對句子是最佳對譯句?；谠~匯的對齊方法相對可靠準(zhǔn)確,但由于計算起來相當(dāng)復(fù)雜且速度較慢,目前還沒有充分證明基于詞匯的方法適合于大型語料庫(黃俊紅等 2004)。Church(1993)則采用同源詞法(cognate)進(jìn)行平行語料庫對齊。此方法假設(shè)兩種語言中有共同的前幾個字母的詞匯通常是互譯詞,并以這些互譯詞為錨點進(jìn)行對齊。由于英語和非印歐語系的漢語沒有同源詞根的存在,所以不可能將這種方法應(yīng)用于英漢平行語料的對齊。

以上兩種方法各有優(yōu)劣,研究人員試圖將它們結(jié)合起來使用,先利用雙語中對應(yīng)的詞匯信息對語料庫進(jìn)行對齊處理,無法對齊的部分再使用長度關(guān)系對齊或在基于長度對齊的基礎(chǔ)上,再利用詞匯對齊關(guān)系改進(jìn)對齊效果。Wu(1994,轉(zhuǎn)引自王建新 2005:122)用此方法對齊了相當(dāng)一部分漢英雙語的香港漢莎(Hong Kong Hansard)語料庫,準(zhǔn)確率達(dá)到92.1%。

各國學(xué)者陸續(xù)提出了各種對齊方法,但基本上多為以上三種方法的變形或改良,如McEnery和Oakes(2001)在CRATER項目中的對齊方法。針對漢英雙語對齊,國內(nèi)的劉昕等(1998),錢麗萍等(2000)研究者也進(jìn)行了一些改進(jìn)的對齊方法研究。目前很多學(xué)者在進(jìn)行雙語對齊研究時,大多數(shù)都是在段落對齊的基礎(chǔ)上進(jìn)行句子對齊的研究。

2. 錨點與重疊信息

英法等印歐語言之間存在巨大的相似性,已有專門軟件如Multiconcord對其進(jìn)行自動句對齊處理,精準(zhǔn)度很高。漢語和英語隸屬于不同的語系,兩者之間由于標(biāo)點、句式和語篇上的明顯差異,實際翻譯中常不以句子為單位翻譯,自動句對齊處理準(zhǔn)確度只有60%左右,因此這一工作仍需人工完成(Wang 2001)。北京大學(xué)計算語言學(xué)研究所同中國科學(xué)院計算技術(shù)研究所、清華大學(xué)智能技術(shù)國家重點實驗室聯(lián)合開發(fā)的“面向新聞領(lǐng)域的漢英機器翻譯系統(tǒng)”的句子自動對齊程序就是采用基于長度的方法,自動對齊結(jié)果仍需要人工校對(柏曉靜等2002)。

目前漢語和英語之間進(jìn)行句子層次的對齊方法尚不完善,本文認(rèn)為應(yīng)該充分利用雙語中的對譯信息,突破以往著眼于英語的對齊方法,將漢語作為源語言,英語作為目標(biāo)參照語言進(jìn)行對齊研究,并提出一種新的平行語料庫的對齊方法,即“錨點與重疊信息”。

“錨點與重疊信息”主要是基于如下思路:擁有最多共同錨點和重疊信息的n個(n≥0)漢語句子和n個(n≥0)英語句子被認(rèn)為是平行句對,并被整理為平行句對的形式。這種方法主要有五個步驟:

(1) 在漢英對譯文本中尋找對譯的錨點;

(2) 回譯英文為漢語并尋找重疊信息;

(3) 給錨點和重疊信息賦值;

(4) 標(biāo)記句子邊界并完成句子級的雙語對齊;

(5) 對自動對齊結(jié)果進(jìn)行人工校對,得到在句子層次上對齊,并帶正確的句子邊界標(biāo)記和對齊標(biāo)記的雙語平行語料庫。

我們以2005年胡錦濤同志在北京《財富》全球論壇開幕式上的講話的中英文材料作為語料來說明該方法的對齊步驟。語料漢語部分為2078個漢字,45個句子;對應(yīng)的英文為1356個單詞,51個句子。

雙語文本的對齊由程序自動實現(xiàn),然后由人工校對。我們的編程環(huán)境是Visual FoxPro 6.0。FoxPro具有軟件包和編程語言的特點,有著與自然語言相似的指令和函數(shù),能夠?qū)ξ促x碼或已賦碼的語料進(jìn)行處理,適合語言學(xué)計量研究(Fan 2005)。步驟(2)中使用的翻譯軟件是Dr. eye譯典通。

2.1 在漢英文本中尋找相對應(yīng)的錨點

Brown(1991)在對漢莎語料庫進(jìn)行對齊時,引入了錨點的概念,認(rèn)為錨點的作用就是將整個語料庫分成一些小的對齊片斷。錨點的自動提取算法已很完善,國內(nèi)外有很多學(xué)者做過大量的討論和嘗試,如K-vec算法和基于詞對匹配特征的DK-vec(Fung & McKeown,1994)算法,以及王斌(2000)針對以上方法的改進(jìn)算法等,在錨點的自動提取上都有很好的效果,我們在這里不再贅述。

現(xiàn)在假設(shè),我們有一個通過自動提取算法提取的漢英對應(yīng)錨點表。當(dāng)然此表不可能將文本中所有對應(yīng)詞囊括在內(nèi),而只包含部分對應(yīng)詞語。我們將每一對對應(yīng)錨點編號,號碼是不可譯的彼此相區(qū)別的符號。如圖1:

圖1 雙語對應(yīng)錨點及編號

2.2 回譯英文為漢語并尋找重疊信息

既然在步驟(1)中得到的錨點不可能包括文本中所有對譯詞,為了確保自動對齊的準(zhǔn)確率,應(yīng)該更大限度地利用漢英文本中的對譯信息資源,在漢英文本中尋找更多的對譯信息。具體做法是:將漢英文本中的對應(yīng)錨點用其相應(yīng)的編號依次代替(例1經(jīng)過替換成為例3),然后把替換后的英語文本用翻譯軟件Dr. Eye回譯成漢語(例4)。此時,經(jīng)過回譯的文本中沒有被替換為錨點編號的詞語被回譯成漢語,而代表錨點的編號則與漢語文本(例3)中的一致。

例3:在這個a6的a5,我很高興同大家在這里相聚,a8 a9年a10《a11》全球a12的a13式。

I am very delighted to be with you here to a8 in the a13 ceremony of the a9 a11 Global a12 in a10 on this beautiful a5.

例4:我很高興能與你在這里a8在a13典禮,這個a9a11的全球a12在a10在這片美麗的a5。

不難發(fā)現(xiàn),例3和例4擁有相同的錨點a5、a8、a9、a11、a12和a13等,以及一些相同的詞語,如,“我”、“很”、“高興”以及“全球”等。這些詞語就是“錨點與重疊信息”中的重疊信息。重疊信息包含漢英文本中提取對應(yīng)錨點后剩下的對譯信息,如對譯的動詞、形容詞、副詞,還包括在自動提取錨點過程中漏掉的對譯的名詞等。重疊信息將在自動對齊時對數(shù)量有限的錨點起到補充的作用,降低由于錨點不匹配造成的句對錯誤對齊的幾率,提高對齊的準(zhǔn)確性。

2.3 錨點與重疊信息的賦值

接下來給錨點和重疊信息賦值。觀察經(jīng)過步驟(1)和(2)處理過的文本,我們發(fā)現(xiàn)重疊信息可靠性相對較低。原因在于英語自動譯回漢語時很多句子中都出現(xiàn)了“的”、“了”或“是”等漢字,降低了其作為重疊信息的可靠性,因此我們賦予重疊信息低于錨點的權(quán)值,重疊信息賦值為1,錨點的權(quán)值賦為2。

2.4 標(biāo)記句子邊界并完成句子級的雙語對齊

此步驟要完成漢英文本句子邊界的標(biāo)記,以及句子級對齊。首先由程序自動完成句子的邊界標(biāo)記,然后把替換了錨點的漢語文本和回譯為漢語的文本分別進(jìn)行詞類歸并(tokenization)。歸并后的漢語文本作為源語言,抽取其中第1句,與回譯的漢語文本的1～10句分別疊加(從回譯的漢語文本中抽取句子的具體數(shù)量需根據(jù)漢英文本間句對數(shù)差別而定。由于語料分別為45個漢語句子和51個英語句子,相差不到10個句子,所以我們把參數(shù)設(shè)為10),其中權(quán)值最高的就被確定為對應(yīng)句對(權(quán)值相同的句對需人工處理),并進(jìn)行對應(yīng)句對的記錄,以此類推。標(biāo)注后用同樣的方法處理沒有找到對應(yīng)漢語句的英語句,直到全部雙語句子找到相對應(yīng)的句子。

圖2 對應(yīng)句對記錄

圖2為對應(yīng)句對的記錄,豎列代表漢語,橫列代表英語。橫列和數(shù)列的交值為兩個句子的權(quán)值,Freq列為最大的權(quán)值,最后一列Sentali即為最高權(quán)值的句對,S1代表漢語第一句,冒號后的S1表示對應(yīng)英語第一句。最后程序按照Sentali中對應(yīng)句對記錄抽取漢語原文和英語譯文句子進(jìn)行對齊實現(xiàn)(見圖3),自動對齊的準(zhǔn)確率達(dá)到90%以上。

圖3 自動對齊結(jié)果

2.5 對自動對齊結(jié)果進(jìn)行人工校對

通過對自動對齊結(jié)果的人工校對,我們得到了100%對齊的漢英平行語料庫(例5)。我們對語料庫進(jìn)行了簡單的對齊標(biāo)注,表示此句為漢語,S10表示該句為此文本的第十句。例5中第一個句對是一個1∶2的漢英句對,其它為1∶1句對。

例5:

s10北京就是一座有3000多年悠久歷史的文明古城,800多年前北京開始建都。s10.1 The city of Beijing, with its long history of over 3,000 years, stands testimony to that effort.s10.2 It became the nation’s capital over 800 years ago.s11 離今晚會場人民大會堂不遠(yuǎn)的地方,就是舉世聞名的故宮。s11 A short distance from the Great Hall of the People, where we are in right now, is the world-renowned Forbidden City.s12 故宮始建于600年前,是世界上現(xiàn)存最大最完整的古代宮殿建筑群。s12 First built some 600 years ago, the former Imperial Palace is the largest and most complete existing ensemble of ancient royal architecture in the world.

3. 小結(jié)

本文介紹了一種以漢語作為源語,英語作為目標(biāo)參照語,利用漢英中的對譯信息進(jìn)行句子層次對齊的“錨點與重疊信息”方法。這種方法在處理漢英語料對齊時具有很好的效果,其基本思路為:擁有最多共同錨點和重疊信息的n個(n≥0)漢語句子和n個(n≥0)英語句子被認(rèn)為是平行句對,并被整理為平行句對的形式。這種方法的不足之處在于過分依賴語言資源以及翻譯軟件,希望在后續(xù)的大型語料庫對齊研究中加強對齊算法本身的復(fù)雜性,以減輕對語言資源的依賴。與其他對齊方法相比,這種方法能更大限度地利用雙語文本中的對譯信息,避免基于長度的方法的錯誤蔓延問題和基于詞匯方法的錨點不足導(dǎo)致的對齊效果不理想的問題,并且取得了很好的實踐應(yīng)用效果。

附注:

① 衷心感謝范鳳祥教授在筆者撰寫本文過程中給予的悉心指導(dǎo)。

② 錨點即在雙語文本中相似位置出現(xiàn)的詞匯對譯信息,是進(jìn)行對齊的重要資源,主要包括雙語對譯的專有名詞、普通名詞、數(shù)字和標(biāo)點符號等(McEnery & Oakes,2001:213)。

Brown P. F. 1991. Aligning sentences in parallel corpora [A].Proceedingsofthe29thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Berkeley, CA, USA: 169-176.

Church, L. W. 1993. Char_align: A program for aligning parallel texts at the character level [A].Proceedingsofthe31thAnnualMeetingoftheAssociationforComputationalLinguistics[C]. Columbus, Ohio: 1-8.

Fan Fengxiang. 2005. Quantitative linguistic computing with FoxPro [A]. In Kalius?enko, V, K?ehler R & V. Levickij (eds.).ProblemsofQuantitativeLinguistics:ACollectionofPapers[C].Chernivtsi: Ruta: 335-348.

Fung Pascale & Kenneth W. Church. 1994. K-vec: A new approach for aligning parallel texts [A].Proceedingsofthe15thInternationalConferenceonComputationalLinguistics[C]. Kyoto/Japan: 1096-1102.

Fung Pascale & Kathleen R. McKeown. 1994. Aligning noisy parallel corpora across language groups: Word pair feature matching by dynamic time warping [A].Proceedingsofthe1stConferenceoftheAMTA[C]. Columbia/Maryland, Association for Machine Translation in the Americas.

Gale, W. & K. Church. 1993. A program for aligning sentences in bilingual corpora [J].ComputationalLinguistics19 (1): 75-102.

Kay, Martin & Martin R?scheisen. 1993. Text-translation alignment [J].ComputationalLinguistics(19): 121-142.

Manning Christopher D. & H. Schütze. 2001.FoundationsofStatisticalNaturalLanguageProcessing[M]. Cambridge: MIT Press.

McEnery Tony & M. Oakes. 1996.SentenceandwordalignmentintheCRATERproject[A]. In Jenny Thomas & Mick Short (eds.).UsingCorporaforLanguageResearch[C]. London: Longman: 211-231.

Wang, L. X. 2001. Exploring parallel concordancing in English and Chinese [J].LanguageLearning&Technology(3): 174-178.

柏曉靜、常寶寶、詹衛(wèi)東.2002.構(gòu)建大規(guī)模的漢英雙語平行語料庫[A].黃河燕主編.2002全國機器翻譯研討會文集:機器翻譯研究進(jìn)展[C].北京:電子工業(yè)出版社:124-131.

黃俊紅、黃萍、范云.2004.專門用途語類翻譯平行語料庫研究述評[J].重慶大學(xué)學(xué)報(社會科學(xué)版)(6):91-94.

劉昕、周明、朱勝火、黃昌寧.1998.基于自動抽取詞匯信息的雙語句子對齊[J].計算機學(xué)報(8):151-158.

錢麗萍、趙鐵軍、楊沐昀、高光來.2000.基于譯文的英漢雙語句于自動對齊[J].計算機工程與應(yīng)用(12):59-61.

王斌.2000.基于未對齊漢英雙語庫的翻譯對抽取[J].中文信息學(xué)報(6):40-44.

王建新.2005.計算機語料庫的建設(shè)與應(yīng)用[M].清華大學(xué)出版社,北京.

王克非.2004.雙語對應(yīng)語料庫研制與應(yīng)用[M].外語教學(xué)與研究出版社,北京.

甄鳳超、張霞.2004.語料庫語言學(xué)發(fā)展趨勢瞻望——2003語料庫語言學(xué)國際會議綜述[J].外語界(4):74-76.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡