李賢華,于 淼,蘇勁松,呂雅娟
(中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
機(jī)器翻譯是使用計(jì)算機(jī)進(jìn)行翻譯工作的技術(shù)。從1949年Weaver提出機(jī)器翻譯的概念至今,短短半個世紀(jì)中,機(jī)器翻譯技術(shù)在各個領(lǐng)域發(fā)揮著越來越大的作用,人們在機(jī)器翻譯領(lǐng)域取得了很多階段性的成果[1-3]。題錄信息的翻譯,是機(jī)器翻譯的任務(wù)之一。隨著信息社會的不斷發(fā)展,題錄信息的翻譯會有廣闊的應(yīng)用前景,比如名片翻譯、專利人信息翻譯、刊物作者信息翻譯、英文信函地址翻譯等。
題錄信息是書籍、科技文獻(xiàn)、專利文獻(xiàn)等的一個重要組成部分,它通常包含標(biāo)題、人名、地址、組織機(jī)構(gòu)名、公司名以及郵箱地址等。本文主要處理題錄信息中人名、地址、組織機(jī)構(gòu)名和公司名的翻譯。由于這些信息具有上下文無關(guān)性、類型容易確定等特點(diǎn),其翻譯相對于其他內(nèi)容的翻譯來說目標(biāo)更明確、精度更高。在現(xiàn)代化的信息社會中,題錄信息的翻譯在政治、經(jīng)濟(jì)、外交、貿(mào)易、旅游、新聞出版、文化交流以及日常生活中都有著重要的應(yīng)用。當(dāng)前研究人名翻譯的工作很多,文獻(xiàn)[4]等提出了人名翻譯的許多注意事項(xiàng),但提出人名翻譯的通用方法的文獻(xiàn)較少;研究地名翻譯的工作也層出不窮[5-6],但是針對地址翻譯的工作較少;還有一些工作致力于從雙語語料庫中獲得翻譯[7],但這些方法受到語料規(guī)模和時期的限制。目前大量題錄信息的翻譯工作是人工完成的。人工翻譯雖然有著較高的翻譯質(zhì)量,但是其耗時長,占用資源多,不適合大規(guī)模的翻譯。這些都是本文將解決的問題。
本文主要設(shè)計(jì)了題錄信息中人名、地址、機(jī)構(gòu)名和公司名的機(jī)器翻譯方法。采用的方法主要是詞典查找和規(guī)則翻譯等。對于中國人名,本文使用拼音轉(zhuǎn)換的方法進(jìn)行翻譯,即通過查看漢字拼音轉(zhuǎn)換表對漢字進(jìn)行翻譯;對于日本人名,本文設(shè)計(jì)了假名轉(zhuǎn)換的方法,即首先將中文的日本人名轉(zhuǎn)換為假名,再將假名轉(zhuǎn)換為相應(yīng)的羅馬字母的方法;對于歐美國家人名,本文設(shè)計(jì)了同音轉(zhuǎn)換的方法,即讀音相同的歐美國家人名,其對應(yīng)的譯文也相同;對于地址、機(jī)構(gòu)名和公司名,本文提出了先切分、再翻譯、最后調(diào)序的翻譯流程。用漢語拼音拼寫中國人名和地址,更加有利于不同國家的人們了解中國文化,也更加方便外界與國人的溝通交流,是中國和全世界的標(biāo)準(zhǔn)。
本文的組織如下:第2節(jié)詳細(xì)介紹了人名翻譯的主要方法和策略,針對中國人名、日本人名和歐美人名的特點(diǎn),分別設(shè)計(jì)了相應(yīng)的翻譯方法;第3節(jié)介紹了地址翻譯的方法,將地址翻譯的過程分為地址切分、局部翻譯、譯文調(diào)序三大部分,并給出了每一步的具體過程;第4節(jié)主要介紹了如何翻譯機(jī)構(gòu)名和公司名,其翻譯方法與地址翻譯的方法類似。在第5節(jié)中,介紹了實(shí)驗(yàn)情況,經(jīng)過人工隨機(jī)抽樣測試,本文設(shè)計(jì)的翻譯方法能夠很好的翻譯人名、地址、機(jī)構(gòu)名和公司名。最后一節(jié),我們對本文的工作進(jìn)行了總結(jié),并指出未來研究工作的方向。
人名是意義相對較少的專有名詞,是所指稱對象的一個對應(yīng)符號。一般地,人名的翻譯方法主要有書寫形態(tài)借用、語音借用、語義翻譯三種。當(dāng)兩種語言處于相同或者相似的文字系統(tǒng)中時,一般采用書寫形態(tài)借用的翻譯方法;當(dāng)兩種語言處于不同的文字系統(tǒng)中時,語音借用起了很大的作用[8];當(dāng)人名有著特殊的意義時,一般采用語義翻譯的方法。由于漢語和英語處于不同的文字系統(tǒng),本文主要采用語音借用的翻譯方法。
本文主要處理三類人名:中國人名、日本人名以及歐美國家人名。人名首先經(jīng)過詞典進(jìn)行切分查找翻譯;不能通過詞典得到翻譯的人名,將首先通過人名分類器得到其對應(yīng)的類別,然后根據(jù)類別使用不同的翻譯方法進(jìn)行翻譯。
詞典是在進(jìn)行題錄信息翻譯時的輔助資源。由于題錄信息的翻譯相對于長句的翻譯來說,內(nèi)容簡短、存儲空間小、查詢效率高,因此,題錄信息的機(jī)器翻譯借助于詞典,顯然是簡單可行的方法。同時,詞典提供給用戶靈活添加詞典詞條的接口,從而極大的提高翻譯質(zhì)量。另外,對于一些有歧義的翻譯項(xiàng),將其添加進(jìn)詞典后,由于詞典的優(yōu)先級較高,譯文優(yōu)先選擇詞典內(nèi)的翻譯項(xiàng),可以盡量避免歧義造成的干擾。
本文針對人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯,分別開發(fā)了三本詞典:人名詞典、地名詞典、機(jī)構(gòu)公司詞典,以此來翻譯不同的內(nèi)容。三部詞典均存儲在數(shù)據(jù)庫中,其中每個詞條包含如下特征:序號、中文端、英文端、所在詞典、用戶ID、添加時間、是否使用、是否審批等。
除了用戶詞典,本文還用到了LDC命名實(shí)體詞典*http://projects.ldc.upenn.edu/Chinese/.。LDC在語料資源的開發(fā)加工方面做了大量工作,是國際上自然語言處理方向最大的資源共享發(fā)布平臺。本文使用LDC開發(fā)的命名實(shí)體詞典,來輔助題錄信息的翻譯。
在進(jìn)入題錄信息翻譯模塊時,首先查找詞典,如果詞典中已包含需要翻譯的詞條,那么,直接將其對應(yīng)的翻譯取出,作為翻譯結(jié)果;否則,進(jìn)入規(guī)則翻譯流程,用規(guī)則方法實(shí)現(xiàn)詞條的翻譯。
使用拼音轉(zhuǎn)換等方法,已經(jīng)可以翻譯題錄信息的大部分內(nèi)容,但仍有少數(shù)的翻譯結(jié)果差強(qiáng)人意。本系統(tǒng)提供給用戶自行添加詞典詞條的接口,用戶可以動態(tài)地加入自定義的詞典詞條,從而明顯提高了翻譯質(zhì)量。
由于在人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯的模塊中,對詞典的使用與維護(hù)類似,因此這里一并作出論述,下面不再累述。
人名判斷器的主要作用是判斷人名所屬的類別,其主要利用人名的姓氏特征、字符特征和長度特征進(jìn)行判斷。中國人名、日本人名和歐美國家人名的姓氏有顯著的不同,按照姓氏特征可以基本區(qū)分這三種人名。本文收集了中國姓氏494個,日本姓氏9 973個(其中有對應(yīng)翻譯的姓氏為3 617個),以此識別絕大部分的中國人名和日本人名。字符特征主要用來識別歐美國家人名。歐美國家的正式人名,姓氏與名字之間多用“·”間隔,大多數(shù)名字帶有字母,這是中國人名和日本人名不具備的特征。通過符號特征可以將歐美國家人名識別出來。長度特征主要用來判斷通過姓氏特征和符號特征無法識別的人名。
針對上述三類人名,本文分別使用三種不同的方法進(jìn)行翻譯,其主要流程如圖1所示。
圖1 人名翻譯主要流程
對于中國人名,主要采用拼音借用的方法。漢語的文字系統(tǒng)和英語的文字系統(tǒng)雖然不相容,但是羅馬化的漢語拼音和英語形成了一種特殊的書同文關(guān)系,中國人名通過漢語拼音直接借用為英語人名,在理論和實(shí)際操作中都是可行的。比如中國人名“李志強(qiáng)”,直接用拼音“Zhiqiang Li”作為其翻譯即可。對于日本人名,主要采用假名轉(zhuǎn)換的方法。假名轉(zhuǎn)換,指的是通過假名做中間橋梁,首先將漢字的日本人名轉(zhuǎn)換為對應(yīng)的假名形式,再根據(jù)假名的發(fā)音,將其轉(zhuǎn)換為對應(yīng)的羅馬字母。比如日本人名“藤田良雄”,首先將其用假名“ふじた よしお”表示,再根據(jù)假名的讀音,轉(zhuǎn)換為“Fujita Yoshio”即可。而對于歐美國家人名,如“R.A.戴維森”,則根據(jù)字符“.”進(jìn)行切分后,再逐個進(jìn)行翻譯。對于切分后的每個單元,將其轉(zhuǎn)換為拼音,如果與詞典中詞條的拼音相同,則將其對應(yīng)翻譯選為譯文,這樣,可以增加詞典中詞條的匹配率。
地址的翻譯,指的是將中文的地址翻譯為英文的地址。本文主要設(shè)計(jì)了中國地址、日本地址和歐美國家地址的翻譯方法。本文收集了中國省市區(qū)縣的名字共2 381個,全世界國家名220個,作為地址切分和翻譯的基礎(chǔ)。另外,中文地址的書寫特點(diǎn)是先大后小,即將區(qū)域范圍廣的內(nèi)容放在前面,區(qū)域范圍窄的內(nèi)容放在后面;而英文地址的書寫恰好相反。一般地,地址翻譯的主要原則是先小后大,本文采用譯文調(diào)序的方法,實(shí)現(xiàn)譯文的先小后大排列。
地址翻譯的主要流程是:先切分,再翻譯,最后調(diào)序。
地址切分,指的是將長串的地址切分為有獨(dú)立意義的較小單元,方便下一步的翻譯[9]。地址切分的主要依據(jù)是詞典和切分關(guān)鍵詞。地址切分使用“前向最大匹配法”,并優(yōu)先考慮詞典中的詞條。由于中國地址和日本地址、歐美地址的切分關(guān)鍵詞不盡相同,本文設(shè)計(jì)了兩組切分關(guān)鍵詞表,一組用來切分中國地址,一組用來切分外國地址。部分切分關(guān)鍵詞見表1。
表1 部分切分關(guān)鍵詞
比如地址:安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室。根據(jù)關(guān)鍵詞表,可以切分為:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6 幢 4 單元 102 室。
局部翻譯,指的是將切分得到的各個單元分別翻譯為英文。翻譯的主要方法是查詞典和拼音轉(zhuǎn)換:對于切分后得到的每一個單元,首先通過查詞典得到翻譯;對于查字典后沒有翻譯的單元,將符合條件的單元進(jìn)行拼音轉(zhuǎn)換,以得到其對應(yīng)翻譯。此處的符合條件,指的是該單元的最后部分在拼音轉(zhuǎn)換關(guān)鍵詞表中。部分拼音轉(zhuǎn)換關(guān)鍵詞見表2。
上述切分后的地址:安徽省 蕪湖市 新蕪區(qū) 蓮塘村 芙蓉園 6幢 4單元 102 室,經(jīng)過地址翻譯后的結(jié)果為:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102.
切分關(guān)鍵詞表以及拼音轉(zhuǎn)換關(guān)鍵字表可以隨時進(jìn)行修改和維護(hù),以提高地址翻譯的準(zhǔn)確率。
表2 部分拼音轉(zhuǎn)換關(guān)鍵詞
譯文調(diào)序,即將翻譯后的譯文進(jìn)行一定的調(diào)序,使其符合英文的書寫習(xí)慣。譯文的調(diào)序需要滿足一定的規(guī)律,上述翻譯后的地址:Anhui Province, Wuhu City, Xinwu District, Liantang Residential, Furongyuan, Building 6, Unit 4, Room 102,進(jìn)行倒置后得到: Room 102, Unit 4, Building 6, Furongyuan, Liantang Residential, Xinwu District, Wuhu City, Anhui Province。此即原地址“安徽省蕪湖市新蕪區(qū)蓮塘村芙蓉園6幢4單元102室”的最終翻譯結(jié)果。國外地址與國內(nèi)地址一樣,只是使用了不同的切分關(guān)鍵詞表。
地址除了包含地址信息外,還會包含機(jī)構(gòu)名、公司名等復(fù)雜地址信息。這部分內(nèi)容的翻譯,將在第4部分得到闡述。
機(jī)構(gòu)名和公司名的翻譯過程,與地址的翻譯過程類似,即遵循“先切分,再翻譯,最后調(diào)序”的翻譯流程。相對地址翻譯而言,機(jī)構(gòu)名和公司名的切分比較簡單,倒置規(guī)則也較簡單。由于機(jī)構(gòu)名和公司名中有些部分不能直接用拼音轉(zhuǎn)換的方法進(jìn)行翻譯,其對詞典的依賴程度相對較高。
本文收集并整理了常見的機(jī)構(gòu)和公司后綴名327個,并設(shè)計(jì)了他們的對應(yīng)翻譯。常見的機(jī)構(gòu)和公司的后綴名及其翻譯如表3所示。
表3 常見的機(jī)構(gòu)和公司的后綴及其翻譯
對于機(jī)構(gòu)名和公司名,首先識別其所屬地信息并進(jìn)行切分,再結(jié)合用戶詞典、LDC詞典以及后綴表進(jìn)行切分,接著對各個部分進(jìn)行翻譯,最后進(jìn)行一定的調(diào)序。
例如機(jī)構(gòu)名“深圳華為通信技術(shù)有限公司”,經(jīng)過切分后,得到“深圳 華為 通信技術(shù)有限公司”;經(jīng)過翻譯后,得到“Shenzhen Huawei Communication and Technology Co.Ltd”;經(jīng)過調(diào)序,得到最終翻譯“Huawei Communication and Technology Co.Ltd, Shenzhen”。
本文對于人名翻譯、地址翻譯、機(jī)構(gòu)名和公司名翻譯這三個模塊分別進(jìn)行了測試。本文所用的樣例來自于13 477篇專利文件的題錄信息。經(jīng)過去重處理,最終得到總數(shù)據(jù)量為22 705個人名、6 431個地址以及7 709個機(jī)構(gòu)名和公司名。測試樣例從數(shù)據(jù)中隨機(jī)抽樣產(chǎn)生,分別抽取了中國人名、日本人名、歐美國家人名、地址、機(jī)構(gòu)名和公司名各200條。本文所進(jìn)行的測試,均是在沒有使用詞典的基礎(chǔ)上進(jìn)行的。如果添加詞典,翻譯效果將會得到極大的提升。
對于人名翻譯模塊,本文主要測試了人名判斷器的正確率以及人名的翻譯率。人名判斷器的正確率對于人名翻譯有著重要的意義,因此必須保證人名判斷器有較高的準(zhǔn)確率。人名翻譯率主要是測試在沒有外加詞典的情況下,人名得到正確翻譯的情況。
本文隨即抽取了中國名字、日本名字、歐美國家名字各200個。通過人名判斷器后,統(tǒng)計(jì)得到人名判斷器的分類正確率,再經(jīng)過人名翻譯模塊,最終翻譯結(jié)果的翻譯率進(jìn)行統(tǒng)計(jì)(見表4)。
表4 人名翻譯模塊測試結(jié)果
實(shí)驗(yàn)結(jié)果表明,人名翻譯模塊在沒有添加詞典的情況下,可以很好的完成中國人名的翻譯;日本人名的姓氏基本可以得到翻譯,名字則需要借助詞典;歐美國家的人名則主要依賴詞典中的詞條。由于文中實(shí)驗(yàn)均在不加詞典的前提下進(jìn)行,因此歐美國家人名的翻譯率并沒有進(jìn)行測試。
對于地址翻譯模塊,本文主要測試了地址的切分正確率以及翻譯正確率。地址的切分正確率指的是在地址切分過程中的正確率。如果將人工切分得到的地址塊數(shù)量記為N,機(jī)器切分的地址塊中,與人工切分相同的地址塊數(shù)量記為n,則地址切分正確率為:n/N×100%。地址的翻譯正確率率指的是正確切分并正確翻譯的地址塊部分,占人工切分的地址塊的比例。
本文隨機(jī)抽取了200條地址作為測試語料進(jìn)行翻譯。通過人工分析,最終測得該模塊的切分正確率為92.2%,翻譯正確率率為84.8%。切分錯誤大多數(shù)是由地址信息本身較為復(fù)雜引起的,比如地址“廣東省深圳市福田區(qū)福華三路與民田路交界處星河國際花園A2座11”,此處的“福華三路與民田路交界處”并不符合一般的地址寫法,因此發(fā)生切分錯誤。但是,如果把“福華三路與民田路交界處”作為詞條加入詞典,則根據(jù)詞典的優(yōu)先權(quán),此地址可以得到正確的切分。
實(shí)驗(yàn)表明,中國的絕大部分地址,都可以通過拼音轉(zhuǎn)換的方法得到對應(yīng)的翻譯。外國地址的翻譯,主要依靠詞典以及規(guī)則翻譯。
機(jī)構(gòu)名和公司名翻譯模塊的測試方法與地址翻譯模塊的測試方法類似。本文同樣測試了該模塊的切分正確率和翻譯正確率。
本文隨機(jī)抽取了200條機(jī)構(gòu)名及公司名作為測試語料,經(jīng)過切分、翻譯以及人工分析,得到該模塊的切分正確率為99.2%,翻譯正確率為63%。實(shí)驗(yàn)表明,在機(jī)構(gòu)名和公司名中,所屬地信息基本都可以得到翻譯,后綴的翻譯效果也較好,翻譯正確率率偏低主要是受機(jī)構(gòu)名和公司名中間的名稱部分的影響。比如公司名“吳江福華織造有限公司”,切分后得到“吳江 福華織造 有限公司”;此時“吳江”和“有限公司”可以得到很好的翻譯,“福華織造”的翻譯則需要依靠詞典。
實(shí)驗(yàn)表明,機(jī)構(gòu)名和公司名的大部分可以通過拼音轉(zhuǎn)換的方法得到對應(yīng)翻譯,如果加入詞典,則翻譯效果可以得到極大的提升。
本文主要針對題錄信息的不同特征,使用詞典以及規(guī)則,設(shè)計(jì)了不同的方法對人名、地址、機(jī)構(gòu)名和公司名進(jìn)行翻譯。對于人名翻譯,本文提出了詞典查找、拼音轉(zhuǎn)換、假名轉(zhuǎn)換和同音轉(zhuǎn)換的方法;對于地址、機(jī)構(gòu)名和公司名,本文采用了先切分、再翻譯、最后調(diào)序的流程。實(shí)驗(yàn)結(jié)果表明了上述方法的可行性和有效性。
為了進(jìn)一步提高題錄信息翻譯的質(zhì)量,還需要收集和整理更多有關(guān)題錄信息的資料,采用更細(xì)致的方法針對性地翻譯題錄信息,進(jìn)一步提高系統(tǒng)性能。在本文中,為了體現(xiàn)系統(tǒng)的穩(wěn)健性,并沒有充分利用詞典資源,在實(shí)際系統(tǒng)中,可靠的詞典資源將對系統(tǒng)性能產(chǎn)生重要的影響。近年來,隨著網(wǎng)絡(luò)信息資源的爆炸式增長,研究人員開始在實(shí)際系統(tǒng)中引入各種有用的網(wǎng)絡(luò)資源,下一步的工作可以考慮將可靠的網(wǎng)絡(luò)資源引入系統(tǒng)中,更好的提升系統(tǒng)的翻譯質(zhì)量。
[1] 馮志偉.機(jī)器翻譯研究[M].北京:中國對外翻譯出版社,2004.
[2] 劉群,張華平,駱衛(wèi)華,孫健等譯,劉群審校.自然語言理解[M].北京:電子工業(yè)出版社,2005.
[3] 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2008.
[4] 呂永進(jìn),鄭承萍. 外國人名、地名翻譯中的漢字應(yīng)用問題[C]//第三屆全國語言文字應(yīng)用學(xué)術(shù)研討會,2003: 372-383.
[5] 孫樂樂. 中文地名翻譯淺談[J]. 科技經(jīng)濟(jì)市場,2006:358-359.
[6] 彭月華,張向京. 地名短語文化內(nèi)涵與翻譯[J]. 中國科技翻譯,2008:54-57.
[7] Julian Kupiec. An algorithm for finding noun phrase correspondences in bilingual corpora[C]//Proc. of the 31st Annual Meeting of the ACL. 1993:17-22.
[8] 蔣龍,周明,簡立峰.利用音譯和網(wǎng)絡(luò)挖掘翻譯命名實(shí)體[J].中文信息學(xué)報,2007,21(1):23-29.
[9] 苗文彥,趙鐵軍,周向根,等. 面向機(jī)器翻譯的中文機(jī)構(gòu)地址切分方法[C]//2009國際信息技與應(yīng)用論壇,2009.