焦育玲
摘 要: 由于漢語與英語有不同的特點,導(dǎo)致機器翻譯時把漢語當(dāng)做源語言要比把英語當(dāng)做源語言要困難得多。本文試圖從漢英機器翻譯的角度探討漢語自動分析的難點,包括詞法分析、句法分析和漢英轉(zhuǎn)換中的難點。
關(guān)鍵詞: 計算機翻譯 Systran 詞語切分 未登錄詞
在我國,外漢機器翻譯系統(tǒng),特別是英漢機器翻譯系統(tǒng)的研制已經(jīng)取得較大的成功,達到初步實用的水平,并且推出不少實用系統(tǒng),如“譯星”、“漢神”、“通譯”等。但漢外機器翻譯,特別是漢英機器翻譯的研究卻進展緩慢,離實用化還有一定的距離。例如要把英文句子“We should do our utmost to achieve our goalin life.”翻譯為中文,機器一般可以翻譯得較為準確,但是要把漢語句子“他踢壞了三雙鞋?!狈g為英文,機器有的翻譯為“He plays three pairs of evil shoes.”,有的翻譯為“He kicked three pairs of shoes bad.”,還有的翻譯為“Him kick spoil 3 pairs of shoes.”。這些軟件翻譯的問題主要存在于詞法、句法和語法幾個方面。
1.詞法分析的難點
1.1詞語切分
漢語的書面形式是字與字之間的連續(xù)書寫,詞與詞之間沒有自然的界限,因此,漢語的自然語言理解首先要解決詞的自動切分問題,而詞的自動切分中,交集型歧義和組合型歧義是不可避免的。即使把交集型歧義和組合型歧義解決得比較好,要把漢語的自動切詞正確率提高到99%也是一個相當(dāng)困難的事情。而且漢語的自動切詞正確率即使達到99%,對于機器翻譯來說也是不夠的。因為機器翻譯系統(tǒng)不是以詞為單位的,一般是以句子為單位進行處理的,這樣一個句子只要有一處切詞錯誤,整個句子就很有可能面目全非。
1.2未登錄詞
未登錄詞指沒有被分詞詞表收錄的詞語,包括人名、地名、機構(gòu)名等專有名詞和新出現(xiàn)的詞語。未登錄詞是不可窮盡登錄的,如人名、地名,幾乎可以看成是無限的,新詞也是不斷產(chǎn)生的。未登錄詞包括專名和非專名兩大類,專名包括人名、地名等,非專名包括新詞、簡稱、行業(yè)用語、部分習(xí)語、俗語,等等。未登錄詞不僅在漢語中存在,英語中也存在未登錄詞,不過,英語中的未登錄專名名詞有形式標志,其首字母是大寫的,但漢語中的未登錄詞不僅沒有形式標注,而且組成漢語未登錄詞的漢字可能本身又是漢語詞,也就是說,漢語的未登錄詞容易與普通詞語混淆。
1.3詞表
英語中的詞是基本確定的,漢語中的詞卻很難確定,或者說漢語中的詞沒有一個統(tǒng)一的標準。詞是最小的能夠獨立運用的語法單位,語素是最小的語音語義結(jié)合體,短語是詞與詞按照一定語法規(guī)則構(gòu)成的語法單位。詞和語素、短語是不同層次和不同性質(zhì)的語法單位,但由于漢語中的詞和自由語素、短語都能單說或單用,因此要分清詞、語素和短語比較麻煩。舉一個例子,“肉”是一個詞,“豬肉”、“雞肉”、“狗肉”傾向于是一個詞,“海豹肉”、“海豚肉”傾向于是一個短語,“果子貍?cè)狻?、“貓頭鷹肉”就更傾向于是一個短語??梢钥闯?,漢語的詞的確認是一個比較困難的事情,這是迄今為止國內(nèi)還沒有一個統(tǒng)一的供機器使用的詞表的原因,而詞表是自然語言處理的基礎(chǔ),機器翻譯中絕大多數(shù)知識和規(guī)則都依賴于詞表而建立,這樣就加大了漢語自動分析的難度。
2.句法分析的難點
2.1核心動詞的分析
對于句法分析而言,抓住謂語中心詞就意味著這個句子有可能分析準確,如果連謂語中心詞都找錯了,就意味著這個句子不可能分析準確。例如“王先生邀請她一起開車出去玩?!保瑢@個句子進行分詞、詞性標注等預(yù)處理后得到:王/n先生/n邀請/v她/r一起/d開21.720.9車/v出去/v玩/v。然而,其中有可能充當(dāng)謂語中心詞的有:“邀請”、“開車”、“出去”、“玩”。由于漢語屬于分析語言,缺乏明顯的形態(tài)標記,在這些詞中選出一個正確的謂語中心詞,是一個非常復(fù)雜的問題。
2.2特殊結(jié)構(gòu)的處理
漢語中的某些特殊結(jié)構(gòu)是漢譯英系統(tǒng)較為棘手的問題,包括連動式、兼語式、受事主語句、主謂謂語句、名詞謂語句、動補式等。連動式由若干個動詞或動詞短語相互連接,沒有明顯的形式標志,機器往往難于確定其中的主要動詞,如果主要動詞的判定有誤,整個結(jié)構(gòu)的分析必定失敗。
2.3標點符號的影響
現(xiàn)有的機器翻譯系統(tǒng)一般都是以句子為單位進行翻譯的,但是要確認漢語的句子卻不是一件簡單的事情。漢語“句子”的隨意性太大,短的可以只有一個詞(獨詞句)或一個短語,長的句子可以是一個復(fù)句,甚至可以是一個段落。這樣,當(dāng)遇到一個特別長的漢語句子時,如果作為一個整體處理,往往會帶來巨大的時空開銷,而且這樣做增加了分析的難度;而分成幾個小句來處理,又難以準確地斷句。也就是說,漢語由于沒有形態(tài)變化,導(dǎo)致從句和分句沒有明顯的差異。
3.轉(zhuǎn)換過程中的難點
由于漢語是一種缺乏嚴格意義上形態(tài)變化的語言,而英語卻有形態(tài)變化,因此漢英機器翻譯中,漢語轉(zhuǎn)換為英語的過程存在多種“從無到有”的選擇。以下是在漢英機器翻譯中遇到的最常見的幾種比較難解決的轉(zhuǎn)換問題。
3.1冠詞問題
漢語沒有冠詞,英語的名詞或名詞短語往往要加上冠詞,冠詞又分為零冠詞、定冠詞和不定冠詞三種情況。這樣從漢語的“無”冠詞到英語的“有”冠詞,翻譯時需要確認究竟是零冠詞,還是定冠詞或不定冠詞。
3.2單復(fù)數(shù)問題
漢語的名詞或名詞短語沒有單復(fù)數(shù)形式,只有“們”等后綴可以勉強充當(dāng)形式標志,但英語的名詞或名詞短語卻存在單復(fù)數(shù)。這樣從漢語的“無”單復(fù)數(shù)到英語的“有”單復(fù)數(shù),翻譯時需要確認究竟把漢語中的名詞或名詞短語翻譯為英語中的單數(shù)還是復(fù)數(shù)。
3.3時態(tài)問題
漢語沒有時態(tài),只有一些可以有助于顯示時態(tài)的助詞(如“著”、“了”、“過”)、副詞(如“將要”、“馬上”、“正在”)和時間名詞(如“現(xiàn)在”、“從前”、“目前”)等,不過,這些標志詞語并不是嚴格意義上的時態(tài)標記,如“了”有時翻譯為過去時,有時翻譯為完成時、過去完成時,有時甚至不表示任何時態(tài);英語動詞卻有時態(tài),這樣從漢語的“無”明顯時態(tài)到英語的“有”時態(tài),翻譯時要確認究竟把漢語中的動詞或動詞短語翻譯為英語中的現(xiàn)在時、過去時還是將來時。
2.4.4語式問題
語式是表示句子的語氣或情態(tài)的語法范疇,一般通過動詞的形態(tài)變化區(qū)分陳述式、命令式、虛擬式、愿望式等。漢語沒有語式,英語中表示與事實相反的假設(shè)或個人主觀愿望時,要使用虛擬式。這樣從漢語的“無”明顯語式到英語的“有”語式,翻譯時需要確認究竟把漢語翻譯為英語中的陳述式還是虛擬式。
4.結(jié)語
從上面的分析可以看出,不管是詞法分析、句法分析,還是源語言向目標語言的轉(zhuǎn)換,把漢語譯為英語都存在“從無到有”的困難。正是因為在漢英機器翻譯中,除了一般機器翻譯(如英漢機器翻譯)都存在的一些困難(如一詞多義、結(jié)構(gòu)歧義、語義歧義、語境因素等)之外,還存在這些“從無到有”的困難,這些特殊的困難幾乎分布于翻譯的各個階段,導(dǎo)致機器翻譯中把漢語當(dāng)做源語言要比把英語當(dāng)做源語言要困難得多。
參考文獻:
[1]劉群,俞士汶.漢英機器翻譯的難點分析.載黃昌寧主編.1998中文信息處理國際會議論文集.清華大學(xué)出版社,1998.
[2]常寶寶,劉穎,劉群.漢英機器翻譯中的冠詞處理研究.中文信息學(xué)報,1998(3).
本文為安康學(xué)院AYQDRW201216項目成果。