(浙江旅游職業(yè)學(xué)院 311231)
摘 要:隨著大數(shù)據(jù)、云處理等新概念的提出和應(yīng)用,機(jī)器翻譯也有很大突破。本文將百度提供的網(wǎng)絡(luò)翻譯工具作為考察的對(duì)象,選取了一段新聞作為測(cè)試的文本,從形態(tài)學(xué)、詞匯學(xué)、統(tǒng)詞學(xué)、信息學(xué)、邏輯學(xué)、語用學(xué)等角度觀察該工具達(dá)到的翻譯水平,繼而探討實(shí)現(xiàn)機(jī)器自動(dòng)翻譯存在的問題和難點(diǎn)。
關(guān)鍵詞:翻譯工具;可信度;韓語;韓中翻譯
一、選取測(cè)試工具和測(cè)試文本
實(shí)現(xiàn)語言間的自動(dòng)翻譯是語言學(xué)家和計(jì)算機(jī)專家共同的夢(mèng)想,它也是克服不同語言之間交流障礙的終極工具,目前各大IT公司,如goole、百度等都紛紛推出自己的翻譯軟件,本文利用國內(nèi)知名搜索服務(wù)企業(yè)百度作為測(cè)試和分析對(duì)象,觀察其提供的翻譯工具的翻譯水平。
作為測(cè)試的文本,本文選取了KBS提供的時(shí)事新聞。測(cè)試結(jié)果如下:
(1)韓國石油公社哭產(chǎn)地公司爆炸事故1人死亡,5人受傷。
(2)14日中午2點(diǎn)50分左右,哭的哭山主山工業(yè)園區(qū)內(nèi),韓國石油公司的原油管道工程哭產(chǎn)地李雪施工中發(fā)生爆炸。
(3)這次爆炸事故造成1人死亡,5人受傷。
(4)兩名傷員中,尤其是危及生命的。
(5)思想者們合作企業(yè)職工的。
(6)消防當(dāng)局老化管道更換新管道爆炸的過程中發(fā)生的有關(guān)人員,對(duì)公司的 爆炸原因等。
二、對(duì)測(cè)試結(jié)果的分析
針對(duì)以上的翻譯結(jié)果,本文將從以下7個(gè)角度做分析。
2.1 從形態(tài)學(xué)角度分析
韓語屬于黏著語,有豐富的形態(tài)變化,本采樣文本就有如下幾處形態(tài)變化
形態(tài)的解析是機(jī)器翻譯的第一步,因此正確解析出原型是語義和統(tǒng)辭的前提,從以上翻譯的結(jié)果來看,部分單詞沒有被解析,因此語義上也沒有體現(xiàn)出來,部分單詞保留了韓文的原型。但完成度達(dá)到了50%。從這個(gè)角度來看,形態(tài)的解析反而成為翻譯韓語的難點(diǎn)。
2.2 從詞匯學(xué)角度分析
以上原始文本有如下幾個(gè)詞匯沒翻、誤翻:
‘ 之所以沒有翻譯出來,是因?yàn)槭裁茨??直觀感覺是數(shù)據(jù)庫里缺少該地名(或者公司名),但如果再進(jìn)行單獨(dú)翻譯測(cè)試,輸入 后,工具成功翻譯出蔚山,測(cè)試結(jié)果如下
經(jīng)過單獨(dú)測(cè)試后發(fā)現(xiàn),工具可以正確解讀‘ ,但無法解讀‘ (蔚山分公司),與上下文環(huán)境無關(guān)。這說明百度數(shù)據(jù)庫收錄了‘蔚山一詞,但沒有把‘蔚山分公司作為詞條收錄,這也是機(jī)器翻譯數(shù)據(jù)庫建設(shè)的一個(gè)難點(diǎn),即,是否要收錄非通用性質(zhì)的專有名詞。
當(dāng)然這里應(yīng)對(duì)方案是把‘ 進(jìn)行解析,即解析為兩個(gè)詞匯‘
+ ,百度也做了解析,但錯(cuò)誤地解析為‘ ,自然也錯(cuò)誤地翻譯為‘哭+山地+公司。對(duì)這種非通用專有名詞的正確解析是今后需要改進(jìn)的一點(diǎn),當(dāng)然也是自動(dòng)翻譯
2.3從統(tǒng)詞學(xué)角度分析
之所以需要從該角度分析,是因?yàn)椴糠衷~匯雖然被翻譯出來了,但可能被調(diào)整了順序、放在了錯(cuò)誤的位置,這屬于統(tǒng)辭的范疇。我們選取 做重點(diǎn)分析,發(fā)現(xiàn)翻譯后被忽視掉了。就此是不是可以斷定百度總是忽視這一語法呢,我們可以做單獨(dú)測(cè)試。測(cè)試如下 :
篇幅所限,我們只做了以上的單獨(dú)測(cè)試,發(fā)現(xiàn)百度對(duì)該語法的處理還是很準(zhǔn)確的,因此本文中沒有翻譯 ,不是其‘一貫的做法,而是經(jīng)過計(jì)算的結(jié)果。
2 .4從信息學(xué)角度分析
正如模糊識(shí)別告訴我們的,有時(shí)部分信息的缺失并不影響信息的正確傳達(dá),比如人臉識(shí)別,也許每天人的面部都會(huì)有一些微小的變化,但仍然可以被認(rèn)識(shí)你的人正確認(rèn)出一樣。因此信息學(xué)的介入,讓機(jī)器翻譯獲得了前所未有的鼓舞。
作為測(cè)試的該新聞文本所傳達(dá)的核心信息經(jīng)過翻譯后,如果要傳達(dá)的核心信息被傳遞給了讀者,筆者認(rèn)為其翻譯是屬于成功的。從本文來看,該文本要傳達(dá)的核心信息,無非就是新聞的6要素:
通過觀察,可以看出,除了地點(diǎn)信息傳達(dá)有誤差外,其他信息基本完美傳遞,因此從這個(gè)角度分析,該翻譯工具幾乎完美地完成了任務(wù)。而且翻譯后的地點(diǎn)其表達(dá)方式似乎也在透露是‘某分公司的感覺。
2.5 從邏輯學(xué)角度分析
我們?nèi)祟愒谡J(rèn)知事物和對(duì)象時(shí),不僅可以感知到其物的存在,還可以分析物與物之間的邏輯關(guān)系,這也是機(jī)器難以克服的一點(diǎn)。因此自動(dòng)翻譯過程中,如果從邏輯的角度還是可以看出存在的問題的。
該新聞文本的上下文存在如下的邏輯:
這是以上文本中包含的邏輯,這些邏輯是符合‘常理的,我們甚至可以繼續(xù)根據(jù)‘常理推斷如下的內(nèi)容:
這種邏輯是人類在日常生活和工作中形成的,也是人類智能的一部分,這些形成的邏輯流甚至?xí)袒晒剑@些公式繼而又影響著人類的推理和思維模式。當(dāng)前大數(shù)據(jù)、云計(jì)算正試圖通過構(gòu)建龐大的“常理”數(shù)據(jù)庫,來準(zhǔn)確地判斷某些環(huán)境下的語義。
2.6從語用角度分析
上下文會(huì)影響詞匯的含義,這在人工翻譯時(shí)是必須考慮的,機(jī)器翻譯又如何計(jì)算語境呢? 而對(duì)語境進(jìn)行‘計(jì)算的前提是量化語境,本文的語境如果要量化的話。可以做如下嘗試:
變量定義: 時(shí)間,地點(diǎn), 事件,主體、 人數(shù)1, 人數(shù)2, 原因、 結(jié)論、 進(jìn)行
defines var : time, address, event, object, diedcount, hurtedcount,cause, result, doing,
語境量化后,所有的計(jì)算都在該變量基礎(chǔ)上進(jìn)行,這樣可以有效回避前后語義出現(xiàn)不一致的情況。
但百度工具在翻譯時(shí)顯然缺少如此的計(jì)算,因此才會(huì)出現(xiàn)如下的錯(cuò)誤:
三、結(jié)論
通過對(duì)采樣文本的翻譯結(jié)果從7個(gè)角度分析,我們可以得出結(jié)論,從信息學(xué)角度上來講,哪怕沒有在語法上作出準(zhǔn)確的對(duì)應(yīng),如果能把詞匯對(duì)應(yīng)出來,對(duì)文本的理解還是有很高的輔助作用,因此從信息學(xué)角度來看,機(jī)器翻譯已經(jīng)做得不錯(cuò),而且很有必要。
但從詞匯學(xué)、形態(tài)學(xué)、統(tǒng)詞學(xué)的標(biāo)準(zhǔn)看,其表現(xiàn)似乎很難達(dá)到100%,總是存在無法解析的形式、無法識(shí)別的詞匯、無法準(zhǔn)確理解的語法等。這也是計(jì)算機(jī)本身無法克服的。
參考文獻(xiàn)
[1]石定栩《喬姆斯基的形式句法—?dú)v史進(jìn)程與最新理論》北京語言大學(xué)出版社 2007.
[2]海倫娜 柯頓,《語言與兒童》外語教學(xué)與研究出版社 2011.
[3]王文斌,《隱喻的認(rèn)知構(gòu)建與解讀》上海外語教育出版社 2007.
[4]束定芳,《認(rèn)知語義學(xué)》上海外語教育出版社 2008.
[5]F.Ungerer 《認(rèn)知語言學(xué)入門》外語教學(xué)與研究出版社2007.
[6]呂昭君,《以詞尾分析器開發(fā)為目的韓國語形態(tài)研究》2014.
[7]劉冀偉,《與認(rèn)知科學(xué)概論-神經(jīng)元》 北京科技大學(xué) 2015-7.
[8] http://fanyi.baidu.com/ 百度翻譯工具.