国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談如何快速搭建英漢雙語平行語料庫與平行語料庫檢索平臺(tái)

2018-05-14 09:06馬崴
絲路視野 2018年26期

【摘要】語料庫不僅在商業(yè)領(lǐng)域有著重要的作用,在翻譯學(xué)研究、語用學(xué)研究以及實(shí)踐教學(xué)等領(lǐng)域都有重要的作用。語料庫研究與應(yīng)用是以語料庫建設(shè)為前提,語料庫建設(shè)是所有環(huán)節(jié)中最為重要的一個(gè)環(huán)節(jié)。語料庫在商業(yè)領(lǐng)域與科研教學(xué)領(lǐng)域的應(yīng)用與研究的快速發(fā)展,得益于語料庫建設(shè)的技術(shù)手段日益成熟,同時(shí)語料庫也呈現(xiàn)出多樣化的應(yīng)用與實(shí)踐。本文通過深度探索語料庫建設(shè)與應(yīng)用的前沿技術(shù)發(fā)展與應(yīng)用情況,重點(diǎn)介紹建立英漢語料庫以及平行語料庫應(yīng)用平臺(tái)所需技術(shù)支持以及詳細(xì)的語料庫建設(shè)與應(yīng)用操作細(xì)則。

【關(guān)鍵詞】語料庫建設(shè);語料庫應(yīng)用;雙語平行語料庫

語料庫分為單語語料庫、雙語語料庫以及多語語料庫,語料庫是語言實(shí)際應(yīng)用過程中產(chǎn)生的語言數(shù)據(jù),例如圖書的翻譯、商業(yè)文件的翻譯以及新聞報(bào)告的翻譯等語言數(shù)據(jù)都是形成語料庫的基本語料材料。

目前的研究主要是基于雙語語料庫的制作與應(yīng)用,雙語語料庫也是最為廣泛使用以及數(shù)量最多的語料庫種類之一,語料庫的存放是以數(shù)據(jù)庫的形式存在為主,形成真正的語料庫需要經(jīng)過收集、轉(zhuǎn)化、降噪、對(duì)齊、審校等諸多步驟,形成最終可用的語料庫。

語料庫的建設(shè)目的是多樣化的,語料庫的來源也是極其廣泛,其中尤為重要的環(huán)節(jié)就是語料的對(duì)齊,語料對(duì)齊的速度直接決定了語料庫制作的效率。

高質(zhì)量的語料庫是進(jìn)行語料庫制作與應(yīng)用的基礎(chǔ),語料庫的質(zhì)量會(huì)直接影響最終的應(yīng)用效果。

一、研究意義

語料庫的研究與應(yīng)用目前在商業(yè)領(lǐng)域已經(jīng)有了突飛猛進(jìn)的發(fā)展,特別是近兩年神經(jīng)網(wǎng)絡(luò)的發(fā)展,語料庫對(duì)于機(jī)器翻譯的發(fā)展奠定了基礎(chǔ),極大提高了目前谷歌、百度、搜狗、有道以及必應(yīng)等機(jī)器翻譯引擎的質(zhì)量。不僅如此,商業(yè)領(lǐng)域的巨頭包括強(qiáng)生、中石化、微軟、阿里巴巴以及騰訊等諸多公司都在不同程度的基于語料庫提升在各自特定領(lǐng)域的機(jī)器翻譯引擎質(zhì)量,其中阿里巴巴的機(jī)器翻譯引擎已經(jīng)為中國(guó)眾多企業(yè)將成千上萬的商品推向全球市場(chǎng)提供了翻譯支持。

不僅如此,語料庫在學(xué)術(shù)、科研以及教學(xué)實(shí)踐等應(yīng)用方面都有著舉足輕重的作用,利用語料庫可以進(jìn)行語用學(xué)、翻譯學(xué)、譯者行為、語言風(fēng)格等多方面學(xué)術(shù)科研;同時(shí)語料庫在教學(xué)中也廣泛應(yīng)用,通過語料庫進(jìn)行教學(xué)應(yīng)用,教師可以將學(xué)生的翻譯作業(yè)整理成語料庫,利用語料庫檢索功能,學(xué)生可以進(jìn)行自查自糾,教師也可以通過制作學(xué)生翻譯作業(yè)的語料庫尋找共性問題進(jìn)行講解,幫助學(xué)生解決翻譯實(shí)踐中產(chǎn)生的問題。教師也可以利用高質(zhì)量的語料庫面向?qū)W生開放,利用語料庫學(xué)生進(jìn)行日常的翻譯學(xué)習(xí)和模擬訓(xùn)練,不斷提升自身的語言能力和翻譯水平。

二、語料庫建設(shè)

語料對(duì)齊是語料庫制作尤為關(guān)鍵的一環(huán),目前市面上語料對(duì)齊軟件工具層出不窮,各有千秋,每一款語料對(duì)齊軟件工具都有自個(gè)的語料對(duì)齊算法、效率以及表現(xiàn)較為突出的一面,需要根據(jù)不同的語料素材來判斷應(yīng)使用何種語料對(duì)齊軟件工具。

市面上目前語料對(duì)齊軟件工具主要有TRANSMATE軟件、TMXMALL對(duì)齊軟件、雪人軟件對(duì)齊工具以及各類CAT軟件自帶的對(duì)齊組件。獨(dú)立的語料對(duì)齊軟件工具在語料對(duì)齊方面表現(xiàn)會(huì)優(yōu)于CAT軟件中自帶的對(duì)齊組件。本文將會(huì)以TRANSMATE語料對(duì)齊軟件工具作為本次英語語料庫建設(shè)的對(duì)齊工具,進(jìn)行安裝與使用詳細(xì)說明。

安裝:通過官網(wǎng)下載TRANSMATE軟件最新版。下載完成之后,雙擊進(jìn)行默認(rèn)安裝即可。

三、創(chuàng)建雙語對(duì)齊項(xiàng)目

創(chuàng)建雙語對(duì)齊項(xiàng)目是語料對(duì)齊的核心步驟,涉及語料的語言對(duì)、存儲(chǔ)路徑、對(duì)齊項(xiàng)目名稱與對(duì)齊效率。打開TRANSMATE軟件,點(diǎn)擊界面左上角的“語料管理“選項(xiàng)卡按鈕,進(jìn)入語料管理操作界面,再點(diǎn)擊“雙語對(duì)齊”按鈕,即可彈出語料對(duì)齊界面,在界面上選擇需要的源語言和目標(biāo)語言,跟需要對(duì)齊的語料相匹配。TRANSMATE語料對(duì)齊界面簡(jiǎn)潔直觀,降低了使用門檻,非常符合廣大用戶的使用習(xí)慣。(見圖1)

下一步是導(dǎo)入需要對(duì)齊語料的雙語文件進(jìn)行對(duì)齊操作,點(diǎn)擊“導(dǎo)入文件”按鈕,在“文件類型”處選擇雙語文件或單語雙文件。雙語文件:意思是單個(gè)文件中涵蓋了源語言和目標(biāo)語言;單語雙文件:意思是源語言和目標(biāo)語言以獨(dú)立的文件形式分開存放。

導(dǎo)入雙語文件之后,可以開始著手進(jìn)行詳細(xì)的語料對(duì)齊工作。這一步驟是整個(gè)環(huán)節(jié)中最為重要的,也將是直接決定最后語料庫的成果關(guān)鍵。

我們將需要制作平行語料庫的素材導(dǎo)入到雙語對(duì)齊項(xiàng)目中。下圖為導(dǎo)入單語雙文件之后的示例圖。(見圖2)

導(dǎo)入需要對(duì)齊的語料后,需要優(yōu)先對(duì)雙語對(duì)齊項(xiàng)目進(jìn)行保存操作,防止所做的導(dǎo)入、對(duì)齊、修改等操作因?yàn)殡娔X故障而沒有及時(shí)存儲(chǔ)下來。點(diǎn)擊“保存”按鈕,即可對(duì)當(dāng)前雙語對(duì)齊項(xiàng)目進(jìn)行保存,在語料對(duì)齊過程中也要在一定的頻率內(nèi)點(diǎn)擊“保存”按鈕,確保工作內(nèi)容能夠被及時(shí)地存儲(chǔ)下來。

在雙語對(duì)齊工作界面中,有幾個(gè)實(shí)用頻率比較高的按鈕,如果能夠熟悉幾個(gè)常用的操作按鈕,將會(huì)對(duì)提升語料對(duì)齊的效率有極大的幫助,以下我們將介紹幾個(gè)常用的功能按鈕。

所有原/譯文交換:直接將當(dāng)前雙語對(duì)齊項(xiàng)目的所有源語言和目標(biāo)語言的內(nèi)容進(jìn)行交換,主要用于在導(dǎo)入雙語對(duì)齊文件時(shí),語言文件選擇錯(cuò)誤情況下使用。

拆分:直接將現(xiàn)有光標(biāo)處的句對(duì)一拆為二,主要用于語料對(duì)齊時(shí)沒有精確到句對(duì),而是以段落對(duì)齊,這是需要將段落進(jìn)行句對(duì)級(jí)別的拆分,以使語料達(dá)到較高的利用價(jià)值;拆分也是語料對(duì)齊中使用較為頻繁的功能之一。

將制作好的平行語料庫導(dǎo)出到記憶庫文件TMX,TMX文件格式是通用的一種記憶庫儲(chǔ)存格式,其本質(zhì)上是一種XML格式的文件,具有存儲(chǔ)數(shù)據(jù)量大,可以注明多種屬性,方便對(duì)不同句對(duì)的語料進(jìn)行個(gè)性化的備注。

到這里,我們已經(jīng)制作好了一個(gè)最終格式為TMX的雙語平行語料庫。

綜上,在語料庫技術(shù)特別是語料庫對(duì)齊技術(shù)的迅速發(fā)展下,語料庫的建設(shè)也得到蓬勃的發(fā)展,建設(shè)十萬級(jí)甚至百萬級(jí)的語料庫,只要素材準(zhǔn)備到位,都能夠快速地建設(shè)好平行語料庫。同時(shí)語料庫的應(yīng)用層出不窮,無論是教學(xué)應(yīng)用、科研應(yīng)用以及商業(yè)應(yīng)用,高質(zhì)量精準(zhǔn)的語料庫對(duì)于AI人工智能翻譯有極大的促進(jìn)作用,也對(duì)提高學(xué)生翻譯水平以及課堂延伸學(xué)習(xí)都有極大的幫助。

參考文獻(xiàn)

[1]Robins,R.H.1967.AshortHistoryofLinguistics[M]. London:longman.

[2]李文中.語料庫索引工具[M].上海:上海外語教育出版社,2002.

作者簡(jiǎn)介:馬崴(1973—),男,湖北武漢人,湖北工業(yè)大學(xué)外國(guó)語學(xué)院,講師,研究方向:語用學(xué)。