胡海珠
(河南師范大學(xué) 外國(guó)語(yǔ)學(xué)院, 河南 新鄉(xiāng) 453007)
漢英學(xué)術(shù)平行語(yǔ)料庫(kù)開(kāi)發(fā)設(shè)計(jì)
胡海珠
(河南師范大學(xué) 外國(guó)語(yǔ)學(xué)院, 河南 新鄉(xiāng) 453007)
在漢英學(xué)術(shù)平行語(yǔ)料庫(kù)的建設(shè)中,雙語(yǔ)界面開(kāi)發(fā)、平行語(yǔ)料庫(kù)建設(shè)、平行語(yǔ)料的對(duì)齊和索引軟件開(kāi)發(fā)都是重要的內(nèi)容。由于平行語(yǔ)料在段落、句子和詞匯層面的對(duì)齊對(duì)機(jī)助翻譯研究的意義有限,在平行語(yǔ)料的對(duì)齊過(guò)程中,雙語(yǔ)“對(duì)應(yīng)單位”的對(duì)齊研究成為新的焦點(diǎn)。本研究從一個(gè)小的試驗(yàn)性漢英平行學(xué)術(shù)語(yǔ)料庫(kù)的建設(shè)著手,圍繞建庫(kù)設(shè)計(jì)、雙語(yǔ)“對(duì)應(yīng)單位”對(duì)齊和索引軟件開(kāi)發(fā)等展開(kāi),希望為大型漢英學(xué)術(shù)平行語(yǔ)料庫(kù)的建設(shè)提供一個(gè)操作參考。
漢英平行學(xué)術(shù)語(yǔ)料庫(kù);開(kāi)發(fā)設(shè)計(jì);對(duì)應(yīng)單位
將雙語(yǔ)語(yǔ)料庫(kù)的技術(shù)應(yīng)用于機(jī)助翻譯研究,是近20年語(yǔ)言學(xué)家研究的熱點(diǎn)之一,它將翻譯從規(guī)定性引向描述性,為翻譯研究提供了一個(gè)新的視角。目前雙語(yǔ)語(yǔ)料庫(kù)的研究主要集中于web雙語(yǔ)語(yǔ)料的獲取、雙語(yǔ)語(yǔ)料庫(kù)的建庫(kù)設(shè)計(jì)、雙語(yǔ)語(yǔ)料的對(duì)齊和雙語(yǔ)語(yǔ)料庫(kù)的應(yīng)用等。但雙語(yǔ)語(yǔ)料庫(kù)的對(duì)齊多停留在段落和句子層面,這樣做雖然為從雙語(yǔ)視角研究語(yǔ)言的實(shí)際使用提供了便利,但難以滿(mǎn)足自動(dòng)翻譯研究的實(shí)際需求。而詞匯層面的對(duì)齊雖然更精確,但類(lèi)似于傳統(tǒng)紙質(zhì)詞典的電子化,就翻譯而言,由于需要大量的詞匯組合和重組,其對(duì)于翻譯的實(shí)際作用有限。目前一些研究者正致力于基于雙語(yǔ)對(duì)應(yīng)單位的對(duì)齊,以實(shí)現(xiàn)基于實(shí)例和基于存儲(chǔ)的自動(dòng)翻譯。雙語(yǔ)對(duì)應(yīng)單位的提取多來(lái)自平行語(yǔ)料庫(kù)。
(一)平行語(yǔ)料庫(kù)建設(shè)
語(yǔ)料庫(kù)是指“按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、能夠代表一種語(yǔ)言或者某語(yǔ)言的一種變體或文類(lèi)的電子文本集”[1]。雙語(yǔ)語(yǔ)料庫(kù)和單語(yǔ)語(yǔ)料庫(kù)相對(duì),是指由源語(yǔ)言和對(duì)源語(yǔ)言進(jìn)行翻譯后的目標(biāo)語(yǔ)言集合而成、整體對(duì)應(yīng)的語(yǔ)料庫(kù)。
雙語(yǔ)語(yǔ)料庫(kù)又可分為平行語(yǔ)料庫(kù)、翻譯語(yǔ)料庫(kù)和類(lèi)比語(yǔ)料庫(kù),分別指由一種語(yǔ)言及其對(duì)應(yīng)的其他語(yǔ)言的翻譯文本所構(gòu)成的語(yǔ)料庫(kù)、由對(duì)同一源語(yǔ)言文本進(jìn)行的不同譯文構(gòu)成的語(yǔ)料庫(kù)和由時(shí)間、領(lǐng)域、語(yǔ)境、內(nèi)容、規(guī)模等相似的不同語(yǔ)言文本構(gòu)成的語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)可以是單向的,也可以是雙向甚至多向的。
語(yǔ)料庫(kù)的語(yǔ)料來(lái)源一般分為紙質(zhì)材料、電子文檔、網(wǎng)絡(luò)資源和其他(如通過(guò)拍照或錄制得來(lái)的語(yǔ)言材料)。網(wǎng)絡(luò)來(lái)源的語(yǔ)料庫(kù)又分為人工采集(即通過(guò)人工選擇性收集語(yǔ)料,經(jīng)過(guò)人工降噪和格式整理轉(zhuǎn)化為需要的形式,更具語(yǔ)料選擇的精確性,但很耗時(shí)耗力)、自動(dòng)采集(即根據(jù)需要編輯的程序從網(wǎng)絡(luò)上或者其他特定語(yǔ)料庫(kù)中自動(dòng)采集文本,此種采集低成本、高效率,但是目標(biāo)語(yǔ)料不夠精確)、人機(jī)結(jié)合采集(即先用計(jì)算機(jī)自動(dòng)采集語(yǔ)料,然后對(duì)其進(jìn)行人工選擇和整理)。
(二)雙語(yǔ)對(duì)應(yīng)單位
語(yǔ)料的對(duì)齊是指將源語(yǔ)言的文本和對(duì)應(yīng)的譯文文本對(duì)應(yīng)儲(chǔ)存,并使兩個(gè)文本在一定的語(yǔ)言層面(如篇章、段落、句子、短語(yǔ)、詞等不同深度)一一對(duì)齊。段與段的對(duì)齊、句與句的對(duì)齊目前技術(shù)相對(duì)成熟,在語(yǔ)言研究中也有很重要的意義,但是句子以上層面的雙語(yǔ)對(duì)應(yīng),其復(fù)現(xiàn)率很小,而基于計(jì)算機(jī)統(tǒng)計(jì)的機(jī)助翻譯研究離不開(kāi)頻率信息。沒(méi)有高的復(fù)現(xiàn)率,也就很難得到有意義的頻率信息,對(duì)于機(jī)助翻譯研究的意義就變得有限。
語(yǔ)料對(duì)齊可以基于詞匯層面,即將源語(yǔ)言的詞匯和其對(duì)應(yīng)的翻譯語(yǔ)言詞匯對(duì)應(yīng)起來(lái)。但是,詞匯層面除了形式上的一一對(duì)應(yīng),還有一對(duì)空、空對(duì)一、空對(duì)多等其他對(duì)應(yīng)形式;而形式上一一對(duì)應(yīng)的詞匯其實(shí)也很復(fù)雜,研究者可以依據(jù)后臺(tái)預(yù)制的詞庫(kù)將部分詞匯一一對(duì)應(yīng)起來(lái),但這些詞匯本身并不是一一對(duì)應(yīng)的意義關(guān)系。經(jīng)過(guò)計(jì)算機(jī)統(tǒng)計(jì),這些詞匯最終多表現(xiàn)為一對(duì)多或多對(duì)一的關(guān)系。在翻譯實(shí)踐中,計(jì)算機(jī)可以將一對(duì)多的翻譯按頻率的高低顯示給譯者,供其選擇或參考,問(wèn)題在于單純的頻率信息對(duì)于翻譯來(lái)說(shuō)明顯是不夠的。任何詞匯意義的產(chǎn)生都是脫離不了語(yǔ)境的,也就是說(shuō),離開(kāi)了語(yǔ)境,詞匯的意義就不能被完全確定。
雙語(yǔ)平行文本在段落和句子上的對(duì)齊對(duì)于機(jī)助翻譯研究的意義有限,在詞匯層面的對(duì)齊也不能提供令人非常滿(mǎn)意的翻譯參考。我們可以取其中間,將詞匯進(jìn)行擴(kuò)展,把對(duì)齊層面界定為帶有微語(yǔ)境的片段。這個(gè)語(yǔ)境雖然不大,但是足以使詞匯意義相對(duì)明確。于是,語(yǔ)言研究者提出了“對(duì)應(yīng)單位”的概念。
對(duì)應(yīng)單位是指在平行語(yǔ)料庫(kù)中源文和譯文中任何可識(shí)別的對(duì)應(yīng)片段。它不只是一個(gè)理論概念,更是一個(gè)操作概念。根據(jù)一定的工作原則,如果文本的處理者認(rèn)為平行語(yǔ)料庫(kù)中的某兩個(gè)雙語(yǔ)片段在翻譯過(guò)程中是對(duì)應(yīng)的,就可以將它確認(rèn)。這個(gè)過(guò)程當(dāng)然也有意義的判斷,但是它的操作相對(duì)自由。只要文本操作者是具備相關(guān)語(yǔ)言知識(shí)的人,他憑借自身的語(yǔ)言經(jīng)驗(yàn)所做出的選擇都是可接受的。北京外國(guó)語(yǔ)大學(xué)李文中教授曾提出,“對(duì)應(yīng)單位”的概念是基于現(xiàn)有的語(yǔ)言理論研究的,但它本身不是一個(gè)語(yǔ)言理論層面的概念,而是用于操作層面,它使語(yǔ)料的處理者不會(huì)無(wú)所適從,同時(shí)又符合服務(wù)于機(jī)助翻譯的目的。
我們的目標(biāo)語(yǔ)料庫(kù)是一個(gè)單向的漢英學(xué)術(shù)平行語(yǔ)料庫(kù),源語(yǔ)言為漢語(yǔ),目標(biāo)語(yǔ)言為英語(yǔ)。該語(yǔ)料庫(kù)開(kāi)發(fā)的主要目的是用于學(xué)術(shù)漢英文本對(duì)應(yīng)單位的提取和存儲(chǔ),為大型英漢學(xué)術(shù)平行語(yǔ)料庫(kù)的建設(shè)提供一個(gè)參考模型,最終服務(wù)于漢語(yǔ)學(xué)術(shù)語(yǔ)料機(jī)助翻譯事業(yè),力圖使其質(zhì)量有所提高。
(一)語(yǔ)料的選擇
學(xué)術(shù)研究領(lǐng)域可用的雙語(yǔ)電子語(yǔ)料非常少。要建立雙語(yǔ)學(xué)術(shù)語(yǔ)料庫(kù),一般途徑是購(gòu)買(mǎi)原版和翻譯版書(shū)籍進(jìn)行掃描和文字識(shí)別,經(jīng)過(guò)人工正誤后整理為規(guī)范的電子文本,再將雙語(yǔ)文本對(duì)應(yīng)入庫(kù)。即便如此,我們可得到的雙語(yǔ)語(yǔ)料多是英漢學(xué)術(shù)平行語(yǔ)料,漢譯英的語(yǔ)料很少,正規(guī)漢語(yǔ)學(xué)術(shù)著作的英譯版本收集難度更大。
我們選擇語(yǔ)料的指導(dǎo)思想是:第一,必須是學(xué)術(shù)語(yǔ)料;第二,必須以漢語(yǔ)為源語(yǔ)言、英語(yǔ)為目標(biāo)語(yǔ)言;第三,必須是雙語(yǔ)都很規(guī)范且翻譯相對(duì)穩(wěn)定的文本;第四,由于該語(yǔ)料庫(kù)為嘗試性研究,建庫(kù)規(guī)模不應(yīng)太大。本著“漢英譯向、學(xué)術(shù)性、規(guī)范性、小尺寸”四個(gè)原則,我們將目標(biāo)語(yǔ)料設(shè)定為中文博士學(xué)位論文的中英文對(duì)應(yīng)摘要,規(guī)模約10萬(wàn)字(源語(yǔ)言)。
(二)語(yǔ)料入庫(kù)
文本入庫(kù)格式被設(shè)為T(mén)XT文本,原因是這種格式的文本很干凈,沒(méi)有很多的文檔內(nèi)標(biāo)記信息,所占空間很小。入庫(kù)前每一篇摘要需要被整理為一個(gè)文件夾下的三個(gè)文本。第一個(gè)文本是漢語(yǔ)的摘要部分,第二個(gè)文本是對(duì)應(yīng)的英語(yǔ)摘要部分,第三個(gè)文本為信息文本,保留了論文的百科分類(lèi)、題目、學(xué)校、年代、文本字?jǐn)?shù)等,用于雙語(yǔ)界面錄入摘要文本時(shí)輸入題頭信息。
建庫(kù)用的雙語(yǔ)界面需要自主開(kāi)發(fā)。整個(gè)雙語(yǔ)界面被設(shè)定為一個(gè)十字架結(jié)構(gòu),左上為漢語(yǔ)的題頭信息錄入界面,需要錄入的信息包括篇名、關(guān)鍵詞、作者性別(男、女和未知)、年代、學(xué)校、文本領(lǐng)域和子領(lǐng)域、文本字?jǐn)?shù)等,不包含作者姓名信息。左下角為漢語(yǔ)文本的錄入界面、需要復(fù)制之前存儲(chǔ)的TXT格式的摘要文本,粘貼到文本框架內(nèi),粘貼后在提交之前允許編輯和修改。右上角和右下角為對(duì)應(yīng)的英語(yǔ)文本錄入界面,提交前同樣允許編輯和修改。
語(yǔ)料庫(kù)開(kāi)發(fā)團(tuán)隊(duì)的每個(gè)成員都被分配一個(gè)用戶(hù)名和初始密碼,使用所分配的用戶(hù)名和初始密碼可以打開(kāi)雙語(yǔ)錄入界面,將漢語(yǔ)的題頭信息和文本以及英語(yǔ)的對(duì)應(yīng)題頭信息和文本錄入,檢查無(wú)誤后可點(diǎn)擊右下角的提交按鈕。如看到提交成功的提示,錄入者所錄內(nèi)容就被成功收入。提交成功后所錄入的內(nèi)容不可以再修改,但可以刪除,然后重新錄入。為了保證意外的重復(fù)錄入,完全相同的題頭信息和文本內(nèi)容不能提交成功,題頭信息錄入不全的也不能提交成功。
語(yǔ)料提交成功后,雙語(yǔ)界面的開(kāi)發(fā)和管理者可以查看某個(gè)文本的錄入負(fù)責(zé)人和錄入時(shí)間,也可以對(duì)錄入文檔進(jìn)行管理。如果發(fā)現(xiàn)問(wèn)題,可以對(duì)其進(jìn)行處理,也可以告知該文本的錄入負(fù)責(zé)人,由其負(fù)責(zé)刪除和重新錄入。這樣的監(jiān)控措施保證了文本錄入的規(guī)范和質(zhì)量。
入庫(kù)語(yǔ)料的段落對(duì)應(yīng)很規(guī)整,通過(guò)界面錄入的題目和分類(lèi)等標(biāo)注信息將被軟件自動(dòng)轉(zhuǎn)換,并在后臺(tái)自動(dòng)生成XML格式的題頭信息。除了題頭信息,文本內(nèi)容中的文本開(kāi)始、文本結(jié)束、段落開(kāi)始、段落結(jié)束等位置也被自動(dòng)添加X(jué)ML標(biāo)記。經(jīng)過(guò)XML標(biāo)注的文本和錄入時(shí)的純文本形式的生語(yǔ)料是分開(kāi)的,這樣保證了生語(yǔ)料的干凈。使用者可以在后期對(duì)生語(yǔ)料根據(jù)自身的需要另設(shè)標(biāo)注體系,也可以使用XML標(biāo)注快速定位到現(xiàn)有語(yǔ)料庫(kù)的某一個(gè)文本。
(三)文本對(duì)齊及軟件開(kāi)發(fā)
雙語(yǔ)翻譯對(duì)應(yīng)單位的對(duì)齊在起步階段需人工識(shí)別和手動(dòng)對(duì)齊,對(duì)齊的原則由語(yǔ)料庫(kù)開(kāi)發(fā)團(tuán)隊(duì)在抽樣試驗(yàn)后經(jīng)過(guò)討論進(jìn)行統(tǒng)一。隨著人工識(shí)別的雙語(yǔ)對(duì)應(yīng)單位的積累,后期智能匹配的比率會(huì)逐漸增加,人工干預(yù)成分隨之逐漸減少。另外,語(yǔ)料庫(kù)的建設(shè)在經(jīng)過(guò)雙語(yǔ)界面開(kāi)發(fā)、建庫(kù)和雙語(yǔ)對(duì)應(yīng)單位提取的階段后,還需開(kāi)發(fā)對(duì)應(yīng)的索引軟件,使語(yǔ)料的使用者能夠?qū)σ呀?jīng)匹配的對(duì)應(yīng)單位進(jìn)行查詢(xún)和語(yǔ)境還原。
(一)建成的語(yǔ)料庫(kù)
據(jù)上所述,本著“漢英譯向、學(xué)術(shù)性、規(guī)范性、小尺寸”四個(gè)原則,我們的目標(biāo)語(yǔ)料為中文博士學(xué)位論文的中英文對(duì)應(yīng)摘要,規(guī)模約10萬(wàn)字(源語(yǔ)言)。
經(jīng)過(guò)人工收集和整理,該研究所建成的語(yǔ)料庫(kù)收入了人文、理學(xué)、工業(yè)、農(nóng)業(yè)和醫(yī)藥衛(wèi)生等學(xué)科語(yǔ)料。其中人文類(lèi)33篇,約計(jì)20 000字;理學(xué)類(lèi)21篇,約計(jì)15 000字;工業(yè)類(lèi)36篇,約計(jì)23 000字;農(nóng)業(yè)類(lèi)30篇,約計(jì)20 000字;醫(yī)藥衛(wèi)生類(lèi)30篇,約計(jì)23 000字。以源語(yǔ)言漢語(yǔ)計(jì)算,共計(jì)150篇,約101 000字,符合預(yù)期的語(yǔ)料類(lèi)型和規(guī)模。
(二)對(duì)應(yīng)單位的提取
對(duì)應(yīng)單位的識(shí)別是一個(gè)復(fù)雜的工作過(guò)程。語(yǔ)料庫(kù)開(kāi)發(fā)團(tuán)隊(duì)在對(duì)應(yīng)單位識(shí)別中采用人工識(shí)別和智能識(shí)別相結(jié)合的原則,即在初始階段對(duì)平行文本中的對(duì)應(yīng)單位進(jìn)行純粹的人工判斷和識(shí)別,由軟件系統(tǒng)對(duì)識(shí)別出的對(duì)應(yīng)單位進(jìn)行自動(dòng)提取和標(biāo)注,并利用數(shù)據(jù)庫(kù)將其管理起來(lái),繼而利用數(shù)據(jù)庫(kù)對(duì)新入庫(kù)的文本進(jìn)行智能識(shí)別和提取,而現(xiàn)有數(shù)據(jù)庫(kù)中沒(méi)有儲(chǔ)存的部分仍然靠人工完成。在智能匹配的過(guò)程中,軟件系統(tǒng)會(huì)給操作者以匹配建議,而操作者可以選擇使用或者不用給出的建議。
對(duì)應(yīng)單位的人工提取需要一定的工作理念和操作原則。經(jīng)過(guò)試驗(yàn)和討論,團(tuán)隊(duì)在這個(gè)環(huán)節(jié)的操作過(guò)程中的基本工作原則如下。
1.原則上只要操作者按照個(gè)人的語(yǔ)言知識(shí)判斷為意義對(duì)應(yīng)較完整,并且對(duì)應(yīng)邊界清晰的雙語(yǔ)片段都可以被標(biāo)記和提取(不影響對(duì)應(yīng)單位的準(zhǔn)確性,只影響所提取單位的長(zhǎng)度和數(shù)量,不悖于服務(wù)機(jī)助翻譯的目的)。
2.對(duì)于可長(zhǎng)可短的對(duì)應(yīng),以取短優(yōu)先;但對(duì)于長(zhǎng)短難以取舍的對(duì)應(yīng),不拒絕一個(gè)長(zhǎng)的語(yǔ)言片段和其內(nèi)部成分的同時(shí)對(duì)應(yīng)(不影響短對(duì)應(yīng)的數(shù)量,只增加長(zhǎng)對(duì)應(yīng)的數(shù)量)。
3.如果源語(yǔ)言中出現(xiàn)習(xí)語(yǔ)、成語(yǔ)、熟語(yǔ)等集體出現(xiàn)的成分,則不再拆分,將其整體對(duì)應(yīng)。
4.如果源語(yǔ)言中出現(xiàn)組織機(jī)構(gòu)名稱(chēng)、人名、地名、術(shù)語(yǔ)等成分,則不再拆分,將其整體對(duì)應(yīng)。
5.功能詞不再對(duì)應(yīng),如冠詞、介詞、連詞和代詞等(通過(guò)詞庫(kù)可以實(shí)現(xiàn)自動(dòng)翻譯)。
6.對(duì)于非連續(xù)的對(duì)應(yīng)單位,可以間斷選擇,再進(jìn)行對(duì)應(yīng)。非連續(xù)的成分以非連續(xù)的結(jié)構(gòu)形式進(jìn)行存儲(chǔ)。
7.對(duì)于較難判斷的成分,由操作者根據(jù)自己的語(yǔ)言經(jīng)驗(yàn)確定對(duì)應(yīng)邊界。
以句子“以人機(jī)工程學(xué)為基礎(chǔ),分析了軟技術(shù)的內(nèi)涵和作用機(jī)理”及其翻譯“Based on Human Engineering,this paper analyzed and validated the meaning and mechanism of soft-technology”為例,根據(jù)個(gè)人的語(yǔ)言判斷,我們可以對(duì)漢語(yǔ)中的“以……為基礎(chǔ)”“人機(jī)工程學(xué)”“分析了”“軟技術(shù)”“內(nèi)涵”和“作用機(jī)理”進(jìn)行提取,分別對(duì)應(yīng)英語(yǔ)中的Based on、Human Engineering、analyzed、soft-technology、meaning和mechanism,“的”與“和”沒(méi)有處理,翻譯中的this paper和validated也沒(méi)有處理。
我們接受平行文本對(duì)應(yīng)過(guò)程中的人工判斷是基于以下討論結(jié)果:雖然每個(gè)人的語(yǔ)言知識(shí)和語(yǔ)言判斷不盡相同,所劃分的對(duì)應(yīng)邊界也會(huì)不同,但這種對(duì)應(yīng)的判斷是基于雙語(yǔ)視角的,雙語(yǔ)片段必須同時(shí)界限清晰。這有效地幫助了操作者的判斷和識(shí)別。操作者識(shí)別和提取的對(duì)應(yīng)片段一般不會(huì)是“錯(cuò)”的,即不會(huì)不對(duì)應(yīng)。只是不同的操作者在對(duì)同一個(gè)文本進(jìn)行處理時(shí),所提取的對(duì)應(yīng)單位的長(zhǎng)度不同,不影響所提取的雙語(yǔ)單位的對(duì)應(yīng)性。即使偶爾出現(xiàn)錯(cuò)的情況,即所提取的雙語(yǔ)是不對(duì)應(yīng)的,這種錯(cuò)誤后期被其他操作者所重復(fù)的概率也很小。前期的人工識(shí)別在進(jìn)行了一個(gè)階段之后會(huì)輔以智能識(shí)別,即當(dāng)操作者選取了源語(yǔ)言的某個(gè)片段之后,軟件系統(tǒng)會(huì)將前期提取和儲(chǔ)存的對(duì)應(yīng)結(jié)果進(jìn)行動(dòng)態(tài)統(tǒng)計(jì),同時(shí)將建議的譯文對(duì)應(yīng)片段高亮化顯示給操作者。如果操作者接受系統(tǒng)建議,則系統(tǒng)將把這一組作為新的對(duì)應(yīng)儲(chǔ)存起來(lái);如果操作者不接受系統(tǒng)的建議,他可以繼續(xù)手動(dòng)以使之對(duì)應(yīng)。這樣,已經(jīng)被儲(chǔ)存的對(duì)應(yīng)單位或被繼續(xù)認(rèn)可和重復(fù),從而得到頻率的增長(zhǎng)和地位的提高;或被反復(fù)拒絕,因其頻率排序越來(lái)越低而成為尾巴選項(xiàng),最終等同于從對(duì)應(yīng)單位的行列中被剔除。因此,個(gè)別的對(duì)應(yīng)錯(cuò)誤并不能夠影響對(duì)應(yīng)單位提取的整體結(jié)果,只有識(shí)別者的重復(fù)對(duì)應(yīng)才會(huì)形成對(duì)應(yīng)單位統(tǒng)計(jì)上的概率基礎(chǔ)。
(三)索引軟件開(kāi)發(fā)
該庫(kù)對(duì)應(yīng)的漢英平行學(xué)術(shù)語(yǔ)料庫(kù)的索引軟件已經(jīng)由河南師范大學(xué)語(yǔ)料庫(kù)應(yīng)用研發(fā)中心開(kāi)發(fā)完成,版權(quán)歸河南師范大學(xué)語(yǔ)料庫(kù)應(yīng)用研發(fā)中心。目前軟件經(jīng)過(guò)反復(fù)測(cè)試,可以實(shí)現(xiàn)使用者所需要的基本功能。主要包括:1.對(duì)應(yīng)單位的檢索;2.對(duì)應(yīng)單位的頻率信息統(tǒng)計(jì);3.對(duì)檢索結(jié)果的統(tǒng)計(jì)分析;4.雙語(yǔ)語(yǔ)境還原;5.雙語(yǔ)全文檢索。
不足的是,目前該索引軟件只能實(shí)現(xiàn)精確查詢(xún),即用戶(hù)輸入一個(gè)確定的語(yǔ)言單位,讓軟件系統(tǒng)執(zhí)行查詢(xún)服務(wù),并將查詢(xún)結(jié)果顯示給使用者。使用者可以對(duì)查詢(xún)的結(jié)果進(jìn)行進(jìn)一步的語(yǔ)境查詢(xún)等操作。但是,目前開(kāi)發(fā)出的軟件不認(rèn)可通配符等符號(hào),不能進(jìn)行模糊查詢(xún),如“*穴”等。
語(yǔ)言研究者和計(jì)算機(jī)工作者的合作會(huì)給機(jī)助翻譯的研究帶來(lái)驚人的收獲。平行語(yǔ)料庫(kù)與機(jī)助翻譯的對(duì)接是一個(gè)潛力巨大的項(xiàng)目,而漢英學(xué)術(shù)平行語(yǔ)料庫(kù)是目前國(guó)內(nèi)平行語(yǔ)料庫(kù)建設(shè)所缺少但很重要的構(gòu)成。該語(yǔ)料庫(kù)的開(kāi)發(fā)是在國(guó)內(nèi)學(xué)術(shù)入超、平語(yǔ)語(yǔ)料庫(kù)研究興起、平行語(yǔ)料庫(kù)研究與機(jī)助翻譯研究的結(jié)合日益密切、國(guó)內(nèi)漢英學(xué)術(shù)平行語(yǔ)料庫(kù)稀缺的背景下展開(kāi)的,它在小規(guī)模語(yǔ)料庫(kù)的基礎(chǔ)上完成了建庫(kù)、對(duì)應(yīng)單位提取和軟件開(kāi)發(fā)等系列工作,為大規(guī)模的漢英平行學(xué)術(shù)語(yǔ)料庫(kù)開(kāi)發(fā)提供了可借鑒的理念基礎(chǔ)和操作依據(jù)。
在接下來(lái)的研究中,我們將對(duì)語(yǔ)料庫(kù)的規(guī)模加以擴(kuò)大,對(duì)語(yǔ)料類(lèi)型豐富化,對(duì)索引軟件進(jìn)行改進(jìn),并嘗試與機(jī)助翻譯實(shí)踐進(jìn)行實(shí)驗(yàn)性對(duì)接,以期為漢語(yǔ)學(xué)術(shù)語(yǔ)料的機(jī)助英譯研究做出自己的貢獻(xiàn)。
[1]梁茂成.語(yǔ)料庫(kù)應(yīng)用教程[M]. 北京: 外語(yǔ)教學(xué)與研究出版社,2010:3.
【責(zé)任編輯 郭慶林】
Design and Construction of Chinese-English Academic Parallel Corpus
HU Haizhu
(Faculty of International Studies, Henan Normal University, Xinxiang 453007, China)
Bilingual interface develops, parallel corpus construction, parallel text alignment and concordance software development are all important contents in the construction of Chinese-English academic parallel corpora. As the alignments of parallel texts at paragraph, sentence and lexicon levels are all limited in the use for machine-assist translation, the alignment of bilingual “corresponding unit” has become a new focus. This is a pilot study about the construction of a small Chinese-English academic parallel corpus, focusing on the parallel text alignment and concordance software development to offer a reference for the construction of large-scale Chinese-English academic parallel corpora.
Chinese-English academic parallel corpus; design and construction; corresponding unit
2015-03-25
胡海珠(1979—),女,河南西平人,講師,研究方向:應(yīng)用語(yǔ)言學(xué)。
H319
A
2095-7726(2015)07-0050-04