□丁皓
(浙江警察學院,浙江杭州 310053)
警務翻譯平行語料庫的設計和構(gòu)建
□丁皓
(浙江警察學院,浙江杭州 310053)
以語料庫為基礎的計算機輔助翻譯(CAT)模式是提高涉外警務翻譯能力的一個有效手段,而CAT的前提是警務翻譯語料庫建設。警務翻譯平行語料庫的設計和構(gòu)建,可以從分析警務專業(yè)用語涉及的范圍入手。警務翻譯平行語料庫的設計應包含語料庫二個架構(gòu)層次和四個警務翻譯語料庫子庫結(jié)構(gòu);警務翻譯語料庫的構(gòu)建,要做好語料的搜集和處理,優(yōu)化雙語對齊和進行語料的“噪音”處理,解決“降噪、切分、去重”這三大難題,還需要解決語料庫標注等問題。
警務翻譯語料庫;設計;構(gòu)建;雙語對齊;語料噪音;語料標注
隨著涉外警務活動的日益增多和國際警務合作的進一步深化,警務翻譯已經(jīng)呈現(xiàn)出任務越來越重、翻譯速度要求越來越高的趨勢。為順應這一新形勢,計算機輔助翻譯(CAT),以其翻譯質(zhì)量高,翻譯速度比純?nèi)斯た斓膬?yōu)點,越來越多地被專業(yè)譯員所采用。CAT的核心是翻譯記憶?!胺g記憶庫則是計算機輔助翻譯系統(tǒng)的核心和翻譯工作站的主要部分,從廣義來講,它屬于一種‘簡單’的雙語平行語料庫”。[1]翻譯記憶庫通過積累和加工則成為翻譯平行語料庫。有了語料庫,CAT才能起到翻譯輔助的作用。語料庫越大,翻譯輔助的作用也就越大。但是據(jù)截至2014年有關方面的資料顯示,“國內(nèi)在警務英語語料庫建設方面仍處于空白階段”。[2]筆者迄今為止已經(jīng)制作和搜集到一些警務語料庫,但在數(shù)量和質(zhì)量方面仍不能滿足警務翻譯的需求。為了更好、更快地完成日益繁重的警務翻譯任務,筆者認為有必要進行警務專業(yè)翻譯平行語料庫的建設,為此提出設計和構(gòu)建方案。
(一)語料庫的層次設計?!罢Z料庫的總體設計或研制方案,是決定今后語料庫研究和應用的關鍵。語料庫如何選材,如何架構(gòu),往往決定了語料庫的后續(xù)發(fā)展,甚至決定了能獲取什么樣的研究成果”。[3]警務翻譯語料庫架構(gòu)設計的第一步是確定語料庫應該包含哪些語料,即圈定語料庫應該涵蓋的專業(yè)范圍。
就警務專業(yè)用語范圍來說,其涉及的范圍是很大的。筆者現(xiàn)舉經(jīng)歷過的二個警務翻譯實例:
1.證件防偽技術資料(英譯漢)。The printing plate with graphics and words repel water but ab?sorb ink.However,the printing plate without graph?ics and words repel ink but absorb water.The ink on the printing plate was transferred to the rubber sheetfirst;thenundertheactionoftheprinting pressure,the ink on the rubber sheet was trans?ferred to the substrate.印版有圖文的位置排斥水,吸收油墨;印版無圖案的位置排斥油墨,吸收水。印版上的油墨先轉(zhuǎn)移到橡皮布上,在印刷壓力的作用下,橡皮布上的油墨再轉(zhuǎn)移到承印物上。
2.介紹浙江警察學院(漢譯英)。“江南憶最憶是杭州”,在浩瀚的錢塘江南岸,矗立著一所歷史悠久而又充滿生機的高等學府——浙江警察學院。As the saying goes,"while missing the southland,I miss Hangzhou most of all";by the bank of Qian?tang River,there stands the Zhejiang Police Col?lege with vitality and a long history.
上述譯例1中,涉及的是印刷技術專業(yè);譯例2中涉及的是文學或旅游專業(yè)。對于這種“非警務專業(yè)”的語料,我們應該怎樣處理?也許從“純警務”專業(yè)的角度來看,似乎可以將這些語料排除在外。但是,從圓滿完成警務工作任務的角度來說,如果碰到一個金融犯罪案件,我們是否可以說,金融不屬于警務專業(yè)范圍,而不處理這個案件呢?如果在翻譯一篇警務文書時,里面有一句旅游方面的句子,我們是不是可以說,這不屬于警務專業(yè),因而可以略過不譯呢?答案顯然是否定的。如此說來,警務翻譯語料庫也應該包括這些領域的內(nèi)容。但是如果一切與警務工作可能相關的內(nèi)容都需要包含在警務翻譯語料庫范圍內(nèi)的話,其語料庫幾乎可以包羅萬象,顯然也不宜稱之為“警務語料庫”了。
要解決這個問題,首先要明確我們的目的是什么,因為“語料庫的總體設計是與建庫目的密切相關的”。[4]警務語料庫的目的是為了滿足警務翻譯的需要,警務文件和資料可能涉及的專業(yè)五花八門,范圍極為廣泛,因此,服務于警務翻譯的語料庫專業(yè)范圍也應該是越大越好。至于專業(yè)范圍太大的語料庫能否稱之為警務語料庫,這是一個“目的”和“名稱”的矛盾問題。在這對矛盾中,“目的”是第一位的,必須得到滿足,“名稱”是第二位的,可以在滿足“目的”的前提下予以解決。也就是說,以警務翻譯為“目的”的語料庫設計應該遵循“目的”優(yōu)先并兼顧“名稱”的原則。
根據(jù)這一原則,可以把語料庫分為二個架構(gòu)層次:第一層次是警務專業(yè)翻譯平行語料庫,其語料內(nèi)容基本限于警務專業(yè)。它的翻譯服務效能單一而有限,能在一定程度上滿足警務翻譯的需要,但不能完全滿足警務文書或資料中帶有非警務成份的翻譯需要。第二層次是超大型綜合翻譯平行語料庫,其語料內(nèi)容應該包括一切專業(yè),應能滿足警務翻譯和其他各類專業(yè)翻譯的需要。
上述第二層次的語料庫因超出了警務語料庫的構(gòu)建范圍,且屬于警務語料庫的后繼建設范疇,因此本文不作討論。本文接下來著重討論第一層次警務語料庫的結(jié)構(gòu)設計問題。
(二)語料庫的結(jié)構(gòu)設計。語料庫的結(jié)構(gòu)設計要先明確語料庫應該包含哪些內(nèi)容,弄清楚警務英語的范圍有多大?!叭绻f通用警務英語是公安高校警務英語教學的基礎,那么,從內(nèi)容、形式和文體角度上看,更具有難度的專業(yè)警務英語則是公安高校警務英語高級階段教學的目標,而學術英語是警務英語教學更高階段的目標”。[5]通用警務英語應該包括如警務英語900句等的基本工作用語。而對于警務專業(yè)英語來說,其內(nèi)容應該涵蓋警務工作的各個領域及警務各分支專業(yè)。我國的公安警務分支專業(yè)主要有治安、刑偵、出入境、邊防管理、禁毒、戶政、消防、交通管理、網(wǎng)絡安全、物證鑒定、涉外警務、經(jīng)濟犯罪偵查、法醫(yī)等。而每個分支專業(yè)又設置有許多課程,如網(wǎng)絡安全與執(zhí)法專業(yè)的課程主要有:公安技術、法學、計算機科學與技術、網(wǎng)絡空間安全、計算機網(wǎng)絡技術、政治理論、大學英語、高等數(shù)學、信息安全技術、微機原理及應用、操作系統(tǒng)原理、網(wǎng)絡安全監(jiān)察管理、網(wǎng)絡犯罪偵查、計算機取證技術、數(shù)據(jù)恢復技術等。警務英語除了應該包括這些專業(yè)的全部用語外,還需要包括這些領域更深入的學術用語。
由此可見,警務專業(yè)涵蓋的領域非常之大。為了滿足警務翻譯中可能遇到的各種語料查詢需求,警務專業(yè)翻譯平行語料庫的內(nèi)容似乎應該包括上述警務各個分支專業(yè)的一切課程內(nèi)容及各警務分支領域及相關領域的一切口頭和書面工作用語。但這樣做恐怕會遠遠超出警務專業(yè)的范圍。如對法醫(yī)專業(yè)來說,構(gòu)建一個醫(yī)學語料庫也是需要的。但果真如此的話,警務語料的內(nèi)涵實在太大了。由于語料庫設計方案中還有第二層次的超大型綜合翻譯平行語料庫的后續(xù)構(gòu)建計劃,里面應該包括醫(yī)學等各相關語料庫,所以,在警務專業(yè)翻譯平行語料庫中,就不對其專業(yè)內(nèi)涵作過大的擴展,其內(nèi)容僅限于警務專業(yè)及與其關系比較密切的相關專業(yè)。若在翻譯中碰到其他相關專業(yè)的語言現(xiàn)象,可以到超大型語料庫中去查找?;谶@一設計思想,擬對警務專業(yè)翻譯平行語料庫的結(jié)構(gòu)作如下設計。
警務翻譯語料庫含四個子庫,具體結(jié)構(gòu)如下:
1.警務綜合語料庫。其內(nèi)容包括:治安、刑偵、出入境、邊防管理、禁毒、戶政、消防、交通管理、物證鑒定等各分支專業(yè),以基本滿足警務各分支專業(yè)工作的翻譯需要。
2.法律語料庫。其內(nèi)容包括:中國大陸及港(澳)臺地區(qū)法律法規(guī)、歐美等國家法律、國際公約和協(xié)議等,以滿足與法律有關的警務工作的翻譯需要。
3.政治與國際關系語料庫。其內(nèi)容包括:聯(lián)合國文件、政府文件、領導人講話、外交和時政等,以滿足涉外警務、國際警務合作及與政務有關的警務工作的翻譯需要。
4.信息技術語料庫。其內(nèi)容包括:電腦和網(wǎng)絡等信息技術,以滿足網(wǎng)絡安全工作的警務翻譯需要。
此結(jié)構(gòu)方案與前面的層次方案一起形成了一套較完整的語料庫設計方案。
(一)語料的搜集和處理。對于語料庫的構(gòu)建,其最基本的方法是語料庫制作法,可分為翻譯記憶庫保存法和雙語對齊法。
翻譯記憶庫保存法,即將自己用CAT軟件翻譯好的雙語對照文本保存為記憶庫。不同的CAT軟件有不同的保存操作法。使用CAT軟件的譯員應該都會保存翻譯記憶庫,所以本文不再贅述。
雙語對齊法,即把搜集來的雙語語料進行對齊處理后做成雙語平行語料庫。語料搜集除了上網(wǎng)搜索雙語語料之外,還需要與其他語料庫建設大戶和翻譯團隊建立合作交流關系,共同分享,彼此交換雙語語料。警務語料搜集來后,需要先進行處理,即整理和加工。“語料的整理和加工包括四個步聚:原始語料的校對、英漢語文本的切分、自動句子對齊以及句對齊的校對”。[6]
語料整理最主要的是檢查語料的翻譯質(zhì)量。若有少量翻譯質(zhì)量較差的,可以刪除。如果翻譯質(zhì)量較差的內(nèi)容較多時,應該拒絕該批語料。
語料加工主要是對語料進行“降噪”處理?!敖翟搿碧幚碇饕婕耙韵挛孱悾?/p>
1.公式:若轉(zhuǎn)化為TXT格式的公式仍未變形,則予以保留,否則就予以剔除。
2.表格:一般將表格內(nèi)的文字提取出。
3.圖片:不保留圖片,但需提取出圖片中的文字。
4.外包校對中遺留的某些問題,如空格、斷句、標點、字母大小寫、數(shù)字。
5.將WORD格式轉(zhuǎn)化為TXT格式時會發(fā)生變形的符號,如破折號“——”等。[7]
這五類內(nèi)容可以概括為雙語文本中的公式、表格、圖片、標記及其他各種非文字內(nèi)容。這些內(nèi)容的存在會對雙語對齊過程造成干擾,并且用CAT軟件生成語料庫后會產(chǎn)生亂碼等雜質(zhì),所以稱為“語料噪音”。因此,在做雙語對齊操作前應該先清除這些雜質(zhì),即“降噪”。純?nèi)斯そ翟氲男Ч芎茫俣忍?。為了加快語料庫制作速度,除非是很重要的語料,一般應該采用自動“降噪”技術,如把帶有“語料噪音”的WORD、PPT等雙語文本復制粘貼到TXT中去,再復制回WORD文本。這時原來帶有的“語料噪音”會被清除,但同時可能會出現(xiàn)中英雙語對應的句對處在同一行上的情況。這樣就無法導入CAT軟件進行雙語自動對齊。對于這種情況,手工一個一個地分行操作速度太慢,可以在TXT中用正則表達式大批量地作自動分行處理。另外,用中英文提取軟件結(jié)合EXCEL也可以作分行處理。這些都是自動“降噪”技術。
當然,自動“降噪”技術雖然快捷,但對于某些特殊“語料噪音”,仍然需要花大量時間進行人工修整。比如,圖片中的文字,會連同圖片一起清除掉,或者“降噪”后的效果仍不適合作雙語對齊等情況。這時我們可以用價值工程思想來審視這些語料是否值得花費大量的人工來進行處理。如果效費比太低的話,則應該放棄該類語料,而把有限的時間和精力花在效費比較高的語料上。
(二)雙語對齊。清除了“語料噪音”且對中英文進行分行后,“降噪”工作才算完成。后續(xù)的任務便是語料對齊。雙語語料的對齊可分為段落、句子、短語和詞語等層次。段落的對齊最容易實現(xiàn),但對CAT翻譯來說實用性不大,所以不應采用。句子、短語和詞語的對齊比較難,其中,短語和詞語的對齊屬于術語庫建設的范疇,且并不比句子對齊難。句子對齊問題能解決,短語和詞語對齊問題自然也能解決。所以這里著重討論句級對齊問題。
在具體做句級對齊操作時,應遵循以下原則:(1)允許一句對多句或多句對一句;(2)句號、感嘆號、問號和省略號均視為句子的邊界標記;(3)由于有些中文句子大量使用逗號或分號,導致句子極長,這么長的語料對CAT翻譯來說使用價值不大。因此,句級對齊不一定要以句號為邊界標記,有時可以用句子長度作為邊界標準,多數(shù)情況下可用50字(詞)作為一個句對的長度單位。但法律文本中長句較多,這時可適當放大邊界標準。根據(jù)筆者這幾年的語料庫建設經(jīng)驗,設定150字(詞)為一個句對的長度單位時,基本能涵蓋各種法律雙語句對,且極少有例外。當然,具體長度可根據(jù)文本類型和建庫者的目的靈活設定。
為了實現(xiàn)上述句級對齊目標,最好采用自動對齊軟件。由于“翻譯很多時候并非完全遵照句子對應句子的原則,省譯、擴譯或摘譯情況比較多見,因此,目前來說依靠軟件自動句對齊處理準確度很低,這一工作仍需人工完成”。[8]然而,人工對齊法雖然精確,效果好,但太耗時費力。對于需要大量語料庫支持的CAT翻譯模式來說,緩慢的人工雙語對齊制庫法顯然很難滿足需要。為了解決這個問題,我們需要更高效的對齊方法。就目前的軟件技術水平來說,可行的雙語對齊方案有三種。第一種是把整篇中文和英文分別或混合導入CAT軟件進行自動對齊。目前句級雙語自動對齊技術采用的方法有基于長度、基于詞典,基于在線等形式,通過一定的算法將意義相同的源語和目標語進行自動對齊。不同的軟件自動對齊的正確率不盡相同。在這方面,自動對齊和人工對齊操作綜合性能較好的有雪人翻譯軟件(SCAT),其自動對齊精度一般可達到70-90%(具體精度要視語料類型而定)。自動對齊完成后,可利用雪人軟件的人工對齊功能進行修整。人工修整的方法主要有合并、拆分、剪切等,具體應該綜合靈活運用。第二種對齊方法是把原先對應的中文和英文分別復制到EXCEL,再導入到CAT中,即可生成雙語對齊的平行語料庫。對于中英文混雜在一起但對應的語料,可以用中英文提取軟件分開后,復制粘貼到EXCEL,再導入雪人等CAT軟件生成雙語對齊語料庫。第三種對齊方法是把中英文復制粘貼到TXT,用正則表達式對文本進行修改,然后導入到CAT作自動對齊,并作少量人工檢查和修整。上述三種方案要視不同情況靈活采用,才能高效快速地進行雙語對齊。
(三)語料庫的后處理。語料對齊并保存為翻譯記憶庫后,一個微型翻譯平行語料庫就做好了。把各個微型語料庫分類合并起來,就構(gòu)成警務翻譯平行語料庫的各個子庫。各個子庫的集合就是一個較大的警務翻譯平行語料庫。然而,憑個人之力用雙語對齊法制作語料庫的速度是較慢的。如果利用業(yè)余時間制作的話,一個人一年一般只能制作幾萬句對。這樣的建庫速度是不能滿足警務翻譯需要的。為了加快建庫速度,還應該與國內(nèi)外同行進行交流并收集他們業(yè)已建成的警務語料庫。但是以這種方式收集來的語料庫中,有不少在雙語自動對齊前未對語料進行有效的“降噪”處理,所以存在著“語料噪音”。對于已經(jīng)建成的具有SDL、STM或者TMX格式語料庫的“語料噪音”,其“降噪”要比在雙語對齊前在WORD、PPT或者PDF文本中的“語料降噪”困難得多。此外,還存在著下述問題。
1.如目前一般的CAT軟件只有合并功能,沒有切分功能。以Trados軟件為例,其能導入的單庫容量比一般的CAT要大,但它無切分功能。而其他的CAT如雪人軟件單庫容量只有一百多萬句對,大于這個容量則無法導入,這樣就不能與Trados交換大庫。而Trados本身的庫也會由于只能一直單向增大這一功能局限,最終導致語料庫太大而不能正常運行。這就要求有一種把大庫切分成小庫的技術。對此,目前一般的CAT軟件并無這種功能。
2.對于搜集來的語料庫,有可能與自己已有的庫重復。如果已有庫擁有量在幾十萬句對以下時,這個問題是不難解決的。如現(xiàn)在有些CAT軟件有自動去重功能,只要把自己原有的庫與新來的庫合并導入CAT,CAT軟件就能自動把重復的句對刪除。但是當庫量超過百萬句對時,就超過了CAT軟件的容量,這時新庫進來時其重復問題就無法處理了。從長遠看,警務翻譯語料庫的建設目標應是千萬級句對以上,因此,如果不能解決在千萬級以上句對背景下的新庫自動重復檢測和自動重復刪除的技術問題,就無法完成大型警務語料庫的建設目標。
上述問題歸納起來就是“降噪、切分、去重”三大難題。筆者在這幾年的語料庫建設和交流過程中,未找到國內(nèi)同行有針對這三大問題的較全面而有效的自動處理技術。為了解決這三大語料庫后處理過程中的難題,筆者與軟件設計人員經(jīng)過長期合作研究,已經(jīng)設計了一個語料庫的“降噪、切分、去重”自動處理軟件,其處理容量可達上億句對級,詳情可參見筆者撰寫并發(fā)表于《科教導刊》(2016年第8期)的《翻譯語料庫建設中一些問題的軟件處理法》一文。
3.語料庫的后處理還包括語料庫標注?!罢Z料對齊之后下一步的重要工作是對語料進行標注。標注主要涉及兩個方面:一是詞性標注,二是語言特征信息與翻譯信息標注”。[9]語料標注的主要目的是為翻譯教學、語料庫翻譯學研究和語料庫語言學研究等方面服務。其詞性標注可以用TreeTagge3等軟件自動完成。但是,目前有些比較先進的CAT技術完全可以取代這樣的標注,如雪人CAT,它已經(jīng)把“機器翻譯(MT)、計輔翻譯(CAT)、在線詞典”三個功能整合在一個CAT界面上了,只需把光標移動到需要查詢的詞上,便可從在線詞典中看到該詞的詞性和釋義等全部信息,所以詞性標注對于以翻譯為目的的雪人CAT這樣的軟件來說是無必要的。至于語言特征和翻譯信息標注,這對翻譯輔助是有參考價值的,但是該種標注目前在技術上還無法實現(xiàn)自動模式,需要人工操作,極其耗時費力,很難在短期內(nèi)完成大中型語料庫的標注。警務翻譯語料庫的目的是為了支持CAT軟件優(yōu)質(zhì)快速地完成警務翻譯任務,其當務之急是語料庫要足夠大,有無標注對CAT的翻譯輔助功能影響不大,因此,為了早日建成大型警務翻譯語料庫,在建庫初期可以不標注;將來如果有語料庫翻譯學研究等方面的需要時,可以對已經(jīng)建成的警務語料庫進行后續(xù)深加工。
當然,這并不是說用于CAT的翻譯語料庫完全不必標注。對于少數(shù)特殊情況,還是有必要標注的。例如對于“警司”這個警銜名稱的翻譯,不同國家和地區(qū)有不同的譯名,如:Police Superintendent(中國警司)、Superintendent of Police(香港警司)、Sergeant(美國紐約警司)、Police Sergeant(美國洛杉機警司)、Superintendent of Police(英國警司)、Superintendent(澳大利亞新南威爾士警司)。對于這種同一個詞或詞組在不同的地區(qū)有同譯名的情況,就需要標注。雪人CAT軟件為這種情況提供了“備注”功能,我們在做雙語對齊時可以在“備注”欄中標注警銜的國別或地區(qū)信息,這樣,CAT譯員在翻譯時就可根據(jù)不同地區(qū)參考標注選擇合適的警銜譯名。
警務工作用語涉及的領域非常之大,單純依靠警務語料庫不一定能完全滿足CAT警務翻譯的需要。為更好地滿足CAT警務翻譯的需要,本文提出了第一層次的警務專業(yè)翻譯平行語料庫和第二層次的超大型綜合翻譯平行語料庫的設計思想和方案。
警務翻譯語料庫的構(gòu)建有語料庫制作和語料庫收集兩種途徑。通過這兩種途徑構(gòu)建語料庫時都會遇到“語料噪音”等問題,處理的方法有人工操作和自動處理技術二種。人工處理法質(zhì)量高,但速度慢;自動處理法質(zhì)量稍差,但速度快。為了既優(yōu)質(zhì),又快速地構(gòu)建警務語料庫,需要以價值工程思想為指導,用功能、成本分析,采用效費比較高的構(gòu)建方案,并把自動處理和人工少量修整適當結(jié)合,以期早日建成大型警務翻譯平行語料庫。
[1]李毅鵬.從雙語平行語料庫到翻譯記憶庫[J].雞西大學學報,2012(12).
[2]劉震宇.公安院校微型警務英語口語語料庫的構(gòu)建與應用[J].山東警察學院學報,2014(9).
[3]Sinclair,John.Council of Europe Multilingual Lexicogra?phy Project[R].Report Submitted to the Council of Europe un?der contract no.57/89,1991:13.
[4]王克非.新型雙語對應語料庫的設計與構(gòu)建[J].中國翻譯,2004(11).
[5]王衛(wèi)平.《歐洲語言共同參考框架》對制定警務英語能力量化標準的啟示[J].鐵道警察學院學報,2015(2).
[6]陳瀟瀟,葛詩利.科技文獻英漢翻譯平行語料庫的構(gòu)建[J].廣東外語外貿(mào)大學學報,2012(5).
[7]管新潮,胡開寶,張冠男.英漢醫(yī)學平行語料庫的創(chuàng)建與初始應用研究[J].當代外語研究,2011(9).
[8]譚興,石婕妤.地方性旅游景區(qū)翻譯語料庫的創(chuàng)建與應用[J].成都師范學院學報.2014(10).
[9]熊兵.基于英漢雙語平行語料庫的翻譯教學模式研究[J].外語界,2015(4).
(責任編輯:秋實)
H315.9
A
1674-3040(2016)05-0095-05
2016-05-18
丁皓,浙江警察學院國際學院(籌)英語教師、助教,主要研究方向為英語語言文學翻譯理論與實踐方向。