岑蓉蓉
內(nèi)容摘要:安格拉·默克爾現(xiàn)任德國總理,已擔(dān)任德國最高領(lǐng)導(dǎo)人15年,在每個新年發(fā)表的致辭中都會總結(jié)前一年的德國國家與社會情況,對新的一年提出計(jì)劃與期許。本研究通過介紹《默克爾新年講話》漢德平行語料庫的創(chuàng)建過程和語料庫軟件ParaConc的使用,以期為默克爾新年講話研究提供更加全面、客觀和深入的語料庫數(shù)據(jù)支撐,為其它雙語平行語料庫的創(chuàng)建提供參考和借鑒,同時希望為中德研究的數(shù)字化整理和保存起到一定的促進(jìn)作用。
關(guān)鍵詞:默克爾 新年講話 平行語料庫 創(chuàng)建 意義
安格拉·多羅特婭·默克爾(Angela Dorothea Merkel,1954年7月17日-)現(xiàn)任德國總理、德國基督教民主聯(lián)盟主席,從2005年至今已擔(dān)任德國最高領(lǐng)導(dǎo)人15年。在任期間她因?yàn)閯?wù)實(shí)的政策和熟練的外交手段多次獲得其他國家的贊譽(yù),很大程度上緩解了兩德統(tǒng)一以來積壓的各種經(jīng)濟(jì)、政治和文化矛盾,近年來德國經(jīng)濟(jì)恢復(fù)水平在歐洲多個國家中始終排行前列,她也被世界“女性人物影響力榜單”文章評論為21世紀(jì)最受矚目的女人,世界上第二位“鐵娘子”。每年默克爾都會發(fā)表一篇新年致辭,當(dāng)中會總結(jié)前一年的德國國家與社會情況,對新的一年提出計(jì)劃與期許。致辭的每一次發(fā)布備受德語界關(guān)注,也會有許多人第一時間將其翻譯成中文,并分析其話語與內(nèi)容。
語料庫是指由依據(jù)一定抽樣方法收集的自然出現(xiàn)語料構(gòu)成的電子數(shù)據(jù)庫,是按照研究目的和語料選擇方法選擇并有序排列的語言運(yùn)用材料的匯集,語料庫所收錄語料的組成和特性不同,可用于語料庫翻譯學(xué)的不同研究領(lǐng)域。
建設(shè)平行語料庫需要搜集相對應(yīng)的雙語或多語文本,然后進(jìn)行深層次對齊處理。本研究主要介紹《默克爾新年講話》漢德平行語料庫的創(chuàng)建與意義,借助語料庫來分析默克爾新年講話內(nèi)容,希望能為中德文化的交流與傳播新的研究范式和視角,同時也為德漢語料庫的研究提供借鑒意義。
一.翻譯語料庫
20 世紀(jì)90年代英國曼徹斯特大學(xué)的Mona Baker開始了基于語料庫的翻譯研究,并帶領(lǐng)研究團(tuán)隊(duì)建立了世界上第一個翻譯英語語料庫。語料庫憑借電子計(jì)算機(jī)操作系統(tǒng)和相關(guān)語料庫軟件,對所收集語料進(jìn)行技術(shù)處理,實(shí)現(xiàn)了語料的自動存儲、自動檢索和自動統(tǒng)計(jì)。這一特點(diǎn)極大地方便了研究人員應(yīng)用語料庫開展語言學(xué)、文學(xué)和翻譯學(xué)等相關(guān)課題的研究。
本研究所采用的是平行語料庫,區(qū)別于其他語料庫最典型的特征是預(yù)料之間的平行對齊。平行對齊是指源語文本和目的語文本具體單位之間的對應(yīng)關(guān)系和翻譯關(guān)系。根根據(jù)對齊的語言層面,平行對齊分為詞匯、語句和段落等層面的對齊,此項(xiàng)工作需要憑借軟件和人工干預(yù)共同來完成,耗時費(fèi)力,需要研究者的耐心與細(xì)心。
二.《默克爾新年講話》漢德平行語料庫的創(chuàng)建
John Sinclair(1991)指出:“任何語料庫研究的開端是語料庫建設(shè)本身。就語料庫擬收錄的語料和選取語料的組織方式所作出的決定制約著語料庫研究的后續(xù)發(fā)展?!弊鳛檎Z料庫翻譯學(xué)不可或缺的研究平臺,譯學(xué)研究語料庫的建設(shè)是任何從事該領(lǐng)域研究的學(xué)者無法回避的問題,也是語料庫翻譯學(xué)研究至關(guān)重要的第一步。
本研究創(chuàng)造的語料庫是《默克爾新年講話(2018年-2021年)》漢德平行語料庫,建庫的目的是分析德國總理默克爾2018年-2021年新年講話中的關(guān)鍵詞、高頻詞及對應(yīng)翻譯,探討其中的意義。
1.語料采集與預(yù)加工
語料采集是指將書面語料和口語語料輸入電腦,并以電子文本形式儲存。本研究的語料庫創(chuàng)建首先要采集默克爾總理2018年至2021年的新年致辭,其語料采集與預(yù)加工步驟如下:
第一, 通過環(huán)球網(wǎng)、路透社網(wǎng)站、明鏡周刊等媒體,找到默克爾總理2018年至2021年的新年致辭,其中包括原視頻內(nèi)容與官方文本內(nèi)容及翻譯。
第二, 將采集到的語料內(nèi)容錄入電腦和進(jìn)行整理,也就是將致辭內(nèi)容進(jìn)行標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)換,將一些拼寫錯誤的字母進(jìn)行改正,單詞拼寫識別錯誤需要人工逐個校對,以及要把德語中的特殊字母?覿,?觟,ü,?覻改為可識別的字母:ae,oe,ue,ss。
第三, 需要用word中的“查找替換”將文本的中文標(biāo)點(diǎn)符號“。”和德語標(biāo)點(diǎn)符號“.”改為段落標(biāo)記符號,即“。^p”,這樣便能把文本以句子為單位分隔開。
2.語料的分詞
漢語以字為單位,漢字之間沒有空格。德語以詞為單位,詞與詞之間以空格隔開。由于德漢語言之間的這一差異,我們往往很難以詞匯為單位對漢語語料進(jìn)行統(tǒng)計(jì)和分析,而且,國外研發(fā)的語料庫軟件常常不能識別未經(jīng)分詞處理的漢語語料。因此,有必要對漢語語料進(jìn)行分詞處理。目前,使用中國科學(xué)院計(jì)算技術(shù)研究所自主開發(fā)的漢語詞法分析軟件ICTCLAS3.0或78901中文切詞工具, 可以對漢語語料進(jìn)行自動分詞處理。
本研究運(yùn)用78901中文切詞工具,對默克爾致辭內(nèi)容的中文翻譯進(jìn)行切詞,在此以默克爾2021年新年致辭中文翻譯第一句為例:
“親愛的同胞:過去是怎樣的一年??!2020年發(fā)生了一些世界都未曾預(yù)料的事情?!?/p>
使用切詞工具后,如下:
“親愛的同胞:過去是怎樣的一年??!2020年發(fā)生了一些世界都未曾預(yù)料的事情?!?/p>
由此可以看到,通過切詞軟件,中文文本以詞為單位進(jìn)行了分割,以此可以更好地對應(yīng)德語單詞,進(jìn)行語料對齊與語料分析。
3.雙語語料的平行對齊
雙語語料的平行對齊是指源語語料與目的語語料之間的翻譯關(guān)系或?qū)?yīng)關(guān)系,具體表現(xiàn)為篇章、段落、語句和詞匯等四個層面的對齊。其中,最常見的是語句對齊。
語料對齊的難度很大,因?yàn)樵凑Z和目的語譯文在語句層面并不總是一一對應(yīng)的。翻譯過程中,由于語言文化間的差異,譯者往往將一個源語語句譯作多個目的語語句,或把多個源語語句譯作一個目的語語句。語句層面的對齊需要借助于軟件應(yīng)用和人工干預(yù)相結(jié)合的方式來實(shí)現(xiàn)。軟件Tmxmall、 Trados、wordsmith 等都可以實(shí)現(xiàn)雙語自動對齊。本語料庫的建設(shè)主要采用了Tmxmall對齊軟件,取對齊界面例句,如下所示:
“2020年發(fā)生了一些世界都未曾預(yù)料的事情?!?/p>
“2020 ist etwas über uns gekommen, womit die Welt nicht gerechnet hatte.”
“一種陌生的病毒侵入我們的身體,我們的生活?!?/p>
“Ein bis dahin unbekanntes Virus dringt in unsere K?觟rper und unsere Leben ein.”
三.《默克爾新年講話》漢德平行語料庫創(chuàng)建的意義
本研究選擇ParaConc作為語料庫軟件,1995年第一個版本誕生至今,ParaConc已經(jīng)實(shí)現(xiàn)多語言文本的對齊、詞頻統(tǒng)計(jì)、熱詞搜索搭配搜索等多種功能。
打開ParaConc軟件,導(dǎo)入在此之前已經(jīng)對齊過的Text中文與德語文本,此時的導(dǎo)入結(jié)果,是軟件讀取文本的分段標(biāo)記,某些語料語句的對齊會有誤,則需憑借ParaConc軟件對語料進(jìn)行人工對齊處理:單機(jī)鼠標(biāo)右鍵根據(jù)需要選擇”merger with Previous sentence/segment” 或是”merger with next sentence/segment”的選項(xiàng),以將德語句子合并前句或后句,使其與中文對應(yīng)。
進(jìn)行調(diào)整后,整理出2018-2021年《默克爾新年講話》漢德平行語料庫高頻詞搜表格:
從數(shù)據(jù)結(jié)果看,默克爾總理2021年新年致辭的字?jǐn)?shù)最多,約為1013字。其中,詞匯“Pandemie(意為:大流行?。焙汀癡irus(意為:病毒)”各出現(xiàn)了6次,結(jié)合2020-2021年的國情,新冠病毒是各個國家的熱詞,默克爾總理也在本年的新年講話中多次提到。檢索這兩個詞匯可看到,默克爾總理有對病毒的突如其來和大范圍侵襲表達(dá)擔(dān)憂,也有對所有醫(yī)護(hù)人員、病毒與疫苗研究人員、警衛(wèi)、志愿者以及遵守規(guī)則的普通人表達(dá)感謝,也有對未來表達(dá)希望。2021年的致辭基本與大流行病相關(guān)。
2018-2020年的新年講話字?jǐn)?shù)波動不大,為800字左右。據(jù)檢索,2020年出現(xiàn)頻率較高的實(shí)詞為“Menschen(意為:人們,人類)”,根據(jù)對該詞的進(jìn)一步檢索發(fā)現(xiàn),本年致辭聚焦于德國公民的就業(yè)、教育知識和氣候問題。2019年的高頻詞為“安全”與“和平”,聚焦于世界公共問題,而2018年的高頻詞則為“工作”、“社會”與“團(tuán)結(jié)”,更多關(guān)注的是民生問題。
本研究主要介紹了《默克爾新年講話》漢德平行語料庫的創(chuàng)建過程和意義,創(chuàng)建過程包括語料采集、語料對齊、語料分詞和檢索等。每個環(huán)節(jié)都要借助不同的軟件,與此同時,也需要大量的人工投入,對每一個語料進(jìn)行篩選與檢查。創(chuàng)建意義是借助此漢德平行語料庫,羅列出致辭中的高頻詞,為默克爾新年講話的研究提供更全面、客觀與深入的數(shù)據(jù)支撐,為中德研究的數(shù)字化整理和保存起到積極作用,同時也希望能為中德文化的交流與傳播提供新的研究途徑和視角。
參考文獻(xiàn)
[1]胡開寶.語料庫翻譯學(xué)概論[M].上海交通大學(xué)出版社:上海,2011.
[2]馮麗君.賈平凹小說漢英平行語料庫建設(shè)[J].商洛學(xué)院學(xué)報,2021,35(01):7-11.
[3]張偉紅.《莊子》漢英平行語料庫的創(chuàng)建:途徑與意義[J].外國語言與文化,2020,4(04):125-132.
[4]胡開寶,田緒軍.《政府工作報告》英譯文本的語言特征與文本效果研究——一項(xiàng)基于語料庫的研究[J].外國語文,2018,34(05):1-11.
[5]李靜,任強(qiáng).基于語料庫的中外譯者英譯風(fēng)格研究——以《管子》的兩個英譯本為例[J].山東理工大學(xué)學(xué)報(社會科學(xué)版),2021,37(01):72-77.
[6]胡開寶,毛鵬飛.國外語料庫翻譯學(xué)研究述評[J].當(dāng)代語言學(xué),2012(4).
[7]王華樹.翻譯技術(shù)簡明教程[C].廣州:世界圖書出版公司,2019.
[8]葛囡囡. 語料庫支持下的專利文獻(xiàn)德漢翻譯探究[D].北京外國語大學(xué),2017.
[9]李小龍.《基于語料庫對<論語>衛(wèi)禮賢德譯本的跨文化研究》出版[J].國際漢學(xué),2020(03):93.
(作者單位:寧波大學(xué)外國語學(xué)院)