于淑芳
(皖西學(xué)院 外國語學(xué)院,安徽 六安 237012)
皖西革命老區(qū)有著艱苦卓絕的革命歷程和厚重的紅色文化資源。皖西紅色文化即是皖西地區(qū)文化發(fā)展的精華,是皖西人民在長期革命斗爭中形成的革命傳統(tǒng)及其載體[1]。習(xí)近平總書記在2016年也提出“要講好黨的故事、革命的故事、根據(jù)地的故事、英雄和烈士的故事”,鼓勵我們講好紅色故事,發(fā)揮傳承紅色精神的接力棒作用。長期以來,皖西紅色文化資源通常是零散的單個語種的個案研究或質(zhì)性研究,語料庫研究視角缺乏,量化研究和實證性研究相對薄弱,一定程度上影響了皖西本土豐富的紅色文化資源和紅色革命精神的外宣和傳播。因此,皖西紅色文化的講述和紅色精神的傳承急需以一種系統(tǒng)、全面的,雙語的形式體現(xiàn)出來。皖西紅色文化雙語語料庫的構(gòu)建就是對皖西紅色文化遺產(chǎn)進(jìn)行全面挖掘和整理的最佳方式來更好地弘揚和宣傳皖西紅色文化,擴(kuò)大皖西紅色文化的海內(nèi)外影響力。
平行/對應(yīng)語料庫(parallel corpora)是由原文文本及其平行對應(yīng)的譯文文本構(gòu)成的雙語/多語語料庫,其對齊程度分為詞級、句級、段級和篇級幾種。雙語平行語料庫建設(shè)是同計算機(jī)技術(shù)相結(jié)合而興起的,為語言研究、翻譯研究、外語教學(xué)等提供了平臺,具有廣闊的前景。構(gòu)建新型國際關(guān)系、人類命運共同體的今天,雙語平行語料庫的建立成為了解世界信息、延展對外交流、獲取全球資源的重要手段之一。
從索緒爾開始,語料庫的研制和應(yīng)用就成為了方法和工具最具有標(biāo)志性意義的進(jìn)步。世界上第一個初步的平行語料庫是距今20多年的Candian Hansard Corps。目前,平行語料庫大多集中在歐洲,主要涉及歐洲語言、文本類型、以歐共體/歐盟等機(jī)構(gòu)的文件為主[2](P4)。
國內(nèi)在近十年來雙語平行語料庫發(fā)展也較為迅速。國內(nèi)語料庫主要從兩個類型展開,(非)文學(xué)文本和某一特定類型的類文本。比如以文學(xué)為題材的燕山大學(xué)的《紅樓夢》譯本平行語料庫、上海交通大學(xué)的莎士比亞戲劇英漢平行語料庫等,或以特定類型為題材的臺灣輔仁大學(xué)的范本財經(jīng)英日漢平行語料庫等。由王克非教授主持編纂的容量為3000萬字且“可應(yīng)用于語言研究、翻譯研究、教學(xué)研究、雙語詞典編等”領(lǐng)域的通用漢英對應(yīng)語料庫是目前世界上最大的雙語平行語料庫[3]。
毛軍社和寇靜認(rèn)為,在當(dāng)今時代發(fā)展的背景下,紅色文化通過英語這一媒介來進(jìn)行傳承和傳播是大勢所趨。如此一來,國家的文化軟實力不僅得到提升,大學(xué)生的歷史責(zé)任感和社會使命感也得到增強(qiáng)[4]。王惠和朱純深也曾指出,很久以來,通常都是文學(xué)語料庫被用來作為雙語平行語料庫的主要核心,為某一個具體地域或者某一個具體主題專門建立雙語平行語料庫卻不多[5]。王亞東闡述了紅色文化與語料庫語言學(xué)有機(jī)結(jié)合成就了英漢紅色文化語料庫。他對紅色文化語料的收集、英漢紅色文化平行語料庫的建設(shè)和應(yīng)用以及紅色文化語料的翻譯幾個方面都提出自己獨到見地[6]。
我國目前已經(jīng)建有一些漢英平行語料庫,但是以皖西紅色文化作為主題的具有地方特色平行語料庫還處在空白階段。皖西紅色文化資源翻譯具有本土化的特點,它通過皖西紅色文化雙語范本、政府網(wǎng)站、官媒報道、領(lǐng)導(dǎo)人語錄等媒介涵蓋了能積極反映出皖西當(dāng)?shù)丶t色文化的語言、文化、歷史和現(xiàn)狀。因此,建立紅色文化資源雙語語料庫在推動皖西紅色文化傳承中的媒質(zhì)作用具有現(xiàn)實意義和積極意義。由于其不同于一般自然資源和人文資源翻譯,為了規(guī)范紅色文化資源英譯,可以在借鑒現(xiàn)有紅色旅游漢英平行語料庫的基礎(chǔ)上,構(gòu)建和應(yīng)用皖西紅色漢英雙語平行語料庫。
皖西紅色文化資源漢英平行語料庫(Chinese-English Parallel Corpus of West Anhui’s Revolutionary Culture)簡稱CEPCOWC。建庫目的是對皖西紅色文化資源做出科學(xué)規(guī)范的相關(guān)研究。
該語料庫是可用于皖西紅色革命精神研究及皖西紅色文化資源宣傳的漢英平行語料庫。該庫由多個子庫組成,初步計劃收錄原始語料約三萬字,庫容五萬字的語料庫(革命遺址、紀(jì)念性建筑類、紅色革命人物故事和紅色革命文學(xué)等代表性語料的集合)。語料分類為英漢(2/3)和漢英(1/3)雙語雙向。該庫應(yīng)能為相關(guān)領(lǐng)域的皖西地區(qū)外宣語料庫的建設(shè)做一些理論上的探討和實踐上的嘗試,為皖西紅色精神研究提供一個可共享的數(shù)據(jù)平臺。
根據(jù)皖西紅色文化資源的文化特色和多樣性,語料庫的主題欄目規(guī)劃初步分為革命遺跡類、紀(jì)念性建筑類、紅色革命人物故事和紅色革命文學(xué)四大類以及若干個子類,涵蓋了紅色文化的大多數(shù)資料,具體分類見表1。
表1 皖西紅色文化漢英平行語料庫主題欄目
利用科學(xué)的語料采集方法,把采集到的雙語語料書面語料實現(xiàn)電子化,不僅僅符合真實、隨機(jī)的原則,而且又相對對應(yīng)和完整,具有典型和代表性。
皖西紅色資源內(nèi)容多樣、形式豐富、感染力強(qiáng),所以調(diào)查小組根據(jù)不同的需求,一方面下沉到社區(qū)、工廠、單位、農(nóng)村稻田、紀(jì)念館、烈士陵園等地方進(jìn)行教育、宣傳、實地體驗和咨詢觀摩等方式收集語料。這些隨機(jī)采集到的都屬于非公開發(fā)行的語料。收集到的語料還得經(jīng)過核實、驗證、校對等方式最終形成可靠真實的資料錄入成為最終語料。另一方面從正規(guī)發(fā)行物(已有的書籍、知網(wǎng)、音頻、視頻,包括六安市政府官方網(wǎng)站等)中收集有關(guān)皖西紅色文化相關(guān)的材料,從中英文雙語版本中提取所需資料。對于收集到的紙質(zhì)版本,通常通過掃描的方式獲得圖片格式或者PDF版,更科學(xué)地使用“CS”全能王提取所需文字實現(xiàn)電子化文本,然后根據(jù)語料的來源、年代、題材、篇名、作者、譯者等元素設(shè)計成多維原信息標(biāo)簽,以詞語或句子為單位以對齊的方式。比如英文和中文(英文為原文,中文為譯文)對齊,形成英漢對照的 word 文件,然后分別單獨保存為TXT文檔,方便后期加工和處理。單獨保存的TXT文檔,都屬于生語料,也就是沒有經(jīng)過加工的語料。因為語料中含有多余空格、標(biāo)點符號錯誤、連字符等,所以要對生語料進(jìn)行加工。CEPCOWC采用Word文檔中“查找和替換”功能進(jìn)行“除燥”和“清洗”,即利用軟件輔助人工對語料中的錯誤進(jìn)行清洗和除噪(data cleaning),然后再復(fù)核進(jìn)行人工檢驗。沒有問題的情況下,把“除燥”和“清洗”后的文本按照統(tǒng)一格式命名和儲存。
語料對齊指在兩種或多種語言文本的不同語言單位之間建立對應(yīng)關(guān)系,即確定源語文本的哪個語言單位和目標(biāo)文本的哪個語言單位互為翻譯關(guān)系。語料對齊的單位包括篇章、段落、句子、詞塊或詞匯[7]。由于篇章內(nèi)容容易對齊,而詞匯英漢表達(dá)不同,對齊有點難度,所以重點就是句子的對齊。因此CEPCOWC語料庫以源文本為基礎(chǔ),句子單位為基本,對整個語料庫內(nèi)容做句子層次的對齊。市場上有很多語料對齊的免費軟件,如Tmxmall在線對齊、WinAlign、ABBYY Aligner、雪人對齊、ParaConc等軟件。這里采用ABBYY Aligner0.2在線對齊軟件,因為它功能最簡單高效,數(shù)據(jù)存儲與交換可以方便快捷得進(jìn)行,數(shù)據(jù)讀取及利用檢索和機(jī)器翻譯系統(tǒng)則更加直接。如圖1。
圖1 皖西紅色文化漢英平行語料庫語料對齊
李德俊和曹軍提出既科學(xué)又省力的檢測語料可信度的是提等距抽樣和分層抽樣。他們提到分層抽樣是將總體各單位按照一定的標(biāo)志劃分為若干個層(類),然后從各層中抽取所需樣本數(shù)的方法。而等距抽樣是將總體各單位順序排列后,首先按隨機(jī)原則,抽取第一個樣本單位作為起點,然后再每隔相等的距離來隨機(jī)抽取其他樣本單位的方法[8]。例如,皖西紅色文化資源可以分為歷史遺跡類、紀(jì)念性建筑類、紅色革命人物故事和紅色革命文學(xué)四大類,并且這些類別下屬分別有更具體的分類。因此在進(jìn)行語料庫設(shè)計檢測抽樣的時候,首先就要考慮的是分層抽樣。以抽選間隔為例,在建立皖西紅色文化雙語小型語料庫過程中,從收集到的某一類型的語料某一年當(dāng)中(共365天)的所有文章中選擇含有“革命”字樣的15篇,即N=365,n=10,抽選間隔為:K=N/n=37天。即每隔37天抽出相對應(yīng)含有“革命”字樣的樣本來進(jìn)行抽樣檢測。最后,通過對10個樣本的分析,語料庫的整體質(zhì)量即可大概率確定,從而及時修訂相關(guān)譯文。
語料的分詞和標(biāo)注是對CEPCOWC語料的再精細(xì)加工方式之一。因為所有的語料文本都要放在語料庫中操作,所以所有的詞都要斷開。英文已經(jīng)基本成詞,而中文是連續(xù)的,因此分詞主要用在漢語文本中。馮麗君指出漢語就是將連續(xù)書寫的漢字按照有意義的詞單元進(jìn)行切分,以利于后期的檢索[9]?!皹?biāo)注”指專門對文本進(jìn)行特別解釋性語言標(biāo)記的方法,以便于計算機(jī)的識讀,是建設(shè)和實現(xiàn)語料庫思想和原則的基本路線之一。語料庫的基本構(gòu)架和語料形態(tài)就是由它決定的并且會直接影響使用者對語料庫的操作熟練程度[10](P37-51)。這里中文分詞與標(biāo)注直接用國家語委提供的語料庫在線分詞和標(biāo)注功能網(wǎng)站。英文則用Free Claws web tagger-Lancaster University提供的軟件進(jìn)行英文自動分詞和標(biāo)注。雙語語料的分詞和標(biāo)注全部完成后,人工再審校它們的正確性,沒有出入的情況下,復(fù)制文本,放在“TXT”里面。如圖2、圖3所示。
雙語語料庫源庫的建立,一方面加強(qiáng)全民紅色精神集體感化教育,滿足人民對中國共產(chǎn)黨和社會主義的心靈渴望和精神追求。另一方面提供真實有據(jù)的雙語語料資源,有利于弘揚革命精神、傳承紅色基因,擴(kuò)大皖西紅色文化在全國乃至全世界的影響力。
在英語教學(xué)應(yīng)用方面,雙語語料庫是原始文本和對應(yīng)文本的句與句之間的嚴(yán)格對稱,因此在收集語料過程中,方便檢索發(fā)現(xiàn)原始譯本的失誤現(xiàn)象,糾正偏差來提高原始文本和翻譯對應(yīng)文本的吻合度,為本土高校英語翻譯、口語、寫作等實踐教學(xué)工作提供豐富規(guī)范的語料資源。比如:“紅色文化”一詞的翻譯,大多數(shù)公開媒體都翻譯成“Red Culture”。事實上,國外的“red”通常代表了“危險”“殘暴”“流血”等含義,而中國的“紅色文化”則意味著“廣大人民群眾在中國共產(chǎn)黨領(lǐng)導(dǎo)下,在實現(xiàn)中華民族的解放與自由的歷史進(jìn)程中和新中國社會主義三大改造時期,整合、重組、吸收、優(yōu)化古今中外的先進(jìn)文化成果基礎(chǔ)上,以馬克思列寧主義的科學(xué)理論為指導(dǎo)而生成的革命文化”[11]。因此,“紅色文化”翻譯成“Revolutionary Culture”更為妥當(dāng),源文本和譯本黏合度和關(guān)聯(lián)性更加緊密。
圖2 皖西紅色文化漢英平行語料庫漢語分詞和標(biāo)注
圖3 皖西紅色文化漢英平行語料庫英語分詞和標(biāo)注
CEPCOWC語料庫利用皖西紅色文化雙語語料庫為各個階層提供了進(jìn)行社會主義核心價值觀的愛國主義、集體主義、舍生取義的英雄主義的教育的翔實資源。一方面,提高本土高校思想政治教育的站位高度和紅色革命精神的傳承度,另一方面,充分體現(xiàn)皖西紅色文化的科學(xué)性、時代性、民族性、大眾性和創(chuàng)新性,有利于提高皖西革命老區(qū)的知名度,增強(qiáng)社會各界對于皖西紅色文化的宣傳、保護(hù)和利用的意識,有效地開發(fā)和利用具有傳承精神的紅色文化財富。而且CEPCOWC語料庫的應(yīng)用不僅將弘揚“自由、民主、愛國、平等”的社會主義核心價值觀,營造“不忘初心、銳意進(jìn)取”的紅色文化氛圍,強(qiáng)化積極健康向上的正能量對全社會的集體感化作用,而且有利于發(fā)揮皖西紅色文化的凝聚力和吸引力從而激發(fā)廣大群眾對皖西紅色文化的認(rèn)同感和自豪感,繼承和發(fā)揚優(yōu)秀的革命傳統(tǒng)和精神信仰。更重要的是,CEPCOWC語料庫的應(yīng)用將在皖西地方政府實施紅色文化強(qiáng)市的戰(zhàn)略基礎(chǔ)上樹立皖西紅色文化對外宣傳的新形象。
語料庫不僅是一門交叉學(xué)科而且它的學(xué)科交叉、結(jié)合、融匯作為新的教學(xué)研究范式在世界范圍內(nèi)得到大力提倡。語料庫由語言材料組成,最初目的也是始于語言研究,而且它還融合了歷史、計算機(jī)技術(shù)、機(jī)器翻譯、機(jī)輔翻譯的學(xué)科的交叉。這是一個推動以語料庫技術(shù)應(yīng)用為基礎(chǔ)的跨學(xué)科研究新領(lǐng)域,從更新更廣角的維度展開皖西紅色文化跨學(xué)科背景的研究。CEPCOWC語料庫在學(xué)科群協(xié)同效應(yīng)的背景下,發(fā)揚和傳承發(fā)展皖西紅色精神、傳播弘揚皖西紅色文化方面做出貢獻(xiàn),進(jìn)而促成皖西紅色精神的站位能聚焦到國家層面,真正達(dá)到取之于民用之于民的效果。
皖西紅色雙語漢英平行語料庫的建設(shè),不僅可以實現(xiàn)跨學(xué)科研究和應(yīng)用,而且有助于皖西地區(qū)紅色資源統(tǒng)籌謀劃、加強(qiáng)整合、深入挖掘紅色文化遺產(chǎn)內(nèi)涵、 做好紅色文化傳承,使得皖西地方紅色文化得到強(qiáng)化保護(hù)和可持續(xù)開發(fā)利用。這是對皖西紅色雙語文本進(jìn)行客觀的數(shù)據(jù)分析的一種創(chuàng)新性嘗試。它旨在填補前期皖西紅色文化雙語語料庫空白,增強(qiáng)皖西紅色文化研究的效度和信度,深化研究的深度和廣度,實現(xiàn)地方紅色文化走出國門的愿望。