馬杰森
(紹興文理學院 外國語學院,浙江紹興 312000)
漢傳佛典是中華傳統(tǒng)文化的有機組成部分,其數(shù)量眾多,內(nèi)涵深厚。在與世界文化交流的歷史進程中,佛典的對外譯介極具挑戰(zhàn)性。2023年習近平總書記在中國共產(chǎn)黨與世界政黨高層對話會上提出“要共同倡導加強國際人文交流合作,探討構建全球文明對話合作網(wǎng)絡,豐富交流內(nèi)容,拓展合作渠道,促進各國人民相知相親,共同推動人類文明發(fā)展進步”[1]。因此,積極推進中華文明與世界其他文明的交流溝通,是時代對中國學者提出的必然要求。正如潘文國先生所言,“漢籍英譯不是外國人的專利,中國學者和翻譯工作者應該理直氣壯地勇于承擔這一工作”[2]。近年來,隨著機器翻譯的快速發(fā)展,神經(jīng)網(wǎng)絡機器翻譯(以下簡稱“NMT”)的準確性和高效性早已超越了普通人類譯者,特別是ChatGPT這個基于神經(jīng)網(wǎng)絡架構訓練而成的生成型預訓練變換模型,超越了一般人的知識翻譯能力,使得翻譯產(chǎn)業(yè)開始步入大生產(chǎn)時代。基于“平行語料庫在語言對比、翻譯研究、翻譯教學、自動翻譯、雙語詞典編纂和自然語言處理等領域具有重大的理論意義和應用價值”[3],創(chuàng)建大型漢傳佛典漢英平行語料庫,以促進漢傳佛典外譯事業(yè),就顯得尤為必要。
據(jù)馬偉德(Marcus Bingenheimer)統(tǒng)計,截至2023年3月共有639份漢傳佛典被譯成西方語言,總計1 421個譯本。但我國學者的參與度較低,譯介數(shù)量很少,這與我國作為漢傳佛典的主要傳承與發(fā)展者的身份嚴重不符。漢傳佛典的英譯雖有紙質(zhì)或電子類漢英佛學雙語詞典,比如,蘇慧廉(W.E.Soothill)與何樂益(Lewis Hodous)合編的《中國佛典術語雙語詞典》、陳觀勝與李培茱編著的《中英佛典雙語詞典》、派伊(Michael Pye)和李雪濤等合編的《多語對照中國佛典術語辭典》,以及穆勒(C.Muller)主持編輯的在線電子詞典等可資參考,但此類雙語詞典僅限于對佛典術語提供解釋和對應的英譯,很少像平行語料庫那樣提供真實的例句或上下文語境,因此在漢傳佛典外譯實踐中很難滿足實際需要。
到目前為止,我國尚無可資利用的漢傳佛典漢英平行語料庫。國外雖有佛典平行語料庫,但數(shù)量很少,且并非用于翻譯目的。東京大學SAT大正藏文本數(shù)據(jù)委員會創(chuàng)建的佛典平行語料庫(BDK-SAT parallel corpus)提供中文檢索,可查找對應的英譯和上下文,但只限于日本佛經(jīng)傳道協(xié)會版權所有的譯本,作為翻譯參考價值有限。另外,挪威奧斯陸大學人文學系創(chuàng)辦的佛典文獻寶庫(Thesaurus Literaturae Buddhicae),該文庫是梵、中、藏、英,多語平行語料庫,提供搜索功能。不過該庫提供的英譯本多譯自梵文本或藏文本,用于漢英翻譯參考價值不大。由此可見,現(xiàn)有漢傳佛典平行語料庫資源與漢傳佛典在世界文化中的地位不對稱,很難滿足學界在漢傳佛典外譯和研究方面的需要。
漢傳佛典漢英平行語料庫是以語料庫語言學理論為指導,考慮機助翻譯、機器翻譯的需求及中古漢傳佛典語言的特點而創(chuàng)建的。建設的總目標是收錄漢傳佛典較重要的100部典籍及名家英譯本,使其庫容量達到1 000萬漢英字數(shù)的規(guī)模,以充分發(fā)揮漢傳佛典漢英平行語料庫在計算機輔助翻譯、雙語詞典編纂、NMT模型預訓練、典籍翻譯研究和教學、中華文化外譯方面的利用價值。建設的過程涵蓋語料的采集、清洗、對齊、記憶庫和術語庫的提取、語料庫的導出和文本分詞、詞性標注等方面,基本路徑如圖1所示。
圖1 漢傳佛典漢英平行語料庫建設的基本路徑
漢傳佛典浩如煙海,經(jīng)典甚多,如果將凡有英譯本的漢傳佛典全部收入語料庫進行漢英句對齊,規(guī)模之大,小型科研團隊很難完成。無論樣本有多大,除非它充分涵蓋特定話語傳播的體裁和語境的范圍,否則樣本仍然是部分的和不完整的[4]。因此漢傳佛典漢英平行語料庫在建設過程中對典籍的采集需有所規(guī)劃,所選典籍要能涵蓋經(jīng)、律、論三藏和不同歷史時代,以確保所選典籍樣本的代表性和平衡性。在建設初期,宜選擇對中國佛教影響最大及最能體現(xiàn)中國佛教基本精神的13部佛經(jīng),即以《心經(jīng)》《金剛經(jīng)》《壇經(jīng)》《維摩詰經(jīng)》《法華經(jīng)》等為主,有計劃有步驟地收錄不同歷史時代的經(jīng)、律、論三藏典籍及其英譯本,最終達到1 000萬字數(shù)的適當規(guī)模。
確定好佛典后,還得解決以下3個問題。第一,如何選取漢譯本的問題。有些典籍在歷史上漢譯本眾多,如何進行選擇呢?鑒于建設的是漢英平行語料庫而非單語語料庫,因此漢譯本選擇主要取決于英譯本所依底本。比如,《法華經(jīng)》現(xiàn)存有竺法護、鳩摩羅什等3個譯本,然眾多英譯本多以鳩摩羅什本為底本,故對《法華經(jīng)》的采集便只選鳩摩羅什本。有時,應該遵循英譯者的做法,以某漢譯本為主導,添加源自參考本中的修訂或補缺信息,并加以備注。第二,如何選擇英譯本的問題。有些佛典英譯本并非譯自漢語本,而是梵文本或藏文本,比如,《楞伽經(jīng)》有柯利睿(Thomas Cleary)譯自梵語本的英譯本,《維摩詰經(jīng)》有瑟曼(Robert Thurman)譯自藏文本的英譯本,這些譯本雖出自名家之筆,但考慮到梵文本或藏文本的內(nèi)容和漢語本有較大出入,故需舍棄。還有某些重要經(jīng)典,如《金剛經(jīng)》,其英譯歷史有100多年,英譯本非常豐富,因此要注意均勻選取各個時期的譯本,以方便后續(xù)開展歷時研究。對于同一時期不同典籍的譯本也要盡可能多收集,以方便后續(xù)的共時研究。第三,如何利用現(xiàn)有相關資源的問題。在確定漢、英譯本后,為減少掃描、文字識別等工作,盡量采用現(xiàn)有網(wǎng)絡電子佛典資源。不過對于采集的語料,需要注意版權問題。
語料清洗一般是指清除所采集語料中的噪音,此類噪音主要為錯字亂碼、多余的標點、多余的空格、段落標記等。在處理時一般先將各類格式的語料轉(zhuǎn)成統(tǒng)一編碼UTF-8格式,然后用文本整理器快速批量處理各種噪音。對于英譯本中用拉丁字母轉(zhuǎn)寫的梵語詞匯往往存在帶變音符號的擴展拉丁字母,這種字母是嵌入在PDF等原始文檔中,當被復制到其他格式文檔時,由于缺少轉(zhuǎn)換所需的編碼信息,會出現(xiàn)大量亂碼。因此,對于此類擴展拉丁字母建議通過替換的方式全部改為無變音符號的拉丁字母,以減少后期應用的問題。另外,還需去除文本中的各類注釋、附錄詞匯表、參考文獻等信息,只保留典籍名稱、譯者姓名、出版時間、出版社、翻譯底本等元信息和正文內(nèi)容。清洗完成后還需要校對,可利用WPS或WORD拼寫檢查工具先進行粗略校對,之后再對齊和精校。
語料句對齊目前技術上一般采用基于句長、詞匯、混合式等方式進行機器自動對齊,在此基礎上再進行人工手動拆分和調(diào)整。對齊工具可選擇“嵌入式對齊工具、獨立式對齊工具、在線對齊工具或開源對齊工具”[5]。漢傳佛典語料不同于其他普通文本,在構詞、語法和句式上受到梵文佛經(jīng)的影響,語言形態(tài)有別于傳統(tǒng)漢語,是中國古代漢語中的一個特殊類型[6]。加之佛典文本在古代并無句讀標識,近現(xiàn)代學者在解讀、注釋或翻譯漢傳佛典時,受個人的知識結構、語言知識和背景知識的影響,對于某些經(jīng)文往往存在句讀劃分差異。另外,同一部漢傳佛典存在不同譯本或不同版本,內(nèi)容上相差較大。有些譯者在翻譯漢傳佛典時,會以其中某個版本為底本,再輔之以其他版本的內(nèi)容,而其他譯者可能只依其中某個版本來翻譯。一般說來,對于同一作品的多個譯本,往往是采用“一對多”的對齊方式,以便于翻譯研究和翻譯教學。但針對漢傳佛典的上述特殊情況,采用“一對多”的方式必然增加對齊難度和對齊時間,且難以達到句對齊的理想效果。所以對于漢傳佛典漢英語料的對齊,原則上采用“一對一”的方式比較切合實際。漢傳佛典語言簡潔,重意合、輕形合,一句漢語包含的語義信息量可能很大,而英語重形合、輕意合,一句漢語有時往往被分割成多個英語句來表達。因此,以漢語句為標準對齊,有時會造成一句漢語對應多句英語,而過長的語句不利于后續(xù)NMT模型的預訓練——語句越復雜,模型就需要更多的時間和資源來處理,所以在NMT模型預訓練前一般要剔除句子長度差距過大的語句,以減少干擾。因此以英語句為標準進行句對齊,適當切分漢語句子,這樣能保證英漢句長更合理。
句子對齊具體操作可在漢英語料文本清洗階段,通過正則表達式快速給每個段落末尾添加段落標記,然后將漢英語料導入雪人CAT對齊項目,勾選“使用段落信息”,這樣可以實現(xiàn)段落層面的自動對齊,然后再按照段落以英語句作為標準,根據(jù)英語句子意思切分漢語句子,點擊回車或刪除鍵對漢英句子進行拆分或合并,實現(xiàn)句級層面對齊。漢語句依英語句意切分后,對于漢語句原來的標點符號仍舊保留,不做修改,這也是研究英漢語言差異的基礎信息。
在計算機輔助翻譯(CAT)領域,普遍采用翻譯記憶庫(TMX)來輔助譯員進行翻譯實踐。當譯員翻譯一篇文檔時,計算機會自動檢索之前翻譯過的句子,如果有相同或相似的句子,翻譯記憶庫就會給出已翻譯的對應句子,譯員可以直接使用,也可以根據(jù)需要進行修改,從而提高翻譯速度和準確度。在利用雪人CAT軟件完成漢傳佛典語料對齊后,可直接在雪人CAT軟件中,鼠標右鍵點擊對齊文件名,在彈出的菜單中選擇“導出記憶庫”,保存文件類型選擇“TMX文件”,輸入保存文件名,點擊“保存”按鈕即可完成記憶庫的導出。翻譯記憶庫主要存儲源語言和目標語言的翻譯句對,并不需要對生成的語料進行詞性標注或進行中文分詞。譯員使用翻譯記憶庫可以記錄專業(yè)術語、翻譯技巧和翻譯規(guī)范等信息,保持翻譯的一致性和高效性,也便于術語的規(guī)范和管理。
術語庫是重要的語言資產(chǎn),在人工翻譯、計算機輔助翻譯和機器翻譯引擎訓練、翻譯教學等方面都有重要作用[7]。在每部漢傳佛典完成對齊后,都需要對該典籍的術語進行提取,之后再將各部典籍的術語進行匯總,為后續(xù)的各種應用做好準備。但在提取術語前,需先明確佛典術語的定義。術語是“各門學科的專門用語,在專業(yè)范圍內(nèi)表示單一的專門概念”[8]。佛典術語是專門用語,是在佛典范圍內(nèi)表示單一的專門概念。從廣義說,它是包括特定之物名稱的集合,即人們從顏色、形狀、功用等角度對特定與佛典相關的具體之物加以辨別認知的結果,也包括標記此領域新概念稱謂的特定語言符號。名物術語詞是不同語言長期接觸、相互融合而產(chǎn)生的語言現(xiàn)象。因此,參照相關辭典可對漢傳佛典術語進行比較明確的篩選。
平行語料庫提取術語的原理是“利用平行語料庫中術語使用的統(tǒng)計信息構建自動詞庫”[9],即分別從中文、英文語料中提取術語,然后進行共現(xiàn)分析,根據(jù)分析統(tǒng)計結果自動得到漢英對照術語。利用雪人CAT軟件提取術語正是基于此原理,具體操作如下:在雪人CAT軟件中完成漢英語料對齊后,打開菜單中的“詞語管理”,選擇“短語管理”,彈出的“最低詞頻”對話框中輸入適當?shù)念l次,然后該軟件會自動計算生成漢英短語對照表,我們可手動選擇符合上述定義的短語作為術語,然后點擊“導出”,保存為純文本格式術語表。保存完畢后可繼續(xù)對該術語表進行編輯。提取的術語庫后續(xù)可以結合Python中文分詞組件CRF(Conditional Random Fields)分詞工具,對中古漢語佛典進行分詞,以提高分詞準確度。此外,術語庫可用于NMT模型預訓練及典籍翻譯研究與教學,還可將術語庫與語料庫相結合以便開展佛典雙語詞典的編纂。
在雪人CAT軟件中完成漢英語料對齊后,鼠標右鍵點擊對齊文件名,在彈出的菜單中選擇“導出雙語對照文件”,即可得到網(wǎng)頁格式的生語料庫,再將網(wǎng)頁格式生語料庫轉(zhuǎn)存為純文本格式語料庫以備分詞和詞性標注。這對NMT模型的預訓練很有價值,可以幫助模型更好地理解原始文本,準確地捕捉文本中的語義和句法信息,提高模型的性能和效果。英語詞匯間由于有空格分割,因此不需要分詞,而漢語詞匯之間沒有任何詞界標識,所以“中文語言處理必須先分詞”[10]。由于我國大部分漢譯佛典完成于中古時期,即魏晉南北朝隋唐這個時期。中古漢譯佛典語言既不同于上古漢語,又不同于現(xiàn)代漢語,而是“佛典混合漢語”,其詞匯特點可歸納為大量使用口語詞、俗語詞、復音詞和外來詞。此時期是漢語從上古時期的單字詞為主轉(zhuǎn)為近古時期的雙字詞為主的過渡期,存在大量狀態(tài)尚未固定的字組,使得中古時期詞和短語的邊界不明確,造成中古漢語分詞困難,嚴重制約著機器分詞準確率和一致性的提高。目前,南京師范大學文學院采用中古時期的佛經(jīng)等各類語料,運用條件隨機場(CRF)模型和詞典相結合的方法,研發(fā)了中古漢語分詞系統(tǒng),可以服務于中古時期漢譯佛典的分詞[11]?!皾h語詞性標注往往需要更復雜的語言處理技術”[12],好在CRF分詞工具集成有詞性標注功能,結合佛典術語庫,標注準確率令人滿意。對于英語語料的詞性標注一般采用斯坦福大學的POSTagger軟件進行標注,對佛典中的梵語名、物術語詞性標注不準確的可以通過文本編輯器的查找替換功能進行糾正。
完成語料庫分詞和詞性標注后,可將語料導入平行語料庫網(wǎng)站,從而豐富語料庫網(wǎng)站建設。對于本地平行語料庫在典籍翻譯研究和教學的應用,可利用支持雙語平行語料庫檢索分析的ParaConc或PowerGREP軟件進行,也可將語料庫導入蘭卡斯特大學研發(fā)的語料庫分析工具LancsBox中使用。由于后者既可為英語語料自動添加詞性標注等信息,也可自動為漢語語料進行分詞或添加詞性標注,所以在導入語料庫時要注意去掉自動標注功能,以免重復分詞與標注。
利用雙語平行語料庫進行NMT模型預訓練是個大工程。這項工作需要較高的技術要求和計算資源,對于個人或者小型學術團隊來說具有較大的挑戰(zhàn)性。這方面可與高水平科技公司開展合作,讓外語學者發(fā)揮自身語言優(yōu)勢建設雙語平行語料庫,讓科技公司利用其自身的硬件資源和軟件優(yōu)勢進行NMT模型預訓練,以開發(fā)出更好的機器自動翻譯系統(tǒng),助力典籍翻譯和中華學術外譯工作。
在中國文化“走出去”的背景下,創(chuàng)建一個漢英字數(shù)達到1 000萬級別的大型漢傳佛典漢英平行語料庫具有多方面的意義和價值。首先,它可為漢傳佛典的翻譯與研究提供堅實的語料庫實證數(shù)據(jù),便于佛典翻譯的誤漏查詢,也可為典籍漢英語言之間的轉(zhuǎn)換機制提供豐富的研究線索。其次,建成后的漢傳佛典平行語料庫網(wǎng)站還能服務于典籍翻譯教學和傳統(tǒng)文化教學。該語料庫可以為師生提供大量鮮活的中國傳統(tǒng)典籍漢英平行語料,彌補教材中相關語料的不足。再次,漢傳佛典漢英平行語料庫的建設可為其他中華文化典籍,比如,儒、道、諸子典籍平行語料庫的建設提供借鑒參考。此語料庫完成后導出的翻譯記憶庫和術語庫有助于計算機輔助翻譯實踐、編纂電子或紙質(zhì)雙語詞典,有效服務于中華文化典籍外譯實踐。最后,建成的漢傳佛典漢英平行語料庫和術語庫可以為NMT模型預訓練提供精確的雙語語料,可極大提升機器翻譯佛典的質(zhì)量,促進中華典籍英譯模式的推陳出新,服務中華文化外譯事業(yè),助力中國文化“走出去”。