摘 要:當前主流計算機輔助翻譯系統(tǒng)(CAT)借助翻譯記憶(TM)和術(shù)語庫(TB)提高翻譯效率。翻譯記憶以自然句為主要匹配單位,需要整句相似或重復(fù),匹配難度大。與之相比,術(shù)語庫以詞塊為匹配單位,較為靈活,可彌補翻譯記憶的缺陷。術(shù)語庫的構(gòu)建涉及術(shù)語自動提取,需要參考特定文本類型中高頻語塊的詞性規(guī)則。文章使用n-gram提取英語民航規(guī)章文本的復(fù)現(xiàn)語塊,探究不同詞項長度和復(fù)現(xiàn)頻數(shù)下高頻語塊的詞性組合特征;并將其與文學(xué)文本進行對比。研究發(fā)現(xiàn),在英語民航規(guī)章文本中,適用于計算機輔助翻譯系統(tǒng)術(shù)語庫的復(fù)現(xiàn)語塊以名詞短語為主,與文學(xué)文本存在顯著差異。
關(guān)鍵詞:計算機輔助翻譯;術(shù)語庫;n-gram;民航規(guī)章
中圖分類號:F562; N04; D993.4 ?文獻標識碼:A ?DOI:10.12339/j.issn.1673-8578.2022.02.009
Abstract: Most of the current CAT systems leverage Translation Memory (TM) and Termbase(TB) to enhance efficiency of translation. With respect to TM, due to its limitations in practice, whole sentence repetition often should be complemented by translation termbase, which is more flexible in use. Building a termbase requires the automatic extraction of terms, which demands knowledge of its POS (part of speech) configuration in the specific text typology. With corpus tools, we extracted n-grams of certain length and frequency from Civil Aviation Regulations in the US and examined the POS configuration of those recurrent chunks, followed by a contrast with that of literary texts. The study shows a dominance of NP and PP in recurrent chunks suitable for CAT termbase in those Civil Aviation Regulations, different from the result in literary texts.
Keywords: Computer Aided Translation(CAT); termbase; n-gram; civil aviation regulations
收稿日期:2021-10-12 ?修回日期:2022-03-08
基金項目:中國民航大學(xué)中央高?;痦椖俊坝h翻譯中的透明話語策略研究”(3122018R010)
引言
翻譯記憶(TM)和術(shù)語庫(TB)是計算機輔助翻譯系統(tǒng)(CAT)的重要組成部分。所謂翻譯記憶,是指把人工翻譯的源語和目的語語段經(jīng)過雙語匹配后儲存在數(shù)據(jù)庫中,供翻譯者反復(fù)調(diào)用[1]。其基本原理是將基于特定語言單位的原文和譯文以一對一的方式存儲起來,并在下次翻譯到相同或相似的句子時自動予以提示。當前市場上的機助翻譯軟件中,以自然句為單位的翻譯記憶占據(jù)主流地位[2]。但在實踐中,翻譯記憶系統(tǒng)暴露出諸多缺陷。伯克爾(Bowker)指出,實際翻譯工作中,整句相似或重復(fù)的情況限于表格、說明書等具有內(nèi)部重復(fù)特征的文本[3]。于是,作為翻譯記憶的補充,大多數(shù)輔助翻譯系統(tǒng)設(shè)有術(shù)語查詢功能。翻譯公司如果能夠有效提取、處理、翻譯和利用術(shù)語,可以彌補翻譯記憶的不足,節(jié)省商業(yè)翻譯的時間并降低成本[4]。
揭春雨等建議把術(shù)語定義為“專門用途語言中專業(yè)知識的語言表達”,把傳統(tǒng)定義中的名詞或名詞詞組擴充到專業(yè)知識所有可能形式的語言表達[5]。根據(jù)這一定義,術(shù)語非但包括形容詞、副詞等不同詞性,還可以包括短語、小句等不同結(jié)構(gòu)層次。而在面向計算機輔助翻譯時,“術(shù)語”的定義還需進一步擴展。在翻譯實踐中,對于經(jīng)常出現(xiàn)的詞,無論該詞是否屬于傳統(tǒng)意義上的術(shù)語,譯者都需要保持翻譯的一致性。因此,有學(xué)者提出,在計算機輔助翻譯的術(shù)語庫構(gòu)建中,頻率應(yīng)該成為術(shù)語界定的重要因素[4]。目前國內(nèi)外有許多學(xué)者在此基礎(chǔ)上探索術(shù)語自動提取的方法。?,?shù)潞屠矢袢R(Simard & Langlais)在實驗中嘗試使用基于語言分析的語塊提高匹配精度和字段的復(fù)現(xiàn)頻率[6]??肆_米諾斯(Colominas)借助Phrase Tagger工具,從語料庫中提取名詞短語語塊(NP chunks),分析其復(fù)現(xiàn)頻率和可用性[7]。黃政豪和崔榮一嘗試構(gòu)建基于詞性組合的術(shù)語抽取規(guī)則,并提出抽取規(guī)則是根據(jù)特定領(lǐng)域語料制定的,不同領(lǐng)域之間無法直接適用[8]?;谝陨铣晒狙芯恐荚诜治雒窈揭?guī)章中復(fù)現(xiàn)語塊的詞性組合特征,為民航規(guī)章領(lǐng)域的機助翻譯術(shù)語庫建設(shè)貢獻力量。
1 研究方法
1.1 研究設(shè)計
在民航翻譯實踐中發(fā)現(xiàn),民航規(guī)章文本中適用于機助翻譯的翻譯術(shù)語以名詞短語為主,動詞短語、介詞短語等其他語塊所占比例較小。首先,為了對此經(jīng)驗進行驗證,本研究選取一組民航法規(guī)文本,考察高頻語塊中各詞性組合所占比例。其次,為了更加深入地理解民航規(guī)章文本的特性,又選取一組文學(xué)文本,分析并對比兩類文本中高頻語塊詞性組合的差異。具體考察方法如下:首先使用語料庫工具AntConc從目標文本中提取n-gram復(fù)現(xiàn)語塊,隨后用Stanford Parser進行自動語法分析,繼而進行人工核查和標注,結(jié)合定性和定量分析,考察復(fù)現(xiàn)語塊的詞性組合特征。由于實驗結(jié)果可能受到復(fù)現(xiàn)頻數(shù)和詞項長度兩個變量的影響,我們先使用固定頻數(shù),考察詞項長度對詞性組合的影響;再使用固定長度,考察不同頻數(shù)的影響。gzslib2022040313031.2 文本材料和研究步驟
選取3個民航法規(guī)文本,均出自美國民用航空規(guī)章:
(1)A Report from the PED ARC to the FAA: Recommendations on Expanding the Use of Portable Electronic Devices During Flight;
(2)FAA Compliance and Enforcement Program (Order 2150.3b);
(3)14 CFR (Part 91): General Operating and Flight Rules。
文本(1)是咨詢委員會提交給美國聯(lián)邦航空局(FAA)的關(guān)于機上便攜式電子設(shè)備使用的技術(shù)性文本,包含較多通信領(lǐng)域和民航領(lǐng)域的術(shù)語;文本(2)是美國聯(lián)邦航空局執(zhí)法政策文件,包含較多的法律和民航術(shù)語;文本(3)是美國聯(lián)邦法規(guī)(CFR)中針對民用航空的一般飛行規(guī)則,與前兩個文本相比,技術(shù)性和法律性較弱。從文本(1)中選取了全文,從文本(2)中選取從目錄到第6章第20條,從文本(3)中節(jié)選§91.1~§91.1055,并對所有文本去除圖片和表格,保留目錄、圖片、表格的文字部分,處理為純文本格式。三個文本的長度均為60 000詞左右。
文本預(yù)處理完成后,用AntConc提取n-gram復(fù)現(xiàn)語塊,首先將復(fù)現(xiàn)頻數(shù)設(shè)置為大于等于20,長度分別設(shè)置為2、3、4,得到9組數(shù)據(jù),對每組數(shù)據(jù)進行語法標記和對比分析,以考察詞項長度變化對詞性組合特征的影響。然后,以文本(3)為對象,從中分別提取長度為3,頻數(shù)大于等于5、小于10的復(fù)現(xiàn)語塊和頻數(shù)大于等于10、小于20的復(fù)現(xiàn)語塊,將其與頻數(shù)大于等于20的復(fù)現(xiàn)數(shù)位進行比較,考察不同頻數(shù)對詞性組合特征的影響。
語法特征的標記采用人工和機器相結(jié)合的方法。首先借助Stanford Parser進行初步語法標記,隨后參照語境逐一人工檢查。由于復(fù)現(xiàn)語塊中存在大量不構(gòu)成完整語法結(jié)構(gòu)的語言片段,我們將其標記為FRAG,采用以下兩個標準進行認定:
①是否構(gòu)成更大的復(fù)現(xiàn)語塊;
②是否構(gòu)成完整語義。
第一條標準針對存在包含關(guān)系的復(fù)現(xiàn)語塊,表1是從文本(1)中提取出來的一組復(fù)現(xiàn)語塊。
在這組復(fù)現(xiàn)語塊中,第1行以下的各行都包含在首行之中,且除第4行,其余各行復(fù)現(xiàn)頻數(shù)相同。翻譯實踐中應(yīng)采取頻數(shù)相同時長度最大的復(fù)現(xiàn)語塊,因此我們把第2、3、5、6列標注為FRAG。第二條標準的設(shè)定是考慮到翻譯實踐的需要,只有構(gòu)成完整語義的單位才可以構(gòu)成可用的翻譯術(shù)語,提升翻譯效率。
2 研究結(jié)果
2.1 民航文本復(fù)現(xiàn)語塊的詞性組合特征
研究表明,復(fù)現(xiàn)語塊的詞性組合方式包括名詞短語、動詞短語、主謂結(jié)構(gòu)、動賓結(jié)構(gòu)、介詞短語等。其中數(shù)量最多的是名詞短語、介詞短語和主謂結(jié)構(gòu)3類,我們分別標記為NP、PP和NV;數(shù)量較少有動詞短語、限定詞短語(QP)等詞性組合方式,標記為OTHERS;還有為數(shù)不少的復(fù)現(xiàn)語塊并不能構(gòu)成完整的語法結(jié)構(gòu),如of the,that the,recommendation the arc等,標記為FRAG。
文本(1)中復(fù)現(xiàn)頻數(shù)大于等于20,長度為2、3、4的單位,分別有210、56和34個,語法結(jié)構(gòu)分布如圖1。
詞項長度為2時,名詞短語占比28.57%;為3時,占比約41.00%;為4時,占比17.65%。一方面,半數(shù)以上的復(fù)現(xiàn)語塊不構(gòu)成完整的語法結(jié)構(gòu),而其余部分的絕大多數(shù)為名詞短語,介詞短語、主謂結(jié)構(gòu)次之。另一方面,隨著詞項長度的增加,復(fù)現(xiàn)語塊的總量大幅減少,名詞短語仍占絕對多數(shù),同時主謂結(jié)構(gòu)占比略有增加??偲饋碚f,詞項較短時,名詞短語構(gòu)成可用術(shù)語的絕大多數(shù);詞項較長時,名詞短語和主謂結(jié)構(gòu)共同構(gòu)成可用術(shù)語的主要部分,但占比都較小。定性分析發(fā)現(xiàn),由于文本(1)屬于機上便攜式電子設(shè)備使用的技術(shù)性文本,所以復(fù)現(xiàn)語塊中的可用翻譯術(shù)語多為名詞性技術(shù)術(shù)語,如consumer electronics association、safety risk assessment等。
對文本(2)分析結(jié)果如圖2。
文本(2)復(fù)現(xiàn)語塊中,長度為2、3、4的分別有304、72和15個;名詞短語分別占比35.20%、50.00%和33.33%。對比圖1和圖2可見,與文本(1)相同,復(fù)現(xiàn)語塊中數(shù)量最多的是零散的語言片段,其次是名詞短語;可用翻譯術(shù)語同樣以名詞短語為主。而與文本(1)不同的是,文本(2)中詞項長度為4時,介詞短語較多。通過定性分析可以發(fā)現(xiàn),這些介詞短語包括in the EIR,in Chapter x Subparagraph x,under U.S.C,under C.F.R.等,多為法律文本特有的高頻語塊。由于文本(2)涉及聯(lián)邦航空局對行政相對人違規(guī)違法行為的處理辦法,因此法律術(shù)語較多。
對文本(3)的分析結(jié)果如圖3。
文本(3)復(fù)現(xiàn)語塊中,長度為2、3、4的分別有361、132和53個;名詞短語分別占比25.21%、12.12%和15.09%。比較圖3與圖1、圖2可知,文本(3)復(fù)現(xiàn)語塊中零散片段所占比例明顯高于前兩個文本。此外,文本(1)、(2)中詞項長度為3時名詞短語占比最大,而文本(3)中詞項長度為2時名詞短語更多。定性分析發(fā)現(xiàn),這些長度為2的名詞短語多由冠詞和普通名詞組成,在機助翻譯中對提高翻譯效率作用有限??傮w看來,文本(3)中的高頻語塊對機助翻譯的適用性較差。由于文本(3)屬于針對民用航空的一般飛行規(guī)則,面向從事民用航空飛行活動的廣泛人員,因此與前兩個文本相比,術(shù)語所占比例稍低。但是,從詞性組合角度看,可用翻譯術(shù)語依然以名詞短語為主。
接下來,為了考察不同頻數(shù)對詞性組合特征的影響,以文本(3)為研究材料,以3為固定詞項長度,依次提取頻數(shù)大于等于5、小于10的復(fù)現(xiàn)語塊,頻數(shù)大于等于10、小于20的復(fù)現(xiàn)語塊,和頻數(shù)大于等于20的語塊。在文本相同,詞項長度都為3的情況下,不同頻數(shù)復(fù)現(xiàn)語塊中各詞性組合的比例如圖4所示。gzslib202204031303文本(3)中詞項長度為3,頻數(shù)大于等于5、小于10的復(fù)現(xiàn)語塊共1073個,其中名詞短語139個,占比12.95%;頻數(shù)大于等于10、小于20的復(fù)現(xiàn)語塊共351個,名詞短語54個,占比15.38%;頻數(shù)大于等于20的復(fù)現(xiàn)語塊共132個,名詞短語16個,占比12.12%。由圖4可見,隨著頻數(shù)的增加,語言片段所占比例略有下降,介詞短語和主謂結(jié)構(gòu)所占比例逐漸增加。這說明高頻復(fù)現(xiàn)語塊構(gòu)成完整語法單位的傾向更強。同時,復(fù)現(xiàn)語塊的頻數(shù)對于各詞性組合所占比例沒有造成顯著差異,名詞短語始終構(gòu)成了可用翻譯術(shù)語的最大部分,在復(fù)現(xiàn)詞塊中所占比例維持在12%~16%之間。
2.2 民航與文學(xué)文本比較
為了加深對民航英語文本復(fù)現(xiàn)語塊詞性組合特征的認識,我們選取了兩個文學(xué)文本進行對比研究,分別是夏洛特·勃朗特(Charlotte Bront)的《簡愛》(節(jié)選前60 000詞)和喬治·奧威爾(George Orwell)的《1984》(節(jié)選前60 000詞)。我們分別提取長度為2、3、4,頻數(shù)大于等于20的復(fù)現(xiàn)語塊,所獲得的復(fù)現(xiàn)語塊總數(shù)普遍低于民航文本,如圖5。
我們對長度為2的復(fù)現(xiàn)語塊進行語法標注,并統(tǒng)計各詞性組合所占比例。《簡愛》中,長度為2的復(fù)現(xiàn)語塊共233個,其中占比最高的仍是FRAG結(jié)構(gòu)(70%),其次是主謂結(jié)構(gòu)(19%),再次是名詞短語(11%)。如圖6所示:
對提取的名詞短語和主謂結(jié)構(gòu)進一步分析發(fā)現(xiàn),25個名詞短語中,10個為人名,其余15個見表2。
表2中列出的名詞短語,雖然屬于高頻復(fù)現(xiàn)語塊,但在機助翻譯實踐中沒有太多意義。主謂結(jié)構(gòu)同樣不適用于機助翻譯。45個主謂結(jié)構(gòu)皆是以人稱代詞和there開頭的簡單語言單位,如he had,there were。
相似的特征也體現(xiàn)在《1984》的復(fù)現(xiàn)語塊中。其中長度為2的復(fù)現(xiàn)語塊共255個,占比最高的同樣是FRAG結(jié)構(gòu)(73%),其次是主謂結(jié)構(gòu)(14%),再次是名詞短語(13%)。如圖7所示。
與《簡愛》相比,《1984》提取的33個名詞短語中人名只有1個,但其余名詞短語同樣以冠詞、物主代詞加普通名詞為主,機助翻譯的適用性仍然不高?!?984》中的35個主謂結(jié)構(gòu)同樣是以人稱代詞和there開頭,不適用于機助翻譯。
對比這兩個文學(xué)文本和民航文本可以發(fā)現(xiàn),文學(xué)文本的復(fù)現(xiàn)語塊整體上數(shù)量少、長度短,機助翻譯的適用性差。雖然兩類文本中,零散片段都占據(jù)了復(fù)現(xiàn)語塊的最大比例,但除零散片段之外,名詞短語在民航文本中占優(yōu)勢,主謂結(jié)構(gòu)在文學(xué)文本中占優(yōu)勢。
3 結(jié)語
通過分析民航規(guī)章文本中復(fù)現(xiàn)語塊的詞性組合特征,可以發(fā)現(xiàn),民航規(guī)章文本中適用于機助翻譯術(shù)語庫的復(fù)現(xiàn)語塊以名詞短語為主。復(fù)現(xiàn)語塊中占比最大的為零散語言片段,其次為名詞短語,再次為主謂結(jié)構(gòu)和介詞短語。由于介詞短語也由名詞短語加介詞構(gòu)成,因此在術(shù)語庫構(gòu)建的語塊提取過程中,可以將其納入名詞短語的詞性規(guī)則模板。本研究可以為民航規(guī)章文本中翻譯術(shù)語的提取、篩選規(guī)則的確立打下基礎(chǔ),為構(gòu)建適用于民航規(guī)章的機助翻譯術(shù)語庫提供幫助。
參考文獻
[1]HAROLD S. Computers and Translation[M]. Amsterdam: John Benjamins Publishing Company, 2003:1.
[2]王正.翻譯記憶系統(tǒng)的語境觀[J].上海翻譯, 2013(1): 69-72.
[3]BOWKER L. Computer-aided Translation Technology: A Practical Introduction[M]. Ottawa: University of Ottawa Press, 2002:93.
[4]沃伯頓. 面向翻譯管道的術(shù)語加工[J]. 宋楠楠,朱波,譯.中國科技術(shù)語,2019,21(5): 16-21.
[5]揭春雨,馮志偉.基于知識本體的術(shù)語定義(下)[J].術(shù)語標準化與信息技術(shù),2009(3):14-23.
[6]SIMARD ?M,LANGLAIS P. Sub-sentential exploitation of translation memories[C]//Proceedings of the Machine Translation Summit VIII,Santiago De Compostela, Spain, 2001: 335-340.
[7]COLOMINAS C. Towards Chunk-based Translation Memories[J]. Babel: Revue Internationale de la Traduction, 2008, 54(4): 343-354.
[8]黃政豪,崔榮一.基于術(shù)語自動抽取的科技文獻翻譯輔助系統(tǒng)的設(shè)計[J].延邊大學(xué)學(xué)報(自然科學(xué)版),2017,43(3): 259-263.