李雙燕 苗菊
摘 要:技術(shù)文檔翻譯關(guān)系企業(yè)全球化進(jìn)程,是語言服務(wù)行業(yè)的重要內(nèi)容,其翻譯質(zhì)量在很大程度上受制于譯員對專業(yè)領(lǐng)域知識的正確理解。基于領(lǐng)域本體的雙語術(shù)語知識庫將概念與概念之間的關(guān)系進(jìn)行形式化描述,形成知識圖譜,輔助譯員學(xué)習(xí)領(lǐng)域知識。文章選取信息通信技術(shù)中的云計(jì)算領(lǐng)域,按照知識采集、知識表示、知識應(yīng)用等知識組織活動,探討雙語術(shù)語知識庫的建設(shè)模型、原則、流程與方法等,并手工構(gòu)建了一個云計(jì)算領(lǐng)域雙語術(shù)語知識庫,可為譯者等語言服務(wù)人員提供知識服務(wù),助力企業(yè)跨語言跨文化經(jīng)營,同時(shí)也為其他垂直領(lǐng)域雙語術(shù)語知識庫建設(shè)提供實(shí)踐范例與研究啟示。
關(guān)鍵詞:雙語術(shù)語知識庫;領(lǐng)域本體;技術(shù)文檔翻譯;云計(jì)算
中圖分類號:H083; H059; U46? 文獻(xiàn)標(biāo)識碼:A? DOI:10.3969/j.issn.1673-8578.2021.01.007
Construction of Bilingual Terminological Knowledge Base for the Translation of Technical Documents//LI Shuangyan MIAO Ju
Abstract: Translation of technical documents plays an integral part in the globalization of enterprises, thus being an important business of language service industry. The translation quality depends to a large extent on translators command of domain knowledge. Ontology-based terminology knowledge base can present a formal description of concepts and their relations, forming a well-structured knowledge map, which can serve as a great help for translators. Taking cloud computing in the domain of information and communication technology as a demo, we explore the construction of bilingual terminological knowledge base in terms of the constructing model, principles, processes and methods, etc. and set up a bilingual terminology knowledge base for cloud computing. This bilingual terminology knowledge base can serve language service providers, facilitate the cross-cultural business, and shed light on the construction and research of bilingual terminological knowledge base for other vertical fields.
Keywords: bilingual terminological knowledge base; domain ontology; technical translation; cloud computing
收稿日期:2020-08-15
基金項(xiàng)目:國家社會科學(xué)基金重大項(xiàng)目“雙語術(shù)語知識庫建設(shè)與應(yīng)用研究”(15ZDB102)階段性成果
引言
技術(shù)文檔(technical documents)是指“與程序或硬件一起交付的一套操作說明”[1],比如,產(chǎn)品說明書、在線幫助、維修手冊等,旨在為用戶提供產(chǎn)品介紹、操作步驟、常見問題處理等信息,在一定程度上代表著產(chǎn)品的軟實(shí)力,是產(chǎn)品交付的必備組成部分[2]。技術(shù)文檔的專業(yè)化水平是衡量企業(yè)發(fā)展成熟度、制約企業(yè)全球化進(jìn)程的重要因素。隨著“一帶一路”“中國制造2025”等國家發(fā)展戰(zhàn)略的提出,跨國產(chǎn)能合作及產(chǎn)業(yè)鏈分工調(diào)整給中國企業(yè)海外發(fā)展提供了全新的投資機(jī)遇,中國企業(yè)“走出去”開啟2.0時(shí)代,企業(yè)技術(shù)文檔的翻譯服務(wù)亟待升級,以匹配企業(yè)國際化需求。技術(shù)文檔翻譯不僅需要譯員具備較高的雙語語言能力,還需要熟悉專業(yè)術(shù)語和領(lǐng)域知識,后者往往是大多數(shù)語言背景的譯員所欠缺的。傳統(tǒng)翻譯術(shù)語庫雖然可以提供與術(shù)語相關(guān)的信息,但對術(shù)語所代表的概念間的關(guān)系及所對應(yīng)的客觀現(xiàn)實(shí)描述不足,譯者只能獲得知識碎片。
本體(ontology)的引入可有效解決這一問題?;诒倔w的雙語術(shù)語知識庫是當(dāng)前知識組織領(lǐng)域的重要研究內(nèi)容,通過對各類專業(yè)領(lǐng)域知識進(jìn)行組織、描述和管理,形成具有一定深度的知識結(jié)構(gòu)框架,為用戶進(jìn)行專業(yè)知識的學(xué)習(xí)、交流與傳播提供幫助。國內(nèi)外現(xiàn)已在術(shù)語知識庫的建設(shè)方面取得了不小的成就。國外相關(guān)研究日臻成熟,代表性成果有加拿大的多領(lǐng)域大型術(shù)語庫TERMIUM(支持英語、法語、西班牙語、葡萄牙語4種語言),西班牙的環(huán)境領(lǐng)域術(shù)語庫EcoLexicon(支持英語、西班牙語、德語、法語、俄語和希臘語6種語言),德國的網(wǎng)絡(luò)術(shù)語庫WebTerm,俄羅斯的計(jì)算機(jī)信息系統(tǒng)科技術(shù)語庫AISNT,和涵蓋歐盟24種官方語言的大型互動型術(shù)語庫IATE等。國內(nèi)代表性成果有通用型術(shù)語知識庫HowNet(漢英雙語)、CCD中文概念詞典(漢英雙語)等 ,專業(yè)領(lǐng)域術(shù)語知識庫有電信領(lǐng)域知識庫 [3]、中華烹飪文化知識庫 [4]、中醫(yī)典籍知識庫 [5]、慢性病健康教育知識庫 [6]等,不過這些專業(yè)術(shù)語知識庫多為單語,而非雙語或多語,不是直接服務(wù)翻譯的。因而,亟須探索面向翻譯的專業(yè)領(lǐng)域雙語或多語術(shù)語知識庫,滿足企業(yè)全球化發(fā)展與國家戰(zhàn)略發(fā)展需要。
當(dāng)前對技術(shù)文檔翻譯需求最大的是信息通信技術(shù)(information and communication technology, ICT)領(lǐng)域,占各行業(yè)技術(shù)文檔總需求的51.09%[7],因而,本研究選擇信息通信技術(shù)領(lǐng)域構(gòu)建雙語術(shù)語知識庫。又由于信息通信技術(shù)涵蓋范圍廣泛,本研究特聚焦于云計(jì)算(cloud computing)這一前沿領(lǐng)域。云計(jì)算描述了一種基于互聯(lián)網(wǎng)的新的信息技術(shù)(information technology,IT)服務(wù)增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴(kuò)展且虛擬化的資源。云產(chǎn)品種類較多,更新?lián)Q代較快,譯員學(xué)習(xí)新知識的速度須與產(chǎn)品更新的速度相匹配。云計(jì)算市場目前還不太規(guī)范,在IT文獻(xiàn)和IT媒體中有著對基于云的模型和框架的各種不同定義和說明,增加了人們的困惑,使用過程充滿了陷阱、歧義和謬誤[8]。解決的途徑就是正確界定云計(jì)算的概念及概念間的聯(lián)系,以知識為基礎(chǔ)來決定一個術(shù)語該如何使用、如何翻譯,以及在多大程度上需要調(diào)整。確切地說,就是基于本體理論描述云計(jì)算領(lǐng)域知識,構(gòu)建該領(lǐng)域核心概念及概念之間的關(guān)系,使領(lǐng)域基本概念得以清晰化、系統(tǒng)化、可視化,幫助譯員便捷地獲取領(lǐng)域知識圖譜,更好地進(jìn)行翻譯。
1 建設(shè)雙語術(shù)語知識庫的理論基礎(chǔ)
建設(shè)雙語術(shù)語知識庫需要宏觀與微觀兩個層面的理論指導(dǎo)。
宏觀層面,雙語術(shù)語知識庫依托知識組織理論進(jìn)行總體框架設(shè)計(jì),將整個研究分為知識采集、知識表示、知識運(yùn)用三部分,每一部分都為下一階段的研究奠定基礎(chǔ)。(1)知識采集,主要指運(yùn)用信息技術(shù)手段構(gòu)建大規(guī)模數(shù)據(jù)并從中進(jìn)行自動化術(shù)語信息的抽取和預(yù)處理;(2)知識表示,指描述專業(yè)領(lǐng)域知識,構(gòu)建知識網(wǎng)絡(luò),實(shí)現(xiàn)計(jì)算機(jī)對于領(lǐng)域知識的語義識別;(3)知識運(yùn)用,包括兩方面:建立知識導(dǎo)航系統(tǒng)、知識檢索系統(tǒng)和人機(jī)交互界面;開發(fā)雙語術(shù)語知識庫在生產(chǎn)、科研、教育等領(lǐng)域的應(yīng)用途徑,根據(jù)實(shí)際應(yīng)用效果和用戶要求驗(yàn)證開發(fā)流程的合理性并進(jìn)行完善。
微觀層面,依據(jù)術(shù)語學(xué)理論和本體論進(jìn)行術(shù)語知識體系的建構(gòu)。最初,知識庫是基于關(guān)系數(shù)據(jù)庫構(gòu)建起來的。在此基礎(chǔ)上構(gòu)建的專題數(shù)據(jù)庫對領(lǐng)域知識的揭示不足,不能準(zhǔn)確呈現(xiàn)概念之間的關(guān)系,語義檢索、知識推理、知識發(fā)現(xiàn)與知識共享等高級功能難以實(shí)現(xiàn)。要有效克服傳統(tǒng)術(shù)語庫的不足,術(shù)語知識庫需要做好兩方面的工作:一是術(shù)語概念關(guān)系的表示與架構(gòu),二是知識處理技術(shù)[9]。前者解決內(nèi)容問題,后者解決方法問題。
第一項(xiàng)工作主要依托術(shù)語學(xué)理論完成基礎(chǔ)數(shù)據(jù)的組織整理工作,具體包括:確立術(shù)語篩選標(biāo)準(zhǔn),設(shè)定雙語術(shù)語條目存儲結(jié)構(gòu),完成術(shù)語的提取、存儲、標(biāo)注、編碼、定義、術(shù)語屬性粒度設(shè)置等工作,并確定術(shù)語翻譯的原則與方法等。在此,術(shù)語是指“構(gòu)成某特殊領(lǐng)域中知識的獨(dú)立概念實(shí)體、特征或關(guān)系” [10]。第二項(xiàng)工作主要依托本體論完成專業(yè)領(lǐng)域知識的概念網(wǎng)絡(luò)構(gòu)建工作,形成立體化的主題知識圖譜,實(shí)現(xiàn)知識的體系化與可視化[11]。本體模擬人類認(rèn)知思維過程構(gòu)建概念語義網(wǎng)絡(luò),對領(lǐng)域概念及概念間的關(guān)系進(jìn)行規(guī)范化描述,使概念之間的各種規(guī)律、聯(lián)系等都被顯性地描述出來,這有利于全面獲取、分析并利用知識,它是一種系統(tǒng)性表示某一領(lǐng)域知識框架的手段[12]。具體包括:構(gòu)建領(lǐng)域主題圖,對專業(yè)領(lǐng)域主題的名稱、主題所在的資源出處、主題包含的所有概念之間以及概念與主題間的關(guān)聯(lián)進(jìn)行構(gòu)建;在此基礎(chǔ)上,利用基于 XML 語法的擴(kuò)展性資源描述語言編寫主題圖中概念鏈接的計(jì)算機(jī)識別程序,建立人機(jī)交互界面。
這兩項(xiàng)工作相輔相成,反映了術(shù)語學(xué)與本體論的融合。把傳統(tǒng)術(shù)語學(xué)中基于概念的術(shù)語觀(concept-based viewpoint)推進(jìn)到基于知識本體的術(shù)語觀(ontology-based viewpoint),用知識本體的理論和方法來研究術(shù)語,擴(kuò)大了術(shù)語學(xué)的研究范圍[13]。
2 建設(shè)雙語術(shù)語知識庫的技術(shù)基礎(chǔ)
建設(shè)云計(jì)算領(lǐng)域的雙語術(shù)語知識庫需要確定云計(jì)算領(lǐng)域本體,選用合適的本體建設(shè)工具。
2.1 云計(jì)算領(lǐng)域本體構(gòu)成要素
云計(jì)算領(lǐng)域本體是針對云計(jì)算領(lǐng)域內(nèi)共同認(rèn)可的概念及概念之間相互關(guān)系的明確定義,包括各類與信息通信相關(guān)的術(shù)語、詞匯等,并對云計(jì)算領(lǐng)域知識的結(jié)構(gòu)與內(nèi)容加以限定,從而形成描述云計(jì)算領(lǐng)域中具體知識的基礎(chǔ)。用公式可以簡單表示為CCDO=(C, P, R, a, I),CCDO是指云計(jì)算領(lǐng)域本體(cloud computing domain ontology),其構(gòu)成要素可簡述如下:
(1)概念集C(concept):定義了云計(jì)算領(lǐng)域本體所包含的概念的集合,即:C = {C1,C2,…,Cn}。其中,Ci (1≤i≤n) 是云計(jì)算領(lǐng)域的某個概念,它在概念模型中被定義為類(Class),即語義類型,是具有相同屬性對象的集合,例如虛擬機(jī)、云服務(wù)等。
(2)屬性集P(property):定義了概念集C中每個概念的特征或者與其他概念的關(guān)系,前者被稱為數(shù)據(jù)屬性(data property),后者被稱為對象屬性(object property)。數(shù)據(jù)屬性是一個概念本身所具有的屬性,例如“公園”具有地址、大小、電話號碼等屬性;對象屬性則是兩個或多個概念之間的相互聯(lián)系,例如“云使能技術(shù)(cloud enabling technology)”與其下屬各語義類型之間是包含與被包含的關(guān)系,可以表示為“isKindOf”。
(3)關(guān)系集R(relationship):定義了云計(jì)算領(lǐng)域中概念之間的交互作用,是“對象屬性”的重要組成,例如上面提到的“isKindOf”,最基本的關(guān)系包括子類關(guān)系(is-a)、實(shí)例關(guān)系(instance-of)和部分關(guān)系(part-of)等。
(4)公理集A(axiom):定義了概念集C和屬性集P上的永真斷言,是定義在概念和屬性上的限定和規(guī)則,如:在Network類的operatedBy屬性上面添加公理cardinality≤1,即:約束每個網(wǎng)絡(luò)最多只被一個運(yùn)營商運(yùn)營。
有鑒于此,本研究選取云計(jì)算領(lǐng)域?qū)I(yè)書籍 Cloud Computing: Concepts, Technology & Architecture(《云計(jì)算:概念、技術(shù)與架構(gòu)》,下文簡稱《云計(jì)算》)。原書于2013年在美國出版,2014年引介到國內(nèi),以通俗易懂的行文全面介紹了云計(jì)算的核心概念及相關(guān)技術(shù),是一本不可多得的云計(jì)算入門書。此外,國內(nèi)外云計(jì)算領(lǐng)域領(lǐng)先企業(yè)發(fā)布的系列云產(chǎn)品文檔也是重點(diǎn)參考資料,這些文檔可以在線免費(fèi)獲取,且為多語版本,例如:亞馬遜云文檔(AWS)、微軟云文檔(Microsoft Azure)、阿里云文檔等,有的企業(yè)還共享了多語言術(shù)語庫,例如亞馬遜云提供了8種語言對照的術(shù)語及其釋義,為本研究提供了高質(zhì)量的雙語語料。
語料采集完畢,需要進(jìn)一步整理,包括格式轉(zhuǎn)換、語料清洗、分詞、標(biāo)注與對齊等。對于紙質(zhì)書籍,采用OCR光學(xué)字符識別軟件 ABBYY FineReader 將其轉(zhuǎn)換為可編輯的.txt文本,利用Tmxmall在線對齊工具進(jìn)行對齊,并進(jìn)一步對語料進(jìn)行清洗(修改、編輯、去重等),然后就可以進(jìn)行術(shù)語提取相關(guān)操作了。所搜集的在線雙語技術(shù)文檔也采用同樣的處理方式。
4.2 抽取領(lǐng)域雙語重要概念
本研究使用Tmxmall在線提取與人工篩選相結(jié)合的方式確定術(shù)語。根據(jù)術(shù)語學(xué)相關(guān)理論與術(shù)語標(biāo)準(zhǔn)選擇最基本、最核心的概念,確保術(shù)語無歧義、簡明、準(zhǔn)確。提取的概念以詞或詞組為主,主要有noun(multitenancy)、noun+ noun(cloud provider)、adj.+ adj.(active-active)、adj.+ noun(public clouds)、prep. +noun(on premise),還有多詞組合(platform-as-a-service)等。最終從上述各類資源中采集到的雙語術(shù)語詞條統(tǒng)計(jì)如下:《云計(jì)算》856詞條,亞馬遜云文檔430詞條,微軟云文檔213詞條,阿里云文檔172詞條,合計(jì)1671詞條。
4.3 雙語術(shù)語條目存儲結(jié)構(gòu)
知識庫的構(gòu)建既要滿足特定領(lǐng)域的需要,又要考慮人類知識整合的需要。術(shù)語的相關(guān)信息在知識庫中是以一定的結(jié)構(gòu)來存儲的,合理的結(jié)構(gòu)一方面有利于知識檢索、展示和使用,另一方面有利于與其他知識庫或術(shù)語庫之間的術(shù)語交換,因而需要先確定術(shù)語條目的存儲結(jié)構(gòu)。本研究參考ISO 12620[16]對術(shù)語數(shù)據(jù)類別的劃分,將術(shù)語條目分為三個層次:概念層、術(shù)語層和管理層,分別錄入概念知識、術(shù)語知識和管理知識(詳見圖2)。
1)概念知識(Concept-related knowledge)
根據(jù)人類認(rèn)知世界的方式,概念先于術(shù)語,即所指先于能指。在概念層中,需要描述的信息有:
領(lǐng)域——所屬專業(yè)領(lǐng)域或次領(lǐng)域;對概念的描寫——定義、解釋、例子、知識單元(對概念進(jìn)行更細(xì)粒度的描寫)、概念特點(diǎn)及非文本類信息;概念之間的關(guān)系——比如一般-特殊關(guān)系。知識庫可以顯性化地表現(xiàn)出這些關(guān)系,是其區(qū)別于普通術(shù)語庫的特點(diǎn)所在。
2)術(shù)語知識(Term-related knowledge)
“術(shù)語”本身是一個多義詞,既可指語言與形式的統(tǒng)一體,也可指語言形式。本研究整體上使用的是前者,而此處使用的是后者,即詞匯學(xué)方面的信息,主要包括:詞形;語音;在目的語中的對等語;術(shù)語的類型——包括同義詞、縮略形式等;語法信息——包括詞性、單復(fù)數(shù)等。這是知識描述的重要載體,通過信息的規(guī)范化描述來表達(dá)領(lǐng)域?qū)I(yè)知識。
3)管理知識(Administrative knowledge)
這類數(shù)據(jù)是為了便于管理術(shù)語或查找參考信息,涵蓋日期、責(zé)任人、交叉引用、來源等知識。例如,ISO 8601[17]規(guī)定日期的格式為年-月-日,即YYYY-MM-DD,時(shí)間為hh:mm:ss。若不按照此格式,那么在進(jìn)行數(shù)據(jù)交換時(shí),就要對與日期相關(guān)的信息進(jìn)行轉(zhuǎn)換。
4.4 定義類及類的等級
這里的“類”指的是語義類型,在本體構(gòu)建環(huán)境下,語義類型被定義為概念的集合。類的等級以樹形結(jié)構(gòu)為特點(diǎn),存在上級語義類型與下級語義類型,上下級之間是一種包含與被包含的關(guān)系,這種包含既包括屬性上的包含,也包括內(nèi)容上的包含。為確保語義類型及其等級的合理性,特制定如下構(gòu)建原則:(1)語義類型的構(gòu)建以知識共享為旨要,結(jié)合云計(jì)算的知識特點(diǎn)進(jìn)行構(gòu)建;(2)提取概念集合的抽象概念作為語義類型,不受概念集合中概念頻數(shù)的限制;(3)構(gòu)建語義類型的樹形框架圖時(shí)注意上下級語義類型的繼承問題。
以此為原則,構(gòu)建出以下多級語義類型,語義類型結(jié)構(gòu)細(xì)分到第7級(詳見圖3)。
建立語義類型之后,可以利用Protégé的“注解(annotation)”功能對其進(jìn)行定義及其他屬性描述,其界面見圖4。
“注解”板塊自帶約10種內(nèi)容描述條目,包括“comment”“seeAlso”等,允許用戶根據(jù)需要增刪條目。此處增加了一些注解項(xiàng),如“context”“reference”等。以“自定義鏡像”詞條為例,該術(shù)語對應(yīng)的英文有“user-defined image”“custom image”“customized image”。這三種譯法在行業(yè)中并行了很久,最后才統(tǒng)一為“custom image”,本知識庫除列出統(tǒng)一譯法之外,還將曾經(jīng)的譯法也在“注解”中寫明,以便譯員了解術(shù)語的歷史翻譯演變。
4.5 定義類的語義關(guān)系及其約束
這里的語義關(guān)系是指概念與概念之間的關(guān)系,這是建立語義網(wǎng)絡(luò)的基本單元。概念間客觀存在的各種關(guān)系需要在知識庫中表示出來,這是知識庫構(gòu)建工具的重要服務(wù)內(nèi)容。
(1)云計(jì)算領(lǐng)域的語言描述比較嚴(yán)謹(jǐn)、客觀,語義關(guān)系外顯化,較容易判斷,主要的判斷依據(jù)是《云計(jì)算》一書正文句子中的謂語動詞及其他連詞。例如“Data centers consist of both physical and IT resources.”中,謂詞“consist of”表明“data centers”與“physical resources”和“IT resources”之間是一種包含與被包含的關(guān)系。
(2)除了這些比較明顯的關(guān)系,還有一些比較模糊的關(guān)系,需要根據(jù)其內(nèi)在的語義進(jìn)一步歸納梳理,使看似無關(guān)的概念勾連在一起。例如“cloud mechanism(云機(jī)制)”與“cloud characteristics(云特征)”兩個語義類型看似毫無關(guān)系,但深入思考一下,就會發(fā)現(xiàn)云之所以具有這些特性其實(shí)是通過云的不同機(jī)制實(shí)現(xiàn)的,兩組概念之間是一種支持與被支持的關(guān)系。這種關(guān)系就要在知識庫中體現(xiàn)出來。
(3)本研究梳理出來的語義關(guān)系大致可以分為三大類,即概念上相關(guān)(concept related)、功能上相關(guān)(functionally related)和物理上相關(guān)(physically related)。每一類又可以細(xì)分出不同的子關(guān)系(詳見圖5)。
①概念上相關(guān):其下屬的語義關(guān)系比如“isCharacterizedWith”(具有……的特征),建立了術(shù)語“cloud computing”與術(shù)語“elasticity”(彈性)、“measured usage”(可測量的使用)、“multitenancy”(多租戶)、“on-demand usage”(按需使用)、“resiliency”(可恢復(fù)性)、“ubiquitous access”(泛在接入)之間的關(guān)系,表示的意思是“Cloud computing is characterized with elasticity, measured usage, multitenancy, on-demand usage, resiliency and ubiquitous access”,即云計(jì)算具有這6個特點(diǎn)。
②功能上相關(guān):其下屬的語義關(guān)系比如“isSupportedBy”(由……支持),分別建立了云計(jì)算的上述6個特征與云機(jī)制(cloud computing mechanism)之間的對應(yīng)關(guān)系,比如,連接了術(shù)語“elasticity”與術(shù)語“hypervisor”(虛擬機(jī)監(jiān)控器)、“resource replication”(資源復(fù)制)、“failover system”(故障轉(zhuǎn)移系統(tǒng))、“resource cluster”(資源集群)、“resource management system”(資源管理系統(tǒng)),可以用一個完整的句子表示為“Elasticity is supported by hypervisor, resource replication, failover system, resource cluster and resource management system”,即云計(jì)算的彈性特征是由這5個方面支持實(shí)現(xiàn)的。
③ 物理上相關(guān):其下屬的語義關(guān)系比如“consistOf”,連接了術(shù)語“service”(服務(wù))和“container”(容器),語義關(guān)系的限制類型為“some”,表示的意思是“Service consists of some containers”(一個服務(wù)由若干個容器組成)。
如此便建立了一個龐大的術(shù)語家族,“輩分”、親疏關(guān)系一目了然,用戶獲得的不是術(shù)語的個體,而是由多個術(shù)語個體組成的整體,形成了一個立體思維導(dǎo)圖。
4.6 創(chuàng)建實(shí)例
理解了上述步驟之后,就可以利用Protégé來創(chuàng)建具體的實(shí)例了,每個實(shí)例都需要進(jìn)行注解、語義關(guān)系設(shè)定、關(guān)系屬性約定等,即進(jìn)行形式化編碼,以實(shí)現(xiàn)本體的共享與重用。這些實(shí)例組成實(shí)例庫,實(shí)例的不斷補(bǔ)充可以豐富知識本體。
4.7 知識檢索與展示
Protégé檢索框支持對知識庫任意字段的檢索,輸入所查術(shù)語的全部或部分即可獲取搜索結(jié)果??梢岳靡晥D插件(OntoGraf)實(shí)現(xiàn)對實(shí)例及其關(guān)系的可視化展示,被稱作E-R圖(entity-relationship diagram),可將以某一術(shù)語為中心的概念關(guān)系展示出來(詳見圖6)。
4.8 知識評價(jià)與進(jìn)化
本研究嘗試從內(nèi)容與主體兩方面對知識庫進(jìn)行評價(jià):從檢驗(yàn)的內(nèi)容來看,分為一致性檢驗(yàn)、語義類型構(gòu)建檢驗(yàn)、語義關(guān)系構(gòu)建檢驗(yàn)、語義網(wǎng)絡(luò)框架構(gòu)建檢驗(yàn);從檢驗(yàn)的主體來說,分為Protégé軟件自動推理機(jī)檢驗(yàn)、領(lǐng)域?qū)<覚z驗(yàn)、同類書籍檢驗(yàn)、終端用戶檢驗(yàn)等。其中,自動推理機(jī)檢驗(yàn)知識本體的一致性,領(lǐng)域?qū)<覚z驗(yàn)語義類型及其關(guān)系的正確性,同類書籍檢驗(yàn)整個語義框架的合理性與全面性,終端用戶即知識庫的最終使用者(比如譯者),通過具體的翻譯實(shí)踐測試知識庫的可用性。多法并舉,完善知識庫的質(zhì)量,促進(jìn)知識進(jìn)化。
5 結(jié)語
本文以我國語言服務(wù)行業(yè)技術(shù)文檔翻譯需求為出發(fā)點(diǎn),以信息通信技術(shù)云計(jì)算領(lǐng)域?yàn)槔?,?gòu)建了面向技術(shù)文檔翻譯的雙語術(shù)語知識庫,是翻譯學(xué)、術(shù)語學(xué)與知識管理等學(xué)科交叉研究的一次嘗試,主要取得了以下幾項(xiàng)研究成果:比較系統(tǒng)地梳理了云計(jì)算領(lǐng)域知識,形成了比較清晰的基本概念知識圖譜,確立了雙語術(shù)語知識庫建庫模型、建庫原則、建庫流程和方法,初步構(gòu)建了云計(jì)算領(lǐng)域雙語術(shù)語知識庫,改善了云計(jì)算領(lǐng)域知識采集、知識表示及知識應(yīng)用等一系列知識組織活動,可為譯者學(xué)習(xí)專業(yè)知識、進(jìn)行文檔翻譯提供知識服務(wù)平臺,還可以輔助技術(shù)文檔寫作等活動,是企業(yè)內(nèi)容管理的重要組成部分和發(fā)展方向。
術(shù)語知識管理體系的建設(shè)在今天的知識經(jīng)濟(jì)中早已納入許多國家的發(fā)展戰(zhàn)略,許多國家都把術(shù)語知識管理系統(tǒng)作為國家和地區(qū)的基礎(chǔ)設(shè)施加以建設(shè),高度重視術(shù)語學(xué)和知識工程學(xué)的研究以及術(shù)語知識庫的構(gòu)建。雙語術(shù)語知識庫構(gòu)建的價(jià)值不僅在于借助本體技術(shù)呈現(xiàn)領(lǐng)域詞匯表或術(shù)語表,也不僅僅是借助本體建立一個單純的術(shù)語知識、翻譯知識的查詢系統(tǒng),而意在借助本體利用形式化語言對知識進(jìn)行描述,使知識在人與機(jī)器之間達(dá)到共享,進(jìn)而實(shí)現(xiàn)個體知識與群體知識的共享,滿足創(chuàng)新型國家知識服務(wù)體系建設(shè)的深層次需求,服務(wù)國家知識創(chuàng)新工程體系建設(shè)。
不可否認(rèn),目前本研究在知識庫的構(gòu)建工具與方式兩方面還存在一定的局限性。就構(gòu)建工具而言,Protégé可視化只能展示二元關(guān)系,無法展示多元關(guān)系;不支持圖表輸入,而圖表對技術(shù)文檔信息傳播非常重要。就構(gòu)建方式而言,人工方式效率低,構(gòu)建的知識庫在實(shí)例和屬性方面規(guī)模小,難以應(yīng)對大數(shù)據(jù)時(shí)代領(lǐng)域知識的快速增長。因而,今后需要探索知識庫自動或半自動構(gòu)建技術(shù),提高領(lǐng)域知識的獲取效率,降低知識獲取成本;觀察譯者等用戶獲取領(lǐng)域知識的行為,收集用戶反饋,不斷完善優(yōu)化,使之成為一個系統(tǒng)化、智能化的信息通信技術(shù)領(lǐng)域雙語術(shù)語知識服務(wù)平臺。
參考文獻(xiàn)
[1] Microsoft Corporation Editorial Style Board. Manual Style for Technical Publications[Z]. Seattle: Microsoft Press, 2004.
[2] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局, 中國國家標(biāo)準(zhǔn)化管理委員會. 消費(fèi)品使用說明:第1部分 總則:GB 5296.1—2012[S]. 北京:中國標(biāo)準(zhǔn)出版社,2013.
[3] 李勇,李曉峰. 面向領(lǐng)域知識庫的電信業(yè)務(wù)本體創(chuàng)建[J]. 計(jì)算機(jī)科學(xué),2008,35(4):77-79.
[4] 許鑫,郭金龍. 基于領(lǐng)域本體的專題庫構(gòu)建:以中華烹飪文化知識庫為例[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013(12):2-9.
[5] 高明月. 基于本體的《備急千金要方》語義網(wǎng)絡(luò)構(gòu)建研究[D]. 北京:北京中醫(yī)藥大學(xué)博士論文,2016.
[6] 唐曉波,鄭杜,譚明亮. 慢性病健康教育知識服務(wù)系統(tǒng)模型構(gòu)建研究[J]. 情報(bào)科學(xué),2019,37(1):134-140.
[7] 李雙燕,崔啟亮. 國內(nèi)技術(shù)寫作發(fā)展現(xiàn)狀調(diào)查及其對MTI教育的啟示[J]. 外語學(xué)刊,2018(2):51.
[8] ERL T, MAHMOOD Z, PUTTINI R. Cloud Computing: Concepts, Technology and Architecture [M]. Beijing: China Machine Press, 2016: 1-2.
[9] MEYER I, SKUCE D, BOWKER L. Towards a new generation of terminological resources: An experiment in building a terminological knowledge base [C] //Proceedings of the 16th International Conference on Computational Linguistics. Nantes, 1992: 957.
[10] BOWKER L. Terminology [C]//Baker M, Saldanha G (eds.). Routledge Encyclopedia of Translation Studies. 2nd ed. London/New York: Routledge, 2009: 286.
[11] 苗菊,寧海霖. 翻譯技術(shù)的知識體系化演進(jìn):以雙語術(shù)語知識庫建設(shè)與應(yīng)用為例[J]. 中國翻譯, 2016(6):61-62.
[12] 原偉,易綿竹. 俄語計(jì)算語言學(xué)領(lǐng)域本體知識庫的構(gòu)建[J]. 解放軍外國語學(xué)院學(xué)報(bào),2012(1):41.
[13] 馮志偉. 現(xiàn)代術(shù)語學(xué)引論[M]. 增訂本.北京:商務(wù)印書館,2011:13,598.
[14] 董振東,董強(qiáng). 知網(wǎng)簡介·知網(wǎng)[EB/OL]. [2020-05-06]. http://www.keenage.com/zhiwang/c_zhiwang.html.
[15] 崔啟亮,羅慧芳. 翻譯項(xiàng)目管理[M]. 北京:外文出版社,2016:68-71.
[16] International Standard Organization. ISO 12620: 2019 Management of terminology resources:Data category specifications [S]. ISO/TC 37/SC, 2019.
[17] International Standard Organization.ISO 8601-1: 2019 Date and time:Representations for information interchange [S]. ISO/TC 154, 2019.
作者簡介:
李雙燕(1982—),女,南開大學(xué)翻譯學(xué)博士,首都經(jīng)濟(jì)貿(mào)易大學(xué)MTI教育中心主任,碩士生導(dǎo)師,主要從事翻譯與技術(shù)傳播研究,主持或參與國家、教育部、北京市、校級等各級科研項(xiàng)目近10項(xiàng),發(fā)表論文20余篇,翻譯出版科普讀物7部。2020年榮獲“首屆全國高等學(xué)校外語課程思政教學(xué)比賽”一等獎,“首屆全國翻譯技術(shù)教學(xué)大賽”華北賽區(qū)二等獎,校級“教育教學(xué)成果”一等獎等。通信方式:lsyan025@163.com。
苗菊(1955—),南開大學(xué)外國語學(xué)院教授、博士生導(dǎo)師,翻譯學(xué)研究中心主任,獲南開大學(xué)“英才教授”榮譽(yù)稱號。在美國印第安納大學(xué)比較文學(xué)系完成博士后研究,至今多次赴北美和歐洲知名大學(xué)訪學(xué)和調(diào)研。曾任渥太華大學(xué)翻譯學(xué)院中國高校咨詢專家,維也納大學(xué)非歐盟成員講學(xué)計(jì)劃客座教授。系統(tǒng)研究當(dāng)代西方翻譯理論的流派與要略,翻譯學(xué)科體系的發(fā)展與科學(xué)方法,在國內(nèi)翻譯學(xué)術(shù)界倡導(dǎo)描述性和實(shí)證翻譯研究,開拓?cái)?shù)字時(shí)代翻譯研究多學(xué)科發(fā)展。