鄭丹丹 張夢(mèng)宇 朱 波
(南京航空航天大學(xué)外國(guó)語(yǔ)學(xué)院,江蘇南京 210016)
術(shù)語(yǔ)通過語(yǔ)音或文字來(lái)表達(dá)專業(yè)概念,是特殊的認(rèn)知信息結(jié)構(gòu)[1]。術(shù)語(yǔ)知識(shí)庫(kù)利用計(jì)算機(jī)的特有功能,大量?jī)?chǔ)存術(shù)語(yǔ),不斷進(jìn)行修改、更新等操作,加強(qiáng)對(duì)術(shù)語(yǔ)條目的管理,適應(yīng)科學(xué)技術(shù)發(fā)展對(duì)術(shù)語(yǔ)提出的新要求,在語(yǔ)言學(xué)、計(jì)算機(jī)輔助翻譯、機(jī)器翻譯、專業(yè)知識(shí)儲(chǔ)存等領(lǐng)域作用顯著。伴隨互聯(lián)網(wǎng)發(fā)展,術(shù)語(yǔ)知識(shí)庫(kù)推動(dòng)了術(shù)語(yǔ)標(biāo)準(zhǔn)化和規(guī)范化,對(duì)專業(yè)知識(shí)進(jìn)行組織、描述和管理,為專業(yè)學(xué)習(xí)、交流與傳播提供幫助。國(guó)外在這方面已有成功經(jīng)驗(yàn),如世界知識(shí)產(chǎn)權(quán)組織(WIPO)術(shù)語(yǔ)庫(kù),北約在線術(shù)語(yǔ)庫(kù)NATOTerm,美國(guó)聯(lián)機(jī)計(jì)算機(jī)圖書館中心(OCLC)術(shù)語(yǔ)庫(kù),加拿大多領(lǐng)域大型術(shù)語(yǔ)庫(kù)Termium等。此外,網(wǎng)絡(luò)知識(shí)組織系統(tǒng)(NKOS)、開放元數(shù)據(jù)注冊(cè)(OMR)、維基百科等提供術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)機(jī)制,供用戶發(fā)布和共享術(shù)語(yǔ)。術(shù)語(yǔ)知識(shí)庫(kù)一方面提供特定領(lǐng)域術(shù)語(yǔ)標(biāo)準(zhǔn)化信息;另一方面展示該領(lǐng)域知識(shí)網(wǎng)絡(luò),成為知識(shí)服務(wù)的基石[2]。國(guó)內(nèi)近年來(lái)也有突破,誕生了一批標(biāo)志性成果,如全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)主持建設(shè)的“術(shù)語(yǔ)在線”、中國(guó)特色話語(yǔ)對(duì)外翻譯標(biāo)準(zhǔn)化術(shù)語(yǔ)庫(kù)[3]、面向云計(jì)算領(lǐng)域的雙語(yǔ)術(shù)語(yǔ)知識(shí)庫(kù)[4]、航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)[5]。術(shù)語(yǔ)知識(shí)庫(kù)研究涵蓋知識(shí)的融合、集成、管理、服務(wù)等方面,是一項(xiàng)系統(tǒng)的知識(shí)工程,在理論和應(yīng)用上值得進(jìn)一步探討。
西班牙格拉納達(dá)大學(xué)Lexicon團(tuán)隊(duì)起步較早,成果突出,獨(dú)樹一幟。自1994年起,由Faber引領(lǐng),團(tuán)隊(duì)以詞匯語(yǔ)法模型和認(rèn)知語(yǔ)言學(xué)為基礎(chǔ),在術(shù)語(yǔ)學(xué)、詞匯語(yǔ)義學(xué)、詞典學(xué)、隱喻、翻譯和專業(yè)知識(shí)表征等領(lǐng)域開展研究。2003年,“基于多語(yǔ)語(yǔ)料庫(kù)的海岸工程知識(shí)提取”獲該國(guó)教育和科技部立項(xiàng)。在此基礎(chǔ)上,團(tuán)隊(duì)開發(fā)出面向環(huán)境領(lǐng)域的多語(yǔ)術(shù)語(yǔ)知識(shí)庫(kù)EcoLexicon。經(jīng)過不斷改進(jìn)、完善,已在環(huán)境領(lǐng)域匯集3631個(gè)概念,總共20 342條術(shù)語(yǔ),以六種語(yǔ)言呈現(xiàn)[6];專業(yè)語(yǔ)料庫(kù)容量巨大,僅英文專業(yè)文獻(xiàn)詞數(shù)就高達(dá)5400萬(wàn),可通過Sketch Engine免費(fèi)檢索[7]。本文將以EcoLexicon為研究對(duì)象,探討其生成、應(yīng)用及對(duì)業(yè)界的啟示。
在構(gòu)建過程中,Lexicon團(tuán)隊(duì)參考、借鑒了交際術(shù)語(yǔ)學(xué)和社會(huì)術(shù)語(yǔ)學(xué)等,在框架語(yǔ)義學(xué)基礎(chǔ)上形成了框架術(shù)語(yǔ)學(xué)(Frame-based Terminology,F(xiàn)BT),以概念組織、術(shù)語(yǔ)單元的多維性質(zhì)、從多語(yǔ)語(yǔ)料庫(kù)提取語(yǔ)義和句法信息為特色,發(fā)展成為描寫術(shù)語(yǔ)學(xué)的最新流派。
FBT 是一種以認(rèn)知為導(dǎo)向的術(shù)語(yǔ)理論,其核心理念為:在科學(xué)和技術(shù)傳播中,術(shù)語(yǔ)作為特定知識(shí)單元激活專業(yè)領(lǐng)域語(yǔ)義框架,后者取決于(用戶)專業(yè)背景知識(shí)并與之對(duì)應(yīng)。語(yǔ)義框架論基于語(yǔ)義、句法和語(yǔ)用等三方面理論 ,它們分別關(guān)聯(lián)術(shù)語(yǔ)條目信息、專業(yè)知識(shí)單元之間關(guān)系和概念系統(tǒng)。
語(yǔ)義層面包含內(nèi)部和外部表征。內(nèi)部通過描述語(yǔ)義構(gòu)成和語(yǔ)義關(guān)系,形成定義模板,構(gòu)建術(shù)語(yǔ)作為特定知識(shí)單元的含義;外部是一個(gè)領(lǐng)域本體,頂端概念包括對(duì)象(Object)、事件(Event)、屬性(Attribute) 和關(guān)系(Relation)。本體由具體對(duì)象和過程的概念表征構(gòu)成。概念體系如同一個(gè)支架,自然語(yǔ)言表述為術(shù)語(yǔ)數(shù)據(jù)查詢、數(shù)據(jù)集成和數(shù)據(jù)推斷提供語(yǔ)義基礎(chǔ)。句法層面基于具體事件,以謂詞-論元結(jié)構(gòu)形式出現(xiàn)。事件在本質(zhì)上由謂詞決定,它激活了不同實(shí)體之間的關(guān)系。FBT認(rèn)為術(shù)語(yǔ)之間在句法上存在關(guān)聯(lián),如同基于圖像的微型語(yǔ)法。這種結(jié)構(gòu)不僅展現(xiàn)出語(yǔ)言上的層級(jí)和非層級(jí)關(guān)系,而且還能標(biāo)記語(yǔ)料庫(kù)文本,用于信息檢索。語(yǔ)用層面指向語(yǔ)境,包含言內(nèi)和言外兩種。言內(nèi)語(yǔ)境又稱上下文,跨度通常為特定術(shù)語(yǔ)之前與之后的5個(gè)詞,在術(shù)語(yǔ)知識(shí)庫(kù)設(shè)計(jì)階段至關(guān)重要。通過各種搭配和搭配模式,上下文展現(xiàn)出術(shù)語(yǔ)激活和使用的具體情境,在術(shù)語(yǔ)消歧、定義表述、語(yǔ)言使用、概念建模和術(shù)語(yǔ)提取等方面作用顯著。相比之下,言外語(yǔ)境與文化知識(shí)、觀念和信仰相關(guān),這緣于專業(yè)知識(shí)單位內(nèi)嵌的文化信息。概念范疇與語(yǔ)言使用者的生存環(huán)境緊密關(guān)聯(lián),后者從相關(guān)地理環(huán)境或區(qū)域條件中識(shí)解其內(nèi)涵,比如常見天氣現(xiàn)象,因此文化定位對(duì)語(yǔ)義網(wǎng)絡(luò)產(chǎn)生直接影響。
FBT認(rèn)為每個(gè)專業(yè)都有屬于本領(lǐng)域的事件模板(Event Template),這些事件能夠被概念系統(tǒng)捕捉,構(gòu)成概念事件的結(jié)構(gòu)基礎(chǔ),可在框架中對(duì)新行為或新事件進(jìn)行范疇化處理。參照原型概念,F(xiàn)BT把專業(yè)域中反復(fù)發(fā)生的事件稱為原型域事件(Prototypical Domain Event),原型域事件把專業(yè)域中的基礎(chǔ)層面范疇配置在一起,產(chǎn)生了一個(gè)適用于所有層面信息架構(gòu)的模塊,把體現(xiàn)專業(yè)域特色的典型狀態(tài)和事件以及參與其中的實(shí)體都納入進(jìn)去,確立起一個(gè)組織具體概念的框架。范疇中的具體概念被置于網(wǎng)絡(luò)中,通過層級(jí)和非層級(jí)關(guān)系聯(lián)系在一起[8]。EcoLexicon以此為理論基礎(chǔ),根據(jù)語(yǔ)料來(lái)源把環(huán)境工程細(xì)分為地質(zhì)學(xué)、生物學(xué)、氣象學(xué)等領(lǐng)域,并以這些領(lǐng)域?yàn)榛A(chǔ),對(duì)概念網(wǎng)絡(luò)進(jìn)行語(yǔ)境化處理,取得了突破。
EcoLexicon中的語(yǔ)義網(wǎng)絡(luò)基于域事件,為環(huán)境領(lǐng)域中的典型狀態(tài)或事件以及參與其中的實(shí)體提供一個(gè)模板,把它們?nèi)谌肫渲?。從視覺上看,語(yǔ)義網(wǎng)絡(luò)中的每個(gè)概念都與其他概念相互關(guān)聯(lián)。選擇這種可視化方法,原因是語(yǔ)義網(wǎng)絡(luò)是最為突出的術(shù)語(yǔ)表征方法,可在智能環(huán)境中獲取和封裝大量語(yǔ)義信息。在使用時(shí),環(huán)境領(lǐng)域的廣闊性、多維性和大量概念命題經(jīng)常導(dǎo)致EcoLexicon出現(xiàn)信息超載。Lexicon團(tuán)隊(duì)通過量化和質(zhì)性手段來(lái)解決這一問題,比如讓用戶通過關(guān)系類型來(lái)過濾超載的語(yǔ)義網(wǎng)絡(luò);根據(jù)主題設(shè)置上下文限制,提供重新語(yǔ)境化的概念景象;提供網(wǎng)絡(luò)、樹型和路徑三種不同模式,讓概念行為可視化。
在概念圖左下角有一個(gè)文本框,允許用戶選取不同種類的概念關(guān)系,具體為下義關(guān)系(type_of),部分-整體關(guān)系(part_of)關(guān)系,以及非層級(jí)關(guān)系(has_function,located_at,causes, affects, result_of等)。這些概念關(guān)系不會(huì)直接出現(xiàn)頁(yè)面上。用戶點(diǎn)擊標(biāo)簽左側(cè)的復(fù)選框,就可以啟動(dòng)或退出一種關(guān)系的視圖。通過選擇關(guān)系種類,用戶可以過濾超載信息。通過下拉菜單,選取不同的語(yǔ)境領(lǐng)域,用戶就能更新語(yǔ)義網(wǎng)絡(luò)。這種質(zhì)性方法可解決信息超載,同時(shí)提高表征的多維性。概念關(guān)系因視角不同而發(fā)生變化,導(dǎo)致語(yǔ)義網(wǎng)絡(luò)需要再語(yǔ)境化。用戶可根據(jù)具體概念在不同主題域的突出性,來(lái)啟動(dòng)或限制概念命題,無(wú)需全方位表征。以Water為例。相比脫離語(yǔ)境、信息過載的語(yǔ)義網(wǎng)絡(luò),圖1把領(lǐng)域限定為土木工程,語(yǔ)義網(wǎng)絡(luò)信息大幅降低,專業(yè)性顯著提升。
圖1 Water在土木工程領(lǐng)域的語(yǔ)義網(wǎng)絡(luò)
除網(wǎng)絡(luò)模式外,EcoLexicon還提供樹形模式和路徑模式。在樹形模式下,各種概念類別通過橫向樹形結(jié)構(gòu)連接,通常情況下有多個(gè)樹形分支。兩者具有相同的根,即中心概念(而非術(shù)語(yǔ))。與典型的Is A層次結(jié)構(gòu)①相同,左側(cè)樹根顯示更通用的概念,而右側(cè)分支顯示與所搜索概念相關(guān)的更為具體的概念。例如,Sediment(沉積物)可分為Moraine(冰磧)、Diamict(混積巖)、Agglomerate(集塊巖)、Sludge(淤泥)等,其中Moraine又可以分為L(zhǎng)ateral moraine(冰川側(cè)磧)、Terminal moraine(終磧)、Recessional moraine(后退冰磧)、Ground moraine(地磧)和Central moraine(中心冰磧),其余分支還可以繼續(xù)細(xì)分為各種子概念類別,形成樹形結(jié)構(gòu)(見圖2)。
圖2 Sediment概念樹形模式
路徑模式顯示了兩個(gè)概念間的最短路徑及其關(guān)系。例如, Hurricane(龍卷風(fēng))屬于Wind(風(fēng))的一部分,Wind會(huì)影響Lithometeor(大氣塵粒),后者由Sand(沙)造成(見圖3)。
圖3 連接Hurricane和Sand的路徑模式
Lexicon團(tuán)隊(duì)匯編了一個(gè)專用語(yǔ)料庫(kù),以提取語(yǔ)言和概念知識(shí),并對(duì)它們進(jìn)行分類和標(biāo)記,方便用戶訪問。每個(gè)文本都已根據(jù)一組基于可擴(kuò)展標(biāo)記語(yǔ)言(XML)的元數(shù)據(jù)進(jìn)行了標(biāo)注。這些標(biāo)注包含文本語(yǔ)言、作者、出版日期、目標(biāo)讀者、語(yǔ)境、關(guān)鍵字等信息。用戶可以根據(jù)語(yǔ)境或目標(biāo)讀者等語(yǔ)用因素,來(lái)查詢語(yǔ)料庫(kù),比較同一術(shù)語(yǔ)在不同文本中的使用情況。以pollute(污染)一詞為例。通過檢索專業(yè)語(yǔ)料,可以發(fā)現(xiàn)多種污染源和污染物,然后歸入語(yǔ)義角色和分類[7],具體可見表1。
表1 污染源和污染物
除標(biāo)注外,EcoLexicon面對(duì)的另一挑戰(zhàn)就是將數(shù)據(jù)集成到語(yǔ)言鏈接開放數(shù)據(jù)云中。鏈接數(shù)據(jù)是一個(gè)重要步驟,通過在語(yǔ)義網(wǎng)中發(fā)布和鏈接結(jié)構(gòu)化資源來(lái)創(chuàng)建共享信息空間。但是,數(shù)據(jù)源之間語(yǔ)義關(guān)系的規(guī)范化是一個(gè)限制因素。為解決這一問題,EcoLexicon將以三種方式出現(xiàn):(1)當(dāng)前提供的網(wǎng)頁(yè)應(yīng)用程序;(2)另一個(gè)可讓用戶瀏覽關(guān)聯(lián)數(shù)據(jù)格式EcoLexicon的網(wǎng)頁(yè)應(yīng)用程序;(3)簡(jiǎn)單協(xié)議和資源描述框架端點(diǎn)②。團(tuán)隊(duì)設(shè)計(jì)了一種鏈接算法,以自動(dòng)執(zhí)行DBpedia③和EcoLexicon之間的映射。EcoLexicon的數(shù)據(jù)類別與語(yǔ)言變體、多語(yǔ)言選擇和語(yǔ)義關(guān)系有關(guān),這些類別對(duì)應(yīng)于DBpedia所包含文本屬性。因此,數(shù)據(jù)鏈接第一步是把EcoLexicon中所有英語(yǔ)變體的字符串與DBpedia的資源描述框架屬性進(jìn)行比較。由于這些字符串可能與DBpedia中各種條目匹配并導(dǎo)致歧義,需要通過比較其他語(yǔ)言有效項(xiàng)來(lái)消除歧義。當(dāng)多語(yǔ)言選擇不適用,或出現(xiàn)多義性時(shí),語(yǔ)義信息就會(huì)發(fā)揮作用。若語(yǔ)境中與概念相同的任何術(shù)語(yǔ)出現(xiàn)在與文本相關(guān)的DBpedia屬性中(即rdfs:comment;DBpedia-owl:abstract等),則被視為相同概念[6]。此外,還需提供EcoLexicon訪問權(quán)限,以便驗(yàn)證、評(píng)估鏈接的安全性。
EcoLexicon(http://EcoLexicon.ugr.es)在網(wǎng)絡(luò)語(yǔ)義中設(shè)定環(huán)境概念,展示環(huán)境領(lǐng)域的概念結(jié)構(gòu)。用戶群體包括環(huán)境學(xué)家、技術(shù)寫作人員和專業(yè)譯員等。它有助于拓展環(huán)境領(lǐng)域?qū)I(yè)知識(shí),提高用戶對(duì)文本的理解。所有信息和專業(yè)文本語(yǔ)料庫(kù)都儲(chǔ)存在一個(gè)獨(dú)立的數(shù)據(jù)庫(kù)中,可供添加、刪除、修改。用戶可訪問并查詢所需信息,主要目的是獲取專業(yè)知識(shí)。與最初版本相比,新版EcoLexicon增加了如下功能:兼容所有現(xiàn)代瀏覽器;增加更多交互和組合圖形,允許調(diào)整圖形大小,選擇概念關(guān)系,刪除或調(diào)整節(jié)點(diǎn),前進(jìn)/后退操作,為術(shù)語(yǔ)創(chuàng)建鏈接,通過谷歌或谷歌圖像搜索概念/術(shù)語(yǔ);增加樹形模式與路徑模式;個(gè)性化存儲(chǔ)設(shè)置。
用戶打開網(wǎng)站,會(huì)發(fā)現(xiàn)三個(gè)區(qū)域:(1)頂部欄。包括術(shù)語(yǔ)/概念搜索或更改界面語(yǔ)言操作。(2)側(cè)邊欄。顯示有關(guān)概念圖的信息:定義、術(shù)語(yǔ)/概念、相關(guān)術(shù)語(yǔ)/概念、相關(guān)資源、概念類別和短語(yǔ)。(3)中心區(qū)。包括概念/術(shù)語(yǔ)搜索歷史、概念圖及其術(shù)語(yǔ)名稱,以及自定義配置概念圖的圖標(biāo)。概念圖左下方有一個(gè)帶標(biāo)題的文本框,供用戶區(qū)分EcoLexicon中的三類概念關(guān)系:上下義(普遍-特殊)關(guān)系、部分-整體關(guān)系、非層級(jí)關(guān)系。通過單擊某個(gè)概念/術(shù)語(yǔ),就可以把它定位于中心或拖動(dòng)節(jié)點(diǎn)。在側(cè)邊欄選擇,可顯示詳細(xì)信息(定義、關(guān)聯(lián)術(shù)語(yǔ)、資源等),獲取選定項(xiàng)的相關(guān)鏈接。此外,用戶還可以直接通過谷歌搜索、谷歌圖片和Wolfram Alpha④查詢概念的相關(guān)信息。
EcoLexicon頁(yè)面左側(cè)包含一系列模塊,顯示特定概念或術(shù)語(yǔ)的信息。這些信息主要包括:(1)定義:提供中心概念的定義。(2)術(shù)語(yǔ):顯示指定中心概念所有相關(guān)術(shù)語(yǔ)的列表。按語(yǔ)言和術(shù)語(yǔ)類型(主要輸入術(shù)語(yǔ)、同義詞、變體、首字母縮寫等)排序,每個(gè)術(shù)語(yǔ)左側(cè)都有國(guó)旗標(biāo)志,代表語(yǔ)言種類。(3)資源:提供與概念/術(shù)語(yǔ)相關(guān)的圖像、文本及視聽材料。每個(gè)概念的資源列表顯示在此框中。用戶可通過資源旁的圖標(biāo)識(shí)別資源類型。單擊資源條目,就可以打開一個(gè)包含更多信息(標(biāo)題、描述、來(lái)源等)的窗口。(4)概念類別:每個(gè)概念都與一個(gè)或多個(gè)概念類別相關(guān)聯(lián)。單擊其中一種類別,將出現(xiàn)一個(gè)視窗,列出所有相關(guān)概念。該模塊還包括“類別”層次結(jié)構(gòu)圖標(biāo),單擊圖標(biāo),系統(tǒng)就會(huì)以分層形式顯示概念,每個(gè)節(jié)點(diǎn)可前進(jìn)或后退。如單擊層次結(jié)構(gòu)中的類別之一,則會(huì)出現(xiàn)一個(gè)新窗口,包含與該類別相關(guān)的所有概念。(5)詞匯表:如果概念圖中心元素是術(shù)語(yǔ),則可顯示該術(shù)語(yǔ)最常用的搭配動(dòng)詞列表。
以翻譯舉例。除專業(yè)翻譯外,不少學(xué)校的應(yīng)用翻譯課程都會(huì)涉及環(huán)境科學(xué)術(shù)語(yǔ)。筆者在翻譯一篇關(guān)于大氣層的文獻(xiàn)時(shí),曾登錄網(wǎng)站,查找核心術(shù)語(yǔ)Climate change(氣候變化)以及相關(guān)術(shù)語(yǔ)/概念。比如,??寺鼘?Ekman Layer)指離地面100~2000米的區(qū)域;Orographic effect(地形效應(yīng))指某一巖層由于地形、巖層的產(chǎn)狀與厚度因素的影響,在地質(zhì)圖上有不同的露頭形態(tài)。對(duì)非環(huán)境專業(yè)譯者來(lái)說(shuō),在網(wǎng)絡(luò)上逐一搜索這些術(shù)語(yǔ)十分煩瑣,而且容易出錯(cuò)。登錄EcoLexicon,輸入“Climate change”,會(huì)自動(dòng)鏈接所有相關(guān)術(shù)語(yǔ),比如Desertification(沙漠化)、Recession(衰退)、Atmosphere(大氣),還可以直接查看術(shù)語(yǔ)定義、使用語(yǔ)境以及相關(guān)資料,非常方便(見圖4)。
由此可見,EcoLexicon不僅適用于環(huán)境科學(xué)領(lǐng)域?qū)I(yè)人士,對(duì)于需要了解環(huán)境科學(xué)知識(shí)的其他行業(yè)專家也有很大幫助。當(dāng)用戶用其中一種語(yǔ)言搜索某個(gè)術(shù)語(yǔ)時(shí),可以得出包括定義、分類、搭配、演變、語(yǔ)法等信息。對(duì)譯者來(lái)說(shuō),可以通過切換語(yǔ)言得知某個(gè)術(shù)語(yǔ)用另外五種語(yǔ)言如何表示,從而選擇相應(yīng)的術(shù)語(yǔ)進(jìn)行翻譯。不僅如此,EcoLexicon的術(shù)語(yǔ)庫(kù)可以在Sketch Engine中免費(fèi)使用,譯者還可以通過Trados等計(jì)算機(jī)輔助軟件,自建翻譯術(shù)語(yǔ)庫(kù),在環(huán)境科學(xué)領(lǐng)域承擔(dān)大型專業(yè)翻譯或本地化項(xiàng)目。
作為大型多語(yǔ)言術(shù)語(yǔ)知識(shí)庫(kù),EcoLexicon過去十幾年里不斷改進(jìn),規(guī)模日趨擴(kuò)大,專業(yè)化水平不斷提高,經(jīng)濟(jì)和社會(huì)效益日益顯現(xiàn),給術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)和術(shù)語(yǔ)研究帶來(lái)如下啟示。
術(shù)語(yǔ)的國(guó)際化發(fā)展要從語(yǔ)言入手,而不同國(guó)家使用的不同語(yǔ)言可能導(dǎo)致各國(guó)學(xué)者在使用不同語(yǔ)種術(shù)語(yǔ)庫(kù)時(shí)遇到困難。早前,人們建立術(shù)語(yǔ)庫(kù)以方便編纂各種專業(yè)辭書,后來(lái)發(fā)現(xiàn)建立術(shù)語(yǔ)庫(kù)不僅方便編纂和修訂辭書,還能夠規(guī)范、協(xié)調(diào)和統(tǒng)一各種術(shù)語(yǔ)的使用,防止語(yǔ)言和文化差異造成的術(shù)語(yǔ)混用。比如,瑞典技術(shù)術(shù)語(yǔ)中心建立“TERMDOK術(shù)語(yǔ)數(shù)據(jù)庫(kù)”的主要目的就是解決北歐斯堪的納維亞地區(qū)復(fù)雜的語(yǔ)言體系為進(jìn)出口貿(mào)易以及科技交流帶來(lái)的困難。該術(shù)語(yǔ)數(shù)據(jù)庫(kù)對(duì)每一條術(shù)語(yǔ)/概念的表述均采用了瑞典語(yǔ)、英語(yǔ)、法語(yǔ)、德語(yǔ)、挪威語(yǔ)、芬蘭語(yǔ)等多種語(yǔ)言,克服了北歐國(guó)家之間的語(yǔ)言障礙[10]。
圖4 Climate change相關(guān)術(shù)語(yǔ)
自創(chuàng)立以來(lái),歐盟就支持語(yǔ)言多樣性。根據(jù)《歐洲語(yǔ)言教育政策發(fā)展指南》,多語(yǔ)種教育的定位一是多語(yǔ)教育,二是多語(yǔ)言意識(shí)教育。后者的優(yōu)越性一方面在于提升學(xué)習(xí)者的語(yǔ)言能力和語(yǔ)言學(xué)習(xí)能力,另一方面在于啟發(fā)學(xué)習(xí)者語(yǔ)言是認(rèn)知世界的資源,構(gòu)建多語(yǔ)言格局,化解語(yǔ)言沖突與矛盾,促進(jìn)各國(guó)之間經(jīng)濟(jì)發(fā)展和文化交流[11]。順應(yīng)歐盟多語(yǔ)言政策和規(guī)劃,EcoLexicon在系統(tǒng)內(nèi)置西班牙語(yǔ)、英語(yǔ)、德語(yǔ)、法語(yǔ)、俄語(yǔ)和希臘語(yǔ)六種語(yǔ)言,為不同語(yǔ)言的使用者提供便利。與之相比,目前國(guó)內(nèi)術(shù)語(yǔ)庫(kù)大多僅有漢、英兩種語(yǔ)言[12]。參照EcoLexicon多語(yǔ)言實(shí)踐,術(shù)語(yǔ)知識(shí)庫(kù)構(gòu)建中可融入更多語(yǔ)言,促進(jìn)國(guó)際合作,服務(wù)全球治理。世界是多元、多極、多層的,在構(gòu)建中國(guó)學(xué)派、講好中國(guó)故事、傳遞中國(guó)聲音的過程中,應(yīng)關(guān)注多種語(yǔ)言和不同受眾。
作為知識(shí)領(lǐng)域,術(shù)語(yǔ)學(xué)的研究對(duì)象是術(shù)語(yǔ)單元,可從三個(gè)角度加以討論。從語(yǔ)言學(xué)角度看,術(shù)語(yǔ)是語(yǔ)言的詞匯單元,在具體的語(yǔ)用和話語(yǔ)情境中表達(dá)特殊概念。這種特殊概念有準(zhǔn)確意義,被各個(gè)領(lǐng)域的專業(yè)群體識(shí)別并穩(wěn)定下來(lái)。從認(rèn)知角度看,術(shù)語(yǔ)構(gòu)成表征知識(shí)結(jié)點(diǎn)的概念單元。它們對(duì)專業(yè)領(lǐng)域的概念結(jié)構(gòu)來(lái)說(shuō)不可或缺,通過詞匯單元從語(yǔ)言上表現(xiàn)出來(lái)。所有概念結(jié)點(diǎn)組成一個(gè)領(lǐng)域的概念結(jié)構(gòu)。從交際角度看,術(shù)語(yǔ)是話語(yǔ)單元,通過它可以從個(gè)體中發(fā)現(xiàn)專業(yè)人員,幫助他們進(jìn)行交流和互動(dòng),還能通過教學(xué)目的來(lái)傳播知識(shí),培養(yǎng)新的專家,或者把專業(yè)知識(shí)作為信息傳播給那些想學(xué)習(xí)一門學(xué)科的大眾。以Erosion(侵蝕)為例。在EcoLexicon中,通過分析海岸工程的專業(yè)語(yǔ)料和各種語(yǔ)義搭配,可以發(fā)現(xiàn)“侵蝕”:(1)是一種過程;(2)持續(xù)時(shí)間不一;(3)隨季節(jié)變換;(4)受事不同,影響某個(gè)地區(qū)或海洋動(dòng)物群;(5)施事不同,由人為或自然因素觸發(fā)。由此可見,術(shù)語(yǔ)的主要功能就是在領(lǐng)域內(nèi)表征和傳播專業(yè)知識(shí)。
譯者是術(shù)語(yǔ)工作者。專業(yè)譯者通常專注一個(gè)特定領(lǐng)域。統(tǒng)計(jì)顯示,專業(yè)譯者把75%的時(shí)間用于術(shù)語(yǔ)翻譯。除工具功能之外,術(shù)語(yǔ)可以為譯者提供獲取專業(yè)知識(shí)的途徑。翻譯產(chǎn)業(yè)進(jìn)入2.0 時(shí)代后,采用計(jì)算機(jī)輔助翻譯技術(shù)已是勢(shì)在必行。術(shù)語(yǔ)庫(kù)在翻譯項(xiàng)目中的應(yīng)用大幅提升了翻譯效率和質(zhì)量,降低成本,成為企業(yè)語(yǔ)言資產(chǎn)的核心。專業(yè)翻譯公司和團(tuán)體都在嘗試建設(shè)具有行業(yè)特色的翻譯術(shù)語(yǔ)庫(kù),把擁有特定領(lǐng)域的術(shù)語(yǔ)庫(kù)作為產(chǎn)品和服務(wù)賣點(diǎn),比如面向能源、地質(zhì)、交通、計(jì)算機(jī)等領(lǐng)域的專業(yè)術(shù)語(yǔ)庫(kù)。受西班牙教育和科技部委托,Lexicon團(tuán)隊(duì)基于海岸工程項(xiàng)目,構(gòu)建面向環(huán)境領(lǐng)域的EcoLexicon,積累了豐富經(jīng)驗(yàn),目前已轉(zhuǎn)向軍事和醫(yī)學(xué)等領(lǐng)域[13],服務(wù)北約和歐盟等市場(chǎng)或機(jī)構(gòu)需求,開發(fā)可通過商品銷售共享的行業(yè)資源。
FBT認(rèn)為圖形也可以描寫概念,與語(yǔ)言語(yǔ)境形成互補(bǔ)。與語(yǔ)言一樣, 圖形在句法方面表現(xiàn)為由不同的形態(tài)要素按照一定模式組合而成,在語(yǔ)義方面能夠傳達(dá)概念的內(nèi)涵、外延以及同義關(guān)系,在語(yǔ)用方面則表現(xiàn)為因用戶需求、文本專業(yè)程度不同而發(fā)揮不同功能。Lexicon團(tuán)隊(duì)把圖形信息分為形象圖形、抽象圖像和動(dòng)態(tài)圖形三種,指出這三類圖形信息之間的不同組合,可以構(gòu)成八種圖像表述方式。不管以何種方式出現(xiàn),圖像都可以作為語(yǔ)境的一種表現(xiàn)形式,出現(xiàn)在術(shù)語(yǔ)庫(kù)之中,促進(jìn)概念的傳播和理解,深化和擴(kuò)展人們對(duì)于概念和概念關(guān)系的認(rèn)識(shí)。例如下面兩幅圖像。圖5來(lái)自EcoLexicon圖像數(shù)據(jù)庫(kù),是一幅實(shí)景圖,匯集了云、陸地、植被、雨和海洋等景象;圖6來(lái)自大氣研究大學(xué)協(xié)會(huì)(University Corporation for Atmospheric Research),細(xì)粒度刻畫了降水過程中的概念和知識(shí)點(diǎn)[8]。
圖5 降雨實(shí)景
圖6 水循環(huán)示意圖
信息化時(shí)代使科技和生活發(fā)生了巨大變革。紙媒體到融媒體的轉(zhuǎn)變給術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)帶來(lái)挑戰(zhàn),定義和解釋術(shù)語(yǔ)的方式需要與時(shí)俱進(jìn)。為克服傳統(tǒng)術(shù)語(yǔ)庫(kù)的不足,需要優(yōu)化知識(shí)庫(kù)處理技術(shù),依托本體完成專業(yè)領(lǐng)域的概念網(wǎng)絡(luò)構(gòu)建,形成立體化的知識(shí)圖譜。在大部分現(xiàn)存術(shù)語(yǔ)庫(kù)中,圖片的選擇和呈現(xiàn)都是隨機(jī)的,基本上是依靠術(shù)語(yǔ)編纂者的直覺,缺乏系統(tǒng)性和一致性。針對(duì)這個(gè)問題,Lexicon團(tuán)隊(duì)做出了一些嘗試,提出視覺語(yǔ)法(visual grammar)概念,如同在詞、句、意等層面對(duì)語(yǔ)言進(jìn)行分析,視覺信息也可以用相似性、抽象性和動(dòng)態(tài)性三個(gè)特征進(jìn)行分層,根據(jù)術(shù)語(yǔ)編撰的實(shí)際需要進(jìn)行選擇。在開發(fā)過程中,EcoLexicon就遵循了這樣的原則,取得了較為理想的效果。此外,我們還可以依托本體理論,運(yùn)用Protégé專業(yè)軟件,對(duì)領(lǐng)域概念及概念間的關(guān)系進(jìn)行規(guī)范化描述,構(gòu)建專業(yè)領(lǐng)域的概念網(wǎng)絡(luò),形成立體化的主題知識(shí)圖譜,實(shí)現(xiàn)知識(shí)的體系化與可視化[4]。
所謂互操作性,指的是不同系統(tǒng)和機(jī)構(gòu)之間相互合作、協(xié)同工作的能力,亦稱“協(xié)同工作能力”或“互用性”。按照較為通用的劃分方法, 互操作性依其范疇可分為組織機(jī)構(gòu)互操作性、語(yǔ)義(內(nèi)容)互操作性和技術(shù)互操作性,按照其發(fā)展水平還可分為技術(shù)、語(yǔ)義、流程、知識(shí)、價(jià)值、目標(biāo)六個(gè)層級(jí)[15]。和重復(fù)利用一樣,互操作性是知識(shí)表征和提取中的關(guān)鍵問題,通過語(yǔ)義網(wǎng)和鏈接開放數(shù)據(jù)云等表現(xiàn)出來(lái)。在21世紀(jì)初,歐盟就發(fā)布了《聯(lián)結(jié)歐洲》(LinkingupEurope)提案,針對(duì)互操作的重要性和具體政策達(dá)成共識(shí)。2004年,歐洲互操作性框架正式出臺(tái),規(guī)定了以互操作性為中心的一整套標(biāo)準(zhǔn)和指南,為各成員國(guó)提供了協(xié)調(diào)一致的頂層架構(gòu)。歐盟互動(dòng)術(shù)語(yǔ)數(shù)據(jù)庫(kù)(IATE)為歐盟術(shù)語(yǔ)資源提供基于網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,提高信息的可用性和標(biāo)準(zhǔn)化,為聯(lián)盟內(nèi)部的互操作性打下堅(jiān)實(shí)基礎(chǔ)。
國(guó)內(nèi)一些專業(yè)性機(jī)構(gòu)及重要部門都有自己的術(shù)語(yǔ)庫(kù)。除中國(guó)百科術(shù)語(yǔ)庫(kù)、全國(guó)科技名詞委術(shù)語(yǔ)庫(kù)之外,大多數(shù)都是內(nèi)部使用,外部用戶無(wú)法在互聯(lián)網(wǎng)直接訪問或進(jìn)行交互,存在封閉、重復(fù)、簡(jiǎn)單的弊端。作為一個(gè)多語(yǔ)術(shù)語(yǔ)知識(shí)庫(kù),EcoLexicon集成了環(huán)境科學(xué)領(lǐng)域的概念、語(yǔ)言和視覺信息,包括術(shù)語(yǔ)在內(nèi)的各種資源可融入不同類型的應(yīng)用程序,得到重復(fù)利用。在開發(fā)過程中,Lexicon團(tuán)隊(duì)創(chuàng)造出諸多“副產(chǎn)品”,比如環(huán)境專業(yè)英語(yǔ)數(shù)據(jù)庫(kù)(EcoLexicon English Corpus)、基于專業(yè)術(shù)語(yǔ)庫(kù)的環(huán)境領(lǐng)域計(jì)算機(jī)輔助翻譯系統(tǒng)(EcoLexiCAT)和圖像注釋工具(Manzanilla)。這些產(chǎn)品和EcoLexicon本身存在互操作性,可充分利用并強(qiáng)化EcoLexicon內(nèi)部的術(shù)語(yǔ)數(shù)據(jù)資源[15]。以EcoLexiCAT為例。系統(tǒng)可以把專業(yè)翻譯工作中的不同功能集成在一個(gè)獨(dú)立界面,用戶可同時(shí)得到EcoLexicon、BabelNet、IATE和Sketch Engine支持,獲得豐富的術(shù)語(yǔ)信息,如定義、翻譯、圖像、復(fù)合術(shù)語(yǔ)、語(yǔ)料庫(kù)訪問。在Sketch Engine界面,譯者可以選取原文和譯文片段,直接獲得特定術(shù)語(yǔ)的索引、持續(xù)查詢語(yǔ)言(CQL)查詢和特性素描。如果想得到詳細(xì)分析,可在Sketch Engine上打開新標(biāo)簽頁(yè),在其開放數(shù)據(jù)庫(kù)中進(jìn)一步查詢。用戶不僅能夠通過平臺(tái)獲取知識(shí),還能直接參與術(shù)語(yǔ)庫(kù)的完善過程,按照自己的需求選擇術(shù)語(yǔ)庫(kù)的功能模式、增添術(shù)語(yǔ)條目,幫助術(shù)語(yǔ)庫(kù)實(shí)現(xiàn)優(yōu)化、迭代。在術(shù)語(yǔ)庫(kù)建設(shè)中,我們可借鑒EcoLexicon,以重復(fù)利用和互操作性為導(dǎo)向,增加交互渠道,共享資源,不斷提高建設(shè)和應(yīng)用水平。
科技是國(guó)家強(qiáng)盛之基,創(chuàng)新是民族進(jìn)步之魂,術(shù)語(yǔ)是科技產(chǎn)品和創(chuàng)新思維在語(yǔ)言中的結(jié)晶。本文分析了EcoLexicon的功能和應(yīng)用,總結(jié)出對(duì)術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)的啟示。在知識(shí)經(jīng)濟(jì)體系中,術(shù)語(yǔ)知識(shí)庫(kù)已納入國(guó)家發(fā)展戰(zhàn)略,許多國(guó)家和地區(qū)都把術(shù)語(yǔ)知識(shí)系統(tǒng)作為基礎(chǔ)設(shè)施加以建設(shè),高度重視術(shù)語(yǔ)學(xué)和知識(shí)工程學(xué)等相關(guān)研究。EcoLexicon使知識(shí)在人機(jī)之間共享,進(jìn)而實(shí)現(xiàn)個(gè)體知識(shí)與群體知識(shí)共享,滿足知識(shí)服務(wù)體系建設(shè)深層次需求,服務(wù)知識(shí)創(chuàng)新工程體系建設(shè)。從術(shù)語(yǔ)知識(shí)庫(kù)構(gòu)建方式看,國(guó)內(nèi)仍存在構(gòu)建效率低、實(shí)例和屬性規(guī)模小、難以應(yīng)對(duì)大數(shù)據(jù)時(shí)代領(lǐng)域知識(shí)快速增長(zhǎng)等問題。為提升建設(shè)水平,可以參照EcoLexicon經(jīng)驗(yàn),提高領(lǐng)域知識(shí)的獲取效率,展現(xiàn)多語(yǔ)言、領(lǐng)域性、可視化、互操作性等特點(diǎn),不斷完善,打造系統(tǒng)化、智能化的術(shù)語(yǔ)和知識(shí)服務(wù)平臺(tái)。
注釋
① 在知識(shí)表示、面向?qū)ο蟪绦蛟O(shè)計(jì)與面向?qū)ο笤O(shè)計(jì)的領(lǐng)域,Is A(英語(yǔ):subsumption,包含架構(gòu))是類的父子繼承關(guān)系,如類D是另一個(gè)類B的子類(類B是類D的父類)。
② SPARQL是Simple Protocol and RDF Query Language的縮寫,為資源描述框架(Resource Description Framework,RDF)開發(fā)的一種查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議。
③ DBpedia,一個(gè)特殊的語(yǔ)義網(wǎng)應(yīng)用范例,從維基百科的詞條里擷取出結(jié)構(gòu)化資料,強(qiáng)化搜尋功能,并將其他資料鏈接至維基百科。
④ 沃爾夫勒姆公司開發(fā)的新一代搜索引擎,能根據(jù)用戶所提問題直接給出答案。