●鐘秋原 司 莉
(武漢大學(xué) 武漢 430072)
?
【資源·共享】
多語(yǔ)言知識(shí)組織系統(tǒng)互操作方法研究
●鐘秋原司莉
(武漢大學(xué)武漢430072)
[摘要]在已有的知識(shí)組織系統(tǒng)互操作的研究背景下,從多語(yǔ)言的角度分析了多語(yǔ)言知識(shí)組織系統(tǒng)互操作中存在的三種語(yǔ)言障礙:語(yǔ)種障礙、語(yǔ)義障礙及概念缺失,并結(jié)合這些障礙對(duì)多語(yǔ)言環(huán)境下實(shí)現(xiàn)知識(shí)組織系統(tǒng)的互操作提出建議:先選擇語(yǔ)種并進(jìn)行正確翻譯,再結(jié)合映射和中介詞典這兩種方法實(shí)現(xiàn)互操作。參考文獻(xiàn)12。
[關(guān)鍵詞]多語(yǔ)言知識(shí)組織系統(tǒng)互操作
1研究背景
知識(shí)組織系統(tǒng)是人類用來(lái)表達(dá)、組織人類知識(shí)的各種語(yǔ)義工具的統(tǒng)稱,可以幫助人們更好地理解、獲取各類知識(shí)。據(jù)已有研究,知識(shí)組織系統(tǒng)按其結(jié)構(gòu)、功能及對(duì)概念關(guān)系的揭示程度,可分為三類[1-2]:
第一,詞匯列表(term lists):規(guī)范文檔(authority files)、術(shù)語(yǔ)表(glossaries)、地名辭典(gazetteers)、字典(dictionaries);第二,分類與歸類(classifications and categories):系統(tǒng)分類表(classification schemes)、歸類表(categorization schemes)、知識(shí)分類表(taxonomies);第三,關(guān)系列表( relationship lists):敘詞表(thesauri)、語(yǔ)義網(wǎng)(semantic networks)、知識(shí)本體(ontology)。筆者認(rèn)為標(biāo)題表(subject headings)應(yīng)歸入到關(guān)系列表這一類。
知識(shí)組織系統(tǒng)互操作是指不同知識(shí)組織系統(tǒng)之間的兼容互換,即在不同的分類表、敘詞表、本體等知識(shí)組織工具中實(shí)現(xiàn)兼容互換[3]。在目前國(guó)內(nèi)外已開(kāi)展的43項(xiàng)知識(shí)組織系統(tǒng)互操作研究計(jì)劃中,有19項(xiàng)互操作研究項(xiàng)目涉及兩種以上的語(yǔ)言,占互操作研究項(xiàng)目的44.2%[4]。在上述19項(xiàng)項(xiàng)目中,互操作的實(shí)現(xiàn)主要采用了以下方法:映射,如建立《中國(guó)農(nóng)業(yè)敘詞表》與AGROVOC多語(yǔ)言敘詞表之間的映射;翻譯/轉(zhuǎn)譯,如對(duì)MeSH(美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館標(biāo)題表)進(jìn)行翻譯;創(chuàng)建多語(yǔ)言敘詞表,如GEMET項(xiàng)目創(chuàng)建的通用環(huán)境多語(yǔ)言敘詞表;轉(zhuǎn)換/中介詞典,如Renardus以DDC作為中介詞典,將參與該項(xiàng)目的各信息機(jī)構(gòu)所使用的分類法映射到DDC上;元敘詞表,如一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)項(xiàng)目(UMLS),廣泛收錄生物醫(yī)學(xué)概念、術(shù)語(yǔ),并通過(guò)語(yǔ)義網(wǎng)絡(luò)建立概念及術(shù)語(yǔ)間的關(guān)系;連接,如MACS項(xiàng)目,在德語(yǔ)(SWD)、英語(yǔ)(LCSH)、法語(yǔ)(RAMEAU)三種不同語(yǔ)言的標(biāo)題表之間,建立標(biāo)題詞的對(duì)等連接關(guān)系,并存儲(chǔ)進(jìn)連接資料庫(kù),實(shí)現(xiàn)跨語(yǔ)言檢索。這些多語(yǔ)言知識(shí)組織系統(tǒng)互操作計(jì)劃與項(xiàng)目為我們開(kāi)展本研究提供了借鑒。
2多語(yǔ)言知識(shí)組織系統(tǒng)互操作存在的主要障礙
語(yǔ)言障礙是實(shí)現(xiàn)多語(yǔ)言知識(shí)組織系統(tǒng)互操作的主要障礙。在互操作時(shí),需要明確不同語(yǔ)種的各種概念的內(nèi)涵和外延。首先不同語(yǔ)種間要進(jìn)行翻譯與轉(zhuǎn)換;其次,語(yǔ)言中一詞多義的現(xiàn)象以及對(duì)事物認(rèn)知的不同使得不同語(yǔ)種的知識(shí)組織系統(tǒng)中所包含的概念在內(nèi)涵和外延上不一定完全等同;再次,由于思想文化的差異,在某一知識(shí)組織系統(tǒng)中存在的概念在另一個(gè)知識(shí)組織系統(tǒng)中可能并不存在,即知識(shí)組織系統(tǒng)中概念的缺失。
2.1語(yǔ)種障礙
不同語(yǔ)言之間進(jìn)行知識(shí)組織系統(tǒng)互操作時(shí),會(huì)產(chǎn)生翻譯和理解上的困難,涉及的語(yǔ)種越多,翻譯中遇到的困難就越多。如CARMEN、Polish Project、Merimee、CAT/AGROVOC、SAB/DDC等多語(yǔ)言知識(shí)組織系統(tǒng)互操作研究計(jì)劃只涉及兩種語(yǔ)言,在語(yǔ)言的轉(zhuǎn)換上只需轉(zhuǎn)換一次即可,但在HEREIN、MACS、Renardus等互操作研究計(jì)劃中均含有3種及其以上的語(yǔ)言,AGROVOC和GEMET項(xiàng)目中則分別涉及16種和22種語(yǔ)言,語(yǔ)種種類的多樣為知識(shí)組織系統(tǒng)之間語(yǔ)言的翻譯、轉(zhuǎn)換增加了困難。
2.2詞義障礙
(1)一詞多義。一詞多義是各種語(yǔ)言中普遍存在的現(xiàn)象,某個(gè)詞在不同的語(yǔ)言環(huán)境下存在特別的意義。如漢語(yǔ)中“本體”一詞,翻譯成英語(yǔ)為“ontology”,但它既可以指哲學(xué)領(lǐng)域中的本體論,也可以指信息科學(xué)中的本體,兩個(gè)概念是有所區(qū)別的。在知識(shí)組織系統(tǒng)中如果不能正確判斷多義詞的詞義,就無(wú)法準(zhǔn)確把握詞匯表中的概念,不利于互操作的實(shí)現(xiàn)。
(2)概念外延的不同。這種不同在分類法中具體體現(xiàn)為類名涵蓋范圍的不一致。如《日本十進(jìn)分類法》和《中圖法》的大類中,都含有綜合性圖書(shū)一類。兩部分類法的綜合性圖書(shū)類下都包括了叢書(shū)、百科全書(shū)、論文集、選集、年鑒、連續(xù)性出版物等類目,但《日本十進(jìn)分類法》中還將圖書(shū)館學(xué)、新聞學(xué)、書(shū)目學(xué)包含其中。
2.3概念缺失
知識(shí)組織系統(tǒng)能反映出知識(shí)的特點(diǎn),這種知識(shí)文化的差異在此也能得到體現(xiàn),其具體表現(xiàn)為在某種語(yǔ)言的知識(shí)組織系統(tǒng)中存在概念缺失的現(xiàn)象。筆者以圖書(shū)館分類法為例,選擇了分別使用英語(yǔ)、日語(yǔ)、漢語(yǔ)三種不同語(yǔ)言的《美國(guó)國(guó)會(huì)圖書(shū)館分類法》、《日本十進(jìn)分類法》與《中國(guó)圖書(shū)館分類法》在哲學(xué)類下的倫理學(xué)類進(jìn)行比較,比較結(jié)果如表1[5-7]:
表1 《中圖法》與《NDC》、《LCC》倫理學(xué)類目對(duì)照表
表1中首先列出《中圖法》中倫理學(xué)類下的相關(guān)類目,再將《日本十進(jìn)分類法》與《美國(guó)國(guó)會(huì)圖書(shū)館分類法》中與之相應(yīng)的倫理學(xué)類目列于其后,僅在某一分類法中存在的類目則單獨(dú)列出。類目對(duì)照結(jié)果顯示,《中圖法》中的倫理學(xué)類目在《日本十進(jìn)分類法》和《美國(guó)國(guó)會(huì)圖書(shū)館分類法》中可找到相關(guān)類目對(duì)應(yīng)。三種分類法中僅存在于某一分類法中的類目為《日本十進(jìn)分類法》中的156武士道和157報(bào)德教、石門心學(xué)兩個(gè)類目以及《美國(guó)國(guó)會(huì)圖書(shū)館分類法》中的BJ1298-1335 Evolutionary and genetic ethics(進(jìn)化倫理學(xué)、基因倫理學(xué))、BJ1392 Totalitarian ethics(極權(quán)主義倫理)和BJ1395 Feminist ethics(女性倫理學(xué))三個(gè)類目。該結(jié)果體現(xiàn)了三個(gè)國(guó)家的文化差異。武士道精神,報(bào)德教、石門心學(xué)都是源于日本的主流思想文化,因此,較其他國(guó)家而言,日本對(duì)該類文化的記載、研究更多,在分類法中則單獨(dú)列類;而在中國(guó)與美國(guó),該類文化并非其主流,相關(guān)文獻(xiàn)則分散在日本文化或日本歷史等類目中,從而造成類目的缺失。在《美國(guó)國(guó)會(huì)圖書(shū)館分類法》中單列出的倫理學(xué)類目Evolutionary and genetic ethics(進(jìn)化倫理學(xué)、基因倫理學(xué))、Totalitarian ethics(極權(quán)主義倫理)和Feminist ethics(女性倫理學(xué))也屬此種情況。
3多語(yǔ)言知識(shí)組織系統(tǒng)互操作的實(shí)現(xiàn)
3.1選用一種語(yǔ)言作為各語(yǔ)種轉(zhuǎn)換的標(biāo)準(zhǔn)
互操作過(guò)程中,當(dāng)語(yǔ)種只涉及兩三種的時(shí)候,可以做到相互翻譯。但當(dāng)涉及的語(yǔ)種數(shù)量較多時(shí),就需要以一種語(yǔ)言作為轉(zhuǎn)換標(biāo)準(zhǔn),翻譯時(shí)進(jìn)行一次語(yǔ)言轉(zhuǎn)換即可。選擇語(yǔ)言時(shí),既要考慮到各知識(shí)組織系統(tǒng)的語(yǔ)種情況,也要考慮該語(yǔ)言的應(yīng)用范圍。若在進(jìn)行互操作的多個(gè)知識(shí)組織系統(tǒng)中,以某種語(yǔ)言為主,則可選擇該語(yǔ)言作為標(biāo)準(zhǔn)。若各知識(shí)組織系統(tǒng)使用的語(yǔ)言種類零散,其語(yǔ)言選擇過(guò)程可經(jīng)過(guò)以下兩個(gè)步驟:首先,確定需要進(jìn)行互操作的知識(shí)組織系統(tǒng)使用了哪幾種語(yǔ)言;其次將知識(shí)組織系統(tǒng)所使用的語(yǔ)言和各種語(yǔ)言的使用情況相結(jié)合,對(duì)語(yǔ)言進(jìn)行選擇。喬治·韋伯曾對(duì)世界各種語(yǔ)言的使用情況進(jìn)行排名,按使用國(guó)家數(shù)目,其排名如下[8]:
由表2可以看出,英語(yǔ)是使用國(guó)家數(shù)目最多的語(yǔ)種,而在已有的19項(xiàng)多語(yǔ)言知識(shí)組織系統(tǒng)互操作研究計(jì)劃中均涉及英語(yǔ)。結(jié)合語(yǔ)言的實(shí)際使用情況和在知識(shí)組織系統(tǒng)中的運(yùn)用,在包含有英語(yǔ)的多語(yǔ)言知識(shí)組織系統(tǒng)互操作中,可以選擇英語(yǔ)作為各語(yǔ)種的轉(zhuǎn)換標(biāo)準(zhǔn)。若參與互操作的知識(shí)組織系統(tǒng)中不包含英語(yǔ),則可在知識(shí)組織系統(tǒng)使用的所有語(yǔ)種中選擇使用國(guó)家數(shù)目較多的語(yǔ)種作為轉(zhuǎn)換標(biāo)準(zhǔn)。
表2 語(yǔ)種排名
3.2以直接映射的方式實(shí)現(xiàn)互操作
直接映射的基本思想是:先確定不同分類法類目映射時(shí)存在的概念關(guān)系,再由專家判斷分類法類目之間的關(guān)系,并以二維表或其他格式保存[9]。在多語(yǔ)言知識(shí)組織系統(tǒng)互操作中,由于存在詞義障礙,需對(duì)不同語(yǔ)言的知識(shí)組織系統(tǒng)中的概念內(nèi)涵和外延有準(zhǔn)確的理解。在已有的對(duì)術(shù)語(yǔ)映射的研究中,基于詞形、結(jié)構(gòu)、語(yǔ)義三個(gè)層次實(shí)現(xiàn)詞表映射,代表了當(dāng)前術(shù)語(yǔ)映射實(shí)現(xiàn)的主流思想[10]。多語(yǔ)言環(huán)境下,詞形存在的差異較大,可以結(jié)合結(jié)構(gòu)和語(yǔ)義兩個(gè)層次理解概念的內(nèi)涵。在建立不同詞匯之間的對(duì)等關(guān)系過(guò)程中,可在結(jié)構(gòu)上先縮小詞義范圍,再借助各類專業(yè)詞典確定該詞在概念中的確切含義。縮小詞義范圍的步驟如下:首先確定該概念所屬的專業(yè)領(lǐng)域,確定后再根據(jù)其類目等級(jí)、屬種關(guān)系逐層縮小詞義范圍,直至能選擇出恰當(dāng)?shù)脑~義為止。在概念的外延上,不同的知識(shí)組織系統(tǒng)之間如有差異,可以對(duì)有差異的部分所屬的專業(yè)領(lǐng)域進(jìn)行比較,判斷能否在其它概念外延上重合。
3.3以中介詞典的方式實(shí)現(xiàn)互操作
在已有的多語(yǔ)言知識(shí)組織系統(tǒng)互操作項(xiàng)目中,映射作為實(shí)現(xiàn)互操作的一種常用方法,在其他互操作方法如中介詞典、元敘詞表、多語(yǔ)言敘詞表中也有體現(xiàn)。在進(jìn)行互操作的知識(shí)組織系統(tǒng)的數(shù)量較多的情況下,可以選擇具有代表性的知識(shí)組織系統(tǒng)作為中介詞典,并與映射方法相結(jié)合,以減少互操作過(guò)程中的復(fù)雜性。選擇中介詞典時(shí)應(yīng)考慮到被選知識(shí)組織系統(tǒng)的應(yīng)用范圍,其應(yīng)用范圍越廣,互操作成果的使用范圍也就越廣?!抖磐M(jìn)分類法》(DDC)是國(guó)際范圍內(nèi)使用最為廣泛的通用分類法。在國(guó)外許多不同分類語(yǔ)言互操作項(xiàng)目中,均選擇DDC作為中介詞典進(jìn)行映射,其互操作項(xiàng)目一般分為通用分類法與國(guó)家分類法、學(xué)科分類法分別映射的互操作[11]。Renardus項(xiàng)目就是以DDC作為不同分類法的交換語(yǔ)言,將其他分類法作單向映射,由此實(shí)現(xiàn)互操作。在國(guó)內(nèi),《中國(guó)圖書(shū)館分類法》是使用最廣的分類法,因此,也有研究提出以《中圖法》電子版為核心,編制一個(gè)國(guó)內(nèi)外分類法對(duì)應(yīng)兼容系統(tǒng)[12]。
選定作為中介詞典的知識(shí)組織系統(tǒng)后,可將其作為一個(gè)詞匯控制的標(biāo)準(zhǔn),與其它參與互操作的知識(shí)組織系統(tǒng)對(duì)照,若其它知識(shí)組織系統(tǒng)中存在的概念在作為中介詞典的知識(shí)組織系統(tǒng)中有缺失,則可根據(jù)與該概念相關(guān)文獻(xiàn)的多少以及應(yīng)用范圍的大小決定是將該概念增補(bǔ)進(jìn)選定的知識(shí)組織系統(tǒng)中還是將該概念映射到與其相關(guān)的外延更大的類中。
4結(jié)語(yǔ)
筆者就如何實(shí)現(xiàn)多語(yǔ)言知識(shí)組織系統(tǒng)互操作這一問(wèn)題分析了互操作過(guò)程中在語(yǔ)言方面存在的三個(gè)障礙:語(yǔ)種障礙、語(yǔ)義障礙、概念缺失。結(jié)合這三種語(yǔ)言障礙提出了多語(yǔ)言知識(shí)組織系統(tǒng)互操作的建議,即在多語(yǔ)言知識(shí)組織系統(tǒng)的互操作中選擇一種語(yǔ)言作為語(yǔ)種轉(zhuǎn)換標(biāo)準(zhǔn),再結(jié)合映射和中介詞典這兩種互操作方法使之得以實(shí)現(xiàn)。但研究中還存有不足之處:研究中對(duì)異構(gòu)的知識(shí)組織系統(tǒng)間的互操作缺少分析,如分類法與敘詞表等不同結(jié)構(gòu)的知識(shí)組織系統(tǒng)在多語(yǔ)言環(huán)境下進(jìn)行互操作時(shí),除了語(yǔ)言因素外,對(duì)是否需要優(yōu)先考慮以某種結(jié)構(gòu)的知識(shí)組織系統(tǒng)作為中介詞典等問(wèn)題還需進(jìn)一步探討。
參考文獻(xiàn)
[1]李育嫦.網(wǎng)絡(luò)數(shù)字環(huán)境下知識(shí)組織體系的發(fā)展現(xiàn)狀及未來(lái)趨勢(shì)[J].情報(bào)資料工作,2009(2):45-48.
[2]張劍,宋文.數(shù)字圖書(shū)館的知識(shí)組織系統(tǒng)[J].圖書(shū)館理論與實(shí)踐,2005(5):11-12.
[3]王景俠.知識(shí)組織的工具及其語(yǔ)義互操作方法體系[J].數(shù)字圖書(shū)館論壇,2013(5):41-45.
[4][11]胡濱,吳雯娜.國(guó)內(nèi)外知識(shí)組織系統(tǒng)互操作模式及方法研究[J].情報(bào)科學(xué),2012(9):1291-1297.
[5]中圖分類號(hào)查詢[EB/OL].http://ztflh.jourserv.com/html/645.html.[2015-03-20].
[6]日本十進(jìn)分類法[EB/OL].http://ja.wikipedia.org/wiki/日本十進(jìn)分類法.[2015-03-20].
[7]LIBRARY OF CONGRESS CLASSIFICATION OUTLINE[EB/OL]. http://www.loc.gov/aba/cataloging/classification/lcco/lcco_b.pdf.[2015-03-20].
[8]George Weber. Top Languages: The World’s 10 Most Influential Languages[J]. Language Today,1997(2).
[9]戴劍波,侯漢清.圖書(shū)分類法映射系統(tǒng)設(shè)計(jì)原理——以《中國(guó)圖書(shū)館分類法》和《杜威十進(jìn)分類法》為例[J].情報(bào)學(xué)報(bào),2005(3):229-303.
[10]薛春香,喬曉東,朱禮軍.KOS互操作中的術(shù)語(yǔ)映射研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(2):31-36.
[12]賀定安.建立以《中圖法》電子版為核心的國(guó)內(nèi)外分類法兼容系統(tǒng)[J].圖書(shū)館,2003(6):31-33.
(劉平編發(fā))
Research on the Methods to Realize the Interoperability of Multilingual Knowledge Organization Systems
Zhong Qiuyuan Si Li
(Wuhan University, Wuhan, Hubei 430072, China)
AbstractUnder the background of the existing research on the interoperability of knowledge organization systems, the thesis analyzed three kinds of obstacles from the perspective of multilingual:the obstacle from the different kinds of language, semantic and the omission of concept, and then made some suggestions on the realization of the interoperability: first, choosing a kind of language; second, giving an accurate translation; third, using mapping and intermediary dictionary methods to realize the interoperability. 12 refs.
KeywordsMultilingual. Knowledge organization system. Interoperability.
[中圖法分類號(hào)]G250.7
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1003-7845(2016)03-0043-04
[作者簡(jiǎn)介]鐘秋原,武漢大學(xué)信息管理學(xué)院碩士研究生;司莉, 教授,現(xiàn)在武漢大學(xué)信息管理學(xué)院工作。
[收稿日期]2015-05-22