張彥文
(桂林電子科技大學(xué)圖書館,廣西 桂林 541004)
多語(yǔ)言數(shù)字圖書館是具有一種語(yǔ)言以上館藏資源,或者能夠提供單一語(yǔ)言館藏的多語(yǔ)言查詢?cè)L問的數(shù)字圖書館。盡管多語(yǔ)言數(shù)字圖書館的大量工作還側(cè)重于可行性研究、原型系統(tǒng)開發(fā)、設(shè)計(jì)方案和建設(shè)規(guī)劃,但也已有投入運(yùn)行的多語(yǔ)言數(shù)字圖書館系統(tǒng)[1]。含有50 種語(yǔ)言的兒童文學(xué)館藏的國(guó)際兒童數(shù)字圖書館(International Children’s Digital Library,ICDL)于2006年4月投入使用。聯(lián)合國(guó)教科文組織(United Nations Educational,Scientific and Cultural Organization,UNESCO)和美國(guó)國(guó)會(huì)圖書館(United States Library of Congress)共同運(yùn)營(yíng)的世界數(shù)字圖書館(World Digital Library,WDL),具有西班牙語(yǔ)、英語(yǔ)、中文、葡萄牙語(yǔ)、俄語(yǔ)、法語(yǔ)和阿拉伯語(yǔ)等7 種語(yǔ)言查詢功能,于2009年4月21日開始創(chuàng)建,中國(guó)國(guó)家圖書館是WDL 的合作伙伴。Europeana 是提供48個(gè)歐盟國(guó)家及許多研究機(jī)構(gòu)圖書館資源網(wǎng)絡(luò)訪問、語(yǔ)言種類達(dá)35 種之多的多語(yǔ)言數(shù)字圖書館,于2008年11月開始創(chuàng)建。由海地、阿魯巴、巴哈馬群島、伯利茲、牙買加、委內(nèi)瑞拉、波多黎各、美國(guó)佛羅里達(dá)大學(xué)等36 家單位聯(lián)合創(chuàng)建的加勒比海數(shù)字圖書館(The digital library of the Caribbean,dLOC),館藏有中文、英語(yǔ)、德語(yǔ)、法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、日語(yǔ)、丹麥語(yǔ)、約魯巴語(yǔ)、希伯來(lái)語(yǔ)、阿姆哈拉語(yǔ)、拉丁語(yǔ)等語(yǔ)言的加勒比海文化、歷史和科研資料。在線經(jīng)濟(jì)學(xué)家(Economists Online)是由20 余家歐盟成員國(guó)大學(xué)和研究機(jī)構(gòu)聯(lián)合創(chuàng)建的專業(yè)性質(zhì)的多語(yǔ)言數(shù)字圖書館。它提供了英語(yǔ)、德語(yǔ)、法語(yǔ)和西班牙語(yǔ)共四種語(yǔ)言的查詢,館藏為具有這四種語(yǔ)言表述的學(xué)術(shù)論文索引、文獻(xiàn)全文和經(jīng)濟(jì)數(shù)據(jù)庫(kù)等。虛擬藝術(shù)史典藏(The Virtual Catalogue for Art History)artlibraries.net,提供多個(gè)歐洲藝術(shù)學(xué)院和研究院的書目記錄(或藝術(shù)史數(shù)據(jù)庫(kù))的集成檢索。為了達(dá)到歐洲范圍全面合作并服務(wù)于國(guó)際藝術(shù)史團(tuán)體,合作伙伴將擴(kuò)展至英國(guó)和斯堪的納維亞半島、其他南歐和東歐的歐盟國(guó)家的科研機(jī)構(gòu)和學(xué)院。
多語(yǔ)言數(shù)字圖書館是數(shù)字圖書館的一種新的拓展形式。元數(shù)據(jù)記錄翻譯、多語(yǔ)言主題詞表、實(shí)驗(yàn)系統(tǒng)、原型系統(tǒng)開發(fā)、用戶中心研究等都是多語(yǔ)言數(shù)字圖書館的研究熱點(diǎn)。文章對(duì)此進(jìn)行討論。
多語(yǔ)言數(shù)字圖書館的重要特征在于具備兩種或兩種以上不同語(yǔ)言的信息查詢。為了達(dá)到此目的,需要跨越語(yǔ)言障礙實(shí)現(xiàn)不同語(yǔ)言表述下信息需求(查詢提問式)和內(nèi)容(文獻(xiàn)資料)的匹配。從跨語(yǔ)言信息檢索角度講,跨越語(yǔ)言障礙有多種方法??梢詫⑻釂柺椒g成文獻(xiàn)資料的語(yǔ)言,可以將文獻(xiàn)資料翻譯成提問式的語(yǔ)言,也可以將提問式和文獻(xiàn)資源翻譯成中介語(yǔ)言表述。
元數(shù)據(jù)記錄翻譯方法是多語(yǔ)言數(shù)字圖書館研究中提出的一種新的翻譯方法。Lee 等在開發(fā)中文、日語(yǔ)、韓語(yǔ)、英語(yǔ)信息資源收集的主題詞網(wǎng)關(guān)服務(wù)IPL-Asia(Internet Public Library Asia)中,將多語(yǔ)言表述為元數(shù)據(jù)規(guī)范Dublin Core 和IEEE LOM 記錄,元數(shù)據(jù)記錄用XML 編碼、存儲(chǔ)和顯示,實(shí)現(xiàn)了多語(yǔ)言的元數(shù)據(jù)記錄翻譯。該方法無(wú)需翻譯整個(gè)文獻(xiàn)資源,元數(shù)據(jù)記錄翻譯會(huì)提高系統(tǒng)的效率。這種方法尤其適用于僅具有條目或元數(shù)據(jù)描述的圖片和其他非文本館藏。同源詞(兩種語(yǔ)言共享的詞匯,如:專有名詞)匹配是解決多語(yǔ)言障礙另外一種方法,這種方法適合于具有相同語(yǔ)言字母系統(tǒng)的情形。翻譯知識(shí)對(duì)于各種翻譯方法的實(shí)現(xiàn)有非常好的助推作用,這些知識(shí)可以來(lái)自于多語(yǔ)言詞典、本體和機(jī)器翻譯系統(tǒng),也可以對(duì)文本語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)分析來(lái)抽取。Larson 等對(duì)加州大學(xué)圖書館的上億條編目進(jìn)行術(shù)語(yǔ)翻譯創(chuàng)建了一個(gè)可以定制的多語(yǔ)言詞典。對(duì)于多語(yǔ)言內(nèi)容和域符(標(biāo)題、主題詞等)的信息資源,Clinchant 和Renders 對(duì)傳統(tǒng)語(yǔ)言模型方法進(jìn)行擴(kuò)展,將目標(biāo)館藏文獻(xiàn)資源定義為元詞匯的一個(gè)概率分布(元詞匯是英語(yǔ)、法語(yǔ)和德語(yǔ)三種語(yǔ)言詞匯的并集),這樣每一個(gè)館藏文獻(xiàn)就對(duì)應(yīng)唯一的索引。對(duì)于某源語(yǔ)言的查詢提問式,通過元詞典(含源語(yǔ)言自身),即每一個(gè)詞匯在源語(yǔ)言中的概率轉(zhuǎn)移矩陣,構(gòu)造該查詢的多語(yǔ)言模型,進(jìn)而實(shí)現(xiàn)目標(biāo)文獻(xiàn)的多語(yǔ)言模型的比較。
數(shù)字圖書館系統(tǒng)的信息資源組織和管理有賴于自身的知識(shí)組織系統(tǒng),它包括分類表、主題標(biāo)目、標(biāo)準(zhǔn)檔、語(yǔ)義網(wǎng)絡(luò)、本體等。關(guān)鍵詞和主題詞是信息資源的重要索引詞。關(guān)鍵詞出自于書目記錄或信息資源全文,主題詞則是編目人員或主題詞專家對(duì)館藏的加注,后者提供了高質(zhì)量的信息資源訪問接入點(diǎn)。多語(yǔ)言主題詞表是多語(yǔ)言數(shù)字圖書館中創(chuàng)建和組織這些知識(shí)所必需的組織系統(tǒng)。Schiel 等定義了一個(gè)矩形多語(yǔ)言主題詞表,給出了其構(gòu)造的三個(gè)步驟:利用單語(yǔ)言詞典,抽取一個(gè)或多個(gè)文獻(xiàn)的術(shù)語(yǔ),并確定抽象概念(半自動(dòng)索引);生成一個(gè)或多個(gè)矩形;對(duì)已有多語(yǔ)言主題詞表最優(yōu)插入新的矩形。這一多語(yǔ)言主題詞表的半自動(dòng)創(chuàng)建方法,允許用戶交互式剔除歧義。Yang 等給出了自動(dòng)構(gòu)造跨語(yǔ)言主題詞表的一種關(guān)聯(lián)約束網(wǎng)絡(luò)方法,所得到的跨語(yǔ)言主題詞表可以將查詢從一種語(yǔ)言擴(kuò)展到其他語(yǔ)言,從而實(shí)施用戶跨語(yǔ)言搜索。此外,該跨語(yǔ)言主題詞表可用于建立不同語(yǔ)言文本分類項(xiàng)的關(guān)聯(lián)以支持跨語(yǔ)言文本分類。多語(yǔ)言主題詞表的其他相關(guān)研究工作有:Calvanese 等闡述了多語(yǔ)言主題詞表中的概念在查詢處理中的邏輯關(guān)系。Nikolai 等給出了多語(yǔ)言異構(gòu)主題詞表的一種集成框架。這些主題詞表可用于檢索中的索引和瀏覽。在醫(yī)學(xué)領(lǐng)域,Lu 等開發(fā)了醫(yī)學(xué)主題標(biāo)目MeSH 的中文翻譯,以對(duì)中文用戶提供醫(yī)學(xué)網(wǎng)站的訪問。Smits 等對(duì)能否得到復(fù)合各種結(jié)構(gòu)的單一公共本體進(jìn)行了探討,結(jié)果發(fā)現(xiàn)創(chuàng)建這樣一個(gè)結(jié)構(gòu)是不現(xiàn)實(shí)的。Sheridan 等從法律領(lǐng)域的平行語(yǔ)料庫(kù)自動(dòng)創(chuàng)建了一個(gè)相似性主題詞表。盡管該結(jié)構(gòu)不是一個(gè)嚴(yán)格意義上的主題詞表,高度相關(guān)的多語(yǔ)言術(shù)語(yǔ)組能夠較好地?cái)U(kuò)展多語(yǔ)言術(shù)語(yǔ)的單語(yǔ)言查詢。Monroy 等通過一個(gè)多語(yǔ)言詞匯表和一個(gè)本體,實(shí)現(xiàn)了多語(yǔ)言信息資源的混合翻譯。
與多語(yǔ)言數(shù)字圖書館相關(guān)的多語(yǔ)言信息訪問研究的共性問題是:應(yīng)用案例評(píng)價(jià);更多語(yǔ)言和媒體類型的擴(kuò)展研究;實(shí)際開發(fā)中的經(jīng)驗(yàn)提升。系統(tǒng)研究人員通過構(gòu)建實(shí)驗(yàn)系統(tǒng)來(lái)研究和驗(yàn)證所建立的方法。始于1997年的文本檢索會(huì)議TREC(Text REtrieval Conference)就開始了跨語(yǔ)言評(píng)價(jià),專門用來(lái)研究跨語(yǔ)言信息檢索評(píng)價(jià)的會(huì)議是始于1999年的亞洲語(yǔ)言信息檢索評(píng)測(cè)會(huì)議NTCIR(NACSIS Test Collections for IR),以及2000年開始的跨語(yǔ)言評(píng)價(jià)論壇CLEF(Cross-Language Evaluation Forum)。CLEF使用歐盟國(guó)家語(yǔ)言,所開展的工作愈來(lái)愈貼近現(xiàn)實(shí)和實(shí)際。長(zhǎng)期的評(píng)價(jià)研究獲得了大量的可供未來(lái)研究參考的科學(xué)數(shù)據(jù)。Agosti 等建議創(chuàng)建一個(gè)以所有這些數(shù)據(jù)為館藏的數(shù)字圖書館。系統(tǒng)評(píng)價(jià)對(duì)研究人員來(lái)說(shuō)是個(gè)挑戰(zhàn),激勵(lì)人們開展更加專門和深入的研究。多語(yǔ)言數(shù)字圖書館開發(fā)團(tuán)隊(duì)更樂意于語(yǔ)用評(píng)價(jià),因?yàn)閹缀醪恍枰薷南到y(tǒng),研究結(jié)果就可以直接進(jìn)入應(yīng)用。
查詢提問式翻譯是跨越語(yǔ)言障礙的常用方法之一,也非常適合于多語(yǔ)言數(shù)字圖書館。Wang 等給出了一個(gè)查詢提問式翻譯系統(tǒng),該系統(tǒng)可連接到任何單語(yǔ)言(中文或英語(yǔ))內(nèi)容數(shù)字圖書館。該系統(tǒng)通過挖掘網(wǎng)頁(yè)來(lái)翻譯詞典未出現(xiàn)的術(shù)語(yǔ)(新術(shù)語(yǔ)、專用名詞)。盡管研究人員認(rèn)為該系統(tǒng)具有非常好的應(yīng)用前景,但是目前還沒有出現(xiàn)在任何實(shí)際應(yīng)用系統(tǒng)。Bosca 和Dini 開展了另一項(xiàng)查詢提問式翻譯研究,所開發(fā)的系統(tǒng)采用多種方法來(lái)擴(kuò)展查詢提問式的術(shù)語(yǔ),CLEF 測(cè)評(píng)結(jié)果表明:該系統(tǒng)表現(xiàn)出了良好性能。Clinchant 和Renders 在CLE 測(cè)評(píng)F 實(shí)驗(yàn)中力圖應(yīng)用多語(yǔ)言查詢提問式翻譯來(lái)獲得多語(yǔ)言文檔(含有一種以上語(yǔ)言的文檔),但是并沒有看到改善檢索結(jié)果的跡象。相關(guān)方面的研究工作還有:Braschler 和Ferro 開展了兩種翻譯方法(查詢或記錄)的選擇及其復(fù)合的可行性研究。Kanazawa 等進(jìn)行了查詢翻譯技術(shù)的實(shí)驗(yàn)研究。Yang 等對(duì)主題詞表自動(dòng)構(gòu)建的兩種算法進(jìn)行了研究,并同早期技術(shù)進(jìn)行了比較。Azzopardi 等給出了一個(gè)生成模擬已知項(xiàng)查詢的模型,并開展了實(shí)驗(yàn)研究,其實(shí)驗(yàn)系統(tǒng)優(yōu)于實(shí)際人工查詢,可用于系統(tǒng)測(cè)試和用戶查詢行為模擬。
多語(yǔ)言數(shù)字圖書館研究的另一條途徑是對(duì)欲建立的最終系統(tǒng)開展原型研究。Smits 和Friis-Christensen 開展了不同本體集的原型實(shí)驗(yàn)研究,驗(yàn)證了方法的不可行。Larson 等利用原型系統(tǒng),基于大型圖書館藏目錄的數(shù)據(jù)挖掘,創(chuàng)建了一個(gè)多語(yǔ)言概念影射資源。Bamman 對(duì)將結(jié)構(gòu)信息(如:XML 標(biāo)簽、章節(jié)信息)從源文檔轉(zhuǎn)換為目標(biāo)(翻譯)文檔的一種方法進(jìn)行了測(cè)評(píng),該方法可以達(dá)到更高準(zhǔn)確度。Ferber測(cè)評(píng)了一個(gè)基于文檔標(biāo)題自動(dòng)加注主題詞的系統(tǒng),該系統(tǒng)采用了一組含有手工加注主體標(biāo)目的文檔用以確定新文檔的敘詞,結(jié)果表明了方法的可行性。
大量的多語(yǔ)言數(shù)字圖書館研究似乎都是從系統(tǒng)角度開展的。盡管如此,也有一些以用戶為中心的研究工作。Bilal 和Bachir 開展了國(guó)際兒童數(shù)字圖書館兒童用戶的兩方面相關(guān)研究。第一項(xiàng)研究是測(cè)評(píng)界面設(shè)計(jì);第二項(xiàng)研究是觀測(cè)兒童主體搜索,通過小組會(huì)談?wù){(diào)查研究主體信息搜索行為。Stafford 等對(duì)雙語(yǔ)言主題詞表界面Searchling 進(jìn)行了定性研究。通過“15個(gè)用戶執(zhí)行3 項(xiàng)結(jié)構(gòu)化任務(wù)”實(shí)驗(yàn)設(shè)計(jì),測(cè)評(píng)了系統(tǒng)對(duì)查詢表述的輔助作用。Cousins 研究了訪問門戶對(duì)用戶的影響。Clough 和Sanderson 對(duì)其跨語(yǔ)言圖像檢索系統(tǒng)通過兩項(xiàng)搜索任務(wù)開展了用戶實(shí)驗(yàn)研究。
多語(yǔ)言數(shù)字圖書館的大量研究出自歐盟,原因在于國(guó)家間的協(xié)作是歐盟的基礎(chǔ),跨語(yǔ)言信息交流是他們?nèi)粘I钪斜夭豢缮俚牟糠?。為此,歐盟實(shí)施了一系列的相關(guān)研究計(jì)劃。歐盟CACAO(cross-language access to catalogues and online libraries)計(jì)劃實(shí)現(xiàn)了用戶在線編目的跨語(yǔ)言信息檢索,用戶可以通過一種歐盟國(guó)家語(yǔ)言提問查詢,檢索出其他歐盟國(guó)家語(yǔ)言的文本資源。這一多語(yǔ)言體系結(jié)構(gòu)集成到了后期的歐盟數(shù)字圖書館項(xiàng)目Europeana。DELOS卓越網(wǎng)絡(luò)(DELOS Network of Excellence)計(jì)劃著力于數(shù)字圖書館的全面研究,開發(fā)了數(shù)字圖書館相關(guān)的幾乎所有技術(shù)。DelosDLM 就是其中的技術(shù)之一,它是一個(gè)支持多語(yǔ)言的模塊化數(shù)字圖書館管理系統(tǒng)。歐盟LAURIN 計(jì)劃創(chuàng)建了數(shù)字化多語(yǔ)言報(bào)紙剪貼的數(shù)字圖書館。報(bào)紙文章通過多語(yǔ)言詞典來(lái)搜索查詢。MultiMatch 計(jì)劃開發(fā)了一個(gè)多語(yǔ)言多媒體文化遺產(chǎn)的搜索引擎。Rastko 計(jì)劃實(shí)現(xiàn)了塞爾維亞文化館藏的訪問。MTIR 是一個(gè)中英文信息檢索系統(tǒng),它使用雙語(yǔ)言詞典和翻譯系統(tǒng)來(lái)實(shí)現(xiàn)查詢提問式翻譯。多翻譯選項(xiàng)通過術(shù)語(yǔ)協(xié)同出現(xiàn)信息來(lái)消除歧義。檢索出的文檔利用機(jī)器翻譯進(jìn)行翻譯。由于系統(tǒng)設(shè)計(jì)目的在于Web 用戶,機(jī)器翻譯基于網(wǎng)頁(yè)標(biāo)簽來(lái)實(shí)施。該系統(tǒng)采用了HTTP 協(xié)議,便于集成到Web 應(yīng)用,能夠?qū)崿F(xiàn)雙語(yǔ)言在線搜索。
SPIRIT(Syntactic and Probabilistic Indexing and Retrieval of Information in Texts)是上世紀(jì)80年代開發(fā)出的一個(gè)單語(yǔ)言、英語(yǔ)和法語(yǔ)雙語(yǔ)言系統(tǒng),目前擴(kuò)展為跨語(yǔ)言系統(tǒng)。該系統(tǒng)中,采用重描述規(guī)則將源語(yǔ)言查詢提問式表述為所有可能的目標(biāo)語(yǔ)言查詢提問式,通過文獻(xiàn)匯編實(shí)現(xiàn)所翻譯查詢的消歧。Eurovision 是一個(gè)跨語(yǔ)言圖片檢索系統(tǒng),它利用機(jī)器翻譯將查詢翻譯成英語(yǔ),并用來(lái)查詢圖片的英語(yǔ)圖注說(shuō)明。SIS-TMS 是一個(gè)詞典管理系統(tǒng),允許用戶存儲(chǔ)和訪問多個(gè)多語(yǔ)言詞典。跨語(yǔ)言信息檢索有時(shí)通過多語(yǔ)言詞典實(shí)現(xiàn)源語(yǔ)言到目標(biāo)語(yǔ)言轉(zhuǎn)換,SIS-TMS對(duì)此就非常有用。SyDoM 是一個(gè)多語(yǔ)言文檔系統(tǒng),它使用多語(yǔ)言本體來(lái)確定文本索引中術(shù)語(yǔ)的選取。
多語(yǔ)言數(shù)字圖書館是數(shù)字圖書館的未來(lái)發(fā)展方向。作為信息資源與信息技術(shù)的融合,多語(yǔ)言數(shù)字圖書館研究涵蓋了多語(yǔ)言信息資源管理、多語(yǔ)言數(shù)字圖書館門戶、多語(yǔ)言信息檢索、多語(yǔ)言元數(shù)據(jù)描述、多語(yǔ)言問答系統(tǒng)、多語(yǔ)言文本挖掘、多語(yǔ)言信息翻譯、多語(yǔ)言主題詞表、多語(yǔ)言知識(shí)組織等諸多領(lǐng)域。這些研究工作的開展需要計(jì)算機(jī)、圖書館學(xué)、藝術(shù)學(xué)、語(yǔ)言學(xué)、自然語(yǔ)言處理、智能科學(xué)以及信息處理等多學(xué)科的支持。
多語(yǔ)言數(shù)字圖書館的現(xiàn)有數(shù)目還不多,但是其數(shù)量正在不斷增長(zhǎng)。創(chuàng)建一個(gè)多語(yǔ)言數(shù)字圖書館往往需要不同地區(qū)、不同國(guó)家、不同組織和不同領(lǐng)域?qū)<业膮f(xié)同合作。建立和健全多語(yǔ)言數(shù)字圖書館系統(tǒng)創(chuàng)建中的合作機(jī)制及規(guī)范,具有非常重要的意義。
[1]Anne Diekema. Multilinguality in the Digital Library:A Review[J]. Electronic Library,2012(2):165-181.
[2]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005(41):433-455.
[3]吳丹,李瑞芬.跨語(yǔ)言信息檢索技術(shù)應(yīng)用與研究進(jìn)展[J].情報(bào)科學(xué),2006(9):1435-1440.
[4]Van Oudenaren J. Connecting the World,Responding to User Needs[J]. Information Outlook,2010(14):10-12.
[5]Lee W,Sugimoto S,Nagamori M,Sakaguchi T,Tabata K. A subject gateway in multiple languages:a prototype development and lessons learned[C]. Proceedings of the 2003 international conference on Dublin Core and metadata applications:supporting communities of discourse and practice——metadata research & applications,2003:1-10.
[6]Larson R R,Gey F,Chen A. Harvesting translingual vocabulary mappings for multilingual digital libraries[C]. Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries.2002.
[7]Clinchant S,Renders J-M.(2009)Multi-language models and meta-dictionary adaptation for accessing multilingual digital libraries[C]. Proceedings of the 9th Crosslanguage evaluation forum conference on Evaluating systems for multilingual and multimodal information access.2009.
[8]Schiel U,Sousa I M S F D. Interactive indexing of documents with a multilingual thesaurus[C].Effective databases for text & document management.IGI Publishing,2003.