鮑麗倩 張自然
[摘要]首先對跨語言信息檢索和相關(guān)技術(shù)進(jìn)行了介紹,了解當(dāng)前跨語言信息檢索技術(shù)的不足,然后闡述了傳統(tǒng)跨語言信息檢索技術(shù)在數(shù)字圖書館應(yīng)用中的局限性,并由此引出了基于本體的跨語言技術(shù)。最后提出了一種基于本體的數(shù)字圖書館跨語言信息檢索系統(tǒng),并詳細(xì)闡述了系統(tǒng)的流程,著重講述了數(shù)字圖書館跨語言領(lǐng)域本體的構(gòu)建。由于本體具有良好的概念層次和對邏輯推理的支持,對源語言和目標(biāo)語言進(jìn)行語義擴(kuò)展,提高了數(shù)字圖書館跨語言系統(tǒng)的檢索效率。
〔關(guān)鍵詞〕跨語言檢索;數(shù)字圖書館;本體
DOI:10.3969/j.issn.1008-0821.2011.07.041
〔中圖分類號〕G254.92 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2011)07-0169-04
Application of Cross-language Retrieval Based
on Ontology in the Digital LibraryBao Liqian Zhang Ziran
(Department of Information Management,Huazhong Normal University,Wuhan 430081,China)
〔Abstract〕The thesis firstly analysed the sketch and technology of cross-language information retrieval,and acquaintances the demerits of current cross-language information retrieval technology,then demonstrated limitation of traditional cross-language information retrieval technology in digital library application.Therefore raised a new cross-language technology basing on ontology.Finally put forward a cross-language information retrieval system of digital library which based on ontology,and demonstrated the procedure of the system,then emphasized on telling the construction of ontology field of digital library.Due to its own sound concept levels and logical reasoning support,it extended the semantic source language and target language,on the other hand improved the speed of Cross-language retrieval in the digital library.
〔Keywords〕cross-language information retrieval;digital library;ontology
數(shù)字圖書館為用戶提供了更方便快捷的信息資源共享,但同時語言障礙局限了檢索范圍,所以跨語言檢索技術(shù)已經(jīng)成為數(shù)字圖書館走向知識化和智能化必經(jīng)歷的關(guān)卡,如何提高跨語言檢索的查全率和查準(zhǔn)率成為當(dāng)務(wù)之急。
本體是計算機(jī)科學(xué)中的一種重要方法,同時也是信息檢索的重要應(yīng)用領(lǐng)域。本體能使系統(tǒng)和用戶達(dá)成語義層次的共享和共同理解,不僅能靈活更換語種進(jìn)行檢索,而且能夠克服信息檢索不能對概念關(guān)系處理的局限,從而返回用戶最為滿意的結(jié)果。已有越來越多的研究學(xué)者投入到基于本體的跨語言信息檢索系統(tǒng)的開發(fā)和研制中,其中,Wang Jianqiang和D.W.Oard綜合使用雙向翻譯和同義詞進(jìn)行跨語言檢索的翻譯[1];吳丹、王惠臨使用中間語言,通過詞典翻譯對照與不同語種的詞匯建立鏈接關(guān)系[2];吳芳建立了一個lecene全文檢索工具和OWL本體的漢——英跨語言信息檢索模型[3];郝嘉樹、王惠臨、劉耀關(guān)注基于本體的跨語言信息檢索架構(gòu)模塊的技術(shù)流程[4]。本文則致力于研究基于本體的跨語言檢索在數(shù)字圖書館中的應(yīng)用,主要設(shè)計了兩個本體庫,有效提高了數(shù)字圖書館跨語言信息檢索的性能。
1 跨語言信息檢索概述
1.1 跨語言信息檢索
跨語言信息檢索(CLIR,Cross-language information retrieval),是指用戶以自己所掌握的某一門語言構(gòu)造檢索提問式,計算機(jī)根據(jù)用戶的檢索要求在其他不同語種的信息中進(jìn)行自動搜索,得到的檢索結(jié)果包括用戶所用語言在內(nèi)的各種語種的信息??缯Z言檢索結(jié)合了傳統(tǒng)文本信息檢索技術(shù)和機(jī)器翻譯技術(shù),不僅可以使檢索更加容易,還可以提高查全率[5]。用戶查詢提問式所使用的語言稱之為源語言(Source language),而系統(tǒng)提供的信息所包涵的語言,稱之為目標(biāo)語言(Target language)??缯Z言檢索的實(shí)質(zhì)就是實(shí)現(xiàn)這兩種語言的翻譯。
1.2 跨語言檢索基本技術(shù)方式
當(dāng)前的跨語言檢索技術(shù)方法大體可以分成以下4種方式:將源語言表示的查詢翻譯到目標(biāo)語言,即基于提問式翻譯、基于文獻(xiàn)翻譯、基于中間語言翻譯、非翻譯?;谔釂柺椒g是將用戶查詢請求翻譯成計算機(jī)提供的各種語言,然后對不同語言信息進(jìn)行查詢;基于文獻(xiàn)翻譯是將目標(biāo)語言描述的文獻(xiàn)翻譯成為與源語言相一致的形式,再通過提問式與信息庫的匹配,完成檢索過程;基于中間語言翻譯是把源語言的查詢和目標(biāo)語言的文獻(xiàn)都轉(zhuǎn)換為中間語言,然后實(shí)現(xiàn)最終的檢索匹配[6],這種方式可以解決兩種語言直接翻譯的資源不存在問題;不翻譯是將原始文檔與對應(yīng)的翻譯文檔建立聯(lián)系,構(gòu)建訓(xùn)練文檔集,然后利用SVD技術(shù)(singular Value Decomposition)對其進(jìn)行分析,獲得雙語文檔集的特征信息和檢索詞的映射關(guān)系,最后,以平行文檔中的語詞檢索出另一語種的相關(guān)信息[7]。
2011年7月第31卷第7期基于本體的跨語言信息檢索在數(shù)字圖書館中的應(yīng)用July,2011Vol.2 跨語言檢索技術(shù)在數(shù)字圖書館中的應(yīng)用及其瓶頸
2.1 跨語言檢索在數(shù)字圖書館中的應(yīng)用
隨著Internet在世界范圍的飛速發(fā)展,數(shù)字圖書館信息資源的種類和數(shù)量也越來越多,但是網(wǎng)絡(luò)語言的多樣化和用戶所掌握語言的差異性和有限性導(dǎo)致了用戶自由獲取信息的困難。用戶經(jīng)常希望檢索到多種語言的文獻(xiàn)及參考文獻(xiàn)以提高查全率,其中的語言障礙是限制數(shù)字圖書館發(fā)展的絆腳石,所以跨語言技術(shù)的發(fā)展為解決數(shù)字圖書館的多語種問題提供了契機(jī),數(shù)字圖書館必然要使用跨語言信息檢索技術(shù)來擴(kuò)大查詢范圍,提高檢索深度,提供更全面的檢索服務(wù)。
2.2 將傳統(tǒng)跨語言檢索技術(shù)與數(shù)字圖書館結(jié)合遇到的困難傳統(tǒng)跨語言檢索技術(shù)在數(shù)字圖書館中的應(yīng)用只是基于語法層面上的簡單匹配,一味采取詞典或其他方式進(jìn)行字符級處理,缺乏對知識的表示、處理和理解能力,缺乏必要的智能性,在運(yùn)用的過程中不可避免的會遇到以下困難:
(1)大多數(shù)情況下用戶很難通過簡單的幾個關(guān)鍵詞來忠實(shí)地表達(dá)其檢索文獻(xiàn),希望能夠通過語義檢索,而傳統(tǒng)信息檢索技術(shù)不支持這種語義表達(dá)。
(2)數(shù)字圖書館中的信息資料并不是孤立的,它總是與其他概念之間存在各種各樣的聯(lián)系,用戶希望能夠搜索到與查詢領(lǐng)域相關(guān)的文獻(xiàn),以上幾種的跨語言信息檢索尋找的僅僅是字面本身的信息,單純的字符匹配無法提供基于概念的智能檢索,計算機(jī)無法識別其語義。
(3)用題名、文摘或全文中出現(xiàn)的關(guān)鍵詞來標(biāo)識文獻(xiàn)的內(nèi)容,常常不能充分揭示源信息的實(shí)質(zhì)內(nèi)涵,降低了查全率。
(4)一味的追求信息量的提高,返回大量無關(guān)信息,缺乏智能化的整理。導(dǎo)致用戶查詢得到的結(jié)果過于龐大,根本沒有時間和精力去處理檢索得到的結(jié)果,查準(zhǔn)率大大降低。
3 基于本體的數(shù)字圖書館跨語言信息檢索系統(tǒng)的構(gòu)建造成以上困難的實(shí)質(zhì)在于傳統(tǒng)的跨語言檢索技術(shù)缺乏知識處理和理解能力,本體的引入應(yīng)該說是一個非常有效的方法。通過概念間的關(guān)系來表達(dá)概念的語義,可以讓機(jī)器從概念的層次來認(rèn)識和處理用戶的查詢,從而提高整個檢索系統(tǒng)的查全率和查準(zhǔn)率,消除自然語言理解中的歧義,明確概念涵義。
數(shù)字圖書館跨語言信息檢索領(lǐng)域本體的知識系統(tǒng)構(gòu)建是系統(tǒng)核心,直接關(guān)系到檢索結(jié)果的準(zhǔn)確性。領(lǐng)域本體的特征是針對特定的學(xué)科領(lǐng)域,描述了某一學(xué)科中的概念、概念的屬性、概念間的關(guān)系以及屬性和關(guān)系的約束[8]。
優(yōu)良的數(shù)字圖書館跨語言系統(tǒng)應(yīng)該能靈活地處理多語種信息,通過圍繞用戶有效地組織集成各地域的信息資源和信息服務(wù),從而方便和快捷地支持用戶檢索各類信息資源。根據(jù)這個目的本文構(gòu)思了一個數(shù)字圖書館跨語言檢索領(lǐng)域本體知識體系,主要包括以下幾個模塊,如圖1所示。
3.1 查詢預(yù)處理模塊
基于本體的跨語言檢索模型的第一步就是對用戶輸入的查詢語句進(jìn)行處理,詞是最小的能夠獨(dú)立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,先去除停用詞,然后進(jìn)行詞干化處理,并統(tǒng)計該詞的詞頻、權(quán)重等相關(guān)信息[3];若是漢語作為提問詞,則采用分詞技術(shù)詞語之間沒有明顯的區(qū)分標(biāo)記,取出查詢中的中心詞,然后將它們傳遞給翻譯模塊。
3.2 翻譯模塊
翻譯模塊選擇的翻譯方法是基于詞典的翻譯策略。查詢語句經(jīng)過翻譯模塊的翻譯后,把翻譯結(jié)果和原語句一并傳給領(lǐng)域本體庫,在本體內(nèi)查找查詢語句的語義描述,通圖1 數(shù)字圖書館跨語言信息檢索系統(tǒng)模型
過領(lǐng)域本體庫進(jìn)行檢索。如果沒有在語義模塊中找到,則直接傳遞給檢索模塊,得到檢索結(jié)果。
3.3 領(lǐng)域本體系統(tǒng)模塊
3.3.1 領(lǐng)域本體庫
構(gòu)建領(lǐng)域本體系統(tǒng)的前提是在領(lǐng)域內(nèi)構(gòu)建本體,領(lǐng)域本體一般是對某一領(lǐng)域知識體系元數(shù)據(jù)的描述。因此應(yīng)該對要創(chuàng)建的領(lǐng)域本體所涵蓋的領(lǐng)域有較深的理解。我們一方面可以基于領(lǐng)域內(nèi)原始資源的元數(shù)據(jù)分析和處理,另一方面可以在對該領(lǐng)域深入了解的專家的協(xié)助下完成。
本體主要包括4個建模元語,概念或類、關(guān)系、公理和實(shí)例,我們應(yīng)盡可能全面而又系統(tǒng)的列舉領(lǐng)域中所有概念、概念的屬性以及概念間和屬性間的關(guān)系,對領(lǐng)域本體中的概念及概念間的關(guān)系進(jìn)行定義和描述,如表1所示。再建立起本體框架把列舉和劃分好的概念植入框架內(nèi)。表1 本體庫中概念之間的聯(lián)系
關(guān) 系關(guān)系描述例 子Is-A概念的泛化汽車與交通工具Kind of繼承關(guān)系學(xué)生與研究生Attribute of概念屬性關(guān)系學(xué)號與學(xué)生Instance of概念的實(shí)例關(guān)系魚與金魚
我們使用Protégé為構(gòu)建本體的工具。Protégé是斯坦福大學(xué)醫(yī)學(xué)院醫(yī)學(xué)信息研究組開發(fā)的一個免費(fèi)、開放源碼的本體編輯器[9],它提供了一個可以構(gòu)建領(lǐng)域本體的環(huán)境。在Protégé用建好本體之后,便要對本體進(jìn)行解析。本體解析有許多思路和工具可以使用,甚至可以自己編寫本體解析的模塊。Jena是由HP實(shí)驗(yàn)室開發(fā)的一套API,用于支持語義網(wǎng)應(yīng)用。它的功能非常強(qiáng)大,可以構(gòu)建用各種語言(OWL,DAML+OIL,RDFS)描述的本體模型、RDF模型[10]。更重要的是可以使用它內(nèi)置的推理機(jī)對本體進(jìn)行推理,也可以與外界的推理機(jī)連接。
3.3.2 用戶查詢請求的語義處理
由于本體有豐富的概念關(guān)系,而且有推理功能,因此可以用來進(jìn)行查詢擴(kuò)展。經(jīng)過提問處理和翻譯過的查詢內(nèi)容與構(gòu)建的領(lǐng)域本體庫一一對應(yīng),調(diào)用和遍歷整個源語言本體庫,找到與其對應(yīng)的本體術(shù)語以及相關(guān)的概念術(shù)語,建立關(guān)系映射,找到其對應(yīng)的概念,推理出檢索請求中的關(guān)鍵詞的精確語義,然后映射到目標(biāo)語言本體庫,完成語義匹配。然后通過本體模型推理出與用戶查詢詞語義相關(guān)的類,也就是用戶要查找的相關(guān)概念,確定該領(lǐng)域的概念和概念之間的聯(lián)系,再對其進(jìn)行語義化擴(kuò)展和推理,挖掘隱含信息, 解決信息孤島問題。
3.4 數(shù)字圖書館資源本體系統(tǒng)模塊
3.4.1 數(shù)字圖書館資源本體庫
數(shù)字圖書館的館藏是基于知識的組織,不可缺少的要使用定義規(guī)范語義之間相互聯(lián)系的“領(lǐng)域本體”,但是圖書館的資源本體庫又不同于領(lǐng)域本體庫,因?yàn)樗畜w現(xiàn)的是數(shù)字圖書館的文獻(xiàn)資源特點(diǎn),是多個領(lǐng)域本體的集成。這里可以采用本體學(xué)習(xí)的方式創(chuàng)建,首先要從現(xiàn)有的數(shù)字圖書館的文獻(xiàn)信息中收取學(xué)科概念的術(shù)語選項(xiàng),采用信息抽取技術(shù)來確定概念之間的語義關(guān)系,在概念及其相互關(guān)系基礎(chǔ)上構(gòu)建本體。其中上下位關(guān)系是最主要的語義關(guān)系,首先是獲取抽象程度高、涵義比較寬的概念,再尋找分別位于這些概念下級的較為具體的概念,由此形成樹狀或?qū)哟谓Y(jié)構(gòu),概念在層次結(jié)構(gòu)中體現(xiàn)了語義分類的屬性,根據(jù)概念之間的語義關(guān)系構(gòu)建出概念分類層次關(guān)系。所有的文獻(xiàn)信息都依據(jù)這種體系集成。
3.4.2 圖書館資源本體庫的語義處理
對數(shù)字圖書館中的資源本體庫加工處理,以RDF/XML為描述模型對無結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù)進(jìn)行語義標(biāo)注,形成機(jī)器可以理解的語義元數(shù)據(jù),元數(shù)據(jù)包括:數(shù)據(jù)基本屬性和數(shù)據(jù)擴(kuò)展屬性,包括類型、背景等信息。
從數(shù)字資源中抽取關(guān)鍵詞匯,根據(jù)詞頻為關(guān)鍵詞賦權(quán)值。計算抽取關(guān)鍵詞與本體中概念的相似度,相似程度大者將其權(quán)值和文獻(xiàn)一同標(biāo)注在本體語義旁,則文獻(xiàn)屬于該本體。由于數(shù)字資源具有多樣性、多領(lǐng)域性,必然要涉及到多個領(lǐng)域本體,因此在對數(shù)字圖書館數(shù)字資源進(jìn)行語義標(biāo)注時,除了利用數(shù)字資源本體庫外,還可以應(yīng)用其他成熟的本體進(jìn)行標(biāo)注,如WordNet、HowNet、中國百科全書、BNC語料、RFC文檔等等。將實(shí)例與本體聯(lián)系起來,通過分析實(shí)例,總結(jié)出實(shí)例的結(jié)構(gòu),將文獻(xiàn)的隱含信息表示出來。
3.5 語義檢索模塊
完成語義擴(kuò)展后,系統(tǒng)進(jìn)入語義檢索模塊。把處理過的文獻(xiàn)信息和查詢擴(kuò)展的查詢概念進(jìn)行領(lǐng)域、術(shù)語匹配。匹配的過程中不僅要考慮數(shù)據(jù)本身,還有同義、近義、上位、下位等信息,得到檢索結(jié)果后,再按照查詢信息與檢索信息的相似度與將滿足條件的檢索結(jié)果進(jìn)行加權(quán)結(jié)合處理后輸出最終檢索結(jié)果,并以良好的界面形式返回給檢索用戶。
4 結(jié) 語
本論文提出了基于本體的數(shù)字圖書館跨語言信息檢索系統(tǒng),其中包括5個模塊和2個本體庫,但這只是簡單構(gòu)想,如今圖書館跨語言檢索體系還不健全,許多工作還停留在理論層面,在以下幾個方面還有待進(jìn)一步的研究:比如可以考慮通過數(shù)據(jù)挖掘進(jìn)行自動化或半自動化處理以減少人工創(chuàng)建本體的壓力;把用戶的個性化因素加入本體建設(shè)中,針對不同的特點(diǎn)和偏好進(jìn)行檢索。相信隨著研究的深入,各類技術(shù)不斷的跟進(jìn),本體在跨語言檢索中的應(yīng)用會越來越普遍,在數(shù)字圖書館中的應(yīng)用也更加實(shí)用化。
參考文獻(xiàn)
[1]Wang J,Oard D W.Combining bidirectional translations and synonymy for cross-language information retrieval[A].Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2006:202-209.
[2]吳丹,王惠臨.本體在跨語言信息檢索中的應(yīng)用機(jī)制研究[J].圖書情報工作,2006,50(9):10-13.
[3]吳芳.基于本體的跨語言全文檢索模型的研究[D].北京:北京郵電大學(xué),2005,(5):27-28.
[4]郝嘉樹,王惠臨,劉耀.基于本體的跨語言信息檢索模型和關(guān)鍵技術(shù)研究[J].情報科學(xué),2009,27(2):271-275.
[5]夏立新,金燕,方志.信息檢索原理與技術(shù)[M].北京:科學(xué)出版社,2009,(7):287-296.
[6]黃國斌.基于中間語義的跨語言信息檢索研究[D].江西:.江西師范大學(xué),2008,(7):32-36.
[7]任成梅.跨語言信息檢索的發(fā)展與展望[J].圖書館學(xué)研究,2006,(4):80-81.
[8]王佐,王茜,李鵬.基于Ontology的多主體知識檢索模型[J].情報雜志,2006,(6):77.
[9]welcome to Protégé[OL].http:∥protege.stanford.edu/overview,2011-05-11.
[10]HP releases new version of leading Semantic Web developers toolkit[EB].http:∥www.hpl.hp.com/news/2004/jan-mar/jena2.1.html?jumpid=regzR1002zUSEN,2011-05-11.
注:“本文中所涉及到的圖表、公式、注解等請以PDF格式閱讀”