鄧丹
(黑龍江省圖書館,黑龍江 哈爾濱 150090)
基于本體的圖書館文獻(xiàn)資源檢索技術(shù)探究
鄧丹
(黑龍江省圖書館,黑龍江 哈爾濱 150090)
以基于圖書館領(lǐng)域本體的專業(yè)性視角解讀當(dāng)前圖書館文獻(xiàn)資源檢索技術(shù),有針對性地對當(dāng)前檢索技術(shù)如全文檢索、數(shù)據(jù)檢索等做補(bǔ)丁處理,并提出了基于本體的圖書館文獻(xiàn)資源檢索模型的構(gòu)建,基于該模型的特點闡述了信息檢索的查全率和查準(zhǔn)率是如何實現(xiàn)的。
領(lǐng)域本體 圖書館 資源檢索模型 資源
信息時代的到來使得信息資源共享成為了圖書館界研究的重點課題之一。發(fā)達(dá)國家信息資源共享技術(shù)一直遙遙領(lǐng)先,20世紀(jì)90年代,美國各圖書館的書目數(shù)據(jù)已經(jīng)實現(xiàn)在網(wǎng)上共享,當(dāng)然這得力于計算機(jī)行業(yè)的發(fā)展,同一時期的英國在圖書館文獻(xiàn)資源檢索方面實施了“三計劃”后,成功地建立了以數(shù)據(jù)庫為主的電子信息資源,而我國的圖書館文獻(xiàn)資源的檢索技術(shù)在21世紀(jì)后才開始發(fā)展起來。
概念結(jié)構(gòu)化的東西更容易使人們?nèi)娴乜创粋€事物,檢索系統(tǒng)也是如此,在經(jīng)過概念化后的領(lǐng)域知識體,更容易在邏輯推理工具的引導(dǎo)或者稍微引導(dǎo)下形成概念與概念間的聯(lián)系,進(jìn)而形成信息與信息間的聯(lián)系,最后將檢索結(jié)果系統(tǒng)地傳送到讀者手中。
據(jù)統(tǒng)計,我國當(dāng)前平均每4人擁有一臺電腦,Internet刮起的電腦風(fēng)其實也對信息資源共享提出了更大的挑戰(zhàn)。搜索引擎、共享網(wǎng)站里的用戶呈指數(shù)級上漲,網(wǎng)絡(luò)信息也在爆炸式地膨脹,在工作學(xué)習(xí)壓力中,人們太需要既準(zhǔn)確又快速地查找到自己所需要的信息,渴求理想的信息資源檢索系統(tǒng)。
網(wǎng)絡(luò)信息資源的檢索可以分為3類,即全文檢索、數(shù)據(jù)檢索和知識檢索。全文檢索即可以從文中截取任何一個具有單獨檢索意義的詞匯或詞表輸入到檢索窗口進(jìn)行檢索,數(shù)據(jù)檢索也一樣,只是將有檢索意義的詞匯換成數(shù)據(jù)而已,在一般情況下,這兩種是用戶的首選方式,因為搜索的結(jié)果能滿足客戶所需求的準(zhǔn)確數(shù)據(jù)或詞匯定義。但是由于搜索的結(jié)果屬于填答案方式,客戶無法從搜索結(jié)果中得到信息與信息間的內(nèi)在聯(lián)系,所以這些方式無法滿足客戶對于系統(tǒng)知識的需求。
關(guān)鍵詞與具體數(shù)據(jù),僅僅是將查詢搜索結(jié)果停留在表層需求上,而知識檢索是一種基于語義方面的信息檢索技術(shù),不僅提高了客戶的查全率和查準(zhǔn)率,而且降低了用戶的負(fù)擔(dān)。信息以及信息之間的語義關(guān)系,它需要自然語言處理技術(shù)、計算語言學(xué)技術(shù)以及其他相關(guān)技術(shù)的支持,信息資源搜索系統(tǒng)內(nèi)部如果缺乏豐富多彩的巨量語義模型去支持,恐怕難以得到信息與信息之間的復(fù)雜層次和推理關(guān)系。基于語義的知識檢索固然能夠提高客戶的查全率和查準(zhǔn)率,但是如果將客戶所要搜索的文獻(xiàn)總庫的各領(lǐng)域分為多個概念的集合,而每個領(lǐng)域具有特定結(jié)構(gòu)化的知識本體,我們可以推算出本體具有強(qiáng)大的結(jié)構(gòu)層次感和蘊含能夠發(fā)掘強(qiáng)大的邏輯推理潛能,那么基于本體的圖書館文獻(xiàn)資源檢索技術(shù)將會實現(xiàn)更大的突破。
計算機(jī)整合資源需要強(qiáng)大的邏輯推理能力,而能給與這種邏輯能力的就是本體?;陬I(lǐng)域本體可以使檢索結(jié)果所呈現(xiàn)的結(jié)果信息描述與客戶資源的需求之間的鴻溝最大可能地彌合在一起,結(jié)果信息將會呈現(xiàn)豐富的語義注解。如圖1。
圖1 基于本體的資源檢索技術(shù)
對于構(gòu)造一個本體,可以從下面4個步驟來實現(xiàn)(見圖2)。
①用本體語言描述檢索內(nèi)容。在檢索系統(tǒng)中,計算機(jī)所能實現(xiàn)的讀取識別語言不能太復(fù)雜,否則會加大工作人員的任務(wù)量和影響檢索結(jié)果的準(zhǔn)確率。此外,在搜集領(lǐng)域知識術(shù)語時,應(yīng)該選擇社會大多數(shù)人所公認(rèn)的且能夠準(zhǔn)確表示該領(lǐng)域內(nèi)容詞匯或圖表,以求規(guī)范。
②構(gòu)筑本體。首先,構(gòu)筑的本體概念必須全面,這無疑是檢索結(jié)果準(zhǔn)確率的保證,所以構(gòu)筑的本體必須使領(lǐng)域內(nèi)主要的概念符合該領(lǐng)域的特點,并使各個概念間的聯(lián)系盡可能加強(qiáng)。此外,除了概念,還可建立一些可說明抽象概念的屬性指導(dǎo),比如可解釋領(lǐng)域本體中某些概念的實例以及在操作中可實施的技術(shù)性引導(dǎo)等。
③在構(gòu)筑好的基礎(chǔ)上應(yīng)盡可能充實本體。構(gòu)筑本體不是一勞永逸的事情,在網(wǎng)絡(luò)詞匯不斷涌現(xiàn)的今天,充實本體不僅要統(tǒng)籌新概念、新關(guān)系,還必須通過聯(lián)想意義建立新聯(lián)系,以確保本體的與時俱進(jìn)和實用性。
④確保本體的準(zhǔn)確性一般是通過檢查來實現(xiàn)的。領(lǐng)域本體內(nèi)的概念元素必須在語義、語法和邏輯上保持一致,通過這種一致性的檢查,保證了自動分類的準(zhǔn)確性。如果忽略了檢查環(huán)節(jié),知識領(lǐng)域間的聯(lián)系或者知識的正確率及與用戶的需求得不到契合,那么這個檢索模式將是失敗的,查全率與查準(zhǔn)率永遠(yuǎn)是引領(lǐng)檢索系統(tǒng)追求卓越的燈塔。
圖2 本體的構(gòu)筑
由此構(gòu)筑的本體,可以既明確又客觀地用自然語言對所定術(shù)語進(jìn)行準(zhǔn)確描述,以及闡述信息之間的關(guān)系,又能完整地給出搜索結(jié)果,使檢索輸入信息與得出的推論及展示術(shù)語本身的含義是相容納的,沒有用戶與結(jié)果之間的矛盾。且相較于單調(diào)的結(jié)果,基于本體的資源搜索具有更廣闊的延展性。
基于本體的圖書館文獻(xiàn)資源檢索模式是全文檢索和數(shù)據(jù)檢索以及語義檢索的更專業(yè)層次,能從本體與本體的聯(lián)系中得出正確理解用戶所需信息的內(nèi)容,并且這些邏輯推理能力是自發(fā)形成的,因此,用戶的查全率和準(zhǔn)確率都能得到提高,并且不影響速度。
3.1 基于本體的圖書館文獻(xiàn)資源檢索模型構(gòu)建的設(shè)計思想
①要建立一個領(lǐng)域的本體,必須求助于該領(lǐng)域的專家最大可能地掌握著該領(lǐng)域的知識,對于建立本體核心具有極大作用。
②收集數(shù)據(jù)環(huán)節(jié)。對于從領(lǐng)域?qū)<沂种蝎@取的資源信息,相關(guān)人員參照之前已經(jīng)建立的本體,以規(guī)定的格式將收集而來的數(shù)據(jù)存放在元數(shù)據(jù)庫中保存。
③查詢轉(zhuǎn)換器的格式轉(zhuǎn)換。在用戶登錄界面輸入查詢請求時,所輸入的信息將會被本體結(jié)構(gòu)中的轉(zhuǎn)換器轉(zhuǎn)換成特定格式,與本體數(shù)據(jù)庫形成遙相呼應(yīng),數(shù)據(jù)庫信息在本體的作用下,經(jīng)過邏輯轉(zhuǎn)換匹配出符合用戶搜尋的目標(biāo)信息集合。
④信息傳達(dá)給檢索用戶。檢索的結(jié)果在經(jīng)過本體結(jié)構(gòu)特殊的處理后,用戶可以馬上接收到。
實際操作中,并不是用概念圖形模式存儲本體信息或者將數(shù)據(jù)選擇保存在一般關(guān)系的數(shù)據(jù)庫中就可以了,雖然這樣可以通過圖或者文字?jǐn)?shù)據(jù)的匹配來喚醒對應(yīng)的信息資源。在實際的操作中,往往需要很多相關(guān)聯(lián)的工具來保證檢索的準(zhǔn)確性和全面性。
3.2 以本體為核心的資源檢索模型結(jié)構(gòu)
信息的浩瀚廣闊性被本體概念的緊湊性變成一個個相互串聯(lián)的枝狀體,這個串聯(lián)的過程可以簡單地概括為:登錄查詢系統(tǒng)的用戶首先在特定的提問框輸入要搜尋的信息,以本體為核心的模型系統(tǒng)接收到提問信息后將該信息自動定義為待處理信息,同時領(lǐng)域資源分析工具對該信息進(jìn)行概念分解,本體數(shù)據(jù)庫在資源分析工具和信息檢索系統(tǒng)的調(diào)動工具影響下,將與查詢信息相關(guān)的概念聯(lián)系以特定的格式在元數(shù)據(jù)庫中匹配,擴(kuò)展和全面式的匹配后檢索系統(tǒng)將匹配信息以客戶所要求的形式反饋給客戶。如圖3。
圖3 基于本體的圖書館文獻(xiàn)資源檢索系統(tǒng)構(gòu)架
在這個過程中,領(lǐng)域資源分析工具在協(xié)助基于本體的資源檢索系統(tǒng)中發(fā)揮著重要作用。領(lǐng)域資源分析工具可以起到輔助推動作用,比如說可以幫助推理引擎劃分涉及領(lǐng)域的概念歸屬問題以及處理信息鏈接規(guī)則,它的優(yōu)點是可以在多領(lǐng)域中自由分析和引用元數(shù)據(jù)。
推理引擎工具,顧名思義就是檢索系統(tǒng)中推理的好手。在搜索的信息進(jìn)入到后續(xù)時,推理引擎工具需要利用本體術(shù)語、元數(shù)據(jù)和推理規(guī)則完成后續(xù)工作,是將用戶所需要的信息整理輸送給用戶的關(guān)鍵一步,是協(xié)助本體進(jìn)行語義推斷、邏輯推理、語義檢索以及處理數(shù)據(jù)的其他職能檢索。
3.3 基于本體的圖書館文獻(xiàn)資源檢索模型的核心部分
①元數(shù)據(jù)庫中領(lǐng)域知識的本體分類。圖3的模型可將其分為3層。第一層是用戶查詢層,用戶查詢層是一個檢索過程的開始階段,它決定了本體下各領(lǐng)域的知識活動情況。第二層是求解層,求解層已經(jīng)無關(guān)用戶的情況了,因為將用戶輸入的信息轉(zhuǎn)化成特定格式的符號后,檢索系統(tǒng)便進(jìn)行一系列的求解過程。推理引擎分析系統(tǒng)轉(zhuǎn)換成的特定符號來根據(jù)本體推理和確定出用戶查詢的具體語義,并用相關(guān)的系統(tǒng)規(guī)劃策略來規(guī)范查詢的信息。而最后的求解則要建立在相關(guān)領(lǐng)域?qū)<业膸椭峦瓿?。第三層是知識抽取層。知識抽取是要在特定環(huán)境下抽取的,領(lǐng)域本體是圖書館文獻(xiàn)資源檢索模型的核心,在概念與概念間的聯(lián)系上,它是當(dāng)之無愧的串聯(lián)者,用戶輸入檢索提問詞時,這種概念與概念間的特定聯(lián)系可以辨別用戶的真實語義,將串聯(lián)的信息鏈接在一起,在此基礎(chǔ)上進(jìn)行資源的檢索,不僅加強(qiáng)了信息檢索的全面性,還能調(diào)動各領(lǐng)域的專家,實現(xiàn)跨領(lǐng)域、跨專業(yè)、多主體、多學(xué)科的主體查詢能力。
②得力的輔助工具——推理引擎。推理引擎開啟推理智能模式后,能自動地將用戶輸入的檢索文字轉(zhuǎn)換成系統(tǒng)可以識別的特定格式的符號,若是沒有這個橋梁,人類的語言將不會到達(dá)計算機(jī)的世界里。它的工作流程很簡單,首先,它需要將輸入檢索框中的文本用特定的格式轉(zhuǎn)換成計算機(jī)能識別的符號并將其運送到元數(shù)據(jù)庫中,也就是知識本體,送到這一個領(lǐng)域本體后它還要再送到其他領(lǐng)域知識本體中,與另一個知識本體的同義詞進(jìn)行比較,如是相同的話那么另外一個領(lǐng)域也將涉及;然后將此領(lǐng)域中的該類別及類別號取出代替原本的那個關(guān)鍵詞;再將剛才提取出來的分類號用特定的格式轉(zhuǎn)換成查詢的語言,繼續(xù)在數(shù)據(jù)庫中搜尋滿足檢索條件的信息資源。
③檢索結(jié)果的顯示。在基于本體的圖書館文獻(xiàn)資源檢索模型中,每個本體數(shù)據(jù)庫的格式都是不同的,所以當(dāng)在檢索框內(nèi)輸入相同的檢索內(nèi)容時,如果該內(nèi)容提交不到同一個數(shù)據(jù)庫中的話,那么相同的檢索內(nèi)容是得不到相同的檢索結(jié)果的,但這可以顯示檢索系統(tǒng)的個性化服務(wù)以及保證信息資源的準(zhǔn)確率。所以,在檢索模型中,第一要務(wù)是將檢索框中的檢索內(nèi)容轉(zhuǎn)換成系統(tǒng)可辨別的統(tǒng)一格式,凡是重復(fù)的必須把它剔除掉,否則會影響效率,然后再通過條件分類將整理好的信息資源傳送給檢索用戶。
要想使基于本體的圖書館文獻(xiàn)資源檢索技術(shù)完全自動化,基本上是不可能的,所以這是一種半自動化的模型結(jié)構(gòu)。元數(shù)據(jù)庫的完善以及領(lǐng)域?qū)<业膮⑴c,領(lǐng)域本體庫中的資源都需要與時俱進(jìn)地不斷加以完善,所以從事資源檢索的工作人員依然任重道遠(yuǎn)。
從全文檢索和數(shù)據(jù)檢索看,基于關(guān)鍵字的檢索技術(shù)還沒有成為歷史,而基于語義檢索的知識檢索目前正處于盛行階段,但是信息時代高速發(fā)展,人們對資源查全率和查準(zhǔn)率的要求都在上升,所以基于本體的圖書館文獻(xiàn)資源檢索技術(shù)推廣是應(yīng)時代要求而發(fā)展起來的。
筆者結(jié)合本體論的相關(guān)觀點,結(jié)合信息資源其他檢索技術(shù),提出了基于本體的圖書館文獻(xiàn)資源檢索的建構(gòu)模型和新看法,在深入研究后發(fā)現(xiàn),該模型依然有很多規(guī)避不了的障礙,比如說信息新資源的收錄是否有自動的收錄方法,數(shù)字圖書館的構(gòu)建導(dǎo)致信息資源檢索成本上升的問題等,這些都還有待于在實踐中不斷探索。
[1]王晰宇,周中林.基于本體的數(shù)字圖書館信息檢索模型構(gòu)建[J].情報探索,2011(9):21-23.
[2]王莉,梁冰.基于本體的科技文獻(xiàn)檢索框架與技術(shù)實現(xiàn)[J].數(shù)字圖書館論壇,2012(7):37-44.
[3]賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學(xué)報,2012(4):79-87.
[4]蔡煒,邢建國.基于本體的圖書館文獻(xiàn)資源共享技術(shù)研究[J].情報科學(xué),2007(11):1696-1701.
[5]仇寶艷,呂祥惠.本體技術(shù)在數(shù)字圖書館中的應(yīng)用[J].現(xiàn)代電子技術(shù),2008(24):109-112.
[6]張學(xué)梅,汪偉歆.基于本體的期刊論文可視化檢索系統(tǒng)研究[J].電子世界,2012(22):121-123.
鄧 丹女,1982年生。本科學(xué)歷,館員。研究方向:數(shù)字圖書館的發(fā)展與建設(shè)。
G254.91
2013-12-20;責(zé)編:張欣。)