摘 要 可視化技術(shù)利用計算機圖像處理技術(shù)、數(shù)字技術(shù)、網(wǎng)絡(luò)通信技術(shù)等把沒有空間模型的信息數(shù)據(jù)轉(zhuǎn)換成視覺形式,將其應(yīng)用于數(shù)字圖書館信息檢索可以使其信息服務(wù)更加人性化、智能化,可極大提高檢索效率,獲得滿意的檢索效果。本文論述了數(shù)字圖書館信息檢索可視化的必要性,構(gòu)建了數(shù)字圖書館檢索可視化系統(tǒng)的體系結(jié)構(gòu)。
關(guān)鍵詞 數(shù)字圖書館 信息檢索可視化
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A
1數(shù)字圖書館信息檢索可視化的必要性
首先,數(shù)字圖書館的信息資源不僅包括各種多媒體信息,還包括各種經(jīng)過處理的網(wǎng)絡(luò)信息資源,館藏信息資源內(nèi)容的多樣性、廣泛性和深入性遠(yuǎn)甚于多載體文獻(xiàn)形式的傳統(tǒng)圖書館。傳統(tǒng)圖書館文獻(xiàn)信息是按照一定的分類編目法進(jìn)行組織分類編目并建立相應(yīng)的類目標(biāo)引體系,而數(shù)字圖書館信息資源是數(shù)字化信息,是以指針、元數(shù)據(jù)和數(shù)據(jù)的方式進(jìn)行組織存貯。因此,數(shù)字圖書館信息資源組織方式和檢索操作的復(fù)雜性遠(yuǎn)遠(yuǎn)超過傳統(tǒng)圖書館。其次,數(shù)字圖書館作為大眾化的信息服務(wù)中心,其服務(wù)對象具有廣泛性和多樣性的特點。面對信息資源的多媒體性以及信息存貯的數(shù)字化,數(shù)字圖書館要為用戶提供優(yōu)質(zhì)服務(wù)就應(yīng)提供更為簡便化、人性化、自動化的人機交互檢索系統(tǒng),為用戶獲取所需信息提供有效捷徑。
2數(shù)字圖書館信息檢索可視化系統(tǒng)的體系結(jié)構(gòu)
可視化檢索系統(tǒng)主要包括特征索引庫模塊、用戶檢索模塊以及結(jié)果可視化模塊,如圖1所示。在傳統(tǒng)的基于關(guān)鍵詞標(biāo)引匹配檢索方法中一般是通過對多媒體信息的物理特征進(jìn)行著錄標(biāo)引,并將其轉(zhuǎn)換成相應(yīng)的文本格式,建立索引庫,然后按照文獻(xiàn)檢索一樣,將用戶提問的關(guān)鍵詞與索引庫數(shù)據(jù)進(jìn)行匹配。由于圖像、音頻、視頻等包含的信息量很龐大,物理特征描述往往不能揭示這些數(shù)字信息的內(nèi)容,用戶也難以用文字合理地表述對其所需,導(dǎo)致信息檢索不能滿足用戶的信息需求。目前,基于內(nèi)容的多媒體檢索技術(shù)較好地克服了這一缺點并成為數(shù)字圖書館多媒體信息檢索的熱點技術(shù),本系統(tǒng)就以這種檢索技術(shù)為基礎(chǔ),構(gòu)建各功能模塊:
建立數(shù)字化信息資源特征索引庫是數(shù)字圖書館信息檢索的基礎(chǔ)。特征索引庫模塊的功能主要是對各種多媒體數(shù)字化信息資源按照選定的特征抽取方法,生成相應(yīng)的特征數(shù)據(jù)庫建立索引數(shù)據(jù)庫。對數(shù)字化多媒體信息資源進(jìn)行特征提取,是指選擇按照一定的算法從原始數(shù)字化資源庫中分析出可以表示數(shù)字化文本、圖像、音頻、視頻等各種信息資源本質(zhì)內(nèi)容的數(shù)據(jù)信息,并為這些信息數(shù)據(jù)建立相應(yīng)的特征庫。在該模塊中為了加快檢索速度,系統(tǒng)模塊將這些數(shù)據(jù)按照抽取的方法分類存放到數(shù)據(jù)庫中,同時把各種媒體的特征數(shù)據(jù)和具體的媒體信息關(guān)聯(lián)起來。因為多媒體信息具有多種屬性,為了有效揭示信息內(nèi)容,系統(tǒng)會從多個不同角度描述信息資源,所以特征索引庫的數(shù)據(jù)是多維的數(shù)據(jù)。用戶檢索模塊是用戶進(jìn)行查詢和瀏覽數(shù)據(jù)的接口,該模塊的主要功能是將用戶的檢索提問輸入檢索系統(tǒng)為可視化信息檢索提供數(shù)據(jù)接口,將用戶提供的查詢需求與索引庫數(shù)據(jù)進(jìn)行匹配檢索。結(jié)果可視化模塊的功能是通過可視化算法求出匹配成功數(shù)據(jù)的可視化結(jié)構(gòu)模式,結(jié)合圖符庫將檢索結(jié)果以視圖形式顯示給用戶。由于基于內(nèi)容特征的信息檢索是一種相似度檢索,需要在檢索過程中不斷與系統(tǒng)交互,評價系統(tǒng)查詢結(jié)果,并重新匹配調(diào)整查詢提問,逐步求精獲取有效信息的方法,所以系統(tǒng)設(shè)置利用相關(guān)反饋技術(shù)來收集用戶對檢索結(jié)果的反饋信息。
此外,信息檢索可視化需要把信息資源的特征數(shù)據(jù)信息描述為n維向量,然后選擇合適的檢索模型將向量在n維空間中顯示出來,因此選擇可視化檢索模型時要考慮所選模型是否能夠以向量的形式描述信息資源和查詢。布爾邏輯模型、向量空間模型和概率模型是常用的三大檢索模型。布爾邏輯模型(Boolean Model)是一種基于關(guān)鍵詞的信息檢索模型,通過將用戶的檢索提問與特征數(shù)據(jù)的標(biāo)志進(jìn)行嚴(yán)格字符匹配比較來檢索信息。它的改進(jìn)模型包括模糊集合模型和擴展布爾模型。模糊檢索模型較好地克服了嚴(yán)格匹配導(dǎo)致查全率下降的不足,但它并沒有對檢索結(jié)果進(jìn)行向量化處理;擴展布爾模型是對提問與特征數(shù)據(jù)進(jìn)行布爾檢索后,再將檢索結(jié)果按照向量檢索模型處理,所以它符合可視化檢索要求。向量空間模型(Vector Space Model,VSM)是把每一條特征數(shù)據(jù)以及每個檢索提問用向量表示,然后將檢索中的特征數(shù)據(jù)與提問的匹配處理過程轉(zhuǎn)化為向量空間中特征數(shù)據(jù)向量與提問向量的相似度計算問題,所以向量空間模型及其改進(jìn)模型都可以成為可視化檢索模型。概率模型是基于概率排序原理,根據(jù)特征數(shù)據(jù)信息與提問的相關(guān)概率來排序輸入檢索結(jié)果的方法。因此,擴展布爾模型以及向量空間模型及其改進(jìn)模型都可以成為可視化檢索模型的選擇。
3結(jié)束語
可視化技術(shù)的研究和利用給數(shù)字圖書館環(huán)境下的信息資源操作管理帶來了根本性的變革。通過對可視化技術(shù)的研究和利用,數(shù)字圖書館把計算機技術(shù)、數(shù)字技術(shù)、多媒體技術(shù)結(jié)合起來,將那些通常難以設(shè)想和接近的環(huán)境和信息,以動態(tài)直觀的方式表現(xiàn)出來,為讀者提供更加有效的服務(wù)。
作者簡介:羅慧麗(1986.8-)女,漢族,福建省建甌市人,本科 ,閩北職業(yè)技術(shù)學(xué)院,助理館員,研究方向:圖書館服務(wù)。
參考文獻(xiàn)
[1] 曾民族.知識技術(shù)及其應(yīng)用[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2006:431.
[2] 張學(xué)福.信息檢索可視化基本問題研究[J].中國圖書館學(xué)報(雙月刊),2006(03):37.