[摘要]基于語義網(wǎng)環(huán)境進(jìn)行數(shù)字圖書館的資源聚合模式研究。從實體文獻(xiàn)整理、數(shù)據(jù)集成以及知識集成三個方面分析目前數(shù)字圖書館資源聚合的研究現(xiàn)狀,對在數(shù)字圖書館資源聚合中語義網(wǎng)技術(shù)發(fā)揮的作用進(jìn)行了探討,揭示出在語義網(wǎng)環(huán)境下要實現(xiàn)數(shù)字圖書館資源聚合所必須要解決的領(lǐng)域本體集成技術(shù)、大數(shù)據(jù)挖掘與集成技術(shù)以及語義知識與信息資源轉(zhuǎn)換技術(shù)等關(guān)鍵問題;并在語義網(wǎng)環(huán)境下基于關(guān)聯(lián)數(shù)據(jù)、主題模型以及信息整合進(jìn)行了數(shù)字圖書館資源的深度聚合研究。
[關(guān)鍵詞]語義網(wǎng);數(shù)字圖書館;資源聚合
[中圖分類號]G250.76[文獻(xiàn)標(biāo)志碼]A[文章編號]1005-6041(2015)03-0001-04
2015年第3期(No.3,2015)圖書館界(Library World)周亮:語義網(wǎng)環(huán)境下數(shù)字圖書館的資源聚合模式研究隨著科技的不斷進(jìn)步,我們已經(jīng)逐步向大數(shù)據(jù)時代邁進(jìn),信息資源也逐漸擁有多樣異同的結(jié)構(gòu)、紛繁蕪雜的內(nèi)容、豐富多變的形式以及龐大廣布的儲量,同時圖書館的資源也由傳統(tǒng)的實體邁向數(shù)字化以及網(wǎng)絡(luò)化。圖書館的信息服務(wù)因資源的數(shù)字化而面臨了諸多的問題和挑戰(zhàn),首先不能有效地管理和利用這些數(shù)字資源,而且在數(shù)字資源的異構(gòu)和分布方面目前還沒有統(tǒng)一的有效的形式出現(xiàn),在服務(wù)形式上數(shù)字資源的利用仍是被動的,不能利用現(xiàn)有資源主動地滿足用戶的文獻(xiàn)需求等等[1]。當(dāng)前傳統(tǒng)的圖書館提供的知識服務(wù)是針對紙質(zhì)文獻(xiàn)的藏閱,而以上矛盾促使知識服務(wù)向多元化、深層次以及開放性發(fā)展,由紙質(zhì)文獻(xiàn)藏閱向數(shù)字資源推送發(fā)展,由被動提供服務(wù)逐步地轉(zhuǎn)為面向用戶需求。這一過程的實現(xiàn),其基礎(chǔ)是聚合數(shù)字圖書館的信息資源,通過分析、選擇、標(biāo)引和處理各種類型資源的內(nèi)容特征,從學(xué)科、主題、分類和著作等維度出發(fā),進(jìn)行信息資源的融合、類聚和重組,在信息資源有序化的過程中進(jìn)行知識關(guān)聯(lián)的揭示,最終實現(xiàn)個性化知識推送服務(wù),聚合信息資源的過程不僅體現(xiàn)了層次性、技術(shù)性,還對其可展示性的特點進(jìn)行呈現(xiàn)[2]。時代在進(jìn)步,技術(shù)在發(fā)展,網(wǎng)絡(luò)資源的語義化已經(jīng)成為第二代互聯(lián)網(wǎng)的發(fā)展趨勢,更是資源聚合與知識發(fā)現(xiàn)的內(nèi)在根本。只有實現(xiàn)了網(wǎng)絡(luò)資源的語義化,才可能透過資源的外在形式從多個維度對資源進(jìn)行內(nèi)涵式集聚與融合,進(jìn)而實現(xiàn)基于資源聚合的知識發(fā)現(xiàn)與創(chuàng)新?;诖耍疚拈_展了語義網(wǎng)環(huán)境下數(shù)字圖書館的資源聚合模式研究,以期能夠促進(jìn)當(dāng)前數(shù)字圖書館資源聚合的發(fā)展。
1數(shù)字圖書館資源聚合研究現(xiàn)狀分析
1.1 基于實體文獻(xiàn)整理的聚合模式面臨的問題
實體文獻(xiàn)的整理在圖書館信息資源聚合中屬于最低的層次,是傳統(tǒng)的資源聚合模式,從聚合實現(xiàn)效果角度來看,其粒度較粗;從聚合的實現(xiàn)方式來看,通?;谖墨I(xiàn)編目以及元數(shù)據(jù)的實現(xiàn)。
基于文獻(xiàn)編目的資源聚合主要是針對實體文獻(xiàn)進(jìn)行手工著錄,在著錄過程中要遵循一定的格式和規(guī)則,并對文獻(xiàn)實體進(jìn)行解釋內(nèi)容實質(zhì)和描述外部特征,以滿足用戶對文獻(xiàn)實體資源的需要,其意義在于不僅可以對文獻(xiàn)的內(nèi)容和形式特征進(jìn)行揭示,還可以在文獻(xiàn)的檢索中提供途徑和方法,更可以為文獻(xiàn)的管理提供支持和依據(jù)。在編目規(guī)則的制定以及圖書分類方法上,程長源先生首次提出要進(jìn)行新方法和新規(guī)則的制定,而著錄規(guī)則的制訂方案被審議通過,則為文獻(xiàn)著錄在新時期的發(fā)展奠定了良好的基礎(chǔ)。但是傳統(tǒng)的對實體文獻(xiàn)的整理聚合不能有效地滿足用戶需求,Greenberg等學(xué)者認(rèn)為可以在圖書館的主要功能中進(jìn)行語義網(wǎng)的應(yīng)用,比如在文獻(xiàn)編目和檢索中運(yùn)用語義網(wǎng)技術(shù)進(jìn)行語義網(wǎng)的選擇、表達(dá)以及服務(wù),完成基于語義網(wǎng)的信息資源合理使用[3],但是目前來看,兩者的融合力度還有待加強(qiáng)。
1.2 基于數(shù)據(jù)集成的聚合模式有待改進(jìn)
基于數(shù)據(jù)集成的資源聚合就是對異構(gòu)資源系統(tǒng)在邏輯上或者物理上把異質(zhì)、異類的數(shù)據(jù)庫進(jìn)行有機(jī)集中,把表示方法和操作手段統(tǒng)一化,最終互聯(lián)與共享多種異構(gòu)數(shù)據(jù)資源。基于數(shù)據(jù)倉庫的聚合方式用于實現(xiàn)多種數(shù)據(jù)源數(shù)據(jù)信息的多維集成。在英國,有關(guān)人員利用這種方式完成了建構(gòu)數(shù)據(jù)集成系統(tǒng)的開發(fā),實現(xiàn)了信息的數(shù)字化建設(shè)和數(shù)據(jù)的集成。在國內(nèi),毛燕梅等在信息資源中利用數(shù)據(jù)集成進(jìn)行描述、整理和資源的控制;徐榮華等通過數(shù)據(jù)集成完成了數(shù)據(jù)的格式化存儲,并多維分析數(shù)據(jù)最終建立統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)格式,實現(xiàn)了對信息資源的統(tǒng)一檢索。雖然相關(guān)的研究已經(jīng)取得了一定的成果,但是在實踐過程中新理論、新技術(shù)的應(yīng)用還有待進(jìn)一步加強(qiáng)[4]。
1.3 基于知識集成的聚合模式需要完善
在知識集成領(lǐng)域,對信息資源的聚合主要是語義聚合圖書館內(nèi)的信息資源內(nèi)容,通過知識關(guān)聯(lián)的挖掘,多維度揭示文獻(xiàn)資源中的知識,不僅包括顯性知識,還能把蘊(yùn)含的隱形知識也發(fā)掘出來,最終達(dá)到知識的融合和推送。黃如花等在數(shù)字圖書館中利用了語義網(wǎng)技術(shù)和知識地圖,實現(xiàn)了數(shù)字圖書館的可視化知識組織;張振海等解決了知識獲取、重用和共享問題,并提出了基于網(wǎng)格的數(shù)字圖書館運(yùn)行環(huán)境;York Sure和Rudi Studer等通過通用模型的建立解決了分布式異構(gòu)知識庫的互操作問題,并提出了目前亟待解決的關(guān)鍵問題是如何使語義網(wǎng)和數(shù)字圖書館有效融合,把多知識庫的統(tǒng)一視圖提供給用戶[5]。但是目前這兩者的融合技術(shù)還有待完善,而且還可以從宏觀和微觀兩個層面下手對聚合模式進(jìn)行改善。
2語義網(wǎng)技術(shù)對數(shù)字圖書館資源聚合的促進(jìn)作用
在語義網(wǎng)對數(shù)字圖書館資源聚合的實現(xiàn)中,其三大關(guān)鍵技術(shù)分別為XML、RDF以及Ontology技術(shù)。其中作為語法層的XML能提供資源內(nèi)容和結(jié)構(gòu)的表示;作為數(shù)據(jù)層的RDF能描述和處理元數(shù)據(jù),在Web上提供交互信息;作為語義層的Ontology可以把概念的定義精確化。
2.1 語義網(wǎng)XML技術(shù)增強(qiáng)圖書館資源的深度聚合
在語義網(wǎng)關(guān)鍵技術(shù)中,XML語法功能相當(dāng)強(qiáng)大,用戶使用XML可以自行進(jìn)行標(biāo)記或字段集合的定義,這些標(biāo)記或字段集合能把數(shù)字圖書館中的特殊信息方便地表達(dá)出來。在網(wǎng)頁的編寫中,HTML不僅不能進(jìn)行信息與元信息的區(qū)分,而且不支持信息嵌套結(jié)構(gòu),XML技術(shù)則克服了這一缺陷,大大增強(qiáng)了全文搜索功能,使得檢索結(jié)果更準(zhǔn)確,使文獻(xiàn)查準(zhǔn)率得到有效的提高。
2.2 語義網(wǎng)RDF技術(shù)促進(jìn)圖書館數(shù)據(jù)集成
在數(shù)字圖書館中,RDF技術(shù)主要在網(wǎng)絡(luò)導(dǎo)航中發(fā)揮作用,RDF的應(yīng)用使數(shù)字圖書館搜索引擎功能更佳。作為語義網(wǎng)關(guān)鍵技術(shù)的RDF技術(shù),主要用于描述內(nèi)容與內(nèi)容的關(guān)系,便于知識共享與交換的實現(xiàn),可以描述邏輯形式獨立的文檔為Web頁面集,而且在Web網(wǎng)頁中,可以進(jìn)行知識產(chǎn)權(quán)的說明。在管理、維護(hù)和使用數(shù)字圖書館時,RDF技術(shù)的以上功能發(fā)揮了積極的作用,有效地促進(jìn)了數(shù)字圖書館的數(shù)據(jù)集成。
2.3 語義網(wǎng)Ontology技術(shù)促進(jìn)圖書館知識重用
在傳統(tǒng)的圖書館中,信息檢索的實現(xiàn)主要基于簡單的關(guān)鍵詞檢索進(jìn)行研究,缺乏語義級或知識的支撐,而且通常在數(shù)字圖書館中,網(wǎng)絡(luò)資源有其分散性,導(dǎo)致信息服務(wù)的效率不能得到有效提高。從數(shù)字圖書館用戶的需求角度來看,數(shù)字圖書館的系統(tǒng)在信息的識別和處理中,最好能靈活地應(yīng)用,以便進(jìn)行知識的挖掘,通過用戶信息有效地進(jìn)行信息資源的組織和服務(wù)。本體技術(shù)即語義網(wǎng)中Ontology技術(shù)的引入,可以使語義得到共享和重用,可以實現(xiàn)不同系統(tǒng)之間的交流和共享,使數(shù)字圖書館中的知識重用方面得到有效促進(jìn)。
3語義網(wǎng)環(huán)境下實現(xiàn)數(shù)字圖書館資源聚合要解決的關(guān)鍵技術(shù)
3.1 領(lǐng)域本體集成技術(shù)
在整個檢索系統(tǒng)中,領(lǐng)域本體是基礎(chǔ),作用于多個模塊,在整個體系結(jié)構(gòu)中貫穿始終,提供參考和依據(jù)以實現(xiàn)各模塊的功能,是整個系統(tǒng)中最關(guān)鍵的部分。在數(shù)字圖書館資源聚合中構(gòu)建領(lǐng)域本體時,根據(jù)構(gòu)建需求,引入了螺旋模型的思想,即在迭代過程中不斷對本體進(jìn)行完善,在進(jìn)行系統(tǒng)開發(fā)時采用周期性的方法進(jìn)行若干次的迭代,其迭代路徑是沿螺線進(jìn)行的,這種模型還適用于需求不明確的開發(fā)情況,在需求變更時能更靈活地應(yīng)對。在進(jìn)行數(shù)字圖書館信息資源領(lǐng)域本體的構(gòu)建時,遵循以下流程[6]:首先進(jìn)行需求分析,然后展開本體分析,并在此基礎(chǔ)上進(jìn)行本體的編寫,即本體的構(gòu)建;在建立初步的領(lǐng)域本體之后,還要驗證與評價本體,不過截至目前,評價方法和測試集還沒有一個統(tǒng)一的標(biāo)準(zhǔn);最后是對已構(gòu)建的本體不斷完善,以適應(yīng)實際應(yīng)用。
3.2 大數(shù)據(jù)挖掘與集成技術(shù)
隨著館藏信息資源的激增,大數(shù)據(jù)時代已經(jīng)到來,給數(shù)字圖書館的資源聚合帶來了巨大的挑戰(zhàn),尤其體現(xiàn)在對圖書館數(shù)據(jù)的分析和挖掘?qū)ふ移浔澈箅[性知識方面。在數(shù)字圖書館中,對館藏資源的聚合要充分利用大數(shù)據(jù)的理論與技術(shù)優(yōu)勢,采用數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)挖掘與分析,完成知識模型的構(gòu)建,實現(xiàn)信息資源的深度聚合,提高知識發(fā)現(xiàn)服務(wù)能力,達(dá)到提高知識服務(wù)能力的目的。
3.3 語義知識與信息資源轉(zhuǎn)換技術(shù)
在語義網(wǎng)環(huán)境下,首先通過高速的互聯(lián)網(wǎng)把不同分布位置的計算資源進(jìn)行集合,組成充分共享的提供高性能計算能力的資源,這個過程稱為網(wǎng)格化。網(wǎng)格和語義網(wǎng)的融合,能使語義知識的語義更高,計算能力更強(qiáng)。語義網(wǎng)格架構(gòu)與數(shù)字圖書館相比,其分布式環(huán)境與信息環(huán)境是一致的,在承認(rèn)環(huán)境無序的前提下,數(shù)字圖書館尋找的解決方案是跨語義的,而在Web環(huán)境中,語義網(wǎng)格還要再進(jìn)行中間環(huán)境的構(gòu)建,使信息體在符合環(huán)境的同時還要具有語義互操作功能。數(shù)字圖書館和語義網(wǎng)格的共同目標(biāo)是形式化地描述信息,把信息中的語義信息通過機(jī)器進(jìn)行認(rèn)識,實現(xiàn)語義和信息資源的相互轉(zhuǎn)換。
4語義網(wǎng)環(huán)境下數(shù)字圖書館資源聚合模式的構(gòu)建
4.1 基于關(guān)聯(lián)數(shù)據(jù)的深度聚合模式研究
關(guān)聯(lián)數(shù)據(jù)技術(shù)與傳統(tǒng)的信息聚合技術(shù)相比較,其聚合方法更為靈活易實現(xiàn),從用戶的角度來說,只需要關(guān)心信息本身即可;從圖書館的角度來說,通過數(shù)據(jù)的關(guān)聯(lián)進(jìn)行本館資源與外部資源的整合,資源范圍得到擴(kuò)展,用戶服務(wù)得以改進(jìn),圖書館價值得到提升。圖1給出了基于關(guān)聯(lián)數(shù)據(jù)的深度聚合模式,該模式共分三層,其中數(shù)據(jù)層包括兩大部分,分別為本地數(shù)據(jù)源以及外部的各種數(shù)據(jù)集,這些數(shù)據(jù)集可以利用不同的方法轉(zhuǎn)換成連接到數(shù)據(jù)網(wǎng)絡(luò)中的關(guān)聯(lián)數(shù)據(jù);在聚合層中,首先圖書館進(jìn)行關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的訪問,在訪問時遵循統(tǒng)一的規(guī)范,然后對關(guān)聯(lián)數(shù)據(jù)和本館資源進(jìn)行本體映射之后進(jìn)行實體識別,在實體識別時是自動或半自動的,最終形成集成數(shù)據(jù);在應(yīng)用層,圖書館主要是在聚合信息的基礎(chǔ)上對原有應(yīng)用進(jìn)行拓展,在聚合層中生成的集成數(shù)據(jù),實現(xiàn)了數(shù)據(jù)融合與檢索,為用戶提供新的資源,另外,還在學(xué)術(shù)交流過程中越來越多地參與進(jìn)去。
4.2 基于主題模型的深度聚合模式研究
在語義網(wǎng)環(huán)境下,基于主題模型的深度聚合模式目前應(yīng)用領(lǐng)域主要包括兩個方面:一是圖形圖像,二是文本知識處理。在文獻(xiàn)資源生成過程的模擬中利用了主題模型,詞項在共現(xiàn)信息中有很多主題集合,從中進(jìn)行語義相關(guān)的主題集合的抽取,并進(jìn)行參數(shù)估計,進(jìn)行文本挖掘。通過主題模型轉(zhuǎn)化成新的主題,并在低維空間中進(jìn)行表達(dá)。在主題模型中,多采用LDA模型,這是一種生成模型,在隱含變量里該模型能進(jìn)行生成文本過程的描述,又被稱為層次概率模型,其模型圖如圖2所示。
4.3 基于信息整合的深度聚合模式研究
在異構(gòu)、異質(zhì)資源中通過一定的標(biāo)準(zhǔn)和技術(shù)進(jìn)行物理或邏輯上的互聯(lián)互通,在多種資源中實現(xiàn)一站式的搜索就是數(shù)據(jù)整合,但是數(shù)據(jù)整合通常沒有揭示和組織數(shù)據(jù)對象之間的關(guān)系。用戶在信息環(huán)境下,既希望能實現(xiàn)一站式搜索,又想在獲取關(guān)聯(lián)資源時能做到一步到位,這就需要有效地組織和整合信息的實體關(guān)系。這種基于信息的資源整合,其方式主要基于信息門戶?;谡Z義網(wǎng)環(huán)境下數(shù)字圖書館的信息集成模型如圖3所示[7],該模型共分為五層,其中數(shù)據(jù)源層中要進(jìn)行元數(shù)據(jù)標(biāo)準(zhǔn)的制定;信息描述與組織層中主要使用了RDF技術(shù);在語義整合層中運(yùn)用了語義規(guī)則進(jìn)行本體一致性檢測以及語義推理的實現(xiàn);最后經(jīng)過整合的信息提供給用戶交互層,為用戶提供服務(wù)。圖3基于信息集成的深度聚合模式
5結(jié)語
在語義網(wǎng)環(huán)境下的資源聚合,實現(xiàn)了在數(shù)字資源中語義聯(lián)系的深度揭示,對知識體之間的聯(lián)系能更好地分析和利用,達(dá)到優(yōu)化檢索結(jié)果的目的。數(shù)字圖書館在語義網(wǎng)環(huán)境下進(jìn)行資源聚合,統(tǒng)一組織信息資源,對語義描述和描述進(jìn)一步加強(qiáng)、加深,使被檢索的資源量得到進(jìn)一步擴(kuò)大,數(shù)字圖書館的知識服務(wù)能力也得到有效提高。
[參考文獻(xiàn)]
[1] 趙冬梅.圖書館信息資源整合[J].情報科學(xué),2010,23(3):362—366.
[2] 肖希明,袁琳.中國圖書館藏書發(fā)展政策研究[M].南京:南京大學(xué)出版社,2009:64—67.
[3] 李卓卓.信息資源共享系統(tǒng)績效評估研究[D].武漢:武漢大學(xué),2009.
[4] 胡群策.論21世紀(jì)高校圖書館服務(wù)[J].大學(xué)圖書情報學(xué)刊,2011,23(5):13—15.
[5] 馬張華.信息組織[M].北京:清華大學(xué)出版社,2008:1—7.
[6] 李星星.館藏資源深度聚合及應(yīng)用研究[D].武漢:華中師范大學(xué),2013.
[7] 劉衛(wèi)寧.語義網(wǎng)環(huán)境下數(shù)字圖書館信息資源集成模型研究[J].圖書館理論與實踐,2014(1):84.