國內(nèi)數(shù)字圖書館技術(shù)研究的可視化分析
韓牧哲,李秀霞,張藝蔓
(曲阜師范大學(xué)傳媒學(xué)院,日照 276826)
摘要:數(shù)字圖書館是隨迅速發(fā)展的信息技術(shù)產(chǎn)生的圖書館新形態(tài),經(jīng)過對數(shù)字圖書館20年的研究和實踐,國內(nèi)很多數(shù)字圖書館建設(shè)和服務(wù)中應(yīng)用的技術(shù)已經(jīng)非常成熟。文章通過對21世紀(jì)以來我國關(guān)于數(shù)字圖書館應(yīng)用技術(shù)的期刊論文進行統(tǒng)計和計量分析,在初步了解數(shù)字圖書館技術(shù)發(fā)文量趨勢之后進行聚類分析,將數(shù)字圖書館技術(shù)分為十類,并生成了可視化圖譜,從而更深入地了解數(shù)字圖書館各種技術(shù)及其關(guān)聯(lián)結(jié)構(gòu)。
關(guān)鍵詞:數(shù)字圖書館;技術(shù)應(yīng)用;聚類分析;可視化分析
Visualization of research of digital library technologies in China
HAN Mu-zhe, LI Xiu-xia, ZHANG Yi-man
(Qufu Normal University, Rizhao 276826, China)
Abstract:Digital library is a new form of library which was spawned by the rapid developing information technology. Through the research and practice of the digital library in China with a history of more than 20 years, the authors hold that both the construction and service technologies of digital library have already become mature. This article uses statistical and quantitative analysis method to study the journal papers on the theme of “technologies of digital library” in China since the beginning of the twenty-first century. The cluster analysis was also conducted after a preliminary understanding of trends of the quantity of published technological assays on digital library, and we have divided the digital library technologies into ten categories. A diagram of the major technologies of digital library is presented in this article, which helps the fellow workers to perceive a deeper understanding of various technologies associated with the structure of digital library.
Key words:digital library; major technologies; cluster analysis; visualization
引言
數(shù)字圖書館是一個數(shù)字化系統(tǒng)。它將分散于不同載體、不同地理位置的信息資源以數(shù)字化的形式貯存,以網(wǎng)絡(luò)化的方式互相連接,提供及時利用,實現(xiàn)資源共享,其核心是數(shù)字化和網(wǎng)絡(luò)化,其實質(zhì)則是形成有序的信息空間[1]。國內(nèi)關(guān)于數(shù)字圖書館的研究始于1995年,前十年引入網(wǎng)絡(luò)信息技術(shù),豐富了圖書館的職能,并在一定程度上用網(wǎng)絡(luò)信息技術(shù)取代和發(fā)展了部分圖書館傳統(tǒng)工作。而步入“后數(shù)字圖書館”時代以來,以數(shù)字圖書館為依托的“泛在圖書館”“移動圖書館”等數(shù)字圖書館未來形態(tài)也是以這些關(guān)鍵技術(shù)為基礎(chǔ)的。本文統(tǒng)計了數(shù)字圖書館研究和建設(shè)中所使用的各種關(guān)鍵技術(shù),理清各種技術(shù)之間的關(guān)系,并運用趨勢分析方法和聚類分析方法得到相關(guān)的可視化結(jié)果,揭示數(shù)字圖書館研究和建設(shè)中所使用的各種具體技術(shù),旨在對數(shù)字圖書館及其未來形態(tài)的技術(shù)模式能有更深入的了解。
1研究方法和工具
本文運用趨勢分析方法對數(shù)字圖書館技術(shù)的學(xué)術(shù)關(guān)注度進行統(tǒng)計,以便從整體上把握數(shù)字圖書館和數(shù)字圖書館技術(shù)應(yīng)用主題的發(fā)展趨勢和現(xiàn)狀。使用基于關(guān)鍵詞的聚類分析方法對數(shù)字圖書館所使用的各種關(guān)鍵技術(shù)進行分類,生成可視化結(jié)果,用以揭示數(shù)字圖書館技術(shù)主題內(nèi)部的學(xué)科關(guān)系。使用的主要工具是書目共現(xiàn)分析軟件Bicomb,用來統(tǒng)計和提取目標(biāo)文獻的高頻關(guān)鍵詞并生成共詞矩陣;統(tǒng)計分析軟件包SPSS19.0,用來做聚類分析。
2文獻來源和數(shù)據(jù)處理
本文從CNKI全國期刊論文數(shù)據(jù)庫中,限定專業(yè)檢索,檢索數(shù)字圖書館研究主題內(nèi)相關(guān)的具體技術(shù)的應(yīng)用。使用檢索式“核心期刊=Y 或者 來源標(biāo)識碼=P0209 并且 年 between (2000,2013) 并且 主題=數(shù)字圖書館 并且 題名=技術(shù) (精確匹配)”,檢索日期為2014年7月18日。得到期刊論文671篇,排除紀(jì)要類、綜述類等無關(guān)文獻后,得到有效文獻488篇,構(gòu)成本文的數(shù)據(jù)來源。
為對整個數(shù)字圖書館的研究關(guān)注趨勢進行更全面的把握,本文同時統(tǒng)計了2000~2013年CNKI中文核心期刊數(shù)據(jù)庫中收錄的以“數(shù)字圖書館”為主題的期刊論文的發(fā)文量,并分年展示,用以與技術(shù)應(yīng)用類發(fā)文數(shù)量和關(guān)注趨勢進行對比,這部分?jǐn)?shù)據(jù)將不應(yīng)用于本文的聚類分析。
關(guān)鍵詞利用Bicomb書目共現(xiàn)分析系統(tǒng)提取數(shù)字圖書館技術(shù)應(yīng)用類論文488篇的字段,并進行一定的數(shù)據(jù)清洗工作:同義詞合并,如“射頻識別”和“RFID”進行合并;上下位詞合并,如“智能Agent”“移動Agent”合并為“Agent”技術(shù);無關(guān)詞清理,只保留相關(guān)的具體技術(shù)詞項、技術(shù)分類詞項和應(yīng)用領(lǐng)域詞項,剔除高頻詞中表意籠統(tǒng)或沒有分析價值的詞項如“趨勢”“發(fā)展”等。最終得到有效的關(guān)鍵詞1911個,其中不同詞項694個。
關(guān)鍵詞本文采用手動劃定閾值進行高頻詞界分,設(shè)定出現(xiàn)頻次不低于5次的詞項為高頻,得到高頻詞項57個,占累計百分比60.85%,具有較好的代表性。由于“數(shù)字圖書館”作為主題詞具有超高頻詞,無法反映該主題的內(nèi)部關(guān)系,“圖書館”“Internet”涵蓋內(nèi)容過于寬泛,沒有統(tǒng)計意義,在分析時不予采用。最終得到高頻關(guān)鍵詞54個。
3數(shù)據(jù)分析
學(xué)術(shù)關(guān)注度通過對目標(biāo)學(xué)科領(lǐng)域的發(fā)文量進行統(tǒng)計,可以從一定程度上反應(yīng)該領(lǐng)域的研究進展和發(fā)展速度。本文通過兩個絕對指標(biāo)和一個相對指標(biāo)來研究數(shù)字圖書館技術(shù)的學(xué)術(shù)關(guān)注度:
(1)2000~2013年數(shù)字圖書館主題領(lǐng)域內(nèi)有關(guān)具體技術(shù)的開發(fā)和應(yīng)用研究的核心期刊論文數(shù)量,單位用“篇”來表示;能夠直觀展現(xiàn)數(shù)字圖書館技術(shù)類研究的學(xué)術(shù)關(guān)注度。
(2)2000~2013年數(shù)字圖書館主題的核心期刊論文數(shù)量,單位用“十篇”來表示;能夠和技術(shù)類研究趨勢進行對比。
(3)數(shù)字圖書館主題論文中技術(shù)類文獻所占的比例,單位為“千分比(‰)”;能夠揭示對具體技術(shù)類研究在整個數(shù)字圖書館研究中的重要性。
為了將三個指標(biāo)更直觀地展示在一張圖上,采用不同的單位計量,主要需要分析的是整體趨勢而非絕對數(shù)量,由此生成的圖譜如圖1所示。
圖1 文獻量分年統(tǒng)計圖
國內(nèi)關(guān)于數(shù)字圖書館的研究自1995年發(fā)端以來,在21世紀(jì)進入快速發(fā)展時期,其學(xué)術(shù)關(guān)注度在2004年達到頂峰,當(dāng)年核心期刊發(fā)表相關(guān)主題論文869篇,隨后其關(guān)注度逐漸被一些繼起的新興理念和后數(shù)字圖書館研究所取代而走向衰退。而數(shù)字圖書館中應(yīng)用的各種具體技術(shù)的研究趨勢和數(shù)字圖書館研究主題的發(fā)展趨勢并非完全一致,但是深受數(shù)字圖書館整體研究趨勢的影響。技術(shù)應(yīng)用類的研究自21世紀(jì)以來一直以較快的速度發(fā)展,并在2004~2006三年間達到峰值,其后開始衰弱;其在數(shù)字圖書館的總體研究中所占比例在2006年達到峰值,隨后也逐漸走向衰弱,象征著在“后數(shù)字圖書館”時代的數(shù)字圖書館具體技術(shù)的研究和開發(fā)已經(jīng)不再是主流話題,這個階段學(xué)者們對數(shù)字圖書館的研究更多集中于基于成熟技術(shù)之上的對數(shù)字圖書館服務(wù)模式的探討和在新時期對數(shù)字圖書館未來發(fā)展形態(tài)的思辨。
從整體趨勢上來看,預(yù)計未來幾年數(shù)字圖書館的研究熱度會繼續(xù)下降,很多關(guān)鍵技術(shù)已經(jīng)非常成熟并且大量投入到數(shù)字圖書館的建設(shè)實踐中,而對各種關(guān)鍵技術(shù)的研究和開發(fā)將不會局限于數(shù)字圖書館領(lǐng)域,可能在其他新興領(lǐng)域得到進一步發(fā)展。
關(guān)鍵詞利用Bicomb軟件生成54*54的高頻共詞矩陣,導(dǎo)入SPSS19.0統(tǒng)計軟件進行分析。選擇分析-分類-系統(tǒng)聚類,距離方法選擇離差平方和法,度量標(biāo)準(zhǔn)選用計數(shù)Phi方度量,標(biāo)準(zhǔn)化選擇Z得分,由此得到系統(tǒng)聚類分析可視化結(jié)果如圖2所示。
圖2聚類分析樹狀圖
關(guān)鍵詞通過樹狀圖分析結(jié)果,結(jié)合各間的語義關(guān)系,可以將54個目標(biāo)詞項劃分為十個類團,具體的類團劃分已用輔助標(biāo)線在圖中進行標(biāo)注。由此通過計算類團內(nèi)部關(guān)鍵詞的粘合度,結(jié)合語義對各個類團進行命名。由此得到了十個涵蓋關(guān)鍵技術(shù)的類團,分別涉及數(shù)字圖書館的存儲、檢索、資源建設(shè)、資源描述、信息組織、信息安全、知識服務(wù)和系統(tǒng)集成等各個方面,如表2所示。
中圖分類號:G252.8 文獻標(biāo)識碼:A
作者簡介:韓牧哲,男,碩士研究生。
收稿日期:2014-09-24
表2 各類團命名及粘合度
其中值得注意的是,由于聚類算法本身存在排斥性缺陷[2],單純依靠聚類分析結(jié)果會有不合理的地方,如“信息采訪”詞項涵蓋了圖書采訪、數(shù)字資源采購等關(guān)鍵詞,應(yīng)該屬于類IX資源建設(shè)范疇,但是聚類分析卻將此詞項歸類于推薦技術(shù)。這里并非試圖隔斷信息采訪與各種信息推薦技術(shù)的客觀聯(lián)系,不過僅從語義上判斷聚類分析的結(jié)果有時很難做到合理精確。
4數(shù)字圖書館應(yīng)用技術(shù)分析
從上文的數(shù)據(jù)分析中能夠清楚地看到國內(nèi)對數(shù)字圖書館的應(yīng)用技術(shù)研究分為十類,下面將具體闡述每一類中的具體技術(shù)及其在數(shù)字圖書館中的應(yīng)用狀況。
數(shù)字圖書館需要對海量數(shù)字化虛擬化的信息資源進行存儲。存儲技術(shù)類團中涉及了四種具體技術(shù),分別是磁盤陣列(Redundant Arrays of independent Disks,RAID)、直連式存儲(Direct-Attached Storage,DAS)、網(wǎng)絡(luò)附屬存儲(Network-Attached Storage,NAS)和存儲區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN)。
RAID是當(dāng)前數(shù)字圖書館廣泛使用的存儲大量數(shù)字化資源的存儲設(shè)備,是數(shù)字存儲的硬件基礎(chǔ)[3]。而DAS、NAS、SAN分別是當(dāng)前最為流行的三種數(shù)據(jù)存儲方式。其中DAS與計算機采用直連方式,硬件要求較低,技術(shù)成熟,成本低,在數(shù)據(jù)量較小的數(shù)字圖書館應(yīng)用較為普遍,但是由于效率較低,不適合大規(guī)模數(shù)據(jù)的存儲。NAS和SAN都是網(wǎng)絡(luò)存儲技術(shù),NAS又稱“網(wǎng)絡(luò)存儲器”,以其開放性、共享性而被廣泛應(yīng)用,但是由于其數(shù)據(jù)傳輸需要占用帶寬而會使效率降低;SAN則因其獨立存儲和高效率被需要進行大規(guī)模的數(shù)據(jù)存儲和傳輸?shù)臋C構(gòu)所青睞[4]。在非結(jié)構(gòu)化數(shù)據(jù)激增的大數(shù)據(jù)時代,有學(xué)者開始關(guān)注NAS和SAN技術(shù)的互補利用、強強聯(lián)合,從而為移動環(huán)境下的圖書館存儲找到更好的解決方式。
對數(shù)字化信息資源的描述是數(shù)字圖書館開展信息組織工作的基礎(chǔ),這項技術(shù)其實是傳統(tǒng)圖書館編目和著錄工作的延伸,自從數(shù)字圖書館和數(shù)字化資源理念提出以來就一直廣受關(guān)注。
該類團涵蓋五個具體詞項。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),是數(shù)字化資源描述的基礎(chǔ),而DC則是當(dāng)前國際上最權(quán)威的元數(shù)據(jù)標(biāo)準(zhǔn);機讀目錄格式(Machine-Readable Cataloging,MARC),是進行信息資源描述的格式標(biāo)準(zhǔn),用以讓圖書館或出版商之間作目錄信息交換用途,常用的有美國的USMARC和我國的CNMARC[5];XML和RDF是兩種用于描述信息資源的標(biāo)記語言,資源描述框架(Resource Description Framework,RDF)是可擴展標(biāo)記語言(Extensible Markup Language,XML)的子集,RDF使用XML的語法將Web資源的元數(shù)據(jù)描述成數(shù)據(jù)模型[6],對數(shù)字圖書館標(biāo)記和描述網(wǎng)絡(luò)虛擬資源有重要作用。
文獻信息檢索是圖書館的傳統(tǒng)工作,但是數(shù)字化信息檢索技術(shù)的應(yīng)用對傳統(tǒng)圖書館而言是革命性的。數(shù)據(jù)挖掘技術(shù)、信息抽取技術(shù)、信息過濾技術(shù)和Agent技術(shù)都為實現(xiàn)數(shù)字化、網(wǎng)絡(luò)化信息檢索提供了技術(shù)基礎(chǔ)。但是在這個類團中,需要著重探討的是有關(guān)檢索本身的幾種技術(shù)。
基于內(nèi)容的檢索(Content-Based Retrieval,CBR),是一種區(qū)別于傳統(tǒng)基于文本的檢索理念,它對信息資源內(nèi)容本身進行編碼,并通過對比可以識別的內(nèi)容特征實現(xiàn)檢索,而不是像傳統(tǒng)檢索一樣從標(biāo)題、標(biāo)簽、描述、格式等外部特征出發(fā)進行檢索[7]?;趦?nèi)容的檢索是實現(xiàn)圖像檢索和多媒體檢索的基礎(chǔ),因此該類團中另外兩種技術(shù)可以更準(zhǔn)確地稱之為基于內(nèi)容的圖片檢索和基于內(nèi)容的多媒體檢索。這種技術(shù)在當(dāng)前的IT領(lǐng)域非常熱門,有些多媒體搜索引擎已經(jīng)開始投入使用。這種檢索方式的創(chuàng)新對于數(shù)字圖書館所收藏的大量靜態(tài)動態(tài)圖像資源和多媒體信息資源的整序與服務(wù)有重要意義。
本類團涉及的關(guān)鍵技術(shù)有:數(shù)字版權(quán)管理(Digital Right Management,DRM),這是一種數(shù)字版權(quán)加密保護技術(shù)[8]。它不僅能夠?qū)ξ谋绢愋偷臄?shù)字資源進行加密保護,而且能夠?qū)σ纛l、視頻等多媒體資源提供版權(quán)保護。數(shù)字水印技術(shù)是將一種隱藏的標(biāo)識信息嵌入到數(shù)字化資源中或者間接表示,數(shù)字水印不會影響用戶對數(shù)字資源的正常使用,無法被更改和刪除,但是可以通過相關(guān)技術(shù)讀取和識別,從而為版權(quán)人提供版權(quán)保護。用戶識別和訪問控制技術(shù)都是對用戶權(quán)限進行限制的必要安全技術(shù)手段,可以從源頭上杜絕一些侵權(quán)行為或者非法訪問和編輯,從而更好地為其他用戶提供權(quán)力均等的服務(wù)。
信息推薦是數(shù)字圖書館開展主動服務(wù)和個性化服務(wù)的重要手段和形式,數(shù)字圖書館研究中涉及較多的技術(shù)有推拉技術(shù)(Push & Pull)和信息聚合技術(shù)(RSS)。這兩種技術(shù)通過分析用戶的喜好評價用戶的閱讀習(xí)慣,從而有針對性地向用戶推送其所需要的信息,提供主動的知識信息服務(wù)。而信息聚合技術(shù)則是在數(shù)字圖書館平臺上嵌入RSS訂閱服務(wù),用戶可以自行設(shè)計和選擇感興趣的信息模塊接受信息訂閱。
該類團中電子商務(wù)和信息采訪兩個詞項從語義判斷應(yīng)該歸類到資源建設(shè)類團,受制于聚類算法的局限性,在此處不做探討。
互操作是指一種能力,使得分布的控制系統(tǒng)設(shè)備通過相關(guān)信息的數(shù)字交換,能夠協(xié)調(diào)工作,從而達到一個共同的目標(biāo)。數(shù)字圖書館的互操作性主要是分布式系統(tǒng)間實現(xiàn)互操作,從而完成資源共享、館際互借等操作。解決分布式異構(gòu)系統(tǒng)的互操作性問題的關(guān)鍵技術(shù)主要有網(wǎng)格技術(shù)、OAI協(xié)議和公共對象請求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture, CORBA)。另外,在高頻詞中沒有體現(xiàn)的中間件技術(shù)(middleware)也與此類團密切相關(guān)。
網(wǎng)格技術(shù)是一種分布式系統(tǒng),可以實現(xiàn)資源共享,消除信息孤島;具有協(xié)同工作特性;提供通用的開放標(biāo)準(zhǔn)、非集中控制;提供動態(tài)服務(wù),能夠適應(yīng)變化并具有高度的可擴展性[9]。OAI協(xié)議是一種能獨立應(yīng)用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標(biāo)準(zhǔn)[10]。CORBA是OMG組織制定的一種標(biāo)準(zhǔn)的面向?qū)ο髴?yīng)用程序體系規(guī)范,是為解決分布式處理環(huán)境(DCE)中,硬件和軟件系統(tǒng)的互連而提出的一種解決方案。CORBA協(xié)議將分布式計算和面向?qū)ο蟮母拍钕嗷ソY(jié)合,它本身也是一種中間件技術(shù),可以被看作把應(yīng)用程序和通信核心的細節(jié)分離的軟件[11]。
數(shù)字圖書館建設(shè)中需要面對和處理大量異構(gòu)系統(tǒng)和非結(jié)構(gòu)化的信息資源,這些異構(gòu)和非結(jié)構(gòu)化問題會帶來集成性隔斷,人為地阻礙知識的共享和傳遞。因此,數(shù)字圖書館研究中必須要深入探討各種集成技術(shù)。
數(shù)字圖書館面臨的集成化問題至今還是重要的話題,界面集成化、信息與工作空間集成化、行政集成化、鑒權(quán)集成化、信息技術(shù)與服務(wù)集成化等問題在20年的發(fā)展中很多已經(jīng)得到了良好的改善。如針對異構(gòu)數(shù)據(jù)庫提出的集成化技術(shù),如多代理系統(tǒng)(Multi-agent)和跨庫檢索技術(shù)(CSDL)、跨語言檢索技術(shù)(CLIR)等已經(jīng)非常成熟并廣泛應(yīng)用于數(shù)字圖書館的建設(shè)中。而一些旨在支持全格式存儲、傳遞、閱讀數(shù)字化信息資源的資源整合技術(shù)對解決非結(jié)構(gòu)化數(shù)據(jù)的整序問題大有幫助。而被劃分在本類團的WebService技術(shù)是一種被廣泛應(yīng)用的綜合性技術(shù)。該技術(shù)首次利用web標(biāo)準(zhǔn)將拆解后的不同軟件的組成部分集成起來,這項技術(shù)為當(dāng)時的web技術(shù)提供了一種全新的功能模式[12]。
數(shù)字化技術(shù)是將紙質(zhì)、磁介質(zhì)、縮微膠片等傳統(tǒng)方式存儲的圖文聲像資源進行數(shù)字轉(zhuǎn)化,使之成為能夠被計算機網(wǎng)絡(luò)識別、讀取、傳輸和利用的數(shù)字化資源的技術(shù)類型[13]。早期的文本識別、OCR等文獻資源數(shù)字化技術(shù)近年來發(fā)展迅速,我國的書生公司當(dāng)前已經(jīng)研發(fā)出先進的全息數(shù)字化技術(shù)[14];同時隨著新興的虛擬現(xiàn)實技術(shù)的日漸成熟,在不久的將來,數(shù)字閱讀或可無限接近紙質(zhì)文獻的閱讀體驗。數(shù)字化文獻信息資源的長期保存問題也是圖書館學(xué)領(lǐng)域研究的熱點,這項技術(shù)一方面和數(shù)字倉儲技術(shù)密切相關(guān),但是很大程度上受到數(shù)字化資源類型的限制。被劃分到其他類團的信息采訪和電子商務(wù)應(yīng)與數(shù)字化資源的采訪有關(guān),也屬于資源建設(shè)范疇,但是并非具體技術(shù)的應(yīng)用,此處不再贅述。
這個類團所涉及的技術(shù)范疇是綜合性的,都和Web2.0及Web3.0理念有關(guān)。其主要涉及的是基于本體論(Ontology)提出的語義網(wǎng)(Semantic Web)概念、流媒體形式的信息組織形式和基于P2P理念的信息共享技術(shù)。
本體論是一個哲學(xué)范疇,在信息系統(tǒng)和知識系統(tǒng)領(lǐng)域被賦予了新的含義,Studer等人認(rèn)為本體論是共享概念模型的明確的形式化規(guī)范說明,這也是目前對 Ontology 概念的統(tǒng)一看法[15]。Tim Berners-Lee于1998年提出的語義網(wǎng)模型有三個關(guān)鍵要素,其以RDF和XML為技術(shù)基礎(chǔ),而本體論則是具有一個分類體系和一系列的推理原則的形式化定義語詞關(guān)系的規(guī)范化文件[16]。這個模型與Web3.0理念不謀而合,對實現(xiàn)資源描述和信息組織方式的創(chuàng)新有重要意義。流媒體技術(shù)是當(dāng)前在信息組織中應(yīng)用最廣的方法之一,它的安全性高,傳輸性好,廣為數(shù)字圖書館研究者所青睞。對等互聯(lián)網(wǎng)技術(shù)(P2P)對于有針對性的需求-服務(wù)匹配的信息資源共享有很好的作用。這些技術(shù)被綜合應(yīng)用于數(shù)字圖書館中,提供了良好的信息組織和知識服務(wù)手段。
為用戶提供個性化服務(wù)是評價和衡量數(shù)字圖書館的重要指標(biāo)。而個性化服務(wù)體現(xiàn)在數(shù)字圖書館工作的各個方面,本類團中涉及的技術(shù)主要是指在云計算和數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的支持個性化信息檢索的Agent技術(shù);能夠提供個性化服務(wù)環(huán)境的應(yīng)用程序虛擬化技術(shù);基于信息抽取和信息過濾技術(shù)的個性化信息服務(wù)。
Agent技術(shù)是一種分布式計算技術(shù),基于它開發(fā)的異構(gòu)數(shù)據(jù)庫信息檢索系統(tǒng)在滿足用戶個性化信息需求方面有不錯的效果[17]。虛擬化技術(shù)主要分為平臺虛擬化、資源虛擬化、應(yīng)用程序虛擬化和表示層虛擬化。基于應(yīng)用層的虛擬化技術(shù),通過保存用戶個性化計算環(huán)境的配置信息,可以實現(xiàn)在任意計算機上重現(xiàn)用戶的個性化計算環(huán)境[18]。信息抽取技術(shù)和信息檢索相輔相成,它是將文本中所包含的信息進行結(jié)構(gòu)化處理,將各個文檔中的信息點抽取出來,然后用統(tǒng)一的形式集成在一起,對處理大數(shù)據(jù)時代的海量信息有重要作用。信息抽取技術(shù)與信息過濾技術(shù)和信息推送技術(shù)相結(jié)合,可以按照用戶需求屏蔽掉冗余信息并向用戶推送其感興趣的信息,從而可以很好地實現(xiàn)個性化信息服務(wù)。數(shù)字圖書館中的各項技術(shù)其實都有以個性化服務(wù)為指標(biāo)進行的度量,在大數(shù)據(jù)時代,各種非結(jié)構(gòu)化信息大規(guī)模增長,需要未來數(shù)字圖書館服務(wù)更加注重個性化。個性化服務(wù)的技術(shù)遠不止于此,隨著以用戶為本理念的推行,個性化服務(wù)將成為數(shù)字圖書館未來形態(tài)中最受關(guān)注的指標(biāo)。
5結(jié)語
本文對21世紀(jì)以來的我國數(shù)字圖書館應(yīng)用技術(shù)主題的期刊論文進行了統(tǒng)計分析。由于所分析的主題已經(jīng)進入學(xué)科發(fā)展的后期階段,再進行發(fā)展趨勢預(yù)測沒有意義,不過對數(shù)字圖書館關(guān)鍵技術(shù)的革新以及這部分學(xué)者關(guān)注的最新熱點對數(shù)字圖書館未來形態(tài)的發(fā)展意義重大。同樣這些技術(shù)作為數(shù)字圖書館的基礎(chǔ)性技術(shù),其最新的發(fā)展也會是筆者今后關(guān)注的重點。
參考文獻:
[1] 李培.數(shù)字圖書館原理及應(yīng)用[M].北京:高等教育出版社,2004.3-6.
[2] 李佳.共詞矩陣在聚類結(jié)果分析中的作用[J].中華醫(yī)學(xué)圖書情報雜志,2009,(4):77-80.
[3] 金海,張江陵.磁盤陣列技術(shù)及其發(fā)展趨勢[J].微處理機,1995,(2):5-11.
[4] 謝勝彬,陶洋,王國梁.DAS、NAS與SAN的研究與應(yīng)用[J].計算機與現(xiàn)代化,2003,(7):8-11.
[5] 胡小菁,李愷.MARC四十年的發(fā)展及其未來[J].中國圖書館學(xué)報,2010,(2):83-89.
[6] 黃偉紅,張福炎.基于XML/RDF的MARC元數(shù)據(jù)描述技術(shù)[J].情報學(xué)報,2000,(4):326-332.
[7] 趙一丹.論數(shù)字圖書館基于內(nèi)容的多媒體數(shù)據(jù)查詢和檢索技術(shù)[J].中國圖書館學(xué)報,2001,(3):57-59.
[8] 吳慰慈,董焱.圖書館學(xué)概論[M].北京:國家圖書館出版社,2008.350-351.
[9] 史寧.網(wǎng)格技術(shù)與分布式數(shù)字圖書館[J].現(xiàn)代情報,2007,(4):102-105.
[10] 鄭志蘊,徐瑋,宋瀚濤等.網(wǎng)格環(huán)境下基于OAI的數(shù)字圖書館互操作機制[J].計算機工程,2006,(10).
[11] 周善儒.基于CORBA中間構(gòu)件的數(shù)字圖書館異構(gòu)資源集成方法研究[J].現(xiàn)代圖書情報技術(shù),2003,(2):19-20.
[12] Roman D, Keller U, Lausen H, et al. Web service modeling ontology[J]. Applied ontology,2005,1(1):77-106.
[13] 林靜.圖書館館藏資源數(shù)字化建設(shè)[J].圖書館學(xué)研究,2004,(7):33-35.
[14] 劉錦山.書生全息數(shù)字化技術(shù)在數(shù)字圖書館建設(shè)中的應(yīng)用[J].圖書情報工作,2001,(9).
[15] 劉穎,詹 萌.Ontology在數(shù)字圖書館領(lǐng)域中的應(yīng)用與研究綜述[J].圖書館雜志,2005,(6):53-58.
[16] 簡玉仙,程曉穎,朱曉冰.一種基于本體語義控制的數(shù)字圖書館技術(shù)研究[J].科技情報開發(fā)與經(jīng)濟,2009,(8):34-35.
[17] 滕勝娟.從移動Agent技術(shù)的應(yīng)用看圖書館信息服務(wù)的個性化[J].圖書情報工作,2011,(S1):223-224.
[18] 劉榮發(fā).服務(wù)器虛擬化技術(shù)在圖書館數(shù)字化服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2007,(4).
(責(zé)任編輯:王靖雯)