賀令輝
(中山大學(xué)圖書館,廣東 廣州 510275)
隨著分布式、并行式和網(wǎng)格計(jì)算的不斷發(fā)展,云計(jì)算作為全新的計(jì)算模型出現(xiàn)在人們的視野之中。在云計(jì)算模式下,對(duì)于數(shù)據(jù)信息的計(jì)算是由眾多計(jì)算機(jī)的資源池所完成的。根據(jù)不同應(yīng)用系統(tǒng)的需求,資源池上可以提供軟件服務(wù)、數(shù)據(jù)存儲(chǔ)服務(wù)、計(jì)算服務(wù)等多種服務(wù)。因此,云計(jì)算能夠在很大程度上提高數(shù)據(jù)運(yùn)算能力和資源檢索速度。
云計(jì)算這一全新計(jì)算概念在2007年甫一出現(xiàn)就受到世界的廣泛關(guān)注。在各大信息服務(wù)巨頭的研究推動(dòng)下,國外的IT行業(yè)已經(jīng)涌現(xiàn)出一批高效、實(shí)用的云計(jì)算系統(tǒng),比如由Google所開發(fā)的GFS云文件系統(tǒng)、數(shù)據(jù)分布式Bigtable存儲(chǔ)系統(tǒng)及應(yīng)用系統(tǒng)中所廣泛使用的數(shù)據(jù)處理MapReduce框架;再如Sun Microsystems在原有的平臺(tái)基礎(chǔ)上開發(fā)了Sun Grid Engine集群軟件。另外,歐洲的一些科研機(jī)構(gòu)通過對(duì)并行計(jì)算的研究,能夠?qū)⑵鋺?yīng)用到個(gè)人網(wǎng)絡(luò)之上,使得個(gè)人計(jì)算機(jī)能夠通過相應(yīng)的計(jì)算代碼提供個(gè)人電腦的計(jì)算能力。
這種以云計(jì)算為技術(shù)基礎(chǔ)的新型檢索模式除了應(yīng)用在傳統(tǒng)的圖書館資源檢索服務(wù)之中,還能夠應(yīng)用于企業(yè)信息平臺(tái)及其他政府機(jī)構(gòu)。
在傳統(tǒng)圖書館中應(yīng)用以云計(jì)算為基礎(chǔ)的資源檢索,可以將區(qū)域、甚至行業(yè)內(nèi)的圖書館資源進(jìn)行整合,通過海量存儲(chǔ)平臺(tái)及信息服務(wù)平臺(tái)的構(gòu)建,集中發(fā)揮行業(yè)信息服務(wù)優(yōu)勢,為用戶提供更為專業(yè)化、全面化的信息資源服務(wù)。
在競爭不斷加劇的市場經(jīng)濟(jì)環(huán)境下,信息對(duì)于一個(gè)企業(yè)的生存發(fā)展起到了越來越重要的作用。在這種環(huán)境下,企業(yè)需要做好對(duì)社會(huì)中海量信息的獲取、辨別、儲(chǔ)存及利用工作。以云計(jì)算為基礎(chǔ)的信息檢索技術(shù)可以為企業(yè)提供良好的平臺(tái)。
對(duì)于政府機(jī)構(gòu)而言,其信息量同樣十分巨大。通過對(duì)這些數(shù)據(jù)資源中有價(jià)值意義的部分進(jìn)行挖掘,能夠在社會(huì)建設(shè)過程中起到重要作用,所以,針對(duì)這些數(shù)據(jù)信息的管理工作就顯得尤為重要。
隨著圖書館專業(yè)化、全面化及個(gè)性化信息資源服務(wù)的不斷發(fā)展完善,圖書館所能提供的信息資源已經(jīng)覆蓋了社會(huì)行業(yè)中的各個(gè)領(lǐng)域。盡管不同圖書館所處的地理位置及服務(wù)對(duì)象不同,但是為滿足用戶日益增長的閱讀、參考需求,圖書館的信息資源總量必定會(huì)進(jìn)一步豐富、增長。
基于圖書館所處地域、所面對(duì)的用戶不同等原因,其所擁有的數(shù)據(jù)資源也不盡相同,此外,由于所使用的數(shù)據(jù)資源系統(tǒng)不同,圖書館對(duì)電子資源的檢索方法也不盡相同。所以,圖書館界在數(shù)據(jù)資源發(fā)展及應(yīng)用方面呈現(xiàn)出了百花齊放的局面。在這種數(shù)據(jù)資源檢索模式下,為獲得更為全面專業(yè)的數(shù)據(jù)信息,用戶往往需要在不同的圖書館數(shù)據(jù)庫中進(jìn)行檢索,而檢索方法的不同會(huì)導(dǎo)致用戶的檢索過程極為不方便。這就要求將分散在各個(gè)圖書館內(nèi)的數(shù)據(jù)信息進(jìn)行整合,依靠全面的數(shù)據(jù)資源信息、統(tǒng)一的信息檢索方式為用戶提供最為豐富、準(zhǔn)確的信息資源。
在云計(jì)算出現(xiàn)以后,用戶使用終端可以在資源池中進(jìn)行數(shù)據(jù)計(jì)算,擺脫了過去對(duì)自身計(jì)算機(jī)的計(jì)算能力要求。另一方面,云服務(wù)器所要進(jìn)行的計(jì)算也可以分配到資源池之上。這種分散計(jì)算的處理方式有效地提高了整個(gè)系統(tǒng)內(nèi)部的計(jì)算能力,可以有效解決目前在圖書館中所存在的數(shù)字化信息資源使用率低、資源檢索不方便等問題。
以云計(jì)算為技術(shù)基礎(chǔ),圖書館服務(wù)器的存儲(chǔ)任務(wù)通過建立海量存儲(chǔ)模型被分配到用戶終端計(jì)算機(jī)或者與它資源共享的服務(wù)器之上,而計(jì)算任務(wù)則通過建立海量計(jì)算模型被分配到用戶終端計(jì)算機(jī)或其他服務(wù)器。如此,在相同的服務(wù)器條件下,數(shù)據(jù)的存儲(chǔ)計(jì)算速度得到有效提高,數(shù)據(jù)共享的范圍也得到極大擴(kuò)展。用戶可以通過應(yīng)用程序使用資源池之上的計(jì)算能力,提高資源檢索的速度和準(zhǔn)確率。另外,用戶終端能夠?qū)⒅R(shí)資源儲(chǔ)存在服務(wù)器之中,實(shí)現(xiàn)與其他用戶的共享。所以說,云計(jì)算的出現(xiàn)為數(shù)據(jù)資源檢索服務(wù)的發(fā)展提供了良好的技術(shù)支持。
基于云計(jì)算技術(shù)的圖書館服務(wù)器,通過建立資源池對(duì)計(jì)算、存儲(chǔ)任務(wù)進(jìn)行分散,形成了一個(gè)資源利用率高、檢索速度快的數(shù)據(jù)資源服務(wù)平臺(tái)。云計(jì)算對(duì)于資源檢索的現(xiàn)實(shí)意義可以概括為以下3方面:第一,云計(jì)算將龐大的數(shù)據(jù)資源轉(zhuǎn)為資源池,并以此為技術(shù)基礎(chǔ)完成更為復(fù)雜繁瑣的檢索計(jì)算;第二,可以整合區(qū)域內(nèi)的圖書館、機(jī)構(gòu)的數(shù)據(jù)資源,將不同類型圖書館中不同專業(yè)領(lǐng)域的數(shù)據(jù)資源進(jìn)行云集合,建成一個(gè)覆蓋不同類型圖書館的館群數(shù)據(jù)資源服務(wù)體系,它不僅能夠?yàn)橛脩籼峁└鼮槿?、廣闊的數(shù)據(jù)資源和檢索服務(wù)、提高人們的資源利用水平,而且能夠避免資源重復(fù)建設(shè)帶來的成本浪費(fèi);第三,基于云計(jì)算的運(yùn)算平臺(tái)能夠并行利用不同地域、行業(yè)、機(jī)構(gòu)中的數(shù)據(jù)資源,這些數(shù)據(jù)資源將為用戶資源檢索提供海量資源信息,能夠使得用戶在一個(gè)平臺(tái)上獲得多個(gè)平臺(tái)的數(shù)據(jù)資源。這種一站式檢索方式除了可以提高檢索服務(wù)的快捷性和方便性,對(duì)提高圖書館的行業(yè)競爭力、培養(yǎng)用戶的文化素質(zhì)也具有重要意義。
云計(jì)算在圖書館資源檢索方面的應(yīng)用是建立在網(wǎng)格計(jì)算基礎(chǔ)之上的,但是它突破了傳統(tǒng)檢索過程中環(huán)境的異構(gòu)性、擴(kuò)展性及動(dòng)態(tài)適應(yīng)性差的限制,有效地提高了當(dāng)前圖書館資源檢索的效率。但就目前而言,在我國還沒有建立起真正基于云計(jì)算的網(wǎng)絡(luò)平臺(tái)。但是具有海量數(shù)據(jù)資源的圖書館又迫切需要以云計(jì)算為基礎(chǔ)的MapReduce等技術(shù)作為支撐。所以,將云計(jì)算應(yīng)用于圖書館資源檢索服務(wù)具有其必要性。
4.1.1 構(gòu)建簡單海量數(shù)據(jù)資源儲(chǔ)存模型
所謂以云計(jì)算為基礎(chǔ)的簡單海量數(shù)據(jù)資源儲(chǔ)存模型,是一種建立在Hadoop等開源平臺(tái)之上、面向海量數(shù)據(jù)資源的儲(chǔ)存模式,它能夠滿足區(qū)域、行業(yè)甚至是全國范圍內(nèi)的數(shù)據(jù)資源儲(chǔ)存需求。它應(yīng)該包括:①自動(dòng)跨域適用的云文件系統(tǒng);②基于BigTable儲(chǔ)存系統(tǒng)、面向結(jié)構(gòu)化數(shù)據(jù)的云儲(chǔ)存模型。
4.1.2 構(gòu)建面向資源的并行計(jì)算模型
這種并行計(jì)算需要面向區(qū)域、行業(yè)、全國范圍內(nèi)的圖書館資源分布特征,在框架結(jié)構(gòu)上可以參考MapReduce模型,在此基礎(chǔ)上建立面對(duì)海量資源的檢索方法和并行計(jì)算模型,它應(yīng)該在數(shù)據(jù)處理速度及檢索適應(yīng)性等方面具有優(yōu)勢。它應(yīng)該包括:①面對(duì)海量數(shù)據(jù)的檢索邏輯,能夠適應(yīng)海量數(shù)據(jù)資源的分布檢索,增強(qiáng)對(duì)海量數(shù)據(jù)資源檢索的準(zhǔn)確性、高效性。②面向海量數(shù)據(jù)的索引邏輯,以增強(qiáng)對(duì)海量數(shù)據(jù)資源的分布索引,提高對(duì)儲(chǔ)存數(shù)據(jù)并行檢索的效率及速度。
4.1.3 構(gòu)建面向檢索的并行計(jì)算框架
在Hadoop、Section/Sphere等計(jì)算模式及海量數(shù)據(jù)資源運(yùn)算、儲(chǔ)存的基礎(chǔ)上,需要研究在因特網(wǎng)環(huán)境下面向檢索的并行計(jì)算框架。它應(yīng)該包括:符合因特網(wǎng)發(fā)展環(huán)境要求,面向分布式海量數(shù)據(jù)資源檢索的并行計(jì)算框架,以實(shí)現(xiàn)在圖書館群資源環(huán)境下對(duì)于資源檢索的計(jì)算框架構(gòu)建。
4.2.1 對(duì)于海量群資源數(shù)據(jù)儲(chǔ)存的實(shí)現(xiàn)
目前面向網(wǎng)頁類型數(shù)據(jù)儲(chǔ)存的BigTable模型無法滿足像館群這種海量數(shù)據(jù)儲(chǔ)存的要求,這是因?yàn)閳D書館群的數(shù)據(jù)資源具有更高的結(jié)構(gòu)化特點(diǎn)。所以應(yīng)該首先建立起面向圖書館群的海量信息資源儲(chǔ)存模型。
4.2.2 對(duì)于海量群資源的并行計(jì)算的實(shí)現(xiàn)
現(xiàn)階段的并行計(jì)算模型所面對(duì)的都是小范圍內(nèi)集群系統(tǒng),這一系統(tǒng)內(nèi)部的終端計(jì)算機(jī)都擁有千兆/秒以上的網(wǎng)絡(luò)帶寬,由于終端計(jì)算機(jī)的穩(wěn)定性使得系統(tǒng)內(nèi)部主機(jī)失效率較低。但是在海量群資源下,其檢索環(huán)境較為獨(dú)立。所以,探索適合圖書館群下的檢索并行計(jì)算模型具有重要意義。
4.2.3 對(duì)于資源檢索統(tǒng)一管理的實(shí)現(xiàn)
由于不同圖書館所使用的數(shù)據(jù)庫類型不同,這就造成了圖書館群下圖書館的服務(wù)及運(yùn)算模式不同。為了實(shí)現(xiàn)資源檢索的統(tǒng)一管理,需要在群下各個(gè)圖書館的數(shù)據(jù)庫之間建立一個(gè)能夠進(jìn)行檢索調(diào)度、分類、去重的統(tǒng)一管理模型??梢詤⒖糘penURL建立起基于動(dòng)態(tài)腳本、提供注冊接口及標(biāo)準(zhǔn)給第三方的多級(jí)調(diào)度管理模型。通過這種管理模型實(shí)現(xiàn)對(duì)群下任意一個(gè)圖書館資源的充分利用,保證檢索請求的順利發(fā)出及返回。這種管理模型的實(shí)現(xiàn)是對(duì)海量儲(chǔ)存、并行計(jì)算模型的進(jìn)一步完善。
4.2.4 對(duì)于資源檢索統(tǒng)一服務(wù)的實(shí)現(xiàn)
目前,圖書館所提供的檢索服務(wù)通常只是針對(duì)某一區(qū)域或者機(jī)構(gòu),盡管圖書館聯(lián)盟正在一步步發(fā)展,但它所能提供的服務(wù)仍然只停留在目錄階段的、較為單一的服務(wù),缺少針對(duì)全行業(yè)的整體、統(tǒng)一服務(wù)。比如現(xiàn)在的行業(yè)參考咨詢、區(qū)域文獻(xiàn)互借、區(qū)域目錄聯(lián)合等。隨著圖書館網(wǎng)絡(luò)信息服務(wù)的不斷完善,對(duì)于館群資源檢索的統(tǒng)一服務(wù)已經(jīng)成為可能,在不久的將來,以云計(jì)算為基礎(chǔ)的資源檢索服務(wù)就能夠使用戶享受到“一館式”統(tǒng)一服務(wù)。
隨著以云計(jì)算為基礎(chǔ)的全新資源檢索模式在圖書館檢索服務(wù)中的不斷成熟、發(fā)展,圖書館群下的資源檢索服務(wù)必定會(huì)向更為快速、準(zhǔn)確、高效的層次邁進(jìn),以滿足用戶對(duì)于信息資源檢索需求不斷增加的要求。
[1] 韓法旺.基于云計(jì)算模式的圖像檢索研究[J].情報(bào)科學(xué),2011(10):1534-1538.
[2] 馮凱,龍金花.基于云計(jì)算信息檢索課程網(wǎng)絡(luò)教學(xué)系統(tǒng)初探[J].南昌教育學(xué)院學(xué)報(bào),2012(1):67-68.
[3] 胡山泉,李滄海,劉耀輝.一種移動(dòng)云計(jì)算技術(shù)的圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].價(jià)值工程,2011(2):203.
[4] 梁宇,等.一種云計(jì)算環(huán)境下的加密模糊檢索方案[J].計(jì)算機(jī)科學(xué),2011(S1):99-100.
[5] 孫在全.云計(jì)算對(duì)信息檢索的影響及存在的問題[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2010(31):107-110.
[6] 蔡明.云計(jì)算環(huán)境下文獻(xiàn)檢索課面臨的挑戰(zhàn)和改革[J].圖書館學(xué)刊,2011(12):57-58.
[7] 鄭偉青.云計(jì)算在圖書館群資源檢索中的研究與應(yīng)用[J].圖書館建設(shè),2010(4):85-87.