●趙培云(遼寧工程技術大學 圖書館,遼寧 阜新 123000)
圖書館第一代數(shù)字化建設是基于MARC的書目管理系統(tǒng)為核心特征的自動化建設。它通過對圖書描述信息進行數(shù)字化并加以運用,滿足了圖書館對于業(yè)務管理自動化機制的需求。其主要不足在于只能針對紙本圖書提供指引性信息,而不能提供電子化一、二次文獻。圖書館第二代數(shù)字化建設是以對大量通過互聯(lián)網提供的分布式電子文獻信息資源的應用為主要特征的。這一代數(shù)字化以電子化和網絡化的一、二次文獻為基礎,提供包括全文檢索在內的各種信息利用技術,在一定程度上,還實現(xiàn)了不同類型信息的統(tǒng)一利用和基于內容的信息鏈接功能,并且針對特殊的信息資源需求,實現(xiàn)了多種模式的信息數(shù)字化機制。其主要不足在于:(1)缺乏管理。由于互聯(lián)網實行的是所謂域管理及分散管理機制,缺乏統(tǒng)一的網絡管理神經中樞,在網上發(fā)布信息幾乎沒有任何限制,所以導致基于網絡的整個數(shù)字圖書館處于無序狀態(tài)。(2)信息資源分散。不同的圖書館由于擁有的信息資源側重面不同,所以只能提供一部分信息,這就導致了讀者要想查看所關心的信息,需要奔忙在不同的圖書館網站之間,造成大量時間浪費。(3)缺乏統(tǒng)一標準。一是庫結構內容不規(guī)范。如大多數(shù)單位所建設的資源庫,缺少使用其資源的幫助信息,書目數(shù)據(jù)著錄根本不考慮主題標引,不考慮建立規(guī)范檔,甚至不遵循MARC格式。二是沒有統(tǒng)一的檢索端口和閱讀平臺,導致遍地都是信息“孤島”,難以實現(xiàn)互操作。(4) 網絡帶寬不足。由于帶寬限制,任何一個圖書館都由于規(guī)模、資金等方面的原因,無法及時響應大量并發(fā)讀者的請求,使得讀者不能享受到好的服務。(5)服務器處理能力有限。像全文檢索這種需要很高計算能力的服務就往往由于讀者人數(shù)多,導致響應速度很慢;而絕大多數(shù)時間,訪問讀者很少,所有資源則又處于閑置狀態(tài),僅有5%—10%被真正利用。(6) 體系結構多數(shù)都是一個整合的中央控制系統(tǒng),即當一個用戶應用圖書館時,只能由這個圖書館提供服務。不能動態(tài)地聯(lián)合其他圖書館為用戶提供服務,同時,用戶也不能動態(tài)提供自己的圖書資源。[1](7) 讀者查詢到的是信息而非知識。在現(xiàn)有數(shù)字化圖書館建設目標下開發(fā)的信息資源,本質上還只是一本本“堆積”起來的數(shù)字化書刊。讀者從中獲取的還僅僅是一篇篇文獻,而不是一個個針對特定問題的解決方案,即知識。
網格是構筑在互聯(lián)網上的一組新興技術,它將高速互聯(lián)網、高性能計算機、大型數(shù)據(jù)庫等融為一體,使人們能夠按需獲取所有信息。它把分散在不同地理位置的資源虛擬成為一個空前強大的信息系統(tǒng),實現(xiàn)計算資源、存儲資源、信息資源、軟件資源、知識資源和專家資源等的全面共享。
網格能很好地解決海量數(shù)據(jù)的計算處理和分析問題。網格計算可以智能地分配計算資源,能夠優(yōu)化現(xiàn)有的計算資源,更快地解決數(shù)字圖書館設計和利用問題;能夠將應用程序的每個部分調整到最適合它的系統(tǒng)中去,從而以更短時間、更低的成本解決有關應用問題,滿足用戶對高效互聯(lián)網信息服務的要求。
存儲網格將存儲的可擴展性和效率提升到了一個全新水平,它由一種協(xié)作式的標準基礎設施、模塊化的構件塊組成,并通過集中平臺進行管理,來實時供應、部署現(xiàn)有的和重新部署新的信息存取服務。它可以實現(xiàn)大容量信息存儲,而沒有信息冗余。一是具有很強的可升級性,這有助于采用低廉的成本來增加圖書館存儲容量;二是可以實現(xiàn)單一地址訪問、不間斷數(shù)據(jù)轉移等功能,簡化了管理,提高了效率;三是面對發(fā)展和變化均非常迅速的用戶需求,它能快速應變,以滿足用戶不斷變化的存儲需求。
由于信息網格能夠讓用戶通過一個單一的入口訪問所有的信息,因而可以有效地解決網絡信息資源分散性與網絡環(huán)境下信息需求集成性的矛盾,從而實現(xiàn)了網格環(huán)境下信息服務的集成。網格已經發(fā)展成為連接和統(tǒng)一各類遠程異構資源的重要途徑。
網格把分散在不同地理位置的資源虛擬成為一個空前強大的信息系統(tǒng),這些資源形成一個整體后,用戶可以從中享受一體化的、動態(tài)變化的、可靈活控制的、智能的、協(xié)作式的信息服務,獲得前所未有的方便性和超強能力。其中,第一層次是實現(xiàn)資源共享,第二是實現(xiàn)協(xié)作協(xié)同。
一是由于網格中采用的是單一信息源,也即任何信息在信息空間中只占據(jù)一點,信息空間是非冗余的,這樣就有效地減少了信息資源的冗余度,提高了網絡信息資源開發(fā)與組織的效率。二是負載平衡。三是共享政策豐富。
信息網格具有互操作性是指信息網格的多個結點上信息的存儲和表示可以多種多樣,但從用戶行為角度看都可以互操作。在信息網格的內核之上,用戶看不到本地結點和網格結點的區(qū)別,也看不到異構的系統(tǒng)和數(shù)據(jù)。這種互操作性,可允許我們在組織與開發(fā)網絡信息資源時,將各種信息源無差別地組織在一起,充分滿足用戶對不同類型網絡信息資源的需求。
網格能根據(jù)用戶的要求自動地生產知識,在知識生產過程中,高性能計算機能將數(shù)據(jù)源中得到的原始數(shù)據(jù),通過特定網格程序軟件加工成信息知識。[2]當用戶提出請求或查詢時,網格將會自動處理分析,并把有關結果傳送到用戶登錄的節(jié)點上,而且這一功能是完全由網格本身完成而不需要人為干預。另一方面,網格可以將整個科學分類體系立體分布在網格結點上,通過不同的結構鏈接方法使諸多交叉學科體系由隱性知識轉化為顯性知識或創(chuàng)造出新的學科研究領域,達到知識創(chuàng)新的目的,從而使得網格數(shù)字圖書館服務更加完善。
這方面國際上還很少有成果發(fā)表。究其原因:一是在今天的計算機體系結構下發(fā)展起來的計算模型能不能適應明天的網格,如何映射到動態(tài)生長的網格環(huán)境中;二是計算數(shù)據(jù)在網格中如何分布組織,如何在網格中高效地尋址和訪問數(shù)據(jù),如何對網格存儲空間實施有效管理;三是在高度異構的環(huán)境下的信息如何表示及編碼,在大地域分布的異構環(huán)境中如何無阻礙地交換信息,如何有效地標示信息的位置,從而實現(xiàn)信息的高效獲取,這些問題都有待探討。
目前國外的研究集中在計算網格、數(shù)據(jù)網格、商業(yè)網格三個方面,在P2P(對等網絡) 和Access Grid方面也有很多工作,但在信息網格、知識網格方面工作很少。盡管GGF(全球網格論壇)已有了Semantic Grid的一些工作,但還缺乏內容。中國科學院計算機所在織女星知識網格方面的研究工作在國際同行中處于領先位置,但要產生關系數(shù)據(jù)庫這樣的有影響的成果還需要做大量工作。
網格系統(tǒng)軟件是網格研究界投入最多的領域,但目前它仍有很多不完善的地方。比如:網格文件系統(tǒng)還幾乎是空白,網格資源定位還是個難題,網格用戶身份還沒有定論,網格授權與訪問控制的工作還處于初級階段等。
高性能計算機如何支持網格?它的體系結構和操作系統(tǒng)該如何改變?這些問題目前還沒有答案。
既然網格數(shù)字圖書館的各種資源可被大量的共享應用,那么如何使得這些應用獲得最大效能,就是調度所要解決的問題。網格具有如網格資源的動態(tài)變化性、資源的類型異構性和多樣性、調度器的局部管理性等一些獨有的特征,因此網格調度技術要比傳統(tǒng)高性能計算中的調度技術更為復雜。[2]網格的調度需要建立隨時間變化的性能預測模型,充分利用網格的動態(tài)信息來表示網格性能的波動。在網格調度中,還需要考慮移植性、擴展性、效率、可重復性以及網格調度和本地調度的結合等一系列問題。
標準是網格應用成功與否的關鍵,構建網格需要對標準協(xié)議和服務進行定義。目前GGF、W3C及Globus等標準化團體都開始了籌劃工作,加快了全球大網格(GGG)標準的制定。開放源代碼網格標準組織——Globus正致力于開發(fā)標準的網格架構。在核心技術上,相關機構已達成共識。由美國有關機構開發(fā)的Globus Toolkit已成為網格計算事實上的標準。因此,如何把數(shù)字圖書館標準和網格標準更好地結合起來,使網格數(shù)字圖書館發(fā)揮更好的作用是值得研究的問題。
由于在網格環(huán)境下信息資源共享程度極大提高,知識產權問題更加突出。只有解決數(shù)字版權管理才能為網格環(huán)境下數(shù)字圖書館資源共享打下基礎,而這在圖書館第二代數(shù)字化建設中就沒解決好。網格將彼此毫不相關的資源提供者和使用者聯(lián)系起來,既要確保他們之間的依賴關系,保證關鍵性應用在網格環(huán)境中的安全,又要在促進共享的同時保護用戶的機密和商業(yè)利益,這需要一種成熟的網格計算安全模型和體系結構,而現(xiàn)在還沒有。與此同時,由于網格的節(jié)點位于不同地域,節(jié)點數(shù)字圖書館間如何安全地共享數(shù)據(jù)資源,如何保證共享數(shù)據(jù)的完整性,在構建完善的安全機制的同時,如何避免安全驗證耗資過多的系統(tǒng)資源,也是要著重解決的問題。
網格系統(tǒng)平臺建好后的應用移植是網格技術走向應用的最大障礙。網格技術要求用戶將原有的系統(tǒng)應用標準化,并平移到新的系統(tǒng)之中,而實際上很多現(xiàn)有數(shù)字圖書館應用系統(tǒng)如果將其推向網格環(huán)境,將面臨重新編寫應用代碼的問題。雖然目前有一些相關的工具已經開發(fā)出來,但仍有許多技術問題需解決。
據(jù)Oracle最近發(fā)布的第四次網格指數(shù)調查結果顯示:中國的總體網格指數(shù)在15個被調查國家中排名第九位,處于中下游,應用指數(shù)偏低(1.7)。[3]這表明中國用戶對網格還沒有真正接受,從認知到接受再到購買可能還需要一個過程。
由于資源的分散性和部門所屬性,網格數(shù)字圖書館是由一家還是幾家數(shù)字圖書館公司運營,它的經濟模型和盈利機制是什么,如何通過引入投資機制建立網格數(shù)字圖書館的運營服務業(yè)并完善計費、管理、調控的一系列策略和機制,如何用有效的利益機制來促進其共享,仍有待進一步探討。
據(jù)調查,我國圖書館IT應用現(xiàn)狀分為3個層次:(1)初級層次,圖書館已配置了計算機等相關設備,但只是應用于部分業(yè)務(如編目),占76%;(2) 中級層次,圖書館已實施了網絡集成系統(tǒng),全部業(yè)務能實現(xiàn)計算機化、網絡化處理,占18%;(3) 高級層次,圖書館已進入數(shù)字化階段,可以向讀者提供數(shù)字信息資源的加工、檢索服務,占6%。[4]很顯然,有3/4的圖書館有可能被網格大潮拋棄。為此,絕大多數(shù)圖書館應加大投入進行網格技術改造。
數(shù)字資源的存儲結構在網格結構與P2P結構的基礎上進行整合,目的在于數(shù)字圖書館管理系統(tǒng)能夠訪問存儲在具有不同操作系統(tǒng)的結點的數(shù)字資源;能夠提供對內容存儲結點和外部內容提供者的透明訪問,并管理更新、生成、復制、分離新對象等;能夠管理元數(shù)據(jù)的描述并豐富由內容管理服務提供的新的數(shù)字對象;能夠為獲取的元數(shù)據(jù)的互操作性提供代理,注重內容存儲和分發(fā)的安全,并對數(shù)字對象進行注視管理(主要是多媒體對象)。
基于現(xiàn)有網絡狀況及數(shù)字圖書館資源和信息的分布,需要解決數(shù)字圖書信息的可靠存儲與高速傳輸,保證不同區(qū)域用戶的響應均衡。針對數(shù)字圖書館服務機構中數(shù)據(jù)源異構、自治、廣域分布的特點,需要研究數(shù)據(jù)庫聯(lián)合技術,為不同類型數(shù)據(jù)庫系統(tǒng)提供統(tǒng)一的訪問接口,提供針對各種異構數(shù)據(jù)庫的聯(lián)合查詢處理功能,并提供數(shù)據(jù)庫聯(lián)合查詢的性能優(yōu)化技術以及一系列的良好聯(lián)合數(shù)據(jù)庫配置、調優(yōu)和管理工具。
基于國內數(shù)字圖書館領域中的資源信息標準化、規(guī)范化技術,需要解決基于網格技術的文獻信息表示標準和文獻信息交換標準,以及科技文獻信息組織、信息整合、信息關聯(lián)及信息存儲的規(guī)范技術,通過提供科技文獻信息檢索和注冊的規(guī)范化技術,為科技文獻資源的共享、集成和內容揭示等提供標準化基礎。
網格數(shù)字圖書館是開放式的存取環(huán)境,網格中信息的復制性、全球的傳播性和變幻莫測的交互性給著作權保護帶來了空前的震撼和挑戰(zhàn)。因此,做好整個網格范圍的資源利用的管理和控制,掌握讀者對網格資源的使用情況,盡量提高網格資源的免費率,嚴控收費的范圍和力度,研究收費的方法,限制信息由授權使用方傳送給非授權使用方、使版權所有人能夠掌握其作品被使用情況,是普及應用網格數(shù)字圖書館必須解決的問題。
未來數(shù)字圖書館建設需要解決資源聯(lián)合共享的元數(shù)據(jù)檢索和注冊的標準化,同時為元數(shù)據(jù)的檢索和注冊提供規(guī)范化、靈活的手段。針對各種不同類型的元數(shù)據(jù)更新軟件,提供其數(shù)據(jù)規(guī)范輸出的接口,實現(xiàn)元數(shù)據(jù)的標準化輸出。另外,需要解決聯(lián)合共享元數(shù)據(jù)目錄的自動更新問題,保證元數(shù)據(jù)的更新一致性。
利用虛擬組織(VO)的機制,把用戶和資源在數(shù)字圖書館環(huán)境下連接在一起,使用戶、團體能夠創(chuàng)建自己的臨時數(shù)字圖書館。允許用戶指定一套所期待的數(shù)字圖書館的特征標準,根據(jù)標準確定這些特征和功能所需的服務和信息源,最終創(chuàng)建自己的數(shù)字圖書館。
針對各數(shù)字圖書館服務機構安全管理的異構和復雜特征,需要解決資源聯(lián)合共享的安全體系結構、分布式信任管理、面向用戶群體的安全管理、異構安全環(huán)境集成、安全策略的一致性、科技文獻資源的安全接入、用戶訪問的單一登錄等。[5]針對用戶對文獻資源的訪問提供靈活的授權和訪問控制機制,并滿足權限管理的可擴展性要求,減少權限管理開銷,同時提供一套合理的數(shù)字圖書館資源和信息訪問控制和計費機制。
網格數(shù)字圖書館能對域內資源進行一定程度上的整合和挖掘,但這是遠遠不能滿足讀者需求的。圖書館應利用館內的專業(yè)人才,對人類已有的知識進行有針對性的組織、深層次的挖掘和整合,大力建設自己的特色數(shù)據(jù)庫與地域特色文獻數(shù)據(jù)庫。[6]同時應將圖書館員逐漸培養(yǎng)成為網絡信息導航專家和信息咨詢專家。唯有如此,圖書館才能在未來的廣域網格中爭得一席之地。
[1]李亮先.網格技術在數(shù)字圖書館的應用[J].情報科學,2004(6):703-706.
[2]谷斌.網格技術與網絡信息資源的組織與開發(fā)[J].情報科學,2004 (8):979-980.
[3]董慧,等.數(shù)字圖書館網格應用模型研究——2005信息化與信息資源管理學術研討會論文集[C].武漢:湖北人民出版社,2005.
[4]金海.數(shù)字圖書館及其網格應用的發(fā)展[J].現(xiàn)代圖書情報技術,2005(9):1-5,13.
[5]韓毅,等.國外基于網格技術的數(shù)字圖書館內容與應用的比較研究[J].情報學報,2006(2):221-230.
[6]邱鋒祥,汪曉蘭.圖書館應用網格技術的幾點思考 [J].圖書情報工作,2009 (1):105-108.