黃艷艷
(長江水利委員會網(wǎng)絡與信息中心,湖北 武漢 430015)
隨著社會信息化進程的不斷加快,信息資源占有量的增加是信息化發(fā)展的必然趨勢和時代要求。計算機網(wǎng)絡的日益普及,數(shù)字化技術的日趨成熟,可以最大限度地突破時空限制,為人們提供方便快捷豐富的信息資源。不同組織和機構擁有海量信息資源得到有效共享是社會信息化的重要課題。在水利信息化建設中,水利系統(tǒng)各個部門和機構也逐步把文獻信息資源共享建設放在重要位置。2001年4月,在全國水利信息化工作會議上,“水利數(shù)字圖書館工程”被列為水利部《金水工程“十五”計劃及到 2010年規(guī)劃綱要》中的任務之一[1]。長江水利委員會(以下簡稱長江委)作為水利系統(tǒng)最大的流域管理機構,涉及的部門多、專業(yè)廣,急需先進的文獻信息資源服務。2009年,長江委數(shù)字圖書館開始建設,這既是長江委信息資源開發(fā)、利用和共享的需要,也是與全國水利信息資源共享與整合的必然要求。
長江委數(shù)字圖書館建設計劃用3a時間(2009~2011年),依托長江委已有的信息網(wǎng)絡,通過對文獻業(yè)務需求和功能的系統(tǒng)梳理,采用基于統(tǒng)一的標準、技術架構,開發(fā)可以覆蓋全長江委的重要單位的數(shù)字圖書館,配備必要的硬件網(wǎng)絡環(huán)境,建成具有國內先進水平的開放式水利文獻信息資源共享平臺(數(shù)字圖書館應用平臺),整合不同類型的文獻信息資源,向長江委的管理、科研、技術人員等用戶提供免費的文獻信息服務[2]。
長江委數(shù)字圖書館平臺主要包含信息資源、應用軟件系統(tǒng)2個相對獨立的建設內容[3]。
長江委數(shù)字圖書館平臺的總體框架是由標準規(guī)范層、基礎設施層、系統(tǒng)軟件層、應用軟件平臺層、數(shù)據(jù)庫資源層、用戶服務層等6層自下而上組成的,其中標準規(guī)范層主要是定義所有的技術標準、資源加工規(guī)則、文獻信息著錄規(guī)則等方面標準規(guī)范,是數(shù)字圖書館統(tǒng)一規(guī)劃與建設的前提;基礎設施層是系統(tǒng)運行的硬件環(huán)境;應用軟件平臺層是水利文獻信息資源共享平臺工作平臺??傮w結構如圖1所示。
應用系統(tǒng)平臺建設是長江委數(shù)字圖書館建設的基礎,數(shù)字圖書館應用系統(tǒng)建設需要實現(xiàn)對內外部各種異構信息資源的高度集成整合,實現(xiàn)對于信息資源內容的采、編、發(fā)加工處理,實現(xiàn)信息資源的快速統(tǒng)一搜索,實現(xiàn)信息資源的個性化信息服務等。
圖1 基礎信息管理系統(tǒng)網(wǎng)絡結構圖
數(shù)據(jù)資源整合是通過各種手段和工具將已有的信息資源集成起來,并按照一定的邏輯關系進行組織,實現(xiàn)信息資源的有效共享,為用戶提供規(guī)范化的信息服務,為后續(xù)信息的管理與使用提供規(guī)范。長江委數(shù)字圖書館采用了元數(shù)據(jù)整合方式,系統(tǒng)通過將各種類型的數(shù)據(jù)進行清洗、轉換、加載的方式合并入1個大的數(shù)據(jù)倉庫中,數(shù)據(jù)資源整合示意圖如圖2所示。
圖2 數(shù)據(jù)資源整合示意圖
信息資源采、編、發(fā)主要完成對系統(tǒng)信息資源的維護與管理,包括信息采集、加工處理、分析和發(fā)布等后臺維護管理功能。
2.2.1 信息采集
信息采集子系統(tǒng)通過信息采集轉換工具完成各種格式數(shù)據(jù)文件或光盤數(shù)據(jù)的數(shù)據(jù)轉換、批量加載和維護、處理功能。信息采集的主要信息源包括互聯(lián)網(wǎng)信息源、文檔信息源、自身數(shù)字化加工的各種資源和關系數(shù)據(jù)庫信息源等。
互聯(lián)網(wǎng)信息采集實現(xiàn)對于各種外部互聯(lián)網(wǎng)網(wǎng)站信息的監(jiān)測和采集,用戶完全能夠根據(jù)自己對網(wǎng)頁信息源的需求,實現(xiàn)網(wǎng)頁信息的抽取與加載入庫。
文檔信息源采集實現(xiàn)各種格式文檔的按目錄分類標引,自動掃描,特征標引,全文抽取,原始鏈接生成,自動入庫等功能。
資源數(shù)字化加工主要完成各種紙質檔案、電子圖書和期刊、產(chǎn)品技術資料等紙介質的快速掃描和識別,并能夠抽取相應的文本數(shù)據(jù)用于全文檢索,同時能夠將掃描圖片組織成可原樣顯示的電子文檔或圖書全文。
關系數(shù)據(jù)庫信息源采集主要解決已有數(shù)據(jù)庫信息的整合和數(shù)據(jù)加載,支持 Oracle,Sybase,DB2,SQL Server 等各種主流異構關系數(shù)據(jù)庫的數(shù)據(jù)導入和整合[2]。
2.2.2 信息加工處理
信息加工處理子系統(tǒng)主要包括內容采、編、發(fā)和信息統(tǒng)計分析。內容采編發(fā)用來支持流程可定制的信息編輯、分類標引,信息審核和簽發(fā);信息統(tǒng)計分析提供信息采集、加工處理的日志瀏覽,信息采集、加工處理的日常統(tǒng)計分析,信息生產(chǎn)的考核管理功能。
2.2.3 信息發(fā)布
信息發(fā)布子系統(tǒng)主要完成發(fā)布信息門戶的定制管理,以及根據(jù)定制配置實現(xiàn)信息門戶站點的生成。
數(shù)字圖書館平臺的信息資源非常豐富,基本能涵蓋各類用戶的需求,然而這些資源情況比較復雜,如何讓用戶從海量的數(shù)據(jù)資源中突破各種客觀因素造成的障礙而獲得目標信息是平臺功能建設的關鍵。這就需要我們?yōu)橛脩籼峁┒喾N模式的服務。長江委數(shù)字圖書館向用戶提供統(tǒng)一檢索、原文傳遞、定題服務、參考咨詢等多元化的服務。
2.3.1 統(tǒng)一檢索
用戶通過統(tǒng)一的資源搜索入口,可以快速搜索所有整合資源,如各種本地數(shù)據(jù)庫、采購鏡像系統(tǒng)數(shù)據(jù)庫、各種網(wǎng)絡電子資源,可以對資源進行全文、字段、高級組合、二次、跨庫等檢索,也可以進行資源瀏覽,查看資源詳細信息,獲取和下載資源原文,統(tǒng)一檢索示意圖如圖3所示。
圖3 統(tǒng)一檢索示意圖
為了提升統(tǒng)一檢索能力,統(tǒng)一檢索平臺提供多種檢索方式,如支持模糊檢索,文中的任意字、詞、短語、句和片段檢索。用戶通過統(tǒng)一的檢索方式、輸出格式,對于網(wǎng)格中的任意資源進行檢索、調用、全文獲取和訪問。
2.3.2 原文傳遞
原文傳遞主要滿足以下2方面的需求:1)平臺用戶查詢到的平臺資源提供原文下載,只能通過原文傳遞的方式返回給用戶;2)平臺數(shù)據(jù)資源少,用戶委托平臺管理人員代為檢索,并將檢索結果通過原文傳遞的方式返回給用戶。
用戶在提交原文傳遞申請時,填寫聯(lián)系方式及需要的文檔的介質類型。平臺將檢索到的結果通過傳真、信函、電子郵箱等多種途徑將紙質或電子文檔傳遞給用戶。
2.3.3 定題服務
后臺管理人員利用專題管理模塊定制各種各樣的專題,結合訂閱推送將相關專題內容推送到用戶注冊郵箱里,供用戶離線瀏覽。
2.3.4 委托檢索
圖書館工作人員根據(jù)委托人提供的檢索命題及準確的檢索詞,在平臺豐富的電子資源、網(wǎng)絡檢索系統(tǒng)和其他聯(lián)機資源范圍內,代為檢索題錄、文摘或全文資料,將檢索結果以索引、摘要或全文等形式通過拷盤復制、E-mail 發(fā)送或打印輸出等手段提供給委托人。
2.3.5 參考咨詢
在參考咨詢單中,讀者填入問題標題和描述,提交咨詢問題表單,由對應咨詢人員進行咨詢問題回復,并將回復結果在用戶個性化的參考咨詢中予以展現(xiàn)。
文獻信息資源建設是長江委數(shù)字圖書館建設的重點,通過采用“自建+引進”的建設方式,逐步建立長江水利數(shù)字文獻資源體系,長江委數(shù)字圖書館規(guī)劃建立以下3大類信息資源庫:
1)水利特色專題文獻數(shù)據(jù)庫。圍繞水利創(chuàng)新和技術進步的戰(zhàn)略需求,廣泛收集水利特色文獻資源,按照專業(yè)內容,建設多個專題數(shù)據(jù)庫,包括防洪減災、生態(tài)環(huán)境保護、水資源開發(fā)與保護、水土保持、流域管理、湖泊治理和庫區(qū)移民等專題文獻數(shù)據(jù)庫等。
2)常用科技文獻專題數(shù)據(jù)庫。針對廣大職工工作和學習的需要,建立或引進論文、標準規(guī)范、法律法規(guī)和電子圖書等全文數(shù)據(jù)庫資源。長江委數(shù)字圖書館擬建的數(shù)據(jù)庫包括長江委館藏中文圖書和期刊、法律法規(guī)、標準規(guī)范、科技文獻信息、會議論文、外文文獻、數(shù)字圖書和中文期刊全文等數(shù)據(jù)庫。
3)網(wǎng)絡資源數(shù)據(jù)庫。根據(jù)工作和生活的需要,圖書館專業(yè)工作人員從互聯(lián)網(wǎng)抓取有價值的信息,建立網(wǎng)絡信息資源數(shù)據(jù)庫,主要包括熱點追蹤、生活百科數(shù)據(jù)庫,以及視頻、音頻、圖片和電子書等多媒體數(shù)據(jù)庫[2]。
長江委數(shù)字圖書館作為長江水利文獻信息資源共享的應用平臺,為實現(xiàn)水利文獻信息資源共享提供基礎,為水利信息化和管理決策提供重要數(shù)據(jù)支撐。在社會信息化快速發(fā)展的今天,長江委數(shù)字圖書館也需要明確自己的發(fā)展方向。在應用平臺建設上,數(shù)字圖書館一方面要以滿足用戶信息需求為導向,以用戶方便快捷獲取文獻資源為目標,不斷修改完善已有的系統(tǒng)平臺;另一方面要根據(jù) “數(shù)字長江”規(guī)劃任務,逐步向“長江委數(shù)據(jù)中心”提供基礎數(shù)據(jù)作為發(fā)展方向。在文獻信息資源建設方面,應該在長江委系統(tǒng)內部進行水利文獻信息資源共建共享模式的探索,讓更多的單位參與到信息資源共享共建中來,避免資源重復建設,使有限的財力和人力資源得到合理配置,保證水利文獻信息資源建設的順利延續(xù)。
長江委數(shù)字圖書館的共建成員可以包括水利部、各流域管理機構及長江委委屬二級單位,使得長江委所有的寶貴信息資源得到充分利用,也使整個水利系統(tǒng)的資源為長江委所用,真正實現(xiàn)水利信息資源的有效共享。
[1] 李晶,姜斌,劉倩,等.水利數(shù)字圖書館[M].北京:知識產(chǎn)權出版社,2006: 155.
[2] 黃艷艷.長江委水利電子文獻信息資源系統(tǒng)建設實施方案[R].武漢:長江水利委員會網(wǎng)信中心(長江檔案館),2009: 5.
[3] 吳昌春,莊宇,張紅建.淺談水利信息資源共享體系的構建模式[J].水利發(fā)展研究,2006(9): 43.