楊婭娟
(寧夏大學,銀川750021)
隨著信息技術的不斷發(fā)展,用戶獲取信息的渠道更加便捷和多元化,搜索引擎、虛擬社區(qū)、門戶網(wǎng)站等不斷分流著高校圖書館的用戶。在這種泛在知識環(huán)境下,高校圖書館應充分發(fā)揮自身資源優(yōu)勢、專業(yè)優(yōu)勢、人才優(yōu)勢,變被動服務為主動服務,突出自身特色,只有這樣才能增強用戶粘性,促進圖書館不斷發(fā)展。建立特色數(shù)據(jù)庫便是高校圖書館提供主動知識增值服務的一種體現(xiàn)。
特色數(shù)據(jù)庫是指針對用戶的信息需求 ,對某一學科或某一專題信息進行收集、分析、評價、處理、儲存,并按照一定標準和規(guī)范將特色資源數(shù)字化,以滿足用戶個性化需求的信息資源庫[1]。特色數(shù)據(jù)庫應根據(jù)本館館藏特色、地方特色或本校的重點專業(yè),集中各類文獻而建立,能充分反映文獻館藏信息資源和數(shù)據(jù)資源特色的總匯。寧夏大學圖書館依托地域特色和學科特色,利用先進的數(shù)字化技術和網(wǎng)絡化手段,對現(xiàn)有的回族文獻信息資源進行有序的整合,構建回族歷史文化特色數(shù)據(jù)庫,無疑具有重要的現(xiàn)實意義。回族歷史文化數(shù)據(jù)庫的建設,一方面能夠最大限度地發(fā)揮特色資源的利用價值,為讀者提供系統(tǒng)、全面的回族文獻信息服務;另一方面,能夠借此集中各方力量搜集整理與回族歷史文化相關文獻,將形式各異、觀點鮮明的資源集中于一個平臺,形成百家爭鳴的格局,促進回族歷史研究的不斷進步。
根據(jù)回族歷史文化特色數(shù)據(jù)庫的建設目標,我們應全面搜集各種載體相關信息,將這些相關信息整合規(guī)范到一個系統(tǒng)中。建設回族歷史文化特色數(shù)據(jù)庫的總體規(guī)劃是:一方面對本館、本校和兄弟院校的回族歷史文化紙本資源進行搜集、開發(fā)與整合;另一方面對有關回族歷史文化的各種格式的網(wǎng)絡文獻資源進行挖掘與整合。最終將這些文獻資源進行數(shù)字化加工處理,劃分成若干個子庫,統(tǒng)一在同一檢索平臺,在WEB服務器上發(fā)布。可以進行目錄檢索、分類檢索、主題檢索和全文檢索,實現(xiàn)讀者網(wǎng)上輕松閱讀和下載。
由館領導牽頭組織,成立由回族研究學者、圖書情報人員、計算機技術專業(yè)人員共同組成的特色庫建設團隊??偨Y和借鑒已有建庫經(jīng)驗,確定數(shù)據(jù)庫建設內(nèi)容、軟件平臺、相關數(shù)據(jù)規(guī)范標準、數(shù)據(jù)收集范圍,對資源采集、資源整理、資源加工、資源入庫等工作進行合理分工。
數(shù)據(jù)是數(shù)據(jù)庫的核心,數(shù)據(jù)收集是數(shù)據(jù)庫建設的基礎。回族歷史文化特色數(shù)據(jù)庫收集所有載體的回族文獻。關于回族文獻,我們秉承以下定義:凡記錄、存貯和傳播有關回民族知識的一切載體,統(tǒng)稱為回族文獻,它不僅包括內(nèi)容具有回族屬性的文獻,而且涵蓋文獻作者(主要指著、畫、寫、刻、譯等)具有回族屬性的作品,如薩都剌的詩、張承志的小說 。此外,回族文獻不等同于伊斯蘭文獻,如《古蘭經(jīng)》的譯本,回族學者的漢譯本為回族文獻,而維吾爾語譯本則不為回族文獻;同為記述清真寺的文獻,廣州的懷圣寺屬于回族文獻,而記載新疆的艾提尕大清真寺就不能稱作回族文獻[2]。
在此數(shù)據(jù)收集范圍的界定基礎上確定建庫信息源的種類,包括圖書、期刊、圖片、會議論文、學位論文和視頻等載體類型;然后對收集到的文獻進行篩選、整理和組織,以確保數(shù)據(jù)庫中文獻的含金量。篩選、整理和組織文獻的過程是知識管理的過程,這一過程關系到整個數(shù)據(jù)庫的質(zhì)量,需要在學科專家的建議和指導下,由專業(yè)人員和圖書館建庫人員共同來完成。
高校特色數(shù)據(jù)庫具有為用戶提供個性化信息服務,按照一定標準和規(guī)范建設而形成并可供共享等特征。因此,我們在建庫過程中應注重標準和規(guī)范的制定,從而建立兼容性強、標準化高的特色數(shù)據(jù)庫。參照CALIS特色數(shù)據(jù)庫建設相關標準,將是一個捷徑,如《CALIS資源數(shù)字加工與發(fā)布標準》《信息資源名稱規(guī)范》和《CALIS數(shù)字對象唯一標識符命名規(guī)范》。CALIS針對數(shù)據(jù)制作標準制定了相關規(guī)則或規(guī)范,包括《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》《CALIS管理型元數(shù)據(jù)規(guī)范》[3]等,用來統(tǒng)一規(guī)范特色庫的建庫標準和服務功能。其中《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》選定了11種規(guī)范格式及其著錄規(guī)則,作為元數(shù)據(jù)規(guī)范格式,包括古籍、輿圖、家譜、拓片、地方志、學位論文、會議論文、電子圖書、音頻資料、網(wǎng)絡資源的描述元數(shù)據(jù)規(guī)范及其著錄規(guī)則。本館根據(jù)實際情況,據(jù)此規(guī)范制定了圖書、學位論文、期刊論文、會議論文、圖片、視頻六種元數(shù)據(jù)格式,以圖片元數(shù)據(jù)格式為示例一,見表1。
本館在建設和發(fā)布中采用通過CALIS二期認證的方正DESI系統(tǒng)作為資源建設和發(fā)布的平臺。DESI系統(tǒng)是北京方正阿帕比技術有限公司所開發(fā)的一套數(shù)字圖書館制作軟件。分為采用C/S模式的信息制作系統(tǒng)、信息資源系統(tǒng)和采用B/S模式的信息發(fā)布系統(tǒng),此系統(tǒng)可以將各種紙質(zhì)資源數(shù)字化,統(tǒng)一成符合國際標準格式的電子資源,能同時管理文字、圖片、多媒體等信息并提供全文檢索服務,支持網(wǎng)頁的動態(tài)發(fā)布,一個程序界面便完全實現(xiàn)了數(shù)據(jù)加工、審核、發(fā)布,是一個面向內(nèi)容管理的應用和信息發(fā)布軟件。
表1 圖片元數(shù)據(jù)格式
DESI系統(tǒng)具有以下基本功能:(1)紙質(zhì)文獻數(shù)字化,并進行圖像處理和文字識別;(2)文檔格式轉(zhuǎn)換,支持 DOC、PDF、PS、JPG、TIF、TXT 等格式轉(zhuǎn)換;(3)支持文檔的拆分、合并功能;(4)進行元數(shù)據(jù)標引、分類、目錄制作、多媒體鏈接等深度數(shù)據(jù)加工;(5)內(nèi)容加密使之無法隨意拷貝、打印、散發(fā);(6)支持電子資源的字段檢索、全文檢索、全面檢索和關聯(lián)檢索;(7)支持網(wǎng)絡發(fā)布、光盤發(fā)布,并可進行各種統(tǒng)計;(8)加密入庫及安全管理引擎,授權限定范圍內(nèi)的用戶下載閱讀;(9)提供FAQ、新聞、公告欄論壇等輔助功能;(10)對加工的電子資源添加水印?;谝陨瞎δ?,DESI系統(tǒng)能夠很好地滿足我們的建庫需求。
DESI中啟動方正DESI客戶端,新建資源庫。DESI系統(tǒng)內(nèi)置了 27種資源庫模板,其中包含《CALIS描述型元數(shù)據(jù)規(guī)范及其著錄規(guī)則》中規(guī)定的11種格式的特色庫模板。根據(jù)回族歷史文化特色數(shù)據(jù)庫的需要選擇特色庫圖書、期刊論文、學位論文、會議論文、圖片和網(wǎng)絡資源等六個模板。每個模板具有不同的字段,可以根據(jù)需要添加或修改字段信息。對于建好的各個子庫還需要進行相關設置,主要包括子庫是否需要完成除元數(shù)據(jù)標引外的數(shù)據(jù)分類、目錄制作和多媒體鏈接可選工作;是否分配不同人員來完成不同工作;是否數(shù)據(jù)審核后才能夠發(fā)布。數(shù)據(jù)庫框架如圖1示:
對于本館收藏的有關回族歷史文化的紙質(zhì)文獻資源通過掃描、圖像處理、OCR文字識別等手段形成數(shù)字化文檔,文本以pdf格式保存,圖片以tiff格式保存。利用文件上傳功能將數(shù)字對象轉(zhuǎn)入DESI系統(tǒng)相對應的子庫中,最終文本數(shù)據(jù)轉(zhuǎn)換成方正DESI使用的CEB格式。CEB作為DESI系統(tǒng)的特有格式,是完全高保真的中文電子書格式,其將不同的源文件格式轉(zhuǎn)換成統(tǒng)一格式,并保留了源文件中的字符、字體、版式和色彩的所有信息,該格式對文字圖像等進行了壓縮,節(jié)省了數(shù)據(jù)存儲空間。
對于本館收藏的電子資源和搜集的網(wǎng)絡資源,需要進行預處理,使之符合《CALIS文獻資源數(shù)字加工與發(fā)布標準》:文本格式的數(shù)字對象為pdf格式;圖像格式的數(shù)字對象為jpg格式或者tiff格式;視頻資源建議采用Mpeg或AVI(MPEG4)保存。在收集這類資源的過程中,利用Excel或access等軟件將各類型資源的元數(shù)據(jù)根據(jù)定義好的規(guī)范收集整理,利用DESI系統(tǒng)的資源導入導出功能批量將元數(shù)據(jù)和數(shù)字對象導入系統(tǒng)相對應的子庫中。
入庫的記錄要經(jīng)過數(shù)據(jù)加工,才能最終發(fā)布到網(wǎng)上?;刈鍤v史文化特色數(shù)據(jù)庫的數(shù)據(jù)加工過程主要包括元數(shù)據(jù)標引、數(shù)據(jù)分類和數(shù)據(jù)審核3個方面的內(nèi)容。
4.3.1 元數(shù)據(jù)標引
元數(shù)據(jù)標引是對文檔元數(shù)據(jù)進行標引的工作。元數(shù)據(jù)標引是數(shù)據(jù)加工階段中必不可少的環(huán)節(jié),標引的準確、詳細程度也直接決定數(shù)據(jù)庫的質(zhì)量。在此環(huán)節(jié)中,直接從原文中拖選需要的內(nèi)容,操作簡單,對于無法拖選內(nèi)容的資源也可以直接輸入。如果利用系統(tǒng)資源導入導出功能入庫的資源,元數(shù)據(jù)信息只要保證在入庫時已經(jīng)完整準確,就不再需要手工標引程序。
在特色數(shù)據(jù)庫建設中,數(shù)字化對象的標引和分類工作量通常很大,可將這些標引工作分配給不同的工作人員,多人并行工作。
4.3.2 數(shù)據(jù)分類
數(shù)據(jù)分類是將相關資料分到某種分類法的某一種類目之中。DESI系統(tǒng)在分類模塊中預制了標準的中圖法分類體系,同時也允許用戶自定義分類體系。用戶可根據(jù)自身需要創(chuàng)建相應的導航樹結構,將庫中的記錄進行分類,以方便數(shù)據(jù)的管理和訪問?;刈鍤v史文化特色數(shù)據(jù)庫采用學科導航分類法來進行數(shù)據(jù)的分類管理。
4.3.3 數(shù)據(jù)審核
在具體的建庫過程中,我們設定數(shù)據(jù)審核,檢查元數(shù)據(jù)標引和文件是否準確無誤,分類是否合理。對于元數(shù)據(jù)標引、分類信息準確無誤的任務標記為“任務正確”,只有“任務正確”后才能審核通過,對于有錯誤的信息可以通過不同的錯誤類型進行分類標記,如元數(shù)據(jù)標引錯誤、文件錯誤、分類錯誤。對于審核有錯誤的任務,在彈出的“錯誤信息”對話框中輸入錯誤原因,以待進一步的修改。數(shù)據(jù)審核是數(shù)據(jù)庫管理中的重要一環(huán),對建立數(shù)據(jù)庫起到了質(zhì)量保障作用。
數(shù)據(jù)處理完畢后就可以發(fā)布到數(shù)字資源平臺上,供廣大讀者查詢、檢索、借閱、下載;供管理員進行推薦、上架下架等操作。在DESI系統(tǒng)中發(fā)布時有三個選項可供選擇:一是僅發(fā)布元數(shù)據(jù),只發(fā)布一個任務的元數(shù)據(jù),而不會發(fā)布其他相關的數(shù)字對象文件;二是覆蓋,遇到重復發(fā)布的資源,自由選擇是否需要覆蓋已經(jīng)發(fā)布的資源的元數(shù)據(jù)和相關文件;三是發(fā)布時資源文件加密,對要發(fā)布資源的數(shù)字對象ceb文件進行加密,加密后的ceb文件在讀者下載到本地后不能拷貝到其他電腦。為使發(fā)布后的資源文件更加安全,我們選擇“發(fā)布時加密資源文件”,遇到重復發(fā)布的資源,選擇更新資源的元數(shù)據(jù)和相關文件。
在發(fā)布過程中會有進度條顯示發(fā)布情況,在發(fā)布結束后會生成日志文件,以txt格式保存。txt文檔中展示了發(fā)布過程中是否有發(fā)布失敗的情況,若發(fā)布任務都成功就代表完成了資源發(fā)布。若有發(fā)布失敗的任務則根據(jù)文檔中提示查找失敗原因,方便修改后再次發(fā)布。
資源發(fā)布成功后,用戶便可以根據(jù)權限在數(shù)字資源平臺訪問回族歷史文化資源庫。目前根據(jù)本校的實際情況,我們采用的是IP限制的方式來控制用戶權限,只有校內(nèi)用戶才可以訪問本資源庫,全面開放共享將是我們下一步的工作。
方正DESI系統(tǒng)提供了一種簡單、靈便、系統(tǒng)的建庫模式,提供了一個將回族歷史文化特色資源有機地組織整合起來的平臺,有利于全方位、高效率地為讀者提供方便、快捷的電子文獻資源,進一步宣傳和保存回族歷史文化。因此,我們要做好相關文獻的搜集、整理工作,做好數(shù)據(jù)錄入工作,努力實現(xiàn)信息資源的共享,為回族歷史文化資源的保護、研究開辟一條新的道路。
[1]喻志娟.關于高校圖書館特色數(shù)據(jù)庫建設與服務的思考[J].圖書館,2012,(4):112-114.
[2]海杰.回族文獻界定芻議[J].圖書館理論與實踐,1989,(4):14-15.
[3]CALIS 三期特色庫標準規(guī)范[EB/OL].http://202.114.65.58/portal/portal/media-type/html/group/whuguest/page/area_spec_change5_3.psml,2004.