龍 偉 楊 勇
(中國國家圖書館 北京 100081)
圖書館擔(dān)負(fù)著保存和傳承中華文明的重任,通過建設(shè)數(shù)字館藏揭示更多的文獻(xiàn)內(nèi)容,進(jìn)而推動(dòng)珍貴文獻(xiàn)的使用和流傳。中文近代文獻(xiàn)對(duì)研究我國近代政治、經(jīng)濟(jì)、文化等不同領(lǐng)域的發(fā)展?fàn)顩r具有無可替代的作用,是研究中國近代史的重要史料。但是這一時(shí)期的紙質(zhì)出版物大多是以酸性紙張為原料印制而成的,距今最長的有百余年的歷史。據(jù)美國著名圖書保護(hù)專家巴羅的研究報(bào)告,1900-1949年出版的部分文獻(xiàn)在20世紀(jì)面臨著無法使用的危險(xiǎn)[1]。
根據(jù)《民國時(shí)期總書目》、《全國中文期刊聯(lián)合目錄》、《全國中文報(bào)紙聯(lián)合目錄》統(tǒng)計(jì),我國民國時(shí)期出版民國圖書124 000種、民國期刊29 000種、民國報(bào)紙7 800種[1]。民國文獻(xiàn)大多被我國公共圖書館所藏,如國家圖書館、上海圖書館、南京圖書館。國家圖書館(以下簡稱我館)現(xiàn)有民國文獻(xiàn)館藏約67萬件,館藏量居全國之首。為搶救、保護(hù)文獻(xiàn),我館從上世紀(jì)80年代開始利用縮微技術(shù)拍攝了大批近代文獻(xiàn)。20多年來,全國圖書館縮微文獻(xiàn)復(fù)制中心聯(lián)合文獻(xiàn)搶救共建單位共拍攝民國圖書60 000余種、民國期刊15 000余種、民國報(bào)紙4 300余種[2]。隨著數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)工作的推進(jìn)、信息處理技術(shù)的發(fā)展和信息服務(wù)模式的多樣化,2000年國家圖書館將民國圖書、期刊、報(bào)紙及中文普通古籍等館藏文獻(xiàn)列入數(shù)字館藏建設(shè)計(jì)劃,并按常規(guī)性基礎(chǔ)業(yè)務(wù)工作分步實(shí)施、組織數(shù)字資源建設(shè)。
在豐富的館藏中準(zhǔn)確定位、尋求自己的館藏特色、樹立精品意識(shí)是圖書館數(shù)字館藏建設(shè)的首要任務(wù)。中文近代文獻(xiàn)數(shù)字館藏建設(shè)的主要任務(wù)是圖書館縮微文獻(xiàn)的數(shù)字化建設(shè)??s微文獻(xiàn)是圖書館專業(yè)隊(duì)伍經(jīng)過長時(shí)間建設(shè)積累的信息資源,因此在文獻(xiàn)拍攝、書目數(shù)據(jù)制作等方面有質(zhì)量保障。以縮微文獻(xiàn)數(shù)字化建設(shè)為中文近代文獻(xiàn)數(shù)字館藏建設(shè)的基礎(chǔ),可以不再動(dòng)用原始出版物,有利于對(duì)原始文獻(xiàn)的保護(hù)。而且充分利用已建設(shè)的縮微文獻(xiàn)相關(guān)數(shù)據(jù),可有效避免資源重復(fù)建設(shè)導(dǎo)致的人、財(cái)、物的浪費(fèi)。圖書館在縮微文獻(xiàn)數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)字內(nèi)容的深度加工和處理,可形成完整的、系統(tǒng)的、可持續(xù)發(fā)展的特色數(shù)字資源體系。
圖書館在特色館藏建設(shè)過程中,應(yīng)堅(jiān)持?jǐn)?shù)據(jù)加工處理標(biāo)準(zhǔn)化、內(nèi)容編碼國際化、語言描述與標(biāo)引規(guī)范化,直接引用和采納國際上普遍應(yīng)用的技術(shù)標(biāo)準(zhǔn)和規(guī)范。中文近代文獻(xiàn)數(shù)字館藏建設(shè)確定了相關(guān)建設(shè)原則和方法,其中包括字符集選擇、元數(shù)據(jù)規(guī)范、對(duì)象數(shù)據(jù)處理及數(shù)字對(duì)象唯一標(biāo)識(shí)符注冊(cè)等幾個(gè)方面。
(1)國際標(biāo)準(zhǔn)字符集 編碼字符是數(shù)字資源最基本的表現(xiàn)形式。事實(shí)證明,選擇的編碼字符集是否適用是文獻(xiàn)數(shù)字化成敗的關(guān)鍵。從 1999 年起,文獻(xiàn)數(shù)字化出現(xiàn)了勢(shì)如破竹的大好局面,相關(guān)國際標(biāo)準(zhǔn)的制定、發(fā)展和實(shí)施基本解決了中文字符集的問題。中文近代文獻(xiàn)數(shù)字館藏建設(shè)選擇了以 ISO/IEC 10646和Unicode為代表的國際標(biāo)準(zhǔn),基本滿足各種簡體、繁體、異體等字符和符號(hào)的處理,保障了文獻(xiàn)數(shù)字化工作進(jìn)行及數(shù)字資源的跨平臺(tái)使用。
(2)元數(shù)據(jù) 中文近代文獻(xiàn)數(shù)字館藏的元數(shù)據(jù)建設(shè)是在縮微文獻(xiàn)書目數(shù)據(jù)基礎(chǔ)上進(jìn)行的擴(kuò)展。元數(shù)據(jù)既包括名稱、責(zé)任者、出版者、出版時(shí)間、主題、版本等基于文獻(xiàn)內(nèi)容特征的描述元數(shù)據(jù),同時(shí)還包括縮微文獻(xiàn)的感光材料、長度、解像力等膠片信息特征的技術(shù)元數(shù)據(jù)。
(3)對(duì)象數(shù)據(jù) 選擇成熟的、與系統(tǒng)無關(guān)的數(shù)字編碼以保證數(shù)據(jù)的可用性,使其不會(huì)隨著時(shí)間的推移和系統(tǒng)的變換而受到影響,是中文近代文獻(xiàn)數(shù)字館藏?cái)?shù)據(jù)編碼選擇的重點(diǎn)原則。同時(shí),數(shù)字館藏加工過程中詳細(xì)記錄了文獻(xiàn)源特質(zhì)信息、數(shù)字對(duì)象處理參數(shù),包括文獻(xiàn)規(guī)格、加工參數(shù)、放大倍率和數(shù)字化允許的處理方式、命名體系、數(shù)據(jù)格式等要素。
特色數(shù)字館藏的可持續(xù)發(fā)展能力決定數(shù)字圖書館的生命力。圖書館要在豐富的、可靠的、持久的、適用性強(qiáng)的數(shù)字資源中挖掘特有的內(nèi)部資源,并將其保存、轉(zhuǎn)化為特色數(shù)字館藏,同時(shí)加強(qiáng)館際合作與交流,有計(jì)劃、有組織、有步驟地建設(shè)數(shù)字館藏;另一方面,圖書館應(yīng)注意不斷提升資源建設(shè)者的綜合素質(zhì),這是數(shù)字館藏建設(shè)良性發(fā)展的可靠保障。
(1)特色館藏資源建設(shè)規(guī)劃與共建 圖書館特色資源建設(shè)應(yīng)充分發(fā)揮本館資源優(yōu)勢(shì)。通過統(tǒng)一的協(xié)調(diào)管理,采取分工協(xié)作、聯(lián)合建設(shè)的工作方式,不斷更新和豐富各種特色資源內(nèi)容。國家圖書館已建民國期刊、民國圖書、民國法律、新善本、地方志等具有本館特色和地方特色的中文近代文獻(xiàn)特色資源庫,這些資源庫仍處于不斷的完善和建設(shè)之中。在全國數(shù)字圖書館數(shù)字資源征集項(xiàng)目中,國家圖書館倡導(dǎo)聯(lián)合建設(shè)特色館藏,中文近代文獻(xiàn)數(shù)字館藏建設(shè)就是其中的一個(gè)項(xiàng)目。聯(lián)合建設(shè)使各個(gè)圖書館既是資源建設(shè)者又是終端用戶,既有效地避免了資源重復(fù)建設(shè),又大大地提高了資源使用率,使更多人享用圖書館的特色資源成果。
(2)不斷提高圖書館建設(shè)者的專業(yè)素質(zhì) 圖書館建設(shè)被不斷地賦予新的內(nèi)容和形式,這對(duì)圖書館建設(shè)者提出了更高的專業(yè)化要求。圖書館員的專業(yè)訓(xùn)練不能僅局限于使館員掌握?qǐng)D書館專業(yè)知識(shí),還要使館員掌握現(xiàn)代信息技術(shù)、經(jīng)濟(jì)管理方法、法律知識(shí)和外語能力,培養(yǎng)他們強(qiáng)烈的責(zé)任感和敬業(yè)精神。
圖書館建設(shè)和發(fā)展需要圖書館全體人員共同努力。館員要有高度的責(zé)任感和緊迫感,只有不斷地學(xué)習(xí)和更新知識(shí)和技能,提高自身素質(zhì),才能成為合格的建設(shè)者。同時(shí)圖書館管理者要積極培養(yǎng)適合圖書館發(fā)展的合格人才,除了要引進(jìn)人才外,還要重視現(xiàn)有人員的培訓(xùn)和繼續(xù)教育。
數(shù)字圖書館的核心是數(shù)字資源的管理和服務(wù),是傳統(tǒng)圖書館功能的延伸和擴(kuò)展。國家圖書館中文近代文獻(xiàn)數(shù)字化工作至今已有10余年的建設(shè)歷程,并在實(shí)踐中不斷探索和發(fā)展,圖書、期刊、地方文獻(xiàn)等數(shù)字館藏品種豐富、各具特點(diǎn),數(shù)據(jù)總量呈逐年遞增態(tài)勢(shì)。
3.1.1 文字字符識(shí)別
大規(guī)模的數(shù)字化工程表明,采用OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù)將書面文字轉(zhuǎn)化為電子形式的編碼字符,在建立圖文對(duì)照的基礎(chǔ)上進(jìn)行半自動(dòng)的人工校對(duì)和補(bǔ)字錄入,是現(xiàn)實(shí)可行的途徑。文獻(xiàn)版面分析與文字、圖片的切割等OCR技術(shù) 的預(yù)處理,絕大部分可以通過版面分析和切分軟件實(shí)現(xiàn),再由操作人員進(jìn)行校對(duì)、糾正。版面分析建立了原文圖像與編碼字符的聯(lián)系,為后續(xù)校對(duì)工序的自動(dòng)化和半自動(dòng)化奠定了基礎(chǔ)。OCR 技術(shù)的引擎識(shí)別率非常重要,它往往達(dá)不到人們所期待的精度,但這并不影響采用 OCR技術(shù)解決絕對(duì)數(shù)量文字識(shí)別的總策略。事實(shí)上,在中文近代文獻(xiàn)數(shù)字化中,OCR 是被當(dāng)作“炮兵”使用的,它解決的是 85% 的字符錄入問題和10% 的漢字錄入問題,真正需要人工鍵盤錄入的漢字只有5%。
3.1.2 數(shù)字內(nèi)容標(biāo)引
書刊文獻(xiàn)標(biāo)引分為3個(gè)層次:書目數(shù)據(jù)、摘要數(shù)據(jù)和文獻(xiàn)目錄。所有“目錄”、“目次”、“要目”需按原文內(nèi)容實(shí)錄。書刊的篇名、著者、頁碼為標(biāo)引必錄項(xiàng),若目錄頁中缺少其中的一項(xiàng),則須對(duì)照原始文獻(xiàn)查找后再進(jìn)行標(biāo)引。
3.1.3 數(shù)字影像處理
影像數(shù)字化轉(zhuǎn)換是在充分獲取膠片攝制情況后進(jìn)行的。影像數(shù)字化加工包括縮微文獻(xiàn)的資料整理、膠片掃描、影像處理、數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)保存等過程。在縮微文獻(xiàn)掃描之前,管理員對(duì)縮微文獻(xiàn)進(jìn)行適當(dāng)整理,登記每個(gè)片卷標(biāo)識(shí)號(hào)、數(shù)字對(duì)象唯一標(biāo)識(shí)符,經(jīng)數(shù)據(jù)查重后建立對(duì)象數(shù)據(jù)與元數(shù)據(jù)、篇名目次數(shù)據(jù)及其他元數(shù)據(jù)的對(duì)應(yīng)關(guān)系。在數(shù)字化加工過程中,由于膠片需要與掃描設(shè)備直接接觸,為了保護(hù)文獻(xiàn),要選用第二代縮微膠片,以免劃傷縮微文獻(xiàn)。合格的數(shù)字影像進(jìn)入影像處理流程要進(jìn)行糾偏和去除黑點(diǎn)、黑線、黑框等處理,一幅圖畫被分拍在不同畫幅時(shí),管理員應(yīng)將各個(gè)影像文件進(jìn)行拼接處理,拼接后影像不應(yīng)出現(xiàn)白邊和內(nèi)容缺失。 數(shù)據(jù)的質(zhì)量檢查是數(shù)據(jù)品質(zhì)的重要保證,影像的清晰度、失真度、完整性與數(shù)據(jù)結(jié)構(gòu)、文件順序、文件命名、數(shù)據(jù)存儲(chǔ)介質(zhì)命名、文檔管理、交接手續(xù)等項(xiàng)目是檢查和驗(yàn)收的主要內(nèi)容。影像數(shù)據(jù)分為檔案典藏級(jí)和瀏覽服務(wù)級(jí),檔案典藏級(jí)數(shù)據(jù)用于資源的長期保存和必要時(shí)的出版印刷,可作格式轉(zhuǎn)換和復(fù)制的母本;而瀏覽服務(wù)級(jí)的數(shù)據(jù)因用途、使用對(duì)象不同,是通過影像壓縮、格式轉(zhuǎn)換處理后的衍生物。
特色資源管理和服務(wù)系統(tǒng)是中文近代文獻(xiàn)推送服務(wù)的平臺(tái)。為方便數(shù)據(jù)維護(hù)與更新,系統(tǒng)采用瀏覽器作為操作界面,靈活配置索引項(xiàng),實(shí)現(xiàn)定制檢索方式。服務(wù)界面提供簡單檢索、高級(jí)檢索和在檢索結(jié)果中再檢索等檢索方法,可滿足不同的檢索需求。
(1)中文近代文獻(xiàn)的數(shù)字化包括信息資源采集加工、數(shù)字內(nèi)容獲取、存儲(chǔ)管理、資源發(fā)布、檢索服務(wù)等幾個(gè)步驟。系統(tǒng)平臺(tái)由具有添加對(duì)象、修改對(duì)象、索引對(duì)象、對(duì)象管理、用戶幫助等功能的系統(tǒng)管理模塊,保存元數(shù)據(jù)和對(duì)象數(shù)據(jù)的數(shù)據(jù)管理模塊及通過用戶檢索界面獲取資源的數(shù)據(jù)發(fā)布模塊構(gòu)成(見圖1),相關(guān)的國際標(biāo)準(zhǔn)及知識(shí)產(chǎn)權(quán)保護(hù)機(jī)制貫穿在應(yīng)用系統(tǒng)中。
(2)特色資源管理和服務(wù)系統(tǒng)要實(shí)現(xiàn)資源的統(tǒng)一發(fā)布和管理,應(yīng)先通過搜索系統(tǒng)檢索元數(shù)據(jù)庫獲得數(shù)字資源唯一標(biāo)識(shí),然后通過調(diào)度系統(tǒng)獲取數(shù)字對(duì)象。該系統(tǒng)不需要專業(yè)人員另外開發(fā)Web系統(tǒng),用戶可以根據(jù)自己的需要選擇適合的Web界面模版,根據(jù)資源使用需求,發(fā)布人員可在可視化參數(shù)表中選擇支持顯示和檢索的數(shù)據(jù)項(xiàng)。
(3)系統(tǒng)提供標(biāo)準(zhǔn)檢索功能,允許讀者通過文獻(xiàn)的名稱、主題、日期、出版等項(xiàng)目檢索數(shù)據(jù),檢索條件由管理員定制。高級(jí)檢索支持多個(gè)條件的“與”、“或”組合查詢,方便讀者迅速、精確地查找到所需內(nèi)容。對(duì)于不確定的條件,系統(tǒng)提供模糊檢索方式。檢索結(jié)果以列表形式呈現(xiàn),條目過多時(shí)讀者可以通過在檢索結(jié)果中再檢索的方式進(jìn)一步查找。每條數(shù)字資源都有詳細(xì)的內(nèi)容描述供讀者閱讀。數(shù)據(jù)顯示頁面和結(jié)果條目的排序方式均可由管理員隨時(shí)修改。
(4)特色資源系統(tǒng)提供數(shù)據(jù)讀取接口,輸出XML格式的元數(shù)據(jù)文件,輸出篇名目次導(dǎo)航,使用閱讀器瀏覽全文影像,保留歷史查看記錄并提供相關(guān)文獻(xiàn)的關(guān)聯(lián)。
國家圖書館數(shù)字館藏建設(shè)工作一直是有目標(biāo)、有計(jì)劃的,目前自建數(shù)字館藏已達(dá)到250TB。本著“邊建設(shè)邊服務(wù)”的原則,我館館藏?cái)?shù)字資源建設(shè)不斷擴(kuò)大與完善。中文近代文獻(xiàn)作為數(shù)字館藏建設(shè)的重要內(nèi)容,得到圖書館各方面重視,不斷增加建設(shè)力量。未來我館還將推出更多的文獻(xiàn)品種和數(shù)字內(nèi)容。我館在加強(qiáng)自有館藏建設(shè)時(shí)還應(yīng)與國內(nèi)其他圖書館一起建設(shè)國家數(shù)字圖書館工程,包括各種數(shù)字資源的組織管理、內(nèi)容服務(wù)和標(biāo)準(zhǔn)技術(shù)研究等。我們相信,這項(xiàng)具有長遠(yuǎn)影響的工程將使數(shù)字圖書館成為網(wǎng)絡(luò)時(shí)代保障人民群眾基本文化權(quán)益的重要途徑。
[1]解 說. 近代文獻(xiàn)的保護(hù)修復(fù)芻議[J]. 圖書館學(xué)刊, 2008(5):111-113.
[2]全國圖書館文獻(xiàn)縮微復(fù)制中心[EB/OL]. [2010-07-15]. http://swzx.nlc.gov.cn/wxqj.htm.
[3]孫一鋼, 龍 偉, 趙四友. 數(shù)字資源加工標(biāo)準(zhǔn)與操作指南[EB/OL].[2010-07-15].h ttp://cdls.nstl.gov.cn/mt/blogs/2nd/archives/docs/CDLS-S03-008.pdf.
[4]王居平. 數(shù)字圖書館評(píng)價(jià)的理論和方法[M].合肥: 安徽大學(xué)出版社, 2008:30-36.
[5]歐 潔, 羅治國, 林守勛, 等.數(shù)字圖書館的數(shù)字對(duì)象體系結(jié)構(gòu)[J].中國科學(xué)院研究生院學(xué)報(bào), 2000(1):93-99.
[6]葉 鷹, 金 瑋. 數(shù)字圖書館的體系結(jié)構(gòu)與理論模型[J]. 圖書情報(bào)工作, 2003(9):45-47.