葛懷東
(金陵科技學院人文學院,江蘇南京,210038)
古籍數(shù)字化工作自上世紀80年代開始,經(jīng)過幾十年的建設(shè)與開發(fā),成果顯著,一些大規(guī)模、具有代表性的古籍數(shù)據(jù)庫陸續(xù)投入使用,并形成較為成熟的古籍數(shù)字化加工技術(shù)。在取得成績的同時,古籍數(shù)字化建設(shè)中的問題仍然十分明顯,表現(xiàn)為缺乏統(tǒng)一規(guī)劃、重復(fù)建設(shè)嚴重,缺乏統(tǒng)一標準、阻礙資源共享,區(qū)域發(fā)展不均等。
當前,正值國家古籍保護中心及相關(guān)文化機構(gòu)大規(guī)模開展古籍數(shù)字化之際,而規(guī)范化建設(shè)能夠推動古籍資源庫的開發(fā)在數(shù)據(jù)采集、加工等各個環(huán)節(jié)走上科學化、專業(yè)化的發(fā)展軌道,更是推動古籍數(shù)字化工作可持續(xù)發(fā)展的內(nèi)在動力。
古籍數(shù)字化資源是數(shù)字圖書館資源中重要的組成內(nèi)容。在各類文獻中,古籍獨具特色,蘊含著獨特的文獻價值、藝術(shù)價值,彰顯著古老文明的魅力。而古籍的數(shù)字化服務(wù)能夠有效解決古籍保護和利用的矛盾,是傳承文明、服務(wù)社會最重要的方式之一。
古籍數(shù)字資源庫是對古籍及古籍內(nèi)容的再現(xiàn),是古籍再生性保護的重要途徑。開發(fā)古籍數(shù)字資源庫,就是將古籍的特點與信息技術(shù)的優(yōu)勢相結(jié)合,讓經(jīng)過加工后的古籍數(shù)字資源保持原有的文化特征與內(nèi)涵,實現(xiàn)從古籍影像的數(shù)字再現(xiàn)到古籍內(nèi)容的分析、聚類,從單一古籍內(nèi)容的處理到海量文獻的信息重組,從簡單的文本轉(zhuǎn)換到知識挖掘??梢哉f,建成后的古籍數(shù)字資源庫是基于內(nèi)容整合、有序的數(shù)字資源集合,從而幫助研究者更好地進行古籍文獻資源的知識建構(gòu)。
古籍數(shù)字資源庫的建設(shè)應(yīng)著眼以下三個方面:
標準化建設(shè)直接影響著古籍數(shù)據(jù)庫的使用效果、存在價值和發(fā)展前景。因此,所開發(fā)的古籍數(shù)字資源庫一定要依據(jù)國家制訂的古籍保護方面的相關(guān)標準,包括古籍普查規(guī)范、中華古籍總目編目規(guī)則、通行的數(shù)字化制作數(shù)據(jù)著錄標準、古籍書影拍攝相關(guān)規(guī)范、數(shù)據(jù)標引標準、規(guī)范控制標準及各種協(xié)議等,以較成熟的系統(tǒng)軟件和通用標準為技術(shù)平臺來建立規(guī)范化的古籍數(shù)字資源庫。
古籍數(shù)字資源庫的任務(wù)就是要準確揭示古籍信息資源,并為用戶提供在網(wǎng)絡(luò)環(huán)境和復(fù)雜的技術(shù)條件下檢索及利用的服務(wù)平臺。因此,建庫時應(yīng)遵循“實用性”原則,充分調(diào)研用戶對于數(shù)字化古籍的使用需求,深入分析古籍信息資源的實用價值以及社會效益,以保證古籍數(shù)據(jù)庫能滿足讀者和社會需求。
鑒于古籍信息資源的建設(shè)需要,古籍數(shù)字化的開發(fā)項目要能夠吸納、補充新的數(shù)字化古籍文本以及古籍整理的研究成果。因此,古籍數(shù)字資源庫的建設(shè)應(yīng)該是動態(tài)的、可拓展的,而其所提供的資源或服務(wù)也必須在不斷發(fā)展的技術(shù)與運行機制下長期保存和使用,并與未來的資源與服務(wù)環(huán)境相融合。
古籍數(shù)字化是保護與傳承珍貴古籍的重要手段之一,可以真實、清晰地反映古籍原貌,并借助網(wǎng)絡(luò)等媒介提供大眾使用,從而促進古籍傳播,開創(chuàng)古籍利用與服務(wù)的新模式。從我國現(xiàn)已完成的古籍數(shù)字化成果來看,由于最初采取的是封閉式建設(shè)模式,各單位多執(zhí)行自己的標準及規(guī)范,以至于所開發(fā)的古籍數(shù)據(jù)庫在著錄格式、數(shù)據(jù)格式、文字編碼等方面均存在差異,且互不開放,造成眾多古籍數(shù)字資源不能資源共享。因此,迫切需要加快古籍數(shù)字化規(guī)范化建設(shè)進程,以便增強古籍數(shù)字資源庫的通用性和共享性。
2007年國務(wù)院辦公廳在《關(guān)于進一步加強古籍保護工作的意見》(國辦發(fā)[2007]6號)中就明確指出,要“規(guī)范古籍數(shù)字化工作,建立古籍數(shù)字資源庫”。古籍資源庫的規(guī)范化建設(shè)是針對古籍數(shù)字資源的采集、加工、保存等開發(fā)過程,所提供的一套規(guī)范、合理、科學的建庫支撐體系,以提高古文獻數(shù)據(jù)的有效利用率和可整合性。在古籍數(shù)字化的過程中,規(guī)范化建設(shè)能夠為古籍資源庫的開發(fā)在質(zhì)與量兩方面提供技術(shù)規(guī)范和共同遵守的準則,使古籍數(shù)字化項目在各個環(huán)節(jié)做到“有章可循”,從而實現(xiàn)數(shù)據(jù)加工業(yè)務(wù)的流程化,技術(shù)實現(xiàn)的標準化,質(zhì)量控制的工程化,共享與服務(wù)的系統(tǒng)化。推進規(guī)范化建設(shè),可以引導(dǎo)古籍數(shù)字化盡快適應(yīng)當今對古籍資源開發(fā)利用的共享趨勢,并朝著專業(yè)、科學開發(fā)的方向邁進。
2011年,文化部發(fā)布《關(guān)于進一步加強古籍保護工作的通知》,要求加快古籍的數(shù)字化建設(shè)。目前,國家古籍保護中心和各省級古籍保護中心正著手進行“中華古籍數(shù)字資源庫”建設(shè),第一階段擬從《國家珍貴古籍名錄》入手,在5年內(nèi)完成一萬種國家級珍貴古籍名錄數(shù)據(jù)和影像數(shù)據(jù)的建庫工作。為保證數(shù)字化古籍資源及服務(wù)在整個信息環(huán)境中的可利用、可互操作和可持續(xù)發(fā)展,迫切需要加快古籍數(shù)字化工作規(guī)范建設(shè)的進程,以便增強古籍數(shù)字資源庫的通用性和共享性[1]。
隨著古籍數(shù)字化工作的不斷深入,古籍數(shù)字資源庫的規(guī)范化建設(shè)已不再僅局限于對單個標準的研究與應(yīng)用,而是從整個數(shù)字資源生命周期的角度,圍繞數(shù)字資源的創(chuàng)建、描述、組織、服務(wù)、長期保存來建立完整的系統(tǒng)框架,并按照整個框架體系規(guī)范、組織各方面的加工及作業(yè)環(huán)節(jié),從而保障古籍數(shù)字資源的開放建設(shè)與集成服務(wù)[2]。因此,當前古籍數(shù)字資源庫應(yīng)注重數(shù)字資源內(nèi)容創(chuàng)建、古籍元數(shù)據(jù)、系統(tǒng)服務(wù)、長期保存等規(guī)范化建設(shè)環(huán)節(jié)。
作為一種非常有效的再生性保護手段,古籍數(shù)字內(nèi)容的創(chuàng)建實現(xiàn)了古籍存儲和使用的分離,將古籍作為一種數(shù)字信息資源,動態(tài)地展示在人們面前。在古籍數(shù)字資源庫建設(shè)中,古籍數(shù)字內(nèi)容的創(chuàng)建過程包括數(shù)字資源采集、對象數(shù)據(jù)創(chuàng)建、數(shù)字資源加工、數(shù)字資源轉(zhuǎn)換等環(huán)節(jié),而實施其規(guī)范化建設(shè)的支撐單元為內(nèi)容編碼、內(nèi)容對象格式、內(nèi)容對象標識等。其中內(nèi)容編碼涉及數(shù)據(jù)內(nèi)容的計算機編碼形式和標記形式,是制約數(shù)字信息可使用性乃至可持續(xù)性的最基本條件。
以漢字字符集編碼為例,古籍文本中的漢字數(shù)量約有十萬左右,其中常用字三四千,絕大多數(shù)字都屬于生僻字、避諱字、異體字等。因此,漢字處理規(guī)范就是要解決古文獻在數(shù)字化中面臨集外字的問題。Unicode與國際標準ISO10646同步,且滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。它所涵蓋的漢字目前已超過7萬個,并且還在不斷擴充,因此在古籍數(shù)字化時絕大多數(shù)機構(gòu)都采用了Unicode字符集。
同時,在古籍數(shù)字資源庫建設(shè)中,要分析并確立應(yīng)采用的數(shù)字編碼與內(nèi)容標記標準,并針對保存格式、瀏覽格式和預(yù)覽格式提出需要采用的數(shù)字內(nèi)容格式標準,確立數(shù)字資源加工標準和程序的選擇原則,編制數(shù)字資源建設(shè)指南的基本操作規(guī)范和加工操作規(guī)范。目前,國家古籍保護中心組織已編制了《古籍數(shù)字化工作手冊》,對即將開展的珍貴古籍數(shù)字化工作進行規(guī)范性指導(dǎo)。
元數(shù)據(jù)作為描述數(shù)字對象的數(shù)據(jù),是所有數(shù)字信息資源建設(shè)項目的重要基礎(chǔ)。而古籍元數(shù)據(jù)標準主要解決的是物理實體古籍和數(shù)字化古籍的著錄和描述問題。元數(shù)據(jù)具有資源發(fā)現(xiàn)與確認、資源著錄描述、資源集合組織、資源及其服務(wù)的利用和管理、資源長期保存以及資源與服務(wù)系統(tǒng)功能與過程描述等廣泛的用途。
古籍元數(shù)據(jù)基于DC構(gòu)建,在吸收了DC核心元素的基礎(chǔ)上加入了部分古籍專門元素而成。由北京大學圖書館牽頭,聯(lián)合CALIS管理中心、上海圖書館等8 家單位完成的《我國數(shù)字圖書館標準規(guī)范專門數(shù)字對象描述元數(shù)據(jù)規(guī)范》項目中,將古籍元數(shù)據(jù)結(jié)構(gòu)分為描述元數(shù)據(jù)、結(jié)構(gòu)元數(shù)據(jù)、管理元數(shù)據(jù)三個部分。其中:(1)描述元數(shù)據(jù)包括了記錄掃描或拍照過程的信息,創(chuàng)建的存儲文件的信息,以及有關(guān)組成單個對象的各個不同塊的信息;(2)結(jié)構(gòu)元數(shù)據(jù)可幫助重新組合數(shù)字對象的各個部分以及通過結(jié)構(gòu)標識進行導(dǎo)航獲取數(shù)字對象。如建立古籍子目(叢書分目信息)、卷序號、卷名和頁碼關(guān)聯(lián)結(jié)構(gòu);建立古籍印章信息結(jié)構(gòu),記錄印章名稱、所在位置等;(3)管理元數(shù)據(jù)是記錄數(shù)字主文件的創(chuàng)建,派生文件的處理過程,標識數(shù)字圖像的使用環(huán)境,建立數(shù)字圖像各個部分或示例之間的鏈接等信息[3]。
在古籍數(shù)字資源庫建設(shè)中,可參照的古籍元數(shù)據(jù)標準的規(guī)范文件有:《古籍描述元數(shù)據(jù)規(guī)范》(2004.06.07);《古籍描述元數(shù)據(jù)著錄規(guī)則》(2004.06.07);《古籍元數(shù)據(jù)規(guī)范》(2006.11.22)等。
隨著網(wǎng)絡(luò)化的發(fā)展,古籍數(shù)字資源庫的信息服務(wù)不再局限于本地化。通過規(guī)范化建設(shè)推動古籍數(shù)字資源庫的服務(wù)機制,能夠有效保障古籍信息資源的可使用性和各數(shù)據(jù)庫之間的互操作性。古籍數(shù)字資源系統(tǒng)服務(wù)工作內(nèi)容包括了數(shù)字資源發(fā)布、數(shù)字檢索、數(shù)字資源服務(wù)管理環(huán)節(jié),其規(guī)范化建設(shè)體現(xiàn)在網(wǎng)絡(luò)服務(wù)協(xié)議、數(shù)據(jù)傳輸和數(shù)據(jù)應(yīng)用條件、檢索服務(wù)、分布數(shù)字信息服務(wù)機制與知識產(chǎn)權(quán)等方面。
古籍數(shù)字資源庫的目標在于能夠?qū)崿F(xiàn)多功能、多層次的資源服務(wù)模式。對古籍數(shù)字資源庫的資源服務(wù)模式,包括了個性化信息檢索、基于超文本鏈接閱讀環(huán)境、智能輔助支持功能及知識發(fā)現(xiàn)服務(wù)等。其中:(1)個性化信息檢索功能是利用計算機技術(shù)實現(xiàn)古籍資源數(shù)據(jù)庫的全文檢索、條件檢索、關(guān)聯(lián)檢索、超鏈接反饋檢索等;(2)基于超文本鏈接閱讀模式的設(shè)計,是通過超文本鏈接技術(shù)實現(xiàn)古籍原本中相關(guān)內(nèi)容的信息單元之間鏈接,以一個信息需求點為中心,匯聚出所有相關(guān)信息單元,建立多功能閱讀環(huán)境,為讀者提供信息的非線性表達方式;(3)智能輔助支持功能,就是利用計算機技術(shù),為讀者提供有關(guān)古籍內(nèi)容本身的、科學準確的統(tǒng)計與計量信息,并提供與古籍內(nèi)容相關(guān)的參考資料和輔助工具,如字數(shù)、字頻、詞頻的統(tǒng)計數(shù)據(jù),異體字的匯聚顯示等;(4)知識發(fā)現(xiàn)服務(wù),即通過數(shù)據(jù)挖掘技術(shù)和結(jié)果可視化實現(xiàn)古籍信息的深層次挖掘與提取研究,為古籍整理提供有價值的參考和支撐。
為了確保古籍信息資源存儲的穩(wěn)定性及可獲取性,還應(yīng)針對古籍數(shù)字資源建立相關(guān)的長期保存機制,并通過規(guī)范的管理機制和技術(shù)機制來保證長期保存過程的可靠性。
古籍數(shù)字資源在長期保存方面將面臨的挑戰(zhàn)主要有以下三方面:一是由于信息科技的發(fā)展造成技術(shù)的淘汰或是儲存媒體容易損壞的特性,促使古籍數(shù)字化資源必需面臨轉(zhuǎn)換、重置或遷移;二是數(shù)字轉(zhuǎn)換、重置或遷移的過程中,如何避免數(shù)據(jù)損失,維持數(shù)字資源的完整性;三是如何保持數(shù)字資源變更的紀錄,維持數(shù)字數(shù)據(jù)的真實性。因此,必要建立一套行之有效的數(shù)字資源長期保存設(shè)施和機制。
在數(shù)字信息資源長期保存領(lǐng)域,國際上已經(jīng)有了一些數(shù)字信息資源長期保存規(guī)范。例如OAIS 參考模型是由美國空間數(shù)據(jù)系統(tǒng)咨詢委員會(CCSDS)制定的標準,并作為ISO的標準(IS014721:2003)于2003年頒發(fā),其目的在于提供對數(shù)字資源長期保存和存取規(guī)定的概念和參考模型[4]。另外,2006年5月ISO還批準的一個開放文檔格式標準ODF1.0(OpenDocument Format)(標準號:ISO/IEC 26300),可以作為數(shù)字資源長期保存的一種技術(shù)方案。ODF是OASIS開源社區(qū)開發(fā)的一種獨立于廠商和應(yīng)用的文檔格式標準,其目的主要是保證現(xiàn)有的文檔能不受技術(shù)和法律制約而實現(xiàn)長期存取。相比現(xiàn)有的文檔格式,ODF標準更適合資源的長期保存。
[1]梁愛民,陳荔京.古籍數(shù)字化與共建共享[J].國家圖書館學刊,2012(5):108-112.
[2]《我國數(shù)字圖書館標準與規(guī)范建設(shè)》項目[OL].http://cdls.nstl.gov.cn/.
[3]龍偉.以“中華古籍保護計劃”為契機推進文獻典籍資源數(shù)字化[J].數(shù)字與縮微影像,2012(3):36-39.
[4]王偉.數(shù)字資源長期保存的技術(shù)研究[J].情報科學,2012(11):1751-1754.