黃衛(wèi)華
摘 要:隨著古籍保護的相關政策法規(guī)的陸續(xù)出臺,圖書館業(yè)界掀起了保護性建設熱潮,尤其是數(shù)字化古籍,面臨空前的發(fā)展契機。本人重點總結(jié)研究了相關的數(shù)據(jù)庫建設的文獻資料,重點對其中涉及的問題與困境(例如統(tǒng)一標準方面)進行比照分析,試圖尋找解決問題的突破口。
關鍵詞:古籍保護;數(shù)據(jù)庫建設;統(tǒng)一標準
中圖分類號:G253.6 文獻標識碼:A
古籍是指以文字符號(含圖形)方式記錄的古代典籍。其載體則以紙本印刷書籍為主,也還包括了像碑刻,青銅銘文,簡牘帛書等以文字為記錄符號的古代文獻。
從某種概念上說,古籍屬于文物,但又不同于其他種類的文物。人們對古籍的利用,也就是對其的研讀,是要通過翻閱的,但由此產(chǎn)生的二次傷害又給古籍保護帶來新的難題。我們不能因噎廢食,不能為了保護古籍,而將其“冷藏”不提供使用,又不能為了利用古籍,而無節(jié)制使用。面對這個兩難的命題,數(shù)字化,無疑是個很好的折衷點。
1 古籍數(shù)字化相關的保護背景
古籍的重要歷史文化價值,已經(jīng)被全社會認可,并由政府不斷出臺相關的配套政策,提供古籍搶救性保護和數(shù)字化開發(fā)的政策支持。2007 年國務院辦公廳發(fā)布《關于進一步加強古籍保護工作的意見》( 國辦發(fā)[2007]6 號) ,其中第五條提出了古籍數(shù)字化的具體要求,更將古籍數(shù)字化推向了高潮。
2011年文化部、財政部發(fā)出實施全國范圍的“數(shù)字圖書館推廣工程”中,古籍的數(shù)字化作為其建設的重中之重,并成為其推廣的對象。截止到目前為止,古籍數(shù)字化工程已完成的重大項目包括了建成“中國基本古籍庫”。
2 進一步解讀古籍數(shù)字化
2.1古籍數(shù)字化的技術簡介
所謂古籍全文數(shù)字化就是在保持古籍原貌的前提下,通過多媒體的圖文掃描技術,提取古籍的內(nèi)容,生成JPEG、TIFF等格式存儲的圖片,該圖片文件可以直接作為源數(shù)據(jù)存儲成古籍檔案,也可以通過進一步的文字識別,如采用OCR技術,生成以WORD、TXT、HTML等格式文字文件,在此過程中涉及到的最基本的就是數(shù)字影像技術。這也是古籍數(shù)據(jù)庫的建立的前提。我們通過現(xiàn)今的數(shù)據(jù)庫對象處理技術,是能夠給讀者提供了方便快捷的界面,來進行古籍的全文搜索,全文閱讀,甚至可以圖文并茂,呈現(xiàn)出高真度的閱讀體驗。
2.2 古籍數(shù)字化的意義
2.2.1 從保護性開發(fā)的角度,可以避免原件丟失與損壞的風險
能保留至今的古籍大部分已是孤本,文獻紙質(zhì)已經(jīng)脆化、圖片發(fā)黃褪色,把其進行數(shù)字化轉(zhuǎn)換,一方面可以通過減少與原件直接的使用接觸,從而達到最大限度保護文獻的目的。筆者通過與縣市區(qū)圖書館的文獻互助加工的工作,了解到,例如肇慶地區(qū)的高要館,正是通過將孤本古籍進行高清度圖像攝影,首先把紙質(zhì)文獻轉(zhuǎn)化為可辨識的圖像,實現(xiàn)了數(shù)字化的基礎工作;與此同時,把原件通過恒溫恒濕的冷凍技術,通過物理技術的轉(zhuǎn)換,最大限度優(yōu)化了文獻的儲存環(huán)境。
2.2.2 古籍數(shù)字化資源的直接便捷檢索,利于優(yōu)秀傳統(tǒng)文化的傳播
古籍文獻作為一個文本化的物質(zhì)文化遺產(chǎn),對于現(xiàn)代中國社會建立一個完整系統(tǒng)的傳統(tǒng)文化學習研究的體系,起到根本性的支撐作用。正是基于現(xiàn)代社會對數(shù)字資源的高比重需求,現(xiàn)代圖書館的古籍資源數(shù)字化應運而生,以便捷的全文檢索為核心的古籍數(shù)字化建設,建設目的是使得有研究需求的讀者人群,能最快速最直接的得到準確的“第一手”研究資料。
2.3 古籍數(shù)字化關鍵點
古籍數(shù)字化涉及到如下幾個關鍵點:元數(shù)據(jù),文獻圖像,全文文本等。
在數(shù)據(jù)庫技術的層面上的元數(shù)據(jù),是整個數(shù)字化物理層的基礎,它以數(shù)據(jù)條的形式記錄了古籍對應的特征和屬性等
古籍原文圖像,就是將古籍以圖像形式掃描,全文錄入計算機,它一定程度上規(guī)避了文本搜索的過程存在一些技術上的“失真”的情況。
全文文本就是把掃描后的圖像識別轉(zhuǎn)換成數(shù)字文本,它的優(yōu)點在于方便檢索,編輯,存儲空間小。缺點是對于生僻字,繁簡字,通假字,識別后的錯訛率高,不方便錄入。
3 國內(nèi)古籍數(shù)字化現(xiàn)狀調(diào)查與問題分析
3.1 技術實現(xiàn)層面上
由于考慮到研究相關技術和相關設備投入的成本過高的問題,僅僅依靠政府的投入還是無法有效推動古籍數(shù)字化的發(fā)展,因此迫切需要一些有技術實力的企業(yè)參與到該項工作中來。
由于有相關的法律法規(guī)關于版權(quán)的規(guī)定,很多擁有古籍孤本或者需要做古籍研究的學術機構(gòu),包括了上至國家圖書館,各大學圖書館,以及相關學術研究機構(gòu)大部分采用與數(shù)據(jù)庫出版商合作或購買的方式,主要通過租用或購買數(shù)據(jù)庫產(chǎn)品的途徑,擁有數(shù)字化古籍的使用權(quán)限。同時還可以用相對少的經(jīng)費,輕松解決內(nèi)容更新等等冗繁的問題。
成功的案例里就有《廣東省歷代方志》,廣東省歷代方志具體項目內(nèi)容是,先通過圖書館方面內(nèi)部的協(xié)調(diào),通過總分館之間的協(xié)調(diào),省級館與市級館之間的協(xié)調(diào),市級館到縣級館之間的協(xié)調(diào),全面的協(xié)調(diào)機制開始運作以后,實現(xiàn)了紙質(zhì)珍貴孤本方志,在省級圖書館廣東省立中山圖書館的總調(diào)度和統(tǒng)籌下,完成了紙質(zhì)文獻的基礎收集工作,接著,就是通過圖書館方,和數(shù)字化加工商之間的協(xié)商,完成了文獻每一頁的圖像高清度攝影工作,也就是文獻原本圖像化。
在這個過程中,圖書館方與數(shù)字加工商很好的協(xié)調(diào)了版權(quán)方面的問題,就圖像化的原本,再加工出版成為精裝版的版權(quán)歸屬問題已經(jīng)達成了很好的共識。精裝版的《廣東歷代方志》從明清到民國,形成一個連貫的歷史發(fā)展脈絡,精美的裝潢,高辨識度的文字閱讀效果,使得有研究需要的讀者群體得到了最終的閱讀需求和權(quán)益的滿足。同時《廣東歷代方志》的數(shù)字化發(fā)布平臺,版權(quán)的歸屬也是屬于館方的,這也體現(xiàn)了對原始資源的占有方的尊重。數(shù)字化的《廣東歷代方志》通過網(wǎng)絡,可是在圖書館以外的外網(wǎng)直接訪問,與精裝版的《廣東省歷代方志》的閱讀效果等同,這也排除了很多離圖書館相距較遠的讀者直接“登門”的麻煩。
3.2 技術成果背后的隱憂
3.2.1 項目形式單一,圖書館與數(shù)字開發(fā)商缺乏深層互動
業(yè)界成功的數(shù)字化古籍的案例無一不是,技術開發(fā)商和圖書館方的“無縫”對接的成果。這是一個合作而非彼此“博弈”的一個過程,作為主導方的圖書館,因其本身占有原始資源的優(yōu)勢,往往輕視了與數(shù)字開發(fā)商平等交流的一個合作基準。
基于以上種種因素,造成了最后資源的使用者——古籍研究的讀者群的閱讀質(zhì)量和權(quán)益得不到保障。
比如廣東省立中山圖書館的古籍的數(shù)字化閱覽功能。只對持有本館讀者證的讀者,在本館范圍內(nèi)使用。
從一個側(cè)面看,用戶的需求還是和現(xiàn)在的項目開發(fā)還存有一定的差距。
3.2.2 直接經(jīng)濟利益驅(qū)動不足,市場不成熟,經(jīng)濟效益不明顯
我國古籍數(shù)字化產(chǎn)業(yè)的特點是:在數(shù)字化開發(fā)商的前期投入研發(fā)的成本巨大,而研發(fā)資金的投入主要來自國家、和擁有古籍文獻的圖書館,國內(nèi)的數(shù)字化開發(fā)商由于行業(yè)形成時間比較滯后,商業(yè)的推廣和營銷策略跟不上市場的發(fā)展,出現(xiàn)了盲目的搜索用戶群,往往收效欠佳,不但浪費了時間也消耗了寶貴的研發(fā)成本。
古籍數(shù)字化的研究開發(fā)、商業(yè)化應用都需要大量資金投入,而資金回收期相對較長,在很大程度上限制了我國古籍數(shù)字化的發(fā)展。
3.2.3 對從事古籍數(shù)字化的復合型人才的缺乏
在古籍數(shù)字化的過程,一項基礎的關鍵工作是錄入文本前對古籍的整理,在全國范圍內(nèi),從事這方面工作的人才非常少,因其需具備的不單是古籍整理知識,更需要熟練的計算機技術。
3.2.4 涉及版權(quán)的問題
古籍數(shù)字化要解決的另一個重要問題是版權(quán)。所有的文化產(chǎn)品都涉及到版權(quán),而對于古籍資源,版權(quán)歸屬的界定尤其困難。
比如最簡單的標點整理,就牽涉到版權(quán)問題。某A方整理的版本,與某B方整理的版本,由于都基于同一文本但僅僅因為標點的差異,兩者就存在版權(quán)的爭議,到底是誰盜用了誰,我國版權(quán)法執(zhí)行了多年,積累了不少經(jīng)驗,但對于這樣的案例的責任追究難度還是比較罕見的高。
另外,原本文獻由于盜竊的難度,責任易于認定。一旦實現(xiàn)了數(shù)字化,由于數(shù)字化古籍處理系統(tǒng)安全管理存在這樣那樣的漏洞,很容易數(shù)據(jù)庫被惡意攻擊訪問,從而盜竊了相關的數(shù)字資源,用于非法的復制和使用。這樣的版權(quán)的認定就增加了難度。
4 探求古籍數(shù)字化發(fā)展對策
4.1 行業(yè)內(nèi)急需標準化的制定和有力度的執(zhí)行
古籍數(shù)字化標準是古籍數(shù)字化建設長遠持久的根本保障。在多年的數(shù)字化實踐中,陸續(xù)研制并應用《古籍著錄規(guī)則》、《古籍專門元數(shù)據(jù)著錄規(guī)則》、《漢語文機讀目錄格式使用手冊》等等相關標準,可參照執(zhí)行。目前大部分古籍數(shù)字化標準規(guī)范已經(jīng)研發(fā)完成,可直接參照執(zhí)行。國家古籍保護中心組織編制了《古籍數(shù)字化工作手冊》,對即將開展的珍貴古籍數(shù)字化工作進行規(guī)范。古籍數(shù)字化標準規(guī)范體系建設要以實現(xiàn)古籍資源的共建共享為基本目的,優(yōu)先采用已經(jīng)成熟的國際標準和通用規(guī)范,認真貫徹國家標準和行業(yè)標準。建立全國統(tǒng)一標準,包括元數(shù)據(jù)著錄標準、數(shù)字化影像標準、資源格式標準、資源標引標準、數(shù)字化古籍長期保存和發(fā)布標準等。
4.2 古籍資源共建共享的統(tǒng)一平臺開發(fā)方案的相關設計。
古籍數(shù)字化的目標是通過統(tǒng)籌規(guī)劃,共同建設,使所有古籍數(shù)字化成果能夠在統(tǒng)一平臺上便捷的檢索和利用,真正實現(xiàn)古籍資源的共建共享。
古籍數(shù)字化是通過圖書館方與數(shù)字化開發(fā)商在項目開發(fā)協(xié)議的指引下,共同開發(fā),達到使數(shù)字化成果在一個統(tǒng)一的平臺上方便快捷的檢索的最終于目的。
而針對現(xiàn)今古籍處理業(yè)界各自為陣,缺乏交流的現(xiàn)狀,在技術層面的理解是,根源在于缺少公用的計算機支撐環(huán)境,因此以上提到的古籍數(shù)字化統(tǒng)一平臺的開發(fā),就尤顯必要。
該平臺應針對不同對象,進行操作界面的切換。主要是數(shù)字化建設方,和數(shù)字化使用者之間的切換。
而對于建設者,應該具有以下具體功能:
(1)掃描錄入
通過掃描將古籍以圖片形式錄入系統(tǒng),可以隨時編輯更改、放大縮小、旋轉(zhuǎn)、精密打印等操作;能夠?qū)呙鑸D像進行數(shù)據(jù)庫管理;能提供強大的OCR漢字識別軟件,以便將古籍圖像轉(zhuǎn)化成文本。
(2)編輯排版
應當由一個適用于古籍整理的漢字庫,具有古籍中常見字、異體字及某些特殊用字,應有補字軟件。
(3)全文檢索功能
能夠?qū)⑵胀ㄎ谋疚募踩霗z索系統(tǒng)中,實現(xiàn)主題詞檢索和全方位檢索,并根據(jù)檢索要求自動匯集成段資料。
(4)能夠和互聯(lián)網(wǎng)直接聯(lián)通,滿足網(wǎng)絡交流的需要。
而對于古籍資源的使用者,也劃分為兩種:
一種是大眾讀者,由于古籍數(shù)字化成果的服務利用的公益性質(zhì),可以免費向大眾讀者開放的功能包括:用戶檢索,普通閱覽等。一般的這類讀者可以通過圖書館官網(wǎng)的統(tǒng)一發(fā)布平臺,憑借自己的讀者證,通過單點登錄,實現(xiàn)無障礙閱讀。
另一種是從事古籍研究工作的用戶,在兼?zhèn)湟陨洗蟊娮x者的使用權(quán)限的前提下,還可以提供圖像數(shù)據(jù)的下載功能。這也有賴于文獻發(fā)布平臺的技術基礎,比如首先檢索的技術要實現(xiàn)圖文數(shù)據(jù)庫的技術。
但由于涉及到版權(quán)的問題,在使用下載功能之前,必須獲得授權(quán)許可、簽署保證書。
結(jié)語
數(shù)字化古籍是現(xiàn)今數(shù)字化時代古籍保護上的必然選擇,在有關政府,研究機構(gòu),和數(shù)據(jù)庫商三方的共同努力下,建設初現(xiàn)規(guī)模,但距離真正實現(xiàn)古籍資源的共建共享的目標,還有待各界同仁的共同努力探索,完善數(shù)字化工作的制度執(zhí)行體系,建設體系,共享體系和服務體系,為古籍文化傳播和古籍文物保護貢獻自己的力量。
參考文獻
[1]楊琳.大陸古籍數(shù)字化的現(xiàn)狀及存在的問題[D].第一屆中國古籍數(shù)字化國際學術研討會論文集.
[2]劉琳,吳洪澤. 古籍整理學[M]. 四川:四川大學出版社,2003.
[3]汪琳.古籍數(shù)字化的現(xiàn)狀研究[J]. 圖書館情報,2009(11).