李倩
摘要:鑒于近現(xiàn)代文獻(xiàn)資料的珍貴性及其被忽視的現(xiàn)狀,文章以近現(xiàn)代文獻(xiàn)資料的數(shù)字出版和保護(hù)為例,闡述了數(shù)字出版內(nèi)容的開發(fā)、管理路徑和歷史文化承載意義,對(duì)于保護(hù)近現(xiàn)代文獻(xiàn)資料、豐富數(shù)字出版內(nèi)容、促進(jìn)數(shù)字出版產(chǎn)業(yè)發(fā)展有一定的作用。
關(guān)鍵詞:
數(shù)字出版產(chǎn)業(yè) 內(nèi)容開發(fā)管理 近現(xiàn)代文獻(xiàn)資料
內(nèi)容是數(shù)字出版產(chǎn)業(yè)的靈魂,價(jià)值含量高的出版內(nèi)容和合理有效的管理方式是數(shù)字出版產(chǎn)業(yè)健康可持續(xù)發(fā)展的基本要求和根本動(dòng)力。我國(guó)古代歷史、近代革命和現(xiàn)代建設(shè)中遺留下來的海量文獻(xiàn)資料,是數(shù)字出版內(nèi)容的重要來源之一。
近現(xiàn)代文獻(xiàn)資料,指的是自1911年辛亥革命到21世紀(jì)初近百年間所創(chuàng)作出的圖書、報(bào)刊、日記等文獻(xiàn)資料。由于近現(xiàn)代文獻(xiàn)資料距今時(shí)間較短,因此普遍存在不必緊急搶救開發(fā)的認(rèn)識(shí)誤區(qū);同時(shí),長(zhǎng)期以來人們一直認(rèn)為近現(xiàn)代文獻(xiàn)的價(jià)值遠(yuǎn)不如古籍善本,所以它們的安置待遇也就遠(yuǎn)低于古籍文獻(xiàn)。近現(xiàn)代文獻(xiàn)資料淪為歷史文獻(xiàn)中的“亞珍貴文獻(xiàn)”,甚至是“弱勢(shì)群體”。[1]
需要引起人們重視的是,這些資料記錄著近代的革命浪潮、百家爭(zhēng)鳴的學(xué)術(shù)思想、抗戰(zhàn)時(shí)期的跌宕政局和新中國(guó)成立后的治國(guó)滄桑,其珍貴性并不比古籍善本低。[2]利用數(shù)字出版平臺(tái)來挖掘、開發(fā)和管理近現(xiàn)代文獻(xiàn)資料,是數(shù)字出版產(chǎn)業(yè)實(shí)現(xiàn)保護(hù)、傳播人類文化知識(shí)遺產(chǎn)這一歷史使命的重要方式。
一、歷史文化承載:數(shù)字化近現(xiàn)代文獻(xiàn)資料的必要性
1. 數(shù)字化的近現(xiàn)代文獻(xiàn)資料可更清晰地重現(xiàn)宏大壯觀的歷史語境
中國(guó)近現(xiàn)代歷史是一部政局跌宕、風(fēng)潮暗涌的革命史,其不同政見和立場(chǎng)的政治實(shí)體孕育了各具特色的經(jīng)濟(jì)、文化、思想文獻(xiàn)載體,如《大公報(bào)》《滿洲三省志》《蔣中正日記》《論持久戰(zhàn)》等等都誕生于此。此外,在新中國(guó)成立之后,全國(guó)范圍內(nèi)轟轟烈烈開展起來的土地改革、社會(huì)主義改造和改革開放等運(yùn)動(dòng),也都留下了大量的私人記錄、文學(xué)作品、公開發(fā)行報(bào)刊和政府機(jī)構(gòu)出版物等文獻(xiàn)資料。
數(shù)字出版產(chǎn)業(yè)有責(zé)任重現(xiàn)這宏大壯觀的歷史語境,將其數(shù)字化,以保留這些珍貴的資料,從而更加真實(shí)地還原歷史原貌和歷史真相,更加清晰地展示新中國(guó)的奮斗及成長(zhǎng)歷程,為中國(guó)解決發(fā)展中出現(xiàn)的各種社會(huì)問題提供必要的參考。
2. 數(shù)字化的近現(xiàn)代文獻(xiàn)資料可演繹百家爭(zhēng)鳴的文化思潮
中國(guó)近現(xiàn)代的政治雖然起伏動(dòng)蕩,文化事業(yè)卻非常繁榮。近現(xiàn)代的中國(guó)思想文化異彩紛呈,圖書、報(bào)刊、手記、海報(bào)、檔案、圖片等豐富多彩的文獻(xiàn)形式,反映出了近現(xiàn)代時(shí)期百家爭(zhēng)鳴的文化盛況。在民國(guó)時(shí)期,學(xué)術(shù)啟蒙和思想交鋒一度達(dá)到頂峰,民國(guó)學(xué)人以《新青年》雜志為陣地,轟轟烈烈地開展新文化運(yùn)動(dòng),在這段重要的歷史時(shí)期內(nèi),誕生了諸如梁?jiǎn)⒊摹吨袊?guó)近三百年學(xué)術(shù)史》、馮友蘭的《中國(guó)哲學(xué)史》、李大釗的《我的馬克思主義觀》等學(xué)術(shù)巨著。新中國(guó)成立之后,中共中央適時(shí)提出了“百花齊放,百家爭(zhēng)鳴”的振興文化事業(yè)的方針政策,文化事業(yè)得到了迅速的繁榮和發(fā)展,產(chǎn)出了大量如《紅巖》《蔡文姬》等優(yōu)秀作品。改革開放之后,我國(guó)文化事業(yè)再次迎來輝煌發(fā)展的春天,涌現(xiàn)并出版了更多的文化精品。
數(shù)字出版產(chǎn)業(yè)有責(zé)任演繹和傳播這百家爭(zhēng)鳴的文化思潮。近現(xiàn)代涌現(xiàn)出的這些文化精品,是中國(guó)近現(xiàn)代學(xué)術(shù)史上首批具有開創(chuàng)意義的奠基之作,不僅對(duì)我國(guó)近代新興學(xué)科的創(chuàng)建具有重要的學(xué)術(shù)價(jià)值和參考價(jià)值,在全世界范圍也被視作第一手研究資料。作為延續(xù)民族文化的重要手段,數(shù)字化出版這些近現(xiàn)代文獻(xiàn)資料可以重新演繹出近現(xiàn)代歷史中的文化風(fēng)采和思想交鋒。
3. 數(shù)字化的近現(xiàn)代文獻(xiàn)資料可為人文科學(xué)研究提供資源
海量的近現(xiàn)代文獻(xiàn)資料中,相當(dāng)一部分在中國(guó)近現(xiàn)代學(xué)術(shù)史上占據(jù)著重要地位。數(shù)字化采集提取和編輯處理過的近現(xiàn)代精品文獻(xiàn),可以完整保存文獻(xiàn)資料的文本信息,更能保持文獻(xiàn)的初始面目,如原件的印章、墨跡、筆跡、批注等各種原始特征,使當(dāng)代研究學(xué)者可以足不出戶地拜讀到近現(xiàn)代文獻(xiàn)的原始樣貌,體會(huì)到近現(xiàn)代文獻(xiàn)的原始韻味,為研究學(xué)者提供更多挖掘原始資料的線索,有助于當(dāng)代科學(xué)研究更廣泛和更深入的開展,對(duì)當(dāng)代多種學(xué)科的建設(shè)有著不可替代的作用。
4. 數(shù)字化的近現(xiàn)代文獻(xiàn)資料有益于中國(guó)文化走向世界
進(jìn)入互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)傳播所具有的不受時(shí)空限制、信息量大、傳播速度快的特點(diǎn),使數(shù)字信息成為最重要的文化資源。數(shù)字化手段將使人類的精神文化寶庫跨越時(shí)空,在全人類面前實(shí)現(xiàn)資源共享,可以讓神秘的中國(guó)文化——尤其是近現(xiàn)代文化歷史——借助現(xiàn)代信息技術(shù)再現(xiàn)輝煌,讓全世界人民感受到東方文化恒久彌新的獨(dú)特魅力。
二、數(shù)字出版產(chǎn)業(yè)的內(nèi)容開發(fā):近現(xiàn)代文獻(xiàn)資料的挖掘與優(yōu)選
源源不斷地提供優(yōu)質(zhì)內(nèi)容,是保證數(shù)字出版行業(yè)健康科學(xué)、可持續(xù)發(fā)展的基本要素。對(duì)于近現(xiàn)代文獻(xiàn)而言,從浩如煙海的近現(xiàn)代文獻(xiàn)史料中挖掘和優(yōu)選出具備人文、思想、經(jīng)濟(jì)、歷史價(jià)值的優(yōu)質(zhì)資源,是數(shù)字出版的第一步。然而,海量的文史資料中必然玉石同室,精華與糟粕同在。因此,數(shù)字出版前應(yīng)對(duì)這些內(nèi)容資源進(jìn)行優(yōu)選,實(shí)現(xiàn)對(duì)數(shù)字出版內(nèi)容質(zhì)量的宏觀控制。長(zhǎng)期以來,受“片紙只字不得銷毀”思想的誤導(dǎo),我國(guó)的近現(xiàn)代文獻(xiàn)整理和數(shù)字化工程一直持有“有文必收”的錯(cuò)誤態(tài)度,這難免會(huì)將內(nèi)容價(jià)值極其一般的事務(wù)性、零散性和重復(fù)性文件也收錄其中,導(dǎo)致數(shù)字出版產(chǎn)業(yè)“內(nèi)容龐雜、魚龍混雜、玉石不分”,也造成了人力、財(cái)力和物力的巨大浪費(fèi)。
對(duì)近現(xiàn)代文獻(xiàn)資料進(jìn)行挖掘和優(yōu)選,除對(duì)國(guó)家所有的文獻(xiàn)資料進(jìn)行整理外,更要重視民間對(duì)文化遺產(chǎn)的容納力。要通過民間走訪和考古發(fā)掘進(jìn)行文獻(xiàn)挖掘,然后對(duì)散落在民間的文獻(xiàn)資料和館藏文獻(xiàn)進(jìn)行擇優(yōu)鑒選,使投入的人力、財(cái)力、物力、時(shí)間等要素得以充分、合理和有效的配置,最大限度發(fā)揮數(shù)字化成果的經(jīng)濟(jì)效益和社會(huì)效益,提高數(shù)字資源的利用率。[3]對(duì)數(shù)字化對(duì)象的鑒選,應(yīng)當(dāng)采取歷史文化價(jià)值優(yōu)先性原則,從重要文獻(xiàn)到次要文獻(xiàn),從亟須文獻(xiàn)到一般文獻(xiàn),依次鋪開,循序推進(jìn),打造優(yōu)質(zhì)化和精品化的數(shù)字出版產(chǎn)業(yè)。
三、數(shù)字出版內(nèi)容管理:近現(xiàn)代文獻(xiàn)資料的數(shù)字加工與管理
數(shù)字出版產(chǎn)業(yè)的內(nèi)容管理,是指在內(nèi)容上進(jìn)行包括收集、編輯處理、格式轉(zhuǎn)換、審核、版本控制、內(nèi)容測(cè)試、發(fā)布等處理的過程。[4]在大量的內(nèi)容資源中,絕大部分內(nèi)容是非結(jié)構(gòu)化的,內(nèi)容管理的目的是把非結(jié)構(gòu)化的信息,制作成圖書、報(bào)刊、光盤、網(wǎng)頁等產(chǎn)品,供用戶以各種媒體形式閱讀、檢索、查詢、分析和共享。以近現(xiàn)代文獻(xiàn)資料為來源的出版內(nèi)容數(shù)字化處理,就是指對(duì)近現(xiàn)代紙質(zhì)文獻(xiàn)進(jìn)行數(shù)字化提取、格式轉(zhuǎn)換、數(shù)字化編輯整理等加工與整合,以及進(jìn)一步搭建和應(yīng)用近現(xiàn)代文獻(xiàn)數(shù)據(jù)庫。
1. 近現(xiàn)代文獻(xiàn)資料的數(shù)字化提取
通過數(shù)字化手段,把破損的紙質(zhì)文獻(xiàn)當(dāng)中的文本內(nèi)容提取出來,是數(shù)字化出版近現(xiàn)代文獻(xiàn)資料的第一步。從古籍文獻(xiàn)的保護(hù)經(jīng)驗(yàn)和國(guó)外數(shù)字化科技的發(fā)展趨勢(shì)來看,對(duì)近現(xiàn)代文獻(xiàn)資料可采用以下兩種數(shù)字化加工技術(shù):(1)通過光學(xué)字符識(shí)別——OCR軟件,把近現(xiàn)代文獻(xiàn)資料的內(nèi)容錄入計(jì)算機(jī),制成文本文件等。OCR技術(shù)可將近現(xiàn)代文獻(xiàn)資料轉(zhuǎn)化為文本,并能從圖像文件中自動(dòng)抽取題名、著者、文中插題、文內(nèi)關(guān)鍵詞等檢索點(diǎn),并轉(zhuǎn)化為索引。該技術(shù)在古籍?dāng)?shù)字化處理中已有較為成熟的應(yīng)用,如電子版《文淵閣四庫全書》。(2)通過影像縮微與掃描將文獻(xiàn)的內(nèi)容掃入計(jì)算機(jī),制成圖像文件??s微品存儲(chǔ)載體的穩(wěn)定性強(qiáng),預(yù)期壽命可達(dá)500年以上,是長(zhǎng)期安全保存文獻(xiàn)資料的最佳存儲(chǔ)介質(zhì)之一。對(duì)于非常珍貴、不可再生的近現(xiàn)代文獻(xiàn)資料,非常有必要使用可靠性更強(qiáng)的縮微技術(shù)進(jìn)行處理。隨著掃描技術(shù)與縮微技術(shù)的結(jié)合,近現(xiàn)代文獻(xiàn)的數(shù)字化加工又可分為直接縮微處理和先掃描后縮微處理兩種形式。縮微技術(shù)在古籍?dāng)?shù)字化處理中取得的成果,值得借鑒,如廣東省立中山圖書館建成的“古籍全文數(shù)據(jù)庫”。
考慮到文獻(xiàn)價(jià)值和保存狀況的不同,筆者建議對(duì)文獻(xiàn)資料采取差異化數(shù)字加工手段:(1)對(duì)于價(jià)值珍貴且易老化損壞的、或價(jià)值一般但老化壞損嚴(yán)重的文獻(xiàn),建議采用縮微技術(shù),將文獻(xiàn)的影像記錄在縮微膠片上,以實(shí)現(xiàn)對(duì)文獻(xiàn)的搶救和保護(hù)。(2)對(duì)于價(jià)值高且使用頻率高的文獻(xiàn),建議首先應(yīng)用縮微技術(shù)制作影像膠片以便保護(hù),在此基礎(chǔ)上再將縮微膠片進(jìn)行數(shù)字化轉(zhuǎn)換以便編輯和使用。(3)對(duì)于價(jià)值一般、保存情況好、使用頻率高的文獻(xiàn),可采用OCR光學(xué)識(shí)別技術(shù)將文獻(xiàn)數(shù)字化以便于傳播使用。
2. 近現(xiàn)代文獻(xiàn)資料的數(shù)字化編輯整理
數(shù)字出版絕非簡(jiǎn)單地將數(shù)字內(nèi)容資源提取出來,還須經(jīng)過必要的編輯、整理和加工,使用戶可以對(duì)內(nèi)容資源進(jìn)行檢索、復(fù)制等必需的操作。近年來,信息組織技術(shù)方法逐漸被應(yīng)用于典籍文獻(xiàn)的數(shù)字化整理工作中,對(duì)于近現(xiàn)代文獻(xiàn)資料的編輯整理有參考借鑒價(jià)值。
數(shù)字化編輯整理工作主要包括近現(xiàn)代文獻(xiàn)索引的自動(dòng)編纂和近現(xiàn)代文獻(xiàn)電子圖書的編纂:(1)近現(xiàn)代文獻(xiàn)索引的自動(dòng)編纂。主要是指借助OCR技術(shù)對(duì)提取出來的文獻(xiàn)原文進(jìn)行機(jī)編索引,可采用的技術(shù)手段包括索引之星、Word 索引軟件和自編語詞索引軟件等,此外,在索引排序方法方面可借鑒較為成熟的科學(xué)技術(shù)。(2)近現(xiàn)代文獻(xiàn)電子圖書編纂。電子圖書就是“以電子的方式儲(chǔ)存信息,并以電子的方式進(jìn)行閱讀的圖書”。在完成掃描、識(shí)別等預(yù)處理之后,近現(xiàn)代文獻(xiàn)電子圖書編纂主要包括電子排版、Word文檔拆分、添加模板、制作網(wǎng)頁文件等環(huán)節(jié),Easy CHM電子圖書編輯軟件是當(dāng)前最常用的電子圖書編纂軟件。
王雅戈等學(xué)者以吳覺農(nóng)先生所著的《中國(guó)茶葉問題》為例,對(duì)機(jī)編索引的方法和索引軟件的應(yīng)用進(jìn)行了研究,并進(jìn)一步應(yīng)用Easy CHM電子圖書編輯軟件對(duì)民國(guó)文獻(xiàn)電子圖書編纂進(jìn)行了實(shí)驗(yàn)。[5]其研究對(duì)民國(guó)農(nóng)業(yè)文獻(xiàn)數(shù)字化整理、開展農(nóng)史研究都有重要的貢獻(xiàn),對(duì)其他近現(xiàn)代文獻(xiàn)的數(shù)字化編輯處理亦有指導(dǎo)借鑒意義。
3. 近現(xiàn)代文獻(xiàn)資料的數(shù)據(jù)庫式管理模式
傳統(tǒng)的出版方式難以有機(jī)綜合這些文字、圖像和聲音等不同載體的內(nèi)容資源和信息,而計(jì)算機(jī)數(shù)字化處理技術(shù)和數(shù)據(jù)庫存儲(chǔ)管理技術(shù)則可以實(shí)現(xiàn)近現(xiàn)代文獻(xiàn)聲、文、圖并茂的多維度展示和傳播,改變出版作品單一的出版形式,賦予其更加生動(dòng)的形象和更加強(qiáng)大的生命力。[6]所以,在對(duì)海量的文獻(xiàn)資源完成挖掘、開發(fā)和編輯處理后,還需要對(duì)近現(xiàn)代文獻(xiàn)資料進(jìn)行數(shù)據(jù)庫式的管理。
實(shí)際上,隨著科技的發(fā)展,數(shù)據(jù)庫技術(shù)已經(jīng)成為較為先進(jìn)的文獻(xiàn)數(shù)字化管理手段,在近現(xiàn)代文獻(xiàn)資料的管理中,文化出版企業(yè)和文化管理機(jī)構(gòu)已經(jīng)逐步采用這一方式。如湖南省青蘋果數(shù)據(jù)中心就走在了行業(yè)的前列。中心成立20年來,已經(jīng)數(shù)字化了從清朝至今200多年的400種報(bào)刊,建立了擁有4000億漢字和4億篇文章的海量歷史文獻(xiàn)庫——“華文報(bào)刊文獻(xiàn)數(shù)據(jù)庫”,包含了中國(guó)革命領(lǐng)導(dǎo)人文庫、中國(guó)歌曲數(shù)據(jù)庫等數(shù)十個(gè)分庫。
結(jié) 語
近現(xiàn)代文獻(xiàn)資料涵蓋了清末以來中國(guó)的政治、經(jīng)濟(jì)、軍事、外交、科學(xué)、技術(shù)、教育、文化、宗教等各方面,是歷史締造者留給我們的精神遺產(chǎn)。借助數(shù)字出版的形式將近現(xiàn)代文獻(xiàn)提取、編輯、整理并用數(shù)據(jù)庫模式予以管理,是弘揚(yáng)中國(guó)歷史和文化的重要途徑,也是豐富數(shù)字出版產(chǎn)業(yè)的內(nèi)容資源、引導(dǎo)數(shù)字出版產(chǎn)業(yè)科學(xué)發(fā)展、豐富人民精神文化生活的必然選擇。
參考文獻(xiàn):
[1] 王雅戈,王晉玲,常娥. 民國(guó)文獻(xiàn)整理研究進(jìn)展[J].圖書館建設(shè),2011(3):15-18.
[2] 劉洪權(quán).民國(guó)古籍出版對(duì)當(dāng)代古籍出版的文化貢獻(xiàn)[J].編輯之友, 2007(3):91-94.
[3] 孫琴.民國(guó)文獻(xiàn)數(shù)字化建設(shè)現(xiàn)狀分析研究[J]. 山東圖書館季刊,2008(1):71-73.
[4] 劉爭(zhēng).內(nèi)容管理系統(tǒng)在數(shù)字出版中的應(yīng)用研究[J].編輯之友,2012(4):20-23.
[5] 王雅戈,朱原諒,何琳.電子圖書編纂實(shí)驗(yàn)——以民國(guó)文獻(xiàn)電子圖書編纂為例[J].圖書館理論與實(shí)踐,2009(6):61-63.
[6] 朱琪.民國(guó)檔案數(shù)字化研究與思考[J].北京檔案,2010(2):26-27.
(作者單位:湖南第一師范學(xué)院)