李寶金,藍(lán)韶清,張曉旭
(1.廣州中醫(yī)藥大學(xué),510006;2.廣東中醫(yī)藥博物館,廣州 510006)
古籍屬于不可再生的文化資源,具有文物價(jià)值與文獻(xiàn)價(jià)值的雙重屬性,盡管我國(guó)加大了對(duì)古籍的保護(hù)力度,但隨著歷史的推進(jìn),古籍還是會(huì)悄無聲息、不可避免地出現(xiàn)損毀,乃至消亡。一般古籍保護(hù)分為原生性保護(hù)和再生性保護(hù),所謂原生性保護(hù),是對(duì)古籍原件的保存與養(yǎng)護(hù),包括修復(fù)殘破古籍、改善保護(hù)環(huán)境。再生性保護(hù)是指通過影印、掃描和數(shù)字化處理等現(xiàn)代技術(shù)手段,將古籍的形式和內(nèi)容進(jìn)行復(fù)制轉(zhuǎn)移和再發(fā)展[1]。伴隨著數(shù)字化、網(wǎng)絡(luò)等技術(shù)的發(fā)展,古籍的數(shù)字化發(fā)展逐漸起步,古籍?dāng)?shù)字化,就是利用計(jì)算機(jī)等數(shù)字化技術(shù)將古籍進(jìn)行掃描、文字識(shí)別與轉(zhuǎn)換或錄入,并使之結(jié)構(gòu)化,建立古籍?dāng)?shù)據(jù)庫(kù),其目的在于保護(hù)古籍和揭示古籍文獻(xiàn)信息,最終實(shí)現(xiàn)古籍的保存和利用。古籍的數(shù)字化是中華文化由紙質(zhì)媒介向現(xiàn)代化傳播方式的重要轉(zhuǎn)變,是中醫(yī)藥文化傳播方式的一次革命。
目前,中醫(yī)藥古籍?dāng)?shù)字化取得了一定進(jìn)展,在保護(hù)與利用中醫(yī)藥古籍的矛盾中取得了相對(duì)的平衡,例如:中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所利用其資源優(yōu)勢(shì),構(gòu)建了“中醫(yī)藥古籍資源數(shù)據(jù)庫(kù)”,現(xiàn)已收錄1500種中醫(yī)古籍的元數(shù)據(jù)信息和其中的850種中醫(yī)古籍的原文圖像,已經(jīng)可以通過中醫(yī)古籍閱覽系統(tǒng)實(shí)現(xiàn)電子閱覽[2],為中醫(yī)藥古籍?dāng)?shù)字化保護(hù)和利用開辟了途徑。
廣東中醫(yī)藥博物館成立于2006年,前身是廣州中醫(yī)藥大學(xué)中國(guó)傳統(tǒng)醫(yī)藥文化博物館,保存主要包括嶺南地區(qū)的醫(yī)史文物、動(dòng)植物標(biāo)本等,藏有豐富的中醫(yī)藥古籍,形成了華南地區(qū)最大的中藥標(biāo)本中心,是廣東省中醫(yī)藥強(qiáng)省建設(shè)的重點(diǎn)項(xiàng)目之一。
廣東中醫(yī)藥博物館的中醫(yī)藥古籍?dāng)?shù)字化總體建設(shè)目標(biāo)是:針對(duì)廣東中醫(yī)藥博物館內(nèi)古籍的特色,利用計(jì)算機(jī)、數(shù)據(jù)庫(kù)、多媒體和網(wǎng)絡(luò)等技術(shù),采集中醫(yī)藥古籍?dāng)?shù)字化信息,并進(jìn)行存儲(chǔ)、加工,完成古籍?dāng)?shù)字化,搭建古籍?dāng)?shù)字化資源保護(hù)、研究、展示、傳播的平臺(tái),以期達(dá)到向公眾提供中醫(yī)藥博物館的全方位信息服務(wù)、傳播中醫(yī)藥文化和保護(hù)中醫(yī)藥非物質(zhì)文化遺產(chǎn)的最終目標(biāo)。
中醫(yī)藥古籍的數(shù)字化內(nèi)容主要包括:書目元數(shù)據(jù)庫(kù)、原文圖像、全文文本、研究支持功能等,具體建設(shè)的總體框架圖如圖1所示:
圖1 中醫(yī)藥古籍?dāng)?shù)字化建設(shè)總體架構(gòu)圖
2.2.1 中醫(yī)藥古籍書目元數(shù)據(jù)庫(kù)
元數(shù)據(jù)是用來定義存儲(chǔ)在數(shù)據(jù)庫(kù)中數(shù)據(jù)形式的數(shù)據(jù),是指提供關(guān)于信息資源或數(shù)據(jù)的一種關(guān)于結(jié)構(gòu)化的數(shù)據(jù),其功能為描述數(shù)據(jù)本身之特征或?qū)傩裕?]。每一條中醫(yī)藥古籍的元數(shù)據(jù)基本上應(yīng)包括該中醫(yī)藥古籍的所有特征或者屬性。廣東中醫(yī)藥博物館根據(jù)中醫(yī)藥古籍的特點(diǎn)以及館內(nèi)管理的需要,每一條元數(shù)據(jù)都需包括:入館登記號(hào)、入館日期、入館名稱、作者、類別、出版者、出版年代、征集人、征集日期、質(zhì)地、功能、完殘、顏色、題識(shí)內(nèi)容、征集經(jīng)過、流傳經(jīng)歷、備注、登記人、登記日期等二十多個(gè)屬性。
2.2.2 中醫(yī)藥古籍原文圖像
將中醫(yī)藥古籍以圖像形式掃描,全文錄入計(jì)算機(jī),這種方法就是將古籍文獻(xiàn)的文字包括圖表、針灸圖譜、拓片等皆以圖像形式錄入計(jì)算機(jī),然后用Photoshop等圖片處理軟件進(jìn)行處理,實(shí)現(xiàn)數(shù)字化。它的最大優(yōu)點(diǎn)是,既能保持古籍的“原貌”,內(nèi)容又不會(huì)錯(cuò)訛,同時(shí)錄入也方便省力。
2.2.3 中醫(yī)藥古籍全文文本
將紙質(zhì)中醫(yī)藥古籍文本通過掃描、識(shí)別轉(zhuǎn)換成數(shù)字文本,或者通過人工將中醫(yī)藥古籍中的文字通過鍵盤輸入計(jì)算機(jī)中,完成中醫(yī)藥古籍全文文本數(shù)據(jù)庫(kù)。全文文本的古籍?dāng)?shù)字化要比單純的原文圖像更進(jìn)一步,它的優(yōu)點(diǎn)在于全文文本數(shù)據(jù)庫(kù)可以方便地用于檢索、統(tǒng)計(jì)、編輯等,且儲(chǔ)存空間小。當(dāng)然其缺點(diǎn)也是相當(dāng)明顯,全文輸入不僅量大、難度高,而且錯(cuò)訛難免,無??眱r(jià)值,有失原貌,特別是中醫(yī)藥古籍中的生僻字、繁簡(jiǎn)字、通假字特別多,不方便錄入。
2.2.4 中醫(yī)藥古籍研究支持功能
中醫(yī)藥古籍的原文圖像和全文文本都只是古籍的一種原版,缺乏一定的研究支持功能,所謂研究支持功能是指能夠提供有關(guān)中醫(yī)藥古籍內(nèi)容本身或者相關(guān)的參考信息、數(shù)據(jù)、輔助工具等,這些都是中醫(yī)藥古籍內(nèi)容的擴(kuò)展或補(bǔ)充[4]。中醫(yī)藥古籍具有非常高的文獻(xiàn)研究?jī)r(jià)值,其研究支持功能應(yīng)更強(qiáng)大。除常用的中醫(yī)古籍研究輔助工具外,還應(yīng)具有不同版本和相關(guān)數(shù)據(jù)的鏈接。對(duì)相關(guān)內(nèi)容進(jìn)行標(biāo)注,對(duì)生僻字進(jìn)行注解等都是研究支持功能的重要組成部分,而目前的中醫(yī)藥古籍?dāng)?shù)字化的研究支持功能尚顯薄弱。
2.3.1 保真原則
因中醫(yī)藥古籍具有文物價(jià)值,那么數(shù)字化過程中除了對(duì)其進(jìn)行原生性保護(hù),還必須進(jìn)行再生性保護(hù),數(shù)字化產(chǎn)品再生性保護(hù)的“復(fù)制轉(zhuǎn)移”中必須保護(hù)其原貌,即保真原則。所謂保真原則是指數(shù)字化中醫(yī)藥古籍產(chǎn)品應(yīng)該具有重現(xiàn)作為歷史文物的古籍原貌的功能,具體表現(xiàn)是數(shù)字化古籍產(chǎn)品應(yīng)該具有原文圖像。原文圖像主要滿足版本研究、文物鑒賞、書史研究、文字校勘、原件對(duì)照等特殊需要。
2.3.2 整理原則
因中醫(yī)藥古籍又具有文獻(xiàn)價(jià)值,那么數(shù)字化過程中的再生性保護(hù)除了保護(hù)其原貌,還必須“再發(fā)展”,即整理原則。所謂整理原則是指數(shù)字化古籍產(chǎn)品應(yīng)該具有文獻(xiàn)資料的應(yīng)用性,追求的不再是形式上的保真,而是內(nèi)容的保真。古籍的數(shù)字化并不只是對(duì)古籍進(jìn)行掃描在計(jì)算機(jī)中存儲(chǔ)而后能瀏覽就可以了,還必須對(duì)古籍進(jìn)行相關(guān)整理,具體表現(xiàn)是數(shù)字化古籍產(chǎn)品應(yīng)具有全文文本,并對(duì)文本進(jìn)行整理、校對(duì)、注釋、補(bǔ)充等,對(duì)中醫(yī)藥古籍進(jìn)行深度的挖掘和開發(fā)。
2.3.3 實(shí)用原則
中醫(yī)藥古籍的數(shù)字化其實(shí)就是中醫(yī)藥古籍在保護(hù)與應(yīng)用這一矛盾中尋求的一條合適之路,數(shù)字化既能保護(hù)古籍“永不消失”,又能使古籍的原文圖像、全文文本能為研究者、公眾所利用。中醫(yī)藥古籍?dāng)?shù)字化最終所形成的中醫(yī)藥古籍?dāng)?shù)據(jù)庫(kù)管理系統(tǒng)必須具有瀏覽閱讀、全文檢索、研究支持等功能,能給管理者、研究者、公眾的管理、研究和閱讀提供幫助,具有一定的實(shí)用性,因此數(shù)字化過程中的實(shí)用原則是非常重要的。
2.4.1 平臺(tái)的搭建
廣東中醫(yī)藥博物館的中醫(yī)藥古籍?dāng)?shù)字化的整個(gè)系統(tǒng)基于JSP的WEB應(yīng)用開發(fā)技術(shù),采用B/S(瀏覽器/服務(wù)器)模式、SQL Server數(shù)據(jù)庫(kù)系統(tǒng),構(gòu)建了跨平臺(tái)、可維護(hù)和可擴(kuò)展的中醫(yī)藥古籍?dāng)?shù)字化系統(tǒng)。
2.4.2 圖像掃描與拍攝
中醫(yī)藥古籍?dāng)?shù)字化的一項(xiàng)非常重要的內(nèi)容就是原文圖像的掃描和拍攝,對(duì)于大部分的古籍都可以使用A3掃描儀進(jìn)行全彩掃描,對(duì)于部分特大版本的古籍或者大型字畫等則需要使用數(shù)碼相機(jī)進(jìn)行拍攝,從而獲得其原文圖像。之后則需要對(duì)圖像進(jìn)行編目,并通過Photoshop等圖像處理軟件進(jìn)行糾偏、去污、裁邊等處理。當(dāng)然掃描儀也有其不足之處,那就是古籍與掃描儀接觸過近,仍避免不了紫外線的照射,會(huì)對(duì)古籍產(chǎn)生一定的損傷,因此對(duì)于古籍是拍攝還是掃描就要有所選擇。
2.4.3 文字輸入與轉(zhuǎn)換
中醫(yī)藥古籍的數(shù)字化涉及到大量的文本輸入及轉(zhuǎn)換,在中醫(yī)藥古籍中存在大量的繁簡(jiǎn)字、生僻字、古今字、通假字等,這對(duì)文本的錄入帶來一定的障礙,生僻字等文本的錄入需要有很深中醫(yī)文獻(xiàn)功底的工作人員才能做到。在文字的輸入與轉(zhuǎn)換中主要使用Unicode字符編碼和OCR技術(shù)。Unicode的統(tǒng)一編碼有效地解決了在此之前各種編碼系統(tǒng)存在的明顯缺陷,即沒有包含足夠的字符,以及存在的統(tǒng)一編碼值代表不同字符或者是用不同的編碼值代表相同字符。OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。當(dāng)然,OCR軟件對(duì)中醫(yī)藥古籍中部分繁體字和不規(guī)則用字的識(shí)別效果不是很理想,需要輔以人工校對(duì)。
標(biāo)準(zhǔn)化是中醫(yī)藥古籍?dāng)?shù)字化的基礎(chǔ),只有符合公認(rèn)的統(tǒng)一標(biāo)準(zhǔn),數(shù)字化的古籍文獻(xiàn)信息才能在不同的計(jì)算機(jī)系統(tǒng)之間交換數(shù)據(jù),才能實(shí)現(xiàn)用戶和系統(tǒng)以及系統(tǒng)與系統(tǒng)之間的有效溝通。目前,參與中醫(yī)藥古籍?dāng)?shù)字化的單位很多,但幾乎都是各自為戰(zhàn),缺乏相互之間的溝通和交流,缺乏統(tǒng)一的數(shù)字化標(biāo)準(zhǔn),難以實(shí)現(xiàn)資源共享,因此,有必要建立統(tǒng)一的標(biāo)準(zhǔn),包括中醫(yī)藥古籍的分類法、著錄規(guī)則、軟件和數(shù)據(jù)庫(kù)的使用、數(shù)字化加工標(biāo)準(zhǔn)、加工和利用平臺(tái)等。統(tǒng)一的標(biāo)準(zhǔn)是實(shí)現(xiàn)中醫(yī)藥古籍?dāng)?shù)字化資源共享的基礎(chǔ),也是促進(jìn)中醫(yī)古籍?dāng)?shù)字化建設(shè)進(jìn)程的有力保障。
中醫(yī)藥古籍?dāng)?shù)字化不應(yīng)僅僅滿足于對(duì)古籍的閱覽和查詢。中國(guó)中醫(yī)藥古籍是一個(gè)知識(shí)寶庫(kù)、是中華民族幾千年來防病治病寶貴經(jīng)驗(yàn)的結(jié)晶,古籍中蘊(yùn)含著大量的隱藏信息等待研究者去挖掘開發(fā)。在數(shù)字化的基礎(chǔ)上利用相關(guān)數(shù)據(jù)挖掘工具進(jìn)行研究和挖掘古籍中的寶貴知識(shí)財(cái)富,實(shí)現(xiàn)知識(shí)的再發(fā)現(xiàn)和拓展,使其更好地為中醫(yī)藥事業(yè)的發(fā)展和人類健康服務(wù)。
中醫(yī)藥古籍的數(shù)字化產(chǎn)品不同于一般圖書的數(shù)字出版,一方面要考慮開發(fā)者的成本和積極性,畢竟這些數(shù)字化產(chǎn)品是大批工作人員對(duì)古籍進(jìn)行整理、登記、掃描、錄入、??钡纫幌盗衅D苦工作的結(jié)晶;另一方面還要考慮中醫(yī)藥古籍的普及推廣、中醫(yī)藥文化的傳播,這就需要政府加大對(duì)數(shù)字化中醫(yī)藥古籍市場(chǎng)的監(jiān)管力度,加強(qiáng)版權(quán)保護(hù),保證中醫(yī)藥古籍?dāng)?shù)字化事業(yè)的順利開展。
中醫(yī)藥古籍的數(shù)字化工作對(duì)工作人員提出了更高要求,它是一項(xiàng)集計(jì)算機(jī)知識(shí)、醫(yī)史文獻(xiàn)知識(shí)等多種知識(shí)于一體的工程,它不僅要求工作人員要掌握中醫(yī)藥古籍的分類、版本鑒定、編目,還要會(huì)設(shè)計(jì)數(shù)據(jù)庫(kù),懂得計(jì)算機(jī)網(wǎng)絡(luò)、多媒體等現(xiàn)代技術(shù),因此盡快培養(yǎng)一批具有醫(yī)史文獻(xiàn)專長(zhǎng)、信息技術(shù)素養(yǎng)較高、技術(shù)熟練、善于合作的復(fù)合型人才顯得極為重要而又迫切。
中醫(yī)藥古籍?dāng)?shù)字化是中醫(yī)藥文化與現(xiàn)代技術(shù)的結(jié)合,對(duì)中醫(yī)藥古籍的保護(hù)與利用提出了更高的要求。廣東中醫(yī)藥博物館的中醫(yī)藥古籍?dāng)?shù)字化工作雖有一定成績(jī),但仍屬起步階段,在中醫(yī)藥古籍的數(shù)字化建設(shè)中仍需要和各界同仁共同努力探索,完善數(shù)字化工作的建設(shè)體系、共享體系和服務(wù)體系,為中醫(yī)藥事業(yè)的發(fā)展、中醫(yī)藥文化的傳播和中醫(yī)藥非物質(zhì)文化遺產(chǎn)的保護(hù)貢獻(xiàn)自己的力量。
[1]祁雪麗.芻議數(shù)字化背景下的古籍保護(hù)[J].絲綢之路,2011,(14):102 -103.
[2]李 兵,劉國(guó)正,符永馳等.從中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)建設(shè)看中醫(yī)古籍?dāng)?shù)字化[J].中國(guó)中醫(yī)藥信息雜志,2009,(16):92-93.
[3]熊 靜.元數(shù)據(jù)在漢語文古籍?dāng)?shù)字化中的應(yīng)用[J].圖書與情報(bào),2010,(1):89 -92.
[4]楊繼紅.中醫(yī)古籍?dāng)?shù)字化資源建設(shè)概述[J].現(xiàn)代情報(bào),2008,(28):136 -138.