郭 晨,肖志芳(通訊作者)
(井岡山大學(xué)電子與信息工程學(xué)院 江西 吉安 343009)
古籍善本是古代文明的載體,是人類進(jìn)步的歷史記錄,也是世界文明的珍貴遺產(chǎn),這些遺產(chǎn)至今仍然發(fā)出璀璨的光芒[1]。其中引人矚目的一個(gè)實(shí)例就是諾貝爾獎(jiǎng)獲得者屠呦呦在她的獲獎(jiǎng)感言中講到“當(dāng)年,每每遇到研究困境時(shí),我就一遍又一遍溫習(xí)中醫(yī)古籍,正是葛洪《肘后備急方》有關(guān)‘青蒿一握,以水二升漬,絞取汁,盡服之’的記載,給了我靈感和啟發(fā),并最終突破了科研瓶頸”。而當(dāng)下,這些珍貴的古籍善本正遭受著失去一本將可能永不復(fù)見的極大危險(xiǎn)。類似的悲劇已發(fā)生過多次,如:我國(guó)最早的科學(xué)巨著《墨子》、兵書始祖《陰符》、醫(yī)學(xué)巨著《黃帝外經(jīng)》以及《連山》、《歸藏》等。而當(dāng)前存世的古籍善本隨著歲月的流逝也存在著巨大的保存挑戰(zhàn)。如何才能妥善的保存好這些歷史文明的無上瑰寶,并且讓它在新世紀(jì)里仍然能發(fā)揮出卓越的光芒,這是當(dāng)下的重要研究課題,也是人類迫切需要解決的重要問題。
根據(jù)國(guó)家圖書館的有關(guān)統(tǒng)計(jì),目前全國(guó)各地的國(guó)有館藏單位擁有的古籍善本總數(shù)超過五千萬冊(cè)。但是保存狀態(tài)參差不齊,相當(dāng)一部分狀態(tài)堪憂。古籍善本從材質(zhì)上分為寫本、刻本、稿本、抄本和石印本,按照裝訂又有線裝、卷軸裝、經(jīng)折裝、包背裝之分[2]。當(dāng)前,古籍善本保存的主要問題還在保管設(shè)備上,許多單位的古籍善本和普通書籍共用書庫(kù),并且書庫(kù)環(huán)境較差,保存設(shè)備老化落后,管理人員不專業(yè),并且存在著非專業(yè)的修補(bǔ),具體呈現(xiàn)出來的問題包括:蟲蛀、鼠嚙、水濕、霉?fàn)€、老化、絮化、粘連、酸化、脆化以及各種污染損害等[3],有些損毀嚴(yán)重的已無法進(jìn)行正常的翻頁和移動(dòng)。其中呈現(xiàn)出的具體問題都與紙質(zhì)密切關(guān)聯(lián),古籍善本由于材質(zhì)成分使得紙質(zhì)的穩(wěn)定性存在著較大的風(fēng)險(xiǎn),需要特別關(guān)注。
古籍善本數(shù)字化處理就是借助現(xiàn)代信息技術(shù)對(duì)原書進(jìn)行光學(xué)掃描,在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)字化加工處理以形成基礎(chǔ)數(shù)據(jù)單元,形成數(shù)據(jù)庫(kù)。古籍善本的數(shù)字化技術(shù)主要包括古籍善本掃描技術(shù)、數(shù)字式照相技術(shù)和光學(xué)文字識(shí)別技術(shù)。
圖形圖像是現(xiàn)代信息的主要信息形式,其具有的直觀性是其他信息形式無法比擬的,所以才有了“有圖有真相”的論點(diǎn)。事實(shí)上幾乎所有人都更容易接收來自于視角的感受,人們對(duì)于它的記憶更加深刻而持久。由于現(xiàn)代信息社會(huì)是一個(gè)數(shù)字的時(shí)代,所以各種圖像都需要進(jìn)
行所謂的數(shù)字化處理。數(shù)字處理簡(jiǎn)單來說就是把一副物理存在的圖像編輯成計(jì)算機(jī)可以打開和還原的圖像。通過掃描儀,以像素為最小單位記錄下圖像的每一個(gè)坐標(biāo)位置、亮度以及相關(guān)顏色信息。具體流程是通過對(duì)物理圖像進(jìn)行光學(xué)掃描得到光學(xué)圖像,然后利用光電轉(zhuǎn)換器把光學(xué)圖像轉(zhuǎn)換成模擬電信號(hào),進(jìn)而進(jìn)行數(shù)/模轉(zhuǎn)換,把模擬電信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào),最后通過計(jì)算機(jī)接口把數(shù)字電信號(hào)轉(zhuǎn)變成數(shù)字圖像,如下圖1所示。
圖1 掃描流程圖
光學(xué)文字識(shí)別技術(shù)(Optical Character Recognition,簡(jiǎn)稱 OCR)是從圖片中獲取文字的主要技術(shù)手段,它受到OCR軟件識(shí)別精度的影響。由于古籍善本的字體多樣,印刷效果也差距很大,所以需要綜合多方面的因素進(jìn)行考慮,將光學(xué)字元識(shí)別、人工輸入校正等相關(guān)技術(shù)結(jié)合起來。同時(shí)在OCR識(shí)別之后,需要進(jìn)一步引入全文比對(duì)和人工校對(duì)進(jìn)行修正。完整的光學(xué)文字識(shí)別是從古籍善本圖像中的文字以及書寫符號(hào)的切割開始,把數(shù)字圖像中的每一個(gè)文字每一個(gè)符號(hào)截?cái)嘞聛?,進(jìn)而通過模式匹配轉(zhuǎn)換成可識(shí)別的文字和符號(hào)保存在文字庫(kù)中。這個(gè)過程同樣可能存在著誤識(shí)別,因此需要保持切割的文字,以便后續(xù)進(jìn)一步進(jìn)行人工校對(duì)。
古籍善本的價(jià)值在于傳承、研究和教學(xué),進(jìn)一步拓展之后可具有共享、交換和流通功能[4]。因此為了讓古籍善本能更好的發(fā)揮其文化價(jià)值的同時(shí)兼顧保護(hù),有必要利用現(xiàn)代信息技術(shù)進(jìn)行處理之后再進(jìn)行發(fā)布。古籍善本的數(shù)字化儲(chǔ)存可以利用開放源代碼的DSpace數(shù)字存儲(chǔ)系統(tǒng)[5]。DSpace數(shù)字存儲(chǔ)系統(tǒng)是2003年麻省理工學(xué)院與惠普公司共同研發(fā)的一種開源系統(tǒng),是當(dāng)前使用最為廣泛的資源管理與再利用系統(tǒng)。DSpace數(shù)字存儲(chǔ)系統(tǒng)適用于數(shù)字化數(shù)據(jù)庫(kù)的構(gòu)建并且提供了較為彈性的定制化模塊。DSpace數(shù)字存儲(chǔ)系統(tǒng)主要分為社區(qū)(Community)、集合(Collection)兩種框架。其中社區(qū)又可以包含社區(qū)或者多個(gè)集合,而每一個(gè)集合又由一系列的項(xiàng)目(Item)組成,項(xiàng)目進(jìn)一步包含文件和元數(shù)據(jù)兩種。DSpace數(shù)字存儲(chǔ)系統(tǒng)的組織樹[6]如下圖2所示。
圖2 DSpace數(shù)字存儲(chǔ)系統(tǒng)的組織樹
以內(nèi)容管理發(fā)布為設(shè)計(jì)目標(biāo),對(duì)數(shù)字資源進(jìn)行收集、存儲(chǔ)、索引、保存和重新發(fā)布。根據(jù)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》和《信息與文獻(xiàn)—文件檔案數(shù)字化實(shí)施指南》等相關(guān)標(biāo)準(zhǔn),遵循分步實(shí)施、標(biāo)準(zhǔn)統(tǒng)一、數(shù)據(jù)共享的原則,以基于元數(shù)據(jù)抽取的多條件整合為方式,建立古籍善本數(shù)據(jù)庫(kù)。具體的建設(shè)將首先對(duì)需求進(jìn)行分析,然后經(jīng)過專業(yè)的軟件對(duì)需求進(jìn)行建模之后,形成古籍善本數(shù)據(jù)庫(kù)的需求規(guī)格說明書,進(jìn)而根據(jù)需求規(guī)格說明書進(jìn)行古籍善本數(shù)據(jù)庫(kù)的構(gòu)建,在進(jìn)行必要的測(cè)試之后上線運(yùn)行。
本文以古籍善本的保存現(xiàn)狀為基礎(chǔ),繼而探討了古籍善本的數(shù)字化處理技術(shù)和古籍善本的數(shù)據(jù)庫(kù)構(gòu)建方法等關(guān)聯(lián)技術(shù)。本文的研究為古籍善本的數(shù)字化保存和開發(fā)利用提供了一些新的思路,具有一定的指導(dǎo)價(jià)值。