古籍善本數(shù)字化處理與數(shù)據(jù)庫(kù)構(gòu)建技術(shù)初探

2018-12-24 03:26肖志芳通訊作者

信息記錄材料 2018年12期

郭晨，肖志芳（通訊作者）

（井岡山大學(xué)電子與信息工程學(xué)院江西吉安 343009）

1 引言

古籍善本是古代文明的載體，是人類進(jìn)步的歷史記錄，也是世界文明的珍貴遺產(chǎn)，這些遺產(chǎn)至今仍然發(fā)出璀璨的光芒[1]。其中引人矚目的一個(gè)實(shí)例就是諾貝爾獎(jiǎng)獲得者屠呦呦在她的獲獎(jiǎng)感言中講到“當(dāng)年，每每遇到研究困境時(shí)，我就一遍又一遍溫習(xí)中醫(yī)古籍，正是葛洪《肘后備急方》有關(guān)‘青蒿一握，以水二升漬，絞取汁，盡服之’的記載，給了我靈感和啟發(fā)，并最終突破了科研瓶頸”。而當(dāng)下，這些珍貴的古籍善本正遭受著失去一本將可能永不復(fù)見的極大危險(xiǎn)。類似的悲劇已發(fā)生過多次，如：我國(guó)最早的科學(xué)巨著《墨子》、兵書始祖《陰符》、醫(yī)學(xué)巨著《黃帝外經(jīng)》以及《連山》、《歸藏》等。而當(dāng)前存世的古籍善本隨著歲月的流逝也存在著巨大的保存挑戰(zhàn)。如何才能妥善的保存好這些歷史文明的無上瑰寶，并且讓它在新世紀(jì)里仍然能發(fā)揮出卓越的光芒，這是當(dāng)下的重要研究課題，也是人類迫切需要解決的重要問題。

2 古籍善本的現(xiàn)狀

根據(jù)國(guó)家圖書館的有關(guān)統(tǒng)計(jì)，目前全國(guó)各地的國(guó)有館藏單位擁有的古籍善本總數(shù)超過五千萬冊(cè)。但是保存狀態(tài)參差不齊，相當(dāng)一部分狀態(tài)堪憂。古籍善本從材質(zhì)上分為寫本、刻本、稿本、抄本和石印本，按照裝訂又有線裝、卷軸裝、經(jīng)折裝、包背裝之分[2]。當(dāng)前，古籍善本保存的主要問題還在保管設(shè)備上，許多單位的古籍善本和普通書籍共用書庫(kù)，并且書庫(kù)環(huán)境較差，保存設(shè)備老化落后，管理人員不專業(yè)，并且存在著非專業(yè)的修補(bǔ)，具體呈現(xiàn)出來的問題包括：蟲蛀、鼠嚙、水濕、霉?fàn)€、老化、絮化、粘連、酸化、脆化以及各種污染損害等[3]，有些損毀嚴(yán)重的已無法進(jìn)行正常的翻頁和移動(dòng)。其中呈現(xiàn)出的具體問題都與紙質(zhì)密切關(guān)聯(lián)，古籍善本由于材質(zhì)成分使得紙質(zhì)的穩(wěn)定性存在著較大的風(fēng)險(xiǎn)，需要特別關(guān)注。

3 古籍善本數(shù)字化處理技術(shù)

古籍善本數(shù)字化處理就是借助現(xiàn)代信息技術(shù)對(duì)原書進(jìn)行光學(xué)掃描，在此基礎(chǔ)上進(jìn)一步進(jìn)行數(shù)字化加工處理以形成基礎(chǔ)數(shù)據(jù)單元，形成數(shù)據(jù)庫(kù)。古籍善本的數(shù)字化技術(shù)主要包括古籍善本掃描技術(shù)、數(shù)字式照相技術(shù)和光學(xué)文字識(shí)別技術(shù)。

3.1 古籍善本掃描技術(shù)

圖形圖像是現(xiàn)代信息的主要信息形式，其具有的直觀性是其他信息形式無法比擬的，所以才有了“有圖有真相”的論點(diǎn)。事實(shí)上幾乎所有人都更容易接收來自于視角的感受，人們對(duì)于它的記憶更加深刻而持久。由于現(xiàn)代信息社會(huì)是一個(gè)數(shù)字的時(shí)代，所以各種圖像都需要進(jìn)

行所謂的數(shù)字化處理。數(shù)字處理簡(jiǎn)單來說就是把一副物理存在的圖像編輯成計(jì)算機(jī)可以打開和還原的圖像。通過掃描儀，以像素為最小單位記錄下圖像的每一個(gè)坐標(biāo)位置、亮度以及相關(guān)顏色信息。具體流程是通過對(duì)物理圖像進(jìn)行光學(xué)掃描得到光學(xué)圖像，然后利用光電轉(zhuǎn)換器把光學(xué)圖像轉(zhuǎn)換成模擬電信號(hào)，進(jìn)而進(jìn)行數(shù)/模轉(zhuǎn)換，把模擬電信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào)，最后通過計(jì)算機(jī)接口把數(shù)字電信號(hào)轉(zhuǎn)變成數(shù)字圖像，如下圖1所示。

圖1 掃描流程圖

3.2 光學(xué)文字識(shí)別技術(shù)

光學(xué)文字識(shí)別技術(shù)（Optical Character Recognition，簡(jiǎn)稱 OCR）是從圖片中獲取文字的主要技術(shù)手段，它受到OCR軟件識(shí)別精度的影響。由于古籍善本的字體多樣，印刷效果也差距很大，所以需要綜合多方面的因素進(jìn)行考慮，將光學(xué)字元識(shí)別、人工輸入校正等相關(guān)技術(shù)結(jié)合起來。同時(shí)在OCR識(shí)別之后，需要進(jìn)一步引入全文比對(duì)和人工校對(duì)進(jìn)行修正。完整的光學(xué)文字識(shí)別是從古籍善本圖像中的文字以及書寫符號(hào)的切割開始，把數(shù)字圖像中的每一個(gè)文字每一個(gè)符號(hào)截?cái)嘞聛?，進(jìn)而通過模式匹配轉(zhuǎn)換成可識(shí)別的文字和符號(hào)保存在文字庫(kù)中。這個(gè)過程同樣可能存在著誤識(shí)別，因此需要保持切割的文字，以便后續(xù)進(jìn)一步進(jìn)行人工校對(duì)。

4 古籍善本的數(shù)據(jù)庫(kù)構(gòu)建

古籍善本的價(jià)值在于傳承、研究和教學(xué)，進(jìn)一步拓展之后可具有共享、交換和流通功能[4]。因此為了讓古籍善本能更好的發(fā)揮其文化價(jià)值的同時(shí)兼顧保護(hù)，有必要利用現(xiàn)代信息技術(shù)進(jìn)行處理之后再進(jìn)行發(fā)布。古籍善本的數(shù)字化儲(chǔ)存可以利用開放源代碼的DSpace數(shù)字存儲(chǔ)系統(tǒng)[5]。DSpace數(shù)字存儲(chǔ)系統(tǒng)是2003年麻省理工學(xué)院與惠普公司共同研發(fā)的一種開源系統(tǒng)，是當(dāng)前使用最為廣泛的資源管理與再利用系統(tǒng)。DSpace數(shù)字存儲(chǔ)系統(tǒng)適用于數(shù)字化數(shù)據(jù)庫(kù)的構(gòu)建并且提供了較為彈性的定制化模塊。DSpace數(shù)字存儲(chǔ)系統(tǒng)主要分為社區(qū)（Community）、集合（Collection）兩種框架。其中社區(qū)又可以包含社區(qū)或者多個(gè)集合，而每一個(gè)集合又由一系列的項(xiàng)目（Item）組成，項(xiàng)目進(jìn)一步包含文件和元數(shù)據(jù)兩種。DSpace數(shù)字存儲(chǔ)系統(tǒng)的組織樹[6]如下圖2所示。

圖2 DSpace數(shù)字存儲(chǔ)系統(tǒng)的組織樹

以內(nèi)容管理發(fā)布為設(shè)計(jì)目標(biāo)，對(duì)數(shù)字資源進(jìn)行收集、存儲(chǔ)、索引、保存和重新發(fā)布。根據(jù)《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》和《信息與文獻(xiàn)—文件檔案數(shù)字化實(shí)施指南》等相關(guān)標(biāo)準(zhǔn)，遵循分步實(shí)施、標(biāo)準(zhǔn)統(tǒng)一、數(shù)據(jù)共享的原則，以基于元數(shù)據(jù)抽取的多條件整合為方式，建立古籍善本數(shù)據(jù)庫(kù)。具體的建設(shè)將首先對(duì)需求進(jìn)行分析，然后經(jīng)過專業(yè)的軟件對(duì)需求進(jìn)行建模之后，形成古籍善本數(shù)據(jù)庫(kù)的需求規(guī)格說明書，進(jìn)而根據(jù)需求規(guī)格說明書進(jìn)行古籍善本數(shù)據(jù)庫(kù)的構(gòu)建，在進(jìn)行必要的測(cè)試之后上線運(yùn)行。

5 總結(jié)

本文以古籍善本的保存現(xiàn)狀為基礎(chǔ)，繼而探討了古籍善本的數(shù)字化處理技術(shù)和古籍善本的數(shù)據(jù)庫(kù)構(gòu)建方法等關(guān)聯(lián)技術(shù)。本文的研究為古籍善本的數(shù)字化保存和開發(fā)利用提供了一些新的思路，具有一定的指導(dǎo)價(jià)值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡