張偉娜等
摘要:本文結(jié)合我館在中醫(yī)古籍?dāng)?shù)字化工作中的實際情況,對選書過程、掃描過程和檢索系統(tǒng)建立過程中的若干細(xì)節(jié)問題進(jìn)行逐一分析探討,介紹了我館在處理這些問題的具體方法和經(jīng)驗。
關(guān)鍵詞:中醫(yī);古籍;數(shù)字化
隨著計算機(jī)技術(shù)的快速發(fā)展,古籍?dāng)?shù)字化已經(jīng)成為古籍文獻(xiàn)保護(hù)和利用的重要手段。采用數(shù)字化技術(shù)對中醫(yī)古籍進(jìn)行搶救整理,既能使這些珍貴文化遺產(chǎn)原書原貌得到永久保存,又可以通過網(wǎng)絡(luò)使這批珍貴文化遺產(chǎn)不受地域和時空等的限制,及時迅速地提供給廣大研究人員和其他使用者。
中醫(yī)古籍?dāng)?shù)字化,就是利用數(shù)字化技術(shù)將中醫(yī)古籍進(jìn)行掃描、文字識別與轉(zhuǎn)換或錄入,并經(jīng)專門軟件使之結(jié)構(gòu)化,制作出新的電子版中醫(yī)古籍。數(shù)字化的中醫(yī)古籍可用計算機(jī)進(jìn)行方便的檢索與閱讀,也可在網(wǎng)絡(luò)上傳輸、共享。我館自2001年開始先后建立館藏中醫(yī)古籍的書目檢索數(shù)據(jù)庫和中醫(yī)古籍閱覽管理系統(tǒng),實現(xiàn)中醫(yī)古籍書目和內(nèi)容檢索。目前我館的中醫(yī)古籍?dāng)?shù)字化工作已有了很大進(jìn)展,但是也仍然存在許多問題。本文按照數(shù)字化加工的流程,對其中的若干細(xì)節(jié)問題進(jìn)行探討。
1 選書過程中的問題
1.1學(xué)術(shù)價值高和版本精良的中醫(yī)古籍應(yīng)優(yōu)先數(shù)字化 現(xiàn)存歷代中醫(yī)古籍品種數(shù)量眾多,版本和流傳情況復(fù)雜。例如:《中國中醫(yī)古籍總目》收錄了中醫(yī)古籍13455種,大部分古籍都有兩個以上的版本,有的甚至多達(dá)幾十個版本。因此中醫(yī)古籍?dāng)?shù)字化工作應(yīng)該先對其中學(xué)術(shù)價值高、版本精良的中醫(yī)古籍進(jìn)行搶救保護(hù),可以制定具體的中醫(yī)古籍?dāng)?shù)字化選目標(biāo)準(zhǔn),注重中醫(yī)古籍保護(hù)與利用的雙重目的。
1.2沒有必要對所有館藏古籍都進(jìn)行數(shù)字化 我館的館藏中醫(yī)古籍書目數(shù)據(jù)庫,共有1萬多條數(shù)據(jù)。我們在進(jìn)行數(shù)字化工作時,沒有必要對每本書都進(jìn)行數(shù)字化。這是因為以下方面。1.2.1每種古籍往往存在多種版本,版本情況復(fù)雜多樣。這些版本中,有的是不同的刻板印出來的,有的是相同的刻板印出來的,只是收藏者或年代不一樣而已。對于前者,可以對版本精良的中醫(yī)古籍進(jìn)行優(yōu)先處理,其它版本可以依據(jù)平時使用的情況進(jìn)行數(shù)字化,這樣在版本校對時也可以使用。對于后者,也稱之為"副本",這種情況只要選擇其中一種保存比較完好的來掃描即可。
1.2.2國內(nèi)中醫(yī)圖書館普遍經(jīng)費有限,而且數(shù)字化的過程需要一定的時間,因此將所有的館藏古籍全部數(shù)字化并不現(xiàn)實。
1.3建立的數(shù)字化古籍書目要與館藏書目相關(guān)聯(lián) 數(shù)字化古籍書目的建立是本館數(shù)字化加工工作的重要環(huán)節(jié)。這個看似簡單的過程,如果沒有科學(xué)、準(zhǔn)確地錄入,也會在古籍書目的檢索利用時產(chǎn)生一些問題。比如我館在進(jìn)行數(shù)字化掃描古籍之初,數(shù)字化古籍書目是單獨建立的,與館藏古籍書目之間是沒有聯(lián)系的。在讀者借閱古籍時,對于掃描過的古籍,本來可以只提供掃描圖像而不用再提原書,但是我們的館藏古籍書目沒有注明哪些是掃描過的古籍,只能還是提供原書給讀者。這樣非常不利于古籍的保護(hù)。因此有必要將數(shù)字化古籍書目與館藏書目相關(guān)聯(lián),或者數(shù)字化古籍書目由館藏書目派生出來,或是在館藏書目中注明掃描過的書目。總之兩個書目在格式、繁簡字體上要保持一致,保證在檢索書目時可以快速準(zhǔn)確的得到結(jié)果。
2 掃描過程中的問題
2.1古籍掃描人員的培訓(xùn) 古籍,與一般的書籍不同,不僅具有重要的學(xué)術(shù)價值,而且具有重要的文物價值和歷史價值。因此,在掃描工作之前,要對古籍掃描人員進(jìn)行專門的培訓(xùn)。要讓掃描人員樹立保護(hù)古籍,保證質(zhì)量的意識,確保原件的安全性。要讓掃描人員熟悉操作環(huán)節(jié),可以用仿照的古籍進(jìn)行試掃,盡量避免對古籍的損傷,確保加工環(huán)節(jié)的規(guī)范化。
2.2古籍掃描規(guī)范
2.2.1檢查全書 在掃描之前要檢查全書。一看是否需要拆除裝訂線進(jìn)行掃描。一般情況下,盡量不拆除古籍的裝訂線,保持古籍的原貌。但是對于有的裝訂線已經(jīng)斷開,或是原有的裝訂線裝訂的太寬,致使部分內(nèi)容無法看到,這樣的情況最好拆除裝訂線進(jìn)行掃描,待掃描后立即進(jìn)行重新裝訂。如果館內(nèi)不能進(jìn)行修復(fù),最好不要拆除裝訂線,以免古籍散落或丟失。二看古籍中有無散落的書頁。如果有散落的書頁,要記下書頁所在的位置,最好夾條進(jìn)行標(biāo)記,以防弄亂書頁順序。
2.2.2掃描標(biāo)準(zhǔn) 古籍掃描時,圖像采集分辨率應(yīng)不低于300dpi,色彩模式選用RGB全彩,具體利用時可根據(jù)需求進(jìn)行調(diào)整。我館是按分辨率300dpi,24位RGB色彩模式掃描。而且將掃描后的圖像文件分別存儲為典藏版和閱讀版。古籍典藏版圖像掃描分辨率300dpi,以盡量滿足保存古籍圖像原貌的目的,但文件較大;閱讀版圖像掃描分辨率為72dpi,文件較小,但可以保證閱覽的需求。一般來講,圖像分辨率為300dpi,就可以滿足印刷出版的要求,對于字太小或顏色太淡的書籍,可以適當(dāng)增加掃描分辨率。在進(jìn)行數(shù)字化加工時,沒有必要設(shè)置過高的掃描分辨率,雖然圖像會更加清晰一些,但是所占的空間也很大,積累到一定程度時,也不利于使用和保存。
文件可存儲為高品質(zhì)TIFF/JPBG格式。我館的文件是存儲為JPG文件格式;文件命名為"冊號"+0+"頁碼",如第一冊第一頁,文件名為010001。每種古籍按其名稱設(shè)總文件夾,再按其具體冊數(shù)設(shè)分冊文件夾,每頁圖片分別存放在所在的冊文件夾中。
2.2.3掃描校對 掃描圖片文件保存完成后,要與原書進(jìn)行逐冊、逐頁校對。刪除其中重復(fù)掃描文件,增補(bǔ)遺漏掃描圖片。保存文件命名的書名要與數(shù)字化古籍書目上的書名相一致,以方便搜索利用。
2.2.4圖像處理 掃描得到的圖像,會存在邊緣大小不等,位置不正、或色彩偏差等問題。所以必需對掃描圖像進(jìn)行裁邊、糾偏、調(diào)色等處理。對于文件格式存儲不統(tǒng)一者也要進(jìn)行統(tǒng)一調(diào)整。
3 檢索系統(tǒng)建立過程中的問題
3.1圖文關(guān)聯(lián)是中醫(yī)古籍?dāng)?shù)字化的較好方式 圖文關(guān)聯(lián)的方式不僅可以彌補(bǔ)單純"圖像"在檢索和內(nèi)容編輯上的不足,而且可以校對單純"文本"的準(zhǔn)確性,使讀者既能看到原書原貌的古籍文獻(xiàn)信息,又可以快速準(zhǔn)確地查到所需的內(nèi)容。其中,文本數(shù)據(jù)的準(zhǔn)確度是影響用戶使用的重要因素。目前文本數(shù)據(jù)的獲取方式有對古籍圖像進(jìn)行OCR識別、人工錄入和兩者結(jié)合3種方式。我館在實際工作中多采用直接人工錄入的的方式,并加以標(biāo)點。為達(dá)到圖文對照和符合現(xiàn)代閱讀習(xí)慣的目的,文本數(shù)據(jù)可分為橫排、豎排兩種版式。我館自主開發(fā)建立的中醫(yī)古籍閱覽管理系統(tǒng)即采用這種方式。通過古籍的圖文關(guān)聯(lián)和版式還原可以實現(xiàn)"圖文互校",圖像和文本在同一界面內(nèi)頁對頁、行對行、列對列、字對字的校對,減少校對者的視覺疲勞。
3.2檢索系統(tǒng)要進(jìn)行適當(dāng)?shù)臉?biāo)引 圖文關(guān)聯(lián)雖然是中醫(yī)古籍?dāng)?shù)字化的較好方式。但是由于花費時間很長,并且全文檢索存在固有的一些缺點,因此為了更好的有效利用,檢索系統(tǒng)需要進(jìn)行適當(dāng)?shù)臉?biāo)引。這樣基本能實現(xiàn)古籍中主要知識點的檢索。
我館自主開發(fā)建立的中醫(yī)古籍閱覽管理系統(tǒng)采用自由標(biāo)引加后控詞表的方式來實現(xiàn)檢索。其中自由標(biāo)引以目錄的深加工為總原則。目錄的深加工是指在對中醫(yī)古籍圖片進(jìn)行標(biāo)引時,先以全書目錄中的各條內(nèi)容作為標(biāo)引內(nèi)容,在此基礎(chǔ)上,將正文中明確寫到而目錄中沒有的各級標(biāo)題和各段主題也作為標(biāo)引內(nèi)容進(jìn)一步予以標(biāo)注。其中,各級標(biāo)題是正文中客觀存在的,在標(biāo)引時一般按原文照錄即可。而各段主題則需要根據(jù)中醫(yī)專業(yè)知識予以提取,一般仍采用中醫(yī)專業(yè)術(shù)語,而且也要盡量使用原書中的詞語。后控詞表是通過參考相關(guān)的工具書或教科書,對標(biāo)引用詞進(jìn)行聚類分析而創(chuàng)建。詞表共設(shè)八個字段,即類號、標(biāo)識詞、同義詞、近義詞、上位詞、下位詞、關(guān)聯(lián)詞和現(xiàn)代醫(yī)學(xué)對照詞。這樣就形成一個集數(shù)據(jù)加工與檢索利用于一體的中醫(yī)古籍智能檢索系統(tǒng)。
3.3古籍生僻字的處理 古籍生僻字問題是中醫(yī)古籍?dāng)?shù)字化的一大障礙。解決好這個問題有利于保證數(shù)字化工作的統(tǒng)一性。我們可以通過手寫輸入法、拼湊法、造字法、圖片替代法、描述法等多種方式進(jìn)行處理。在實際工作中可以幾種方法綜合應(yīng)用。我館的檢索系統(tǒng)通過對中醫(yī)古籍?dāng)?shù)字化中遇到的生僻字問題進(jìn)行深入研究并對生僻字進(jìn)行分析統(tǒng)計后,對其進(jìn)行編碼、造字,建立繁簡字體對照表,增加繁簡字體關(guān)聯(lián)互檢功能,從而有效提高了檢索準(zhǔn)確率。
總之,中醫(yī)古籍?dāng)?shù)字化需要一個逐步發(fā)展和完善的過程。在這個過程中,我們還會不斷的遇到新問題。只要我們保持科學(xué)認(rèn)真的態(tài)度,一定能夠不斷地解決新問題,將中醫(yī)古籍?dāng)?shù)字化工作做得更好。
參考文獻(xiàn):
[1]李兵,劉國正,符永馳,等.從中醫(yī)古籍?dāng)?shù)據(jù)庫建設(shè)看中醫(yī)古籍?dāng)?shù)字化[J].中國中醫(yī)藥信息雜志,2009,16(03):92-93.
[2]符永馳,李斌,郭敏華,等.中醫(yī)古籍電子化系統(tǒng)的研究與實現(xiàn)[J].中國中醫(yī)藥信息雜志,2008,15(02):103-104.
[3]薛清錄.中國中醫(yī)古籍總目[M].上海辭書出版社,2007:2.
[4]符永馳,劉國正,李斌,等.中醫(yī)古籍?dāng)?shù)字化研究[J].中國中醫(yī)藥信息雜志,2004,11(06):563-564.
編輯/哈濤