李玖蔚
?
古籍?dāng)?shù)字化過(guò)程中漢字處理對(duì)策研究
李玖蔚
井岡山大學(xué)圖書(shū)館,江西 吉安 343009
古籍?dāng)?shù)字化是解決古籍保護(hù)與利用之間矛盾的有效手段。本文概述了國(guó)內(nèi)外古籍?dāng)?shù)字化過(guò)程中漢字字庫(kù)的研究情況,并以廬陵文化古籍文獻(xiàn)數(shù)字化實(shí)踐為基礎(chǔ),從輸入法的選擇、偏僻字的錄入技巧、自造古字等方面,探討圖書(shū)館在古籍?dāng)?shù)字化過(guò)程中面臨的漢字字庫(kù)不足問(wèn)題所采取的應(yīng)對(duì)策略,并提出漢字處理過(guò)程中需注意的若干問(wèn)題,以期對(duì)從事古籍?dāng)?shù)字化的同仁有所啟發(fā)和幫助。
圖書(shū)館;古籍?dāng)?shù)字化;漢字處理;對(duì)策研究
古籍?dāng)?shù)字化是加快古籍流通,有效保護(hù)古籍的重要手段。中文古籍?dāng)?shù)字化肇始于1978年[1],美國(guó)人P?J?Ivanhoe使用電子計(jì)算機(jī)編制了《戴震孟子字義疏證索引》《王陽(yáng)明大學(xué)問(wèn)索引》《王陽(yáng)明傳習(xí)錄索引》《朱熹中庸章句索引》《朱熹大學(xué)章句索引》機(jī)讀目錄。目前在美國(guó),由北美36家圖書(shū)館組成的美國(guó)圖書(shū)館研究學(xué)會(huì),擁有25000條數(shù)據(jù)的數(shù)據(jù)庫(kù)做到了館際資源共享,并還在不斷地?cái)U(kuò)充完善中。哈佛燕京圖書(shū)館擁有的“線裝古籍計(jì)算機(jī)檢索系統(tǒng)”中的1000余種家譜的資料,目前已經(jīng)編目完成。在英國(guó),大量中國(guó)珍貴文獻(xiàn)和古籍收藏在大英圖書(shū)館,大英圖書(shū)館開(kāi)發(fā)的“古版書(shū)簡(jiǎn)明標(biāo)題目錄”是當(dāng)前全球古籍文獻(xiàn)數(shù)據(jù)庫(kù)最大的聯(lián)機(jī)數(shù)據(jù)庫(kù)[1]。以上這些成果為我國(guó)古籍?dāng)?shù)字化建設(shè)提供了寶貴的經(jīng)驗(yàn)。
據(jù)2010年不完全統(tǒng)計(jì),我國(guó)大陸地區(qū)有179家單位從事古籍?dāng)?shù)字化,形成各類(lèi)數(shù)據(jù)庫(kù)(包括各種古籍書(shū)目數(shù)據(jù)庫(kù)、古籍全文數(shù)據(jù)庫(kù)等)415個(gè),許多數(shù)據(jù)庫(kù)的字?jǐn)?shù)都在1億以上。較權(quán)威的統(tǒng)計(jì)表明,2012年我國(guó)公藏機(jī)構(gòu)已經(jīng)擁有超過(guò)20億字的數(shù)字化文本格式的古籍。一些已成規(guī)模的大型古籍?dāng)?shù)據(jù)庫(kù)還在原有基礎(chǔ)上不斷拓展和完善[2]。
中國(guó)大陸地區(qū)開(kāi)始中文古籍?dāng)?shù)字化工作以來(lái),制約古籍?dāng)?shù)字化進(jìn)程的主要問(wèn)題是漢字字庫(kù)問(wèn)題。業(yè)界就這一問(wèn)題進(jìn)行了深入的研究和探討。
1.1 漢字字庫(kù)的研究情況
我國(guó)從20世紀(jì)50年代就開(kāi)始了計(jì)算機(jī)中文信息處理的理論和技術(shù)的研究,自20世紀(jì)70年代中期開(kāi)始,我國(guó)逐漸加快在計(jì)算機(jī)中文信息處理方面的發(fā)展步伐,在漢字鍵盤(pán)輸入技術(shù)、漢字輸出技術(shù)、漢字編碼技術(shù)、漢字儲(chǔ)存、檢索和識(shí)別、電子照排、中文平臺(tái)等多方面取得了一系列重大成就[3]。陸續(xù)開(kāi)發(fā)的漢字鍵盤(pán)輸入方法,解決了漢字進(jìn)入計(jì)算機(jī)的難題;漢字輸出實(shí)現(xiàn)了多字體、多字號(hào);漢字字庫(kù)的制作也由點(diǎn)陣字庫(kù)、矢量字庫(kù)逐步過(guò)渡到曲線輪廓字庫(kù);漢字自動(dòng)識(shí)別技術(shù)達(dá)到國(guó)際先進(jìn)水平,并有商品投入市場(chǎng);ISO/IEC 10646的CJK字符集,由早期的20 902個(gè)CJK統(tǒng)一漢字逐步擴(kuò)充,擴(kuò)充集A和擴(kuò)充集B已經(jīng)完成,現(xiàn)在正討論擴(kuò)充集C1。待擴(kuò)充集C1完成后,中日韓編碼漢字已經(jīng)7萬(wàn)多。這些成就,促進(jìn)了中國(guó)計(jì)算機(jī)的普及,為發(fā)展計(jì)算機(jī)應(yīng)用技術(shù)和信息化創(chuàng)造了基本條件[4]。
1.2 漢字字庫(kù)的不足
中國(guó)古籍?dāng)?shù)字化經(jīng)過(guò)近30年的努力,漢字字庫(kù)得到了飛速發(fā)展,并開(kāi)發(fā)出了超大字符集字庫(kù)。在漢字信息化標(biāo)準(zhǔn)制定方面,國(guó)內(nèi)外相繼制定了多個(gè)漢字編碼標(biāo)準(zhǔn)。最新的GB 18030-2005標(biāo)準(zhǔn)可以涵蓋70 244個(gè)漢字。然而,古籍中的漢字大約有10萬(wàn)多個(gè),GB 18030-2005的字庫(kù)還是遠(yuǎn)沒(méi)有覆蓋所有漢字[3]。因此,在古籍?dāng)?shù)字化時(shí)依然會(huì)碰到不少缺字現(xiàn)象,補(bǔ)字工作不可避免。漢字字庫(kù)的不足是影響古籍?dāng)?shù)字化質(zhì)量及進(jìn)程的主要問(wèn)題之一。
井岡山大學(xué)地處素稱(chēng)“江南望郡”、“金廬陵”、“文章節(jié)義之邦”的吉安,一直以來(lái)注重廬陵文化相關(guān)文獻(xiàn)資料的購(gòu)買(mǎi)和收藏,為充分挖掘廬陵文化的精髓和內(nèi)涵,又組織力量對(duì)相關(guān)的館藏資源進(jìn)行數(shù)字化加工,建成了特色數(shù)據(jù)庫(kù),為研究者提供了更快捷、更豐富、更深層次的服務(wù)[5]。
所謂廬陵文化,主要是指讀書(shū)人多,建功立德者多,文教設(shè)施多,發(fā)表著述多等等。在數(shù)字化廬陵文化名人的古籍作品時(shí),比如在《歐陽(yáng)修文萃》的數(shù)字化過(guò)程中,盡管安裝了超大字符集字庫(kù),對(duì)計(jì)算機(jī)也作了相應(yīng)的設(shè)置,但還是碰到不少問(wèn)題。故筆者將三年來(lái)數(shù)字化廬陵古籍文獻(xiàn)中的實(shí)踐經(jīng)驗(yàn)進(jìn)行總結(jié),希望對(duì)從事古籍?dāng)?shù)字化的同仁有所啟發(fā)和幫助,以期更多的古籍文化得以展示和傳承。
2.1 選擇合適的輸入法
在古籍?dāng)?shù)字化過(guò)程中,安裝大的漢字字體庫(kù),能解決大部分漢字的輸入與顯示問(wèn)題。目前比較成熟的輸入法有很多,但任何一種輸入法都難以囊括字體庫(kù)中的所有漢字。因此,對(duì)輸入法的選擇至關(guān)重要。合適的輸入法,不但決定了漢字的輸出能力,更影響著古籍?dāng)?shù)字化的效率。
筆者建議選擇“極點(diǎn)五筆”輸入法,其一,此輸入法既可單獨(dú)進(jìn)行“五筆字形、拼音輸入法”的選擇,也可選擇“五筆拼音輸入法”,在這種輸入狀態(tài)下,對(duì)于那些目前還不能通過(guò)五筆輸出的漢字,可直接輸入該字的拼音進(jìn)行輸出,省去了在五筆和拼音之間來(lái)回切換的操作;其二,該輸入法的繁簡(jiǎn)切換非常直觀、明了、方便,對(duì)于那些不是很熟悉的繁體字,通過(guò)輸入其簡(jiǎn)體字就能顯示對(duì)應(yīng)的繁體字,這樣建庫(kù)人員能很快地確定其正誤。比如“齋”和“齊”,不仔細(xì)區(qū)別感覺(jué)像是同一個(gè)字,但實(shí)際上它們分別是“齋”和“齊”的繁體字。
2.2 偏僻字的錄入技巧
目前漢字字庫(kù)中有大量的生僻字,無(wú)法通過(guò)五筆輸入法輸出,需通過(guò)拼音輸入法才能輸出,此時(shí)可在Word中輸入與生僻字偏旁和筆畫(huà)相近的字,并選定該字,點(diǎn)擊右鍵,在彈出菜單中選擇“符號(hào)”,便很快能找到所需文字,雙擊該字,即可直接輸入到Word中,這樣建庫(kù)人員在不知道其讀音的情況下,也能很快地輸入該字,從而提高古籍?dāng)?shù)字化的進(jìn)程。
2.3 自造古字
目前在古籍文獻(xiàn)數(shù)字化處理的過(guò)程中,通用于業(yè)界的Uni-code字符集具有近7萬(wàn)字的容量[6],但在古籍?dāng)?shù)據(jù)庫(kù)建設(shè)中還是不夠用。因此,我們使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進(jìn)行造字,避免數(shù)據(jù)庫(kù)中使用符號(hào)或說(shuō)明性文字代替目前輸入法無(wú)法正常輸出的文字現(xiàn)象。
古籍?dāng)?shù)字化漢字處理過(guò)程中遇到的最大障礙是漢字字庫(kù)問(wèn)題,它不但影響著古籍?dāng)?shù)字化的進(jìn)程,還制約著古籍?dāng)?shù)字化的發(fā)展。漢字字庫(kù)問(wèn)題多年來(lái)經(jīng)過(guò)專(zhuān)家學(xué)者的研究,正在不斷的完善中,但仍未囊括古籍中的所有漢字,在進(jìn)行古籍?dāng)?shù)字化時(shí)仍有不少字需要利用相關(guān)程序進(jìn)行造字。目前有一些具備造字功能的程序,筆者主要介紹使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進(jìn)行造字時(shí)需要注意的問(wèn)題及解決方法。
3.1 造字時(shí)截取字庫(kù)中已有字的有關(guān)部位
在造字時(shí),最好截取現(xiàn)成字中需要的部分進(jìn)行造字,這樣比分別輸入所造字的各個(gè)部分而造出的字要美觀。比如:我們通過(guò)截取“映”的左半部和“換”的右半部造出的字比直接輸入“日”和“奐”字而造出的字,看上去要自然美觀。
3.2 自造字大小的調(diào)節(jié)
自造的字如果不通過(guò)區(qū)位碼輸入法進(jìn)行輸出,而是直接將其復(fù)制粘貼到Word或Excel文檔中的話,字號(hào)大小的調(diào)節(jié)不要在造字程序中進(jìn)行,而應(yīng)在Word或Excel文檔中進(jìn)行,否則字的筆劃線條太粗,放入相應(yīng)文檔中也會(huì)顯得很不協(xié)調(diào)。
3.3 自造字的輸出
將自造字直接放入Excel單元格中時(shí),單元格的狀態(tài)應(yīng)處于編輯狀態(tài)(即單擊該單元格)而不是可修改狀態(tài)(即雙擊單元格),否則無(wú)法將自造字粘貼到指定位置。但這種直接將自造字復(fù)制粘貼到Excel或Word文檔中的操作,當(dāng)需對(duì)其進(jìn)行排版時(shí),它不會(huì)隨之移動(dòng),要人工調(diào)整它所在的位置,故生僻字造好后,應(yīng)利用區(qū)位碼輸入法輸出到相應(yīng)文檔中,這樣排版時(shí)就不會(huì)出現(xiàn)自造字不隨文移動(dòng)的現(xiàn)象了。
3.4 自造字的顯示
自造的字缺乏通用性,因此若要在不同的計(jì)算機(jī)上都可以正常顯示Excel或數(shù)據(jù)庫(kù)中的自造字,就必須將eudc.euf和eudc.tff這兩個(gè)自造字庫(kù)文件拷貝到字體目錄下。需要指出的是,將這二個(gè)文件拷貝到指定目錄時(shí),根據(jù)計(jì)算機(jī)設(shè)置的不同,其拷貝方法也不同。即:操作系統(tǒng)中沒(méi)有攜帶TrueType造字程序,只需直接將自造字的二個(gè)文件粘貼到指定目錄,重啟計(jì)算機(jī)就行了;其他情況就只有通過(guò)command命令進(jìn)行拷貝操作,當(dāng)然如果造字程序或自造字文件處于運(yùn)行狀態(tài),則拷貝操作無(wú)法進(jìn)行。
古籍?dāng)?shù)字化建設(shè)是一項(xiàng)艱巨而復(fù)雜的系統(tǒng)工程,盡管目前古籍?dāng)?shù)字化建設(shè)中還存在一些問(wèn)題,但隨著國(guó)家“中國(guó)古籍?dāng)?shù)字化工程”的啟動(dòng)及數(shù)字化技術(shù)的發(fā)展與完善,相信在不久的將來(lái),古籍?dāng)?shù)字化過(guò)程中所遇到的問(wèn)題都將逐步得到解決。
[1]趙雪云,劉宗利,趙瑞生.淺談我國(guó)古籍?dāng)?shù)字化[J].才智,2012(12):115-116.
[2]高娟,劉家真.中國(guó)大陸地區(qū)古籍?dāng)?shù)字化問(wèn)題及對(duì)策[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,39(4):110-119.
[3]黃堅(jiān).無(wú)字庫(kù)智能造字系統(tǒng)在計(jì)算機(jī)上的實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2010:1-89.
[4]李宇明.搭建中華字符集大平臺(tái)[J].中文信息學(xué)報(bào),2003, 17(2):1-6,53.
[5]李實(shí)明,李玖蔚,傅林紅,等.宋代廬陵文化名人研究數(shù)據(jù)庫(kù)建設(shè)概述[J].井岡山學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)),2009, 30(11):9-11.
[6]郭偉玲,戴艷清.論古籍?dāng)?shù)字化的檢索問(wèn)題[J].圖書(shū)館理論與實(shí)踐,2011(10):13-16.
A Countermeasure Study on Chinese Character Processing in Ancient Literature Digitization Process
Li Jiuwei
(Library of Jinggangshan University,Ji'an Jiangxi 343009,China)
Ancient literature digitization is an effective means to resolve the conflict between protection and utilization of ancient literature. This article provided an overview of the situation about researches on Chinese character database in ancient literature digitization process at home and abroad. It explored solutions when the problem of inadequate coping in ancient literature digitization process emerged from the aspects of choice of input method, input skill of rare characters, and self-made ancient characters based on the digitization practice of ancient literature about Luling culture. It also raised a number of problems in Chinese character processing in order to inspire and help colleagues engaged in ancient literature digitization.
library; ancient literature digitization; Chinese character processing; countermeasure study
10.3969/j.issn.2095-5707.2014.06.006
江西省社科規(guī)劃重點(diǎn)項(xiàng)目(TQ1102)
李玖蔚,副研究館員,研究方向:信息管理、信息系統(tǒng)及計(jì)量分析。E-mail: 530807487@qq.com
(2014-06-11,編輯:魏民)