搭建版刻楷體字書計(jì)算機(jī)輔助版本校勘平臺(tái)的設(shè)想
朱翠萍,張憲榮
(北京師范大學(xué) 文學(xué)院,北京 100875)
摘要:隨著大數(shù)據(jù)時(shí)代的到來,古籍整理的手段不斷更新,計(jì)算機(jī)輔助版本校勘平臺(tái)的搭建也隨之成為社會(huì)發(fā)展的必然。從資源整理、圖像文本化、自動(dòng)分割與屬性標(biāo)注等幾個(gè)方面來探討自動(dòng)??毕到y(tǒng)搭建所必須解決的問題,為平臺(tái)搭建工作的全面開展奠定良好的基礎(chǔ)。
關(guān)鍵詞:版刻;楷體;字書;版本;自動(dòng)校勘;平臺(tái)
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/13.1415.C.20150410.1443.023.html
網(wǎng)絡(luò)出版時(shí)間:2015-04-10 14:43
古之學(xué)者往往“幼而時(shí)習(xí)之”,即使白發(fā)蒼蒼,也不敢說窮盡一經(jīng)。他們將大量寶貴的時(shí)間和智慧都用在了材料積累上,寫下的筆記、卡片成千上萬張,耗時(shí)又費(fèi)力。今之學(xué)者趕上了大數(shù)據(jù)時(shí)代,大家有感于之前整理古籍的辛苦,想一改皓首窮經(jīng)的局面,搭上計(jì)算機(jī)技術(shù)這列“高鐵”,走高效整理的路子,將更多的時(shí)間與智慧投入到深入探索和理論提升中來。所以,使用數(shù)字化資源來進(jìn)行學(xué)術(shù)研究成為當(dāng)今之必然趨勢(shì)。
隨著OCR光學(xué)識(shí)別技術(shù)的發(fā)展,已經(jīng)可以將古籍轉(zhuǎn)化為文本,結(jié)合人工校對(duì),就可以實(shí)現(xiàn)古籍的全文本化,便于檢索和編輯。但就目前來看,古籍?dāng)?shù)字化的重點(diǎn)已由全文通索轉(zhuǎn)移到數(shù)據(jù)分析,“智能化”才是未來發(fā)展的方向和重點(diǎn)。通過人工智能技術(shù),可以從圖像文件中自動(dòng)抽取所需信息并形成檢索點(diǎn),為建立專題數(shù)據(jù)庫以及古籍整理的深加工奠定堅(jiān)實(shí)的基礎(chǔ)。北京大學(xué)李國新教授曾就該問題專門做了論述,并提出了“研究支持功能”的觀點(diǎn):“數(shù)字化后的古籍能夠提供科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息,提供古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具,例如:對(duì)古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計(jì)資料,異體字的匯聚顯示,讀音的自動(dòng)標(biāo)注和朗讀,行文風(fēng)格特點(diǎn)的概率統(tǒng)計(jì),必要的背景知識(shí)、參考數(shù)據(jù)的匯聚,在線標(biāo)點(diǎn)斷句工具的配備,不同版本校勘,字典詞典、歷史年表、歷史地圖等研究工具的載入等。”計(jì)算機(jī)輔助版本??毕到y(tǒng)就是基于這一“智能化”目標(biāo)而搭建的,希望能成為現(xiàn)代新型字書研究者的工作平臺(tái)。
一、版本??备耪f
版本校勘是指利用不同的版本和其他補(bǔ)充資料,來比較、核對(duì)、分析與推斷古籍流傳過程中所產(chǎn)生的文字差異或錯(cuò)誤。這些差異或錯(cuò)誤主要表現(xiàn)在誤、脫、衍和倒4個(gè)方面146-203。所謂“誤”,主要是指古籍在傳抄或刻寫過程中出現(xiàn)的錯(cuò)字,亦稱“訛”;所謂“脫”是指古籍在傳抄或刻寫過程中出現(xiàn)的脫落與遺漏字句的現(xiàn)象,亦稱“奪文”;所謂“衍”是指古籍在傳抄或刻寫過程中無意混入或重復(fù)的文字;所謂“倒”是指古籍在傳抄或刻寫過程中出現(xiàn)的詞句顛倒的現(xiàn)象,亦稱“倒乙”。
版本??钡哪康氖菍⑦@些問題或差異找出來,然后進(jìn)行分析研究,以求存真復(fù)原,為閱讀和研究提供一個(gè)最為接近原稿的善本。關(guān)于古籍??钡姆椒ǎT家所論不一,如葉德輝于《藏書十約》中提出了死校與活校兩法,程千帆先生則在《校讎廣義(??本?》中分對(duì)校與理校兩類,而最為學(xué)界推崇的還是陳垣先生在《??睂W(xué)釋例》卷6中所歸納的4種??狈椒?,即“對(duì)校法”、“本校法”、“他校法”和“理校法”,簡稱“四校法”?,F(xiàn)據(jù)陳先生所說分別申述如下144-149:1.對(duì)校法。指選定一個(gè)版本為底本,然后用其他不同的版本與之進(jìn)行比對(duì);2.本校法。指在沒有其他版本和有關(guān)資料對(duì)比的情況下,依據(jù)該書自身體例,結(jié)合文字、音韻及訓(xùn)詁等相關(guān)領(lǐng)域的專業(yè)常識(shí)進(jìn)行???;3.他校法。指利用其他書,例如書中的引證部分,來驗(yàn)證本書中的文字是否正確;4.理校法。指在沒有版本或其他材料可以依據(jù)的情況下,利用所具備的理論知識(shí)和邏輯推理的方法,來分析驗(yàn)證所校書中的文字是否正確。
從整體來說,??本褪抢帽容^和分析的方法對(duì)某一個(gè)文本進(jìn)行校異和勘誤的工作。校異工作的內(nèi)容相對(duì)客觀,只是對(duì)比異同,可以借助計(jì)算機(jī)輔助完成。勘誤則是相對(duì)主觀性的工作,需要人們借助一定的理論知識(shí)來進(jìn)行判斷推理。如果借助計(jì)算機(jī),就屬于人工智能的范疇,難度比較大。所以,就目前而言,自動(dòng)??边€主要體現(xiàn)在校異工作方面。
字書,古人稱為“小學(xué)書”,是專門收集和研究漢字形音義的工具型書籍。其范圍包括:主形的“文字”系列、主音的“音韻”系列、主義的“訓(xùn)詁”系列及其他相關(guān)的音義類著作。“版刻楷體字書”是指通過雕版印刷方式制作的字體風(fēng)格為楷體的輯錄漢字形音義信息的工具書。因其具有工具性,所以使用面廣,流傳年代久遠(yuǎn),這樣勢(shì)必造成字書的版本豐富多樣。筆者對(duì)幾部重要字書的版本做了一個(gè)簡單的統(tǒng)計(jì),并通過字頭數(shù)量,對(duì)??弊址孔隽艘粋€(gè)預(yù)估,見表1:
表1 部分字書版本及字頭數(shù)目
通過上述統(tǒng)計(jì)可以看出,僅僅字書??钡幕A(chǔ)字符量就少則幾十萬,多則上百萬。如果再加上釋文,可能就涉及上億字符,再加上對(duì)各種問題的歸類和分析,可以想見,??钡墓ぷ髁亢蔚确敝?。所以,利用計(jì)算機(jī)輔助校勘成為迫切需要攻克的難題。
二、搭建版刻楷體字書版本??逼脚_(tái)的主要工作內(nèi)容
版本??笔且粋€(gè)系統(tǒng)工程,需要經(jīng)歷“?!?、“按”和“斷”3個(gè)步驟。在這個(gè)過程中,有幾個(gè)主要問題需要注意。第一,通過梳理版本源流,確定善本,然后以善本為底本,其他的為校本,展開??薄_@一工作開展的前提就是盡可能多、全地收集不同版本,以便選到最優(yōu)質(zhì)的資源。第二,自動(dòng)校勘所能處理的是文本文件,而獲取到的第一手資源是紙本或圖像,這就需要經(jīng)歷一個(gè)文本轉(zhuǎn)化的過程。在轉(zhuǎn)化過程中,對(duì)版式和字符自動(dòng)識(shí)別的精確度會(huì)直接影響到??钡男ЧK?,提前分析版式信息,建立盡可能大的字符識(shí)別字典,會(huì)大大提高自動(dòng)??钡男?。第三,在自動(dòng)??边^程中,實(shí)現(xiàn)精確對(duì)應(yīng)的前提是自動(dòng)分割的準(zhǔn)確。所以,研究適合古籍字書的自動(dòng)分段、自動(dòng)分詞和自動(dòng)匹配技術(shù),是搭建自動(dòng)??逼脚_(tái)過程中的核心問題。
(一)搭建版刻楷體字書版本??逼脚_(tái)的基礎(chǔ)——資源整理
目前,散藏于日本、美國、英國、越南、中國香港、中國臺(tái)灣以及中國大陸的各大圖書館中的字書資源已被陸續(xù)收集到一起。在此基礎(chǔ)上,可以對(duì)這些字書的版本信息進(jìn)行分解,提取版本信息“因子”,然后將這些“因子”進(jìn)行歸類與去重,形成字書版本知識(shí)專庫。據(jù)《古籍著錄規(guī)則》(GB 3792.7-2008)規(guī)定,古籍版本項(xiàng)包括版本類型和出版發(fā)行兩個(gè)部分,其中,前者可分為稿本、抄本和刻本等13種類型,后者則依次包括以下幾個(gè)方面:
1.國別:就目前所見到的漢字字書的版本,涉及的國別主要有中國、日本、韓國、朝鮮和越南。
2.出版年(修版年或印刷年):關(guān)于版本的年代,有幾種不同的記錄方式:
(1)朝代:楷體字書涉及的中國朝代主要有漢、南北朝、隋、唐、宋、元、明、清和中華民國等。
(2)帝王紀(jì)年:帝王紀(jì)年的基本格式是:年號(hào)+年份。中國的年號(hào):例如,延祐3年、弘治14年、萬歷26年及康熙43年等。日本的年號(hào):例如,昭和5年、享保12年、弘化3年、寬政2年、慶安2年、明治16年、大正15年、天保15年、文化7年、寬永4年與安永9年等。
(3)干支紀(jì)年:干支紀(jì)年具有循環(huán)性。所以,出現(xiàn)同樣的干支字眼,還需要進(jìn)一步界定,否則,在計(jì)算機(jī)對(duì)版本時(shí)代進(jìn)行自動(dòng)排序的時(shí)候,會(huì)出現(xiàn)錯(cuò)誤。
(4)公元紀(jì)年:公元紀(jì)年是以耶穌誕生年為元年,之前的年份稱為“公元前某年”,之后的年份稱為“公元后某年”。
3.制、藏地:即出版地,包括修版地或印刷地,例如,汲古閣、經(jīng)綸堂、芳梫堂、種善堂和世裕堂等。
4.刻工:即出版者,包括修版者或印刷者,例如,李顯、李書云、陳昌治、鄭世豪、毛謨和陸顥等。
根據(jù)上述版本知識(shí)信息,先進(jìn)行歸類、排序和統(tǒng)計(jì),再結(jié)合正文各方面的信息進(jìn)行版本順序的梳理。同時(shí),還可以根據(jù)這些版本信息,觀察字書發(fā)展演變的歷史,繪制字書歷史演變圖。這些為版本??逼脚_(tái)的搭建提供了豐富的資源基礎(chǔ)和序列模型。
(二)搭建版刻楷體字書??逼脚_(tái)的前提——文本化
版本校勘的核心是對(duì)正文文字的勘校。要實(shí)現(xiàn)??弊詣?dòng)化,需要將紙本字書掃描為圖像,然后再將圖像的內(nèi)容進(jìn)行OCR識(shí)別,最終轉(zhuǎn)化為可編輯的文本格式,這就是所謂的“文本化”過程。一般來說,在文本化過程中需要注意以下環(huán)節(jié):
1.版式分析:在古籍?dāng)?shù)字化過程中,版式分析的結(jié)果直接影響著文字采集的效果,以至影響到文字識(shí)別的效果。常見的版式信息主要由以下幾個(gè)方面組成:
(1)版面類型:橫排、豎排、左右兩欄橫排——有分割線、左右兩欄橫排——無分割線、上下兩欄豎排——有分割線和上下兩欄豎排——無分割線;
(2)制作類型:版刻、手寫體和印刷體;
(3)字符排列類型:只有大字、只有小字和大小字混合;
(4)修飾信息:無框線和列線、只有單框線、有單框線和列線、有單框線和中縫線、只有雙框線、有雙框線和列線以及有雙框線和中縫線;
(5)符號(hào)信息:符號(hào)是版式信息的重要組成部分,可以分為幾類:標(biāo)點(diǎn)符號(hào),例如,句讀、專名號(hào)、分隔號(hào)和替代符等;版式符號(hào),例如,魚尾、墨等、墨圍、空圍和墨蓋子等;專類符號(hào),例如,工尺譜和樂譜符號(hào)等。
上述這些信息看似是外部特征,但都是古籍字書的重要組成部分,一旦遺漏,將會(huì)丟失很重要的知識(shí)信息。而版式分析是否符合圖像實(shí)際,也將直接影響字符采集的準(zhǔn)確性和效率。所以,版式分析是搭建版本??毕到y(tǒng)過程中不可忽略的一項(xiàng)重要內(nèi)容。
2.文字識(shí)別
文字識(shí)別是文本化的核心目標(biāo),識(shí)別效果直接影響著文本化的效率和保真的程度。文字識(shí)別效果主要受以下幾個(gè)因素影響:
(1)文字識(shí)別技術(shù)。文字識(shí)別技術(shù)主要指OCR,就是利用電子設(shè)備,對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。衡量OCR系統(tǒng)性能好壞的主要指標(biāo)包括拒識(shí)率、誤識(shí)率與識(shí)別速度等。字書掃描后的字圖清晰、完整,識(shí)別率就高;字圖不清楚,或者粘連許多框線、點(diǎn)讀等雜質(zhì),識(shí)別率就會(huì)比較低。當(dāng)然,不排除一些字圖清晰卻識(shí)別不正確的情況。例如《集韻》中的“從”字,在北京創(chuàng)新力博數(shù)碼科技有限公司開發(fā)的采集平臺(tái)系統(tǒng)中會(huì)認(rèn)同為“久”字,見圖1:
圖1 字符識(shí)別錯(cuò)誤示例
從圖像效果來看,“從”字字圖很清楚,字形結(jié)構(gòu)也很簡單,但卻被錯(cuò)誤識(shí)別為“久”字,其原因就是該系統(tǒng)對(duì)字形的結(jié)構(gòu)分析有誤。字圖中的“從”字左邊的部件“人”小于右邊的部件“人”,被電腦自動(dòng)分析為左上包圍結(jié)構(gòu),在字形上與之最接近的就是“久”字。所以,識(shí)別出現(xiàn)錯(cuò)誤。這說明該識(shí)別系統(tǒng)在字形訓(xùn)練方面還不夠全面,面對(duì)變化了結(jié)構(gòu)和筆形的情況,就會(huì)出現(xiàn)類似錯(cuò)誤。
(2)字符集大小。字符集是描述多個(gè)文字和符號(hào)的集合,不同的字符集所含的字符數(shù)量有一定差異,其中比較常見的字符集有26-27:
1)中國大陸:最早的是GB2312-80,收字6 763個(gè),比較??;最大的是GB18030-2005,收字70 244個(gè)。
2)中國臺(tái)灣:常見的是Big5碼,收字13 053個(gè)。
3)中國香港:在Big5碼的基礎(chǔ)上擴(kuò)展的字符集是HKSCS-2004,收4 500個(gè)字,441個(gè)符號(hào)。
4)日本:在JISXO208的基礎(chǔ)上擴(kuò)展的字符集是JISXO213-2004,收11 233個(gè)字。
5)韓國:在KSC5657-1991基礎(chǔ)上擴(kuò)展的字符集KSC5657-1991,收2 856個(gè)韓國漢字。
字符集大且系統(tǒng)兼容性好,就會(huì)支持顯示更多的字碼,反之,則會(huì)出現(xiàn)空碼與亂碼現(xiàn)象。在上述字符集中,GB18030-2005所含的漢字字符最全,但也還有一定的區(qū)域局限,一旦換到?jīng)]有安裝該字符集或者與該字符集不兼容的系統(tǒng)中就無法使用。就目前來講,Unicode碼是唯一的國際性編碼,它是經(jīng)過字符寬度整合的編碼方式,為全世界上百萬個(gè)字符定義了唯一的編碼值,并提供了一個(gè)標(biāo)準(zhǔn)化的方法,能夠滿足在同一系統(tǒng)平臺(tái)上使用多種語言的編碼。同時(shí),它還專門定義了中日韓統(tǒng)一表意文字集,簡稱CJK。該字符集中的字符主要來源于中國、日本、韓國、朝鮮、越南、新加坡以及中國的臺(tái)灣、香港和澳門,包括了簡體漢字、繁體漢字、方塊十字、日本國字、韓國獨(dú)有漢字、越南喃字和香港方言字,共計(jì)74 616個(gè)字符,它是漢語古籍文本化過程中首選的字符集。
(3)字形認(rèn)同規(guī)則。字形認(rèn)同規(guī)則是指在文字識(shí)別之后,尤其是對(duì)于一些相近字形進(jìn)行判別,是應(yīng)該看作一個(gè)字,還是應(yīng)該看作不同的字的判別規(guī)則。該規(guī)則主要由筆畫規(guī)則和字形規(guī)則共同組成,可以視研究目的來決定寬嚴(yán)標(biāo)準(zhǔn)。如果專門進(jìn)行字形研究,則采取嚴(yán)式標(biāo)準(zhǔn);如果字形不是研究的主要目標(biāo),則可以采用較寬的標(biāo)準(zhǔn),盡量認(rèn)同。例如,“刻”字,見圖2:
圖2 新舊字形差異圖
從字圖來看,這兩個(gè)字形只有“點(diǎn)”的差異,但從字形上講,這屬于新舊字形的差異,應(yīng)該按照兩個(gè)字符來處理;但是,如果不研究字形,只研究其讀音、釋義或其他方面的內(nèi)容,則沒必要看作兩個(gè)字符,完全可以認(rèn)同為一個(gè)“刻”字。但需要注意的是文本化階段的“判同”還是“別異”,其結(jié)論將直接影響將來下一步??钡慕Y(jié)果。
(三)自動(dòng)分割與屬性標(biāo)注
在自動(dòng)??边^程中,計(jì)算機(jī)可以借助特定的程序指令對(duì)字符之間的差異進(jìn)行機(jī)械的比較。比較的基本過程是:計(jì)算機(jī)會(huì)將一個(gè)版本中的所有字符看成一個(gè)字符串,與另一個(gè)版本的字符串進(jìn)行比對(duì),如果相等,則跳過;如果不等,則切分成諸多子串,再進(jìn)行比對(duì),并把比對(duì)的結(jié)果分別反饋為異、脫、衍及倒等幾種情況。該類動(dòng)作循環(huán)進(jìn)行,直至對(duì)整個(gè)文本對(duì)比結(jié)束。在這個(gè)過程中,至為關(guān)鍵的是如何切分篇章問題,即:自動(dòng)切割技術(shù)。一般來說,字書作為一種工具書,有著明顯的體例和結(jié)構(gòu)分布,在段落分割方面相對(duì)清晰。但是,段落內(nèi)部還有著豐富的知識(shí)信息,需要進(jìn)一步詳細(xì)標(biāo)注。所以,尋找形式標(biāo)記、歸納屬性模板和實(shí)現(xiàn)自動(dòng)標(biāo)注應(yīng)該是自動(dòng)分割的前提。就目前來講,從字書中提取到的主要屬性要點(diǎn)有字頭、釋音、釋義、釋形和注釋等,這些屬性有的有形式標(biāo)記,例如:字頭一般為大字;釋音一般用某某切、某某某某二切、某某某某某某三切、某某反、音某、某聲、某韻、葉音某和諧某等來提示;釋形主要指“六書”解釋法,具體描述主要有“象某某之形”、“從某某聲”及“從某從某”等;注釋所含的內(nèi)容相對(duì)復(fù)雜一些,無法歸入前述屬性類別的都暫時(shí)處理為注釋部分,例如:案語、書證、人證、上同、同上、文幾和重音幾等內(nèi)容都標(biāo)記為注釋。
關(guān)鍵詞除了標(biāo)注上述屬性要點(diǎn),還需要建立一定的專類知識(shí)庫加以輔助,形成索引。與版本??毕嚓P(guān)的專類知識(shí)庫主要有:中國字書專名庫,主要用來幫助自動(dòng)提取字書類專有名稱,例如,《說文解字》《玉篇》《龍龕手鑒》《五音集韻》《方言》和《廣雅》等;字書引文知識(shí)庫,主要是用來幫助自動(dòng)提取作為例證的各類引文的書籍名稱,例如,《周禮》《莊子》和《漢書》;“小學(xué)”專家名稱庫,主要用來幫助自動(dòng)提取“小學(xué)”專家名稱,例如,許慎、段玉裁、顧野王、揚(yáng)雄、陳彭年和宋祁;異體字字表,主要用來幫助對(duì)比不同版本中的字形差異,溝通字際關(guān)系。
收稿日期:20141208
基金項(xiàng)目:“中國博士后科學(xué)基金”第七批特別資助,第五十六批面上資助項(xiàng)目(224241)
作者簡介:朱翠萍(1980-)女,山東德州人,北京師范大學(xué)文學(xué)院文字學(xué)專業(yè)在站博士后,主要研究方向?yàn)闈h語言文字學(xué)。
中圖分類號(hào):TP 311.52文獻(xiàn)標(biāo)識(shí)碼:A
總之,自動(dòng)校勘是在前述版式分析、字符識(shí)別和屬性標(biāo)注等工作的基礎(chǔ)上進(jìn)行的,其整個(gè)系統(tǒng)工作的流程可以通過圖3示來展現(xiàn)。
三、搭建版刻楷體字書??逼脚_(tái)的意義和應(yīng)用前景
版刻楷體字書計(jì)算機(jī)輔助版本校勘系統(tǒng)將是一個(gè)非常有價(jià)值的系統(tǒng)平臺(tái),一旦搭建成功,將有利于提高校勘的效率和準(zhǔn)確性,減少單純?nèi)斯ば?迸c箋注過程中不必要的時(shí)間浪費(fèi)和失誤。另外,這一系統(tǒng)平臺(tái)的建立將有利于改變新時(shí)代字書研究者的工作方法,原因在于目前計(jì)算機(jī)雖然很普遍,但對(duì)多數(shù)字書研究者來說,還僅僅局限于代替手寫這一最基礎(chǔ)的工作,其它大量重要的工作內(nèi)容還都處于手工勞動(dòng)階段。如果該系統(tǒng)能順利運(yùn)行,新型字書研究者將會(huì)把目光轉(zhuǎn)向自動(dòng)化方面,全方位利用計(jì)算機(jī)技術(shù)來進(jìn)行文字整理與研究工作。
圖3 版本??逼脚_(tái)流程圖
該系統(tǒng)將是字書整理甚至是古籍整理界的一個(gè)很好的工作平臺(tái)。古籍研究者可以借助此平臺(tái)進(jìn)行文字切分,達(dá)到采集的目的。也可以對(duì)所采集到的數(shù)據(jù)進(jìn)行屬性標(biāo)注,以便根據(jù)研究需要進(jìn)行統(tǒng)計(jì)分析,得出較為全面、切實(shí)的結(jié)論,從而提高文字研究的水平。古籍出版者可以利用該平臺(tái)所提供的影像數(shù)據(jù)制作影印善本,或者等不同版本的??惫ぷ魍瓿芍螅Y選出較為理想的版本,制作高質(zhì)量的校點(diǎn)本。漢字教學(xué)者可以利用從該平臺(tái)中獲得的豐富的數(shù)據(jù)資源和漢字理據(jù),突破單純的繼承前人結(jié)論和人云亦云的局限,從源頭上審視所授內(nèi)容,并形成自己獨(dú)特的見解,從而增添漢字教學(xué)的特色性。
綜上所述,隨著大數(shù)據(jù)時(shí)代的到來,在古籍資源獲取及目錄檢索等方面的效率都將大大提高,這為自動(dòng)??钡於思夹g(shù)基礎(chǔ),重拾人們對(duì)于古籍版本??钡男判?。但是,技術(shù)和理論是矛盾的兩個(gè)方面,技術(shù)的發(fā)展推動(dòng)著新的理論和視角的誕生,新的理論和視角反過來又影響和指導(dǎo)著新技術(shù)的實(shí)現(xiàn)空間。只有兩者相適應(yīng),才會(huì)最大限度地發(fā)揮效能。
參考文獻(xiàn):
[1]李國新.中國古籍資源數(shù)字化的進(jìn)展與任務(wù).大學(xué)圖書館學(xué)報(bào),2002,(1):21-26.
[2]倪其心.校勘學(xué)大綱.北京:北京大學(xué)出版社,1987.
[3]陳垣.??睂W(xué)釋例.北京:中華書局,1959.
[4]陳力.中文古籍?dāng)?shù)字化的再思考.國家圖書館學(xué)刊,2006,(2):42-48.
[5]王蕓,肖禹.漢語古籍全文文本化研究.上海:中西書局,2012.
[6]李先耕.古籍用漢字庫的要求.第一屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會(huì)論文集.北京:五洲傳播出版社,2009.
[7]劉志基.建設(shè)通用數(shù)字化平臺(tái)推動(dòng)古文字研究現(xiàn)代化.東方學(xué)術(shù)文庫(第二卷).上海:上海人民出版社,2004.
Assumption on Building a Computer-aided Platform for
Collating Relief Printing Dictionaries
ZHU Cui-ping,ZHANG Xian-rong
(School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China)
Abstract:With the arrival of the era of big data,methods of collatiing ancient books are constantly updated,and it is inevitable to build a computer-aided platform for collating relief printing dictionaries.From the perspectives of resource organization,image textulization,automatic segmentation and marking property,the article discusses some necessary problems in this field,which will lay a good foundation for the platform building.
Key words:relief printing;regular script;dictionaries;version;automatic collation;platform
(責(zé)任編輯喬志杰)