搭建版刻楷體字書計(jì)算機(jī)輔助版本?？逼脚_(tái)的設(shè)想

2016-01-09 07:52朱翠萍,張憲榮

河北北方學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版) 2015年3期

搭建版刻楷體字書計(jì)算機(jī)輔助版本校勘平臺(tái)的設(shè)想

朱翠萍,張憲榮

(北京師范大學(xué) 文學(xué)院,北京 100875)

摘要：隨著大數(shù)據(jù)時(shí)代的到來，古籍整理的手段不斷更新，計(jì)算機(jī)輔助版本校勘平臺(tái)的搭建也隨之成為社會(huì)發(fā)展的必然。從資源整理、圖像文本化、自動(dòng)分割與屬性標(biāo)注等幾個(gè)方面來探討自動(dòng)?？毕到y(tǒng)搭建所必須解決的問題，為平臺(tái)搭建工作的全面開展奠定良好的基礎(chǔ)。

關(guān)鍵詞：版刻；楷體；字書；版本;自動(dòng)校勘;平臺(tái)

網(wǎng)絡(luò)出版地址：http://www.cnki.net/kcms/detail/13.1415.C.20150410.1443.023.html

網(wǎng)絡(luò)出版時(shí)間：2015-04-10 14:43

古之學(xué)者往往“幼而時(shí)習(xí)之”，即使白發(fā)蒼蒼，也不敢說窮盡一經(jīng)。他們將大量寶貴的時(shí)間和智慧都用在了材料積累上，寫下的筆記、卡片成千上萬張，耗時(shí)又費(fèi)力。今之學(xué)者趕上了大數(shù)據(jù)時(shí)代，大家有感于之前整理古籍的辛苦，想一改皓首窮經(jīng)的局面，搭上計(jì)算機(jī)技術(shù)這列“高鐵”，走高效整理的路子，將更多的時(shí)間與智慧投入到深入探索和理論提升中來。所以，使用數(shù)字化資源來進(jìn)行學(xué)術(shù)研究成為當(dāng)今之必然趨勢(shì)。

隨著OCR光學(xué)識(shí)別技術(shù)的發(fā)展，已經(jīng)可以將古籍轉(zhuǎn)化為文本，結(jié)合人工校對(duì)，就可以實(shí)現(xiàn)古籍的全文本化，便于檢索和編輯。但就目前來看，古籍?dāng)?shù)字化的重點(diǎn)已由全文通索轉(zhuǎn)移到數(shù)據(jù)分析，“智能化”才是未來發(fā)展的方向和重點(diǎn)。通過人工智能技術(shù)，可以從圖像文件中自動(dòng)抽取所需信息并形成檢索點(diǎn)，為建立專題數(shù)據(jù)庫以及古籍整理的深加工奠定堅(jiān)實(shí)的基礎(chǔ)。北京大學(xué)李國新教授曾就該問題專門做了論述，并提出了“研究支持功能”的觀點(diǎn)：“數(shù)字化后的古籍能夠提供科學(xué)、準(zhǔn)確的統(tǒng)計(jì)與計(jì)量信息，提供古籍內(nèi)容相關(guān)的參考數(shù)據(jù)、輔助工具，例如：對(duì)古籍字?jǐn)?shù)、字頻、詞頻的統(tǒng)計(jì)資料，異體字的匯聚顯示，讀音的自動(dòng)標(biāo)注和朗讀，行文風(fēng)格特點(diǎn)的概率統(tǒng)計(jì)，必要的背景知識(shí)、參考數(shù)據(jù)的匯聚，在線標(biāo)點(diǎn)斷句工具的配備，不同版本校勘，字典詞典、歷史年表、歷史地圖等研究工具的載入等。”計(jì)算機(jī)輔助版本?？毕到y(tǒng)就是基于這一“智能化”目標(biāo)而搭建的，希望能成為現(xiàn)代新型字書研究者的工作平臺(tái)。

一、版本?？备耪f

版本校勘是指利用不同的版本和其他補(bǔ)充資料，來比較、核對(duì)、分析與推斷古籍流傳過程中所產(chǎn)生的文字差異或錯(cuò)誤。這些差異或錯(cuò)誤主要表現(xiàn)在誤、脫、衍和倒4個(gè)方面146-203。所謂“誤”，主要是指古籍在傳抄或刻寫過程中出現(xiàn)的錯(cuò)字，亦稱“訛”；所謂“脫”是指古籍在傳抄或刻寫過程中出現(xiàn)的脫落與遺漏字句的現(xiàn)象，亦稱“奪文”；所謂“衍”是指古籍在傳抄或刻寫過程中無意混入或重復(fù)的文字；所謂“倒”是指古籍在傳抄或刻寫過程中出現(xiàn)的詞句顛倒的現(xiàn)象，亦稱“倒乙”。

版本?？钡哪康氖菍⑦@些問題或差異找出來，然后進(jìn)行分析研究，以求存真復(fù)原，為閱讀和研究提供一個(gè)最為接近原稿的善本。關(guān)于古籍?？钡姆椒ǎT家所論不一，如葉德輝于《藏書十約》中提出了死校與活校兩法，程千帆先生則在《校讎廣義(?？本?》中分對(duì)校與理校兩類，而最為學(xué)界推崇的還是陳垣先生在《?？睂W(xué)釋例》卷6中所歸納的4種?？狈椒?，即“對(duì)校法”、“本校法”、“他校法”和“理校法”，簡稱“四校法”?，F(xiàn)據(jù)陳先生所說分別申述如下144-149：1.對(duì)校法。指選定一個(gè)版本為底本，然后用其他不同的版本與之進(jìn)行比對(duì)；2.本校法。指在沒有其他版本和有關(guān)資料對(duì)比的情況下，依據(jù)該書自身體例，結(jié)合文字、音韻及訓(xùn)詁等相關(guān)領(lǐng)域的專業(yè)常識(shí)進(jìn)行?？?；3.他校法。指利用其他書，例如書中的引證部分，來驗(yàn)證本書中的文字是否正確；4.理校法。指在沒有版本或其他材料可以依據(jù)的情況下，利用所具備的理論知識(shí)和邏輯推理的方法，來分析驗(yàn)證所校書中的文字是否正確。

從整體來說，?？本褪抢帽容^和分析的方法對(duì)某一個(gè)文本進(jìn)行校異和勘誤的工作。校異工作的內(nèi)容相對(duì)客觀，只是對(duì)比異同，可以借助計(jì)算機(jī)輔助完成。勘誤則是相對(duì)主觀性的工作，需要人們借助一定的理論知識(shí)來進(jìn)行判斷推理。如果借助計(jì)算機(jī)，就屬于人工智能的范疇，難度比較大。所以，就目前而言，自動(dòng)?？边€主要體現(xiàn)在校異工作方面。

字書，古人稱為“小學(xué)書”，是專門收集和研究漢字形音義的工具型書籍。其范圍包括：主形的“文字”系列、主音的“音韻”系列、主義的“訓(xùn)詁”系列及其他相關(guān)的音義類著作。“版刻楷體字書”是指通過雕版印刷方式制作的字體風(fēng)格為楷體的輯錄漢字形音義信息的工具書。因其具有工具性，所以使用面廣，流傳年代久遠(yuǎn)，這樣勢(shì)必造成字書的版本豐富多樣。筆者對(duì)幾部重要字書的版本做了一個(gè)簡單的統(tǒng)計(jì)，并通過字頭數(shù)量，對(duì)?？弊址孔隽艘粋€(gè)預(yù)估，見表1：

表1　部分字書版本及字頭數(shù)目

通過上述統(tǒng)計(jì)可以看出，僅僅字書?？钡幕A(chǔ)字符量就少則幾十萬，多則上百萬。如果再加上釋文，可能就涉及上億字符，再加上對(duì)各種問題的歸類和分析，可以想見，?？钡墓ぷ髁亢蔚确敝?。所以，利用計(jì)算機(jī)輔助校勘成為迫切需要攻克的難題。

二、搭建版刻楷體字書版本?？逼脚_(tái)的主要工作內(nèi)容

版本?？笔且粋€(gè)系統(tǒng)工程，需要經(jīng)歷“?！?、“按”和“斷”3個(gè)步驟。在這個(gè)過程中，有幾個(gè)主要問題需要注意。第一，通過梳理版本源流，確定善本，然后以善本為底本，其他的為校本，展開?？薄＿@一工作開展的前提就是盡可能多、全地收集不同版本，以便選到最優(yōu)質(zhì)的資源。第二，自動(dòng)校勘所能處理的是文本文件，而獲取到的第一手資源是紙本或圖像，這就需要經(jīng)歷一個(gè)文本轉(zhuǎn)化的過程。在轉(zhuǎn)化過程中，對(duì)版式和字符自動(dòng)識(shí)別的精確度會(huì)直接影響到?？钡男ЧＫ?，提前分析版式信息，建立盡可能大的字符識(shí)別字典，會(huì)大大提高自動(dòng)?？钡男?。第三，在自動(dòng)?？边^程中，實(shí)現(xiàn)精確對(duì)應(yīng)的前提是自動(dòng)分割的準(zhǔn)確。所以，研究適合古籍字書的自動(dòng)分段、自動(dòng)分詞和自動(dòng)匹配技術(shù)，是搭建自動(dòng)?？逼脚_(tái)過程中的核心問題。

(一)搭建版刻楷體字書版本?？逼脚_(tái)的基礎(chǔ)——資源整理

目前，散藏于日本、美國、英國、越南、中國香港、中國臺(tái)灣以及中國大陸的各大圖書館中的字書資源已被陸續(xù)收集到一起。在此基礎(chǔ)上，可以對(duì)這些字書的版本信息進(jìn)行分解，提取版本信息“因子”，然后將這些“因子”進(jìn)行歸類與去重，形成字書版本知識(shí)專庫。據(jù)《古籍著錄規(guī)則》(GB 3792.7-2008)規(guī)定，古籍版本項(xiàng)包括版本類型和出版發(fā)行兩個(gè)部分，其中，前者可分為稿本、抄本和刻本等13種類型，后者則依次包括以下幾個(gè)方面：

1.國別：就目前所見到的漢字字書的版本，涉及的國別主要有中國、日本、韓國、朝鮮和越南。

2.出版年(修版年或印刷年)：關(guān)于版本的年代，有幾種不同的記錄方式：

(1)朝代：楷體字書涉及的中國朝代主要有漢、南北朝、隋、唐、宋、元、明、清和中華民國等。

(2)帝王紀(jì)年：帝王紀(jì)年的基本格式是：年號(hào)+年份。中國的年號(hào)：例如，延祐3年、弘治14年、萬歷26年及康熙43年等。日本的年號(hào)：例如，昭和5年、享保12年、弘化3年、寬政2年、慶安2年、明治16年、大正15年、天保15年、文化7年、寬永4年與安永9年等。

(3)干支紀(jì)年：干支紀(jì)年具有循環(huán)性。所以，出現(xiàn)同樣的干支字眼，還需要進(jìn)一步界定，否則，在計(jì)算機(jī)對(duì)版本時(shí)代進(jìn)行自動(dòng)排序的時(shí)候，會(huì)出現(xiàn)錯(cuò)誤。

(4)公元紀(jì)年：公元紀(jì)年是以耶穌誕生年為元年，之前的年份稱為“公元前某年”，之后的年份稱為“公元后某年”。

3.制、藏地：即出版地，包括修版地或印刷地，例如，汲古閣、經(jīng)綸堂、芳梫堂、種善堂和世裕堂等。

4.刻工：即出版者，包括修版者或印刷者，例如，李顯、李書云、陳昌治、鄭世豪、毛謨和陸顥等。

根據(jù)上述版本知識(shí)信息，先進(jìn)行歸類、排序和統(tǒng)計(jì)，再結(jié)合正文各方面的信息進(jìn)行版本順序的梳理。同時(shí)，還可以根據(jù)這些版本信息，觀察字書發(fā)展演變的歷史，繪制字書歷史演變圖。這些為版本?？逼脚_(tái)的搭建提供了豐富的資源基礎(chǔ)和序列模型。

(二)搭建版刻楷體字書?？逼脚_(tái)的前提——文本化

版本校勘的核心是對(duì)正文文字的勘校。要實(shí)現(xiàn)?？弊詣?dòng)化，需要將紙本字書掃描為圖像，然后再將圖像的內(nèi)容進(jìn)行OCR識(shí)別，最終轉(zhuǎn)化為可編輯的文本格式，這就是所謂的“文本化”過程。一般來說，在文本化過程中需要注意以下環(huán)節(jié)：

1.版式分析：在古籍?dāng)?shù)字化過程中，版式分析的結(jié)果直接影響著文字采集的效果，以至影響到文字識(shí)別的效果。常見的版式信息主要由以下幾個(gè)方面組成：

(1)版面類型：橫排、豎排、左右兩欄橫排——有分割線、左右兩欄橫排——無分割線、上下兩欄豎排——有分割線和上下兩欄豎排——無分割線；

(2)制作類型：版刻、手寫體和印刷體；

(3)字符排列類型：只有大字、只有小字和大小字混合；

(4)修飾信息：無框線和列線、只有單框線、有單框線和列線、有單框線和中縫線、只有雙框線、有雙框線和列線以及有雙框線和中縫線；

(5)符號(hào)信息：符號(hào)是版式信息的重要組成部分，可以分為幾類：標(biāo)點(diǎn)符號(hào)，例如，句讀、專名號(hào)、分隔號(hào)和替代符等；版式符號(hào)，例如，魚尾、墨等、墨圍、空圍和墨蓋子等；專類符號(hào)，例如，工尺譜和樂譜符號(hào)等。

上述這些信息看似是外部特征，但都是古籍字書的重要組成部分，一旦遺漏，將會(huì)丟失很重要的知識(shí)信息。而版式分析是否符合圖像實(shí)際，也將直接影響字符采集的準(zhǔn)確性和效率。所以，版式分析是搭建版本?？毕到y(tǒng)過程中不可忽略的一項(xiàng)重要內(nèi)容。

2.文字識(shí)別

文字識(shí)別是文本化的核心目標(biāo)，識(shí)別效果直接影響著文本化的效率和保真的程度。文字識(shí)別效果主要受以下幾個(gè)因素影響：

(1)文字識(shí)別技術(shù)。文字識(shí)別技術(shù)主要指OCR，就是利用電子設(shè)備，對(duì)圖像文件進(jìn)行分析處理，獲取文字及版面信息的過程。衡量OCR系統(tǒng)性能好壞的主要指標(biāo)包括拒識(shí)率、誤識(shí)率與識(shí)別速度等。字書掃描后的字圖清晰、完整，識(shí)別率就高；字圖不清楚，或者粘連許多框線、點(diǎn)讀等雜質(zhì)，識(shí)別率就會(huì)比較低。當(dāng)然，不排除一些字圖清晰卻識(shí)別不正確的情況。例如《集韻》中的“從”字，在北京創(chuàng)新力博數(shù)碼科技有限公司開發(fā)的采集平臺(tái)系統(tǒng)中會(huì)認(rèn)同為“久”字，見圖1：

圖1　字符識(shí)別錯(cuò)誤示例

從圖像效果來看，“從”字字圖很清楚，字形結(jié)構(gòu)也很簡單，但卻被錯(cuò)誤識(shí)別為“久”字，其原因就是該系統(tǒng)對(duì)字形的結(jié)構(gòu)分析有誤。字圖中的“從”字左邊的部件“人”小于右邊的部件“人”，被電腦自動(dòng)分析為左上包圍結(jié)構(gòu)，在字形上與之最接近的就是“久”字。所以，識(shí)別出現(xiàn)錯(cuò)誤。這說明該識(shí)別系統(tǒng)在字形訓(xùn)練方面還不夠全面，面對(duì)變化了結(jié)構(gòu)和筆形的情況，就會(huì)出現(xiàn)類似錯(cuò)誤。

(2)字符集大小。字符集是描述多個(gè)文字和符號(hào)的集合,不同的字符集所含的字符數(shù)量有一定差異，其中比較常見的字符集有26-27：

1)中國大陸：最早的是GB2312-80，收字6 763個(gè)，比較??；最大的是GB18030-2005，收字70 244個(gè)。

2)中國臺(tái)灣：常見的是Big5碼，收字13 053個(gè)。

3)中國香港：在Big5碼的基礎(chǔ)上擴(kuò)展的字符集是HKSCS-2004，收4 500個(gè)字，441個(gè)符號(hào)。

4)日本：在JISXO208的基礎(chǔ)上擴(kuò)展的字符集是JISXO213-2004，收11 233個(gè)字。

5)韓國：在KSC5657-1991基礎(chǔ)上擴(kuò)展的字符集KSC5657-1991，收2 856個(gè)韓國漢字。

字符集大且系統(tǒng)兼容性好，就會(huì)支持顯示更多的字碼，反之，則會(huì)出現(xiàn)空碼與亂碼現(xiàn)象。在上述字符集中，GB18030-2005所含的漢字字符最全，但也還有一定的區(qū)域局限，一旦換到?jīng)]有安裝該字符集或者與該字符集不兼容的系統(tǒng)中就無法使用。就目前來講，Unicode碼是唯一的國際性編碼，它是經(jīng)過字符寬度整合的編碼方式，為全世界上百萬個(gè)字符定義了唯一的編碼值，并提供了一個(gè)標(biāo)準(zhǔn)化的方法，能夠滿足在同一系統(tǒng)平臺(tái)上使用多種語言的編碼。同時(shí)，它還專門定義了中日韓統(tǒng)一表意文字集，簡稱CJK。該字符集中的字符主要來源于中國、日本、韓國、朝鮮、越南、新加坡以及中國的臺(tái)灣、香港和澳門，包括了簡體漢字、繁體漢字、方塊十字、日本國字、韓國獨(dú)有漢字、越南喃字和香港方言字，共計(jì)74 616個(gè)字符，它是漢語古籍文本化過程中首選的字符集。

(3)字形認(rèn)同規(guī)則。字形認(rèn)同規(guī)則是指在文字識(shí)別之后，尤其是對(duì)于一些相近字形進(jìn)行判別，是應(yīng)該看作一個(gè)字，還是應(yīng)該看作不同的字的判別規(guī)則。該規(guī)則主要由筆畫規(guī)則和字形規(guī)則共同組成，可以視研究目的來決定寬嚴(yán)標(biāo)準(zhǔn)。如果專門進(jìn)行字形研究，則采取嚴(yán)式標(biāo)準(zhǔn)；如果字形不是研究的主要目標(biāo)，則可以采用較寬的標(biāo)準(zhǔn)，盡量認(rèn)同。例如，“刻”字，見圖2：

圖2　新舊字形差異圖

從字圖來看，這兩個(gè)字形只有“點(diǎn)”的差異，但從字形上講，這屬于新舊字形的差異，應(yīng)該按照兩個(gè)字符來處理；但是，如果不研究字形，只研究其讀音、釋義或其他方面的內(nèi)容，則沒必要看作兩個(gè)字符，完全可以認(rèn)同為一個(gè)“刻”字。但需要注意的是文本化階段的“判同”還是“別異”，其結(jié)論將直接影響將來下一步?？钡慕Y(jié)果。

(三)自動(dòng)分割與屬性標(biāo)注

在自動(dòng)?？边^程中，計(jì)算機(jī)可以借助特定的程序指令對(duì)字符之間的差異進(jìn)行機(jī)械的比較。比較的基本過程是：計(jì)算機(jī)會(huì)將一個(gè)版本中的所有字符看成一個(gè)字符串，與另一個(gè)版本的字符串進(jìn)行比對(duì)，如果相等，則跳過；如果不等，則切分成諸多子串，再進(jìn)行比對(duì)，并把比對(duì)的結(jié)果分別反饋為異、脫、衍及倒等幾種情況。該類動(dòng)作循環(huán)進(jìn)行，直至對(duì)整個(gè)文本對(duì)比結(jié)束。在這個(gè)過程中，至為關(guān)鍵的是如何切分篇章問題，即：自動(dòng)切割技術(shù)。一般來說，字書作為一種工具書，有著明顯的體例和結(jié)構(gòu)分布，在段落分割方面相對(duì)清晰。但是，段落內(nèi)部還有著豐富的知識(shí)信息，需要進(jìn)一步詳細(xì)標(biāo)注。所以，尋找形式標(biāo)記、歸納屬性模板和實(shí)現(xiàn)自動(dòng)標(biāo)注應(yīng)該是自動(dòng)分割的前提。就目前來講，從字書中提取到的主要屬性要點(diǎn)有字頭、釋音、釋義、釋形和注釋等，這些屬性有的有形式標(biāo)記，例如：字頭一般為大字；釋音一般用某某切、某某某某二切、某某某某某某三切、某某反、音某、某聲、某韻、葉音某和諧某等來提示；釋形主要指“六書”解釋法，具體描述主要有“象某某之形”、“從某某聲”及“從某從某”等；注釋所含的內(nèi)容相對(duì)復(fù)雜一些，無法歸入前述屬性類別的都暫時(shí)處理為注釋部分，例如：案語、書證、人證、上同、同上、文幾和重音幾等內(nèi)容都標(biāo)記為注釋。

關(guān)鍵詞除了標(biāo)注上述屬性要點(diǎn)，還需要建立一定的專類知識(shí)庫加以輔助，形成索引。與版本?？毕嚓P(guān)的專類知識(shí)庫主要有：中國字書專名庫，主要用來幫助自動(dòng)提取字書類專有名稱，例如，《說文解字》《玉篇》《龍龕手鑒》《五音集韻》《方言》和《廣雅》等；字書引文知識(shí)庫，主要是用來幫助自動(dòng)提取作為例證的各類引文的書籍名稱，例如，《周禮》《莊子》和《漢書》；“小學(xué)”專家名稱庫，主要用來幫助自動(dòng)提取“小學(xué)”專家名稱，例如，許慎、段玉裁、顧野王、揚(yáng)雄、陳彭年和宋祁；異體字字表，主要用來幫助對(duì)比不同版本中的字形差異，溝通字際關(guān)系。

收稿日期：20141208

基金項(xiàng)目：“中國博士后科學(xué)基金”第七批特別資助，第五十六批面上資助項(xiàng)目(224241)

作者簡介：朱翠萍(1980-)女，山東德州人，北京師范大學(xué)文學(xué)院文字學(xué)專業(yè)在站博士后，主要研究方向?yàn)闈h語言文字學(xué)。

中圖分類號(hào)：TP 311.52文獻(xiàn)標(biāo)識(shí)碼：A

總之，自動(dòng)校勘是在前述版式分析、字符識(shí)別和屬性標(biāo)注等工作的基礎(chǔ)上進(jìn)行的，其整個(gè)系統(tǒng)工作的流程可以通過圖3示來展現(xiàn)。

三、搭建版刻楷體字書?？逼脚_(tái)的意義和應(yīng)用前景

版刻楷體字書計(jì)算機(jī)輔助版本校勘系統(tǒng)將是一個(gè)非常有價(jià)值的系統(tǒng)平臺(tái)，一旦搭建成功，將有利于提高校勘的效率和準(zhǔn)確性，減少單純?nèi)斯ば？迸c箋注過程中不必要的時(shí)間浪費(fèi)和失誤。另外，這一系統(tǒng)平臺(tái)的建立將有利于改變新時(shí)代字書研究者的工作方法，原因在于目前計(jì)算機(jī)雖然很普遍，但對(duì)多數(shù)字書研究者來說，還僅僅局限于代替手寫這一最基礎(chǔ)的工作，其它大量重要的工作內(nèi)容還都處于手工勞動(dòng)階段。如果該系統(tǒng)能順利運(yùn)行，新型字書研究者將會(huì)把目光轉(zhuǎn)向自動(dòng)化方面，全方位利用計(jì)算機(jī)技術(shù)來進(jìn)行文字整理與研究工作。

圖3　版本?？逼脚_(tái)流程圖

該系統(tǒng)將是字書整理甚至是古籍整理界的一個(gè)很好的工作平臺(tái)。古籍研究者可以借助此平臺(tái)進(jìn)行文字切分，達(dá)到采集的目的。也可以對(duì)所采集到的數(shù)據(jù)進(jìn)行屬性標(biāo)注，以便根據(jù)研究需要進(jìn)行統(tǒng)計(jì)分析，得出較為全面、切實(shí)的結(jié)論，從而提高文字研究的水平。古籍出版者可以利用該平臺(tái)所提供的影像數(shù)據(jù)制作影印善本，或者等不同版本的?？惫ぷ魍瓿芍螅Y選出較為理想的版本，制作高質(zhì)量的校點(diǎn)本。漢字教學(xué)者可以利用從該平臺(tái)中獲得的豐富的數(shù)據(jù)資源和漢字理據(jù)，突破單純的繼承前人結(jié)論和人云亦云的局限，從源頭上審視所授內(nèi)容，并形成自己獨(dú)特的見解，從而增添漢字教學(xué)的特色性。

綜上所述，隨著大數(shù)據(jù)時(shí)代的到來,在古籍資源獲取及目錄檢索等方面的效率都將大大提高，這為自動(dòng)?？钡於思夹g(shù)基礎(chǔ)，重拾人們對(duì)于古籍版本?？钡男判?。但是，技術(shù)和理論是矛盾的兩個(gè)方面，技術(shù)的發(fā)展推動(dòng)著新的理論和視角的誕生，新的理論和視角反過來又影響和指導(dǎo)著新技術(shù)的實(shí)現(xiàn)空間。只有兩者相適應(yīng)，才會(huì)最大限度地發(fā)揮效能。

參考文獻(xiàn)：

[1]李國新.中國古籍資源數(shù)字化的進(jìn)展與任務(wù).大學(xué)圖書館學(xué)報(bào)，2002,(1)：21-26.

[2]倪其心.校勘學(xué)大綱.北京：北京大學(xué)出版社，1987.

[3]陳垣.?？睂W(xué)釋例.北京：中華書局，1959.

[4]陳力.中文古籍?dāng)?shù)字化的再思考.國家圖書館學(xué)刊，2006,(2)：42-48.

[5]王蕓,肖禹.漢語古籍全文文本化研究.上海：中西書局，2012.

[6]李先耕.古籍用漢字庫的要求.第一屆中國古籍?dāng)?shù)字化國際學(xué)術(shù)研討會(huì)論文集.北京：五洲傳播出版社，2009.

[7]劉志基.建設(shè)通用數(shù)字化平臺(tái)推動(dòng)古文字研究現(xiàn)代化.東方學(xué)術(shù)文庫(第二卷).上海：上海人民出版社，2004.

Assumption on Building a Computer-aided Platform for

Collating Relief Printing Dictionaries

ZHU Cui-ping,ZHANG Xian-rong

(School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China)

Abstract:With the arrival of the era of big data,methods of collatiing ancient books are constantly updated,and it is inevitable to build a computer-aided platform for collating relief printing dictionaries.From the perspectives of resource organization,image textulization,automatic segmentation and marking property,the article discusses some necessary problems in this field,which will lay a good foundation for the platform building.

Key words:relief printing;regular script;dictionaries;version;automatic collation;platform

(責(zé)任編輯喬志杰)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

搭建版刻楷體字書計(jì)算機(jī)輔助版本?？逼脚_(tái)的設(shè)想

搭建版刻楷體字書計(jì)算機(jī)輔助版本?？逼脚_(tái)的設(shè)想