中文古籍數(shù)字化的開發(fā)層次和發(fā)展趨勢?

2014-12-25 02:15:38馬創(chuàng)新曲維光陳小荷

圖書館 2014年2期

馬創(chuàng)新曲維光陳小荷

(1．南京師范大學(xué)文學(xué)院江蘇南京 210097;2．南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院江蘇南京 210097)

1 中文古籍數(shù)字化的開發(fā)層次

中文古籍數(shù)字化是指利用現(xiàn)代信息技術(shù)對中文古籍進行加工處理，使其轉(zhuǎn)化為電子數(shù)據(jù)形式保存和傳播，它是中文古籍再生性保護的重要手段，是古籍整理工作的一部分。古籍數(shù)字化的研究和開發(fā)層次涉及傳統(tǒng)古籍的加工處理深度，毛建軍認為古籍數(shù)字化開發(fā)分為五個層次:編制古籍電子索引、建立古籍書目數(shù)據(jù)庫、古籍原文圖像復(fù)制、匯編古籍電子叢書、古籍標點今譯與普及等。〔1〕王立清認為，按照古籍數(shù)字化處理深度的不同，其開發(fā)層次可以包括古籍書目的數(shù)字化、古籍載體的數(shù)字化、古籍圖文的數(shù)字化、古籍知識及關(guān)聯(lián)的數(shù)字化?！?〕徐清等人認為古籍數(shù)字資源的深度開發(fā)至少包括三個方面內(nèi)容:提供基于超文本的立體閱讀環(huán)境、建立強大的智能化檢索系統(tǒng)、提供科學(xué)、準確的統(tǒng)計數(shù)據(jù)和信息分析。〔3〕

表1 中文古籍數(shù)字化的開發(fā)層次及其主要內(nèi)容

我們根據(jù)數(shù)字化加工的深度對古籍數(shù)字化進行層次劃分，在表1中列出了古籍數(shù)字化的層次及其主要內(nèi)容，其中第一層解決了古籍的錄入和數(shù)字化存儲問題;第二層基本上解決了古籍的網(wǎng)絡(luò)傳播和信息檢索問題;第三層是古籍書目基本信息的標注問題、古籍內(nèi)容的淺層標注與系聯(lián)問題;第四層是古籍內(nèi)容的深層語義標注和知識檢索方法。第一、二層的內(nèi)容屬于“表層數(shù)字化”，第三、四層的內(nèi)容屬于“深層數(shù)字化”。當然這種層次劃分是相對的，實際上并沒有區(qū)分層次深淺的絕對標準。

1．1 表層數(shù)字化

在古籍數(shù)字化的初期，主要任務(wù)是解決如何把幾千年來一直保存在竹簡、木牘、紙張等實物介質(zhì)上的古籍內(nèi)容以數(shù)字形式存入計算機中的問題。古籍善本的圖像掃描錄入是對存儲在實物介質(zhì)上的古籍分頁做光學(xué)掃描，每頁內(nèi)容作為一個圖片存儲，該方法能在短時間內(nèi)將大量古籍轉(zhuǎn)儲在計算機中，但是以圖片形式存儲不便于古籍內(nèi)容的檢索。OCR識別通過對圖片進行分割、對圖像輪廓進行識別匹配，能夠辨析出圖像中的文字，把圖片中的古籍內(nèi)容轉(zhuǎn)化成字符序列。經(jīng)過OCR識別并且按字符建立索引之后，對古籍內(nèi)容的檢索將會變得高效便捷，但是當今的OCR識別技術(shù)還有待提高，各種OCR識別技術(shù)的準確率和召回率都無法達到百分之百，需要在機器識別之后再做人工校對。

漢字從產(chǎn)生到今天已經(jīng)有幾千年，在這漫長的歷史時期中，產(chǎn)生了大量漢字字形，《康熙大字典》收錄的漢字就有47035個，實際使用的漢字還要更多一些。然而，當前計算機中常用的字符集如GB2312、Big5、GBK等都沒有收錄這么多漢字。并且由于使用漢字記錄的古籍文獻浩如煙海，在這些文獻中存著大量停用字和異體字，有些漢字字形使用的頻率極低，所以這個問題不能僅靠擴大字符集的規(guī)模來解決，必須研究字符集之外文字的存儲方法。

在研究古籍文獻錄入與存儲方法的同時，還要研究如何便捷地閱讀和檢索文獻內(nèi)容，在當今互聯(lián)網(wǎng)時代，古籍文獻閱讀檢索的單機版形式顯然無法滿足研究者的需要，必須要實現(xiàn)古籍全文的互聯(lián)網(wǎng)發(fā)布和基于網(wǎng)絡(luò)的全文檢索。

1．2 深層數(shù)字化

古籍的表層數(shù)字化主要解決古籍的數(shù)字化存儲、網(wǎng)絡(luò)傳播和全文檢索的問題，而深層數(shù)字化深入到“內(nèi)容和意義”層面研究古籍文獻，包括研究古籍著錄和描述的元數(shù)據(jù)標準、古籍內(nèi)部知識元的標注問題、知識元之間的聯(lián)系方法、以及古籍之間的聯(lián)系方法。

元語言，“就是描述語言的語言，它通過定義一套描述文檔結(jié)構(gòu)與含義的語法標記，使人或計算機能夠利用這些標記快速準確地找到并理解文檔中包含的特定語義信息”〔4〕。通過制定通用的古籍著錄和描述的元數(shù)據(jù)標準，并且使用該標準對古籍進行描述，能夠使計算機快速準確地找到目標古籍。由于元數(shù)據(jù)標準(如DC元數(shù)據(jù)、MARC元數(shù)據(jù)等)能夠?qū)偶幕緝?nèi)容特征做具體的描述，所以描述古籍基本內(nèi)容特征的“元數(shù)據(jù)信息庫”要比單純的“書目索引庫”應(yīng)用價值大得多。表層數(shù)字化研究中的全文檢索僅能夠通過簡單的字符串匹配技術(shù)查找到指定的字符或者字符串，無法滿足研究者多層面的檢索需求，通過制訂系統(tǒng)的元數(shù)據(jù)標記，對古籍內(nèi)容進行標注，如標注出古籍中的命名實體或者某類特定信息，能夠滿足研究者較高層次的檢索需求。經(jīng)過元數(shù)據(jù)標注后，接下來可以繼續(xù)研究如何在古籍之間、章節(jié)之間、內(nèi)部知識元之間自動地設(shè)置錨點和鏈接，構(gòu)造超文本的立體閱讀環(huán)境。

“本體是關(guān)于領(lǐng)域知識的概念化、形式化的明確規(guī)范?！薄?〕本體通過概念描述揭示領(lǐng)域知識，古籍領(lǐng)域本體能夠展示古籍中豐富的語義關(guān)系，并且可以保證語義的一致性。各個學(xué)科領(lǐng)域的專家能夠構(gòu)建適用于特定領(lǐng)域的規(guī)模較小的本體，如:古籍著錄與描述本體、訓(xùn)詁學(xué)本體、音韻學(xué)本體、文字學(xué)本體等等。古籍數(shù)字化研究專家能夠使用本體集成技術(shù)將所需要的多個領(lǐng)域本體集成在一起，構(gòu)成一個規(guī)模較大的應(yīng)用于古籍數(shù)字化領(lǐng)域的專業(yè)本體。

古籍知識網(wǎng)絡(luò)建設(shè)就是利用計算機技術(shù)、信息技術(shù)等新興技術(shù)手段，對蘊含在古籍中的知識進行多元的組合，在多部古籍的內(nèi)部知識元之間建立起聯(lián)系，把多個一維的線性序列轉(zhuǎn)化為一個多維的知識網(wǎng)絡(luò)，使多部古籍成為一個結(jié)構(gòu)化的知識集合。在古籍領(lǐng)域本體和知識網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計的檢索系統(tǒng)能夠?qū)崿F(xiàn)智能的知識檢索。

1．3 表層數(shù)字化與深層數(shù)字化之間的主要區(qū)別

中文古籍的表層數(shù)字化與深層數(shù)字化之間有以下區(qū)別:①古籍的表層數(shù)字化研究起步較早，至今已取得豐碩成果，一些疑難問題基本上得到解決，古籍的深層數(shù)字化研究起步較晚，也取得了一定的成果，很多問題現(xiàn)在正處于攻堅階段。②古籍數(shù)字化是一項多學(xué)科交叉的研究課題，主要牽涉到文獻學(xué)和計算機科學(xué)。古籍的表層數(shù)字化更多的依賴計算機技術(shù)，像OCR識別、大字符集的研制等都是通過技術(shù)創(chuàng)新來推動古籍數(shù)字化的發(fā)展。而古籍的深層數(shù)字化則是建立在對古籍內(nèi)容本身有著較為深入理解的基礎(chǔ)之上，對于研究者在文獻學(xué)、語言學(xué)、版本學(xué)等方面的知識素養(yǎng)有更高的要求，“應(yīng)該有樸學(xué)的根底、科學(xué)的精神、數(shù)字化的研究手段?！薄?〕③在古籍數(shù)字化的主要研究內(nèi)容中，有些內(nèi)容是與現(xiàn)代中文信息處理所共有的，有些內(nèi)容是古籍信息處理時所特有的。古籍表層數(shù)字化研究中的大部分內(nèi)容是與現(xiàn)代中文信息處理所共有的，而深層數(shù)字化研究中的大部分內(nèi)容是利用計算機處理古籍文獻時所特有的。

2 中文古籍數(shù)字化的發(fā)展趨勢

古籍數(shù)字化研究在我國已有三十多年的歷史，發(fā)展到今天，產(chǎn)生了大量成果，并且表現(xiàn)出由表層數(shù)字化向深層數(shù)字化發(fā)展的趨勢，〔7〕具體表現(xiàn)在:

2．1 統(tǒng)一標準

為了減少重復(fù)開發(fā)、實現(xiàn)資源共享，一些資源豐富的研究單位制訂了古籍文獻存儲、標識和傳輸?shù)慕y(tǒng)一標準，并且逐漸得到認可和推廣。例如:北京大學(xué)古籍數(shù)字圖書館制訂了古籍元數(shù)據(jù)著錄規(guī)范和標準框架，針對在我國廣泛應(yīng)用的數(shù)字對象分別建立了相應(yīng)的數(shù)字規(guī)范，編制了各個專門元數(shù)據(jù)的應(yīng)用指南、元數(shù)據(jù)定義信息、應(yīng)用協(xié)議和轉(zhuǎn)換工具的等級機制，目的就是要解決對物理實體古籍和數(shù)字化古籍的著錄和描述問題?！?〕

2．2 重視網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用

為了使古籍文獻的檢索和傳輸更加方便快捷，古籍數(shù)字化研究者重視當代網(wǎng)絡(luò)技術(shù)的研究與應(yīng)用。例如:萬維網(wǎng)聯(lián)盟定義的可擴展標記語言近年來被廣泛應(yīng)用于古籍數(shù)字化工作中。山川等人應(yīng)用XML和XML Schema語言來描述古籍元數(shù)據(jù)，利用XML提出了一套完整的著錄古籍元數(shù)據(jù)的方案?！?〕吳琴霞等人采用XML+XML Schema對甲骨文語料庫進行結(jié)構(gòu)化標注，使不同類型的數(shù)據(jù)表示成統(tǒng)一的格式，方便了數(shù)據(jù)的交換和共享。他們在甲骨文領(lǐng)域?qū)＜业膸椭聦σ延械募坠俏恼Z料庫進行標注，標注時抽取出對甲骨文考釋有幫助的信息，把這些信息作為XML文檔的詞匯集，詞匯之間的關(guān)系通過建立XML Schema來確定，然后根據(jù)定義好的 XML Schema使用 XML對甲骨文語料庫進行標注。〔10〕

2．3 引入統(tǒng)計模型和計算機語言學(xué)方法

古籍數(shù)字化研究中引入了統(tǒng)計模型和計算語言學(xué)方法，對古籍內(nèi)容進行深入分析，研究古籍文獻的自動分詞、自動斷句和版本?？钡确椒ā＠?石民等人研究使用CRF模型對《左傳》進行自動分詞、詞性標注、分詞及標注一體化的方法。〔11〕于麗麗等人使用CRF模型，利用復(fù)合特征模板和增加語言學(xué)特征的模板，在古漢語語料上進行詞義消歧實驗?！?2〕段磊等人以《史記》全文語料為例，分別應(yīng)用基于頻率、互信息、假設(shè)檢驗的統(tǒng)計方法獲取古漢語雙字詞，并結(jié)合人工標注結(jié)果進行評測，為古漢語雙字詞自動獲取提供了相應(yīng)的解決方案?！?3〕

2．4 重視相關(guān)古籍之間的關(guān)系

研究者重視相關(guān)古籍之間的關(guān)聯(lián)，在研究某一古籍時，同時分析多部相關(guān)文獻，通過相互佐證，得到驗證某一觀點的豐富材料。例如:在古代有很多對經(jīng)典古籍做注解的注疏文獻，這些注疏文獻中蘊含著古代的語言、文化和歷史等方面的豐富知識。在研究某一經(jīng)典古籍時，通過分析它的注疏文獻可以得到大量有用信息。馬創(chuàng)新等人把《論語》的注疏文獻中蘊含的信息作為研究《論語》原典的依據(jù)和資源，研究了構(gòu)建《論語》與其注疏文獻對齊語料庫的基本方法?！?4〕

2．5 探索基于本體語義的建庫方案

(5)研究者開始探索基于本體語義的古籍知識庫建設(shè)方案。例如:羅晨光等人在古籍描述元數(shù)據(jù)著錄規(guī)則的基礎(chǔ)上，結(jié)合本體理論，將古籍元數(shù)據(jù)映射為一個基于本體的知識庫，并且使用OWL語言實現(xiàn)了這個知識庫的結(jié)構(gòu)框架?！?5〕谷建軍分析了適合中醫(yī)古籍數(shù)據(jù)庫的本體表示語言和編輯工具，建立了一個以“病癥”概念為核心的中醫(yī)古籍文獻領(lǐng)域本體模型?！?6〕

1．毛建軍．古籍數(shù)字化理論與實踐．北京:航空工業(yè)出版社，2009:8

2．王立清．中文古籍數(shù)字化研究．北京:國家圖書館出版社，2011:25

3．徐清，石向?qū)?，王唯．古籍?shù)字化資源的深度開發(fā)．圖書情報工作，2007(3):95 －97，79

4．胡佳佳．《說文解字》語料庫的XML標注設(shè)計．社會科學(xué)論壇，2011(7):214－223

5．戴維民．語義網(wǎng)信息組織技術(shù)與方法．上海:學(xué)林出版社，2008:13

6．尉遲治平．漢語信息處理和計算機輔助漢語史研究．語言研究，2004(3):7－10

7．馬創(chuàng)新，陳小荷．基于XML的《論語》與其注疏文獻對齊語料庫的知識表示．圖書情報知識，2013(1):107－113

8．姚伯岳等．古籍元數(shù)據(jù)標準的設(shè)計及其系統(tǒng)實現(xiàn)．大學(xué)圖書館學(xué)報，2003(1):17－21

9．山川，羅晨光．XML著錄古籍元數(shù)據(jù)初探．圖書館工作與研究，2007(6):53－56

10．吳琴霞，劉永革．基于XML/Schema甲骨文語料庫語料標注的研究．科學(xué)技術(shù)與工程，2009(17):5185－5188

11．石民，李斌，陳小荷．基于CRF的先秦漢語分詞標注一體化研究．中文信息學(xué)報，2010(2):39－45

12．于麗麗等．基于條件隨機場的古漢語詞義消歧研究．微電子學(xué)與計算機，2009(10):45－48

13．段磊，韓芳，宋繼華．古漢語雙字詞自動獲取方法的比較與分析．中文信息學(xué)報，2012(4):34－42

14．馬創(chuàng)新等．《論語》與其注疏文獻對齊語料庫的構(gòu)建．現(xiàn)代教育技術(shù)，2012(7):109－113

15．羅晨光，山川，王珊．基于本體的古籍知識庫建設(shè)初探．現(xiàn)代圖書情報技術(shù)，2007(4):8－11

16．谷建軍．基于敘詞表的中醫(yī)古籍文獻領(lǐng)域本體建模方法研究．中國中醫(yī)科學(xué)院博士論文，2006

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡