国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

敦煌文獻(xiàn)多模態(tài)語料庫建設(shè)初探

2018-03-01 06:51康寧陳冰云

康寧 陳冰云

[摘 要]基于敦煌文獻(xiàn)電子化、數(shù)字化所取得的成果,提出將敦煌文獻(xiàn)的轉(zhuǎn)錄文本和相關(guān)圖像資料以數(shù)字化手段按照統(tǒng)一的標(biāo)準(zhǔn)和格式整合成數(shù)據(jù)庫,即建設(shè)包含文獻(xiàn)文本數(shù)據(jù)及相關(guān)圖像的敦煌文獻(xiàn)多模態(tài)語料庫。據(jù)此探討敦煌文獻(xiàn)多模態(tài)語料庫的設(shè)計(jì)目標(biāo)與原則,以及語料庫維護(hù)、檢索和輸出多功能系統(tǒng)的開發(fā)。該語料庫的開發(fā)和建設(shè)既有利于研究人員從多個(gè)角度開展敦煌文獻(xiàn)語言文字研究,也可以應(yīng)用于中古漢語文獻(xiàn)的語言教學(xué),幫助學(xué)生進(jìn)行相關(guān)的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)。

[關(guān)鍵詞]敦煌文獻(xiàn);多模態(tài)語料庫;語料庫設(shè)計(jì);語料庫多功能系統(tǒng)

[中圖分類號(hào)]TP391 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1671-8372(2018)04-0110-05

On the construction of multi-modal corpus of Dunhuang literature

KANG Ning1, CHEN Bing-yun2

(1. School of Foreign Languages, Qingdao University of Science and Technology, Qingdao 266061, China; 2. Library, Qingdao University of Science and Technology, Qingdao 266061, China)

Abstract:Based on the electronic and digital achievements of Dunhuang literature, it is proposed to integrate the transcripts and relevant image data of Dunhuang literature into a database by means of digitization in accordance with the unified standard and format, that is to construct a multi-modal corpus of Dunhuang literature, which includes the transcribed texts of Dunhuang literature and the relevant images. And accordingly, the design principles and objectives of the corpus have been discussed, as well as the development of corpus multi-functional system, including corpus maintenance, corpus query and the output of analysis results. The development and construction of this corpus can be used not only in the linguistic study of Dunhuang literature, but also in the teaching of ancient Chinese, by which students can use the corpus data to carry out data-driven study.

Key words:Dunhuang literature; multi-modal corpus; corpus design; corpus multi-functional system

隨著計(jì)算機(jī)科學(xué)與技術(shù)和多媒體技術(shù)的發(fā)展,以及人們對語言活動(dòng)本質(zhì)的認(rèn)識(shí)不斷加深,多模態(tài)語料庫作為新一代語料庫應(yīng)運(yùn)而生。多模態(tài)語料庫包含了經(jīng)過掃描、轉(zhuǎn)錄、加工、標(biāo)注的文本語料,以及與該文本語料密切相關(guān)的圖像、音視頻等數(shù)據(jù)文件,建設(shè)多模態(tài)語料庫是為了采用實(shí)證的方法,對語言符號(hào)與非語言符號(hào)之間的相互作用進(jìn)行系統(tǒng)的研究[1]。嚴(yán)格來講,多模態(tài)語料庫已不再是傳統(tǒng)意義上的語料庫,傳統(tǒng)的語料庫一般只包含文本語料,而多模態(tài)語料庫則既包含文本語料又包含與其相關(guān)聯(lián)的多媒體文件。與其說它是語料庫(corpus),不如說是數(shù)據(jù)庫(Database)。事實(shí)上,許多國外多模態(tài)語料庫的命名并未采用傳統(tǒng)的“語料庫”一詞,而采用了“數(shù)據(jù)庫”的概念[2]。基于本文是對特定類別的敦煌石窟文獻(xiàn)資料的語言文字進(jìn)行研究,因此仍使用“語料庫”一詞,旨在對敦煌石窟文獻(xiàn)多模態(tài)語料庫建設(shè)提出一些建議和思考。同時(shí),基于樊錦詩教授提出的“把佛教文獻(xiàn)的研究與通過解讀石窟圖像來研究佛教信仰及思想的學(xué)者聯(lián)合起來,把兩個(gè)方向研究的成果結(jié)合起來,發(fā)揮各自的特長和優(yōu)勢”的倡議[3],也希望該敦煌文獻(xiàn)多模態(tài)語料庫的建設(shè)能夠?qū)Υ似鸬揭欢ǖ耐苿?dòng)作用。

一、敦煌文獻(xiàn)數(shù)據(jù)庫的建設(shè)現(xiàn)狀

敦煌文獻(xiàn)又稱敦煌遺書、敦煌文書、敦煌寫本,是對1900年發(fā)現(xiàn)于敦煌莫高窟一批書籍的總稱。該批文獻(xiàn)均為公元2—14世紀(jì)的古寫本和刻印本,蘊(yùn)藏著大量的政治、經(jīng)濟(jì)、文學(xué)、語言、音樂、舞蹈、宗教、民俗、軍事、科技以及中西交通等方面的信息,總數(shù)6萬余卷,目前由于歷史原因散落在世界各地。敦煌遺書兼具文物、文獻(xiàn)、文字三方面的研究價(jià)值,蘊(yùn)藏的研究信息量極為龐大[4],是研究我國中古時(shí)期社會(huì)全貌不可多得的一手資料。因此敦煌文獻(xiàn)數(shù)據(jù)庫建設(shè)一直以來受到國內(nèi)外學(xué)者、研究機(jī)構(gòu)及國際組織的高度重視,特別是進(jìn)入信息化時(shí)代以來,數(shù)字技術(shù)得到快速發(fā)展,建設(shè)高質(zhì)量的敦煌文獻(xiàn)數(shù)據(jù)庫成為可能,并且發(fā)展迅速。

韓春平教授將當(dāng)前涉及敦煌文獻(xiàn)的數(shù)據(jù)庫分為三種:單一型、復(fù)合型和智能型。單一型數(shù)據(jù)庫建設(shè)的時(shí)間較早,建成的數(shù)量較多,一般為目錄庫、影像庫或錄文庫,如上海師范大學(xué)方廣锠教授個(gè)人創(chuàng)建的“諸經(jīng)起訖”“英國敦煌遺書人名索引”,臺(tái)灣成功大學(xué)創(chuàng)建的《老子化胡經(jīng)》等特定敦煌文獻(xiàn)全文錄文數(shù)據(jù)庫,以及蘭州大學(xué)青年教師創(chuàng)建的“敦煌文獻(xiàn)中的佛教人物數(shù)據(jù)庫系統(tǒng)”等。單一型數(shù)據(jù)庫規(guī)模較小,結(jié)構(gòu)簡單,功能較少,一般為個(gè)人研究者開發(fā)。復(fù)合型數(shù)據(jù)庫規(guī)模較大,數(shù)據(jù)類型多樣,結(jié)構(gòu)復(fù)雜,功能大幅增多。最早的復(fù)合型數(shù)據(jù)庫被認(rèn)為是“國際敦煌項(xiàng)目”(IDP)專屬數(shù)據(jù)庫[5]。國際敦煌項(xiàng)目(IDP)創(chuàng)立于1994年,是一個(gè)國際合作組織,其目的在于在聯(lián)合各國共同建立網(wǎng)上數(shù)據(jù)庫,以促進(jìn)敦煌文獻(xiàn)資料和藏品的保護(hù)與研究。該項(xiàng)目由英國國家圖書館主持,中國、俄羅斯、法國、德國等國家圖書館和科研機(jī)構(gòu)共同參與。目前該數(shù)據(jù)庫收錄了5萬余件中亞刻本和印本以及3萬余件中國國家圖書館館藏敦煌文獻(xiàn)資源數(shù)據(jù)。用戶可以登錄中國國家圖書館的IDP主頁和英國國家圖書館IDP主頁,輸入題名、關(guān)鍵詞等信息進(jìn)行檢索查看。蘭州大學(xué)約于2000年推出綜合型敦煌學(xué)資料數(shù)據(jù)庫“敦煌學(xué)數(shù)字圖書館”,其中的敦煌文獻(xiàn)子庫由文獻(xiàn)目錄和影像兩部分構(gòu)成,入庫數(shù)據(jù)包括國家圖書館的館藏敦煌文獻(xiàn)、甘肅省內(nèi)藏品,以及英國、法國的部分藏品。

由陜西師范大學(xué)主持創(chuàng)建、陜西師范大學(xué)出版總社出版運(yùn)營的“敦煌文獻(xiàn)庫”于2016年8月正式上線,該庫是《漢籍?dāng)?shù)字圖書館》2.0版專庫之一,內(nèi)含兩個(gè)子庫,即目錄庫和圖版庫。目前已收錄7萬余條敦煌文獻(xiàn),50多萬個(gè)圖版。該庫最顯著的特色是圖版清晰,有的彩色圖版能夠充分展現(xiàn)敦煌文獻(xiàn)的原貌,為研究者提供詳盡的文獻(xiàn)信息。不足之處是目錄庫的信息過于簡略,且由于沒有文獻(xiàn)的錄文,不能進(jìn)行全文檢索,從而限制了文獻(xiàn)的利用價(jià)值。

智能型數(shù)據(jù)庫的代表成果當(dāng)屬北京愛如生數(shù)字化技術(shù)研究中心研制的“敦煌文獻(xiàn)庫”。該庫由北京大學(xué)教授劉俊文總纂,收錄了中國大陸和臺(tái)灣地區(qū)以及英、法、俄、德、日等國收藏的敦煌漢文文獻(xiàn)30000余件,分為佛書編(佛教經(jīng)卷)、遺書編(經(jīng)史子集四部典籍寫本)、文書編(官文書、私文書及寺院文書殘卷),以及根據(jù)原件照片或影本制成的高精度數(shù)碼影像。該數(shù)據(jù)庫配備了強(qiáng)大的檢索系統(tǒng)和完備的功能平臺(tái),圖文對照逐行可勘,而且可以進(jìn)行全文檢索。該庫于2006年啟動(dòng),計(jì)劃分5集上線,初集包含四部經(jīng)籍寫本、官私和寺院文書,共2882件,已于2009年上線;2—5集為佛經(jīng)寫本,共27000件,定于2020—2025年上線。此外,在2012年,由敦煌研究院和上海師范大學(xué)共同申報(bào)的國家社科基金重大招標(biāo)項(xiàng)目—“敦煌遺書數(shù)據(jù)庫建設(shè)”中標(biāo)。敦煌研究院項(xiàng)目組聯(lián)合浙江大學(xué)和蘭州大學(xué),重點(diǎn)集成和優(yōu)化各種類型的數(shù)據(jù)。該數(shù)據(jù)庫建設(shè)的目標(biāo)是向用戶提供高質(zhì)量的敦煌文獻(xiàn)的全文錄文,實(shí)現(xiàn)用戶與文獻(xiàn)的高清圖版進(jìn)行對照閱讀,同時(shí)提供詳細(xì)的目錄數(shù)據(jù)和大量的相關(guān)研究的文獻(xiàn)數(shù)據(jù)。上海師范大學(xué)的項(xiàng)目組旨在打造高端學(xué)術(shù)平臺(tái),從文物、文獻(xiàn)、文字三個(gè)層面采集所有敦煌文獻(xiàn)的各種知識(shí)點(diǎn),從不同角度展示平臺(tái)內(nèi)在的網(wǎng)狀知識(shí)結(jié)構(gòu)。數(shù)據(jù)庫的第一期工程已經(jīng)完成。

綜上可見,敦煌文獻(xiàn)數(shù)據(jù)庫的建設(shè)隨著計(jì)算機(jī)技術(shù)和數(shù)字化技術(shù)的發(fā)展而方興未艾,但已取得了顯著的成績,在文獻(xiàn)保護(hù)和研究方面做出了巨大貢獻(xiàn)。但通過調(diào)研也發(fā)現(xiàn),敦煌數(shù)據(jù)庫的建設(shè)尚缺乏系統(tǒng)理論語言學(xué)原則指導(dǎo)下建立的、面向敦煌文獻(xiàn)語言文字研究而創(chuàng)建的深加工研究型語料庫?,F(xiàn)有的敦煌文獻(xiàn)電子化、數(shù)字化工作取得的顯著成果,為建設(shè)這種深加工多模態(tài)語料庫提供了有利條件。

二、敦煌文獻(xiàn)多模態(tài)語料庫的設(shè)計(jì)目標(biāo)與原則

敦煌文獻(xiàn)出自于莫高窟,大部分為東晉至北宋初年的寫本,也包含少量的刻印本。寫本以漢文為主,也有以古代少數(shù)民族文字和西域文字如吐蕃文、回鶻文、于闐文、龜茲文、梵文等寫成的文本。因此敦煌文獻(xiàn)除了具有極高的史料價(jià)值外,還具有極為豐富的語言學(xué)價(jià)值。

敦煌文獻(xiàn)多模態(tài)語料庫的根本目標(biāo)是通過服務(wù)于敦煌文獻(xiàn)語言文字的研究,促進(jìn)中古漢語①的語音、詞匯、語法、句法、方言學(xué)、語用學(xué)及社會(huì)語言學(xué)方面的研究。因此,敦煌文獻(xiàn)多模態(tài)語料庫的建設(shè)目標(biāo)包括:

1.語料庫能夠提供典型、有代表性并且經(jīng)過權(quán)威??钡亩鼗臀墨I(xiàn)純文本語料,從而為中古漢語的語言學(xué)研究提供真實(shí)鮮活的語言實(shí)例。

2.語料庫能夠提供與敦煌文獻(xiàn)純文本語料相對應(yīng)的全文影像,便于研究者實(shí)時(shí)對照開展研究。通過使用掃描儀將入庫文獻(xiàn)掃描成圖像,使研究者在研究過程中可以快速定位到文獻(xiàn)的原版圖像,實(shí)現(xiàn)文本與圖像合二為一。

3.語料庫中的語料數(shù)據(jù)經(jīng)過元信息(包括文獻(xiàn)編目、館藏地、成書年代等)標(biāo)記、切詞、詞性與句法標(biāo)注等精細(xì)加工處理,提高研究的深度和廣度。

4.編制語料庫多功能檢索系統(tǒng),能夠根據(jù)研究目的導(dǎo)入所需要的文本語料和相應(yīng)圖像,按元數(shù)據(jù)標(biāo)記信息和詞性標(biāo)注信息進(jìn)行全文檢索,并能夠輸出統(tǒng)計(jì)和分析結(jié)果。

敦煌文獻(xiàn)可以用“浩如煙海”來形容,佛教文獻(xiàn)約占90%,涉及經(jīng)、律、論;非佛教文獻(xiàn)涵蓋面更廣,涉及經(jīng)、史、子、集和大量的官私文書等。要想實(shí)現(xiàn)上述目標(biāo)確實(shí)存在相當(dāng)大的難度,需要敦煌石窟文獻(xiàn)研究專家、中古漢語研究專家、語料庫語言學(xué)專家、計(jì)算語言學(xué)專家等各方面的共同努力。因此,在開發(fā)建設(shè)敦煌文獻(xiàn)多模態(tài)語料庫時(shí)應(yīng)遵循以下原則:

1.語料庫的設(shè)計(jì)和建設(shè)必須在現(xiàn)代語言學(xué)理論的指導(dǎo)下進(jìn)行,尤其是要充分利用語料庫語言學(xué)方面的最新理論和前沿技術(shù)。近年來,國外語料庫語言學(xué)理論和技術(shù)都得到了長足發(fā)展,這些都為本項(xiàng)目的順利實(shí)施奠定了一定的基礎(chǔ)。國內(nèi)也相繼建成了多個(gè)中古漢語文獻(xiàn)語料庫,如“中古漢語研究型語料庫”[6]、《論語》與其注疏文獻(xiàn)對齊語料庫[7]、“漢語史語料庫”[8]等,這些語料庫的建成為敦煌文獻(xiàn)多模態(tài)語料庫建設(shè)提供了寶貴的經(jīng)驗(yàn)。

2.入庫文獻(xiàn)的選擇必須遵循完整性原則。不采用傳統(tǒng)語料庫建設(shè)中隨機(jī)擇句或擇段的方式選擇語料,不論文獻(xiàn)長短都進(jìn)行全文收錄,確保古籍文獻(xiàn)的全貌;不要求語料庫規(guī)模和入庫語料追求“大而全”,反對不加選擇地簡單堆砌羅列所有文獻(xiàn)。

3.入庫文獻(xiàn)必須準(zhǔn)確,努力做到文獻(xiàn)“保真”。首先,入庫文獻(xiàn)須是經(jīng)過權(quán)威校勘過的文獻(xiàn),例如《敦煌社邑文書輯?!穂9]、《敦煌契約文書輯?!穂10]等。其次,入庫文獻(xiàn)須配有相對應(yīng)的高清圖像,便于研究者隨時(shí)比對。由于敦煌文獻(xiàn)大多為寫本,年代久遠(yuǎn),轉(zhuǎn)錄時(shí)會(huì)遇到異體字、生僻字、俗體字等特殊情況,高清圖像可以幫助研究者進(jìn)行辨識(shí)和分析,而這也正是本項(xiàng)目的優(yōu)勢所在。

4.語料庫設(shè)計(jì)須遵循開放性原則。敦煌文獻(xiàn)多模態(tài)語料庫應(yīng)該是一個(gè)開放的資源平臺(tái),它可以與其他系統(tǒng)、軟件關(guān)聯(lián)和配合,并可由其他軟件對其進(jìn)行修改、升級(jí)、組裝[6]4-5。因此應(yīng)采用國際統(tǒng)一的編碼體系和通用置標(biāo)語言。

5.入庫語料必須經(jīng)過深加工處理。由于當(dāng)前建立的中古漢語語料庫多沒有進(jìn)行分詞、標(biāo)注等深層加工,所以語料庫的整體使用價(jià)值難以充分體現(xiàn)。為使敦煌文獻(xiàn)的研究走向縱深,建設(shè)深加工的敦煌文獻(xiàn)語料庫十分必要。在這方面,我們可以參考南京師范大學(xué)承擔(dān)的國家社科基金重大課題“漢語史語料庫建設(shè)研究”所構(gòu)建的“信息處理用中古漢語分詞規(guī)范”的整體框架[11],詳見圖1[12]21。

三、敦煌文獻(xiàn)多模態(tài)語料庫多功能系統(tǒng)的開發(fā)

本文所倡導(dǎo)建立的敦煌文獻(xiàn)多模態(tài)語料庫并非單純文本和圖像的集合,我們還將開發(fā)該語料庫的檢索、維護(hù)和管理多功能系統(tǒng),使其具備良好的存儲(chǔ)、反饋、修正、檢索、統(tǒng)計(jì)、分析、結(jié)果輸出等性能,以便各領(lǐng)域研究人員都能從語料庫中獲取自己所需要的信息。其主要功能如圖 2[12]24所示。

多功能系統(tǒng)主要由三個(gè)模塊組成:語料庫維護(hù)、語料庫檢索、分析與結(jié)果輸出。

(一)語料庫維護(hù)系統(tǒng)

維護(hù)系統(tǒng)是面向管理員(通常是語料庫建設(shè)團(tuán)隊(duì)的技術(shù)人員,也可以是具有一定語料庫技術(shù)水平的用戶,即科研人員)的系統(tǒng),以便于維護(hù)和管理整個(gè)語料庫的內(nèi)容。主要功能有文獻(xiàn)文本和圖像的查詢、增刪,文獻(xiàn)和圖像元信息及語法標(biāo)注的編輯等。此外,該語料庫維護(hù)系統(tǒng)還擬實(shí)現(xiàn)對敦煌文獻(xiàn)文本語料的部分自動(dòng)勘校功能。由于語料庫創(chuàng)建時(shí)遵循開放性原則,從而增強(qiáng)了該語料庫的數(shù)據(jù)維護(hù)性。用戶在使用檢索系統(tǒng)和輸出系統(tǒng)時(shí),可將其使用體驗(yàn)反饋給語料庫管理員,以實(shí)現(xiàn)語料庫的即時(shí)維護(hù)和管理。

(二)語料庫檢索系統(tǒng)

檢索系統(tǒng)是面向各領(lǐng)域研究者(語料庫的最終用戶)的系統(tǒng),是為了研究者能順利訪問語料庫內(nèi)容,對其感興趣的語言現(xiàn)象進(jìn)行分析研究。為發(fā)揮語料庫的應(yīng)有價(jià)值,不管什么類型的語料庫都必須實(shí)現(xiàn)全文檢索,語料庫檢索功能越完備,語料庫的價(jià)值也就越高。多樣化的查詢條件能夠提升檢索系統(tǒng)的使用體驗(yàn)。敦煌文獻(xiàn)多模態(tài)語料庫的檢索系統(tǒng)具有五種主要的查詢方式(見圖2):。

1.按元信息標(biāo)記查詢。查詢條件為預(yù)設(shè)的文獻(xiàn)文本和圖像的元信息編碼。

2.按語法標(biāo)注信息查詢。查詢條件為預(yù)設(shè)的詞性、語義等語法信息編碼。

3.按邏輯查詢。查詢條件可選擇“和”“或” “是”“否”等邏輯語句,對元信息編碼和語法標(biāo)注信息編碼進(jìn)行組合查詢。

4.按正則表達(dá)式(regex)查詢。這是目前大多數(shù)語料庫檢索系統(tǒng)都支持的檢索方式,具有非常強(qiáng)的靈活性、邏輯性和功能性。

5.按通配符(wildcard)查詢。這是一種基于詞的底層模糊查詢,可結(jié)合正則查詢使用,使用戶快速定位自己感興趣的語言信息。

(三)分析與結(jié)果輸出系統(tǒng)

分析與結(jié)果輸出系統(tǒng)也是面向語料庫用戶的系統(tǒng),能幫助研究人員統(tǒng)計(jì)分析檢索結(jié)果,并能夠?qū)⒔Y(jié)果輸出到單獨(dú)文件,保存?zhèn)溆?。敦煌文獻(xiàn)多模態(tài)語料庫系統(tǒng)可將輸出結(jié)果以網(wǎng)頁形式(HTML)加以呈現(xiàn),并可保存為文本格式。

四、敦煌文獻(xiàn)多模態(tài)語料庫的應(yīng)用展望

時(shí)至今日,圍繞敦煌石窟和出土遺書的敦煌學(xué)研究早已發(fā)展成為一門國際性的顯學(xué)。經(jīng)過演變發(fā)展,敦煌學(xué)的研究范圍和內(nèi)容已經(jīng)拓展到五個(gè)分支領(lǐng)域:敦煌石窟考古、敦煌石窟文物保護(hù)、敦煌藝術(shù)(敦煌彩塑、壁畫、書法、音樂、舞蹈和建筑藝術(shù)等)、出土敦煌文獻(xiàn)(各種寫本和刻印本)和敦煌學(xué)理論。其中敦煌文獻(xiàn)的研究領(lǐng)域最大,涉及天文、地理、政治、哲學(xué)、宗教、文學(xué)、語言、文字、藝術(shù)等諸多方面,其研究方法多樣,成果也最多。敦煌文獻(xiàn)時(shí)間跨度較長、覆蓋領(lǐng)域廣,蘊(yùn)含了豐富的知識(shí)內(nèi)容,以往對敦煌文獻(xiàn)語言學(xué)方面的研究多基于文本細(xì)讀這種古籍利用方法,對文獻(xiàn)中知識(shí)內(nèi)容的理解有較為深刻的把握。若能借助語料庫語言學(xué)的方法與技術(shù),則可以將文獻(xiàn)所蘊(yùn)含的各種語言知識(shí)與使用規(guī)律變得更加清晰、直觀。然而,基于語料庫方法的研究尚不多見。

本文倡導(dǎo)建立的敦煌文獻(xiàn)多模態(tài)語料庫可通過服務(wù)于敦煌文獻(xiàn)語言文字的研究,來促進(jìn)中古漢語的語音、詞匯、語法、句法、方言學(xué)、語用學(xué)及社會(huì)語言學(xué)方面的研究。

首先,由于入庫文獻(xiàn)的轉(zhuǎn)錄文本和實(shí)物圖像都經(jīng)過精加工處理,并支持多種檢索方式,所以研究人員可以利用檢索結(jié)果進(jìn)行多角度的語言學(xué)研究。例如對文獻(xiàn)中典型的句法、特定詞匯的研究,對不同類別文獻(xiàn)、不同時(shí)期文獻(xiàn)或不同作者文獻(xiàn)的語言風(fēng)格進(jìn)行對比研究等。

其次,該語料庫在中古漢語文獻(xiàn)的語言教學(xué)方面也可以發(fā)揮作用。譬如,教師可以利用語料庫向?qū)W生展示某些特定語法范疇、詞匯在敦煌文獻(xiàn)中的使用實(shí)例,而學(xué)生也可以利用該語料庫進(jìn)行數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),因?yàn)檎Z料庫本身就是一個(gè)真實(shí)的語境。

再次,有學(xué)者設(shè)想能將古籍語料庫中耗時(shí)、耗力的校勘工作,對比語料庫中的字、詞匯及語法等對古籍文獻(xiàn)進(jìn)行部分輯校[13],提高古籍文獻(xiàn)的校勘效率。這個(gè)想法有實(shí)現(xiàn)的可能。敦煌文獻(xiàn)多模態(tài)語料庫維護(hù)系統(tǒng)的開發(fā)設(shè)計(jì)中已考慮這一功能,但技術(shù)上需要計(jì)算語言學(xué)技術(shù)、計(jì)算機(jī)技術(shù),甚至人工智能技術(shù)的支持。

五、結(jié)語

中古漢語語料庫的建設(shè)在我國大陸及港臺(tái)地區(qū)都積累了不少經(jīng)驗(yàn),古漢分詞規(guī)范得到進(jìn)一步細(xì)化,分詞一致性和自動(dòng)分詞的正確率也在逐步提高,尤其在中古時(shí)期專書、詞匯、語法等方面的研究產(chǎn)生了一批優(yōu)秀成果。然而由轉(zhuǎn)錄文本與相應(yīng)的高清影像集合而成的多模態(tài)語料庫尚不多見,這種語料庫無疑對于研究中國古籍文獻(xiàn)具有更重要的意義。本文嘗試探討建設(shè)敦煌文獻(xiàn)多模態(tài)語料庫,開發(fā)語料庫檢索、維護(hù)系統(tǒng),可以預(yù)見在建庫和開發(fā)過程中,還有很多技術(shù)上以及對文獻(xiàn)本身理解上的難題需要克服。但隨著計(jì)算機(jī)、計(jì)算語言學(xué)、語料庫語言學(xué)、語言智能等方面技術(shù)的不斷發(fā)展,加上各方面專家的共同努力,一定能夠建成一個(gè)數(shù)據(jù)完整、圖文對照、檢索功能完善的多模態(tài)敦煌文獻(xiàn)語料庫。

[參考文獻(xiàn)]

[1]Valentini C. Forlixt 1 - The Forlì corpus of screen translation: exploring microstructures [M]// Chiaro D, Heiss C, Bucaria C. Between Text and Image: Updating Research in Screen Translation. Amsterdam/Philadelphia: John Benjamins, 2008: 37-50.

[2]劉劍.國外多模態(tài)語料庫建設(shè)及相關(guān)研究述評[J].外語教學(xué),2017(4):40-45.

[3]樊錦詩.關(guān)于敦煌石窟研究的一些思考[J].中國史研究,2009(3):91-94.

[4]方廣锠,朱雷.談敦煌遺書數(shù)據(jù)庫[J].敦煌研究,2010(5):119-124

[5]韓春平.敦煌遺書數(shù)字化演進(jìn)史[N].中國社會(huì)科學(xué)報(bào),2017-06-28(007).

[6]董志翹.為中古漢語研究夯實(shí)基礎(chǔ)—“中古漢語研究型語料庫”建設(shè)瑣議[J].燕山大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2011(1):1-6.

[7]馬創(chuàng)新,陳小荷.基于XML的《論語》與其注疏文獻(xiàn)對齊語料庫的知識(shí)表示[J].圖書情報(bào)知識(shí),2013(1):107-113.

[8]趙紅.吐魯番文獻(xiàn)與漢語語料庫建設(shè)的若干思考[J].南京師范大學(xué)文學(xué)院學(xué)報(bào),2014(3):155-158.

[9]寧可.敦煌社邑文書輯校[M].南京:江蘇古籍出版社出版,1997.

[10]沙知.敦煌契約文書輯校[M].南京:江蘇古籍出版社出版,1998.

[11]化振紅.深加工中古漢語語料庫建設(shè)的若干問題[J].西南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014(3):136-142,184.

[12]王曉玉.中古漢語語料庫的設(shè)計(jì)與實(shí)現(xiàn)[J].辭書研究,2017(3):17-26.

[13] 楊賢林.古籍整理中數(shù)字化技術(shù)的應(yīng)用實(shí)踐與展望[J].圖書館學(xué)刊,2014(3):51-53.

方正县| 青川县| 南华县| 玉门市| 永胜县| 西峡县| 化德县| 怀安县| 松滋市| 蒙自县| 唐山市| 乐清市| 茶陵县| 荔浦县| 台东县| 嘉定区| 崇义县| 南安市| 大石桥市| 马鞍山市| 庆元县| 萝北县| 启东市| 宜黄县| 如皋市| 南郑县| 黄石市| 稷山县| 潮安县| 西丰县| 乐业县| 定州市| 连州市| 吐鲁番市| 常德市| 都安| 手机| 水富县| 申扎县| 武隆县| 汝州市|