江 荻, 龍從軍
(1. 江蘇師范大學(xué) 漢語(yǔ)和漢藏語(yǔ)研究中心,江蘇 徐州 221116;2. 中國(guó)社會(huì)科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 3. 中國(guó)社會(huì)科學(xué)院大學(xué) 文學(xué)院,北京 100081)
民族語(yǔ)言屬于低資源語(yǔ)言,隨著社會(huì)經(jīng)濟(jì)的發(fā)展,其越來(lái)越成為一種稀缺資源。然而語(yǔ)言是文化的傳承載體,多樣的民族語(yǔ)言承載了多樣的文化類型。珍貴的民族語(yǔ)雙語(yǔ)對(duì)譯文本數(shù)據(jù)為民族語(yǔ)言文化傳承保護(hù)和跨學(xué)科研究提供了豐富的素材。
中華人民共和國(guó)成立以來(lái),我國(guó)學(xué)者發(fā)表了大批民族語(yǔ)言研究成果,包括研究論文、個(gè)人專著、系列叢書(shū)和辭書(shū)?!睹褡逭Z(yǔ)文》是刊發(fā)民族語(yǔ)言研究成果的主要陣地。自1979年創(chuàng)刊到2023年3月刊發(fā)文章3528篇。一些大學(xué)學(xué)報(bào)、語(yǔ)言學(xué)期刊、論文集、零星出版的個(gè)人專著以及系列叢書(shū)是民族語(yǔ)言數(shù)據(jù)的重要來(lái)源。尤其需要強(qiáng)調(diào)的是民族語(yǔ)言學(xué)界5套規(guī)模宏大的叢書(shū),分別是《中國(guó)少數(shù)民族語(yǔ)言簡(jiǎn)志》叢書(shū)(57部)、《新發(fā)現(xiàn)語(yǔ)言研究》叢書(shū)(48部)、《中國(guó)瀕危語(yǔ)言志》少數(shù)民族語(yǔ)言系列叢書(shū)(20部)、《中國(guó)少數(shù)民族語(yǔ)言參考語(yǔ)法研究系列叢書(shū)》(13部)和《中國(guó)少數(shù)民族語(yǔ)言系列詞典叢書(shū)》(23種)。這些紙質(zhì)出版物中的數(shù)據(jù)大體都采用了隔行對(duì)譯方法,以民族語(yǔ)言和國(guó)家通用文字隔行對(duì)譯的方式呈現(xiàn)。然而,由于受民族語(yǔ)言文本自身特點(diǎn)以及民族語(yǔ)言信息技術(shù)發(fā)展緩慢和研究群體規(guī)模小等的條件限制,當(dāng)前對(duì)這些大規(guī)模數(shù)據(jù)進(jìn)行整理,制作成語(yǔ)料庫(kù),實(shí)現(xiàn)自由檢索還存在較大困難。尤其是20世紀(jì)中后期大量民族語(yǔ)言專業(yè)文本以紙質(zhì)形式出版,后來(lái)有了PDF電子版,但是還未能滿足智慧檢索和二次開(kāi)發(fā)條件。2015年開(kāi)始實(shí)施的“中國(guó)語(yǔ)言保護(hù)工程”項(xiàng)目,實(shí)行按照隔行對(duì)照模式標(biāo)注和存儲(chǔ)民族語(yǔ)言數(shù)據(jù),具備了進(jìn)一步開(kāi)發(fā)應(yīng)用的基礎(chǔ)。但到目前為止,長(zhǎng)篇語(yǔ)料的隔行標(biāo)注文本還未見(jiàn)在線發(fā)布。可見(jiàn),以國(guó)際音標(biāo)為轉(zhuǎn)寫(xiě)形式的在線檢索的民族語(yǔ)言標(biāo)注文本數(shù)據(jù)資源十分缺乏。
隨著信息技術(shù)的發(fā)展,一些有傳統(tǒng)文字文獻(xiàn)的民族語(yǔ)言在線隔行標(biāo)注文本資源建設(shè)有一定的進(jìn)展。例如龍從軍等發(fā)布系列藏文古文獻(xiàn)隔行對(duì)照標(biāo)注語(yǔ)料庫(kù),(1)中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所多文種隔行標(biāo)注語(yǔ)料庫(kù)[DB/OL].http://106.13.43.240.8021/,訪問(wèn)時(shí)間:2023-06-03.該語(yǔ)料庫(kù)包括吐蕃時(shí)期的藏文金銘石刻27件文獻(xiàn)、《拔協(xié)》《韋協(xié)》《柱間史》《底吾史記》等著名典籍的全文隔行標(biāo)注語(yǔ)料。
在國(guó)際上,人類學(xué)和民族語(yǔ)言學(xué)者一直提倡和踐行民族語(yǔ)言隔行標(biāo)注語(yǔ)料的制作和使用。一些非營(yíng)利的社會(huì)組織以在線形式,開(kāi)展全世界民族語(yǔ)言資源積累,其中也有一部分隔行標(biāo)注文本,如SIL International(SIL)長(zhǎng)期致力于世界上民族語(yǔ)言數(shù)據(jù)的收集、整理和研究,(2)Endangered Languages Project[DB/OL].https://www.sil.org/.,訪問(wèn)時(shí)間:2023-06-03.馬克斯·普朗克人類認(rèn)知和神經(jīng)科學(xué)研究所為了給語(yǔ)言學(xué)家和研究人員提供各種語(yǔ)言學(xué)數(shù)據(jù)的資源庫(kù),主持了The Language Archive(TLA)(3)The Language Archive [DB/OL].https://tla.mpi.nl/.,訪問(wèn)時(shí)間:2023-06-03.和The Endangered Languages Project(4)Endangered Languages Project [DB/OL].https://www.endangeredlanguages.com/.,訪問(wèn)時(shí)間:2023-06-03.等項(xiàng)目,這些研究促進(jìn)了民族語(yǔ)言隔行標(biāo)注文本制作,但是收錄的語(yǔ)種數(shù)量和文本規(guī)模還非常有限,尤其是涉及我國(guó)境內(nèi)民族語(yǔ)言的標(biāo)注文本就更少了。
互聯(lián)網(wǎng)技術(shù)改變了人們獲取資源的方式,“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國(guó)是國(guó)家信息化戰(zhàn)略的重要組成部分”(5)宋繼華,張曼,何春.教育數(shù)字化轉(zhuǎn)型與國(guó)際中文教育數(shù)字生態(tài)建設(shè)[J].云南師范大學(xué)學(xué)報(bào)(對(duì)外漢語(yǔ)教學(xué)與研究版),2023,(5).,檢索數(shù)據(jù)資源成為專家學(xué)者和普通使用者的一種期盼。結(jié)構(gòu)化在線語(yǔ)言數(shù)據(jù)又是基于大數(shù)據(jù)分析、人工智能的基礎(chǔ),傳統(tǒng)紙質(zhì)載體的民族語(yǔ)言數(shù)據(jù)逐漸會(huì)通過(guò)數(shù)字人文技術(shù)實(shí)現(xiàn)電子化和文本化。把具有規(guī)范化、標(biāo)準(zhǔn)化的民族語(yǔ)言標(biāo)注文本實(shí)現(xiàn)在線檢索,會(huì)對(duì)民族語(yǔ)言研究有極大的推動(dòng)作用。由中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所主持完成的《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》叢書(shū),以呈現(xiàn)長(zhǎng)篇語(yǔ)料為核心,通過(guò)國(guó)際音標(biāo)轉(zhuǎn)寫(xiě)原文,并按照原文行、標(biāo)注行、翻譯行3行對(duì)照的形式,對(duì)藏、彝、哈尼、納西、土家、白、壯、黎、水、維吾爾、佤、獨(dú)龍等民族的傳統(tǒng)口傳故事、族群起源傳說(shuō)、日??谡Z(yǔ)對(duì)話、兒童或寓言故事文本進(jìn)行了語(yǔ)法標(biāo)注。這種語(yǔ)料處理范式對(duì)語(yǔ)言類型學(xué)、歷史語(yǔ)言學(xué)、區(qū)域語(yǔ)言學(xué)、語(yǔ)言接觸研究等資源依賴型學(xué)科有重要的價(jià)值,也為從事民族學(xué)、人類學(xué)、歷史學(xué)和自然語(yǔ)言處理的學(xué)者提供必備的資源。該叢書(shū)目前已出版兩集20部,其作為小語(yǔ)種低資源真實(shí)文本語(yǔ)料具有重要的研究?jī)r(jià)值和應(yīng)用價(jià)值,且規(guī)模已達(dá)千萬(wàn)字?jǐn)?shù)以上,引起了國(guó)內(nèi)外廣泛重視。但紙質(zhì)版的語(yǔ)言資源是一種靜態(tài)資源,以著作形態(tài)呈現(xiàn),無(wú)法提供數(shù)據(jù)自由索引,不能實(shí)現(xiàn)文本多功能動(dòng)態(tài)檢索和統(tǒng)計(jì),因此實(shí)際使用效率較低。為解決這樣的現(xiàn)實(shí)問(wèn)題,國(guó)家社會(huì)科學(xué)基金規(guī)劃辦組織專家開(kāi)展論證,同意設(shè)立相應(yīng)選題破解這樣的難題,使珍稀的民族語(yǔ)言文化資源面向?qū)W術(shù)和社會(huì),為更廣泛的語(yǔ)言知識(shí)、語(yǔ)言認(rèn)知、語(yǔ)言教學(xué)、語(yǔ)言文化認(rèn)同和語(yǔ)言信息處理等學(xué)科提供優(yōu)質(zhì)服務(wù)。(6)近年,學(xué)者們多角度提出少數(shù)民族語(yǔ)言的保護(hù)和應(yīng)用。參見(jiàn):范俊軍.瀕危語(yǔ)言數(shù)字博物館建設(shè)綜論[J].博物館管理,2022,(4).本文著重討論這部分資源的應(yīng)用技術(shù)實(shí)現(xiàn)問(wèn)題。
《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》叢書(shū)于2010年獲中國(guó)社會(huì)科學(xué)院重大課題立項(xiàng),2012年獲國(guó)家社會(huì)科學(xué)基金重大招標(biāo)課題支持,先后入選2015年度(第一批)和2019年度(第二批)國(guó)家出版基金資助項(xiàng)目,并被列為“十二五”“十三五”國(guó)家重點(diǎn)圖書(shū)出版規(guī)劃項(xiàng)目。參與該項(xiàng)目科研人員30余人,涉及國(guó)內(nèi)侗臺(tái)、苗瑤、藏緬、南亞、阿爾泰等多個(gè)語(yǔ)系語(yǔ)族語(yǔ)言和方言,目前已出版20部,具體是:藏語(yǔ)拉薩話、土家語(yǔ)龍山話、哈尼語(yǔ)綠春話、白語(yǔ)大理話、藏語(yǔ)甘孜話、嘉戎語(yǔ)卓克基話、壯語(yǔ)武鳴話、納木茲語(yǔ)木里話、水語(yǔ)苗草話、維吾爾語(yǔ)烏魯木齊話、哈尼語(yǔ)窩尼話、義都語(yǔ)西巴話、達(dá)讓語(yǔ)察隅話、多續(xù)語(yǔ)冕寧話、藏語(yǔ)噶爾話、彝語(yǔ)涼山話、獨(dú)龍語(yǔ)孔當(dāng)話、納西語(yǔ)大研鎮(zhèn)話、黎語(yǔ)白沙話、佤語(yǔ)巖帥話,總字?jǐn)?shù)約為1000萬(wàn)字。(7)江荻.中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本叢書(shū)[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016;江荻,燕海雄,黃行.中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本叢書(shū)[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2019.
該叢書(shū)的編撰思想和學(xué)術(shù)價(jià)值是多方面的,這是中華人民共和國(guó)成立以來(lái)第一次以大規(guī)模真實(shí)文本方式開(kāi)展的語(yǔ)言調(diào)查研究,相當(dāng)程度上改變了數(shù)十年形成的語(yǔ)言調(diào)查和語(yǔ)法研究模式。按照項(xiàng)目設(shè)計(jì)方案,文本叢書(shū)的具體內(nèi)容包括民間傳統(tǒng)口傳故事、族群起源神話傳說(shuō)、兒童或寓言故事、日??谡Z(yǔ)對(duì)話等。這些文本資源一方面有相當(dāng)高的口語(yǔ)性和真實(shí)性,同時(shí)也具有一定的文化積累性和相應(yīng)的文學(xué)水平,是相當(dāng)難得的民族性、文學(xué)性文化資源,對(duì)于從事民族學(xué)、社會(huì)學(xué)、人類學(xué)、歷史學(xué)、語(yǔ)言學(xué)和其他學(xué)術(shù)研究的學(xué)者都有重要參考價(jià)值。而項(xiàng)目記錄形式對(duì)語(yǔ)言學(xué)本體研究也十分重要,一是涉及語(yǔ)言廣泛,二是采用了國(guó)際通行的小語(yǔ)種隔行對(duì)照化標(biāo)注文本模式,其目的是為民族語(yǔ)言研究和創(chuàng)建中國(guó)語(yǔ)言理論提供豐富的基礎(chǔ)材料。叢書(shū)的學(xué)術(shù)價(jià)值和特征主要體現(xiàn)在以下3個(gè)方面。
1. 以標(biāo)注文本為核心的創(chuàng)新范式。中國(guó)民族語(yǔ)言領(lǐng)域內(nèi),以往傳統(tǒng)觀念總是把記錄語(yǔ)料作為語(yǔ)法著作的附錄,數(shù)量少且處于附屬地位。這套叢書(shū)直接將標(biāo)注文本作為正文主體,語(yǔ)音、詞匯和語(yǔ)法導(dǎo)論作為閱讀文本標(biāo)注體系的參考。這樣的設(shè)計(jì)甚至比時(shí)興的“參考語(yǔ)法”更為超前,目的就是讓語(yǔ)言概況或語(yǔ)法導(dǎo)論服務(wù)于大規(guī)模語(yǔ)法標(biāo)注資源,接受真實(shí)文本資源的測(cè)試和檢驗(yàn)。這種創(chuàng)新研制思路開(kāi)拓了語(yǔ)言研究的新方向,跟學(xué)界倡導(dǎo)的記錄語(yǔ)言學(xué)不謀而合。(8)黃成龍,李云兵,王鋒.紀(jì)錄語(yǔ)言學(xué):一門新興交叉學(xué)科[J].語(yǔ)言科學(xué),2011,(3).更具價(jià)值的是,叢書(shū)作者所采錄的文本大多來(lái)自田野調(diào)查,或來(lái)自民間記錄故事,與以往的例句翻譯式調(diào)查或誘導(dǎo)式例句調(diào)查相比,這樣的語(yǔ)料從本源上避免了主觀性,甚至杜絕了母語(yǔ)人自身的內(nèi)省式語(yǔ)法案例。從方法論上看,如果以真實(shí)文本為語(yǔ)料的研究能推動(dòng)學(xué)術(shù)界重視和形成描寫(xiě)語(yǔ)言研究范式,這樣的創(chuàng)新是非常有價(jià)值的。
2. 以基本語(yǔ)法結(jié)構(gòu)為基礎(chǔ)標(biāo)準(zhǔn)的依據(jù)。建立語(yǔ)法描寫(xiě)的基本標(biāo)準(zhǔn),這是基于項(xiàng)目為語(yǔ)言專題深度研究提供支撐的服務(wù)理念設(shè)計(jì)。我們從三方面加以說(shuō)明。首先,我們認(rèn)為新近發(fā)展的一些語(yǔ)言分支學(xué)科具有資源依賴性質(zhì),例如語(yǔ)言類型學(xué)一般是跨語(yǔ)言或跨方言的,語(yǔ)言接觸研究也需要雙語(yǔ)或多語(yǔ)資源的支持。對(duì)于無(wú)文字語(yǔ)言,它們的語(yǔ)法化或詞匯化研究更需要親屬語(yǔ)言的相互印證。至于機(jī)器翻譯也一定是在雙語(yǔ)或多語(yǔ)語(yǔ)料相互對(duì)照條件下才能開(kāi)展起來(lái)的。其次,叢書(shū)包含藏緬語(yǔ)言、侗臺(tái)語(yǔ)言、苗瑤語(yǔ)言、南亞語(yǔ)言以及阿爾泰語(yǔ)言,類型差異很大,譬如有的語(yǔ)言是SVO語(yǔ)序,有的則是SOV語(yǔ)序;有的是前置詞系統(tǒng),而有的則是后置詞(詞格)系統(tǒng)等等。特別是目前各語(yǔ)言研究的廣度和深度差異較大,采納的理論和研究的方法也不完全相同,為此,確定一個(gè)簡(jiǎn)潔的基本結(jié)構(gòu)方法或描寫(xiě)方法對(duì)文本進(jìn)行基礎(chǔ)語(yǔ)法標(biāo)注是合適的。其三,學(xué)有所長(zhǎng),術(shù)有專攻。真正利用這套叢書(shū)語(yǔ)料的學(xué)者未必熟悉各種語(yǔ)言,更不可能很快掌握這些陌生語(yǔ)言的語(yǔ)法體系,要求每個(gè)學(xué)者都調(diào)查多種語(yǔ)言、掌握多種語(yǔ)言并不現(xiàn)實(shí),也沒(méi)必要。在這個(gè)意義上,我們組織專業(yè)人員開(kāi)發(fā)可供其他學(xué)者開(kāi)展專題深入研究的文本資源,特別是熟語(yǔ)語(yǔ)料語(yǔ)法標(biāo)注文本就非常有價(jià)值。顯然,從以上敘述可以看出,基礎(chǔ)標(biāo)注就是無(wú)論某語(yǔ)言是何種類型,無(wú)論某語(yǔ)言研究的深度如何,這套叢書(shū)都以基本語(yǔ)法結(jié)構(gòu)框架來(lái)標(biāo)注各種語(yǔ)言的詞法形態(tài)和句法現(xiàn)象,例如“性、數(shù)、格、時(shí)、體、態(tài)”范疇,同時(shí)標(biāo)上通用語(yǔ)對(duì)譯詞語(yǔ)。值得提示的是,這套叢書(shū)的作者都是各自民族語(yǔ)言領(lǐng)域的專家,他們對(duì)語(yǔ)言的結(jié)構(gòu)描寫(xiě)和基礎(chǔ)標(biāo)注為讀者提供了一個(gè)了解該語(yǔ)言的高起點(diǎn)平臺(tái)。
3. 適用于真實(shí)文本資源的科學(xué)體系。叢書(shū)具體處理方法上采用了兩種可行技術(shù),一是國(guó)際小語(yǔ)種通行的隔行對(duì)照(Interlinearization),即將民族語(yǔ)(小語(yǔ)種)跟通用語(yǔ)(如漢語(yǔ)或英語(yǔ))分行書(shū)寫(xiě),同時(shí)又使兩種語(yǔ)言的詞語(yǔ)和語(yǔ)法符號(hào)之間分行對(duì)齊。這種方法是目前世界各國(guó)學(xué)者研究少數(shù)族群語(yǔ)言的主流方法,通過(guò)隔行對(duì)照化形成一種語(yǔ)言學(xué)家或語(yǔ)言學(xué)專業(yè)研究生都能讀懂的文本,即三行一體隔行對(duì)照化文本。(9)德國(guó)Lincom GmbH出版社連續(xù)多年資助出版世界各地小語(yǔ)種學(xué)術(shù)著作,其中特別設(shè)立Languages of the World/Text Collections系列,幫助語(yǔ)言調(diào)查者出版小語(yǔ)種標(biāo)注,即本文所說(shuō)隔行對(duì)照化標(biāo)注文本。例如Tikaram Poudel 2006年出版了Rajbanshi Grammar and Interlinearized Text(尼泊爾和孟加拉的一種印度-亞利安語(yǔ)言);Karnakhar Khatiwada 2017年在Lincom: Europa公司出版了A Reference Grammar of Dhimal描寫(xiě)著作,這是尼泊爾東南部一種瀕危的藏緬語(yǔ);后又單獨(dú)出版了Interlinearized texts in Dhimal with Grammar notes(戴瑪語(yǔ)隔行對(duì)照化語(yǔ)法標(biāo)注文本)。迄今,該出版社已出版500余種小語(yǔ)種語(yǔ)言著作,包括部分隔行對(duì)照化語(yǔ)法標(biāo)注對(duì)齊技術(shù)的文本。例如嘉戎語(yǔ)(本例有韻律行,某些語(yǔ)言可能有文字行):
韻律行:161t?wam?e?e?ikoj原文行:t?wam?e?ê?ik?j分析行:t?-wam=?e?ê?ik?=j標(biāo)注行:N-熊=PL樹(shù)上=LOC
韻律行:162...t?wik?z??tipt?er?原文行:t?wik?za?tipt?êr?分析行:t?-wik?-za-?=tipt?êr?標(biāo)注行:N-橡實(shí)NMZL-吃1-2/3PL=TOP:OBL然后翻譯行:161~162老熊在樹(shù)上吃橡實(shí)的時(shí)候
觀察上述嘉戎語(yǔ)例句可知,韻律行包括輕重音、聲調(diào)或句調(diào)、停頓和延長(zhǎng)等韻律要素,分析行可能將詞根、前后詞綴等切分出來(lái)呈現(xiàn),標(biāo)注行則采用通語(yǔ)文字和語(yǔ)法標(biāo)注符號(hào)逐詞逐符對(duì)分析行進(jìn)行標(biāo)注,翻譯行是全句的直譯,有時(shí)會(huì)包括多個(gè)韻律行短語(yǔ)小句。
語(yǔ)言學(xué)是世界通行的一門學(xué)術(shù)領(lǐng)域和體系,語(yǔ)言學(xué)研究水平表征著一個(gè)國(guó)家科學(xué)研究的軟實(shí)力。如果中國(guó)語(yǔ)言資源能獲得廣泛應(yīng)用,成為學(xué)術(shù)界和社會(huì)各界的公共產(chǎn)品,則必定推動(dòng)中國(guó)語(yǔ)言學(xué)的進(jìn)步和發(fā)展,也凸顯出這類資源的價(jià)值和作用。這個(gè)目標(biāo)是我們推進(jìn)本項(xiàng)目資源檢索應(yīng)用的主要?jiǎng)恿Α?/p>
《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》叢書(shū)采用統(tǒng)一書(shū)稿體例,每?jī)?cè)內(nèi)容分3個(gè)部分:語(yǔ)法導(dǎo)論、文本標(biāo)注和索引詞表??紤]到文本標(biāo)注是隔行對(duì)照形式,雖然這3部分的內(nèi)容和格式可分別采用不同檢索策略,但在保持輸出風(fēng)格一致基礎(chǔ)上,主要檢索結(jié)果都將是基于Lucene原理(全文檢索引擎框架)的TXT與相應(yīng)PDF(非結(jié)構(gòu)化數(shù)據(jù))雙文本全文檢索技術(shù),即對(duì)TXT文本建立索引,又通過(guò)將TXT文本檢索實(shí)現(xiàn)為PDF顯示輸出方式。
圖1呈現(xiàn)了本文數(shù)據(jù)采錄、存儲(chǔ)、分析和輸出展示功能框架。數(shù)據(jù)庫(kù)部分用于存儲(chǔ)語(yǔ)法標(biāo)注文本中的語(yǔ)料資源,包括原始語(yǔ)料資源的處理過(guò)程以及存儲(chǔ)方式,也是整體框架里的數(shù)據(jù)錄入部分。數(shù)據(jù)分析部分則主要用于對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)進(jìn)行分析,由于后續(xù)需要不斷擴(kuò)充此部分的功能,所以采用模塊化的方法,并且提供相應(yīng)的數(shù)據(jù)接口,供數(shù)據(jù)平臺(tái)調(diào)用。而用戶交互部分則可以理解為用戶所看到的界面。另外我們還會(huì)單獨(dú)設(shè)計(jì)一個(gè)數(shù)據(jù)展示平臺(tái),在該部分中,靈活性和可擴(kuò)展性是我們主要考慮的問(wèn)題。該部分主要用于顯示檢索到的數(shù)據(jù)內(nèi)容,同時(shí)對(duì)檢索到的內(nèi)容進(jìn)行分析并將分析結(jié)果以可視化的方式展示出來(lái)。
圖1 線上系統(tǒng)整體框架
按照叢書(shū)統(tǒng)一的存儲(chǔ)方式,也可以按照具體內(nèi)容來(lái)敘述文本的檢索方法。檢索結(jié)果以檢索詞的高亮方式顯示。
1. 語(yǔ)法知識(shí)檢索。該檢索針對(duì)“語(yǔ)法導(dǎo)論”部分,檢索輸入內(nèi)容是通用語(yǔ)的語(yǔ)音、詞匯、形態(tài)和語(yǔ)法術(shù)語(yǔ),也可以是語(yǔ)法范疇或者語(yǔ)法特征標(biāo)記符號(hào),例如“ASP”表示“體”范疇。也可以通過(guò)二級(jí)詞匯術(shù)語(yǔ)精準(zhǔn)檢索,例如“第三人稱單數(shù)”(3sg),或者“ASPPEF”(體已行體)。輸出結(jié)果一般是包含“語(yǔ)法導(dǎo)論”中該檢索詞條的文本行以及前后若干行文本。例如查找“韻律”得到數(shù)條結(jié)果:(10)局部摘取自:林幼菁.嘉戎語(yǔ)卓克基話語(yǔ)法標(biāo)注文本[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016:15.
2. 詞表檢索。每部標(biāo)注文本都帶有該語(yǔ)言所用民漢雙語(yǔ)對(duì)照詞匯表(民漢指民族語(yǔ)言和漢語(yǔ)),檢索設(shè)計(jì)上一般采用精確檢索方式,可以直接用漢語(yǔ)或者民族語(yǔ)言(音標(biāo)形式或文字的轉(zhuǎn)寫(xiě)形式)進(jìn)行檢索,輸出包含被檢索項(xiàng)所在頁(yè)碼的原書(shū)PDF文本雙語(yǔ)對(duì)照詞匯表。
3. 文本注釋詞語(yǔ)和語(yǔ)法特征檢索。該部分內(nèi)容是項(xiàng)目最主要的研究對(duì)象。設(shè)置三類檢索對(duì)象:通語(yǔ)注釋詞語(yǔ)(漢語(yǔ))、語(yǔ)法特征或語(yǔ)法標(biāo)注符號(hào)、民族語(yǔ)言詞形(音標(biāo)或轉(zhuǎn)寫(xiě)形式)。輸出部分則是包含被檢索項(xiàng)所在頁(yè)碼的整頁(yè)隔行對(duì)照化標(biāo)注文本。
4. 瀏覽檢索。系統(tǒng)列出原書(shū)目錄,允許點(diǎn)擊直接切入目錄內(nèi)容頁(yè)碼處,然后上下翻頁(yè)瀏覽前后3~5頁(yè)內(nèi)容。該項(xiàng)功能也適用于知識(shí)檢索、詞表檢索和文本語(yǔ)法特征檢索,即在檢索所達(dá)頁(yè)面上下翻頁(yè)瀏覽。瀏覽檢索能使用戶在一定篇幅內(nèi)閱讀連續(xù)文本,擴(kuò)大信息獲取范圍。
采用雙文本檢索和輸出雖然是技術(shù)實(shí)現(xiàn)上的需求,但也有一定的語(yǔ)用需求因素。換句話說(shuō),對(duì)整體紙質(zhì)版形式文獻(xiàn)進(jìn)行檢索在一定程度上受到原件的應(yīng)用心理制約。紙質(zhì)版資源呈現(xiàn)的格式給使用者留下了穩(wěn)定可靠的心理印象,是格式不變且可以信賴的資源查驗(yàn)標(biāo)準(zhǔn)。為此,資源的這種存儲(chǔ)形式使檢索設(shè)計(jì)者不得不滿足用戶可能存在的這種心理,也就是既要能夠檢索還要能夠與原版文獻(xiàn)對(duì)照。根據(jù)這樣的要求,檢索結(jié)果必然以原版文獻(xiàn)形式呈現(xiàn)。例如嘉戎語(yǔ)文獻(xiàn)中檢索POSS(領(lǐng)屬格標(biāo)記),呈現(xiàn)的原文如下:(11)本套叢書(shū)都設(shè)計(jì)了語(yǔ)法標(biāo)注代碼,這套代碼在檢索系統(tǒng)中具有重要作用。以下標(biāo)注文本來(lái)源于林幼菁.嘉戎語(yǔ)卓克基話語(yǔ)法標(biāo)注文本[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016:219.
檢索結(jié)果與書(shū)稿文獻(xiàn)保持著一致性,滿足了用戶對(duì)資源提取可靠性的要求,也釋放了用戶核對(duì)原文的壓力。這樣的設(shè)計(jì)思路具有較高的人文關(guān)懷和友好意圖。
1. 檢索方法與技術(shù)實(shí)現(xiàn)
依據(jù)需求設(shè)計(jì)思路,項(xiàng)目在檢索處設(shè)置了資源范圍和檢索域。資源范圍以20部專著目錄列表作為選擇對(duì)象,一次可以選擇一種或多種專著資源,也就是多種語(yǔ)言,通過(guò)點(diǎn)擊目錄實(shí)現(xiàn)選擇。檢索域指著作資源的三大板塊:語(yǔ)法知識(shí)檢索、詞表檢索、文本和標(biāo)注檢索。檢索域的區(qū)分實(shí)際是為了實(shí)現(xiàn)快速指向和精準(zhǔn)檢索,避免三大板塊檢索詞的相互干擾。同時(shí),由于原著檢索域格式的差異,分域檢索有利于檢索結(jié)果的呈現(xiàn)。
檢索結(jié)果以提示方式初步呈現(xiàn),用戶可進(jìn)入〈快速預(yù)覽〉直接查看包含該資源的原文形式,也可進(jìn)入〈查看原文〉瀏覽該檢索項(xiàng)所在原文頁(yè)碼及其上下多頁(yè)內(nèi)容(截圖略)。
檢索結(jié)果為用戶提供了接近于翻閱原書(shū)、同時(shí)又具備高度信息化功能的閱讀體驗(yàn)。展示頁(yè)面允許用戶縮放原書(shū),位圖形成的頁(yè)面使原書(shū)在高度放大后也不會(huì)模糊;在展示中可以針對(duì)頁(yè)面文本進(jìn)行二次查找、標(biāo)記、注釋,在注冊(cè)權(quán)限通過(guò)的情況下,原文內(nèi)容也可以被選中和拷貝。最后還可以提到,查看原文實(shí)際上也實(shí)現(xiàn)了模糊檢索和上下文檢索的主要功能。
后臺(tái)的系統(tǒng)數(shù)據(jù)入庫(kù)時(shí),會(huì)將數(shù)據(jù)按照分頁(yè)、分句、分詞的粒度逐步處理。分頁(yè)保障了用戶能夠根據(jù)關(guān)鍵字或指定數(shù)目找到與原書(shū)完全一致的頁(yè)面。分句一方面是分詞的基礎(chǔ),同時(shí)也是預(yù)覽頁(yè)面展示的內(nèi)容。分詞將原文拆成最小粒度的詞匯,在經(jīng)過(guò)停用詞處理后,選擇有意義、有價(jià)值、值得檢索的詞匯存入數(shù)據(jù)庫(kù),同時(shí)也保存分句與頁(yè)面信息,以便關(guān)鍵詞檢索時(shí)使用。為實(shí)現(xiàn)目標(biāo),數(shù)據(jù)庫(kù)設(shè)計(jì)方面,我們舍棄了傳統(tǒng)的按照對(duì)象層級(jí)存儲(chǔ)信息的方式,選擇了扁平化的數(shù)據(jù)結(jié)構(gòu),即關(guān)鍵字、詞語(yǔ)統(tǒng)計(jì)、語(yǔ)法標(biāo)注、所在分句、書(shū)名、原書(shū)頁(yè)碼等信息壓縮在一個(gè)表中存儲(chǔ)。這樣的數(shù)據(jù)表具有非常多的行數(shù),但由于有效信息儲(chǔ)存在同一個(gè)記錄(Entry)中,因此減少了數(shù)據(jù)庫(kù)檢索次數(shù),主鍵的規(guī)律性使一次性快速檢索的速度和成功率相當(dāng)之高。
2. 數(shù)據(jù)統(tǒng)計(jì)
本檢索系統(tǒng)提供常用的統(tǒng)計(jì)信息,包括每本書(shū)標(biāo)注文本部分的詞頻、語(yǔ)法標(biāo)記符號(hào)的頻次。標(biāo)注文本采用了隔行對(duì)照形式,包括原文行、分析行、標(biāo)注行和意譯行,同時(shí)在每個(gè)隔行標(biāo)注故事之后還提供了全文翻譯。統(tǒng)計(jì)功能只針對(duì)文本標(biāo)注隔行對(duì)照部分內(nèi)容,忽略意譯行和全文翻譯部分的文字,例如下面圖書(shū)中常見(jiàn)的兩種材料格式:三行和兩行對(duì)照格式。
不管是三行還是兩行,民族語(yǔ)言詞條的統(tǒng)計(jì)以倒數(shù)第二行為準(zhǔn),對(duì)照漢語(yǔ)和語(yǔ)法標(biāo)記以倒數(shù)第一行為準(zhǔn);尤其是在以漢語(yǔ)為目標(biāo)詞條統(tǒng)計(jì)時(shí),要忽略意譯行和篇翻譯文本,更不能把標(biāo)注文本之外的內(nèi)容統(tǒng)計(jì)進(jìn)來(lái)。這樣便于使用者準(zhǔn)確了解標(biāo)注文本的實(shí)際情況,對(duì)目標(biāo)語(yǔ)言的理解和把握更加精準(zhǔn)。
統(tǒng)計(jì)數(shù)據(jù)能從整體上了解一門語(yǔ)言的情況。隔行對(duì)照文本的特點(diǎn)是對(duì)真實(shí)口語(yǔ)文本的語(yǔ)法范疇和語(yǔ)法特征進(jìn)行標(biāo)記,在一定的文本數(shù)量的范圍內(nèi),標(biāo)記符號(hào)的數(shù)量能夠反映出該語(yǔ)言的語(yǔ)法大概情況?!吨袊?guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》20本書(shū)的標(biāo)注文本數(shù)量多少不一,但大體保持在300頁(yè)左右,詞的總數(shù)量與語(yǔ)法標(biāo)記的比例關(guān)系可以揭示幾種事實(shí),一是這種語(yǔ)言中語(yǔ)法范疇和語(yǔ)法特征的豐富程度,但是需要讀者客觀看待,因?yàn)槊恳槐緯?shū)的作者對(duì)語(yǔ)法特征的分析粒度也反應(yīng)在語(yǔ)法標(biāo)記的數(shù)量上;二是可以反映每一種語(yǔ)法標(biāo)記在該語(yǔ)言中的分布狀況,有些標(biāo)記用得多,大體能說(shuō)明該種語(yǔ)法現(xiàn)象普遍;有些標(biāo)記用得少,大體能說(shuō)明該種語(yǔ)法現(xiàn)象稀疏。
下面以林幼菁《嘉戎語(yǔ)卓克基話語(yǔ)法標(biāo)注文本》為例來(lái)分析。作者在書(shū)的前面列示了50個(gè)縮略標(biāo)記符號(hào)。其中1、2、3表示第一、二、三人稱,實(shí)際上在文本中出現(xiàn)時(shí),1、2、3總是和表示單數(shù)、復(fù)數(shù)的SG和PL共現(xiàn),因此在統(tǒng)計(jì)分析時(shí),以1SG、1PL、2SG、2PL、3SG、3PL為統(tǒng)計(jì)對(duì)象。該書(shū)的語(yǔ)法標(biāo)記符號(hào)統(tǒng)計(jì)基本情況如表1所示。
表1 《嘉戎語(yǔ)卓克基話語(yǔ)法標(biāo)注文本》語(yǔ)法標(biāo)記統(tǒng)計(jì)表
從表1可以看出,嘉戎語(yǔ)卓克基話在文本中出現(xiàn)的語(yǔ)法范疇和語(yǔ)法特征的總體情況,數(shù)量排在前五的語(yǔ)法標(biāo)記分別是:NMZL(名詞化)、PFV(完整體)、TOP(話題)、POSS(領(lǐng)屬)、COP(系詞)。排在后五的語(yǔ)法標(biāo)記分別是:2PL(第二人稱復(fù)數(shù))、HAB(習(xí)慣體)、VLZR(動(dòng)詞化標(biāo)記)、RECP(互相)、APPL(應(yīng)用標(biāo)記)。
再看看徐世璇的《土家語(yǔ)語(yǔ)法標(biāo)注文本》,作者提供的語(yǔ)法標(biāo)記符號(hào)23個(gè),與嘉戎語(yǔ)卓克基話相比,數(shù)量上少了一半,表2是土語(yǔ)家語(yǔ)語(yǔ)法標(biāo)記統(tǒng)計(jì)情況。排在前五的語(yǔ)法標(biāo)記分別是:ASPP(體助詞)、STRP(結(jié)構(gòu)助詞)、TOP(話題語(yǔ)氣詞)、3sg(第三人稱單數(shù))、CASP(格助詞),排在后五位的分別是:HYPC(假設(shè)連詞)、CAUC(因果連詞)、COOC(并列連詞)、IMPM(祈使語(yǔ)氣)、1pl(第一人稱復(fù)數(shù))。
表2 《土家語(yǔ)語(yǔ)法標(biāo)注文本》語(yǔ)法標(biāo)記統(tǒng)計(jì)表
從表2的語(yǔ)法標(biāo)記符號(hào)體系和統(tǒng)計(jì)數(shù)據(jù)可以初步了解到土家語(yǔ)與嘉戎語(yǔ)的語(yǔ)法類型差別較大,不論從語(yǔ)法標(biāo)記的豐富程度還是不同類型的語(yǔ)法標(biāo)記的使用頻次,都表現(xiàn)出較大的差異性。
通過(guò)比較土家語(yǔ)與嘉戎語(yǔ)兩種語(yǔ)言的語(yǔ)法標(biāo)記符號(hào),我們可以發(fā)現(xiàn),除了人稱標(biāo)記基本相同之外,只有TOP(話題標(biāo)記)是共有的。一方面說(shuō)明語(yǔ)言類型的差異,但另一方面也能反映出不同作者在進(jìn)行文本標(biāo)注時(shí),對(duì)某些相同、相似語(yǔ)法現(xiàn)象的認(rèn)識(shí)和看法不一致。因此,選擇語(yǔ)法標(biāo)記也就存在差別,這說(shuō)明了我國(guó)民族語(yǔ)言的語(yǔ)法特征豐富,也說(shuō)明在民族語(yǔ)言語(yǔ)法標(biāo)記選用的一致性方面還需要做很多工作。我們對(duì)20本書(shū)的共用語(yǔ)法標(biāo)記符號(hào)提取時(shí),難以找到某一語(yǔ)法標(biāo)記在20種語(yǔ)言和方言中共用的實(shí)例。一些比較常見(jiàn)的語(yǔ)法特征標(biāo)記在某幾種語(yǔ)言中是共有的。語(yǔ)法標(biāo)記PFV(完整體)、LOC(位格)、ABL(從格)、ALL(向格)、COP(系詞)、DAT(與格)出現(xiàn)的情況如圖2所示。
PFV(完整體) LOC(位格) ABL(從格)
ALL(向格) COP(系詞) DAT(與格)
從這些關(guān)系圖可以清楚看到,不同語(yǔ)言中的相同語(yǔ)法標(biāo)記,這有利于揭示語(yǔ)言之間的共性特征,如果在統(tǒng)一規(guī)范的標(biāo)注前提下,有一定規(guī)模語(yǔ)料的支持,可以為語(yǔ)言之間的系屬關(guān)系研究提供新材料和新視角。當(dāng)然本文主要討論這種研究手段和方法,我們將另文深入討論一些語(yǔ)法特征的共性和語(yǔ)言關(guān)系親疏問(wèn)題。
總之,基于大規(guī)模語(yǔ)法標(biāo)注文本,借助語(yǔ)料庫(kù)、計(jì)算語(yǔ)言學(xué)的方法理論和數(shù)字人文技術(shù),可以為中國(guó)語(yǔ)言學(xué)界提供豐富多樣的中國(guó)民族語(yǔ)言材料,通過(guò)知識(shí)關(guān)聯(lián)和可視化方法為大眾提供民族語(yǔ)言基礎(chǔ)知識(shí),也為中國(guó)民族語(yǔ)言文化知識(shí)的普及傳播奠定良好的基礎(chǔ),從這一點(diǎn)看,大規(guī)模隔行對(duì)照文本數(shù)據(jù)庫(kù)構(gòu)建已經(jīng)體現(xiàn)出其重要的價(jià)值和意義。
《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》叢書(shū)出版以來(lái),學(xué)界對(duì)叢書(shū)的評(píng)價(jià)很高,例如劉丹青(2022)(12)劉丹青.文本標(biāo)注的歷史性跨躍與改進(jìn)空間——以《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本》叢書(shū)為例[C].中國(guó)民族語(yǔ)言學(xué)會(huì)語(yǔ)言類型學(xué)專業(yè)委員會(huì)第五屆學(xué)術(shù)年會(huì),2022.。但對(duì)叢書(shū)更多的意見(jiàn)和建議是“難以查詢”。當(dāng)然,這正是本項(xiàng)目擬解決的主要問(wèn)題。針對(duì)帶標(biāo)注和注釋的隔行對(duì)照化文本的對(duì)齊顯示,雖然可以采用不同檢索方式,本文采用的全文檢索引擎原理方案同時(shí)考慮了用戶對(duì)原著的信賴,同時(shí)也能提供上下文語(yǔ)境瀏覽功能。此外,以下5個(gè)方面也是本項(xiàng)目真正價(jià)值所在。第一,可檢索性。即克服紙質(zhì)文本資源應(yīng)用上的固化和不方便。第二,強(qiáng)功能性。紙質(zhì)文本是散裝形式,每部書(shū)之間雖有共性卻難以共用,而本項(xiàng)目可使所有專著資源關(guān)聯(lián)起來(lái),以前很多無(wú)法開(kāi)展的工作都可以實(shí)現(xiàn)。例如可以通過(guò)檢索趨向特征發(fā)現(xiàn)各種語(yǔ)言的趨向形式,形態(tài)關(guān)系,甚至淵源關(guān)系。第三,時(shí)效性。在線電子檢索系統(tǒng)徹底擯棄逐頁(yè)查看文本內(nèi)容方式,用戶可在短時(shí)間快速查看檢索結(jié)果,大幅提高效率。第四,可擴(kuò)展性。本套叢書(shū)目前僅出版了20部,相對(duì)上百種中國(guó)少數(shù)民族語(yǔ)言,還有極大的擴(kuò)充空間。我們相信,采用在線檢索方式有可能建立一種新的資源積累范式,加速中國(guó)(民族)語(yǔ)言文本資源的積累。第五,學(xué)術(shù)深度發(fā)展。本項(xiàng)目的成功一定會(huì)在某種程度上推動(dòng)中國(guó)語(yǔ)言學(xué)的發(fā)展,即所謂大規(guī)模真實(shí)文本資源基礎(chǔ)上的深度研究。(13)丁石慶.中國(guó)語(yǔ)言資源保護(hù)工程語(yǔ)料資源的質(zhì)量、價(jià)值和效用——以少數(shù)民族語(yǔ)言材料為例[J].暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2018,(10).
小語(yǔ)種低資源民族語(yǔ)言是語(yǔ)言學(xué)資源中很獨(dú)特的一個(gè)類型,值得學(xué)術(shù)界細(xì)心呵護(hù),精心培植,使其成為賡續(xù)中華文明和鑄牢中華民族共同體意識(shí)的重要一環(huán)。
云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)2023年6期