陳虹
摘要: 標(biāo)注是語(yǔ)料庫(kù)的重要特征,其層次和質(zhì)量決定所建語(yǔ)料庫(kù)的級(jí)別和有效使用程度。俄語(yǔ)國(guó)家語(yǔ)料庫(kù)是當(dāng)今世界上成功創(chuàng)建的大型現(xiàn)代語(yǔ)料庫(kù)之一,其標(biāo)注模式是在國(guó)際標(biāo)注模式的基礎(chǔ)上,結(jié)合俄語(yǔ)自身的語(yǔ)言特征進(jìn)行擴(kuò)展的成功范例。目前它的標(biāo)注體系包括四種,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語(yǔ)義標(biāo)注。研究國(guó)外包括俄語(yǔ)在內(nèi)的各語(yǔ)種語(yǔ)料庫(kù)的標(biāo)注經(jīng)驗(yàn),可以更好地為建設(shè)國(guó)內(nèi)語(yǔ)料庫(kù)提供參考和借鑒。
關(guān)鍵詞: 俄語(yǔ)國(guó)家語(yǔ)料庫(kù)標(biāo)注語(yǔ)料庫(kù)
一、引言
在創(chuàng)建語(yǔ)料庫(kù)時(shí),需要對(duì)收集來(lái)的普通文本進(jìn)行處理,即在純文本文件中添加表示文本基本信息或文本單位語(yǔ)言特征的特殊符號(hào)或符號(hào)串,這些符號(hào)或符號(hào)串稱為標(biāo)記或附碼(тэг,tag)。為語(yǔ)料庫(kù)純文本添加標(biāo)記的過(guò)程稱為標(biāo)注(разметка или аннотация,annotation or tagging),標(biāo)注后,文本包含的信息由隱性變?yōu)轱@性,利用相應(yīng)的檢索系統(tǒng)可以最大限度地使用語(yǔ)料庫(kù),語(yǔ)料庫(kù)的有效使用依賴于純文本標(biāo)注的層次和質(zhì)量。對(duì)純文本利用計(jì)算機(jī)資源進(jìn)行批量處理和檢索,以及多維度、多層面標(biāo)注純文本,是語(yǔ)料庫(kù)語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)的重要課題之一。
從世界范圍來(lái)看,俄語(yǔ)語(yǔ)料庫(kù)的標(biāo)注以俄語(yǔ)國(guó)家語(yǔ)料庫(kù)(Национальный Корпус Русского Языка,НКРЯ)的標(biāo)注最成功、最具代表性,層次和質(zhì)量最高。和漢語(yǔ)一樣,俄語(yǔ)也是世界上最復(fù)雜的語(yǔ)言之一,研究俄語(yǔ)純文本的標(biāo)注及俄語(yǔ)語(yǔ)料庫(kù)的標(biāo)注系統(tǒng),有助于進(jìn)行漢語(yǔ)相關(guān)領(lǐng)域的研究。
二、語(yǔ)料庫(kù)標(biāo)注
(一)語(yǔ)料庫(kù)標(biāo)注的規(guī)范語(yǔ)言
為了表示文本中包含的語(yǔ)言信息,方便語(yǔ)言學(xué)研究,語(yǔ)料庫(kù)需要進(jìn)行規(guī)范、系統(tǒng)的標(biāo)注。適用于萬(wàn)維網(wǎng)大多數(shù)網(wǎng)頁(yè)的標(biāo)記語(yǔ)言——HTML語(yǔ)言(HyperText Markup Language,超文本標(biāo)記語(yǔ)言),由于其標(biāo)記是固定的,因此不能滿足標(biāo)記必須是自定義的語(yǔ)料庫(kù)標(biāo)注的需要?,F(xiàn)階段世界各國(guó)開(kāi)發(fā)語(yǔ)料庫(kù)使用的標(biāo)記語(yǔ)言有兩種,即SGML語(yǔ)言(Standard General Markup Language,標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言)和XML語(yǔ)言(Extensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)。
SGML語(yǔ)言是1986年國(guó)際標(biāo)準(zhǔn)化組織頒布的一個(gè)信息管理方面的國(guó)際標(biāo)準(zhǔn)(ISO8879:1986),用于規(guī)定在各種電子文本中嵌入描述標(biāo)記的標(biāo)準(zhǔn)格式,定義各種電子文本結(jié)構(gòu)的標(biāo)準(zhǔn)方法,以及指定文本結(jié)構(gòu)的標(biāo)準(zhǔn)標(biāo)記代碼。該置標(biāo)語(yǔ)言復(fù)雜、龐大,功能十分強(qiáng)大,適用于各種類型的文本。XML語(yǔ)言是SGML語(yǔ)言的一個(gè)子集,也用于標(biāo)記電子文本的結(jié)構(gòu)。它不僅重新定義了SGML語(yǔ)言的一些內(nèi)部值和參數(shù),去掉了大量很少用到的功能,而且允許自定義標(biāo)記,因此它的結(jié)構(gòu)化功能更簡(jiǎn)單方便。世界公認(rèn)語(yǔ)料庫(kù)典范的英語(yǔ)國(guó)家語(yǔ)料庫(kù)(BNC)及斯拉夫語(yǔ)語(yǔ)料庫(kù)典范的捷克國(guó)家語(yǔ)料庫(kù)(ЧНК)使用的都是SGML和XML語(yǔ)言,我國(guó)“國(guó)家現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)管理系統(tǒng)”是國(guó)內(nèi)率先使用XML語(yǔ)言組織的大型語(yǔ)料庫(kù)??梢哉f(shuō),世界上新建和在建的語(yǔ)料庫(kù)使用的都是這兩種語(yǔ)言。
(二)語(yǔ)料庫(kù)標(biāo)注的基本模式
從語(yǔ)料庫(kù)開(kāi)發(fā)角度看,目前最常用的語(yǔ)料庫(kù)文本標(biāo)記模式是建立在SGML語(yǔ)言或XML語(yǔ)言上的TEI、EAGLES和CES。TEI(Text Encoding Initiative,文本編碼規(guī)范)具有超大限度的靈活性、綜合性和可擴(kuò)展性,能支持對(duì)各種類型或特征的文本進(jìn)行編碼,被認(rèn)為是“最能反映當(dāng)前語(yǔ)料庫(kù)語(yǔ)言學(xué)家致力于建立更具形式化的機(jī)讀語(yǔ)篇信息編碼國(guó)際標(biāo)準(zhǔn)的方向”(崔剛,盛永梅,2000:90)的標(biāo)注模式。EAGLES(Expert Advisory Group Language Engineering Standards,專家顧問(wèn)團(tuán)語(yǔ)言工程標(biāo)準(zhǔn))是歐盟在1993年2月制定的關(guān)于語(yǔ)言工程的標(biāo)準(zhǔn),其內(nèi)容涉及大型語(yǔ)言資源(包括文本語(yǔ)料庫(kù)、詞匯庫(kù)、言語(yǔ)語(yǔ)料庫(kù))的建設(shè)、語(yǔ)言知識(shí)的處理工具(形式語(yǔ)法、標(biāo)記語(yǔ)言、各種軟件)、語(yǔ)言工程系統(tǒng)的評(píng)估資源和工具等。CES(Corpus Encoding Standard,語(yǔ)料庫(kù)編碼標(biāo)準(zhǔn))是EAGLES的一部分,它規(guī)定了語(yǔ)料庫(kù)的總體結(jié)構(gòu)、語(yǔ)言信息標(biāo)記等語(yǔ)料庫(kù)建設(shè)的技術(shù)規(guī)范,與TEI相兼容,目標(biāo)是建立一套能被廣泛承認(rèn)的語(yǔ)料庫(kù)標(biāo)注模式。
從俄語(yǔ)語(yǔ)料庫(kù)的建設(shè)實(shí)踐看,俄語(yǔ)語(yǔ)料庫(kù)建設(shè)總體上采用的是語(yǔ)料庫(kù)建設(shè)的國(guó)際標(biāo)準(zhǔn)和模式。但由于俄語(yǔ)本身是一種綜合性語(yǔ)言,詞形變化比英語(yǔ)等語(yǔ)言復(fù)雜得多、豐富得多,因此俄語(yǔ)語(yǔ)料庫(kù)在采用國(guó)際通用的標(biāo)注模式的同時(shí),還根據(jù)俄語(yǔ)自身特點(diǎn)對(duì)標(biāo)準(zhǔn)標(biāo)注模式做了一些修訂。俄國(guó)國(guó)家語(yǔ)料庫(kù)的標(biāo)注模式就是在SGML語(yǔ)言、符合TEI和EAGLES標(biāo)準(zhǔn)的基礎(chǔ)上,根據(jù)俄語(yǔ)語(yǔ)言的自身特點(diǎn)對(duì)TEI進(jìn)行了必要擴(kuò)展后得到的。
三、俄國(guó)國(guó)家語(yǔ)料庫(kù)的標(biāo)注
(一)俄語(yǔ)國(guó)家語(yǔ)料庫(kù)簡(jiǎn)介
俄語(yǔ)國(guó)家語(yǔ)料庫(kù)(以下簡(jiǎn)稱НКРЯ)是在俄羅斯學(xué)者С.А.Шаров 和В.Б.Касевич的積極倡導(dǎo)下,由俄羅斯科學(xué)院語(yǔ)言學(xué)研究所于2003年年底納入《語(yǔ)文學(xué)與信息學(xué)》計(jì)劃并開(kāi)始建設(shè)的。該語(yǔ)料庫(kù)計(jì)劃規(guī)模為2億詞次,擁有多個(gè)文本類型,包括1個(gè)主庫(kù)和8個(gè)子庫(kù)。其中主庫(kù)是深度標(biāo)注語(yǔ)料庫(kù);子庫(kù)有俄英俄德平行語(yǔ)料庫(kù)、方言語(yǔ)料庫(kù)、詩(shī)歌文本語(yǔ)料庫(kù)、俄語(yǔ)教學(xué)語(yǔ)料庫(kù)、口語(yǔ)語(yǔ)料庫(kù)、報(bào)紙語(yǔ)料庫(kù)、句法語(yǔ)料庫(kù)和重音語(yǔ)料庫(kù)。НКРЯ目前暫時(shí)有四種標(biāo)注,即元文本標(biāo)注、詞法標(biāo)注、句法標(biāo)注和語(yǔ)義標(biāo)注。它在網(wǎng)絡(luò)上開(kāi)放的部分是20世紀(jì)下半葉至21世紀(jì)初的現(xiàn)代俄語(yǔ)文本語(yǔ)料庫(kù),規(guī)模超過(guò)1.4億詞次,有9個(gè)文本類型,提供精確和詞匯—語(yǔ)法兩種查詢方法。
(二)俄國(guó)國(guó)家語(yǔ)料庫(kù)的元標(biāo)注
由于НКРЯ希望能為盡可能多的一般用戶服務(wù),因此其文本元標(biāo)注非常細(xì)致和多樣,分為兩大部分,即基本文本參數(shù)和文本類型?;疚谋緟?shù)主要用來(lái)說(shuō)明文本的自然情況,分為五個(gè)方面,即文本名稱、文本作者、文本作者的性別、文本作者出生年代、文本產(chǎn)生的年代。文本類型參數(shù)主用用來(lái)對(duì)文本進(jìn)行分類,分為兩個(gè)方面,即文學(xué)文本和非文學(xué)文本。
其中,文學(xué)文本分三項(xiàng),即文本體裁選項(xiàng),包括散文、偵探和戰(zhàn)爭(zhēng)類、兒童類、歷史散文、驚險(xiǎn)類、幻想類、愛(ài)情故事、幽默諷刺類、文獻(xiàn)散文、戲劇、翻譯作品11種體裁;文本類型選項(xiàng),包括寓言、謎語(yǔ)、便函、傳說(shuō)、歌劇劇本、小品、隨筆、書(shū)信、中篇小說(shuō)、詩(shī)歌、諷喻作品、話劇、短篇小說(shuō)、長(zhǎng)篇小說(shuō)、童話故事、民間故事、電影劇本17種類型;文本產(chǎn)生的時(shí)間和地點(diǎn)選項(xiàng),如歐洲中世紀(jì)、亞洲19世紀(jì)、俄羅斯/蘇聯(lián)1999—1914等詳細(xì)的時(shí)間分期和地點(diǎn)。
非文學(xué)文本分為三項(xiàng),即文本的功能領(lǐng)域,包括日常生活領(lǐng)域、正式公文、生產(chǎn)技術(shù)領(lǐng)域、時(shí)事評(píng)論、教學(xué)科研領(lǐng)域、教堂教會(huì)領(lǐng)域、電子交際7個(gè)領(lǐng)域;文本類型,包括時(shí)事評(píng)論、教學(xué)科研類、正式公文和日常生活類4大類,每一個(gè)大類下又細(xì)分為若干小類;文本主題,包括科學(xué)技術(shù)類和非科學(xué)技術(shù)類兩大類,每一個(gè)大類下也繼續(xù)細(xì)分為若干小類。
從НКРЯ的元文本標(biāo)注體系可以看出,它不是嚴(yán)格按照普遍性的語(yǔ)料庫(kù)語(yǔ)言學(xué)國(guó)際分類標(biāo)準(zhǔn)描述各個(gè)文本的,其分類自由、細(xì)致、豐富,但非常好地貫徹了其設(shè)計(jì)理念——為盡可能多的一般用戶服務(wù),而不是針對(duì)專門的語(yǔ)言研究者或語(yǔ)言學(xué)家。
(三)俄語(yǔ)國(guó)家語(yǔ)料庫(kù)的詞法標(biāo)注
НКРЯ的詞法標(biāo)注是由俄羅斯開(kāi)發(fā)的多用途語(yǔ)言處理系統(tǒng)ЭТАП—3詞法分析儀利用半自動(dòng)詞法程序Mystem完成初始標(biāo)注的,然后語(yǔ)言研究者們對(duì)初標(biāo)結(jié)果中的400萬(wàn)詞次進(jìn)行手工消歧,以及進(jìn)一步檢查和校對(duì)。Mystem程序詞法分析模式的基礎(chǔ)是А.А.Зализняк的《俄語(yǔ)語(yǔ)法詞典》(《Грамматический словарь русского языка》)(M.1977; 4-е изд.,M.2003)。如果文本中的詞形存在于該詞典中,程序就賦予全部可能的標(biāo)注;如果不在,則給予假設(shè)的標(biāo)注,并加上“?”。
endprint