摘 要: 本文通過(guò)介紹語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展與應(yīng)用,指出了建設(shè)壯語(yǔ)語(yǔ)料庫(kù)的意義,闡述了建設(shè)壯語(yǔ)語(yǔ)料庫(kù)的建議,以及壯語(yǔ)語(yǔ)料庫(kù)的附碼標(biāo)注,包括標(biāo)注應(yīng)遵循的原則,可參考的標(biāo)注模式和可標(biāo)注類型,旨在促進(jìn)壯語(yǔ)語(yǔ)料庫(kù)的研究與發(fā)展。
關(guān)鍵詞: 語(yǔ)料庫(kù)語(yǔ)言學(xué) 壯語(yǔ)語(yǔ)料庫(kù) 建設(shè)
語(yǔ)料庫(kù)語(yǔ)言學(xué)是對(duì)以語(yǔ)篇語(yǔ)料為基礎(chǔ)的語(yǔ)言進(jìn)行研究的一門學(xué)科,也是一種研究方法。四十多年來(lái),語(yǔ)料庫(kù)語(yǔ)言學(xué)不斷擴(kuò)大研究范圍,取得了豐碩成果,鞏固并提高了自己在語(yǔ)言學(xué)界的地位。尤其是運(yùn)用不斷更新的計(jì)算機(jī)技術(shù)建立的語(yǔ)料庫(kù),規(guī)模大、功能多、檢索方便,使語(yǔ)言研究的手段和方法發(fā)生了巨大變化,對(duì)語(yǔ)言學(xué)理論探索也產(chǎn)生深遠(yuǎn)的影響。近年來(lái)在語(yǔ)言學(xué)界和言語(yǔ)工程界的共同努力下,我國(guó)在漢語(yǔ)語(yǔ)料庫(kù)和中文信息處理技術(shù)方面取得了令人矚目的進(jìn)步。我國(guó)少數(shù)民族語(yǔ)料庫(kù)和信息技術(shù)方面也有了一部分成果。1991年國(guó)內(nèi)出現(xiàn)了“現(xiàn)代蒙古語(yǔ)文數(shù)據(jù)庫(kù)”和蒙古文語(yǔ)料庫(kù)的詞類標(biāo)注系統(tǒng)——AYIMAG。中國(guó)社會(huì)科學(xué)院民族研究所完成了1994年立項(xiàng)的社科基金項(xiàng)目——中國(guó)少數(shù)民族語(yǔ)言文字多媒體數(shù)據(jù)庫(kù)。另外藏文、朝鮮文、壯文、滿文等也在操作系統(tǒng)、電子出版系統(tǒng)、數(shù)據(jù)庫(kù)建設(shè)等方面有了比較大的發(fā)展。而在壯語(yǔ)語(yǔ)料庫(kù)的建設(shè)方面,我認(rèn)為還可以有更好的發(fā)展。
一、語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展
語(yǔ)料庫(kù)語(yǔ)言學(xué)在其發(fā)展初期并沒(méi)有引起太大的共鳴。計(jì)算機(jī)的發(fā)展促進(jìn)語(yǔ)料庫(kù)建設(shè)手段不斷實(shí)現(xiàn)現(xiàn)代化和自動(dòng)化,語(yǔ)料庫(kù)在語(yǔ)言教學(xué)和研究中所能發(fā)揮的作用越來(lái)越大,從語(yǔ)言研究、語(yǔ)言教學(xué)、語(yǔ)言測(cè)試、詞典編纂到人工智能等領(lǐng)域都開始應(yīng)用語(yǔ)料庫(kù)?,F(xiàn)代語(yǔ)料庫(kù)語(yǔ)言學(xué)開始得到越來(lái)越多人的重視。由于語(yǔ)料庫(kù)搜集了大量的人們實(shí)際使用的語(yǔ)言,而且可根據(jù)各種研究需要通過(guò)計(jì)算機(jī)快速加以處理,故語(yǔ)料庫(kù)為語(yǔ)言研究開辟了廣闊的研究領(lǐng)域。
語(yǔ)料庫(kù)語(yǔ)言學(xué)開始是以英語(yǔ)作為研究對(duì)象的,現(xiàn)在已發(fā)展到英、法、德、西、日、漢、蒙語(yǔ)等20多個(gè)語(yǔ)種。語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展可分為兩大時(shí)期:計(jì)算機(jī)化以前的語(yǔ)料庫(kù)和計(jì)算機(jī)化的語(yǔ)料庫(kù)。計(jì)算機(jī)化之前的語(yǔ)料庫(kù)主要有為詞典編纂,語(yǔ)法研究收集的引語(yǔ)庫(kù),為教學(xué)目的收集的文章庫(kù),為語(yǔ)言調(diào)查收集的方言庫(kù)。計(jì)算機(jī)化的語(yǔ)料庫(kù)可分為三個(gè)層次:未加標(biāo)注的語(yǔ)料庫(kù),標(biāo)有詞類附碼的語(yǔ)料庫(kù),標(biāo)有句法附碼的語(yǔ)料庫(kù)和標(biāo)有語(yǔ)音韻律的語(yǔ)料庫(kù)。
二、語(yǔ)料庫(kù)語(yǔ)言學(xué)的實(shí)際應(yīng)用
語(yǔ)料庫(kù)語(yǔ)言學(xué)的實(shí)際應(yīng)用主要有四個(gè)方面。
第一,詞典編撰方面。大型語(yǔ)料庫(kù)對(duì)詞典編撰極有用處,如《科林斯—科貝爾特英語(yǔ)詞典》有自己的大型語(yǔ)料庫(kù),《朗文英語(yǔ)詞典》所依據(jù)的朗文語(yǔ)料庫(kù)網(wǎng)包含三個(gè)子語(yǔ)料庫(kù):一是朗文—蘭卡斯特語(yǔ)料庫(kù),含英美語(yǔ)各種類型的書面語(yǔ)3000萬(wàn)字;二是朗文學(xué)生語(yǔ)料庫(kù),含世界上唯一的各國(guó)英語(yǔ)學(xué)習(xí)者書面英語(yǔ)語(yǔ)料庫(kù);三是英語(yǔ)口語(yǔ)語(yǔ)料庫(kù),含第一個(gè)日常英語(yǔ)會(huì)話語(yǔ)料庫(kù)。第二,語(yǔ)料庫(kù)的檢索功能和統(tǒng)計(jì)手段給句法研究、語(yǔ)篇分析、會(huì)話分析和語(yǔ)音研究提供了方便?;ヂ?lián)網(wǎng)上現(xiàn)代英語(yǔ)國(guó)際電腦文檔(I-CAME)介紹了許多近年來(lái)以語(yǔ)料庫(kù)為基礎(chǔ)的語(yǔ)言研究項(xiàng)目,說(shuō)明語(yǔ)料庫(kù)對(duì)于語(yǔ)言研究的重大意義。語(yǔ)料庫(kù)語(yǔ)言學(xué)可以處理一定范圍內(nèi)的語(yǔ)料,揭示語(yǔ)言在某一歷史階段中的情況。第三,語(yǔ)料庫(kù)語(yǔ)言學(xué)對(duì)語(yǔ)言教學(xué)與外語(yǔ)教學(xué)產(chǎn)生了直接的影響。語(yǔ)料庫(kù)作為大量真實(shí)語(yǔ)言資料的來(lái)源,近年來(lái)在教學(xué)中得到越來(lái)越廣泛的應(yīng)用。母語(yǔ)習(xí)得和外語(yǔ)學(xué)習(xí)都離不開語(yǔ)料研究。語(yǔ)料庫(kù)對(duì)新聞?wù)Z言、科技文本等特殊用途語(yǔ)言的教學(xué)與研究也起了很大作用。第四,翻譯研究語(yǔ)料庫(kù)翻譯研究是20世紀(jì)90年代才興起的一種全新的翻譯研究模式。適用于翻譯研究的語(yǔ)料庫(kù)主要是平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。語(yǔ)料庫(kù)翻譯研究取得的較突出的成就是對(duì)翻譯普遍性的研究。關(guān)于譯文中存在的簡(jiǎn)略化,明確化和規(guī)范化的普遍特征的假設(shè)在語(yǔ)料庫(kù)翻譯研究中得到了一定程度的驗(yàn)證。
由于語(yǔ)料庫(kù)在數(shù)據(jù)統(tǒng)計(jì)等方面的強(qiáng)大功能,它也被廣泛應(yīng)用在其他領(lǐng)域,如基于口語(yǔ)語(yǔ)料庫(kù)數(shù)據(jù)對(duì)口語(yǔ)和書面語(yǔ)進(jìn)行對(duì)比研究,對(duì)口語(yǔ)詞匯、口語(yǔ)語(yǔ)法和會(huì)話中的詞塊使用特征、話語(yǔ)結(jié)構(gòu)特征的描述,利用平行語(yǔ)料庫(kù)研究英漢互譯和語(yǔ)言測(cè)試問(wèn)題,等等。
三、建設(shè)壯語(yǔ)語(yǔ)料庫(kù)的意義
從語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展和語(yǔ)料庫(kù)的應(yīng)用中,我們看到少數(shù)民族語(yǔ)言的語(yǔ)料庫(kù)的建設(shè)對(duì)于少數(shù)民族的語(yǔ)言研究是有意義而且必要的。近年來(lái)國(guó)內(nèi)專家學(xué)者對(duì)壯語(yǔ)的研究取得了進(jìn)展。為了使壯語(yǔ)研究者更加方便地進(jìn)HbLt/r3a9+PJNrQhuXaquA==行壯語(yǔ)語(yǔ)言的描寫,方言比較研究和壯語(yǔ)和其他語(yǔ)言的歷史比較研究,以及壯語(yǔ)詞典的編撰、壯語(yǔ)語(yǔ)料庫(kù)的建設(shè)是非常有必要的,其重要意義可歸為以下幾點(diǎn)。
第一,語(yǔ)料庫(kù)可以廣泛地集錄語(yǔ)言資料,最大限度地保存、保護(hù)語(yǔ)言資料,保存具有社會(huì)歷史價(jià)值的語(yǔ)言文化遺產(chǎn)。在社會(huì)文化生活發(fā)生巨大變化的今天,不少語(yǔ)言日漸衰微,乃至面臨消亡的危險(xiǎn),沒(méi)有被很好地記錄。盡管壯語(yǔ)沒(méi)有面臨瀕危境地,但存在漢化現(xiàn)象,因此壯語(yǔ)語(yǔ)料庫(kù)的建立是必要的。
第二,可以大大改進(jìn)壯語(yǔ)研究手段。就目前語(yǔ)料庫(kù)語(yǔ)言學(xué)經(jīng)驗(yàn)來(lái)看,語(yǔ)料庫(kù)可以有效幫助詞語(yǔ)形式、詞義、用法的研究,進(jìn)行壯語(yǔ)單或多方言詞匯、語(yǔ)法的分析比較。在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,語(yǔ)義韻律或語(yǔ)義協(xié)調(diào)研究是吸引人的閃光點(diǎn),可發(fā)掘出語(yǔ)言單位間微妙的語(yǔ)義聯(lián)系,值得關(guān)注。
第三,對(duì)語(yǔ)言學(xué)習(xí)具有重要作用。如果根據(jù)壯語(yǔ)語(yǔ)料庫(kù)和普通話語(yǔ)料庫(kù)這種“雙語(yǔ)”語(yǔ)料庫(kù)進(jìn)行教學(xué),通過(guò)檢索功能詞,可以使學(xué)習(xí)者自己發(fā)現(xiàn)語(yǔ)法規(guī)則;通過(guò)檢索同義詞組,可以幫助學(xué)習(xí)者區(qū)分其用法,從而產(chǎn)生積極的效果。這種“雙語(yǔ)”語(yǔ)料庫(kù)進(jìn)行教學(xué)的方法也可以用在英語(yǔ)教學(xué)方面。比如說(shuō)壯語(yǔ)的一些人在學(xué)英語(yǔ)的時(shí)候,可以用壯語(yǔ)語(yǔ)料庫(kù)與英語(yǔ)語(yǔ)料庫(kù)進(jìn)行語(yǔ)音上的對(duì)比。如,有些壯語(yǔ)方言中的發(fā)音/p/、/b/、/t/、/d/與英語(yǔ)中的發(fā)音不同,有利于該壯語(yǔ)方言區(qū)的人糾正他們所講的英語(yǔ)中的相應(yīng)發(fā)音。又如,有學(xué)者研究壯語(yǔ)的中動(dòng)語(yǔ)態(tài)與英語(yǔ)中動(dòng)語(yǔ)態(tài)的不同就可以運(yùn)用壯語(yǔ)語(yǔ)料庫(kù)作為語(yǔ)料來(lái)源。
第四,可以大大提高壯語(yǔ)詞典的編纂水平。國(guó)外已經(jīng)有了多種根據(jù)語(yǔ)料庫(kù)編纂的詞典。根據(jù)語(yǔ)料庫(kù)編纂的詞典,在收詞、釋義及詞語(yǔ)的用法說(shuō)明方面都會(huì)大大不同于用傳統(tǒng)方法編纂的詞典。至今廣西壯族自治區(qū)少數(shù)民族語(yǔ)言文字工作委員會(huì)編撰了兩部較重要的壯語(yǔ)詞典:《壯漢詞匯》(1984)和《壯漢英詞典》(2005),材料都是在自己的壯語(yǔ)語(yǔ)料來(lái)源或語(yǔ)料庫(kù)的基礎(chǔ)上的。
四、壯語(yǔ)語(yǔ)料庫(kù)的建設(shè)
1.建設(shè)壯語(yǔ)語(yǔ)料庫(kù)的設(shè)想
首先,搜集、記錄大量原始語(yǔ)料是建設(shè)有價(jià)值的語(yǔ)料庫(kù)的基礎(chǔ)。搜集壯語(yǔ)語(yǔ)料比一般的語(yǔ)料如普通話語(yǔ)料要艱難很多倍。各種語(yǔ)體、文體的普通話料在因特網(wǎng)上大量存在,但是各種壯語(yǔ)資料則散見(jiàn)于少量的文獻(xiàn)中,大多沒(méi)有以電子文本形式存在的成品。沒(méi)有足夠的資料,研究將會(huì)受到很大限制,建庫(kù)也會(huì)成為問(wèn)題。所以應(yīng)盡可能多地收集資料,以電子文本形式保存,建成電子文本集。有了大量原始文本,才可以根據(jù)不同的目的、不同的需要把原始文本輸入不同類型的語(yǔ)料數(shù)據(jù)庫(kù)。對(duì)于口語(yǔ)作品,要進(jìn)行錄音,把錄音資料轉(zhuǎn)寫成文字。
其次,以書面語(yǔ)料為主,其他形式的語(yǔ)料為輔。壯語(yǔ)書面語(yǔ)常見(jiàn)于壯語(yǔ)出版物,如《三月三》期刊和一些壯語(yǔ)教材??谡Z(yǔ)則應(yīng)以武鳴壯語(yǔ)為準(zhǔn),主要搜集該地區(qū)的壯語(yǔ)語(yǔ)音材料。
再次,要注意語(yǔ)體、文體差別。語(yǔ)言的語(yǔ)音、詞匯、語(yǔ)法、修辭在不同的語(yǔ)體、文體中會(huì)有不同的表現(xiàn),因而在建庫(kù)時(shí)可以根據(jù)一定的語(yǔ)體或文體構(gòu)建不同的語(yǔ)料庫(kù),這樣才便于發(fā)現(xiàn)語(yǔ)言運(yùn)用的規(guī)律性問(wèn)題。從現(xiàn)在的一些研究看,一些學(xué)者開始注意到運(yùn)用不同語(yǔ)體的文獻(xiàn)進(jìn)行以語(yǔ)料庫(kù)語(yǔ)言學(xué)理論為基本指導(dǎo)思想的漢語(yǔ)言研究,這是一個(gè)可喜的變化。如果可以,我們也可以根據(jù)一定的語(yǔ)體或文體構(gòu)建不同的壯語(yǔ)語(yǔ)料庫(kù),如壯語(yǔ)方言語(yǔ)料庫(kù),壯語(yǔ)新聞?dòng)谜Z(yǔ)語(yǔ)料庫(kù)等。
最后,壯語(yǔ)的各方言語(yǔ)料庫(kù)要求能統(tǒng)籌兼顧,最后能夠嫁接在一起方便使用。建設(shè)壯語(yǔ)方言語(yǔ)料庫(kù),“小作坊”式的語(yǔ)料庫(kù)容易造成重復(fù)建設(shè),浪費(fèi)大量的人力、物力和財(cái)力,也不利于語(yǔ)料庫(kù)的建設(shè)和使用。壯語(yǔ)方言語(yǔ)料庫(kù)應(yīng)該是一種公益性的成果,應(yīng)成為語(yǔ)言工作者無(wú)償獻(xiàn)給社會(huì)的公共財(cái)產(chǎn)。不僅語(yǔ)言工作者可以方便使用,社會(huì)各界、中外語(yǔ)言學(xué)習(xí)者都可以從中受益。這樣,語(yǔ)料庫(kù)才能夠發(fā)揮其應(yīng)有的作用,收到深遠(yuǎn)的社會(huì)效益。
2.壯語(yǔ)語(yǔ)料庫(kù)的附碼標(biāo)注
語(yǔ)料標(biāo)注可實(shí)現(xiàn)語(yǔ)料機(jī)讀化,可提高語(yǔ)料的利用價(jià)值。標(biāo)注就是對(duì)語(yǔ)料庫(kù)中的原始語(yǔ)料進(jìn)行加工,把各種表示語(yǔ)言特征的附碼標(biāo)注在相應(yīng)的語(yǔ)言成分上,以便于計(jì)算機(jī)的識(shí)讀。語(yǔ)料庫(kù)的附碼標(biāo)注要遵循一定的原則,有可參考的標(biāo)注模式。
(1)壯語(yǔ)語(yǔ)料庫(kù)可遵循的附碼標(biāo)注原則
英國(guó)著名語(yǔ)言學(xué)家Leech是當(dāng)今語(yǔ)料庫(kù)語(yǔ)言學(xué)的代表人物之一,他(1993)認(rèn)為語(yǔ)料的標(biāo)注應(yīng)該遵循以下幾個(gè)基本原則。
第一,標(biāo)注附碼可刪除,可恢復(fù)到原始語(yǔ)料。語(yǔ)料的標(biāo)注總是帶有一定的目的性,語(yǔ)料庫(kù)用于不同目的,可能就需要采取不同的標(biāo)注方法??蓜h除標(biāo)注附碼的語(yǔ)料若用于其他用途時(shí),可重新進(jìn)行標(biāo)注。
第二,標(biāo)注可以單獨(dú)抽出,另外儲(chǔ)存。這一原則實(shí)際上與第一條原則基本一致,目的是讓語(yǔ)料庫(kù)中語(yǔ)料的標(biāo)注能夠最大限度地增強(qiáng)語(yǔ)料使用的靈活性。
第三,語(yǔ)料的最終使用者應(yīng)該清楚標(biāo)注的原則和附碼的意義。
第四,在語(yǔ)料的使用和說(shuō)明文件中,應(yīng)說(shuō)明標(biāo)注者和標(biāo)注所使用的方法。
第五,應(yīng)向用戶表明語(yǔ)料的標(biāo)注并非完美無(wú)缺,它只是一種可能有用的工具。
第六,標(biāo)注應(yīng)該采用綜合的使用范圍廣泛的語(yǔ)法理論以方便語(yǔ)料庫(kù)的使用,而不是按照使用范圍狹窄的某一特定的語(yǔ)法理論。
第七,任何標(biāo)注模式都不能作為第一標(biāo)準(zhǔn)。在標(biāo)注模式的確定過(guò)程中,目前比較理想的做法是,綜合考察已有的各種標(biāo)注模式,分析各種模式的長(zhǎng)處與短處,結(jié)合自己語(yǔ)料庫(kù)的實(shí)際應(yīng)用,建立一種折中的標(biāo)注模式。
以上七個(gè)原則,中心意思也就是最大可能地方便標(biāo)注者和使用者,并被廣泛認(rèn)可。壯語(yǔ)語(yǔ)料庫(kù)的駙碼標(biāo)注可參考Leech提出的這些原則。
?。?)壯語(yǔ)語(yǔ)料庫(kù)可參考的語(yǔ)料標(biāo)注模式
自語(yǔ)料庫(kù)誕生以來(lái),人們采用了各種各樣的標(biāo)注模式。目前,語(yǔ)料庫(kù)語(yǔ)言學(xué)領(lǐng)域內(nèi)的許多研究者正在致力于建立一種國(guó)際統(tǒng)一的標(biāo)準(zhǔn)標(biāo)注模式,可作為壯語(yǔ)語(yǔ)料庫(kù)的參考模式。
COCOA參考系統(tǒng)是一種很早出現(xiàn)的用于從機(jī)讀語(yǔ)篇中提取詞匯索引的計(jì)算機(jī)系統(tǒng),它的一些標(biāo)注的格式已經(jīng)被OCP(Oxford Concordance Program)所采用,而且被“朗文—蘭卡斯特語(yǔ)料庫(kù)”(Longman-Lancaster corpus)、“赫爾辛基語(yǔ)料庫(kù)”等應(yīng)用于語(yǔ)料的標(biāo)注之中。TEI(Text Encoding Initiative)被認(rèn)為(McEnery、Wilson,1996)最能反映當(dāng)前語(yǔ)料庫(kù)語(yǔ)言學(xué)家致力于建立更具形式化的機(jī)讀語(yǔ)篇信息編碼國(guó)際標(biāo)準(zhǔn)的動(dòng)向。它采用SGML(Standard Generalized Markup Language)詞性標(biāo)記附碼,在此基礎(chǔ)上又制訂了一套詳細(xì)的規(guī)則。TEI標(biāo)注模式已經(jīng)為詩(shī)歌、書信、戲劇等基本文體制訂了一套標(biāo)注的標(biāo)準(zhǔn)。一個(gè)語(yǔ)篇的總體情況可以用文件類型描述(DTD,document type description)標(biāo)出。DTD提供關(guān)于語(yǔ)篇所包含的語(yǔ)言單位、語(yǔ)言單位的組合形式,以及標(biāo)注附碼的含義等信息。
(3)壯語(yǔ)語(yǔ)料庫(kù)可標(biāo)注的類型
有一定規(guī)模的語(yǔ)料庫(kù)的語(yǔ)料標(biāo)注類型主要包括語(yǔ)篇背景信息、詞性、詞形、句法分析、語(yǔ)義、語(yǔ)篇結(jié)構(gòu)等。這些內(nèi)容也是壯語(yǔ)語(yǔ)料庫(kù)應(yīng)包含的類型。
語(yǔ)篇背景信息可以小部分通過(guò)文件名反映出來(lái)。語(yǔ)篇背景包括標(biāo)題、作者(包括年齡、性別、國(guó)籍等)、語(yǔ)篇的寫作時(shí)間、書面語(yǔ)還是口語(yǔ)、何種變體的語(yǔ)言、內(nèi)容類別、語(yǔ)料來(lái)源等各種信息。這些信息對(duì)語(yǔ)料的分類與索引是非常重要的。
詞性標(biāo)注有時(shí)也被稱為語(yǔ)法標(biāo)注,目的是標(biāo)明語(yǔ)料中各單詞的詞性,例如單數(shù)普通名詞、形容詞的比較級(jí)、過(guò)去分詞等。詞性標(biāo)注是整個(gè)標(biāo)注過(guò)程的最基礎(chǔ)階段,為進(jìn)一步的句法分析和語(yǔ)義標(biāo)注奠定了基礎(chǔ)。
詞形標(biāo)注是指把單詞的原形標(biāo)注出來(lái),是整個(gè)標(biāo)注過(guò)程的重要步驟,因?yàn)檫@些信息對(duì)于詞匯研究和詞典編纂XNYi3+Hm2ueeJrWEkfCfyJ6Ok0ZwNxNk7NYhFBiRLR8=尤為重要。通過(guò)詞形標(biāo)注,我們可以非常方便地統(tǒng)計(jì)詞匯的使用頻率,提取單詞的各種變化形式和統(tǒng)計(jì)它們的分布情況。
句法分析是把句子的各種組成成分用各種表示句法特征的附碼標(biāo)注出來(lái)。句法分析在目前一般根據(jù)語(yǔ)料庫(kù)的目的等因素而采用不同的語(yǔ)法理論,而對(duì)于句法結(jié)構(gòu)標(biāo)注方法,不同的語(yǔ)料庫(kù)采用的方法也不同。
語(yǔ)義標(biāo)注主要包括語(yǔ)言單位的語(yǔ)義特征和語(yǔ)言單位之間的語(yǔ)義關(guān)系。由于語(yǔ)義標(biāo)注的歷史不長(zhǎng),人們目前對(duì)于標(biāo)注的內(nèi)容還沒(méi)有一致的看法。現(xiàn)在一些語(yǔ)料庫(kù)研究者正在致力于設(shè)計(jì)一些語(yǔ)義分析系統(tǒng),以便于進(jìn)行語(yǔ)義標(biāo)注。
語(yǔ)篇結(jié)構(gòu)的標(biāo)注在目前各種語(yǔ)料庫(kù)的實(shí)際情況中進(jìn)行得還不太普遍。Stenstrom(1984)采用語(yǔ)篇附碼對(duì)“倫敦—隆德英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”(London-Lund Corpus of Spoken English)進(jìn)行語(yǔ)篇標(biāo)注。
有些語(yǔ)料庫(kù)要進(jìn)行語(yǔ)音標(biāo)注,但是由于語(yǔ)音標(biāo)注完全需要人工完成,而且要求標(biāo)注者具有相當(dāng)高的語(yǔ)音聽辨能力和語(yǔ)音學(xué)水平,因此,除非特殊需要,目前進(jìn)行語(yǔ)音標(biāo)注的很少。
五、結(jié)語(yǔ)
國(guó)內(nèi)語(yǔ)料庫(kù)語(yǔ)言學(xué)通過(guò)多年的發(fā)展,無(wú)論是在語(yǔ)料庫(kù)的利用上還是在研究方法上都取得了長(zhǎng)足的進(jìn)步,但同時(shí)我們也應(yīng)看到存在的一些問(wèn)題。如各研究領(lǐng)域發(fā)展欠平衡,有些語(yǔ)料庫(kù)的選取不夠恰當(dāng),采取的統(tǒng)計(jì)方法不夠嚴(yán)謹(jǐn),等等。我們應(yīng)該充分認(rèn)識(shí)到語(yǔ)料庫(kù)研究對(duì)我國(guó)語(yǔ)言研究的重要意義,密切注意國(guó)外語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的最新動(dòng)態(tài),充分利用一切語(yǔ)料庫(kù)資源和語(yǔ)料庫(kù)研究成果,并結(jié)合我國(guó)的語(yǔ)言教學(xué)和研究現(xiàn)狀,進(jìn)行更深入的語(yǔ)言研究和語(yǔ)言應(yīng)用研究。少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)建設(shè)是很有發(fā)展前途的研究領(lǐng)域。目前國(guó)內(nèi)已有研究單位和學(xué)者著手或者開始建立壯語(yǔ)語(yǔ)料庫(kù),希望我國(guó)的研究者能夠在國(guó)外研究的基礎(chǔ)上,根據(jù)我國(guó)壯語(yǔ)的實(shí)際需要,建立一套適合壯語(yǔ)實(shí)際情況的語(yǔ)料標(biāo)注系統(tǒng)。這無(wú)疑是對(duì)我國(guó)的少數(shù)民族語(yǔ)言研究作出重要貢獻(xiàn),尤其是對(duì)壯語(yǔ)的研究有極大的意義,將促進(jìn)壯語(yǔ)語(yǔ)料庫(kù)的研究與發(fā)展。
參考文獻(xiàn):
[1]畢麗克孜.語(yǔ)料庫(kù)語(yǔ)言學(xué)的應(yīng)用和維吾爾語(yǔ)語(yǔ)料庫(kù)詞頻統(tǒng)計(jì)的意義[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2005,(6).
?。?]崔剛,盛永梅.語(yǔ)料庫(kù)中語(yǔ)料的標(biāo)注[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)),2000(1).
?。?]何安平.教育中的應(yīng)用——理論與實(shí)踐[M].廣州:廣東高等教育出版社,2004.
?。?]劉巖.關(guān)于中國(guó)少數(shù)民族瀕危語(yǔ)言語(yǔ)音語(yǔ)料庫(kù)的設(shè)計(jì)[J].中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2006,(4).
?。?]羅起君.談壯語(yǔ)的可利用價(jià)[J].河池師專學(xué)報(bào)(社會(huì)科學(xué)版),2002,(9).
[6]潘永梁.語(yǔ)料庫(kù)語(yǔ)言學(xué)的目的和方法[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2001,(3).
?。?]王建新.我國(guó)在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究方面的部分進(jìn)展(概述)[J].外語(yǔ)與外語(yǔ)教學(xué)(大連外國(guó)語(yǔ)學(xué)院學(xué)報(bào)),1999,(3).
?。?]王澤鵬.發(fā)展方言語(yǔ)料庫(kù) 提高研究水平——兼談粵方言語(yǔ)料庫(kù)的建設(shè)[J].煙臺(tái)師范學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003,(3).
?。?]楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海:上海外語(yǔ)教育出版社,2002.
?。?0]周亞娟.語(yǔ)料庫(kù)語(yǔ)言學(xué)的應(yīng)用及其在中國(guó)的發(fā)展趨勢(shì)[J].齊齊哈爾大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2007,(5).