苗天順
(北京工商大學(xué),北京 100048)
語料庫就是存放語言材料的倉庫,或者說,語料庫是為專門目的、按照明確設(shè)計標(biāo)準(zhǔn)收集的文章的集合(Granger 1998)。任何一種語言的語料都是無限的,要將其全部存入計算機(jī)是不可能的。但是為了研究一種語言,可以根據(jù)統(tǒng)計學(xué)的原理把這種語言的語料按一定的原則抽樣存入計算機(jī),把它作為這種語言的代表而進(jìn)行統(tǒng)計分析。這樣分析得出的結(jié)果,只要抽樣的原則合理,存入的語料有足夠的量,結(jié)果也是相當(dāng)可靠的(侯敏1999)。現(xiàn)在世界上已經(jīng)有了不少規(guī)模較大的語料庫,有些是國家級的,有些由大學(xué)和詞典出版商聯(lián)合建設(shè)。另外,由于個人微機(jī)的迅猛發(fā)展和存貯數(shù)據(jù)的硬盤造價持續(xù)下降,研究者個人也開始建立適合于自己研究的小型語料庫。
McEnery(2001))認(rèn)為,“語料庫語言學(xué)就是以語料庫為基本知識源來研究自然語言規(guī)律的一門學(xué)科?!庇纱丝梢钥闯?,語料庫語言學(xué)這個術(shù)語有兩層主要含義。一是利用語料庫對語言的某個方面進(jìn)行研究,即“語料庫語言學(xué)”不是一個新學(xué)科的名稱,而僅僅反映了一個新的研究手段。二是依據(jù)語料庫所反映出來的語言事實(shí)對現(xiàn)行語言學(xué)理論進(jìn)行批判,提出新的觀點(diǎn)或理論。只有在這個意義上“語料庫語言學(xué)”才是一個新學(xué)科的名稱。
語料庫語言學(xué)是20世紀(jì)80年代才嶄露頭角的一門交叉學(xué)科,它研究自然語言(natural language)文本的分類(classification)、采集(collection)、存儲(storage)、加工(processing)、統(tǒng)計分析和應(yīng)用(application),目的是憑借大規(guī)模語料庫提供的客觀翔實(shí)的語言證據(jù)來從事語言學(xué)研究和指導(dǎo)自然語言信息處理系統(tǒng)的開發(fā)和應(yīng)用。語料庫語言學(xué)的崛起和迅速發(fā)展令世人耳目一新。人們希望通過大規(guī)模真實(shí)語料的調(diào)查來獲取自然語言的各種語言事實(shí)及語言規(guī)律,從多方面多層次描寫語言并驗(yàn)證各種語言理論和假設(shè),甚至建立新的語言理論和語言觀。許多國家相繼建立了數(shù)以百計的各種語料庫,規(guī)模也躍升到數(shù)億詞級,語料庫建設(shè)正朝著擴(kuò)大庫容、國際化和多元化方向發(fā)展。
對語料庫語言學(xué)方面的研究和應(yīng)用主要有以下幾個方面:
對詞語語義、語用的研究一直是詞匯學(xué)研究的一個主要方面,語料庫中真實(shí)的語料能對單個詞語的意義和語用功能做出更為客觀的描述。這個研究成果對學(xué)習(xí)者深入全面了解詞的意義和實(shí)際面貌很有幫助。
詞語搭配研究越來越得到人們的重視。語言學(xué)家弗思(J.R.Firth)有一句名言:“觀其伴,而知其意?!币虼?,一個詞的詞義只能通過與之相伴出現(xiàn)的搭配才能加以辨識。從這一觀點(diǎn)出發(fā),無論是要識別一個詞的不同詞義,還是學(xué)會這個詞的用法,都必須普遍調(diào)查詞語的搭配關(guān)系和用法模式。換句話說,詞的含義與上下文有極其密切的關(guān)系,即:詞的含義服從于這樣的一般規(guī)則:一個詞用于一種新的語境時,就具有了新的含義。人們通過語料庫可以在自然語境下觀察詞語的搭配行為和類聯(lián)接,進(jìn)而啟迪詞匯教學(xué)。
詞語的語義韻律(semantic prosody)是一個詞語與語言中其他詞語反復(fù)聯(lián)系而獲得的連續(xù)的意義氛圍,它通常表達(dá)某種態(tài)度意義。語料庫是研究語言意義的有力工具。從一個語料庫中檢索節(jié)點(diǎn)詞(node),檢索上下文或臨近若干個詞而組成的并置結(jié)構(gòu)(collocates),并將出現(xiàn)這些節(jié)點(diǎn)詞或并置結(jié)構(gòu)的句子進(jìn)行比較分析,揭示了用常規(guī)方法很難發(fā)現(xiàn)或很難確定的語義特征——語義韻律。國內(nèi)有關(guān)語義韻律的研究有對語義韻律的介紹及其運(yùn)用對其他領(lǐng)域的啟示(潘瑤,馮躍進(jìn) 2003),有探討科技和學(xué)術(shù)研究文章中存在的語義韻律現(xiàn)象。
字典編篡者(lexicographer)用語料庫來編撰詞典(lexicalization)是語料庫運(yùn)用的又一個方面。計算機(jī)語料庫與詞典學(xué)的關(guān)系和對詞典學(xué)的貢獻(xiàn),在國內(nèi)外辭書出版界可謂人人皆知。語料庫中大量的自然語言例證使詞的定義更加完整、精確。電子語料庫給出了關(guān)于某一詞或詞語的所有用法舉例,使詞典的編撰與修改速度空前加快。詞或詞語在真實(shí)語料中的前后搭配語境更清楚地顯示該詞或詞語的語義特征、使用頻率和語用特點(diǎn),這使詞典的編撰更趨科學(xué)化。
利用語料庫對英語語言作多方面研究進(jìn)一步揭示語言規(guī)律,有助于英語的教和學(xué)。對教師課堂用語的研究可以提高教師對自己使用英語的認(rèn)識和敏感性;對學(xué)習(xí)者中介語的研究可以幫助教師認(rèn)識外語學(xué)習(xí)的規(guī)律,采取科學(xué)合理的教學(xué)方法。語料庫在外語教學(xué)中的應(yīng)用可以轉(zhuǎn)變教學(xué)思想,改進(jìn)教學(xué)方法,具有重要意義。
語料庫的研究成果在語言教學(xué)中的運(yùn)用是多方面的。參考語料庫語言學(xué)對英語語言的描述,人們可以更科學(xué)地制定和修訂教學(xué)大綱,更合理地編寫教材,更準(zhǔn)確地制定教學(xué)詞表。1994年9月開始實(shí)行的“大學(xué)英語教學(xué)大綱通用詞匯表(1-4級)”就是參考JDEST語料庫科技英語詞匯表和其他詞匯表進(jìn)行定量分析制定的。語料庫用于課堂教學(xué)有助于改進(jìn)教學(xué)方法。一個重要的例子是基于語料庫索引的數(shù)據(jù)驅(qū)動學(xué)習(xí)。這種新的教學(xué)模式鼓勵學(xué)生自己積極主動地從真實(shí)語料中去觀察語言現(xiàn)象,發(fā)現(xiàn)語言規(guī)律。
基于語料庫對英語教師話語的研究成果有助于教師對其教學(xué)用語的認(rèn)識并提高其應(yīng)用教學(xué)用語的敏感意識,為英語教育和教學(xué)改革提供實(shí)證性參考依據(jù)。何安平(2003)調(diào)查和分析了英語課堂教學(xué)語料庫中教師話語的部分語言特征,探討了國內(nèi)高中、初中和小學(xué)英語課教師話語中的認(rèn)知思維導(dǎo)向特點(diǎn)及其教育教學(xué)功能。利用語料庫對學(xué)生中介語的研究有利于教師在教學(xué)過程中采取更合理的教學(xué)方法,提高教學(xué)效果。
利用語料庫研究寫作教學(xué)可以通過分析學(xué)生作文中出現(xiàn)的錯誤,或是通過與本族語學(xué)習(xí)者語料庫比較來了解母語寫作能力對英語寫作能力的影響,為寫作教學(xué)提供建議和參考依據(jù),也可以利用語料庫改進(jìn)寫作的評估模式。婁寶翠(2001)利用中國學(xué)習(xí)者英語語料庫中的大學(xué)英語學(xué)習(xí)者作文子語料庫研究中國學(xué)生的造詞現(xiàn)象,提出了外語教師對造詞現(xiàn)象應(yīng)采取的態(tài)度以及在教學(xué)中應(yīng)采取的相應(yīng)措施。
利用口語語料庫對學(xué)生口語的研究,包括對小品詞的研究、韻律特征研究、學(xué)生交際策略的研究、某些句式在口語中的語用功能的研究等。對口語多方面的研究能更好地指導(dǎo)教師的口語教學(xué),培養(yǎng)和提高學(xué)生的口語能力。何蓮珍等(2004)利用大學(xué)英語四、六級考試口語考試(CET-SET)語料庫研究非英語專業(yè)大學(xué)生在大學(xué)英語口語考試中使用交際策略的情況。研究發(fā)現(xiàn),口語水平對交際策略的觀念和使用影響顯著。這一研究結(jié)果對培養(yǎng)學(xué)生的交際能力具有啟示作用。
用語料庫研究修辭和文學(xué)可以提供數(shù)據(jù)支持,將定性與定量研究方法相結(jié)合,研究更科學(xué)可信。周江林等(2003)使用英國國家語料庫檢索“high”和“l(fā)ow”兩個詞,研究英語的空間隱語。從語義的角度,通過分析共現(xiàn)于同一語境中有關(guān)詞項(xiàng)的語義特點(diǎn),可以開辟一個新途徑來理解英語的修辭手段及其效果。語料庫在文學(xué)領(lǐng)域的研究通過對文學(xué)作品文本總體特征的描述來分析文學(xué)文本、作家的寫作技巧、語言風(fēng)格等。
通過對不同語域語料庫的調(diào)查研究,可以了解在不同語域中英語使用的一些特點(diǎn)。余千華等(2001)以科技英語語料庫中統(tǒng)計的模糊限制語使用頻率作為參照標(biāo)準(zhǔn),研究中外重要英語科技期刊上的論文中模糊限制語的使用情況,分析說明了中外科技工作者在用英語寫作科技論文時使用模糊限制語習(xí)慣上的一些異同點(diǎn),給中國科技工作者用英語寫科技論文時提供借鑒。
基于大規(guī)模的語料庫的語音識別、音字轉(zhuǎn)換技術(shù)(中文輸入)、自動文本校對技術(shù);
基于語料庫的句法分析、機(jī)器翻譯、機(jī)器學(xué)習(xí)技術(shù)、語音模型訓(xùn)練以及語言模型的評價等等;
利用語料庫訓(xùn)練隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)進(jìn)行分詞(word segmentation)、詞性標(biāo)注(word tagging)、詞義標(biāo)注等等。
語料庫語言學(xué)的發(fā)展離不開語料庫的建設(shè),而語料庫的建設(shè)依賴于語言處理技術(shù)。國內(nèi)許多學(xué)者依據(jù)自己的研究需要提出了自建語料庫的設(shè)想。王克非(2004)具體介紹了新型雙語對應(yīng)語料庫的設(shè)計和構(gòu)建。徐箐等(2003)介紹了一個對漢語語料進(jìn)行切分標(biāo)注加工的系統(tǒng)。對自然語言信息處理的研究基本上是對中文語料進(jìn)行的。
對于語料庫語言學(xué)的發(fā)展前景,近年來語料庫語言學(xué)家多有論及。如Svartvik(1992)預(yù)測“計算機(jī)將運(yùn)行更快,體積更小,價格更低;語料庫將規(guī)模更大,質(zhì)量更好,利用率更高。”.McEnery(1996)則認(rèn)為,語料庫語言學(xué)的發(fā)展將主要受語料庫規(guī)模、類型、國際關(guān)注和計算機(jī)發(fā)展等四方面力量的左右?;谡Z料庫語言學(xué)的研究現(xiàn)狀,語料庫語言學(xué)未來的發(fā)展方向?qū)⒅饕w現(xiàn)在以下幾個方面:
鑒于大型語料庫語料標(biāo)注工作的滯后,有人認(rèn)為今后一段時間還應(yīng)發(fā)展小型專用語料庫,例如肖特(1996)為研究言語和思維的表達(dá)所建立的語體研究語料庫。此外,口語語料庫的發(fā)展應(yīng)加大力度,以克服目前書面語語料庫和口語語料庫發(fā)展的失衡,促進(jìn)口語研究的發(fā)展。Wilson(1996)預(yù)測在不久的將來會有更多的語料存儲媒體問世。
語料庫標(biāo)注是對語言進(jìn)行多維、多層面分析的基礎(chǔ),而此種分析結(jié)果的受益者不僅限于原標(biāo)注者,因而語料庫的有效利用在很大程度上有賴于語料庫標(biāo)注的層次和質(zhì)量。
語料庫分析有賴于計算機(jī)環(huán)境的支持,即從語料庫中檢索數(shù)據(jù)并對語料進(jìn)行加工的軟件工具。充分利用統(tǒng)計學(xué)方法,建立科學(xué)有效的語料處理工具可以增加語言學(xué)研究人員的工作效率。目前軟件工具盡管已有了一定數(shù)量,但多數(shù)工具都是針對某一個特定的語料庫,適用范圍有限,缺乏通用性。
語料庫是一個由大量在真實(shí)情況下使用的語言信息集成的、可供計算機(jī)檢索的、專門作研究使用的巨型資料庫。它以其容量大、語料真實(shí)、檢索快捷準(zhǔn)確等獨(dú)特的優(yōu)勢在現(xiàn)代語言學(xué)研究和語言教育中正發(fā)揮著越來越重要的作用。語料庫語言學(xué)不僅僅是研究方法論的一個重要突破,它更孕育著對語言描述框架乃至語言觀念的不斷更新(張政 2010)。
Granger,S.(1998).Learner English on computer[M].London:Longman。
McEnery,T.Wilson(1996).A Corpus Linguistics[M].Edinburgh University Press。
何安平(2004).語料庫在外語教育中的應(yīng)用:理論與實(shí)踐 [M].廣東高等教育出版社。
何蓮珍,劉榮君(2004).基于語料庫的大學(xué)生交際策略研究 [J].外語研究(1)。
候敏(1999).計算語言學(xué)與漢語自動分析 [M].北京廣播學(xué)院出版社。
婁寶翠(2001).中國學(xué)生英語寫作中的造詞現(xiàn)象 [J].外語教學(xué)與研究(1)。
潘瑤,馮躍進(jìn)(2003).非英語專業(yè)研究生寫作中連接詞用法的語料庫調(diào)査 [J].現(xiàn)代外語(2)。
王克非(2004).新型雙語對應(yīng)語料庫的設(shè)計與構(gòu)建 [J].中國翻譯(6)。
余千華,官玲玲,李娜,劉義(2001).英語科技論文中的模糊限制語 [J].華中科技大學(xué)學(xué)報 (社科版)(4)。張政(2010).計算語言學(xué)與機(jī)器翻譯導(dǎo)論 [M].外語教學(xué)與研究出版社。
周江林,張家強(qiáng)(2003).基于語料庫的英語空間隱喻研究 [J].解放軍外國語學(xué)院學(xué)報(5)。