摘 要:語料庫驅(qū)動學習模式是近年來新興的一種語言學習模式。但包含豐富數(shù)據(jù)卻沒有進行標注和分類的語料庫對學習者的幫助是有限的。目前有一些經(jīng)過標注及處理的基于語料庫的應(yīng)用平臺及學習系統(tǒng),對教師及學習者進行語言研究與學習有很大幫助。例如:與十四億字的LDC Chinese Gigaword語料庫結(jié)合的“中文詞匯特性速描系統(tǒng)”,漢語中介語語料庫及多媒體語料庫。因此,建設(shè)并開發(fā)基于語料庫的、簡單易用并具有針對性的面向漢語教學與學習的教學資源平臺及應(yīng)用系統(tǒng)是十分必要的。
關(guān)鍵詞:對外漢語教學 語料庫 語料庫驅(qū)動
一、引言
語料庫是以計算機為載體,以真實出現(xiàn)過的語言材料為基礎(chǔ)資源,經(jīng)過加工(分析和處理)而成的資源庫。語料庫中的語言材料的運用近似于運用語言本身,具有代表性和真實性。將語料庫引入二語教學與學習中,為二語教學及學習提供了新的可能。
語料庫驅(qū)動的學習模式是近年來新興的一種語言學習模式,自20世紀90年代初Tim Johns提出基于語料庫數(shù)據(jù)的外語學習方法——數(shù)據(jù)驅(qū)動學習模式(Data-Driven Learning,簡稱DDL)以來,語料庫就與語言教學有了千絲萬縷的聯(lián)系。這種語言教學方法引導學生自己用索引軟件去查詢語料庫中的語料,這些語料均來自本族語者口語或書面語,通過查詢語言使用中的真實語料,而不是課本中教材編寫者設(shè)計出的例子,學習者可以更真實地體會到目的語在實際運用時的用法。同時,數(shù)據(jù)驅(qū)動學習是一種發(fā)現(xiàn)式、探索式學習模式,它以大量真實的語料庫數(shù)據(jù)為基礎(chǔ),要求語言學習者帶著問題,運用檢索軟件,在對大量真實語料觀察和分析的基礎(chǔ)上,由學生從真實的語言使用實例中發(fā)現(xiàn)自己在語言學習中所遇到的問題,最終解決問題。
由語料庫驅(qū)動的外語在線自主學習模式在外語教學領(lǐng)域已經(jīng)取得了良好的效果。該模式通過詞匯或語法結(jié)構(gòu)、語料庫和語料庫索引工具提供的語境共現(xiàn)、語料庫的文本展現(xiàn)(部分有音頻或同時有音、視頻)、網(wǎng)絡(luò)互動的有機結(jié)合為外語學習者提供自下而上的語言學習環(huán)境,從而促進學習者對外語的自主和互動學習。(梁紅梅,2005)
近年來,出現(xiàn)了語料庫的“教學加工(Pedagogic Processing of Corpora,PPC)”這一新理念。它是一個將大型語料庫的語料、頻數(shù)結(jié)果乃至語料庫技術(shù)轉(zhuǎn)化為實現(xiàn)語言教學目標的資源以及教學手段的加工過程(何安平,2008),該理念主張建設(shè)教學型語料庫,以將語料庫中的語料、語言調(diào)查結(jié)果乃至檢索技術(shù)轉(zhuǎn)化為日常語言教學的資源和教學手段。
如今,大數(shù)據(jù)時代給我們帶來了海量信息,信息量巨大、結(jié)構(gòu)復雜的大數(shù)據(jù)中往往隱含著人們意想不到的發(fā)現(xiàn)。在大數(shù)據(jù)時代,建立適合學習者的多樣化的語料庫,并將其和網(wǎng)絡(luò)互動技術(shù)的應(yīng)用相結(jié)合,能改變目前單純依靠教材進行語言教學的被動局面,可以解決語言學習材料的真實性和多元化問題,適應(yīng)立體化、網(wǎng)絡(luò)化、個性化語言教學和學習的實際需求,使對外漢語教學朝著個性化、不受時間和地點限制、主動式的學習方向發(fā)展。如何利用語料庫驅(qū)動模式促進對外漢語教學的發(fā)展,把這種先進且功能強大的工具有效地運用到對外漢語教學中,是我們需要繼續(xù)思考的問題。
二、語料庫與對外漢語教學
隨著信息處理技術(shù)的不斷發(fā)展,面向不同目的和用途的不同類型的語料庫應(yīng)運而生,它們在語言學各個層面的理論和應(yīng)用研究、詞典研究及教材編撰等方面發(fā)揮著越來越重要的作用。將語料庫語言學的研究成果與技術(shù)手段應(yīng)用于語言教學是現(xiàn)今語言研究中一個令人矚目的新領(lǐng)域。目前建成的有影響力的語料庫有:北京大學CCL語料庫、國家語委現(xiàn)代漢語語料庫、北京語言大學BCC語料庫、HSK動態(tài)作文語料庫、國家語言資源監(jiān)測與研究平面媒體語言中心DCC動態(tài)流通語料庫等。但受建庫目的和最終用戶類型等因素的影響,大部分已建成的語料庫也常常只是小群體的語料庫研究者從事語言研究的工具,目前只有少部分語料庫直接應(yīng)用于語言教學。
這些語料庫包含豐富的數(shù)據(jù),但沒有進行細顆粒標注和分類的語料庫對學習者的幫助是有限的。如在對外漢語教學中,學習者對“或者/還是”這對詞往往分辨不清楚,而語料庫中有大量的真實語料,我們可否利用語料庫讓學生在語料中總結(jié)出它們的用法呢?通過檢索,在“北大CCL語料庫”中,“還是”共有134133條結(jié)果,“或者”共有68486條結(jié)果;在“北語BCC現(xiàn)代漢語語料庫”中,“還是”共270255條結(jié)果,“或者”共72288條結(jié)果;在“語料庫在線”中,共查詢到2229條符合“或者”要求的例句,5720條符合“還是”要求的例句。盡管有如此多的例句,但仍不能說它們窮盡了“或者/還是”這對詞的所有用法。由于對這些例句沒有分類標注,如果要總結(jié)出它們的用法,還需要人工進行標注,工程量巨大。所以,大型通用的語料庫并不能直接用于語言教學,必須進行一些處理,或基于語料庫開發(fā)出簡單、實用、具用戶友好性的應(yīng)用系統(tǒng)或?qū)W習平臺。
傳統(tǒng)的精讀教學始終難以擺脫“以教師為中心”的教學理念的束縛,學生長期處于被動接受的位置,導致其學習積極性不高,發(fā)現(xiàn)、探索、歸納和創(chuàng)新的能力也無法得到培養(yǎng)。研究發(fā)現(xiàn),學習者注意并處理足量真實語例的時候,更有可能取得良好的語言學習效果。因此,在針對自主學習、真實語言輸入、自我探索和發(fā)現(xiàn)的語料庫驅(qū)動的學習模式引導下,學習者可以更有效地獲取語言知識。雖然語料庫驅(qū)動模式對對外漢語教學有多方面的幫助,但目前我國能夠直接用于對外漢語教學、可以共享的高質(zhì)量語料庫少之又少,大型通用的語料庫內(nèi)容通常不能與對外漢語教學直接接軌,為了更好地將語料庫運用于對外漢語教學中,服務(wù)于對外漢語教學的語料庫及應(yīng)用平臺亟待開發(fā)。
三、語料庫在對外漢語教學中的應(yīng)用
(一)應(yīng)用系統(tǒng)開發(fā)
在語言教學中,詞匯教學是教學中的重點,詞語搭配是詞匯教學的重中之重。同時,在語料庫語言學中,從20世紀60年代Sinclair團隊的OSTI Report,到COBUILD英語詞典,再到Pattern Grammar和短語學的興起,“詞語搭配”始終是語料庫語言學關(guān)注的焦點,是研究詞匯意義最重要的方法之一。
目前,基于語料庫的詞語搭配研究應(yīng)用系統(tǒng)開發(fā)得比較成功,臺灣中央研究院的“中文詞匯特性速描系統(tǒng)”有很大的借鑒意義。中文詞匯特性速描系統(tǒng)除了提供一般的關(guān)鍵詞及語境查詢外,還提供了詞匯特性速描(word sketches)、語法關(guān)系以及同近義詞分析等自動產(chǎn)生的語法知識。中文詞匯特性速描系統(tǒng)與十四億字的LDC Chinese Gigaword語料庫結(jié)合后,提供了絕大部分中文詞匯實際使用的規(guī)則性描述,可應(yīng)用于詞典編纂、華語教學、語言學研究與自然語言處理。
中文詞匯特性速描系統(tǒng)的開發(fā)至少在以下方面取得了突破:1.搭配的辨識和自動發(fā)現(xiàn)。只要在系統(tǒng)中輸入如“方便/便利”這樣的詞對,素描系統(tǒng)就會呈現(xiàn)經(jīng)常和“方便/便利”搭配的詞語,如交通、生活、條件等。2.搭配研究成果的可視化表達。用表格方式分兩列呈現(xiàn)不同詞語的不同搭配,還設(shè)-21、-14、-7、0、7、14、21七個數(shù)字,顯示不同詞語的搭配距離。中文詞匯特性速描系統(tǒng)將詞語搭配自動化、可視化、形式化,可以直觀呈現(xiàn)詞語之間的差異,為對外漢語教學中的難點之一——詞匯辨析,提供了清晰、直觀的參考,同時也可以為老師及學生提供便捷的查詢渠道。如圖1、圖2、圖3所示。
(二)漢語中介語語料庫的應(yīng)用
中介語語料庫對于語言研究及語言教學都具有重大意義。在語言教學中,中介語語料庫可以為教師提供真實的中介語語料,根據(jù)這些語料可以對漢語中介語語料庫中的漢字偏誤、詞語運用偏誤進行處理,對癥下藥,更有針對性地解決學習者的問題。同時,語料庫也可間接用于對外漢語教學:如外向型學習詞典的編纂研究、漢語教材的開發(fā)和語言水平測試與檢測等,使對外漢語教學更有針對性。
北京語言大學HSK動態(tài)作文語料庫、中山大學漢字偏誤連續(xù)性中介語語料庫、臺灣師范大學漢語學習者漢字偏誤數(shù)據(jù)資料庫、暨南大學華文學院中介語語料庫,是目前公開且有代表性的幾個中介語語料庫。
北京語言大學HSK動態(tài)作文語料庫從1992~2005年的2萬多份留學生作文試卷中選取了11569篇,約400萬字的語料。中山大學中介語語料庫收錄了2003年以來留學生的字句練習和作文等資料,總共200多萬字。臺灣師范大學漢字偏誤庫的語料來自臺灣師范大學國語中心(MTC)、臺灣大學國際華語研習所(ICLP)、臺灣大學文學院語言中心中文組(CLD),收錄了德語、法語、英語等15種母語背景學生的漢字偏誤,分初、中、高三級,共計2536個偏誤漢字。暨南大學華文學院中介語語料庫收錄了外國留學生、海外函授生、來華受訓的海外華文教師平時的作文、日記、考試作文,語料約340萬字。
中介語語料庫的建設(shè)是對外漢語教學研究的重要內(nèi)容。留學生的各種語言錯誤,尤其是偏誤信息,可以為研究者提供可靠的統(tǒng)計數(shù)據(jù),可用于留學生漢語習得分析、語言教學研究。如近年來詞匯教學中的易混淆詞研究,必須依賴于中介語語料庫的偏誤數(shù)據(jù),了解學生究竟容易混淆哪些詞,易混點在哪里,而不是想當然地按照中國人學漢語的模式來判定學習者的混淆點。
(三)多媒體語料庫的應(yīng)用
21世紀不僅是信息時代、大數(shù)據(jù)時代,也是多媒體時代。多媒體不僅以文字為載體,還綜合了聲音、圖像、視頻等記錄方式,多媒體的語言記錄打開了語言教學的另一扇窗戶——用于語言教學的多媒體語料庫,語言教學也已進入了“多媒體”時代。
“多媒體語料庫”這一提法由來已久,但目前學界對其還沒有形成一個統(tǒng)一的定義,國內(nèi)外系統(tǒng)論述多媒體語料庫的文獻尚不多見。多媒體語料庫作為一種輔助性工具應(yīng)用于語言教學,是一個新興的研究領(lǐng)域。梁紅梅等學者認為,“把語料庫索引與文本、音頻、視頻有機地結(jié)合起來,建立多功能的多媒體語料庫更能滿足我國大學英語學習者的實際需求”。多媒體語料庫將多媒體技術(shù)與語料庫模式結(jié)合起來,在教學中取長補短,相得益彰。白皞《多媒體語料庫應(yīng)用于視聽說教學的學習風格差異研究》證明了:將多媒體語料庫應(yīng)用于視聽說課堂能有效提高學生聽力、口語能力。
學習者利用多媒體語料庫輔助學習時,不僅能學習到語言知識,還能聽到或者看到與索引分析相關(guān)聯(lián)的音視頻資料,以更直觀的形式體驗語言使用的真實場景和文化背景。語料庫與多媒體技術(shù)的結(jié)合,能給數(shù)據(jù)驅(qū)動學習帶來新的生機。但是目前,國內(nèi)的研究大都是基于純文本語料庫進行索引分析來輔助二語教學,語料庫和多媒體教學手段在理念上和應(yīng)用中的結(jié)合都較為簡單,其在二語教學中的優(yōu)勢也未能得到充分的體現(xiàn)。
運用多媒體語料庫進行對外漢語教學,除了學習者的提問、歸納、總結(jié)及分析語料的主觀能力外,教學的效果關(guān)鍵取決于語料及索引工具的選取。因此,多媒體語料庫驅(qū)動學習模式的核心就在于多媒體語料庫的建設(shè)和在其基礎(chǔ)上的學習平臺的開發(fā)。
四、結(jié)語
從20世紀末的數(shù)據(jù)驅(qū)動式語言學習(DDL)到本世紀初的語料庫教學加工理念(PPC),語料庫的發(fā)展體現(xiàn)了語料庫語言學與二語教學交叉領(lǐng)域的拓展與更新。以語料庫為驅(qū)動的方法在語言教學領(lǐng)域己經(jīng)取得了一定的成效。但是,有研究表明,以語料庫為驅(qū)動的學習材料只有在它適合學生的學習水平以及經(jīng)驗的時候才會產(chǎn)生效果。所以,包含豐富數(shù)據(jù)但沒有進行標注和分類的語料庫對學習者的幫助是有限的。因此,建設(shè)基于語料庫的、簡單易用的并且具有針對性的面向漢語學習的教學資源平臺是十分必要的。具體而言,一、建設(shè)專門的教學語料庫,利用語料庫進行語言教學、教師教育和語言教學資源庫建設(shè);二、建設(shè)標注科學,數(shù)據(jù)統(tǒng)計完備、平衡的中介語語料庫;三、繼續(xù)開發(fā)包含綜合型教學資源的多媒體語料庫,建立在線網(wǎng)絡(luò)學習平臺,重視媒體語料的分類存儲等。
(本文承國家語委“十二五”科研規(guī)劃項目“語言資源建設(shè)規(guī)劃研究”[項目編號:YB125-124]資助。)
參考文獻:
[1]白皞.多媒體語料庫應(yīng)用于視聽說教學的學習風格差異研究[D].
新鄉(xiāng):河南師范大學碩士學位論文,2012.
[2]洪嘉馡,黃居仁,許銘維.以中文十億詞語料庫為基礎(chǔ)之兩岸詞
匯對比研究[J].中文計算語言學期刊(臺灣),2013,(2).
[3]洪嘉馡,柯淑津,黃居仁等.詞義預測研究:以語料庫驅(qū)動的研
究方法[A].中國計算機語言學研究前沿進展(2007-2009)[C].2009.
[4]何安平.語料庫的“教學加工”發(fā)展綜述[J].中國外語,2010,
(4):47-52.
[5]何安平.語料庫如何走進課堂教學——原則和方法探究[J].中國
外語教育,2008,(4).
[6]焦彬凱.基于多媒體語料庫的數(shù)據(jù)驅(qū)動學習模式研究[J].中國電
化教育,2010,(4):71-74.
[7]李文中.語料庫、學習者語料庫與外語教學[J].外語界,1999,
(1):51-55.
[8]李文中.平臺化語料庫開發(fā)環(huán)境[A].第十二屆中國當代語言學研
討會論文集[C].武漢,2008.
[9]梁紅梅,尹曉霞,李宇莊等.語料庫驅(qū)動下的外語在線自主學習
模式[J].外語電化教學,2005,(6):29-32.
[10]梁紅梅,何安平.語料庫的“教學加工”與教材編寫[J].當代
外語研究,2012,(10):35-39.
[11]吳進善.基于多媒體語料庫的數(shù)據(jù)驅(qū)動學習模式研究[J].當代
外語研究,2010,(6):44-47.
[12]莊智象,黃衛(wèi),王樂.我國多媒體外語教學的現(xiàn)狀與展望[J].
外語電化教學,2007,(1):20-27.
(李娟 北京師范大學中文信息處理研究所 100875)