吳艷霞 王玲香
(江西中醫(yī)藥大學(xué)人文學(xué)院,江西 南昌 330004)
語料庫現(xiàn)在一般是指存放在計算機(jī)里的大量語料和定位檢索管理軟件的結(jié)合[1]。語料庫功能十分強(qiáng)大,最突出的特點是能快速而準(zhǔn)確地提供一個或多個關(guān)鍵詞有關(guān)的批量真實語料,從而揭示語言的本質(zhì)和運(yùn)用規(guī)律,對日常外語教學(xué)十分有用。
國外早在上世紀(jì)70年代便開始將語料庫應(yīng)用于語言教學(xué)。到了90年代,隨著語料庫應(yīng)用于語言教學(xué)的規(guī)模不斷擴(kuò)大,語料庫和語言教學(xué)成為1994年語料庫語言學(xué)年會(ICAME)的主題,Wichman等人將該年會論文編輯為《教學(xué)與語言語料庫》[2]。開始于1994年的教學(xué)與語料庫國際研討會(TaLC),兩年一屆,主要研究每屆TaLC的主要議題和研究成果,語料庫應(yīng)用于語言教學(xué)呈如下發(fā)展趨勢:(1)語料庫應(yīng)用于教學(xué)的研究已跨出了宣傳和介紹其可能性和潛在價值的階段,落實到了如何向教學(xué)應(yīng)用。(2)對普通語料庫進(jìn)行教學(xué)加工,用于語言教學(xué)實踐的方方面面。(3)教學(xué)語料庫要開發(fā)適合學(xué)生水平、符合教學(xué)要求和進(jìn)度的小型語料庫。(4)創(chuàng)建多模態(tài)語料庫,即語料庫與音頻和視頻相鏈接的,甚至是同步共現(xiàn)的綜合性教學(xué)資源庫。
國內(nèi),語料庫在語言教學(xué)尤其是外語教學(xué)中的應(yīng)用研究,也取得了一定成果[3][4][5]。這方面貢獻(xiàn)比較突出的是華南師范大學(xué)的何安平教授和她的科研團(tuán)隊,不僅取得了豐碩的成果,而且還建立了語料庫語言學(xué)與語言教育教學(xué)的專題網(wǎng)站。但目前國內(nèi)對語料庫在外語教學(xué)中的應(yīng)用還僅局限于語音、語法、詞匯和閱讀教學(xué),對于聽說教學(xué),其應(yīng)用價值大打折扣。目前,專門針對聽說教學(xué)的語料庫很少有人問津,是個亟待開發(fā)的領(lǐng)域。本文作者在中國期刊全文數(shù)據(jù)庫里分別以“語料庫聽力”、“聽力語料庫”和“視聽語料庫”為主題和關(guān)鍵詞,對2001至2012年間全部期刊進(jìn)行檢索,共獲得有關(guān)聽力語料庫研究的學(xué)術(shù)論文13篇,按論文的研究內(nèi)容將其進(jìn)行分類如下:(1)對純文本語料庫在聽力教學(xué)中應(yīng)用的探討。(2)對聽力語料庫構(gòu)建的介紹。(3)對視頻語料庫優(yōu)點的綜述和籠統(tǒng)的構(gòu)想。
基于以上研究,并對學(xué)生的聽力需求做大量的調(diào)查后,本文以英語原聲電影和電視為語料,構(gòu)建“影視語料庫”。電影、電視等未經(jīng)改寫的原始材料,注重語言的原生性和學(xué)習(xí)的場景性,是練習(xí)純正地道英語的首選。但往往線性播放,作為聽說材料,不利于主題的加深及圖式的構(gòu)建。本文利用視頻點播系統(tǒng)和多款語料檢索工具,與教材單元主題同步,垂直整合電影、電視的精彩片段,開發(fā)“影視語料庫”,以期為學(xué)生提供真實的聽力材料并幫助學(xué)生掌握口語的主題圖式和心理詞匯,提高聽力理解和口語表達(dá)內(nèi)容。
圖1 影視語料庫的功能結(jié)構(gòu)
如圖1所示,“影視語料庫”總規(guī)模約6萬詞,包括“影視視頻語料庫”和“影視文本語料庫”兩個子庫,前者重在聽說訓(xùn)練,而后者重在意義的構(gòu)建。兩者相輔相成,共同促進(jìn)聽說水平的提高。
圖2 視頻點播系統(tǒng)主界面
“影視視頻語料庫”的設(shè)計容量為3萬詞左右,主要的語料來源為美國最近10年的動畫片、電影和電視劇。語料收集后,利用Format Factory2.7或豪杰超級解霸,截取所需的電影和電視劇的片段,每個主題(如Culture)下10個視頻片段,每個片段5分鐘左右,共計6400個視頻片段。主要根據(jù)主題并兼顧難度和語域的條件下,將其存放在四個子庫(大學(xué)英語一、二、三、四冊)。
1.視頻點播系統(tǒng)
“影視視頻語料庫”的檢索基于美萍VOD視頻點播系統(tǒng)8.4標(biāo)準(zhǔn)版[6],本視頻點播系統(tǒng)以校園局域網(wǎng)為基礎(chǔ),根據(jù)流媒體傳輸原理,采用B/S模式,其主界面圖2:
視頻點播系統(tǒng)由編碼器、服務(wù)器、終端播放器三大部分組成。三大部分分工協(xié)作,共同完成語料的加載和檢索。
①編碼器:由一臺普通計算機(jī)、一塊流媒體采集卡和流媒體編碼軟件組成。流媒體采集卡負(fù)責(zé)將音視頻信息源輸入計算機(jī);編碼軟件負(fù)責(zé)將流媒體采集卡傳送過來的音視頻信號壓縮成流媒體格式,使其成為可供服務(wù)器發(fā)布的流式文件。
②服務(wù)器:由VOD視頻服務(wù)器和一臺硬件服務(wù)器組成。這部分負(fù)責(zé)增加、刪除、修改、分發(fā)編碼器傳上來的流媒體節(jié)目。
③終端播放器:這部分由一臺普通PC和播放器組成,可以實現(xiàn)在線查找、瀏覽、點播、下載以及評論音視頻語料。我們將安裝的播放器為QQ影音或KMPlayer,這兩款播放器可以有效進(jìn)行字幕顯示、隱藏以及字幕語言切換,并且具有開始、停止、暫停、和隨機(jī)播放等功能。
2.視頻語料的加載
①在要發(fā)布視頻的服務(wù)器上安裝好視頻點播系統(tǒng),然后運(yùn)行視頻點播服務(wù),這樣一個VOD點播系統(tǒng)就搭建起來了。該系統(tǒng)已將視頻點播的片源進(jìn)行了詳細(xì)的分類,有電影大全、電視劇場等6大類(如上圖所示)。點擊左方任意片源的下拉列表,還可看到每大類片源的進(jìn)一步細(xì)分。作者根據(jù)需要對片源進(jìn)行了重新的分類和細(xì)分。操作如下:點左鍵選中第一個分類“電影大全”,再點擊右鍵,選擇彈出菜單中的“重命名”命令,重命名為“全新版大學(xué)英語(一)”,繼續(xù)點擊右鍵,選擇彈出菜單中的“新加子類”,連續(xù)加入“Culture”、“advertising”等和教材同步的16 個標(biāo)題,如圖3左方列表:
圖3 “影視視頻語料庫”點播界面
②接下來為每個新加子類添加10個相同主題的視頻片段,圍繞同一主題的不同視頻往往共享一個語義場,容易形成關(guān)于該主題的心理詞庫和圖式。學(xué)習(xí)者的心理詞庫和圖式越豐富,口語表達(dá)就會“言之有物、自然流暢、恰當(dāng)?shù)皿w”。我們將截取和壓縮后的音視頻語料根據(jù)主題和難度依次添加到每個片源子類中,如圖3右方列表。操作如下:選中新加的子類后,在窗口上面的標(biāo)題欄中點擊“項目編輯”,在彈出菜單中選擇“項目添加”命令。在打開的項目添加對話窗口中,直接指定影片所在路徑,輸入主演、導(dǎo)演、影片簡介等信息。最后,在播放方式中要選中“此節(jié)目客戶機(jī)通過美萍VOD服務(wù)器點播”選項,點擊確定后,即可成功將電影添加到點播列表中。如圖4:
圖4 視頻片段添加界面
③客戶機(jī)不需要安裝客戶端程序。將美萍VOD點播系統(tǒng)目錄中的“vodclient.exe”文件拷貝到每臺客戶機(jī)上。在客戶機(jī)上運(yùn)行“vodclient.exe”文件,第一次運(yùn)行時,軟件會提示你輸入服務(wù)器IP地址。然后進(jìn)入點播界面,雙擊你想看的節(jié)目開始點播。
文本語料庫的設(shè)計容量為3萬詞左右,與視頻語料庫大體相等。語料內(nèi)容為視頻語料的字幕文檔。
1.文本語料的預(yù)處理
文本語料庫的語料收集有兩種途徑:①通過subrip軟件將視頻中的字幕轉(zhuǎn)換成擴(kuò)展名為 srt的字幕文檔;②從射手網(wǎng)直接下載srt字幕文檔。獲得字幕文檔后,再用LRC歌詞文件轉(zhuǎn)換器將字幕文檔轉(zhuǎn)化為文本格式,完成后稱為文本生語料。將文本生語料,按照大學(xué)英語一、二、三、四冊將視頻語料庫切分為四個子庫,分別存放。在我們獲得文本生語料后,還需做相應(yīng)的加工和處理。這其中包括文本的清理、語料元信息標(biāo)注。這里我們借助Detagging Tool實現(xiàn)清理任務(wù);本課題標(biāo)注的元信息,主要包括標(biāo)題、文本類別、來源、關(guān)鍵詞四個方面。我們使用目前常見的通用標(biāo)準(zhǔn)語言XML進(jìn)行元信息標(biāo)注。
2.語料符碼
語法信息的標(biāo)注又叫語料符碼。常見的有詞性符碼和語法符碼。本課題根據(jù)研究的需要對語料進(jìn)行詞性符碼,詞性符碼指對語料里面的每一個詞都添加詞性標(biāo)記。使用的符碼工具為免費(fèi)的自動詞性符碼軟件TreeTagger,將符碼后的語料也按照以上四冊分別存放。
語料庫檢索的目的是導(dǎo)出索引行,以便我們批量觀察以下幾個方面語言現(xiàn)象:(1)最頻繁出現(xiàn)的詞匯及其最核心的意思;(2)最常用的典型組合。前者,我們通過提取主題詞和核心主題詞來實現(xiàn)。后者,我們通過提取類聯(lián)接、詞語搭配和詞塊來實現(xiàn)。這些規(guī)律的掌握有助于學(xué)生掌握覆蓋率廣的常用口語詞匯和表達(dá),進(jìn)而快速提高聽說能力。
在比較了多款語料庫檢索軟件后,我們選擇了索引軟件Wordsmith Tool 3.0v對“影視文本語料庫”進(jìn)行檢索,提取主題詞和核心主題詞。通過統(tǒng)計和分析主題詞、核心主題詞的分布和內(nèi)在聯(lián)系,能夠發(fā)現(xiàn)某一主題所觸發(fā)的詞語群,進(jìn)而發(fā)現(xiàn)學(xué)生在表達(dá)某一主題的心理詞匯[7]。我們使用類聯(lián)接專用分析工具Colligator來分析類聯(lián)接和搭配。Colligator由北京外國語大學(xué)的梁茂成和許家金等設(shè)計[8]。另外我們使用索引工具AntConc來分析在類聯(lián)接和搭配基礎(chǔ)上所形成的詞塊的使用情況[9]。
建立影視語料庫,將作為泛聽材料的電影、電視轉(zhuǎn)變?yōu)榫牪牧系囊曨l剪輯;將點播系統(tǒng)應(yīng)用于“影視視頻語料庫”,提供對視頻材料的快捷、科學(xué)的檢索;使用Colligator等語料庫工具對“影視文本語料庫”進(jìn)行檢索,能大大提高學(xué)生語言知識和技能體系構(gòu)建的效果;將“影視視頻語料庫”和“影視文本語料庫”結(jié)合起來,能優(yōu)化聽說習(xí)得過程。只要學(xué)生每天兩個小時左右,不間斷地使用“影視語料庫”三個月,聽力水平可以達(dá)到聽懂每部電影85%到95%的水平,可以輕松聽懂老外說的英語。如果能同時做到跟讀模仿的話,三個月后,基本上可以達(dá)到口語和發(fā)音有質(zhì)的飛越,同時口語也能達(dá)到比較流利表達(dá)的水平。該語料庫的建庫方法可以推廣到日語、法語和某些難懂的漢語方言中。
[1]謝家成.論個人語料庫的構(gòu)建[J].外語電化教學(xué),2003,(91):27.
[2]Wichman,A.et al.Teaching and Language Corpora[C].London:Longman.1997.
[3]王立非,梁茂成.計算機(jī)輔助第二語言研究方法與應(yīng)用[M].第1版.北京:外語教學(xué)與研究出版社,2007.
[4]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].第1版.北京:外語教學(xué)與研究出版社,2010.
[5]何安平.語料庫輔助英語教學(xué)入門[M].第1版.北京:外語教學(xué)與研究出版社,2010.
[6]吳浩.VOD系統(tǒng)與技術(shù)[J].寧夏師范學(xué)院學(xué)報(自然科學(xué)),2007,(6):99-101.
[7]甄鳳超.主題詞和核心主題詞提取與外語聽力教學(xué)[J].四川外語學(xué)院學(xué)報,2002,(3):153-155.
[8]文秋芳、王立非、梁茂成.中國學(xué)生英語口筆語語料庫[M].第1版.北京:外語教學(xué)與研究出版社,2009(43-55).
[9]濮建忠.學(xué)習(xí)者動詞行為:類聯(lián)接、搭配及詞塊[M].第1版開封:河南大學(xué)出版社,2003(12-56).