謝雪鋒
(桂林電子科技大學(xué) 外國(guó)語(yǔ)學(xué)院,廣西 桂林 541004)
語(yǔ)料庫(kù)研究方法應(yīng)用的探討
——以王穎基于語(yǔ)料庫(kù)的對(duì)比分析論文為例
謝雪鋒
(桂林電子科技大學(xué) 外國(guó)語(yǔ)學(xué)院,廣西 桂林 541004)
本文討論了王穎關(guān)于中國(guó)學(xué)習(xí)者英文寫作中高頻介詞的研究論文,探討其如何利用語(yǔ)料庫(kù)研究方法對(duì)研究對(duì)象進(jìn)行量化分析。同時(shí),本文也認(rèn)為其所用的語(yǔ)料庫(kù)研究方法存在有優(yōu)缺點(diǎn),提出要謹(jǐn)慎選擇研究中具體所采用的方法,避免產(chǎn)生研究結(jié)果的偏差。
量化分析;語(yǔ)料庫(kù);誤差
在2009年第3期《北京化工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》上,北京協(xié)和醫(yī)學(xué)院護(hù)理學(xué)院的王穎發(fā)表了題為“中國(guó)學(xué)習(xí)者英文寫作中的高頻介詞研究——基于語(yǔ)料庫(kù)的對(duì)比分析”的論文。作者王穎在該文摘要指出其研究采用基于語(yǔ)料庫(kù)中的中介語(yǔ)的對(duì)比研究方法,結(jié)合定量分析與定性分析討論,來考察本族語(yǔ)和學(xué)習(xí)者語(yǔ)料庫(kù)中的15個(gè)常用介詞的特點(diǎn)。本文將對(duì)該研究進(jìn)行簡(jiǎn)單分析,特別討論了其所采用的語(yǔ)料庫(kù)研究方法的優(yōu)缺點(diǎn)。
1.研究目的
王穎在引言中首先闡述了介詞的意義以及介詞是中國(guó)學(xué)習(xí)者英語(yǔ)學(xué)習(xí)的難點(diǎn),提出利用語(yǔ)料庫(kù)(本族語(yǔ)語(yǔ)料庫(kù)和中介語(yǔ)語(yǔ)料庫(kù))對(duì)此進(jìn)行研究,找出英語(yǔ)為本族語(yǔ)者和中國(guó)學(xué)習(xí)者在介詞使用上的差異,并探討學(xué)習(xí)者超用(overuse)和少用(underuse)介詞的原因以及在教學(xué)上的啟示。
2.研究方法
王穎借助語(yǔ)料庫(kù)索引軟件AntConc3.1.302,對(duì)兩個(gè)本族語(yǔ)者語(yǔ)料庫(kù)Brown、LOB和一個(gè)學(xué)習(xí)者語(yǔ)料庫(kù)CLEC進(jìn)行檢索和分析。她的研究比較突出的特別是在量化分析部分應(yīng)用了語(yǔ)料庫(kù)研究方法,再將得出的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行定性分析。下面將簡(jiǎn)述該研究所應(yīng)用的研究工具、統(tǒng)計(jì)數(shù)值方法以及研究步驟。
3.研究工具
采用Anthony博士于2006年3月8日在網(wǎng)上發(fā)行的語(yǔ)料庫(kù)檢索軟件 AntConc3.1.302中的兩個(gè)子程序:(1)詞頻表Word List:用于生成15個(gè)常用英語(yǔ)介詞在三個(gè)語(yǔ)料庫(kù)的頻次表;(2)關(guān)鍵詞表Keyword List:用于生成對(duì)比學(xué)習(xí)者語(yǔ)料庫(kù)和本族語(yǔ)者語(yǔ)料庫(kù)是產(chǎn)生的超用和少用詞匯表。
4.統(tǒng)計(jì)數(shù)值
采用了兩種統(tǒng)計(jì)數(shù)值:百分比,或然率(Keyness)。文章舉of為例:在CLEC里of的頻數(shù)是23207,而整個(gè)語(yǔ)料庫(kù)的總詞次為1172732,其百分比為23207/1172732=1.98。作者認(rèn)為或然率的絕對(duì)值越大,說明該次在兩個(gè)語(yǔ)料庫(kù)中的差異越大,正負(fù)號(hào)表示超用或少用,并且規(guī)定Keyness閾值在0.01顯著水平上位16.4,就是說如果某一個(gè)介詞在兩個(gè)語(yǔ)料庫(kù)對(duì)比中keyness的絕對(duì)值高于16.4,便認(rèn)為學(xué)習(xí)者語(yǔ)料與本族者語(yǔ)料有顯著差異,或超用或少用了該詞。
5.研究步驟
在橫向比較 15個(gè)常用介詞在兩個(gè)本族語(yǔ)者語(yǔ)料庫(kù)Brown、LOB和學(xué)習(xí)者語(yǔ)料庫(kù)CLEC的異同后,把 CLEC的五個(gè)語(yǔ)料庫(kù)和 Brown進(jìn)行對(duì)比,得出不同階段的學(xué)習(xí)者對(duì)介詞掌握情況的縱向比較結(jié)果。同時(shí),利用桂詩(shī)春“學(xué)習(xí)者錯(cuò)誤相關(guān)矩陣”將CLEC的五個(gè)語(yǔ)料庫(kù)分成初、中、高三個(gè)等級(jí),來考量學(xué)習(xí)者在不同階段的介詞使用情況。
6.分析結(jié)果
中國(guó)學(xué)習(xí)者與英語(yǔ)本族語(yǔ)者使用介詞的總體頻次沒有顯著差異;常用介詞在兩個(gè)本族語(yǔ)者語(yǔ)料庫(kù) Brown、LOB中的差別不明顯,而對(duì)比學(xué)習(xí)者語(yǔ)料庫(kù)CLEC,看到有些介詞被超用了,如to, in, about,有些少用了,如of, as,with, by。
高級(jí)學(xué)習(xí)者的語(yǔ)料要比初級(jí)學(xué)習(xí)者的語(yǔ)料更接近本族語(yǔ)者語(yǔ)料;某些出現(xiàn)在初級(jí)學(xué)習(xí)者身上所存在的問題同樣出現(xiàn)在中、高級(jí)學(xué)習(xí)者身上。文章最后分析了造成中國(guó)英語(yǔ)學(xué)習(xí)者超用和少用部分介詞的原因,認(rèn)為母語(yǔ)的干擾、漢語(yǔ)本身的語(yǔ)法以及其他諸如教師課堂用語(yǔ)、對(duì)固定搭配的忽視等等因素造成了部分介詞超用和少用。
王穎的論文在量化分析中所采用的語(yǔ)料庫(kù)研究方法值得進(jìn)一步探討。首先,語(yǔ)料庫(kù)選擇帶來的偏差。中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)CLEC收集了包括中學(xué)生、大學(xué)英語(yǔ)4級(jí)和6級(jí)、專業(yè)英語(yǔ)低年級(jí)和高年級(jí)在內(nèi)的5種學(xué)生的語(yǔ)料一百多萬詞,并對(duì)言語(yǔ)失誤進(jìn)行標(biāo)注。該語(yǔ)料庫(kù)注重的是對(duì)學(xué)習(xí)者言語(yǔ)失誤的描述,那么通過某個(gè)詞在這個(gè)語(yǔ)料庫(kù)里的詞頻率與在本族語(yǔ)語(yǔ)料庫(kù)Brown、LOB里的詞頻率進(jìn)行對(duì)比而得出該詞超用或少用的結(jié)論就值得懷疑了。某個(gè)詞在CLEC的詞頻率和在 Brown、LOB里詞頻率一致或接近,也不能得出中國(guó)學(xué)習(xí)者就不存在超用或少用該詞了。例如王穎論文提到 15個(gè)常用介詞在CLEC里的總詞頻率10.43%和在Brown、LOB的總詞頻率12.18%、12.42%非常接近,但顯然在CLEC里的詞頻率要低一些,可是不能輕易地下結(jié)論說中國(guó)英語(yǔ)學(xué)習(xí)者都少用了這15個(gè)常用介詞,因?yàn)檫@15個(gè)介詞每個(gè)在相應(yīng)的語(yǔ)料庫(kù)里都有著不同的詞頻率。另外,在通過 AntConc 3.1.302里的Word List程序生成某些詞的詞頻表并不會(huì)剔除錯(cuò)用的情況,因而所得到的結(jié)果不能真實(shí)地說明某個(gè)詞超用和少用?;蛘哒f要是讓這些統(tǒng)計(jì)數(shù)據(jù)保有意義的話,至少要保證CLEC里的語(yǔ)料都不存在言語(yǔ)失誤的。顯然,這是不可能的。
統(tǒng)計(jì)方法不同所帶來的偏差。以 in為例,在通過AntConc 3.1.302的Word List程序生成的詞頻表里,in屬于超用的情況,而在通過AntConc 3.1.302的Keyword List程序以Brown為參考語(yǔ)料庫(kù)得出的或然率表里,in卻屬于學(xué)習(xí)者語(yǔ)料庫(kù)和本族語(yǔ)者語(yǔ)料庫(kù)使用差別不明顯的介詞。
從上面的討論來看,我們發(fā)現(xiàn)偏重描述言語(yǔ)失誤的中介語(yǔ)語(yǔ)料庫(kù)和本族語(yǔ)語(yǔ)料庫(kù)所進(jìn)行的比較研究可以很生動(dòng)地分析語(yǔ)料,但是在研究中具體所采取的方法需要謹(jǐn)慎考慮,避免給研究結(jié)果帶來偏差。雖然王穎的論文在少用和超用介詞方面的論證存在有些值得商榷的問題,但是所采用語(yǔ)料庫(kù)的方法卻也是很客觀的、獨(dú)到的。
[1] 王穎. 中國(guó)學(xué)習(xí)者英文寫作中的高頻介詞研究——基于語(yǔ)料庫(kù)的對(duì)比分析[J]. 北京化工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009,3.
H0-0
A
1008-7427(2011)06-0097-01
2011-03-28