摘要:語塊提取是語塊理論研究和應(yīng)用研究的重要環(huán)節(jié)。然而,目前學(xué)界還缺乏語塊提取的統(tǒng)一標(biāo)準(zhǔn)。語塊提取的基本方法各有利弊。本文通過自建大學(xué)英語口語測試語料庫,提出了結(jié)合人工識別和語料庫自動識別提取語塊的方法,為保證語塊研究信度和效度提供了方法指導(dǎo)。
關(guān)鍵詞:大學(xué)英語、口語語料、語塊、語塊識別
1.引言
語塊在二語習(xí)得和使用過程中的重要性得到廣泛認(rèn)可。(Ellis 1994,Strengers 2011,胡元江,2015)但是,一直以來對于語塊并沒有一個確切統(tǒng)一界定,這導(dǎo)致對語塊的劃分不是一件容易的事情。Pawley 和Syder(1983)曾這樣描述劃分的困難“(我們)再次重申這種程度不同(gradation)的特點是語言的本質(zhì),嘗試明確切分會使得我們陷入對母語者知識本質(zhì)錯誤解讀的危險境地?!保ㄞD(zhuǎn)引自Nattinger 和DeCarrico,1992:38)將近40年過去了,語塊識別問題依然困擾著語塊研究。更為嚴(yán)重的是,這種狀況不利于語塊的理論研究和習(xí)得研究,也不利于人們對不同研究進(jìn)行比較從中得出普遍性的結(jié)論。(馬廣惠,2011)
2.研究背景
語塊識別一般基于兩個維度,一是短語學(xué)維度,二是語料庫維度。(胡元江,2015)。主張短語學(xué)維度的研究者包括Nattinger 和DeCarrico(1992)、Boers ,et al (2006)、Wood(2009)等。主張語料庫維度的研究者有Stubbs & Barth(2003)、肖更生等(2016)。兩種方法各有不足,短語學(xué)方面往往憑借本族語者的直覺。比如,Nattinger 和DeCarrico(1992)等認(rèn)為it is X和there is/are/was/were X為語塊是有條件的,當(dāng)表明主張(assertion)時,而且是一種禮貌的表達(dá)立場的方式時,其語用功能等同于personally, I think X, in my opinion,或者更為間接的表達(dá)方式如as far as I can tell, frankly, to be perfectly honest時則是,這無疑增加了語塊識別的主觀性;語料庫分析方法往往憑借的標(biāo)準(zhǔn)是提取頻點,但是往往提取到非語塊的詞組片段,比如part of the 、end of the 等。有鑒于這兩種方法各自的不足,本研究試圖結(jié)合這兩種方法使它們互相取長補(bǔ)短,從而提高語塊提取的客觀性。
2.1語料收集
本研究語料來自湖北省某一本院校大一學(xué)生下學(xué)期口語考試。講話內(nèi)容全程錄音,共得到受試的153份口語音頻。隨機(jī)抽取12份,再將音頻轉(zhuǎn)寫成文本作為分析語料,共計1596詞。
2.2研究步驟
(1) 利用語料庫檢索軟件WordSmith8.0提取口語樣本中的2詞語塊、3詞語塊和4詞語塊后與PHRASE List中的短語對比。該短語列表共包含505個最常見(頻率最高)、最有用(二語教學(xué))短語,是諾丁漢大學(xué)的Schmitt及其博士生Marninez(2012)共同開發(fā)的。通過Excel對比功能自動提取語塊;
(2) 依據(jù)Nattinger 和DeCarrico(1992)語塊標(biāo)準(zhǔn)并利用《朗文當(dāng)代高級英語詞典》在線詞典(http://www.Idoceonline.com)為依據(jù)人工識別語塊。
3.結(jié)果與討論
3.1結(jié)果
3.2 討論
在語料庫分析方面,通過WordSmith8.0軟件對整理過的口語樣本語料進(jìn)行2詞語塊、3詞語塊和4詞語塊的提取,共獲得2-4詞語塊1988個,其中2詞語塊627個、3詞語塊699個、4詞語塊660個,排名前10的2詞語塊、3詞語塊和4語塊見表1。然后,將其與PHRASE List中短語比較,得到19類,共計37個語塊,見表2。值得注意的是其中有些語塊并不準(zhǔn)確。如not only ,原因在于not only 在本研究語料只是出現(xiàn)在語塊not only...but also 之中,未見not only 被單獨使用的情形;再比如for good ,其是因為語料庫檢索軟件的的線性處理工作原理,從而提取了研究語料中未出現(xiàn)的語塊;至于a good,則是由于機(jī)器處理的的重頻率(形式)輕意義所造成的。類似于這樣的語塊或非語塊都沒有真正的反映出二語學(xué)習(xí)者頭腦中的語塊知識,因而對語塊語塊理論研究和應(yīng)用研究沒有裨益。
在人工提取方面,共計識別79類,159個語塊。語塊數(shù)量多且有意義。人工識別語塊有以下幾個方面的優(yōu)勢。一是有利于彌補(bǔ)自動提取往往強(qiáng)調(diào)連續(xù)的語塊的弊端,從而將不連續(xù)的語塊也包括在內(nèi)。語塊應(yīng)該是連續(xù)的,具有完整的意義或明確的功能。(馬廣惠,2011)比如 not only...but also...、there is no reason to x、remind x of x、make somebody x等。二是自動提取往往忽略搭配,這是因為搭配往往和語言產(chǎn)出的主題高度相關(guān),而自動提取的高頻率往往不受制于語境。比如 make money , college students, play basketball,efficient method, last summer, summer holiday 等。當(dāng)然,人工識別還可以發(fā)現(xiàn)學(xué)習(xí)者的語塊使用錯誤。以put up with our opinion為例,戚炎等(2015)將其歸為“語外錯誤”。根據(jù)語境,該學(xué)習(xí)者想表達(dá)的語塊并不是put up with ,而應(yīng)該是put forward。再以in weekend為例,戚炎等(2015)將其歸為“語內(nèi)錯誤”。in weekend 用法并不存在,其正確用法是at the weekend (英國英語)或 on the weekend(美國英語)。此外,這些語塊錯誤大多是形態(tài)錯誤,這大概率是因為學(xué)習(xí)者的母語-漢語沒有形態(tài)變化。漢語和英語是類型學(xué)上的不同語言。這點同Wikorsson(2003)的發(fā)現(xiàn)一致,即語塊受母語影響較強(qiáng)。(轉(zhuǎn)引自王立非,2006)本研究中,中國二語學(xué)習(xí)者語塊錯誤中的“語內(nèi)錯誤”明顯多于“語外錯誤”。關(guān)于語塊錯誤的進(jìn)一步探討將另文展開。
當(dāng)然,語塊自動提取也有其優(yōu)點,由于語料分析是基于語言大數(shù)據(jù),所以所提取的語塊往往更有代表性,當(dāng)然前提是它必須滿足語塊成塊條件。人工識別雖然能更全面且語塊往往是有意義的,但是其識別過程耗時較長,更是往往因人而異、主觀性強(qiáng)而受人詬病。此外,心理語言學(xué)認(rèn)為語塊既不是語法學(xué)家固定的,也不是根據(jù)頻率決定的,而要看個體使用者的是否將其視為語塊。(王立非等,2006)這就需要研究者因時制宜、因地(自然習(xí)得/課堂學(xué)習(xí))將學(xué)習(xí)者視為語塊加以使用,滿足口語交際需要的語塊,也就是所謂“純需求分析”(Wray,2002 轉(zhuǎn)引自 王立非等,2006),也包括在內(nèi)。本研究中人工識別如此語塊9個,包括一些學(xué)習(xí)者借用的句子(口語測試中提供用于展開思路的問句)、歌名“You Raise Me Up”、以及for the first question、try his best。
4.總結(jié)
類似二語習(xí)得領(lǐng)域的其它研究熱點,語塊應(yīng)用研究的蓬勃發(fā)展(尤其是教學(xué)目的和使用特征)勢必帶來人們對語塊定義/知識的進(jìn)一步探索。語塊知識的深入研究離不開語言學(xué)、心理語言學(xué)和神經(jīng)語言學(xué)的協(xié)同工作。通過結(jié)合計算機(jī)和語料庫技術(shù)對語塊的自動提取和人工識別,本研究對大學(xué)生非英語專業(yè)理工類學(xué)生口語語料中語塊使用進(jìn)行定量分析。本研究倡導(dǎo)在語塊識別中將采取多方印證的方法將主觀性控制到最低,從而最大程度保證語塊研究信度和效度,希望能有拋磚引玉作用。
參考文獻(xiàn)
[1]Boers F,et al. Formulaic sequences and perceived oral proficiency:Putting a Lexical Approach to the test[J].languageTeaching Research,2006,(10):245-261.
[2]Ellis, R.The Study of Second Language Acquisition [M]. 上海: 上海外語教育出版社,1999.
[3]Nattinger J, DeCarrico J. Lexical Phrases and Language Teaching [M]. 上海: 上海外語教育出版社,2000.
[4]Stubbs,M.& Barth,I.Using Recurrent Phrases as Text_type Discriminators:A quantitative Method and Some Findings[J].Functions of Language 10/1,2003:61-104
[5]Wood D.Effects of fucused instruction of formulaic sequences on fluent expression in second language narratives: A case study [J].CanadianJournalof AppliedLinguistics,2009,(12):39-57.anguage 10/1,2003:61-104
[7]馬廣惠.英語專業(yè)學(xué)生二語限時寫作中的詞塊研究[J].外語教學(xué)與研究.2009(1):54-60.
[8]馬廣惠.詞塊的界定、分類與識別[J].解放軍外國語學(xué)院.2011(34):1- 4.
[9]胡元江.口語產(chǎn)出中的語塊研究:回顧與展望[J].外語教學(xué)理論與實踐.2011(2):57-63.
[10]戚炎、許翠芹.語塊教學(xué)對大學(xué)生二語言口語流利性研究[J].外語界2015(6):26-34.
[11]肖更生、張再紅.英文科技論文標(biāo)題多維度特征研究—以SCI百篇高被引論文為例[J].中國科技期刊論文.2016(10):1055-1060.
[12]原萍與郭粉絨.語塊與二語口語流利性的相關(guān)性研究[J].外語界.2010(1):54-62.
[13]王立非、張大風(fēng).國外二語預(yù)制語塊習(xí)得研究的方法進(jìn)展與啟示[J].外語與外語教學(xué).2006(5):17-21.
作者簡介:黎楊(1979.08-),男,漢族,湖北武漢,研究生(碩士),武漢紡織大學(xué),講師,研究方向:大學(xué)英語教育