高燕
(山西大學(xué)外國語學(xué)院,山西太原 030006)
口試類型對(duì)考生表現(xiàn)的影響
高燕
(山西大學(xué)外國語學(xué)院,山西太原 030006)
在Bachman的測試方法層面理論中,有很多因素會(huì)影響到考生最終的表現(xiàn),而任務(wù)類型就是其中之一,因而也就構(gòu)成了測試結(jié)果的一個(gè)誤差來源。本次研究正是基于這個(gè)理念,試圖研究任務(wù)這一因素對(duì)考生(區(qū)分男女)的口語表現(xiàn),即對(duì)成績?cè)斐傻挠绊?,并努力找出適合于考生的任務(wù)類型。本研究選取了某高校2006年研究生入學(xué)考試的英語口語測試中的三種任務(wù)為研究目標(biāo),對(duì)考生在這三個(gè)任務(wù)上的表現(xiàn)進(jìn)行了定性和定量的研究。
測試方法層面理論;任務(wù)類型;口語表現(xiàn)
在語言測試中,如果某一因素影響測試結(jié)果達(dá)到一定程度,但卻與被測能力不相干,那么它就成了一種造成測試誤差的來源,而且應(yīng)該被消除掉。因此語言測試的一個(gè)重要目標(biāo)就是研究哪些因素特征會(huì)對(duì)受試者的表現(xiàn)造成較大的影響。本次研究把“任務(wù)”這一特征作為研究的對(duì)象,以Bachman的測試方法層面理論(Test Method Facets)為基礎(chǔ),探討了2006年研究生入學(xué)考試的英語口語測試中的三種任務(wù)類型(口語問答、討論和口頭闡述)差異對(duì)考生表現(xiàn)產(chǎn)生的影響,并且分性別進(jìn)行討論。
根據(jù)Hymes(1967)、Chomsky(1965)、Canale andSwain(1980)等人關(guān)于語言能力的理論,以及Bachman提出的交際語言能力構(gòu)成因素模式(Bachman,1990)和Bachman&Palmer的補(bǔ)充模式(Bachman and Palmer,1996:62),可以總結(jié)出影響口語真實(shí)成績的三大要素。它們分別是:待測的語言能力與知識(shí),測量這些能力與知識(shí)的方式方法和語言能力之外的個(gè)體特征。而對(duì)于語言測試研究者而言,一個(gè)非常具有可操作性的方面就是第二個(gè)層面,即測量這些能力與知識(shí)的方式方法,所以迄今有大量關(guān)于這方面的研究,包括Bachman(1990)的測試方法層面理論(TMF),Skehan(1998)的框架理論,此外還有Brown(1989)、Freedle and Kostin(1993)等等的理論。其中較為突出的要數(shù)Bachman的TMF理論。
具體來說,Bachman的TMF理論把語言測試方法分為五個(gè)方面,包括語言測試環(huán)境、測試說明、考生接收到的輸入特征、考生基于輸入所做出的輸出特征以及輸入與輸出之間的關(guān)系。其中每個(gè)方面又包括了不同的內(nèi)容。測試環(huán)境包括對(duì)地點(diǎn)、設(shè)備的熟悉情況、人員、測試時(shí)間和周圍環(huán)境;測試說明包括測試結(jié)構(gòu)、測試時(shí)間以及試題前關(guān)于做題程序、正誤標(biāo)準(zhǔn)的說明;輸入特征包括輸入形式(輸入模式、渠道、速度等)和語言特征(長度、命題內(nèi)容、結(jié)構(gòu)和語用特征);輸出特征除了包括和輸入一樣的方面以外,還特有輸出限制一項(xiàng),指對(duì)考生所做的回答在渠道、形式、組織結(jié)構(gòu)、命題和行為特征以及時(shí)間長短上的限制;輸入與輸出的關(guān)系包括交互的、非交互的和適應(yīng)性的關(guān)系。
這一框架是Bachman集聚了Savard(1968)、Cohen(1980)等眾多人的研究成果所提出的一個(gè)全面的并且全新的框架,它融合了關(guān)于現(xiàn)代語言特征最前沿的觀點(diǎn),他認(rèn)為該框架可以用于描述現(xiàn)存語言測試,設(shè)計(jì)新的語言測試,對(duì)語言測試進(jìn)行有效性檢驗(yàn)及形成語言測試研究的新理論等四個(gè)方面。
之后Bachman和Palmer應(yīng)用該理論時(shí)稍有發(fā)展,但兩者基本一致。
本次研究選取了某高校2006年研究生入學(xué)英語口語測試中的三個(gè)任務(wù),現(xiàn)在我們將對(duì)這三個(gè)任務(wù)予以分析。它們分別是口語問答、討論和口頭闡述。在口頭問答中,考官將會(huì)用兩分鐘的時(shí)間詢問考生一些關(guān)于考生本人的生活、工作或?qū)W習(xí)等簡單問題,以期幫助考生放松,并開始習(xí)慣講英語。接下來是一個(gè)四分鐘的討論,要求考生就所抽到的話題,闡述自己的觀點(diǎn),或與搭檔爭執(zhí),或取得一致意見,并最終能夠下一個(gè)結(jié)論。這一部分考察兩位考生的交際能力。最后一個(gè)任務(wù)是口頭闡述,要求考生就一個(gè)話題做出為時(shí)四分鐘的闡述,這主要考察考生的連續(xù)表達(dá)能力。
本次實(shí)驗(yàn)研究內(nèi)容是某高校2006年研究生入學(xué)考試英語口語測試中的三個(gè)任務(wù)類型,分別是回答問題、討論和口頭闡述。針對(duì)這三個(gè)任務(wù),作者抽取了一個(gè)考場中的任意30名考生的口語成績進(jìn)行了方差分析和相關(guān)性分析。由于考生進(jìn)入各個(gè)考場是隨機(jī)安排的,所以保證了30名考生對(duì)此次參加考試的所有考生具有代表性,另外30名考生的評(píng)分者始終保持不變,是兩位有一定教學(xué)經(jīng)驗(yàn)的女性,并且她們?cè)诳荚囍敖邮芰私y(tǒng)一的評(píng)分培訓(xùn)。
之后,作者進(jìn)行了定性研究,即:從該考場的30名考生中又分別抽取6名男生和6名女生,采用回顧式訪談的形式詢問考生對(duì)考試中三個(gè)任務(wù)的看法。而且,此次訪談所得數(shù)據(jù)要和參加考試的部分考生所答的問卷得到的數(shù)據(jù)進(jìn)行三角論證(Lynch,1996)。每次訪談持續(xù)10分鐘左右。得到數(shù)據(jù)之后,作者將對(duì)它進(jìn)行重組、編碼、精煉和轉(zhuǎn)譯,試圖用該研究得到的數(shù)據(jù)來解釋定量研究得到的結(jié)果。
參與定量研究的考生共有30名,其中男13名,女17名。將其口語成績輸入SPSS軟件,可得出如下的統(tǒng)計(jì)結(jié)果(每一項(xiàng)任務(wù)滿分為5分):
表1 描述性統(tǒng)計(jì)結(jié)果(應(yīng)變量:分?jǐn)?shù))
表2 方差分析結(jié)果
a R Squared=.175(Adjusted R Squared=.125)
b.Computed using alpha=.05
c.Dependent Variable:score
圖1 男女考生成績線性圖
該結(jié)果顯示:第一,考生在完成回答問題、討論和口頭作文這三項(xiàng)任務(wù)中,性別差異不顯著(Sig.>. 005)。盡管女生成績總體要比男生好(見圖1,細(xì)線為女生成績線,粗線為男生成績線),但是他們?cè)诟鱾€(gè)任務(wù)上的差異基本一致。即,不存在某一項(xiàng)任務(wù)適合女生而不適合男生或反之的情況。但是這一結(jié)果一定要在樣本選取數(shù)量大于30以上,即大樣本的情況下才成立。其次,任務(wù)差異對(duì)考生成績的影響是顯著的(Sig.=.003),而且可以看出在這項(xiàng)試驗(yàn)中,任務(wù)差異的影響是產(chǎn)生考生成績差異的最大因素(Eta2 task=.131>Eta2 gender=.043>Eta2 gender*task=.006)。具體來看,圖1中顯示任務(wù)1與任務(wù)2和任務(wù)3的差異較大,而任務(wù)2與3的差異較小;在任務(wù)1與2之間,細(xì)線條斜率略大于粗線條,即任務(wù)1與2的差異對(duì)女生造成的影響略大于男生,而同理任務(wù)2與3之間,細(xì)線條斜率略小于粗線條,即任務(wù)2與3的差異對(duì)女生的影響略小于男生,但這種差異總體來講是不顯著的,也就是說當(dāng)樣本足夠大時(shí),兩線條是近似平行的。
此外,該試驗(yàn)的相關(guān)性分析還顯示:任務(wù)1與2之間的相關(guān)性很高,在99%的水平上達(dá)到了.952,但任務(wù)1與3,任務(wù)2與3之間幾乎沒有什么相關(guān)性,分別是.123和.273。因此可得出結(jié)論:總的來講,回答問題任務(wù)完成得好的考生也能在討論任務(wù)中取得較好的成績。
此后,筆者作了定性研究,通過回顧式訪談得到了5名男生和5名女生的有效陳述,并將其轉(zhuǎn)寫、歸納和整理,結(jié)果發(fā)現(xiàn)考生的陳述主要集中在對(duì)任務(wù)的喜好程度、熟悉程度和難易程度等三個(gè)因素上(見表3)。
表3 三個(gè)任務(wù)在容易程度、受歡迎程度、熟悉程度方面的統(tǒng)計(jì)結(jié)果
此定性研究結(jié)果可歸結(jié)為:任務(wù)1,回答問題是最簡單也是最熟悉的任務(wù),而任務(wù)2,討論是最陌生的,但也是最受歡迎的一個(gè)任務(wù),任務(wù)3,口頭闡述可以說是這三個(gè)任務(wù)當(dāng)中既難也不受歡迎同時(shí)也不熟悉的一種任務(wù)類型。筆者認(rèn)為正是由于這三個(gè)任務(wù)具有了這些特征,才使得考生在這三個(gè)任務(wù)上的得分有了較大的差異,即,在任務(wù)1上得分最高,次之任務(wù)2,最后任務(wù)3。但是并不能就此決定任務(wù)1或2是最好的,或最適合考生的任務(wù),因?yàn)槲覀儾⒉荒軝?quán)衡出這些任務(wù)的三個(gè)因素中哪一個(gè)是最重要的,也很難找一個(gè)平衡點(diǎn),此外其他試驗(yàn)中很可能還有很多其他的因素起著作用。
關(guān)于造成這三個(gè)任務(wù)在這三個(gè)因素上差異的原因,正是本文在第二部分提到的Bachman的TMF理論對(duì)三個(gè)任務(wù)特征的分析所得出的結(jié)果。該分析發(fā)現(xiàn)這三個(gè)任務(wù)的特征大體趨于一致(包括背景,測試時(shí)間,輸入的渠道、形式、語言、長度、語言的特征,輸出的渠道、形式、語言、速度,輸出語言的語法特征等),但也存在一些差異,具體來說包括:與第一個(gè)任務(wù)相比,第二個(gè)任務(wù)要求兩人參與;從
輸入來看,話題較為新穎;在輸出的回答上,要求考生根據(jù)自己的觀點(diǎn)就所選的話題做出4分鐘的擴(kuò)展性的回答,長度略有增加,語言成了連貫的對(duì)話,因此它的語用特征也就不僅僅包括傳意和啟發(fā),而且具有想象性的交流似的特點(diǎn);此外,輸入與輸出的關(guān)系范圍也較廣,言語較為間接,因?yàn)榭忌幕卮疬€包含輸入以外的大量信息(Bachman&Palmer,1996:56)。而第三個(gè)任務(wù),口頭闡述,除了具有上述差異外,參與者又變成了一個(gè)人,因而在語用功能上沒有交流,但輸出仍舊是擴(kuò)展的連貫的言語,并且輸入與輸出的關(guān)系是非交互性的(Bachman& Palmer,1996:57)。作者認(rèn)為,就該試驗(yàn)而言,正是這些任務(wù)的特征差異造成了考生成績上的差異。
經(jīng)過定性和定量分析之后,我們已對(duì)這三個(gè)任務(wù)有了全面的了解?;卮饐栴}是這三個(gè)任務(wù)中最容易最熟悉的但同時(shí)也是最不受歡迎的任務(wù)類型。原因涉及到考題的輸入形式固定、話題單調(diào),要求考生作出的輸出長度較短、內(nèi)容受限、缺乏連貫、語用特征貧乏等特征,并且輸入與輸出的關(guān)系雖是交互的,但范圍狹窄,幾乎沒有發(fā)揮的余地。而討論任務(wù)則不同,它在難易程度和熟悉程度上都是居中,但卻是最受歡迎的一個(gè)類型。這是因?yàn)?,首先它要求兩個(gè)考生同時(shí)參與,這就增加了形式的新穎性,由于是抽取話題進(jìn)行討論,因此輸入的形式多樣,話題不可預(yù)測,同時(shí)輸出長度增加,內(nèi)容擴(kuò)展,連貫,言之有物,話語中可以含有多種語用特征,而且輸入不再對(duì)輸出有嚴(yán)格的限制。這些特征符合了考生年輕、喜歡新穎的事物,容易擴(kuò)展性思維等特點(diǎn),因而大受歡迎。第三個(gè)口頭闡述任務(wù)被認(rèn)為是最不熟悉也是難度最大的類型。它與討論任務(wù)的特征基本相近,但是在語言特征的功能上缺乏交際性,輸入與輸出的關(guān)系是非交互的,也就是說,考察了考生單獨(dú)的、連續(xù)四分鐘的表達(dá)能力。這無疑增加了考題的難度,因此它的受歡迎程度居中。
正是由于上述這些特征,考生在這三個(gè)任務(wù)上的得分如下:回答問題任務(wù)得分最高,并且與其他兩個(gè)任務(wù)得分差異較大;討論和口頭闡述任務(wù)得分較低,但相差不多;討論任務(wù)得分略高于口頭闡述任務(wù)。
至此,我們可以得出如下的結(jié)論:一方面,任務(wù)類型差異確實(shí)是影響考生口語表現(xiàn)的一個(gè)因素。具體來說,本次實(shí)驗(yàn)中這三個(gè)任務(wù)的差異導(dǎo)致了考生最后得分的差異,并且是造成分?jǐn)?shù)差異的最大因素。另一方面,這些任務(wù)并沒有性別傾向,即,不同性別的考生在這三個(gè)任務(wù)上的差異基本一致。至于差異的原因,本文將它歸納為上述的受歡迎程度、容易程度、熟悉程度以及各自任務(wù)的特征,但是不能就此認(rèn)為其中的某一個(gè)是最適合考生的任務(wù)類型,因?yàn)槲覀兒茈y平衡這三個(gè)因素,只能根據(jù)具體的考試來決定采用哪一個(gè)任務(wù)。此外還有一些其他的因素會(huì)對(duì)任務(wù)的選取產(chǎn)生影響。
隨著基于任務(wù)的語言測試(TBLA)逐漸成為熱點(diǎn),本研究也試圖對(duì)任務(wù)的具體特征研究做出一點(diǎn)貢獻(xiàn),希望能對(duì)口語測試和教學(xué)的研究提供借鑒。
[1]Hymes,D.H..Models of the Interaction of Language and Social Setting[J].Journal of Social Issues,1967,23,(2):8-38.
[2]Chomsky,N.Aspects of the Theory of Syntax[M].Can,Mass.:MIT Press,1965.
[3]Canale,M,Swain,M.Theoretical Bases of Communicative Approaches to Second Language Teaching and Testing[J]. Applied Linguistics,1980(l):1-47.
[4]Bachman,L.F,Palmer,A.Language testing in practice[M]. Oxford and New York:Oxford University Press,1996.
[5]Skehan,P.A cognitive approach to language learning[M]. Oxford:Oxford University Press,1998.
[6]Brown,J.D.Cloze item difficulty[J].JALT Journal,1989(11):46-67.
[7]Freedle,R,Kostin,I.The prediction of TOEFL reading item difficulty,implications for construct validity[J].Language Testing,1993(10):133-170.
[8]Savard,J-G.A proposed system for classifying language tests.In Upshur and Fata(eds.),Problems in Foreign Language testing[J].Language Learning Special Issues,Ann Arbor,Mich:Research Club in Language learning,1968(3):67-174.
[9]Cohen,A.D.Testing Language Ability in the Classroom[M]. Rowley,Mass:Newbury House,1980.
[10]Lynch,B.K.language program evaluation;theory and practice[M].Cambridge:Cambridge University Press,1996.
[11]韓寶成.語言測試的新進(jìn)展:基于任務(wù)的語言測試[J].外語教學(xué)與研究,2003(5):352-358.
(編輯 楊樂中)
H319.9
A
1673-1808(2015)06-0114-04
2015-09-23
高燕(1979-),女,山西榆次人,山西大學(xué)外國語學(xué)院,講師,碩士,研究方向:英語語言測試。