話語填充任務(wù)在中國英語學(xué)習(xí)者語用能力測試中的應(yīng)用研究?

2020-01-17 08:41:54李清平中南大學(xué)

外語與翻譯 2019年4期

李清平中南大學(xué)

【提要】國務(wù)院《關(guān)于深化考試招生制度改革的實施意見》指出，我國的外語考試應(yīng)改革考試形式和內(nèi)容。但綜觀我國各類外語考試，基本上還是以詞匯－語法能力和聽說讀寫譯的技能考試為主。本研究考察了過去10多年國際逐漸流行的語用能力測試形式，尤其是話語自我評估（DSAT）、聽說話語填充（ODCT）、書面話語填充（WDCT）和選擇性話語填充（MDCT）應(yīng)用于中國英語學(xué)習(xí)者語用能力測試時的信度、效度和相對難度等問題。測試工具的開發(fā)包括情境采樣、情境可能性調(diào)查、元語用調(diào)查、確定MDCT選項及答案等步驟。結(jié)果顯示，除MDCT外，其它三種工具都具有可接受的信度和較好的效度；學(xué)習(xí)者在不同測試中的表現(xiàn)呈現(xiàn)出顯著差別，但他們的英語水平與語用表現(xiàn)之間沒有顯著相關(guān)。這些結(jié)果表明，傳統(tǒng)的外語水平測試不能代替語用能力測試，后者需要專門的測試工具，但選用哪一種測試工具要視測試對象、目的和用途而定?；谶@些結(jié)果，文章討論了外語語用能力測試工具開發(fā)過程中應(yīng)注意的問題，并為構(gòu)建中國外語測評體系的戰(zhàn)略配套，尤其是測評工具開發(fā)和題庫建設(shè)提供了有益的啟示。

1.引言

2014年9月，國務(wù)院頒發(fā)了《關(guān)于深化考試招生制度改革的實施意見》，其核心之一就是改革考試內(nèi)容和形式。但綜觀我國現(xiàn)行的外語考試，基本上測試的還是詞匯－語法知識和聽說讀寫譯等語言技能。不可否認，這種考試在我國的基礎(chǔ)教育和高等教育的人才培養(yǎng)中發(fā)揮過且仍在發(fā)揮巨大的作用。但新時代的人才培養(yǎng)目標(biāo)定位的變化，尤其是高等教育國際化人才培養(yǎng)的目標(biāo)要求我們的考試因時而變。2018年發(fā)布的“中國英語能力等級量表”就“不僅涵蓋了傳統(tǒng)的聽、說、讀、寫技能，還從語用能力和翻譯能力（包括口譯與筆譯）角度描述英語能力”（劉建達、彭川2017：6）。但這些新增加的能力目標(biāo)如何檢測是研究者和一線教師十分關(guān)心的問題。

實際上，上個世紀90年代以來，語用能力就被認為是外語交際能力中不可或缺的一部分（Bachman 1990;Bachman&Palmer 1996），但到目前為止，測試語用能力的工具還很不成熟。有人主張語用能力的測試應(yīng)該評估交互中的語用能力（Youn 2015），或?qū)崟r的語言運用（Roever 2011），但這樣的測試工具用于大規(guī)模的測量時可行性較低，因此大量的研究者仍然對基于言語行為理論和禮貌原則的話語填充任務(wù)（Discourse Completion Test/Task,DCT）感興趣。盡管有研究者（Hudson,Detmer&Brown 1992，1995）開發(fā)出原型的DCT測試工具，但隨后的信度和效度研究并沒有得出令人滿意的結(jié)果，尤其是有些工具在某種環(huán)境中得到了某種程度的驗證，但換了測試對象，結(jié)果卻不一樣。用這些工具測得的語用能力與語言水平之間的關(guān)系也不明朗。這表明，現(xiàn)有DCT測試工具在特定環(huán)境中真正投入使用之前還需要大量的研究以確定其信度和效度（劉建達2013）。本文以中國英語學(xué)習(xí)者為對象，檢測DCT在語用測試中的相關(guān)問題，以期促進我國外語語用教學(xué)并為中國外語測試中的語用測試及其題庫建設(shè)提供有益的啟示。

2.研究背景

發(fā)展語用學(xué)的興起（Kasper&Schmidt 1996）引發(fā)了學(xué)界對語用能力測試的關(guān)注。最早的原型語用能力測試工具是 Hudson,Detmer&Brown（1992，1995）開發(fā)的，他們將同樣的24個情境分別制成六種形式的測試卷，分別是1）書面話語填充（Written Discourse Completion Task，WDCT），要求受試寫下在指定情境中要說的話；2）選擇性話語填充（Multiple-choice Discourse Completion Task，MDCT），要求受試從三個備選項中選出在指定情境下最合適的話語；3）聽說話語填充（Listening Oral Discourse Completion Task,ODCT），需要受試說出在指定情境中要說的話；4）話語角色扮演（Discourse Role-play Task,DRPT），要求受試與母語者進行角色扮演，并在其引導(dǎo)下說出指定言語行為；5）話語自我評價（Discourse Selfassessment Task,DSAT），需要受試對自己在特定情境中的可能表現(xiàn)進行自我評價；6）角色扮演自我評價（Role-play Self-assessment,RPSA），要求受試對自己在角色扮演中的表現(xiàn)進行自我評價。這24個情境包含請求、拒絕和道歉三個言語行為，將權(quán)力、距離和強加度三個社交變量構(gòu)成八種不同的組合，測試英語作為二語的語用能力。雖然這六種原型測試工具及其變體在二語習(xí)得研究中經(jīng)常用作研究工具，但很少用作教育測量工具。隨著發(fā)展語用學(xué)的興起，人們愈發(fā)關(guān)注這些工具的信效度問題，并進一步探索如何開發(fā)新工具以滿足大規(guī)?？荚嚨男枰?。

Yamashita（1996）將Hudson等人的語用測試卷翻譯成日語，在母語為英語的日語學(xué)習(xí)者中進行測試，結(jié)果表明除MDCT外，另外五種測試工具都有較高的信度和效度，且受試者的語言水平與WDCT、ODCT、DRPT產(chǎn)出型測試中的成績顯著相關(guān)。Yamashita（1996）還發(fā)現(xiàn)，學(xué)習(xí)者與目標(biāo)文化接觸時間的長短明顯影響了他們在DRPT和ODCT中的表現(xiàn)。Yoshitake-Strain（1997）和 Enochs&Yoshitake-Strain（1999）用這些工具對日本的英語學(xué)習(xí)者進行了測試，結(jié)果顯示MDCT與WDCT的信度和效度都不高，受試者的語言水平與他們的語用能力沒有顯著相關(guān)，接觸目標(biāo)文化的程度影響了語用表現(xiàn)。這些結(jié)果似乎表明，同樣的語用測試工具在不同的測試對象中會產(chǎn)生不同的信度和效度，關(guān)于語言水平和語用能力相關(guān)性的結(jié)果也不一樣，但MDCT都顯示出較低的信度和效度。

二十一世紀以來，基于這些工具的信度效度研究進一步深入。Hudson（2001）以25名來自日本的英語學(xué)習(xí)者為樣本進行了研究，結(jié)果表明WDCT、ODCT與DRPT都有較高的信度，且受試在WDCT與DRPT中的表現(xiàn)好于在實驗室中錄制的ODCT的表現(xiàn)。Brown（2001）對這六種工具在英語作為外語與日語作為二語兩種環(huán)境下的實際應(yīng)用進行了比較，發(fā)現(xiàn)MDCT在兩種環(huán)境下信度都很低。Ahn（2005）將Hudson等人的試卷（MDCT除外）翻譯成韓語，對二語為韓語的大學(xué)生進行了測試，結(jié)果表明這五種工具的信度都很高。這些研究是在不同環(huán)境和測試對象中進行的，似乎表明MDCT都不太理想，而對于其它的測試工具則沒有達成一致的結(jié)果。

以上的研究都是基于Hudson等人提出的原型工具進行的，但Hudson等人沒有詳細交待工具開發(fā)過程，因此不清楚試卷中的情境和MDCT中的選項是如何獲取的，也不清楚這些工具中的情境在多大程度上符合受試者的實際情況。鑒于此，劉建達（2006；2007）經(jīng)過嚴格的情境采樣、情境可能性篩選、元語用調(diào)查、試測和MDCT選項設(shè)計等步驟開發(fā)了自己的MDCT、WDCT和DSAT，并對中國的英語學(xué)習(xí)者進行了測試，結(jié)果表明這三種工具都有較高的信度和效度，且MDCT的信度指數(shù)高達.88，這與以往的研究結(jié)果不同,說明語用能力測試工具的開發(fā)如果遵循嚴格的程序，MDCT是可以達到理想的信度和效度的；但學(xué)生的語言水平與他們的語用表現(xiàn)沒有顯著相關(guān)。需要注意的是，劉建達的MDCT中的正確選項采用的是本族語者的話語，而干擾項采用的是學(xué)習(xí)者話語，受試有可能根據(jù)本族語者話語的地道性做出正確選擇，從而影響了試卷的信度。

綜上所述，筆者發(fā)現(xiàn)，1）ODCT、DRPT、DSAT 和RPSA四種工具似乎具有良好的信度和效度，但MDCT和WDCT的信度還有待進一步研究。2）外語水平與語用能力的相關(guān)性有待進一步確定。3）母語文化有可能影響外語語用表現(xiàn)?，F(xiàn)有的研究涉及日語、英語、韓語、漢語等母語背景，但在二語環(huán)境下進行的居多，需要有更多的研究考察外語環(huán)境下學(xué)習(xí)者的語用表現(xiàn)。4）除了Hudson（2001），目前還鮮有研究考察受試在不同的測試中是否有不同的表現(xiàn)，而這類研究有利于確定不同測試工具的難度系數(shù)，以便確定什么樣的工具用于什么樣的測試目的。

基于此，本研究聚焦以下問題：不同的語用測試工具在中國外語環(huán)境中的信度和效度如何？中國英語學(xué)習(xí)者在不同語用測試中的表現(xiàn)怎樣？他們在不同語用測試中的表現(xiàn)與外語水平是什么關(guān)系？

3.研究方法

3.1 測試對象

39名非英語專業(yè)大二的學(xué)生參加了測試，他們在6月份參加了CET-4考試，同年10月參加此研究。所有受試都在2個小時內(nèi)完成了全部測試。在完成了DSAT，ODCT，WDCT和MDCT后，大部分人表示不再愿意參加后面的角色扮演，因此本研究沒有考察DRPT和RPSA。個人信息問卷結(jié)果顯示，39名受試均未去過英語國家，平時很少或幾乎沒有與英語本族語者交流的機會。

3.2 工具開發(fā)

本研究中四套語用測試卷采用的情境是一樣的，涉及九種常見的言語行為，包括請求、道歉、拒絕、問候、批評、提醒、贊美、建議和安慰。試卷的開發(fā)按以下四個步驟進行。

第一步，情境采樣。收集現(xiàn)有研究中使用過的言語行為情境（參見何自然、閻莊1986；洪崗 1991；甘文平2001；李悅娥、范宏雅2002；劉建達2006；姜占好2009），根據(jù)Hudson等人（1995）對語用測試情境選擇的原則（規(guī)定交談雙方的性別、規(guī)定交談雙方面對面交流、每個場景都與交談雙方的角色有關(guān)等），將這些情境進行一定程度的修改，不合適的剔除，統(tǒng)一格式，共獲得56個情境。

第二步，情境可能性調(diào)查。將第一步收集到的56個情境制成問卷，每個情境后是一個李克特5級量表，1=不可能發(fā)生，5=很可能發(fā)生（例1），30名與受試同年級的學(xué)生據(jù)此對每個情境進行判斷，每個情境的平均分大于3的得以保留，共獲得25個情境，將這25個情境通過回譯法（back-translation）確定問卷的中英兩個版本（限于篇幅，附錄省略）。

例1 昨天上課時，老師有事出去了，同學(xué)們開始聊天，有的同學(xué)聲音很大，班長請大家安靜一點。

不可能發(fā)生 1 2 3 4 5很可能發(fā)生

第三步，元語用調(diào)查。每個情境的元語用信息十分豐富，但本研究只考察最能影響言語行為的三個社交語用變量，即地位（Power）、熟悉程度（Distance）和強加度（Imposition）。中英兩種問卷分別在30名中國大學(xué)生和15名本族語留學(xué)生中發(fā)放。首先向他們解釋每個變量的意義，當(dāng)他們表示明白無誤后要求他們就每個情境中的三個變量進行判斷，具體方法如例2所示（參見Liu 2007）。若中國大學(xué)生就每個變量達成70%及以上相同意見，且跟本族語者達成70%及以上相同意見，則該情境保留，據(jù)此獲得21個情境。

例2 你與老師討論作業(yè)。老師語速很快，你沒聽清楚他講的話，你請老師再說一遍。

I.你認為雙方的熟悉程度如何？

A.陌生 B.熟悉

II.你認為該情境中誰的地位更高？

A.你 B.老師 C.平等

III.你認為該請求的強加度如何？

A.低 B.高

You are discussing your assignment with your teacher.Your teacher speaks very fast.You cannot follow what he is saying,so you want to ask your teacher to say it again.

I.How familiar do you think you are with the teacher?

A.Stranger B.Familiar

II.Who do you think enjoys more power?

A.You B.Teacher C.Equal

III.How impositive do you think the request is?

A.Low B.High

第四步，確定MDCT選項及答案。15名母語為英語的本族語者參與了這一環(huán)節(jié)。從文獻中為每個MDCT情境配備三個備選答案，并請本族語者從中確定最合適的答案，如果就某一個選項的合適度達到70%及以上的相同意見，則該選項確定為標(biāo)準答案；如果他們覺得備選答案都不適合用作標(biāo)準答案，則要求他們用英語寫下自己認為最合適的答案，經(jīng)集體商議確定最后標(biāo)準答案。

至此，四種語用測試卷的開發(fā)全部完成，每套試卷的中英兩個版本合并為中英對照版。ODCT的情境描述采用漢語標(biāo)準普通話錄制，以防止受試由于自身英語水平的限制對情境的理解出現(xiàn)偏差。ODCT的每個情境后留有20秒供受試口頭作答（筆者請了五名不同水平的同年級學(xué)生進行試測，所有情境他們都能在15秒內(nèi)作答）。其他三種測試沒有時間限制。測試按照 DSAT、ODCT、WDCT、MDCT 的順序進行，以減少各測試方法間的交叉影響。DSAT測試受試設(shè)想自己在特定情境下所說話語的恰當(dāng)性，按李克特6級量表選擇。ODCT在實驗室中進行，受試通過耳麥說出在設(shè)定情境下自己將會說的話，電腦自動錄音。WDCT要求受試寫出在設(shè)定情境下要說的話。MDCT要求受試從三段備選話語中選出設(shè)定情境下最合適的話語。例（3）列出了一位受試對“情境一”在四種測試中的表現(xiàn)。

例3 You are discussing your assignment with your teacher.Your teacher speaks very fast.You cannot follow what he is saying,so you want to ask your teacher to say it again.

（1） DSAT:I think what I would say in this situation would be

very inappropriate 0----1-----2------3-----4-----5 completely appropriate

（2）ODCT:Pardon?

（3）WDCT:I’m sorry,I just can’t follow you.Please pardon me.

（4）MDCT:A.I think you are right.But if you explain it more clearly,I may understand it better.

B.Sorry,teacher,can you repeat it?

C.Excuse me,may I have your pardon?

3.3 評分

評分標(biāo)準的制定是語用能力測試中最具爭議的問題（劉建達2008），通行的做法是依據(jù)本族語者的文化準則來制定（North 2000）。本研究聘請了兩名美國教師對ODCT和WDCT評分，規(guī)則參照Hudson等人的標(biāo)準，包括言語行為的正確性、話語表達的正確性、信息量的大小、話語的正式程度、言語策略的直接性及禮貌度。兩位評分員詳細研讀并討論了評分標(biāo)準，并進行試評，直到他們覺得完全掌握了評分標(biāo)準之后再正式評閱全部試卷。每個情境中每位受試的得分為兩位評分員所給分數(shù)的平均值。MDCT部分，每個正確的選擇得5分，錯誤的得0分。DSAT中受試者的得分為他們自我評估的分數(shù)，評估采用李克特6級量表進行，（非常不恰當(dāng)）0—1—2—3—4—5（完全恰當(dāng)）。

4.研究結(jié)果與討論

4.1 不同測試工具的信度

由于該研究涉及到大量的主觀題評分，因此除了傳統(tǒng)的試卷信度外，還必須考察評分員間的評分信度。

4.1.1 評分員間的信度

在語用測試中，信度和效度研究可以通過多層面Rasch模型分析進行（Linacre 2000）。但Rasch模型分析主要用于每套試卷的信度或效度，而在多項選擇題型中（如本研究中的MDCT），如果考生靠猜測或練習(xí)效應(yīng)進行選擇，則其表現(xiàn)有可能不符合Rasch模型的特征曲線。況且，本研究需要同時對比幾種工具的信度和效度，因此采用了傳統(tǒng)的定量對比方法。

從表1可以看出，兩位評分員對ODCT和WDCT的評分信度分別為.895和.865（Pearson r），這種信度指數(shù)在如此開放和主觀的測試中是可以接受的。這一結(jié)果與劉建達（2007）的結(jié)果一致。劉建達通過Rasch模型分析，發(fā)現(xiàn)評卷人在WDCT中的評分體現(xiàn)了較好的內(nèi)部一致性。這說明在語用測試中，利用本族語者的直覺，同時制定嚴格而又詳細的評分標(biāo)準，是可以對說話人的語用表現(xiàn)進行評判的，即使是在DCT這樣開放的試題中也一樣。

表1 評分員間的評分信度

4.1.2 試卷信度

表2呈現(xiàn)了各試卷的內(nèi)部一致性信度(α)與折半信度（Guttman Split-Half Coefficient）。折半信度的分半依據(jù)是先算出受試在各題中所得分數(shù)的平均分，然后根據(jù)平均分從高到低將試卷題目分為兩部分。結(jié)果表明，DSAT 的信度很高(α=.918)，折半信度高達.969。ODCT和WDCT的信度分別為.793和.773，折半信度分別達到.869和.883。但MDCT的信度很低，這盡管與國外的一些研究結(jié)果相似（Yamashita 1996;Enochs&Yoshitake-Strain 1999；Hudson 2001;Ahn 2005），但與劉建達（2006）的研究結(jié)果大不一樣。劉建達也是在中國外語環(huán)境中進行的研究，其MDCT信度達到.88，如前所述，這種高信度有可能是正確選項的地道性所致。本研究MDCT的低信度有可能是因為測試中的情境不是從受試的真實生活場景中得來，雖然經(jīng)過了情境可能性調(diào)查，但這種可能性只是理論可能性，與受試的生活還是有一定差距。而且MDCT的備選項也不像劉建達那樣來自受試的語用表現(xiàn)。由此看來，要想開發(fā)出可靠的MDCT試題，必須經(jīng)過非常嚴格的開發(fā)過程，不僅要選擇適合受試的情境，還要嚴格篩選備選項。由于本研究中的MDCT試卷信度過低，接下來的分析均不考慮MDCT。

表2 四套語用測試卷的信度

4.2 不同測試工具的效度

4.2.1 內(nèi)容效度

本研究的試題包括了21種生活中常見的情境，涵蓋了九種常見的言語行為，符合全面性的要求（Roever 2011），也就是說，這些試題具有代表性，能充分體現(xiàn)所測試的目標(biāo)內(nèi)容。并且本研究還按照Hudson等人（1995）的模式選擇情境，每一個情境中都包含了地位、熟悉程度、強加度三種社交語用變量，受試需要正確判斷每個情境中的社交變量的值，然后調(diào)用合適的語用語言資源才能恰當(dāng)?shù)貓?zhí)行相關(guān)的言語行為，因此，受試在這些情境中的表現(xiàn)完全可以看成是他們的語用能力，符合可靠外推（extrapolation）的要求（Roever 2011）。

從表3可以看出，在21個情境中，14個情境中的聽者與說者地位平等，16個情境中兩者之間較熟悉，15個情境中的言語行為強加度較低。如果只考慮任何單一變量，這些情境中的言語行為策略不需要太多的內(nèi)部外部修飾，可以較直接，不能全面測試學(xué)習(xí)者的語用能力。但如果考慮三個語用變量的交互效應(yīng)，則需要受試者充分調(diào)動全部語用語言資源才能完成各個情境中的言語行為。如在情境12中，說者和聽者地位平等，雙方也很熟悉，但言語行為強加度較高，受試者需要調(diào)用相應(yīng)的禮貌和委婉策略，才能實現(xiàn)成功交際。在情境11中，雖然交談雙方地位平等，言語行為強加度也不高，但雙方不熟悉，說話人同樣需要調(diào)用相應(yīng)的語用策略來實現(xiàn)語用功能。照此類推，所有的21個情境呈現(xiàn)了豐富的社交變量組合，充分考察了受試的社交語用能力（將形式與情境匹配的能力）和語用語言能力（將形式與功能匹配的能力）（Kasper&Rose 2002），具有較好的內(nèi)容效度。

4.2.2 標(biāo)準關(guān)聯(lián)效度

本研究通過相關(guān)分析考察了各測試工具的關(guān)聯(lián)程度，以此考察它們的標(biāo)準關(guān)聯(lián)效度。表4顯示，三種測試工具都有顯著意義的相關(guān)。ODCT與WDCT屬于產(chǎn)出型測試，兩者在0.01顯著性水平上相關(guān)系數(shù)為.636，具有較高的相關(guān)性。在0.05顯著性水平上，DSAT與ODCT相關(guān)系數(shù)為.320，與WDCT的相關(guān)系數(shù)為.331，盡管屬于弱相關(guān)，但達到了顯著水平。這在一定程度上說明這三種測試方法測試了學(xué)生相似的能力，即語用能力。上述研究結(jié)果與前人（Ahn 2005；劉建達2006）的研究基本一致。Ahn（2005）的研究中DSAT與WDCT的相關(guān)系數(shù)為.50，屬于弱相關(guān)。劉建達（2006）的研究中，DSAT與WDCT和MDCT之間的相關(guān)系數(shù)分別為.27和.47，都屬于弱相關(guān)。所有這些研究結(jié)果都表明DSAT與其它工具呈弱相關(guān)關(guān)系。導(dǎo)致這種弱相關(guān)的原因有可能是因為DSAT是學(xué)習(xí)者對自己語用能力的主觀評價，與真實表現(xiàn)有一定的差距。未來的研究需要開發(fā)出高信度的MDCT試卷，以便考察產(chǎn)出型測試與理解型測試之間、自我評估與其它測試工具之間的相關(guān)關(guān)系。

表4 三種測試工具的相關(guān)性

4.2.3 構(gòu)念效度

為了考察這些工具的構(gòu)念效度，首先對DSAT、WDCT和ODCT進行主成份分析，結(jié)果顯示，這三套試卷的KMO值分別為.600、.517和.574，Bartlett球形度檢驗顯著性分別為.000、.003和.005，解釋的總方差分別為76%、73%和75%，可以做主成份因子分析。成份矩陣提取的主成份DSAT 6個、WDCT 8個、ODCT 7個，但每一個情境在這些主成份上的負荷量都不高。具體說來，在DSAT中，有14個情境負荷于同一個主成份（情境 3，5，6，7，8，9，12，13，14，15，18 ，19，20，21）；在WDCT中有12個情境負荷于同一個主成份（情境 2，6，7，9，11，13，15，16，17，19，20，21）；在ODCT中有13個情境負荷于同一個主成份（情境2，4，6，7，8，9，11，14，15，16，17，20，21）（每個情境的詳細內(nèi)容見表3）。由此可以看出，有6個情境（6，7，9，15，20，21）在三個測試中都共同負荷于同一主成份。盡管由于數(shù)據(jù)分散，正交旋轉(zhuǎn)失敗，但絕大部分情境都指向了同一個主成份，尤其是在三套試卷中共同負荷值較高的6個情境，都屬于高強加度的情境，需要說話人調(diào)用大量的語用語言資源才能完成指定的言語行為。由于沒有受試在線加工數(shù)據(jù)，我們不知道他們在不同的情境中是否調(diào)用了不同的語用資源，從而展現(xiàn)出不同的語用表現(xiàn)，未來需要加強這方面的研究，以便確定到底什么樣的變量組合最有利于測試語用能力。這給我們的啟示是，在基于DCT的語用測試中，不僅要進行仔細的情境采樣，這些情境最好來自受試的親身體驗，而不是可能的情境，而且還要認真操控情境中的變量組合，否則有可能沒法有效的測出語用能力。

接下來，通過因子分析提取了三套語用測試卷共同的特點，考察語用測試和水平測試是否測試了不同的能力。經(jīng)過最大方差法旋轉(zhuǎn)后，提取出兩個特征值大于1的因子，結(jié)果（表5）顯示，三種語用測試工具在因子1上負荷值較高，而CET-4聽力和CET-4閱讀在因子2上負荷值較高。共性方差也表明CET-4聽力和CET-4閱讀已解釋的方差為0.662和0.696，DSAT、ODCT、WDCT 解釋的方差分別達到 0.408、0.761和0.827，全部已解釋的方差為63.084%。這說明DSAT、ODCT和WDCT三種測試方法測試了同一種能力（語用能力），而CET-4聽力和CET-4閱讀測試的是另一種能力（英語水平）。這一結(jié)果與前人的結(jié)果基本一致。劉建達（2006）對學(xué)生在WDCT、DSAT、MDCT三種語用測試中的成績和他們在TOEFL考試中的成績進行因子分析，得到了類似的結(jié)果，說明DSAT、ODCT和WDCT可以用作語用能力的測試工具。但這一結(jié)果有可能是測試方法產(chǎn)生的效應(yīng)，需要謹慎對待，因為CET-4的兩種測試格式相同，而DCT的三套試卷情境一樣，這種測試方法的共性形成了兩個不同的因子。未來需要進一步研究語用測試和水平測試的不同測試形式是否確實測試了不同的構(gòu)念，以此確定語用測試的構(gòu)念效度。

表5 各測試工具的因子分析結(jié)果

表6 受試在不同測試中的表現(xiàn)

4.3 不同語用測試中受試的表現(xiàn)

雖然不同的測試采用的是同樣的情境，但由于呈現(xiàn)模態(tài)不一樣，學(xué)生的表現(xiàn)有可能不一樣。描述性統(tǒng)計（表6）顯示，受試在DSAT的平均分最低，在WDCT的平均分最高，在ODCT的平均分居中。這可能是由于在WDCT測試中，沒有時間限制，受試者可以充分思考。而ODCT測試是在實驗室中進行的，有嚴格的時間限制，可能影響了受試的表現(xiàn)。這一結(jié)果與Hudson（2001）的實驗結(jié)果相似，即受試在WDCT中的成績要高于ODCT。但出人意料的是受試自我評估的分數(shù)最低，標(biāo)準差也最大，這也許是因為這些學(xué)生沒有接受語用訓(xùn)練，學(xué)習(xí)過程中語用信息也不足，即使有語用信息，也沒有引起老師和學(xué)生的注意，因而接觸到這樣的測試感覺沒有把握。

方差分析（表7）顯示，三種測試中受試的表現(xiàn)有顯著差異。這一結(jié)果似乎表明，雖然不同試卷信度和效度都不錯，但并不是所有的測試工具都是最佳的選擇，最能測試語用能力的工具是WDCT，在外語環(huán)境中尤其如此。受試在ODCT中的表現(xiàn)比在WDCT中的表現(xiàn)差，這是因為ODCT的時間限制，還是實驗室錄音導(dǎo)致的心理壓力，抑或是在外語環(huán)境中學(xué)生的口語輸出本來就比筆頭輸出表現(xiàn)差，未來需要大量的實證研究才能回答這類問題。同時，中國英語能力等級量表以運用為導(dǎo)向，采用“能做”描述，關(guān)注語言在交流中的作用。但這些“能做”描述語主要是圍繞以言行事的內(nèi)容擬定，本研究結(jié)果表明，同樣的“能做”內(nèi)容，執(zhí)行模態(tài)不一樣，反映出來的能力是不一樣的。

表7 受試語用表現(xiàn)的方差分析結(jié)果

4.4 受試英語水平與語用能力的相關(guān)性

如前所述，在本研究中，英語水平指CET-4測試中的客觀題成績，語用能力指受試在不同語用測試中的表現(xiàn)。相關(guān)分析顯示，受試CET-4聽力、CET-4閱讀和CET-4總成績與DSAT和WDCT成績間沒有顯著意義的相關(guān)。雖然CET-4總成績和ODCT成績有顯著意義相關(guān)（p＜0.05），但相關(guān)系數(shù)只有.268，這也許說明在外語環(huán)境中，受試在ODCT中的表現(xiàn)更多地依賴外語水平。以上這些結(jié)果與Enochs&Yashitake-Strain（1999）和劉建達（2006）的研究結(jié)果相似，但Yamashita（1996）發(fā)現(xiàn)受試的語言水平與其在ODCT、WDCT和DRPT中的表現(xiàn)顯著相關(guān)，并且學(xué)習(xí)者與目標(biāo)文化接觸的時間越長，在ODCT和DRPT中表現(xiàn)越好。產(chǎn)生這種不同結(jié)果的主要原因有可能是本研究、劉建達（2006）和 Enochs&Yashitake-Strain（1999）中的受試都沒有直接接觸英語國家文化的經(jīng)歷（后者的部分受試有不同程度地接觸過目標(biāo)文化），但同時也似乎說明，在外語環(huán)境中，語用能力與語言能力確實是兩種不同的能力（Bardovi-Harlig&D?rnyei 1998)，盡管口頭的語用表現(xiàn)（如ODCT、DRPT）有可能更多地受語言水平的影響，我們不能簡單地用語言能力代替語用能力，也不能用語言能力測試代替語用能力測試。隨著外語教學(xué)越來越重視語用能力和跨文化交際能力的培養(yǎng)，外語測試也應(yīng)該與時俱進，開發(fā)出合適的工具以檢測學(xué)習(xí)者這些方面的能力。

5.結(jié)語

本研究用定量的方法在中國英語學(xué)習(xí)者中考察了 DSAT、ODCT、WDCT、MDCT 四種語用能力測試工具的信度、效度及其它相關(guān)問題。結(jié)果表明，DSAT、ODCT和WDCT都具有可以接受的信度和效度，可以用于語用能力的測試，但MDCT的信度很低。實際上，在所考察的四種測試工具中，MDCT是最省時省力和可行的一種方法，而且最有可能實現(xiàn)測試的全面性，在大型考試中尤其如此，但這種測試工具的開發(fā)過程非常復(fù)雜，未來需要更多的研究考察如何開發(fā)出高信度的MDCT試卷。第二，雖然DSAT、ODCT和WDCT中并不是所有的情境都能較好地負荷于某一個主成分，但確實測試了語用能力；三者之間相關(guān)性較弱，表明在高風(fēng)險考試中最好不要使用DSAT，因為它評價的畢竟不是語用表現(xiàn)，而是受試者對自己語用表現(xiàn)的一種可能性評估。第三，受試在不同的測試中的表現(xiàn)呈現(xiàn)出顯著差別，表明并不是任何測試工具都能最有效地測出學(xué)生的語用能力。學(xué)生在WDCT中的表現(xiàn)最好，但WDCT需要非常詳細的評分規(guī)則，且評分員需要非常嚴格的培訓(xùn)，這增加了在大規(guī)模考試中的執(zhí)行難度。第四，受試的語言水平和語用能力沒有相關(guān)性，這說明語用能力和語言能力是兩種不同的能力，需要不同的工具去測量，但語言水平在口頭產(chǎn)出性語用測試中有可能發(fā)揮更大的作用。

本研究中MDCT選項不是來源于受試者的真實語用表現(xiàn)，這可能是MDCT信度低的原因之一。其次，Brown（2008）發(fā)現(xiàn)增加試題數(shù)量能夠有效增加試卷的信度，本研究只包括了21種情境，如果將試題數(shù)增至30或40個，有可能會有效提高ODCT、WDCT、MDCT的信度。最后，本研究是基于權(quán)力、距離和強加度設(shè)計的，指向的是個體的認知和言語行為理論，有可能無法解釋交互中的語用能力（Youn 2015）。但這并不能否認DCT作為語用測試工具的實用性，因為它測試了語用能力中很重要的一個方面：語用知識。另一方面，英語用作國際通用語，使用本族語者的規(guī)范作為語用能力的評判標(biāo)準也會遭到質(zhì)疑，因為在跨文化交流語境中，交流雙方有可能不涉及本族語者，他們會在協(xié)商中建構(gòu)自認為最合適的語用規(guī)范。鑒于此，未來的研究不僅需要考察其它語用測試工具和測試形式（如基于網(wǎng)絡(luò)的語用測試（Roever 2006）和基于話語分析的方法（Walters 2004））在外語環(huán)境中的信度和效度，而且需要拓展理論基礎(chǔ)，尤其需要重新審視跨文化交流中的語用能力，以真正實現(xiàn)語用能力測試的可靠性和全面性，并構(gòu)建更加科學(xué)的外語能力測評體系。

最后需要說明的是，構(gòu)建中國外語測評體系，其戰(zhàn)略配套不僅需要建設(shè)科學(xué)的測評工具，還需要建設(shè)國家外語題庫（呂生祿2015）。從語用能力測試來說，題庫建設(shè)首先需要解決的是符合中國國情的情境庫，描述典型語言特征、語言活動和語言策略（朱正才2015），并基于這些情景開發(fā)相應(yīng)的試題庫。從中國的學(xué)情來說，中國學(xué)生最熟悉的題型是多項選擇題，而且這種題型最適合大規(guī)?？荚?，但開發(fā)這樣的試題面臨的挑戰(zhàn)也最大。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡