王 爽 王佶旻
語言測(cè)驗(yàn)中的變量有三個(gè):語言能力、刺激和反應(yīng)[1]。語言測(cè)驗(yàn)通常使用一定的刺激物,即測(cè)驗(yàn)任務(wù),得到被試的反應(yīng),也就是被試的答案。語言能力的屬性以及使用測(cè)驗(yàn)任務(wù)在多大程度上測(cè)到了想要測(cè)驗(yàn)的能力是語言測(cè)評(píng)研究者關(guān)注的重要問題。任何測(cè)量都存在誤差,語言測(cè)驗(yàn)也不例外,使用測(cè)量任務(wù)得到語言學(xué)習(xí)者能力的反饋,這個(gè)過程是復(fù)雜的,包含許多的程序和步驟,每一步的小誤差都會(huì)增大最終結(jié)果的誤差。因此,語言測(cè)量研究者想要獲得語言能力的證據(jù),就需要從語言測(cè)驗(yàn)的整個(gè)過程進(jìn)行考慮,包括測(cè)驗(yàn)對(duì)象和測(cè)驗(yàn)任務(wù)實(shí)施等。
語言測(cè)試開發(fā)需要確定測(cè)試的對(duì)象是什么,根據(jù)對(duì)語言能力定義的不同常??梢苑譃閮煞N模式:以能力構(gòu)想為中心和以情景任務(wù)為中心。而TOEIC 口語考試是基于“以證據(jù)為中心”的評(píng)價(jià)模式(evidencedcentered design,簡(jiǎn)稱ECD 模式)設(shè)計(jì)的,ECD 模式以尋找證據(jù)為中心任務(wù),每部分層層相關(guān)和遞進(jìn),將整個(gè)評(píng)測(cè)過程統(tǒng)一起來,形成完成的測(cè)評(píng)框架。本文將對(duì)TOEIC 口語考試的任務(wù)設(shè)計(jì)模式進(jìn)行介紹,并在此基礎(chǔ)上探討其對(duì)漢語口語測(cè)試的借鑒價(jià)值。
在口語測(cè)試開發(fā)的初始階段,對(duì)口語能力的界定是至關(guān)重要的,它還會(huì)影響后期的任務(wù)形式、評(píng)分方式等。通常對(duì)語言能力有兩種定義方式:一種是“現(xiàn)實(shí)法”,它會(huì)確定實(shí)際語言應(yīng)用的特例構(gòu)成的范圍,這個(gè)范圍里的應(yīng)用特例被認(rèn)為是特定語言行為的表現(xiàn)[2];另一種是“成分法”,這種方法在語言測(cè)試發(fā)展歷史上占有重要的地位,它會(huì)把語言能力分為若干個(gè)子能力。
在口語測(cè)試開發(fā)過程中,“現(xiàn)實(shí)法”會(huì)根據(jù)之前確定好的特定口語行為表現(xiàn)進(jìn)行任務(wù)設(shè)計(jì)和評(píng)分方式設(shè)計(jì),由于其特點(diǎn)通常會(huì)采用總體等級(jí)評(píng)分,但是這種評(píng)分方式對(duì)評(píng)分員的要求很高,評(píng)分信度通常難以保證[3]?!俺煞址ā眲t以口語能力的構(gòu)想為中心,由于口語能力是不能直接觀察和測(cè)量的,仍舊需要設(shè)計(jì)任務(wù)對(duì)口語能力進(jìn)行測(cè)量,然后根據(jù)這些任務(wù)進(jìn)行推斷,因?yàn)榭谡Z能力會(huì)被分為某些確定的成分,如準(zhǔn)確性、流利度,準(zhǔn)確性會(huì)使用每個(gè)T-unit 的錯(cuò)誤個(gè)數(shù)[4]等,流利度會(huì)使用停頓次數(shù)以及平均語流長(zhǎng)度[5]等作為量化的客觀指標(biāo)。
“現(xiàn)實(shí)法”將特定的口語行為表現(xiàn)作為其評(píng)價(jià)指標(biāo),但無法推斷被試在其他口語任務(wù)上的表現(xiàn);“成分法”將口語能力作為重點(diǎn),在評(píng)分方式上量化了各種指標(biāo),但操作復(fù)雜,常因?yàn)楹雎詫?shí)際情景而受到批評(píng)。兩種方式各有利弊,可以根據(jù)不同的考試目的選擇不同的定義方法,但無論是哪種方法,都需要設(shè)計(jì)測(cè)試任務(wù)來進(jìn)行口語測(cè)量,而TOEIC 的口語考試設(shè)計(jì)將這兩種方式結(jié)合起來,能更好地完成口語測(cè)試。
TOEIC 口語考試是基于“以證據(jù)為中心”的評(píng)價(jià)模式,即ECD 模式設(shè)計(jì)的。ECD 模式是由Mislevy,R.J.等人于1997-1999 年在主持美國(guó)教育測(cè)量服務(wù)中 心(Educational Testing Service,ETS)工作時(shí)提 出的一項(xiàng)新的系統(tǒng)性評(píng)價(jià)設(shè)計(jì)研究項(xiàng)目,旨在開發(fā)評(píng)價(jià)設(shè)計(jì)框架,已被廣泛用于教育評(píng)價(jià)中。TOEIC 口語考試是在GRE 等考試之后使用ECD 模式進(jìn)行開發(fā)設(shè)計(jì)的,在先前經(jīng)驗(yàn)的基礎(chǔ)上,其口語考試設(shè)計(jì)更加清晰明確具有代表性。
ECD 模式產(chǎn)生的背景,一方面是認(rèn)知科學(xué)和學(xué)習(xí)科學(xué)的發(fā)展,促使我們對(duì)學(xué)習(xí)者的知識(shí)、技能等有了更深的認(rèn)識(shí);另一方面是統(tǒng)計(jì)模型的發(fā)展使得測(cè)驗(yàn)?zāi)軕?yīng)用基于概率的推理,這樣能夠涉及觀察變量、具體情境以及與推論之間的推理鏈條。
其理論基礎(chǔ)來自Mislevy 對(duì)教育評(píng)價(jià)中推理和證據(jù)之間問題的看法。他認(rèn)為,教育評(píng)價(jià)的對(duì)象是學(xué)生的知識(shí)、技能和成就,評(píng)價(jià)的過程可以看成是“基于證據(jù)進(jìn)行推理”的過程,教育評(píng)價(jià)就是希望從學(xué)生所說和所做或做出的特定事物中推理出更廣泛的知識(shí)和能力推論[6]的過程??傮w來說,ECD 模式是基于證據(jù)對(duì)學(xué)習(xí)者的知識(shí)、技能等進(jìn)行推理的模型框架。
Mislevy 等人還認(rèn)為,評(píng)估確實(shí)可以收集復(fù)雜的數(shù)據(jù)來建立對(duì)復(fù)雜學(xué)生模型的基本推斷,并衡量復(fù)雜的學(xué)習(xí)或評(píng)估復(fù)雜的程序,但這是建立在從觀察到推理的全部推理鏈之上的,因此需要一個(gè)更加結(jié)構(gòu)化的框架來提供通用術(shù)語和設(shè)計(jì)對(duì)象,使評(píng)估設(shè)計(jì)更為明確,并將設(shè)計(jì)元素與實(shí)際評(píng)估中固有的過程聯(lián)系起來,這樣的框架不僅使評(píng)估的基本證據(jù)結(jié)構(gòu)更加明確,而且使評(píng)估的操作要素更易于重復(fù)使用和共享[7]。ECD 評(píng)價(jià)模式就是從構(gòu)想的建立到分?jǐn)?shù)的發(fā)布建立的有層次和結(jié)構(gòu)的框架。
ECD 模式框架分為5 個(gè)層次,分別是領(lǐng)域分析、領(lǐng)域建模、概念性評(píng)價(jià)框架、評(píng)價(jià)執(zhí)行和評(píng)價(jià)發(fā)布[8]。ECD 模式能夠使測(cè)試開發(fā)者重點(diǎn)針對(duì)語言能力和任務(wù)以及它們之間的關(guān)系,5 個(gè)層次包含了測(cè)試開發(fā)的整個(gè)階段,每個(gè)層次都互相關(guān)聯(lián),層層推進(jìn)。
考試研發(fā)設(shè)計(jì)的第一階段是領(lǐng)域分析,包括對(duì)評(píng)估領(lǐng)域的已知內(nèi)容的初步綜合,主要側(cè)重這些問題:在該領(lǐng)域取得成功的重要技能、知識(shí)和能力是什么?在哪些實(shí)際情況中學(xué)習(xí)者會(huì)使用這些技能、知識(shí)和能力?
第二階段是領(lǐng)域建模,這一階段要將第一階段領(lǐng)域分析收集的信息細(xì)化,用來指導(dǎo)接下來的與語言能力相對(duì)應(yīng)的任務(wù)設(shè)計(jì),包括三個(gè)相互關(guān)聯(lián)的部分:熟練程度范例-對(duì)考生能力要求的實(shí)質(zhì)是什么?證據(jù)范例-考生表現(xiàn)中的哪些可觀察特征會(huì)提供數(shù)據(jù)來支持這些能力構(gòu)想?任務(wù)范例-什么類型的任務(wù)能夠讓考生提供證明他們熟練性的證據(jù)?
第三個(gè)階段是概念性評(píng)價(jià)框架(CAF),在前兩個(gè)階段的草圖基礎(chǔ)上,它會(huì)提供評(píng)估操作要素的具體細(xì)節(jié)以確定最終的藍(lán)圖,包括5 個(gè)關(guān)聯(lián)的模型:學(xué)生模型、證據(jù)模型、任務(wù)模型、呈現(xiàn)模型和組合模型。概念性評(píng)價(jià)框架提供了一個(gè)正式的框架,用于指定要衡量的知識(shí)和技能、觀察的條件以及支持預(yù)期推斷而收集的證據(jù)的性質(zhì)。
第四個(gè)階段的評(píng)價(jià)執(zhí)行就是具體執(zhí)行評(píng)價(jià)工作,包括創(chuàng)建CAF 結(jié)構(gòu)中描述的評(píng)價(jià)部分,例如編寫任務(wù)、呈現(xiàn)任務(wù)、擬合測(cè)量模型、細(xì)化評(píng)分規(guī)則和提供實(shí)例、編程模擬、自動(dòng)評(píng)分算法、收集反應(yīng)、分析反應(yīng)等。評(píng)價(jià)都需要一些程序,通過這些程序來挑選題目、運(yùn)行考試、報(bào)道分?jǐn)?shù)以及交流反饋。
最后一個(gè)階段是評(píng)價(jià)發(fā)布,是通過交付系統(tǒng)形成的,包括呈現(xiàn)程序、反應(yīng)程序、總結(jié)評(píng)分程序、活動(dòng)挑選程序和任務(wù)/證據(jù)組合庫。它描述了評(píng)估所需的學(xué)生、證據(jù)、任務(wù)等以及它們?nèi)绾螀f(xié)同工作。
整個(gè)框架從語言能力構(gòu)想到最終成績(jī)發(fā)布是一個(gè)具有邏輯的完整的系統(tǒng),其中概念性評(píng)價(jià)框架是整個(gè)框架的核心,可以說是整個(gè)框架的縮影,包含了語言能力構(gòu)想、任務(wù)、評(píng)價(jià)標(biāo)準(zhǔn)等幾個(gè)考試的核心問題以及它們是如何互相作用的。領(lǐng)域分析和領(lǐng)域建模是進(jìn)行測(cè)試開發(fā)的前期理論性定義階段,概念性評(píng)價(jià)框架是將這些能力更加詳細(xì)化地落到實(shí)際操作上。TOEIC 的口語任務(wù)設(shè)計(jì)一方面與理論性定義階段相關(guān),一方面又關(guān)乎評(píng)價(jià)執(zhí)行和評(píng)價(jià)發(fā)布最后兩個(gè)階段,口語設(shè)計(jì)也遵循ECD 模式這種層層遞進(jìn)的過程,每一步都有明確的步驟。
TOEIC(Test of English for International Communication),又被稱為托業(yè)考試,用于測(cè)試母語非英語人員在國(guó)際性環(huán)境中的日常英語能力[9]。TOEIC 考試雖然在20 世紀(jì)就已研發(fā)和實(shí)施,但最開始只有閱讀和聽力測(cè)試部分,不包括口語和寫作測(cè)試。2005 年,ETS 與來自日本(IIBC)和韓國(guó)(YBM/Sisa)的業(yè)務(wù)成員進(jìn)行探討,決定增加TOEIC 系列的口語和寫作測(cè)試,并在考試設(shè)計(jì)方面做出要求,如希望可以有更多的等級(jí);在考試時(shí)間方面,口語和寫作的時(shí)間約為90 分鐘。
ETS 在開發(fā)TOEIC 的口語和寫作測(cè)試之前已經(jīng)將ECD 評(píng)價(jià)模式應(yīng)用于托??荚囍?,鑒于此經(jīng)驗(yàn),在研發(fā)中要考慮平行試題形式的開發(fā),而且必須有詳細(xì)的任務(wù)規(guī)范,這些規(guī)范能夠使命題者更加明晰口語能力和任務(wù)之間的關(guān)系,這也能夠使口語的理論性定義在實(shí)際操作中得到充分體現(xiàn),做到理論性定義與操作性定義的統(tǒng)一。最終研發(fā)者確定了任務(wù)設(shè)計(jì)分析實(shí)施步驟,TOEIC 口語任務(wù)設(shè)計(jì)與ECD 模式的框架對(duì)應(yīng)情況如表1[10]所示。
表1 基于ECD 設(shè)計(jì)的TOEIC 口語任務(wù)設(shè)計(jì)
TOEIC 口語任務(wù)設(shè)計(jì)首先按照領(lǐng)域分析和領(lǐng)域建模階段,對(duì)口語能力的整個(gè)理論和測(cè)試任務(wù)進(jìn)行回顧,最后形成TOEIC 的口語能力構(gòu)想以及對(duì)子能力的要求,列出與對(duì)應(yīng)子能力相關(guān)的證據(jù)來源,以及影響任務(wù)難度的特征和評(píng)判標(biāo)準(zhǔn)。在此基礎(chǔ)上,構(gòu)建了有具體細(xì)節(jié)的任務(wù)模型,用來形成測(cè)試任務(wù)的模板,包括測(cè)量的內(nèi)容摘要和任務(wù)模型,具體見表2。
表2 TOEIC 口語任務(wù)模型框架
任務(wù)模型由四部分組成,包括固定元素、變量元素、評(píng)分標(biāo)準(zhǔn)或題目以及變體。固定元素指的是在該任務(wù)的不同實(shí)例中保持不變的一類任務(wù)的各個(gè)方面。例如要求測(cè)試者完成任務(wù)的內(nèi)容,以及任務(wù)組件的順序和時(shí)間等。TOEIC 口語測(cè)試的固定元素包括刺激材料的確切長(zhǎng)度;刺激、準(zhǔn)備和反應(yīng)的確切時(shí)間;并準(zhǔn)確說明提示的性質(zhì)。變量元素指的是可以在該任務(wù)的不同實(shí)例之間更改的任務(wù)類的方面,例如文本或主題的類型等,還包括這些元素的可能變體集。評(píng)分標(biāo)準(zhǔn)規(guī)定了評(píng)估考生回答的程序和標(biāo)準(zhǔn)。變體會(huì)定義好任務(wù)范圍和特定主題區(qū)域或文本類型或任務(wù)框架定義的任務(wù)示例。
一旦創(chuàng)建了任務(wù)設(shè)計(jì)和任務(wù)模型框架,命題專家就可以根據(jù)內(nèi)容專業(yè)知識(shí)和業(yè)務(wù)要求商定標(biāo)準(zhǔn)評(píng)估框架,這樣可以維持同一類任務(wù)的多種變體的產(chǎn)生,有助于在測(cè)量某種口語子能力時(shí),不會(huì)輕易被其他內(nèi)容干擾。
任務(wù)設(shè)計(jì)與能力構(gòu)想緊密相關(guān),在進(jìn)行任務(wù)設(shè)計(jì)之前要明確口語能力構(gòu)想。漢語與英語口語不同,在語音、語調(diào)、語氣停頓等方面有著本身的特點(diǎn),因此在漢語口語考試設(shè)計(jì)時(shí)要注意漢語的特點(diǎn)。
由于漢語口語水平考試的測(cè)試目的不同,在構(gòu)建漢語口語能力構(gòu)想時(shí)也不同。以商務(wù)漢語口語測(cè)試為例,與普通的漢語水平口語不同,商務(wù)漢語口語具有專業(yè)化、職業(yè)化的特點(diǎn),其詞匯和語法等方面都有自己的特征,如語體相對(duì)較為正式、表現(xiàn)形式包括獨(dú)白和對(duì)話兩種[11]。因此不僅要考慮基本的口語交流能力,還需要對(duì)考生的商務(wù)漢語口語能力進(jìn)行分析。在此分析基礎(chǔ)上,確定想要衡量的口語能力是被試 “能夠有效地在日常和商務(wù)交流中通過漢語進(jìn)行口語交流的能力”。還可以對(duì)更詳細(xì)的商務(wù)漢語口語子能力進(jìn)行要求,例如可以在特定的語境中談?wù)撃呈碌哪芰梢约?xì)分為考生能夠選擇適當(dāng)?shù)恼Z言進(jìn)行日常的社交和商業(yè)交流(如產(chǎn)品介紹、回答用戶的咨詢等)。
對(duì)口語能力的界定和細(xì)化能夠?yàn)榻酉聛淼娜蝿?wù)設(shè)計(jì)等工作提供更好的幫助,而接下來的實(shí)際操作性工作也會(huì)進(jìn)一步驗(yàn)證或者修正理論。
口語任務(wù)設(shè)計(jì)是連接語言口語能力理論和最終分?jǐn)?shù)呈現(xiàn)的橋梁,并與兩者息息相關(guān),因此口語任務(wù)設(shè)計(jì)要在統(tǒng)一的結(jié)構(gòu)框架中綜合考慮這些因素。
在領(lǐng)域建模階段,要根據(jù)口語能力構(gòu)想和子能力進(jìn)行任務(wù)設(shè)計(jì),這些設(shè)計(jì)包括要列出相關(guān)證據(jù)的真實(shí)世界任務(wù),例如在漢語口語能力的任務(wù)中,要求考生根據(jù)一些書面信息詢問或者回答漢語教師或其他人提出的問題;還包括確定可能影響任務(wù)難度的特征,這些特征包括漢語閱讀和聽力材料的特征,這些特征是刺激口語能力表現(xiàn)的不同來源;確定評(píng)估任務(wù)性能的標(biāo)準(zhǔn),例如漢語口語的清晰度和節(jié)奏、連貫和銜接等,這些都是在進(jìn)行最初的任務(wù)設(shè)計(jì)時(shí)要考慮的部分。
在任務(wù)設(shè)計(jì)時(shí)還有一個(gè)重要的步驟就是盡可能多地列出每種子能力要求的證據(jù)來源,支持判斷子能力所需的觀察,這可以用來判斷任務(wù)的適當(dāng)性。傳統(tǒng)設(shè)置任務(wù)的方法是建立語言使用者需要的任務(wù)列表,從中選擇一些有代表性的任務(wù),但是這些依賴特定領(lǐng)域中專家的知識(shí)、經(jīng)驗(yàn)、技巧,具有較強(qiáng)的主觀性,缺乏實(shí)際的證據(jù)來支持測(cè)驗(yàn)題目和所要測(cè)量的心理結(jié)構(gòu)之間的關(guān)系[12]。因此,在進(jìn)行漢語口語任務(wù)設(shè)計(jì)時(shí),應(yīng)該結(jié)合漢語本身的知識(shí)以及認(rèn)知心理的任務(wù),提取子能力對(duì)應(yīng)的漢語口語表現(xiàn)行為。另外,由于口語測(cè)驗(yàn)任務(wù)是基于證據(jù)來源這樣的設(shè)計(jì)特點(diǎn),受試者在某個(gè)技能或知識(shí)上的強(qiáng)弱能夠通過每項(xiàng)任務(wù)體現(xiàn)出來,學(xué)生和教師就能夠有針對(duì)性地強(qiáng)化,進(jìn)而促進(jìn)學(xué)生的學(xué)習(xí)和教師的教學(xué)。
基礎(chǔ)的任務(wù)設(shè)計(jì)完成后就需要將這些任務(wù)具體化,使用任務(wù)模型能夠?qū)⑷蝿?wù)的特征展現(xiàn)出來,使命題以及評(píng)分更具邏輯性。 漢語口語命題者可以根據(jù)任務(wù)模型中要求的固定不變的任務(wù)性質(zhì)選擇真實(shí)的口語材料, 在這個(gè)前提下可以選擇不同類型和主題的文本。 固定的任務(wù)性質(zhì)決定了評(píng)分的規(guī)則, 那么每一項(xiàng)任務(wù)采用總體等級(jí)評(píng)分還是分項(xiàng)客觀指標(biāo)評(píng)分或者其他方式就有了依據(jù)。
想要知道漢語口語水平測(cè)試在多大程度上測(cè)到了想要的口語能力,測(cè)驗(yàn)任務(wù)是關(guān)鍵。口語測(cè)驗(yàn)任務(wù)可以分為開放式任務(wù)和架構(gòu)式任務(wù)[13],初級(jí)的漢語水平學(xué)習(xí)者口語又可以分為“聽-說”模式和口語獨(dú)白模式[14],從中可以看出測(cè)驗(yàn)任務(wù)由于本身特點(diǎn)以及語言水平等相關(guān)因素具有復(fù)雜性,TOEIC 的口語任務(wù)設(shè)計(jì)提供了一個(gè)具有邏輯的框架,對(duì)漢語口語測(cè)試的開發(fā)具有重要的參考價(jià)值。