陳艷龍
(鹽城工學(xué)院 外國語學(xué)院,江蘇 鹽城 224051/揚州大學(xué) 文學(xué)院,江蘇 揚州 225009)
20世紀70年代以來,研究者對語言測試與評估的研究呈現(xiàn)爆發(fā)式的增長(Skehan,1988),這種趨勢并未因進入21世紀而衰減;反而因新研究主題的不斷涌現(xiàn),變得更加多樣化和深入。《Routledge語言測試手冊》(以下簡稱《測試手冊》)就是在這樣的背景下誕生的,它是Routledge出版社規(guī)劃出版的“應(yīng)用語言學(xué)手冊系列”叢書之一?!稖y試手冊》為該系列的第十本,由Fulcher和Davidson任主編。該書涵括了當今語言測試學(xué)幾乎所有的重要研究主題,閱后可以一窺學(xué)科發(fā)展的全貌。整個框架設(shè)計力圖使讀者閱后能夠全面把握語言測試學(xué)科的研究對象、范圍、方法、操作以及未來發(fā)展。
第一部分為效度。效度是語言測試設(shè)計和研究的中心,決定著經(jīng)驗證據(jù)和理論論證對測試分數(shù)解釋的支持程度。本部分共三章,從理論到實踐對效度概念進行了重新梳理和檢驗。第一章“效度的概念”對效度進行了綜述并總結(jié)了效度檢驗的四種方法。語言測試的所有研究都與效度及驗證過程有關(guān),但效度概念卻不易掌握,不同的研究者有不同的認識,不同的效度框架所指也不一致。第二章“效度論點的表述”闡述了解釋性論點的概念及其在論證效度本質(zhì)中的作用。Kane認為相較于測試得分,我們更應(yīng)看重得分的解釋。Kane提出建立一個靈活的框架來驗證實驗的過程,這種方法方便參考、解釋留有余地,避免了對驗證過程的過渡簡化的解釋。第三章“設(shè)計調(diào)整中的效度問題”論及語言測試與評估中過程的優(yōu)化問題。調(diào)整指對測試進行變動或修改以對被試者可能遇到的和測試內(nèi)容無關(guān)的不利遭遇做出補償。人們對效度和實踐相結(jié)合存在不同的爭論,因為任何形式的調(diào)整改變都會降低與測試構(gòu)念無關(guān)因素的影響。
第二部分為課堂評價及后效。本部分共五章。語言測試除了為考生提供更多的教育機會、更好的就業(yè)流動性以及更多的就業(yè)機會外,也經(jīng)常用來提供教學(xué)反饋,幫助診斷教與學(xué)需要改進之處。本部分論述了研究和測試目的多樣性以及利用測試來幫助學(xué)習(xí)者學(xué)習(xí)語言。第四章“課堂評估”認為課堂測試異于傳統(tǒng)的規(guī)范測試,是不同的測試范式,對其開展研究還缺乏清晰的計劃。第五章“后效作用”探討了語言測試的影響。20世紀90年代,語言測試對教學(xué)的影響逐漸引起了研究者的關(guān)注。Wall和Alderson(1993)第一次向?qū)W界拋出了“后效作用是否存在”的問題,此后數(shù)十年她一直致力于此主題的研究并得出了一些有趣的結(jié)論:首先,語言測試不是某種變化的單一因素,諸如:教師的態(tài)度和信仰等一直影響后效研究的結(jié)果;其次,對后效作用的大多數(shù)研究因針對具體的測試和環(huán)境而難以復(fù)制。第六章“評估低齡學(xué)習(xí)者”。作者認為提高學(xué)生的語言評估質(zhì)量首要的且最好的做法是將課堂教師培養(yǎng)為成績評定者。作者還概括了“歐洲語言共同參照框架”對歐洲的低齡語言學(xué)習(xí)者正在產(chǎn)生的影響。第七章“動態(tài)測試”是全書中唯一探討一種具體測試技巧的文章。動態(tài)測試既是一套實踐技術(shù)組合又是從根本上理解語言測試的理論基礎(chǔ)。第八章“語言課堂中的診斷性評估”對語言課堂中的測試理論和技術(shù)進行了論述。
第三部分語言測試的社會應(yīng)用。本部分共四章,探討了一些公認的語言測試應(yīng)用:如判斷行業(yè)從業(yè)者的語言水平、臨床診斷語言交際障礙癥的發(fā)展程度等。第九章“設(shè)計專門社會用途語言測試”(Moder&Halleck)就航空語言測試做了深入剖析,明確指出普通英語測試不適用于評價高風(fēng)險的工作場所的語言能力。語言測試被用來判斷個體在工作環(huán)境中使用語言進行交流的能力以減少風(fēng)險。在航空英語中,這種決策性風(fēng)險更加高企,因為飛行員和空管人員沒有足夠的語言交流技能將會造成災(zāi)難性的后果。第十章“交際障礙語言測試”探討了非主流的語言測試。交際障礙從輕微癥狀到嚴重的自閉癥,對于個體的交際具有持久的影響。第十一章“移民和國籍語言測試”對人類遷徙、國籍政策以及對此形成影響的歷史變遷和緊張關(guān)系做了綜述,在此基礎(chǔ)上研究語言測試如何與這些現(xiàn)象發(fā)生聯(lián)系。第十二章“語言測試的社會維度”探討了語言的社會功能,評述了話語理論、語言類型、語言測試用途以及規(guī)范性思維,最后對未來進行了推測。
第四部分為測試規(guī)范。測試規(guī)范是關(guān)于測試的正式文件,規(guī)定考試內(nèi)容和方式(鄒申,2005:41)。測試規(guī)范的形勢和發(fā)展構(gòu)成了測試設(shè)計過程中決策的歷史以及決策背后的理據(jù),是構(gòu)建解釋性論點的重要部分。本部分三章內(nèi)容反思了語言測試開發(fā)的原動力,探討了測試項目、測試任務(wù)和測試項建立的生成模板及測試開發(fā)者在測試研究中的作用。第十三章“測試規(guī)范和標準參照評價”。測試標準是測試的設(shè)計“藍圖”,是任何測試開發(fā)方法的基本要素。本章通過標準參照測試對測試規(guī)范進行了探討并說明了如何使用規(guī)范作為中心工具來進行測試設(shè)計。第十四章“語言測試循證設(shè)計”介紹以證據(jù)為中心的語言測試設(shè)計的關(guān)鍵原理、構(gòu)成以及應(yīng)用。“循證設(shè)計”是應(yīng)用于教育測量設(shè)計和實施的概念框架,其中心是提供測試設(shè)計決策的證據(jù),而證據(jù)要為測試得分的意義解釋提供支撐。第十五章“成績考核中的觀點、證據(jù)和推理”探討了成績考核所面臨的挑戰(zhàn)以及在將效驗理論作為論據(jù)所面臨的問題、成績測試中的域分析、測試難度的評估、任務(wù)型測試的評價標準。
第五部分為編寫試題項和任務(wù)。本部分三章揭示了語言測試試題編制者面臨的復(fù)雜理論和實踐問題,探討了考生對測試項的反饋。第十六章“考試項編寫和出題者”分析了語言測試中通常被視為極其直接明了的部分——編寫測試項和測試任務(wù);建立了四種測試項編寫法:心理測量法、系統(tǒng)法、真實法和批評法;揭示了試題編制者的現(xiàn)實處境。第十七章“編寫綜合項”探討了測試中復(fù)合構(gòu)念及其在綜合任務(wù)項中的體現(xiàn)以及圍繞得分的解釋問題。第十八章“應(yīng)試策略和任務(wù)設(shè)計”。Cohen提出的根本問題是“什么是與測試構(gòu)念有關(guān)的和無關(guān)的差異?如果考試使用某一策略完成測試項或測試任務(wù),施測者又如何判斷特定的技能是否全部得到測量?”這一問題是貫穿全篇的主線。Cohen詳細地記錄了30多年的策略研究及發(fā)現(xiàn),并做了綜合和總結(jié);對最為常見的“口頭匯報”技術(shù)進行了剖析,最后列出建議研究的主題及給予考生的忠告。
第六部分原型測試和現(xiàn)場測試。本部分三章探討了測試設(shè)計和開發(fā)中的關(guān)鍵問題——如何保證設(shè)計的測試項和測試任務(wù)引出考生的真實回答,并且這種回答要與測試者希望得分所代表的意義直接相關(guān),和測試者希望做出的決策相關(guān)?怎樣從原型測試中發(fā)現(xiàn)問題,逐步調(diào)整,然后把可行的想法應(yīng)用到大規(guī)模的試驗中去,直至最終的現(xiàn)場測試。第十九章“新題型的原型化”探討了原型測試及與其密切相關(guān)的概念“可行性”。可行性指的是用來獲取與測試構(gòu)念有關(guān)的信息而設(shè)計的測試項或測試任務(wù)在多大程度上是可以實現(xiàn)的,可以用來評分的。第二十章“前操作測試”包括調(diào)查性的試驗測試和現(xiàn)場測試。試驗測試是通過小規(guī)模的抽樣測試來評估測試的各個組成部分能否發(fā)揮其效用,而現(xiàn)場測試是最后的大規(guī)模試驗,是保證一切都按照設(shè)定的目標來進行的試驗,兩者的目的都在于收集及分析獲得的數(shù)據(jù)以支持最終的測試效度。第二十一章“詞匯測試試驗”是語言測試試驗的范例,介紹了測試試驗的實施過程。
第七部分為測量理論和實踐。本部分五章是語言測試中最具技術(shù)含量的領(lǐng)域,主要介紹了當前使用的主要測量模型,這些模型用來獲得通過對測試項或測試任務(wù)的回答而產(chǎn)生的得分。一些是純粹統(tǒng)計數(shù)據(jù);另一些則需要按照交際任務(wù)的完成情況進行人工判斷。第二十二章“經(jīng)典測試理論”是語言測試中最古老的心理測量工具包。經(jīng)典測試給測試開發(fā)者提供了一個可以近距離觀察單個測試項相對整體測試得分分布情況的手段,有利于提高測試的信度和測試構(gòu)念的精確性,與其他語言測試技術(shù)相比有其優(yōu)越性。第二十三章“項目反應(yīng)理論”探討了測試項分析的當代主流派別:測試項反應(yīng)理論,演示了目前最為廣泛使用的測試項反應(yīng)理論模型的基本公式是怎樣通過三維參數(shù)測試項分析來對測試資料進行深入剖析的。此外,文章還分析了拉什模型對語言測試產(chǎn)生的巨大影響。第二十四章“信度和可靠性”全面地探討了心理和教育測試中一些古老的概念,包括語言測試的得分一致性,深入研究了心理測量技術(shù)。第二十五章“語言測試成績的可推廣性”對概化理論及其工具和技術(shù)進行了全面而詳細的介紹,對普通測量技術(shù)在語言測試場景中的應(yīng)用作了論述。第二十六章“成績測試打分”從歷史和哲學(xué)的角度對評分量表制定中的問題和方法進行了探討,對量表開發(fā)的具體技術(shù)細節(jié)進行了分析,對廣泛關(guān)注的方法進行了論述。
第八部分管理和培訓(xùn)(。本部分四章內(nèi)容圍繞測試過程展開,這不僅包括與施測相關(guān)的儀式,而且包括測試質(zhì)量保證以及測試過程準備,對施測者和評分者進行培訓(xùn)。此外,還有技術(shù)手段在語言測試中越來越多的應(yīng)用——基于計算機的考試和自動評分等。第二十七章“測試產(chǎn)出和施測過程的質(zhì)量管理”聚焦大型國際測試委員會在高風(fēng)險的測試運作過程中的系統(tǒng)管理和監(jiān)管經(jīng)驗,認為好的施測過程是效度論據(jù)的一部分,對操作過程不同階段的質(zhì)量管理可以減少甚至消弭可能引起對得分意義假設(shè)的不同解釋的可能性。第二十八章“施測者和評分者的培訓(xùn)”認為人與人之間以及人群中的差異不可避免,雖然自動評分可以消除這種差異,但是有些情境需要評估真實的語言使用情況,施測者和評分者就必不可少,否側(cè)測試構(gòu)念就無法充分體現(xiàn)。本章從建構(gòu)主義的角度論述了這種差異,探討了這種差異應(yīng)該被視為有害的還是可取的關(guān)鍵問題。第二十九章“語言測試中的技術(shù)”對現(xiàn)有的不同類型的基于計算機的測試以及這些測試的使用語境進行了探討。第三十章“效度與成績測試的自動評分”論述了自動評分系統(tǒng)的效度問題,認為自動評分應(yīng)該基于測試效驗的堅實基礎(chǔ)之上。
第九部分倫理和語言政策。本部分的四章從不同的視角探討在語言測試中的倫理和公正概念以及語言測試在語言政策框架內(nèi)如何實現(xiàn)公正、平等的問題。第三十一章“倫理準則和意外的影響”探討了倫理準則的概念。專業(yè)機構(gòu)頒布成套的規(guī)章以規(guī)范成員行為,目的在于幫助員工做出道德抉擇。作者認為這些專業(yè)機構(gòu)起草規(guī)章的目的在于平息公眾對于測試可能誤用的擔(dān)憂。第三十二章“公平性”對重要的概念定義進行了描述,尤其是Kunnan(2009)的測試語境框架和Xi(2010:27)對公平的討論,文章還探討了公正性與效度的區(qū)別問題。第三十三章“標準化測試”。標準是語言測試開發(fā)與得分解釋的基礎(chǔ),是一個不斷進化的概念。本章論述了歐洲語言共同參考框架和美國外語測試委員會的兩種主要標準文件的不同起源,并列出不同的標準以幫助讀者思考標準的意義。第三十四章“語言測試與管理”)討論了在語言管理中使用語言測試來達到與其并不相稱的政策目標問題并探討了測試可能存在的誤用。
伴隨著大型語言測試在全球范圍內(nèi)的開展,如托福、雅思等,研究者對語言測試與評估的探索越來越多。但作為一門年輕的學(xué)科,語言測試因為集體記憶的歷史短暫、缺乏重復(fù)的研究,并且許多研究“并非基于既知的基礎(chǔ)之上”(Fulcher&Davidson 2012),這給有志于此的研究者帶來了困惑?!稖y試手冊》是語言學(xué)和應(yīng)用語言學(xué)專業(yè)研究生、語言教師及專業(yè)研究人員難得的參考書和工具書,便于檢索和參照。該書具有如下特點:
第一,內(nèi)容全面、論點新穎。主題覆蓋了語言測試與評估學(xué)科幾乎全部領(lǐng)域,但是研究者并沒有耽于對舊概念和舊范式的介紹,而是努力向讀者展示學(xué)科最新、最前沿的發(fā)展情況。通過對一些重要學(xué)科概念的簡短回顧,研究者迅速將筆觸轉(zhuǎn)向這些概念的最新發(fā)展。這些重要概念有效度、信度、可靠性、后效作用、測試規(guī)范、原型測試、現(xiàn)場測試、測試倫理等。內(nèi)容有對語言測試的重要研究方法和技巧的探討,幫助讀者學(xué)以致用,具有可操作性。
第二,測試構(gòu)念、逐步形成。通過瀏覽其他手冊及類似的關(guān)于語言測試/評估的參考書可以得出測試學(xué)在測試構(gòu)念的重新形成過程中正處在一個關(guān)鍵節(jié)點上。當前的一些著作如《劍橋二語測試指南》(Coombe,Davidson,O’Sullivan & Stoynoff,2012)以及《語言測試指南》(Kunnan,2013)堅持了語言能力構(gòu)成的劃分,只不過在后者中這種劃分包括讀寫能力、語用能力以及綜合能力。Shohamy(2008,xvi)在《語言和教育百科全書》的《語言測試和評估》卷的引言中解釋:為了顯示語言的多樣性和語境的差異性,需要多重視角對語言進行審視而不是單從明確的技能劃分來看?!稖y試手冊》證明了Shohamy描述的語言測試構(gòu)念和方法合流的趨勢。通過不同的方法和論路徑探討語言測試構(gòu)念的本質(zhì)是大有裨益的??梢哉f測試構(gòu)念在測試學(xué)各個層次上的探討對于形成Messick(1989)所架構(gòu)的統(tǒng)一效度的概念(包括效度構(gòu)念范圍內(nèi)的社會影響)是有必要的。
第三,確立邊界、建構(gòu)體系。概念繁多是眾多年輕的學(xué)科共同特征,這一方面顯示學(xué)科的活力和張力,另一方面也給學(xué)習(xí)者及研究者帶來困惑。因此,有必要重新審視這些概念,將其納入合適的理論體系。本書各章的文獻回顧部分為讀者重新梳理了關(guān)鍵性的概念。重要的學(xué)科概念的梳理為學(xué)界掌握日新月異的語言測試與評估學(xué)學(xué)科邊界,厘清不斷涌現(xiàn)的研究主題的發(fā)展脈絡(luò)提供了參照;對學(xué)科最新發(fā)展的權(quán)威論述不僅是對學(xué)科邊界的確認,而且也為學(xué)科的未來發(fā)展確立了方向。此外,《測試手冊》把眾多的研究主題、概念進行分門別類,為建立系統(tǒng)的語言測試與評估學(xué)學(xué)科做出了貢獻。
第四,理論實踐、交相輝映。《測試手冊》通過將測試學(xué)領(lǐng)域的理論和實踐相結(jié)合來實現(xiàn)其為教師、學(xué)生、研究者服務(wù)的價值。這一點從九大部分的設(shè)置以及各個部分所含章節(jié)的內(nèi)容即可看出。雖然部分主題或篇章可能偏重理論探討,另外部分可能偏重實踐操作,但是作者及編者都考慮到了兩者平衡的問題,全篇三十四章主題都能緊扣具體的研究和實踐問題來探討理論。純粹的學(xué)理討論固然可以追根溯源、廓清概念,但是對于迫切希望得到語言測試實踐指導(dǎo)的教師則鮮有教益,反之亦然。《測試手冊》幾乎涵蓋了語言測試學(xué)領(lǐng)域的所有主題并提供了相關(guān)的研究資料。
[1]Fulcher,G.and Davidson,F(xiàn).(Eds.).The Routledge Handbook of Language Testing[G].London and New York:Routeldge,2012:2.
[2]Shohamy,E.and Hornberger,N.(Eds.).Encyclopedia of Language and Education,Second Edition,Volume7:Language TestingandAssessment[Z].New York:Springer,2008:xvi.
[3]Xi,X.How do we go about investigating test fairness?[J].Language Testing,2010,27:147-170.
[4]鄒申.語言測試[M].上海:上海外語教育出版社,2005.