薛梅
2020年6月30日,中央全面深化改革委員會第十四次會議審議通過的 《深化新時代教育評價改革總體方案》中,首次提出“四個評價”——“改進(jìn)結(jié)果評價,強(qiáng)化過程評價,探索增值評價,健全綜合評價”。這是未來一段時期指導(dǎo)教育評價改革的綱領(lǐng)性文件。2018年教育部教師工作司就明確提出,出臺“全面深化新時代教師隊伍建設(shè)改革的意見”,大力提升教師專業(yè)素質(zhì)能力和深化教師管理綜合改革。教師測評素養(yǎng)是教師職業(yè)能力的重要組成部分。當(dāng)前我國教師的測評理念存在一定偏差,測評知識有一定缺失,測評技能較低[1],加強(qiáng)教師測評素養(yǎng)迫在眉睫。在此背景下,Hughes《外語教師測試手冊》(Hughes,A.2003:Testing for Language Teachers.2nd edition.Cambridge:Cambridge University ISBN:0 521 48495 2)推介恰逢其時。
《外語教師測試手冊》由劍橋大學(xué)出版社授權(quán)外語教學(xué)與研究出版社在國內(nèi)出版,是外研社和人教社聯(lián)合推出的“劍橋英語教師叢書”中的一冊,十余年來已經(jīng)重印了10次,成為語言測試方面的經(jīng)典之作。本書用淺顯易懂的語言全面介紹了語言測試的基本理論和方法,對于尚未接觸測試領(lǐng)域的語言教師來說是非常有價值的參考資料。
作者簡明通俗地描述了信度(reliability)、效度(validity)、反撥作用(washback)等測試相關(guān)定義,對如何實(shí)際設(shè)計和實(shí)施反映這些測試要點(diǎn)的語言測試提出了建議,并提供了測試聽說讀寫四項技能的具體技巧。
雖然這本書的初衷是為從事中等教育以上工作者而寫的,但也有許多內(nèi)容涉及到其他教育級別的教育情況。第二版又增加了專門介紹兒童語言能力測試的章節(jié),以及有關(guān)測試技巧的章節(jié),如綜合能力的測試以及統(tǒng)計分析和建立題庫數(shù)據(jù)庫。書中所有例子都是關(guān)于英語作為第二語言的測試,但是測試技巧卻可以推廣到其他語言的測試。
全書由十四章構(gòu)成,前兩章簡要討論了測試與教學(xué)的關(guān)系。在第三章,Hughes描述了四種常見的語言測試方式,即:水平測試(proficiency tests)、學(xué)業(yè)成就測試(achievement tests)、診斷性測試(diagnostic tests)和分級編班測試(placement tests),并簡要解釋了每種測試所適用的條件。作者還比較了按照不同方法分類的幾組測試:直接測試和間接測試(direct and indirect tests)、分立式測試和綜合式測試(discrete point and integrative tests)、常模參照考試和標(biāo)準(zhǔn)參照考試 (norm-referenced and criterion-referenced tests),以及客觀測試和主觀測試(objective and subjective tests)。每種測試類型的解釋和舉例對語言測試的初學(xué)者都很容易理解。Hughes強(qiáng)調(diào)了一個觀點(diǎn),即教師和教育機(jī)構(gòu)無論是測量輸入性語言技能(閱讀和聽力)還是產(chǎn)出性語言技能(寫作和口語),都應(yīng)該盡可能采用直接測試而非間接測試方法。直接測試要求學(xué)生直接運(yùn)用要測試的技能或能力,測試結(jié)果能夠直接反映考生某一方面的語言能力,而間接測試指測試結(jié)果不能直接反映所要考查的語言能力,但是可以讓測試人對考生語言能力有可判斷的依據(jù)。作者認(rèn)為,間接測試的首要問題在于難以確定所測試的樣本是否真正體現(xiàn)了所要測量的語言能力。
在第四章,Hughes概述了四種效度:內(nèi)容效度(content validity)、效標(biāo)關(guān)聯(lián)效度(criterion-related validity)、構(gòu)念效度(construct validity)和表面效度(face validity)。作者認(rèn)為,對語言測試,尤其對高風(fēng)險的語言測試,應(yīng)該運(yùn)用定量和定性的研究方法進(jìn)行效度驗(yàn)證,以確保實(shí)際測量的內(nèi)容精確反映要測量的內(nèi)容。但是,作者承認(rèn)他描述的幾種類型的效度驗(yàn)證過程,由于時間和資料上的限制,是很難甚至是不可能應(yīng)用到教師自己的課堂上的。作為補(bǔ)償,Hughes對教師出題的測試的效度驗(yàn)證提供了幾條建議:
(1)制定清楚明了的考試規(guī)范。
(2)如采用間接測試,則盡可能多地采用具有典型性的測試范疇的樣本。例如測試語法,語法知識是有關(guān)目標(biāo)語言結(jié)構(gòu)的全部知識,所包含的內(nèi)容很多。語法測試能夠做到的只是按照語言教學(xué)大綱,把語法分成很多個單項,然后從中取樣用來測試。
(3)如有可能盡量使用直接測試。
(4)只對那些被測試的要素評分。
(5)確??荚嚨男哦取?/p>
在第五章的開頭部分,作者闡述了信度的概念和怎樣測量信度。作者講到了許多測量信度的方法,包括重測信度(the test-retest method)、副本信度(the alternative forms method)和分半信度 (split half method)。 Hughes還簡要解釋了真分?jǐn)?shù)(true score)、測量標(biāo)準(zhǔn)誤(standard error of measurement)和項目反應(yīng)理論(Item Response Theory)的概念,以及怎樣在語言測試中運(yùn)用這些理論來測定信度。在該章的末尾部分,作者列舉了幾個供考試開發(fā)者遵循的原則,以促進(jìn)應(yīng)試者的表現(xiàn)和不同評分員之間評分的可信度,其中包括:排除那些不能很好區(qū)分學(xué)生成績好壞的項目,以及讓參加考試者熟悉考試形式和考試中應(yīng)用的技術(shù)。
第六章主要涉及建立積極的反撥作用的建議,重申了前幾章提到的問題。在第七章,Hughes詳細(xì)敘述了建立有效的和可信的語言測試的十個步驟。前三個建議不僅適用于大規(guī)模考試,也同樣適用于教師自己出題的小規(guī)模考試;而后七步盡管在實(shí)際操作中對大規(guī)模考試項目更加可行,但是從理論上講是適用于指導(dǎo)教師自行出題的。
(1)提出問題,即要考什么和為什么要考?
(2)制定考試規(guī)范,即考試內(nèi)容、方式、和預(yù)期的成績等級。
(3)編寫和通過同事的反饋來調(diào)整考試題目。
(4)在操母語者中進(jìn)行非正式的試測。
(5)在非母語學(xué)習(xí)者中進(jìn)行試測。
(6)對試測結(jié)果進(jìn)行定量和定性分析。
(7)校準(zhǔn)評分等級。
(8)效度驗(yàn)證。
(9)為應(yīng)試者和考務(wù)人員編寫考試指南手冊。
(10)對考務(wù)人員進(jìn)行考務(wù)培訓(xùn)。
在第八章,作者介紹了四種可用于測試一個以上語言技能的常見的試題類型:多項選擇題、正誤/是非判斷題、簡答題和填空題。盡管多項選擇題具有減輕評分壓力的優(yōu)點(diǎn),但是Hughes還是不主張出題者采用這種方式。他認(rèn)為,設(shè)計高質(zhì)量的多項選擇題是很困難的,其次,可用于這種測試形式的材料也有限。他認(rèn)為正誤/是非判斷題實(shí)際上是只有兩個選擇項的多項選擇題,因此很容易造成應(yīng)試者在測試中猜到答案。他認(rèn)為簡答題和填空題是很有用的考試題型。對各種題型優(yōu)缺點(diǎn)的討論是本書中很有價值的部分。
第九到第十三章介紹了寫作測試、口語測試、閱讀測試、聽力測試以及語法和詞匯測試的技巧與注意事項。介紹寫作、口語和聽力測試的四個章節(jié)有著相似的模式。首先,作者舉例說明要測試的內(nèi)容和技能。例如,在介紹口語測試的章節(jié)中,Hughes列舉了測試規(guī)范的幾個因素,即實(shí)際操作(考官提問、被試陳述、考官出具評分報告)、測試類型(如,討論)、受眾(對話者或聽眾)、話題、以及方言、口音和文體。作者還列舉了可測試的更具體的口語技能,如表達(dá)喜好、進(jìn)行比較和引起談話。Hughes著眼于考試內(nèi)容和能力的實(shí)際操作,其目的是為了鼓勵試題開發(fā)者在設(shè)計試題時首先弄清楚他們到底要考什么,隨后作者對發(fā)展試題的效度和信度提供了建議并舉實(shí)例說明。例如,關(guān)于測試寫作能力,Hughes有如下建議:
(1)提供盡可能多的單獨(dú)的任務(wù);
(2)只測試寫作能力,不涉及其他;
(3)對應(yīng)試者做出限定,使用有明確要求的任務(wù)并提供有限的選擇。
作者列舉的寫作任務(wù)有:填寫申請表、寫一張明信片和根據(jù)一系列圖片描述一個故事。盡管每一章節(jié)所舉的考試題目都不是特殊的創(chuàng)新題型,但是卻為讀者提供了測試寫作、口語、閱讀和聽力常用的題型。 在設(shè)計題目時使用真實(shí)材料的問題上,Hughes建議在測試考生與操母語的人進(jìn)行交流的能力時,應(yīng)該使用真實(shí)的閱讀材料和語音樣本。作者的測試真實(shí)性觀點(diǎn)貫穿于全書,他認(rèn)為某個語言測試題采用的內(nèi)容和方法應(yīng)該與測試的目的一致。最后,在寫作和口語測試章節(jié),Hughes對評分提出了建議,即制定評分指導(dǎo)語并實(shí)施評分。作者舉例說明了分析評分法(analytic scoring)和整體評分法(holistic scoring),對建立評分登記做了分步驟的詳細(xì)解釋,并建議對評分者進(jìn)行培訓(xùn),討論了怎樣給予應(yīng)試者反饋。
Hughes在第十三章中專門敘述了對語法的測試,作者關(guān)于語法測試的建議包括:
(1)選擇典型的語法結(jié)構(gòu)的樣本作為測試對象;
(2)保證測試項目所用的語言是自然的;
(3)避免題目出現(xiàn)一個以上的答案。
在第十四章,作者提出對綜合語言能力進(jìn)行測試的三種經(jīng)濟(jì)的考試方法,即完形填空、C-tests和聽寫。雖然Hughes沒有提供支持觀點(diǎn)的實(shí)驗(yàn)數(shù)據(jù),但還是對自己的觀點(diǎn)做出了如下推理:“一種語言技能的表現(xiàn)通常能夠合理地預(yù)測另一種技能,因?yàn)殡m然寫作與口語有不同之處,但是它們也有很多共同特征,最明顯的是它們都測量了語法和詞匯?!弊髡唠S后舉例說明了這三種考試方法并討論了每種方法的優(yōu)缺點(diǎn)。
本書還提供了關(guān)于數(shù)據(jù)統(tǒng)計分析的附錄。作者首先運(yùn)用出版社網(wǎng)站上給出的數(shù)據(jù)資料解釋了統(tǒng)計學(xué)基本概念,如算術(shù)平均數(shù)、中位數(shù)、眾數(shù)、全距和標(biāo)準(zhǔn)差。然后,解釋了運(yùn)用多種統(tǒng)計手段計算試題內(nèi)部信度的過程。附錄部分還介紹了項目分析理論(item analysis),其中包括區(qū)分度指數(shù) (discrimination indices)和Rasch分析。
作為一本為尚不熟悉語言測試的教師而寫的入門書,《外語教師測試手冊》有很多優(yōu)勢:對語言測試基本概念的介紹富有條理性,簡明易懂,易于讓初學(xué)測試的人接受,所舉的實(shí)例也演示了怎樣將理論運(yùn)用于實(shí)踐,所建議的測試方法是分步驟介紹的,在每一章的末尾部分都涉及了相關(guān)的學(xué)習(xí)活動并列出了建議的閱讀文獻(xiàn)。其顯著特點(diǎn)主要體現(xiàn)在:
其一,理論與實(shí)踐結(jié)合較好。幾乎每個章節(jié)的模式都是簡單介紹了基本理論后,以更大篇幅詳細(xì)介紹如何將理論運(yùn)用于實(shí)踐,所提建議也都具有很強(qiáng)的可操作性。如,有些建議涉及到考試方法,有些建議是分步驟介紹的。在第七章,Hughes詳細(xì)敘述了建立有效的和可信的語言測試的十個步驟。分步驟描述了試題開發(fā)過程后,作者列舉了兩個實(shí)例演示怎樣將這十個步驟應(yīng)用到實(shí)際語言測試中去。Hughes提供的這種分步驟的過程描述為不熟悉試題開發(fā)的人員的工作奠定了基礎(chǔ)。在寫作和口語測試章節(jié),作者對建立評分登記做了分步驟的詳細(xì)解釋,討論了怎樣給予應(yīng)試者反饋。
其二,作者重點(diǎn)討論了測試與語言教學(xué)、語言學(xué)習(xí)的關(guān)系。在第一、二章,作者指出發(fā)展測試學(xué)的重要性不僅體現(xiàn)在準(zhǔn)確地測量學(xué)生的語言能力,還體現(xiàn)在促進(jìn)積極的反撥作用,即給語言學(xué)習(xí)帶來有利影響。Hughes提出,為了鼓勵積極的反撥作用,語言教師應(yīng)該“測量那些你所要鼓勵發(fā)展的語言能力”,他在整部書中都強(qiáng)調(diào)了這一觀點(diǎn)。在第六章中還提出了如何創(chuàng)造測試良好反撥作用的建議,這對于讀者正確處理好教學(xué)與測試之間的關(guān)系十分有益,可以幫助讀者認(rèn)識考試和教學(xué)之間的“伙伴”關(guān)系。
其三,本書涉及到語言教學(xué)技能的各個方面。不同于一般語言技能測試書籍只涉及到聽說讀寫四個方面,本書全面介紹了聽、說、讀、寫、語法、詞匯等各方面的測試技巧和所應(yīng)測試的能力。本書以大約三分之一的篇幅介紹了寫作測試、口語測試、閱讀測試、聽力測試以及語法和詞匯測試的技巧和注意事項,每一章都包含了大量很實(shí)用的有關(guān)語言技能各個領(lǐng)域測試試題設(shè)計的指導(dǎo)方針和建議。尤其是在第十三章,針對人們對語法和詞匯測試的分立性,即作為單獨(dú)技能進(jìn)行測試的有用性的質(zhì)疑,作者闡述了語法測試與詞匯測試的意義,認(rèn)為這兩部分知識也是交際能力的一部分。
其四,本書的實(shí)用性強(qiáng)。在附錄中講解對考試結(jié)果進(jìn)行分析所用的統(tǒng)計方法時,把統(tǒng)計學(xué)的專業(yè)術(shù)語降低到最低程度,將復(fù)雜的統(tǒng)計學(xué)知識限制在最基礎(chǔ)的算術(shù)范圍,統(tǒng)計的操作可以在計算器上完成,從而方便教師參考使用。同時,考慮到某些教師對統(tǒng)計方法有特殊的需求,作者特意在閱讀書目中列舉了有關(guān)統(tǒng)計方面的書。
當(dāng)然,本書也存在一些不足。首先,書中有些章節(jié)在結(jié)構(gòu)上的編排還可做一些改進(jìn),例如可在每章的末尾增加回顧本章節(jié)具體觀點(diǎn)的小結(jié)部分,這樣有助于把淹沒在文章中的重要信息提煉呈現(xiàn)給讀者。其次,書中建議的方法更適用于大型考試,對于那些想為他們的課堂設(shè)計小規(guī)??荚嚨慕處焷碚f實(shí)用性稍差一些。另外,本書雖然強(qiáng)調(diào)了交際測試的理念,但是沒有提到測試社會語言能力的具體方法,而社會語言能力卻是交際語言能力中的重要因素。最后,雖然本書包含關(guān)于數(shù)據(jù)統(tǒng)計分析的附錄,解釋了運(yùn)用多種統(tǒng)計手段計算試題內(nèi)部信度的過程,但在筆者看來仍然稍顯簡略,如果事先不具備統(tǒng)計學(xué)知識,讀者可能無法運(yùn)用書中的介紹,根據(jù)自己的數(shù)據(jù)實(shí)際計算出考試的信度。雖然附錄讓讀者對幾種統(tǒng)計分析有了基本了解,但是附錄本身不能為讀者提供實(shí)際運(yùn)用這些統(tǒng)計分析的信息。
瑕不掩瑜,盡管具有局限性,Hughes的《外語教師測試手冊》對于試圖了解語言測試基本概念的語言教師來說依然是非常有用的資料。