閔尚超
對測試效度的驗(yàn)證是語言測試領(lǐng)域永恒的主題,眾多專家學(xué)者也相繼從不同角度提出了不同的理論與方法,試圖幫助測試開發(fā)者與使用者進(jìn)行效度驗(yàn)證。但是,以往的這些理論均過于籠統(tǒng)抽象,在實(shí)踐中可操作性不強(qiáng)。而Bachman與Palmer在其新著《語言評估實(shí)踐》一書中正式提出的“評估使用論據(jù)”(assessment use argument)方法則彌補(bǔ)了這一不足。在該書中,作者將其近幾年一直倡導(dǎo)的“評估使用論據(jù)”方法運(yùn)用于具體的評估實(shí)踐中,首次實(shí)現(xiàn)了對具體的評估進(jìn)行效度驗(yàn)證指導(dǎo),突破了以往的效度驗(yàn)證理論僅在理論上有所指導(dǎo)這一局限,對語言測試?yán)碚撆c實(shí)踐的發(fā)展做出了重要貢獻(xiàn)。
全書共分為四大部分。第一部分提出了語言評估開發(fā)和使用的理論框架。作者首先厘清了幾個(gè)相關(guān)術(shù)語,指出在本書中對測試(test)和評估(assess)這兩個(gè)概念不做嚴(yán)格區(qū)分。作者接著介紹了貫穿本書的核心理論——“評估使用論據(jù)”。該理論主要基于Toulmin(2003)的“論據(jù)結(jié)構(gòu)模型”(argument structure model),并在該模型上有所拓展和創(chuàng)新。其論證結(jié)構(gòu)由五個(gè)部分組成,即,主張(claim)、理由(warrant)、依據(jù)(backing)、反證(rebuttal)以及數(shù)據(jù)(data),其中,主張為其理論框架的核心部分。通過四條主張,“評估使用論據(jù)”能有效地描述評估后效(consequences)、決定(decisions)、解釋(interpretations)、評估記錄(assessment records)以及考生表現(xiàn)(test taker's performance)這五者之間的線性循環(huán)關(guān)系。該部分還概述了語言使用和語言能力的本質(zhì)、語言使用任務(wù)的特點(diǎn)、如何證明對語言評估任務(wù)的使用是合理的,等等。作者認(rèn)為,對語言使用本質(zhì)的了解能夠幫助我們更好地理解如何把評估結(jié)果概推到某一具體語言使用場景;對語言能力本質(zhì)的了解則是不可缺少的,因?yàn)檎Z言能力是所有語言評估考查的對象;語言使用任務(wù)特點(diǎn)框架則為我們證明語言評估中的任務(wù)與現(xiàn)實(shí)生活中考生需要完成的任務(wù)具有一致性提供了一個(gè)衡量標(biāo)準(zhǔn);向評估相關(guān)者證明對語言評估任務(wù)的使用或者根據(jù)評估結(jié)果所做的決定具有合理性是評估開發(fā)者和使用者的基本責(zé)任,而最好的證明方法則是采用“評估使用論據(jù)”。
第二部分引用多個(gè)實(shí)例全面介紹了構(gòu)建“評估使用論據(jù)”的全過程?!霸u估使用論據(jù)”的四條主張具體為:(1)評估后效以及決定對所有評估相關(guān)者均具有益性(beneficence);(2)根據(jù)評估所做的決定考慮了已有的教育觀念、社會(huì)觀念以及法律要求,并且該決定對所有評估相關(guān)者均具有公平性(equitability);(3)對所考查的能力的解釋具有意義性(meaningfulness)、公正性(impartiality)、概推性(generalizability)、相關(guān)性(relevance)以及充分性(sufficiency);(4)在不同的評估任務(wù)、不同的評估程序中,不同的考生群體的評估記錄具有一致性(consistency)。該理論框架提供了步驟式的方法,明確指出,如果研究者是設(shè)計(jì)評估,則應(yīng)該從第一條主張開始,即,先探討使用該評估是否對社會(huì)具有有益性,然后再依次證明第二條、第三條、第四條主張;如果研究者是對評估進(jìn)行解釋和使用,則應(yīng)反向而行,即,從第四條主張開始,先證明考分的一致性,然后再依次證明第三條、第二條以及第一條主張。為了詳細(xì)闡述這四條主張以及支持各主張的理由在整個(gè)評估開發(fā)和使用中是如何發(fā)揮作用的,作者采用一項(xiàng)低風(fēng)險(xiǎn)形成性評估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評估作為例子,詳細(xì)探討了如何在具體的評估中,通過給出相關(guān)理由來證實(shí)主張的正確性,從而向評估相關(guān)者證明該評估的開發(fā)與使用都是合理的。同時(shí),該部分指出,從具體操作實(shí)踐的角度看,語言評估的開發(fā)與使用可分為五個(gè)階段:初始計(jì)劃(initial planning)、設(shè)計(jì)(design)、操作(operationalization)、試測(trialing)和評估使用(assessment use)。這五個(gè)階段總體呈線性發(fā)展趨勢,但每個(gè)階段之間又相互影響。具體而言,在初始計(jì)劃階段,評估開發(fā)者根據(jù)一系列原則,做出選擇,決定是修改已有評估還是重新開發(fā)新的評估;在設(shè)計(jì)階段,評估開發(fā)者研制設(shè)計(jì)說明,其主要作用是指導(dǎo)接下來的操作、試測和評估使用;在操作階段,評估開發(fā)者研制設(shè)計(jì)藍(lán)圖(blueprint),并根據(jù)該藍(lán)圖進(jìn)行命題,然后把已命好的題目組織成一項(xiàng)完整的評估;在試測階段,評估開發(fā)者對一群受試進(jìn)行試測,收集信息,分析并完善評估;在評估使用階段,評估使用者根據(jù)考生的評估記錄做出決定。
第三部分探討在真實(shí)世界中開發(fā)與使用語言評估的過程。由于評估相關(guān)者與評估場景的可變性、現(xiàn)實(shí)生活中的不確定性以及資源的有限性,評估開發(fā)者和使用者在實(shí)際操作中需考慮現(xiàn)實(shí)情況,有時(shí)不得不采取折中的辦法。該部分描述了真實(shí)世界中開發(fā)和設(shè)計(jì)語言評估項(xiàng)目的每個(gè)具體步驟,包括研制設(shè)計(jì)說明、設(shè)計(jì)評估任務(wù)、記錄考生在評估中的表現(xiàn)、制訂命題細(xì)則、準(zhǔn)備考試指令、收集反饋信息等。同時(shí),作者把“評估使用論據(jù)”貫穿于現(xiàn)實(shí)世界中開發(fā)與使用語言評估的具體步驟中,從而實(shí)現(xiàn)了理論與實(shí)踐在現(xiàn)實(shí)世界中的結(jié)合。該部分也討論了開發(fā)語言評估過程中合理分配和管理資源的問題。作者指出,資源包括人力資源、物力資源以及時(shí)間。資源分配以及管理在評估開發(fā)過程中起到非常重要的作用,因?yàn)樗鼪Q定了整個(gè)評估的開發(fā)是否具有可行性。最后,作者強(qiáng)調(diào)評估開發(fā)者和使用者有責(zé)任保證評估的使用方式、根據(jù)評估所作的決定以及評估后效對所有評估相關(guān)者都具有公平性。
第四部分提供了三個(gè)不同的評估開發(fā)項(xiàng)目實(shí)例,即,幼兒園英語學(xué)習(xí)者口語與寫作評估、大學(xué)英語閱讀分級評估/豁兔評估(placement/exemption)、大學(xué)基礎(chǔ)漢語口語評估。前兩項(xiàng)評估為貫穿全書的兩個(gè)主要例子,即前文所提到的一項(xiàng)低風(fēng)險(xiǎn)形成性評估和一項(xiàng)高風(fēng)險(xiǎn)終結(jié)性評估。作者再次詳細(xì)提供這兩項(xiàng)評估的整個(gè)開發(fā)過程,目的在于給讀者參與實(shí)踐的機(jī)會(huì),幫助讀者更好地理解不同評估在開發(fā)過程中所需考慮的不同方面,最終使讀者掌握如何在語言評估開發(fā)與使用過程中靈活地運(yùn)用本書中提供的“評估使用論據(jù)”方法。
本書是Bachman與Palmer繼1996年推出《語言測試實(shí)踐》后的又一大力作。1996年的《語言測試實(shí)踐》以“測試有用性理論”(test usefulness theory)為框架,主要關(guān)注語言測試的開發(fā)過程以及分?jǐn)?shù)解釋,而本書則以“評估使用論據(jù)”為框架,其關(guān)注重點(diǎn)也不再局限于語言測試開發(fā)過程或分?jǐn)?shù)解釋,而是拓展到語言測試的使用。同時(shí),作者在本書中,對Bachman(1990)以及Bachman與Palmer(1996)中提出的語言使用模型進(jìn)行了修正,語言使用任務(wù)特點(diǎn)框架進(jìn)行了完善,探討了現(xiàn)實(shí)世界中面臨資源的有限性時(shí)如何開發(fā)和使用測試,并且明確指出了測試開發(fā)者和使用者在測試開發(fā)與使用的各個(gè)階段各自應(yīng)承擔(dān)的主要責(zé)任和次要責(zé)任。
本書的最大貢獻(xiàn)在于第一次系統(tǒng)地提出“評估使用論據(jù)”這個(gè)理論框架。作者在本書中正式提出這個(gè)框架前對其進(jìn)行了九十次修改,足見作者的用心。該理論的提出對語言測試領(lǐng)域的巨大貢獻(xiàn)在于:
(1)以往的理論只是簡單地列出語言測試的各個(gè)重要屬性,如,Messick(1989)的“整體效度觀”中的四項(xiàng)、Bachman與Palmer(1996)的“測試有用性理論”中的六項(xiàng)、Kunnan(1997)的“測試公平性理論”中的五項(xiàng),均沒有闡述其各個(gè)屬性之間的關(guān)系,似乎表明這一系列屬性的簡單相加就等于其所提倡的“效度”、“有用性”以及“公平性”。而“評估使用論據(jù)”則是通過具體的主張和理由把各個(gè)重要屬性有機(jī)地聯(lián)系起來,從而彌補(bǔ)了這一不足。
(2)以往的理論要么關(guān)注測試開發(fā),如Mislevy等(2003)的“基于證據(jù)的方法”(evidence-centered design),要么關(guān)注測試使用,如Kane(2006)的“基于論據(jù)的理論”(argument-based theory),而沒有探討測試開發(fā)以及測試使用之間的關(guān)系。而“評估使用論據(jù)”不僅同時(shí)關(guān)注兩者,并且通過提供一個(gè)強(qiáng)大的理論框架以及一系列操作步驟,實(shí)現(xiàn)了對兩者的有機(jī)聯(lián)系。
(3)以往的理論均沒有明確區(qū)分測試使用中的“決定”和“后效”這兩個(gè)概念,而是把兩者混為一談,不利于進(jìn)行效度驗(yàn)證時(shí)更清楚地尋找各自的論據(jù)。而“評估使用論據(jù)”對這兩個(gè)概念進(jìn)行了細(xì)分,并且詳細(xì)闡述了兩者之間的關(guān)系。
(4)以往的理論主要源于定量主義的傳統(tǒng),關(guān)注效度的心理計(jì)量層面,而忽略了定性方法對測試效度驗(yàn)證所能帶來的巨大益處。而本書通過“評估使用論據(jù)”指出,除量化的考分以外,質(zhì)性的描述也應(yīng)作為考生能力體現(xiàn)的證據(jù),從而有利于把通過定性方法、自然主義方法以及記錄片方法等收集到的證據(jù)作為評估使用論據(jù)的一部分,突破了以往過度偏重于定量測量的做法。另外“評估使用論據(jù)”把測試的公平性(fairness)、問責(zé)制(accountability)等效度的社會(huì)層面概念也融入到了其框架范圍中。
(5)以往的理論主要以信度、效度、真實(shí)度、后效等核心概念為基礎(chǔ),但是這些概念均存在界定過寬或過窄的問題,如,信度這一概念在過去的研究中常被研究者有意識或無意識地等同于Cronbachα系數(shù),間接導(dǎo)致了對影響一致性的其他因素(如,考試說明、施測步驟等)的忽略。換句話說,信度這一概念不足以概括所有影響一致性的因素,存在定義過窄的問題。而“評估使用論據(jù)”不再沿襲過去的這一系列概念,而是采用“一致性”取代“信度”,“意義性”和“概推性”取代“構(gòu)念效度”,等等,從而能夠更好地指導(dǎo)研究者在進(jìn)行效度驗(yàn)證時(shí)采用多方面的證據(jù)。
誠然,本書也存在一定的不足之處。第一,作者在探討測試后效時(shí)忽略了測試開發(fā)和使用的政治環(huán)境。而事實(shí)上,測試與政治的關(guān)系密不可分,Shohamy(2001)甚至認(rèn)為考生是特定政治環(huán)境下的政治對象(political subjects)。本書如果能夠深入挖掘語言測試的政治層面,其所倡導(dǎo)的“評估使用論據(jù)”這一理論體系將更加完善。第二,作者在“評估使用論據(jù)”中,采用“相關(guān)性”、“充分性”以及“概推性”這三個(gè)概念取代了傳統(tǒng)的“真實(shí)性”。雖然從理論上看,對“真實(shí)性”的細(xì)分有利于更清楚地指導(dǎo)研究者尋找相關(guān)證據(jù)進(jìn)行效度驗(yàn)證,但是這三個(gè)概念本質(zhì)上并不存在區(qū)別,只是一個(gè)度的問題。所以在實(shí)際效度驗(yàn)證操作中,支撐這三項(xiàng)的證據(jù)很可能為同一數(shù)據(jù),因此會(huì)導(dǎo)致整個(gè)論證過程存在贅述的問題。第三,作者完善后的語言知識框架仍忽略了語言的政治功能與倫理功能。而事實(shí)上,由于各國歷史文化傳統(tǒng)的差異性,對語言的本質(zhì)以及作用的理解是千差萬別的。如,中國的《論語》中提到“一言興邦,一言喪邦”,“君子一言以為知,一言以為不知”,分別強(qiáng)調(diào)了語言的政治功能與倫理功能,這與西方認(rèn)為語言是用來改變他人行為的觀點(diǎn)是截然不同的。所以,本書關(guān)于語言功能的觀點(diǎn)是否能放之四海而皆準(zhǔn)還有待商榷。