語言測試效度與公平性研究*

2018-09-11 00:54姜秀娟

外語學(xué)刊 2018年1期

姜秀娟

(曲阜師范大學(xué)，曲阜 276826；北京外國語大學(xué)，北京 100089)

提要：效度是評判一項測試質(zhì)量的重要指標(biāo)，而公平性又是效度的重要保證。本文結(jié)合測試效度觀及其驗證模式的發(fā)展變化，對近50年來語言測試公平性觀念及其研究模式在分類、整體、論證3種效度觀時期的演變進(jìn)行梳理與思考，發(fā)現(xiàn)語言測試公平性研究采取的幾乎是與效度研究一樣的進(jìn)路，學(xué)界對公平性研究的必要性存在爭議。在以上分析的基礎(chǔ)上，本文總結(jié)二者之間的關(guān)系，并指出未來測試公平性研究應(yīng)繼續(xù)努力的方向。

1 引言

測試公平性研究始于20世紀(jì)60年代，80至90年代被廣泛關(guān)注(Zieky 2006:360)，是測試領(lǐng)域一個新興的熱點話題。長期以來，效度是評判一項測試質(zhì)量的重要指標(biāo)，而公平性又是效度的重要保證，二者交織在一起，不可分割(同上:359)。80年代中期以來，有關(guān)測試公平的觀點、標(biāo)準(zhǔn)、文件不斷涌現(xiàn)，專門探討測試公平性問題的高層次學(xué)術(shù)會議也相繼召開，測試公平性的重要性可見一斑。那么，公平性到底是什么，如何研究或檢驗一項測試的公平性？語言測試效度觀及其驗證模式的變化對公平性觀念及其研究模式產(chǎn)生怎樣的影響？語言測試公平性與效度有怎樣的關(guān)系？為了回答以上問題，本文結(jié)合測試效度觀及其驗證模式的發(fā)展變化，對語言測試公平性觀念及其研究模式在分類、整體、論證3種效度觀時期的演變進(jìn)行梳理與思考，并指出語言測試公平性研究的未來趨勢。

2 效度分類觀與語言測試公平性研究模式

20世紀(jì)50年代之前，教育與心理測量學(xué)普遍堅持“相關(guān)即有效”的效度觀(韓寶成羅凱洲 2013：412)。但是，要想確定那個“相關(guān)”的東西絕非易事，因為一項測試可以與很多種事物相關(guān)。于是，不同類型的效度應(yīng)運而生。1954年，美國心理學(xué)會(APA) 在《關(guān)于心理測驗和診斷的技術(shù)建議》(TechnicalRecommendationsforPsychologicalTestsandDiagnosticTechniques)中，將效度分為4種：預(yù)測效度(predictive validity)、共時效度(concurrent validity)、內(nèi)容效度(content validity)和構(gòu)念效度(construct validity)。1966年，《教育與心理測驗的標(biāo)準(zhǔn)與指南》(StandardsforEducationalandPsychologicalTestsandManuals) (AERA et al.) 把預(yù)測和共時合并為校標(biāo)關(guān)聯(lián)效度(criterion-related validity)。

1961年，Lado在現(xiàn)代語言測試的奠基之作《語言測試》(LanguageTesting)中首次將教育與心理測量學(xué)領(lǐng)域的效度概念引入語言測試領(lǐng)域，指出“效度本質(zhì)上是一種關(guān)聯(lián)。一項測試是否測量到它要測量的東西。如果答案是肯定的，那么它就是有效的”。之后，語言測試領(lǐng)域紛紛效仿Lado 的觀點定義效度(如Valette 1967；Harris 1969； Heaton 1975； Finocchiaro, Sako 1983)。Heaton (1975: 153) 將語言測試效度分為表面效度、內(nèi)容效度、構(gòu)念效度和實證效度。這一時期的語言測試效度驗證模式主要采取Lado提出的方法，如選擇、設(shè)計與內(nèi)容相關(guān)、與學(xué)習(xí)問題相關(guān)的題目；修改因非語言因素引起難度增加的試題；使用一項有效的測試和自己開發(fā)的測試，對一組有代表性的學(xué)生樣本進(jìn)行測試，計算兩次測試成績間的相關(guān)系數(shù)，從而確定測試效度(Lado 1961:328-329)。分析測試內(nèi)容、計算校標(biāo)關(guān)聯(lián)系數(shù)是這一時期進(jìn)行語言測試效度研究的主要方法(韓寶成羅凱洲 2013：413)。

那么，如何分析測試內(nèi)容，如何保證測試題目與測試構(gòu)念相關(guān)，如何確定測試題目中沒有包含與測試構(gòu)念無關(guān) (construct-irrelevant) 的因素？這些問題是該時期語言測試效度驗證過程中必須解決的，對這些問題的回答也使測試專家學(xué)者開始關(guān)注測試公平性問題。早期的語言測試文獻(xiàn)只是將測試公平性等同于測試中的題目對不同的考生群體不存在偏頗(bias)(AERA et al. 1985)。測試偏頗(test bias) 指具有相同能力的不同群體的考生在相同題目上的得分不同。換句話說，測試偏頗就是與測試構(gòu)念無關(guān)的考生特征(如性別、種族、社會經(jīng)濟(jì)地位等)對考生的考試成績產(chǎn)生系統(tǒng)性的影響(McNamara, Roever 2006:82)。測試偏頗一般采用項目功能差異(Differential Item Functioning, DIF) 研究。如果研究顯示測試題目存在DIF，就要確定DIF存在的原因是否與測試構(gòu)念無關(guān)因素有關(guān)，如果有關(guān)，則說明試題存在偏頗，從而影響測試的公平性，必須去除或修改導(dǎo)致偏頗的題目。美國教育測試服務(wù)中心 ( Educational Testing Service, ETS) 1986 年規(guī)定，在測試開發(fā)的過程中，為保證測試較高的效度和公平性，除了對編制的題目進(jìn)行常規(guī)的項目分析外，還必須進(jìn)行項目功能差異研究。受這一時期效度驗證模式的影響，偏頗研究只是從技術(shù)的角度，對試題的心理測量學(xué)屬性進(jìn)行統(tǒng)計分析，控制與測試構(gòu)念無關(guān)的因素，從而為效度驗證提供數(shù)據(jù)和技術(shù)支持。20世紀(jì)80年代末，隨著效度分類觀向效度整體觀的轉(zhuǎn)變，測試領(lǐng)域?qū)叫缘恼J(rèn)識也發(fā)生變化，公平性研究模式也隨之發(fā)生改變。

3 效度整體觀與語言測試公平性研究模式

20世紀(jì)80年代，隨著效度研究的不斷深入，教育測量界發(fā)現(xiàn)基于分類方法進(jìn)行測試的效度驗證所得結(jié)果太零散，也沒有考慮考試成績的價值含義及考試成績使用的社會后果?；诖?，Messick (1988, 1989)提出整體效度概念(unitary concept of validity)，認(rèn)為效度只有一個，即構(gòu)念效度，而證明效度的證據(jù)可來自多方面，并用分層效度框架(又稱效度漸進(jìn)矩陣 (progressive matrix))進(jìn)行說明(參見表1)。

構(gòu)念效度構(gòu)念效度+相關(guān)性/實用性價值含義社會后果

分層效度框架由測試解釋、測試使用、證據(jù)基礎(chǔ)和后果基礎(chǔ)4個維度構(gòu)成。Messick的“一元多維”效度整體觀更新人們的測試效度驗證觀念，自此，效度驗證不僅僅是對測試本身及分?jǐn)?shù)的評價，還包括對測試結(jié)果解釋和使用的評價。但是，Messick 的“一元多維”效度理論太抽象，不能有效地指導(dǎo)測試效度驗證。為解決操作性問題，Bachman和Palmer(1996)提出測試的有用性框架(test usefulness framework)，通俗易懂地詮釋Messick的效度理論。測試有用性框架包括信度(reliability)、構(gòu)念效度、真實性(authenticity)、交互性(interactiveness)、影響力(impact)和可行性(practicality)6個要素。信度指一項考試結(jié)果的穩(wěn)定性；構(gòu)念效度指對考試分?jǐn)?shù)解釋在多大程度上是有意義的、適切的；真實性指考試任務(wù)特征與目標(biāo)語言使用任務(wù)特征的一致性程度；交互性指考生完成測試任務(wù)時，參與其中的個人特質(zhì)類型和程度；影響力指考試對個人、教育制度以及整個社會產(chǎn)生的影響；可行性指設(shè)計、開發(fā)和使用一項測試所需資源與可用資源間的關(guān)系。隨后的十幾年中，該框架是語言測試效度驗證的權(quán)威模式 (Weigle 2002)，在指導(dǎo)語言測試的開發(fā)和使用方面發(fā)揮重要作用。

測試效度觀念及其驗證模式的改變，使人們意識到偏頗研究只是屬于Messick (1989)分層效度框架中的證據(jù)基礎(chǔ)維度，公平性應(yīng)該包括更廣闊的研究內(nèi)容，比如測試的社會價值與影響。而且，1999年版的《教育與心理測量標(biāo)準(zhǔn)》(以下簡稱《標(biāo)準(zhǔn)》)專設(shè)一個部分討論測試公平性，將公平性定義為無偏頗、考試過程公平、基于考試結(jié)果的決策公平以及學(xué)習(xí)機會均等。具體來講，無偏頗就是控制構(gòu)念代表性不足(construct under-representation)及與構(gòu)念無關(guān)的因素(construct-irrelevant variance)，消除影響構(gòu)念效度的偏頗。比如，要保證內(nèi)容樣本的覆蓋面、所有考生都熟悉答題形式等?？荚囘^程公平指在施考過程中平等對待所有考生，考生要有相同的機會展示自己的能力?；诳荚嚱Y(jié)果的決策公平指不同考生群體的考試結(jié)果具有可比性，能力相同的考生應(yīng)享有同等的選拔機會。學(xué)習(xí)機會均等主要指在標(biāo)準(zhǔn)參照考試中，考生有相同的機會學(xué)習(xí)考試內(nèi)容和接觸復(fù)習(xí)資料，尤其是考試成績用于決定是否留級或頒發(fā)證書時，學(xué)習(xí)機會均等更顯重要。因此，測試專家學(xué)者開始構(gòu)建更為全面的公平性研究框架。

2000年，Kunnan在Messick整體效度觀的指導(dǎo)下，以社會正義理論(Jensen 1980) 和《教育公平測試行為準(zhǔn)則》(JCTP 1988)為基礎(chǔ)，參考1999年版的《標(biāo)準(zhǔn)》中關(guān)于測試使用、考生權(quán)利和責(zé)任、考生語言多樣化以及殘疾考生等涉及公平性話題的論述，進(jìn)一步擴(kuò)展傳統(tǒng)的測試公平性研究范圍，提出新的公平性研究框架。該框架包括效度、機會均等和公正性3個組成部分。其中，效度關(guān)注構(gòu)念效度、考試內(nèi)容與形式的偏頗、試題的差異效應(yīng)、考試材料中語言使用的恰當(dāng)性以及哪些考生群體處于不利地位；機會均等關(guān)注考試費用、考場選址、考試設(shè)備和條件是否有利于所有考生，考生受教育機會是否均等則關(guān)注對殘疾考生是否有特殊待遇；公正性關(guān)注社會公正及法律挑戰(zhàn)?？梢钥闯觯琄unnan的測試公平性研究框架不再局限于心理測量學(xué)屬性，已經(jīng)擴(kuò)展至社會、道德、法律和哲學(xué)層面(Kunnan 2000:5)。2004年，Kunnan對其2000年的公平性研究框架進(jìn)行修改和完善，增加施考條件和社會后果兩個部分。至此，測試公平性研究框架更加全面、更加深入，由原來的3個組成部分?jǐn)U展到5個，形成由效度、機會均等、公正性、施考條件和社會后果構(gòu)成的新框架，完全契合整體效度觀的精神及其效驗?zāi)Ｊ健Ｔ摽蚣艹蔀榻陙碚Z言測試公平性研究的主要依據(jù)。2009年，Kunnan又提出測試環(huán)境框架(the Test Context Framework)，該框架試圖從政治、教育、文化、社會、經(jīng)濟(jì)、法律和歷史等諸多方面審視一項測試，同年，Kunnan用美國公民入籍考試(the Naturalization Test)為例從3個方面對測試的公平性進(jìn)行探討：(1)測試的要求和目的：該考試的要求和目的是否有意義；(2)測試的理論基礎(chǔ)、內(nèi)容和操作：該考試是否能夠測出英語語言能力以及關(guān)于美國歷史與政府的知識；(3)測試后果：該考試是否能夠帶來民族主義或社會融合。通過分析以上3個方面，Kunnan發(fā)現(xiàn)，此項美國公民入籍考試是20世紀(jì)50年代美國特定歷史時期的產(chǎn)物，已經(jīng)不符合時代要求，也不符合美國法律規(guī)定，因此，該考試的實施和分?jǐn)?shù)的使用無意義。另外，該考試也測不出考生是否具有“民族主義”或“社會融合”能力，也就是說，該考試的內(nèi)容和理論基礎(chǔ)與預(yù)測構(gòu)念不相關(guān)。可見，該考試對考生而言不公平。

但是，隨著測試效度及其驗證模式研究的深入，人們發(fā)現(xiàn)Bachman和Palmer (1996) 測試有用性框架的6大要素間缺少關(guān)聯(lián)，效度驗證只是證據(jù)的簡單羅列，而且無從知曉證據(jù)收集從哪兒開始，到哪兒結(jié)束。對測試有用性框架“重操作性、輕連貫性”缺陷的認(rèn)識，也使人們意識到Kunnan (2004)測試公平性框架存在同樣問題，該框架的5個組成部分沒有形成一個連貫的令人信服的測試公平性論證(Bachman 2005)。Kunnan (2009) 框架也沒有解決這一問題，無法為測試公平性的評估和實證研究提供切實有效的指導(dǎo)(Xi 2010)。如何明確語言測試公平性各要素間的關(guān)系；如何整合各類證據(jù)，使它們成為一個連貫的相互聯(lián)系的整體？人們期待新觀點新模式的出現(xiàn)。

4 效度論證觀與語言測試公平性研究模式

1999年版的《標(biāo)準(zhǔn)》把效度定義為“證據(jù)及理論對測試分?jǐn)?shù)解釋與使用的支持程度”，指出效度驗證就是對“分?jǐn)?shù)的預(yù)期解釋與使用的論證” (AERA et al. 1999:9)。但是，在效度驗證中如何組織證據(jù)，該版《標(biāo)準(zhǔn)》沒有給出一個可供參考的論證模式，效度驗證基本上采取證據(jù)羅列模式。當(dāng)然，教育測量界并沒有停止探索效度驗證中的證據(jù)組織方法(如Kane 1992, 2002, 2004, 2006；Kane et al. 1999； Mislevy et al. 2002, 2003)，最終將Toulmin (2003) 的實用推理模型(practical reasoning model)(參見圖1)用于效度驗證，提出基于論證的驗證模式(argument-based approach to validation)。該模式明確收集證據(jù)的類別與數(shù)量，效度證據(jù)的組織也不再是簡單的羅列，而是形成一個環(huán)環(huán)相扣的證據(jù)鏈，使效度驗證成為一個有始有終、邏輯嚴(yán)密的論證過程。

圖1 Toulmin的實用推理模型(改自Toulmin 2003:97)

典型的基于論證的效度驗證模式有兩個，一個是Kane (2006)的解釋性論證(interpretive argument)與效度論證(validity argument)。該模式分兩步：第一步，搭建理論框架(解釋性論證)(參見圖2)；第二步，檢驗理論框架(效度論證)。另一個是Bachman和Palmer(2010) 的測試使用論證(Assessment Use Argument, 簡稱AUA)(參見圖3)。

近年來，隨著測試效度論證觀的出現(xiàn)及其驗證模式轉(zhuǎn)變，測試學(xué)界也紛紛從論證的角度對語言測試公平性進(jìn)行研究，提出基于論證的公平性研究模式，如Xi (2010)的公平性論證框架(Fairness Argument Framework)。Xi認(rèn)為，測試公平性指測試所有環(huán)節(jié)對所有的相關(guān)考生群體具有相同的有效性，即對于所有相關(guān)考生群體而言，與構(gòu)念無關(guān)因素、構(gòu)念代表性不足、不一致的施測行為以及不恰當(dāng)?shù)臎Q策程序或測試結(jié)果的使用，對考試分?jǐn)?shù)及其解釋以及基于分?jǐn)?shù)所作的決定與后果不會產(chǎn)生系統(tǒng)性的影響(Xi 2010:154)。基于該定義，Xi提出研究公平性的框架——公平性論證框架，該框架內(nèi)嵌于效度論證框架，稱作“效度論證中的公平性論證”，并用TOEFL iBT 為例進(jìn)行說明(同上：155)。Xi的效度論證包含6個分論證(sub-argument)：(1)證據(jù)表明目標(biāo)語言使用域能夠提供對考生測試表現(xiàn)進(jìn)行觀察的有意義的基礎(chǔ)；(2)證據(jù)表明觀察分是考生目標(biāo)語言使用的反映，而不是構(gòu)念無關(guān)因素的反映；(3)證據(jù)表明觀察分具有概推性，即考生在類似的其他考試中得分相同；(4)證據(jù)表明觀察分的概推性是有理論基礎(chǔ)的，即是基于構(gòu)念的推論；(5)證據(jù)表明構(gòu)念能夠解釋非測試環(huán)境下的目標(biāo)語言使用；(6)證據(jù)表明基于考試結(jié)果對考生語言能力水平的判斷具有相關(guān)性，對決策具有有用性與充足性(同上:156-157)。可見，Xi(2010)的效度論證框架經(jīng)過目標(biāo)域的界定(Domain definition)、評價(Evaluation)、概化(Generalization)、解釋(Explanation)、外推(Extrapolation)與使用(Utilization)6次推論，從考生的測試表現(xiàn)到基于測試結(jié)果對考生語言能力的判斷與使用形成一個嚴(yán)密而連貫的推論鏈，從而明確證據(jù)收集的起點、終點、數(shù)量與種類，在此過程中也完成測試的公平性論證，每次效度論證和公平性論證都采用Toulmin (2003) 的實用推理模型，由事實、主張、理由、證據(jù)、假設(shè)以及反駁構(gòu)成。其中，反駁有兩類，一類是對所有考生來說，由于缺乏相應(yīng)的反面證據(jù)(counter-evidence)而使結(jié)論的說服力減弱；另一類是指對特定考生群體而言，結(jié)論是無效的或是站不住腳的(Xi 2010: 158-164)。Xi就效度論證中外推環(huán)節(jié)的公平性論證以TOEFL iBT為例進(jìn)行說明(參見圖4)(Xi 2010:165)。

圖2 解釋性論證的推理鏈(改自Kane 2006， Bachman 2005)

圖3 AUA框架(Bachman, Palmer 2010:91)

圖4 效度論證外推環(huán)節(jié)中的公平性論證舉例(改自Xi 2010:165)

5 語言測試效度與公平性的關(guān)系

通過以上分析可以看出，語言測試公平性及其研究模式隨著語言測試效度及其驗證模式的變化而變化，二者之間的關(guān)系較復(fù)雜，學(xué)界存在3種觀點：二者是并列的、效度包含在公平性之中以及公平性包含在效度之中。

語言測試效度與公平性是并列的，即二者分別是一個獨立的概念。首先，1999版的《標(biāo)準(zhǔn)》對二者分別給出定義(見前文)。從兩個定義來看，二者沒有直接聯(lián)系且各有側(cè)重：前者偏重檢驗分?jǐn)?shù)解釋和使用是否有意義，后者著重衡量考生在考試的設(shè)計、開發(fā)和使用過程中是否享受平等待遇。再者，《教育公平測試實踐規(guī)范》(CodeofFairTestingPracticesinEducation2004)也明確規(guī)定測試開發(fā)者與使用者對整個測試過程進(jìn)行獨立的公平性研究，具體包括試卷的編制與題目的選擇、考試的實施與評分、分?jǐn)?shù)的報道與解釋以及考試信息的反饋4個環(huán)節(jié)。

效度包含在公平性之中，即效度被看成是公平性的一部分。比如Kunnan(2000) 的公平性研究框架包括效度、機會均等和公正性3個組成部分，很明顯，效度是衡量公平性的重要指標(biāo)。Kunnan (2004) 公平性研究框架由3個組成部分?jǐn)U展到5個后，效度依然被認(rèn)為是公平性的一部分。

公平性包含在效度之中，即公平性是測試效度的重要方面，甚至把公平性稱作可比性效度(comparable validity) (Willingham, Cole 1997:6-7)，是效度的一個種類?？杀刃孕Ф戎冈谝豁椆降臏y試中，測量誤差與基于測試結(jié)果對考生能力的推論對所有考生來說具有可比性?？杀刃孕Ф蓉灤y試的整個過程，涉及考試內(nèi)容的選取、施考困難的避免、相同的評分過程等方面，無非是盡量避免與構(gòu)念無關(guān)因素的影響與構(gòu)念代表性不足，這兩者也是效度研究的重要方面。

簡單來講，語言測試效度與公平性的關(guān)系問題其實就是如何看待二者重要性的問題。如果研究者把效度和公平性看成是測試同等重要的兩個方面，就會把二者當(dāng)做兩個并列的獨立的概念進(jìn)行研究；如果認(rèn)為效度更重要些，就會把公平性看成是效度的一部分；反之，亦然。

6 結(jié)束語

效度是評價一項測試質(zhì)量的重要指標(biāo)，一直是測試界的研究主題。近些年來，隨著測試領(lǐng)域由重視技術(shù)向重視測試結(jié)果的使用及決策的社會影響的轉(zhuǎn)變，公平性研究也成為測試界熱議的話題。但是，學(xué)界在某些問題上還沒有達(dá)成共識，比如，什么是公平性，如何處理效度與公平性之間的關(guān)系，公平性研究是否有必要，對最后一個問題的爭論尤為激烈。2010年，Davies曾撰文回應(yīng)“How do we go about investigating test fairness”(Xi 2010) 一文，認(rèn)為沒有必要進(jìn)行測試公平性研究，因為公平性研究與效度研究如出一轍，而且根本不可能有測試公平，測試公平只是一種幻想(Davies 2010:173-175)。因此，今后的研究應(yīng)多關(guān)注此類問題，深入探究測試公平性的性質(zhì)、研究內(nèi)容與方法，設(shè)計出令人信服的研究框架，從而擺脫與效度研究如出一轍的套路。