華中師范大學(xué)外語(yǔ)學(xué)院 童揚(yáng)芬 陳佑林
提 要: 語(yǔ)言測(cè)試既是一門社會(huì)科學(xué),又是一門實(shí)踐活動(dòng),其公平性檢驗(yàn)貫穿于測(cè)試的整個(gè)流程之中。在我國(guó)現(xiàn)實(shí)測(cè)試環(huán)境下,語(yǔ)言測(cè)試公平性的檢測(cè)框架應(yīng)當(dāng)涵蓋對(duì)測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者責(zé)權(quán)利的界定,在應(yīng)用實(shí)踐中需要同時(shí)考慮技術(shù)公平性需求和社會(huì)公平性需求,針對(duì)效度、偏差和敏感度三個(gè)主要方面進(jìn)行測(cè)量技術(shù)檢驗(yàn)和人工價(jià)值判斷,將檢驗(yàn)的結(jié)果對(duì)社會(huì)公布并接受監(jiān)督。建立完善的公平性檢測(cè)報(bào)告制度不僅是提高測(cè)試質(zhì)量的必要舉措,亦是保障社會(huì)公正的重要措施。
測(cè)試作為一種實(shí)踐活動(dòng),“是實(shí)現(xiàn)人的社會(huì)化和人的社會(huì)價(jià)值的重要手段,也是人類社會(huì)演進(jìn)發(fā)展不可或缺的機(jī)制”(廖平勝,2003: 1)。追求公平是各種測(cè)試的重要目標(biāo)之一,人們通過(guò)實(shí)施科學(xué)、公正、嚴(yán)格的測(cè)試以實(shí)現(xiàn)這一重要目標(biāo)。隨著人們對(duì)測(cè)試評(píng)估標(biāo)準(zhǔn)認(rèn)識(shí)的擴(kuò)展,測(cè)試公平性的研究受到越來(lái)越多的關(guān)注和重視。作為教育測(cè)試中的一員,語(yǔ)言測(cè)試是用來(lái)檢測(cè)語(yǔ)言學(xué)習(xí)者的語(yǔ)言水平、語(yǔ)言能力和學(xué)習(xí)效果的一種測(cè)量工具,由于語(yǔ)言既是測(cè)試的內(nèi)容,同時(shí)亦是測(cè)試的媒介,其測(cè)試公平所涉及的因素較之其它測(cè)試更為復(fù)雜,可以說(shuō)語(yǔ)言測(cè)試既是一門社會(huì)科學(xué),又是一門實(shí)踐活動(dòng)。
國(guó)外對(duì)于測(cè)試公平性的系統(tǒng)研究起步較早,教育評(píng)估領(lǐng)域早在上世紀(jì)60年代已經(jīng)出現(xiàn)對(duì)公平性的關(guān)注(Angoff, 1993),語(yǔ)言測(cè)試界對(duì)于公平性的討論始于上世紀(jì)90年代(Kunnan, 2000)。測(cè)試學(xué)界的權(quán)威專家Bachman很早就在其著作中指出,公平性將是未來(lái)語(yǔ)言測(cè)試的研究重點(diǎn),“會(huì)成為以后二十年語(yǔ)言測(cè)試的主導(dǎo)方向”。(Bachman, 1990: 357)國(guó)際語(yǔ)言測(cè)試協(xié)會(huì)(LTRC) 1997年年會(huì)因以此為主題而被普遍認(rèn)為是語(yǔ)言測(cè)試公平性研究的標(biāo)志,其2005年年會(huì)再次焦距語(yǔ)言測(cè)試公平性研究。語(yǔ)言測(cè)試學(xué)科發(fā)展到今天,該領(lǐng)域有影響力的相關(guān)理論和代表之作均出自歐美的語(yǔ)言測(cè)試學(xué)專家,國(guó)外的相關(guān)研究從時(shí)間上和深度上均領(lǐng)先于國(guó)內(nèi)的相關(guān)研究。
在我國(guó),把考試作為一門學(xué)科來(lái)進(jìn)行研究始于上世紀(jì)80年代,對(duì)于測(cè)試公平性的研究大致從上世紀(jì)90年代后期開(kāi)始,語(yǔ)言測(cè)試領(lǐng)域關(guān)注公平性大致也是始于彼時(shí)。然而在倡導(dǎo)語(yǔ)言測(cè)試公平性的背景下, 我國(guó)對(duì)語(yǔ)言測(cè)試公平性問(wèn)題的研究還遠(yuǎn)未充分展開(kāi)。對(duì)過(guò)去18年間語(yǔ)言測(cè)試方向的CSSCI論文進(jìn)行了計(jì)量學(xué)的統(tǒng)計(jì)和分析,結(jié)果顯示,我國(guó)外語(yǔ)測(cè)試界對(duì)公平問(wèn)題進(jìn)行的研究非常少,語(yǔ)言測(cè)試的社會(huì)性和倫理問(wèn)題方面的研究等在國(guó)內(nèi)幾乎是空白或者處于起步階段(謝賽、陳賀文, 2016: 143)。2015年11月我國(guó)首次語(yǔ)言測(cè)試與評(píng)價(jià)國(guó)際研討會(huì)的核心議題之一是加快外語(yǔ)考試質(zhì)量標(biāo)準(zhǔn)的相關(guān)研究,在會(huì)議提交的二百多篇論文中,僅有三篇論文涉及語(yǔ)言測(cè)試公平性討論。目前,教育界均認(rèn)可公平性檢驗(yàn)的重要性和必要性,但是在很多方面仍難達(dá)成共識(shí),例如: 公平性檢測(cè)的有效實(shí)踐性和公眾感知度如何得到體現(xiàn)?其核心體現(xiàn)的問(wèn)題仍在于公平性究竟可不可以被檢驗(yàn)?應(yīng)該如何檢驗(yàn)?本文將在現(xiàn)有研究成果的基礎(chǔ)上,對(duì)公平性研究中的核心問(wèn)題進(jìn)行討論,并嘗試提出中國(guó)測(cè)試環(huán)境下語(yǔ)言測(cè)試公平性的檢驗(yàn)框架。
公平性通常被認(rèn)為等同于倫理。著名學(xué)者Davies最早首次提出語(yǔ)言測(cè)試應(yīng)當(dāng)考慮倫理因素(Davies, 1977),Stevenson(1981)則號(hào)召語(yǔ)言測(cè)試應(yīng)盡早開(kāi)發(fā)全球廣為接受的心理與教育測(cè)量標(biāo)準(zhǔn),Canale(1988)認(rèn)為語(yǔ)言測(cè)試工作者應(yīng)該對(duì)測(cè)試信息的倫理負(fù)責(zé),Bachman(2000: 23)也曾指出:“語(yǔ)言測(cè)試不能單純追求構(gòu)念而忽略倫理,語(yǔ)言測(cè)試研究既應(yīng)包括對(duì)信度和效度的考驗(yàn),也要充分考慮后效和倫理問(wèn)題”。然而這兩者雖緊密關(guān)聯(lián),卻并非一回事。
在語(yǔ)言測(cè)試領(lǐng)域,倫理問(wèn)題應(yīng)該針對(duì)的是測(cè)試者,即所有參與測(cè)試活動(dòng)并使測(cè)試得以實(shí)現(xiàn)的人(Shohamy, 2001: 145)——測(cè)試的開(kāi)發(fā)者、使用者、實(shí)施者、評(píng)分者、分?jǐn)?shù)的報(bào)道和解釋者等利益相關(guān)者,他們實(shí)施測(cè)試行為要遵守道德準(zhǔn)則和行為規(guī)范,這里強(qiáng)調(diào)的是特定行業(yè)的責(zé)任和標(biāo)準(zhǔn),Davies(1997)將其分為公共道德、專業(yè)道德和個(gè)體道德;公平性則應(yīng)當(dāng)針對(duì)測(cè)試本身,即測(cè)試的開(kāi)發(fā)、使用、實(shí)施、評(píng)分、分?jǐn)?shù)的報(bào)道和解釋等等在整個(gè)測(cè)試過(guò)程中對(duì)所有應(yīng)試群體和個(gè)體的公平和公正,使他們具有相同的應(yīng)試條件和相等的答題機(jī)率。
語(yǔ)言測(cè)試的開(kāi)發(fā)、使用、實(shí)施、評(píng)分、分?jǐn)?shù)的報(bào)道和解釋等都會(huì)對(duì)利益相關(guān)者產(chǎn)生影響,但是測(cè)試者應(yīng)當(dāng)承擔(dān)什么責(zé)任、要承擔(dān)多大的責(zé)任?Davies(1997)認(rèn)為測(cè)試者不應(yīng)該也不可能承擔(dān)所有的社會(huì)后果,其責(zé)任只能局限于合理的范圍之內(nèi),測(cè)試者只能負(fù)責(zé)有限的后果;Hamp-Lyons(2000)則認(rèn)為語(yǔ)言測(cè)試者必須為所有能意識(shí)到的預(yù)期或非預(yù)期的測(cè)試后果承擔(dān)責(zé)任;Bachman和Palmer(2010)提出在“語(yǔ)言測(cè)評(píng)使用論證”(Assessment Use Argument, AUA) 框架下測(cè)試開(kāi)發(fā)者和使用者在測(cè)試不同階段各自承擔(dān)不同的責(zé)任,前者對(duì)命題設(shè)計(jì)和試測(cè)負(fù)責(zé),后者對(duì)測(cè)試結(jié)果的解釋和使用負(fù)責(zé)。對(duì)于這一問(wèn)題目前學(xué)界還沒(méi)有達(dá)成共識(shí),然而對(duì)于測(cè)試者各方倫理責(zé)任的認(rèn)定始終是公平性討論中非常重要的一個(gè)環(huán)節(jié),也是公平性研究框架下必須要正視的問(wèn)題。
有學(xué)者則認(rèn)為,測(cè)量的信度和測(cè)量的公平性驗(yàn)證都屬于效度,公平性的證據(jù)用于表明分?jǐn)?shù)在跨群體、跨組別、跨情境方面的可比性(Messick, 1988)。Shohamy(1997)認(rèn)為測(cè)試任務(wù)和對(duì)測(cè)試的使用是引發(fā)不公平的兩大主要方面,某些測(cè)試內(nèi)容和方法對(duì)于一些考生是不公平的,而代表不同測(cè)試?yán)娴姆謺r(shí)解釋也必然會(huì)導(dǎo)致政治的或者基于其他意圖的不公平。Kunnan(1997)則認(rèn)為對(duì)測(cè)試公平性的考察應(yīng)當(dāng)更為重要,測(cè)試的公平性要考查的不僅僅是將效度和信度進(jìn)行關(guān)聯(lián);如果一項(xiàng)測(cè)試的公平性出現(xiàn)問(wèn)題,對(duì)效度和信度的考慮將變得毫無(wú)意義,他主張將效度驗(yàn)證與公平性聯(lián)系在一起,并提出了建構(gòu)效度(equal construct validity)——保證受試者語(yǔ)言測(cè)試成績(jī)不受受試者性別、種族、專業(yè)背景、母語(yǔ)、文化等影響。
雖然有關(guān)公平性的定義會(huì)由于對(duì)社會(huì)和政治等因素的關(guān)注程度不同而有所不同,但是公平性與效度的關(guān)系一直是探討公平性定義內(nèi)涵的主要內(nèi)容,當(dāng)前大多數(shù)公平性的研究都將兩者結(jié)合起來(lái)。Kunnan所提出公平性包括效度、可行性和公正(Kunnan, 2001),他觀點(diǎn)鮮明地指出公平性不僅應(yīng)包含效度驗(yàn)證,更應(yīng)當(dāng)貫穿于測(cè)試開(kāi)發(fā)的各個(gè)階段(Kunnan, 2010);由于效度是一個(gè)程度性的問(wèn)題,因此很多研究者認(rèn)為公平性同樣是一個(gè)程度性的問(wèn)題(Cole & Zieky, 2001);Kane(2010) 則認(rèn)為公平性和效度都有廣泛的外延,如果對(duì)效度的界定窄,那么效度包含于公平性的定義框架中;如果公平性的界定窄,那么公平性就是效度框架中的一部分。Xi(2010)總結(jié)并歸納了學(xué)界對(duì)公平性的描述,認(rèn)為公平性與效度存在三種維度的闡釋(如圖1),即: 公平性是獨(dú)立于效度之外的測(cè)試特征;公平性是涵蓋效度的測(cè)試特征;公平性是效度驗(yàn)證的一部分。
圖1. Xi總結(jié)的公平與效度的關(guān)系
雖然以上分類都各自有其代表觀點(diǎn),但是公平性與效度的關(guān)系問(wèn)題時(shí)至今日依然是測(cè)試界探討和爭(zhēng)論的焦點(diǎn)之一。事實(shí)上,無(wú)論哪一種觀點(diǎn)都不容回避地說(shuō)明了公平性與效度直接或高度相關(guān),但是其關(guān)聯(lián)程度可能由于不同的社會(huì)、政治、文化和經(jīng)濟(jì)因素有所不同,這種不同反映出測(cè)試在不同文化背景下的社會(huì)性;效度從技術(shù)層面反映測(cè)試社會(huì)性的要求,公平性則更多在社會(huì)價(jià)值層面關(guān)注測(cè)試的效果,一項(xiàng)成功的測(cè)試?yán)響?yīng)包括對(duì)兩者的共同要求。公平性和效度在某些方面是有共性的,它們存在共同關(guān)注的部分,而交疊的部分體現(xiàn)的正是測(cè)試中的社會(huì)性,我們嘗試用下圖更為直觀地展示三者的關(guān)聯(lián):
圖2. 測(cè)試的公平性、效度、社會(huì)性的關(guān)系
語(yǔ)言測(cè)試之所以要求公平和公正,主要基于兩個(gè)方面的原因: 一是內(nèi)在要求,即測(cè)試自身需要,語(yǔ)言測(cè)試需要測(cè)試應(yīng)試者的語(yǔ)言能力,因此希望測(cè)試本身具有高效度,能夠盡可能排除非語(yǔ)言水平因素,測(cè)試出應(yīng)試者對(duì)語(yǔ)言知識(shí)的掌握情況和語(yǔ)言能力的運(yùn)用水平,這實(shí)際上是從心理測(cè)量學(xué)的角度強(qiáng)調(diào)測(cè)試的平等和測(cè)量的無(wú)偏差;二是外在要求,從社會(huì)維度進(jìn)行的分析,要求測(cè)試對(duì)分?jǐn)?shù)的解釋和使用是合理的和公正的,測(cè)試的社會(huì)后果決定了測(cè)試分?jǐn)?shù)的解釋和使用情況,如果測(cè)試的社會(huì)權(quán)重越大,公平性要求就會(huì)越高。
Kunnan(2001)很早就提出公平性應(yīng)包括效度、可行性和公正,這里的公正實(shí)際上指的就是語(yǔ)言測(cè)試的社會(huì)影響。Kane(2010)借用法律中公平的分類程序來(lái)歸納測(cè)試公平的定義,他認(rèn)為公平應(yīng)基于程序性的公平和實(shí)質(zhì)性的公平,這一界定充分肯定了語(yǔ)言測(cè)試中應(yīng)當(dāng)體現(xiàn)的社會(huì)公平。McNamara&Ryan進(jìn)一步區(qū)分了測(cè)試的公平性和公正性,他們指出:“公平性是技術(shù)質(zhì)量,即基于心理測(cè)量技術(shù)的質(zhì)量要求,要保證受試個(gè)體和群體的測(cè)試程序相同,要保證測(cè)試構(gòu)念在材料中得到充分體現(xiàn),而公正性則是指測(cè)試構(gòu)念中的價(jià)值觀意義對(duì)社會(huì)意識(shí)形態(tài)方面的影響”(McNamara&Ryan, 2011: 163)。這一論述很好地區(qū)分了公平性和公正性在語(yǔ)言測(cè)試中各自的側(cè)重點(diǎn),有助于界定長(zhǎng)久以來(lái)語(yǔ)言測(cè)試公平性在實(shí)際應(yīng)用中應(yīng)當(dāng)如何界定的困繞,對(duì)于進(jìn)一步探討公平性檢驗(yàn)具有重要意義。
雖然學(xué)者們?cè)诮缍ü叫愿拍顣r(shí)的所知范圍不同,但一種較為一致的觀點(diǎn)基本認(rèn)同,公平性應(yīng)包括測(cè)試本身的公平和測(cè)試使用的公正,前者主要針對(duì)測(cè)試的技術(shù)質(zhì)量,在效度范疇下討論測(cè)試的公平性,在此方面,Messick(1989)的效度理論經(jīng)過(guò)幾十年的發(fā)展已經(jīng)成熟并被廣泛運(yùn)用于對(duì)公平性的討論(如: Shohamy,1997; Willingham&Cole, 1999; Weir, 2005; Bachman&Palmer, 2010; Xi, 2010; Walter, 2012);后者主要指基于結(jié)果使用的社會(huì)公平,指對(duì)測(cè)試的解釋和使用的價(jià)值觀意義對(duì)社會(huì)意識(shí)形態(tài)方面的影響,然而這一問(wèn)題在語(yǔ)言測(cè)試學(xué)界并沒(méi)有得到和前者同等的重視,近二十年來(lái)對(duì)于測(cè)試使用的社會(huì)公正問(wèn)題才逐漸引起學(xué)界的關(guān)注,目前這方面的研究尚處于初期(Karami, 2013)。
語(yǔ)言測(cè)試公平性研究在經(jīng)過(guò)近二十年的發(fā)展,成果顯著且日趨完善。學(xué)者們從不同的側(cè)重點(diǎn)對(duì)公平性進(jìn)行了界定,并提出了各自的研究思路或者理論框架。有學(xué)者認(rèn)為公平性框架的核心是“可比性”(comparability),既考生個(gè)體與個(gè)體之間以及群體和群體之間具有可比較的公平性,這一公平性體現(xiàn)在測(cè)試開(kāi)發(fā)、實(shí)施、分?jǐn)?shù)的評(píng)定和解釋的所有測(cè)試過(guò)程中(Willingham & Cole, 1997: 11)。Kunnan在語(yǔ)言測(cè)試公平性研究方面進(jìn)行了持久的探索且成果豐碩,他最早提出語(yǔ)言測(cè)試的公平性應(yīng)包括效度(validity)、可行性(access)和公正(justice),效度關(guān)注對(duì)不同考生群體分?jǐn)?shù)解釋的公平性,可行性關(guān)注在考試費(fèi)用、考點(diǎn)設(shè)置、所考內(nèi)容、考試形式等方面是否對(duì)考生公平,公正關(guān)注考試結(jié)果的使用能否維護(hù)社會(huì)公正(Kunnan,2000: 3)。Kunnan的框架歷經(jīng)修改,他的公平性研究模型最終調(diào)整為: 對(duì)全體考生的公平(equitable treatment of examinees)、無(wú)偏差(freedom from bias)、對(duì)測(cè)試結(jié)果使用的公平(equality of testing outcomes)以及對(duì)測(cè)試內(nèi)容學(xué)習(xí)的公平(equality of opportunity to learn the testing content)(Kunnan, 2008: 24-34)。Kunnan的框架拓展了學(xué)界對(duì)測(cè)試公平性的理解,建立了公平性研究的理論框架,然而B(niǎo)achman(2005)指出,雖然框架中的要素都非常重要,卻沒(méi)有一個(gè)系統(tǒng)機(jī)制將這些要素連貫起來(lái)為公平性提供論據(jù),Xi(2010)則認(rèn)為他的模型對(duì)于測(cè)試公平性研究具有理論意義,但缺乏對(duì)實(shí)際操作層面的指導(dǎo),因?yàn)樗鼪](méi)有提供具體的指導(dǎo)或者綱要對(duì)測(cè)試的公平性進(jìn)行操作和評(píng)估。
一些知名測(cè)試機(jī)構(gòu)在出臺(tái)測(cè)試領(lǐng)域指導(dǎo)文件時(shí)均對(duì)公平性進(jìn)行描述,被視為考試領(lǐng)域的權(quán)威文件《教育與心理測(cè)量標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing) 1985版把公平性定義為測(cè)試質(zhì)量的一種純技術(shù)性指標(biāo),即測(cè)試對(duì)于不同的群體不存在偏差;1999 版的《標(biāo)準(zhǔn)》認(rèn)為公平性是測(cè)試存在和使用的基礎(chǔ),測(cè)試公平與否將關(guān)系到社會(huì)公正,強(qiáng)調(diào)測(cè)試的公平性應(yīng)貫穿和超越整個(gè)測(cè)試過(guò)程,同時(shí)該版《標(biāo)準(zhǔn)》承認(rèn)公平性沒(méi)有唯一的技術(shù)標(biāo)準(zhǔn);2014版則進(jìn)一步指出公平性是效度的基礎(chǔ),保障測(cè)試公平性是所有相關(guān)方的共同責(zé)任,其核心是避免和減少構(gòu)念無(wú)關(guān)因素(construct-irrelevant variance)對(duì)受試的影響(AERA,APA,NCME, 1985/1999/2014)?!督逃郎y(cè)試實(shí)踐公平性準(zhǔn)則》(Joint Committee on Testing Practices)明確指出,測(cè)試的公平性是指測(cè)試在多大程度上同等地對(duì)待每位考生,并為每位考生發(fā)揮其與測(cè)試相關(guān)的知識(shí)和技能提供平等的機(jī)會(huì);無(wú)論考生的年齡、性別、種族、國(guó)籍、語(yǔ)言背景及其個(gè)人特征,測(cè)試應(yīng)該對(duì)所有的考生公平(JCTP, 2004: 2)。《ETS質(zhì)量和公平標(biāo)準(zhǔn)》(ETS Standards of Quality and Fairness)在定義測(cè)試公平時(shí)強(qiáng)調(diào)構(gòu)念不相關(guān)考生特征對(duì)測(cè)試結(jié)果和分?jǐn)?shù)使用應(yīng)無(wú)顯著影響,并且列舉了測(cè)試中潛在的不公平因素和保障公平的相關(guān)措施(ETS, 2014: 20)。
如何使用公平性理論有效地指導(dǎo)測(cè)試開(kāi)發(fā)的實(shí)踐活動(dòng)呢?這是所有測(cè)試研究者、開(kāi)發(fā)者和使用者最關(guān)心和亟待解決的問(wèn)題。Xi(2010)總結(jié)和歸納了當(dāng)前公平性與效度的三種關(guān)系,并提出將公平性置于測(cè)試效度檢驗(yàn)的范疇更有利于公平性在實(shí)踐中的運(yùn)用。她以TOEFL iBT測(cè)試為實(shí)證案例,結(jié)合ETS在開(kāi)發(fā)大規(guī)模標(biāo)準(zhǔn)化測(cè)試方面的經(jīng)驗(yàn),嘗試性地提出在測(cè)試開(kāi)發(fā)和使用過(guò)程中公平性框架應(yīng)用的六個(gè)步驟,并在此檢驗(yàn)基礎(chǔ)上得出對(duì)TOEFL iBT測(cè)試進(jìn)行公平性驗(yàn)證的結(jié)論,即: 該測(cè)試能夠有效檢驗(yàn)本科生的語(yǔ)言水平,但是對(duì)研究生并不合適;某些領(lǐng)域的專門知識(shí)可能會(huì)影響考生的應(yīng)試表現(xiàn),測(cè)試對(duì)不同的應(yīng)試群體存在不公平。她的討論遭到Alan Davies的批評(píng),他認(rèn)為Xi的公平性驗(yàn)證實(shí)際上是效度驗(yàn)證,兩者只是在措詞上不同;他觀點(diǎn)鮮明地指出對(duì)于語(yǔ)言測(cè)試公平性的討論是不現(xiàn)實(shí)和不必要的(Davies 2010)。
隨著測(cè)試公平性研究不斷的發(fā)展和深入,Walter(2012)提出了“形式模型”(formalistic model),并將公平性檢驗(yàn)劃分為微觀分析(micro-analyses)和宏觀分析(macro-analyses),前者指有關(guān)公平性的技術(shù)檢測(cè),后者指公平性的社會(huì)價(jià)值判斷,這一觀點(diǎn)在實(shí)際上呼應(yīng)了McNamara& Ryan(2011)所提出的有關(guān)公平性和公正性區(qū)別的觀點(diǎn)。他們的研究都肯定了公平性檢驗(yàn)?zāi)P蛻?yīng)當(dāng)結(jié)合量化和質(zhì)化的方法,指明了公平性判斷中兩個(gè)最重要的范疇,具有實(shí)踐意義,但是隨著而來(lái)的問(wèn)題在于: 公平性作為一個(gè)有很強(qiáng)主觀意識(shí)判定的概念,如何清晰地界定微觀公平和宏觀公平?在公平性檢驗(yàn)的內(nèi)容中哪些屬于微觀層面,哪些屬于宏觀層面?
基于上述討論,我們把公平界定為: 在測(cè)試流程中確保受試群體和個(gè)體同等測(cè)試機(jī)會(huì)的構(gòu)念不相關(guān)因素,它既包括測(cè)量技術(shù)檢驗(yàn)的公平性,也包括社會(huì)價(jià)值判斷的公平性?!肮叫詸z驗(yàn)雖然是一項(xiàng)非常重要的工作,執(zhí)行起來(lái)卻是困難重重”(Ravitch, 2004: 3),國(guó)內(nèi)外眾多機(jī)構(gòu)和學(xué)者對(duì)語(yǔ)言測(cè)試公平性進(jìn)行了諸多有益的探索,如前文所提到的歐美測(cè)試機(jī)構(gòu)在倫理規(guī)范和行為準(zhǔn)則制定方面已經(jīng)卓有成就,而在公平性踐行方面也已經(jīng)形成較為完備的體系,例如: 著名的TOEFL考試在試題開(kāi)發(fā)過(guò)程中就有專家審題程序,試題通過(guò)統(tǒng)計(jì)手段檢驗(yàn)之后,還要經(jīng)過(guò)測(cè)試專家對(duì)諸如性別、種族等敏感問(wèn)題進(jìn)行的審查,而英國(guó)的培生集團(tuán)在命題過(guò)程中有項(xiàng)目敏感度復(fù)查環(huán)節(jié),以確保技術(shù)手段下沒(méi)有檢出的問(wèn)題在人工價(jià)值判斷階段被檢出。這些方法主觀和客觀方法相結(jié)合、定性和定量方法相結(jié)合,能夠使公平審查更有效。
我國(guó)作為考試的大國(guó),語(yǔ)言測(cè)試種類繁多、功能各異,然而尚未見(jiàn)關(guān)于測(cè)試公平性的倫理準(zhǔn)則和操作規(guī)范,近年以來(lái)國(guó)內(nèi)的有識(shí)之士已經(jīng)開(kāi)始對(duì)此進(jìn)行探索性研究。范勁松提出的中國(guó)測(cè)試環(huán)境下語(yǔ)言測(cè)試公平性研究的基本框架,清晰地界定了測(cè)試中的相關(guān)利益群體在維護(hù)測(cè)試公平性中的責(zé)任,該模型充分展示了測(cè)試的整個(gè)過(guò)程中三個(gè)利益群體對(duì)于保障和提高公平性的重要作用,即: 開(kāi)發(fā)機(jī)構(gòu)在確保測(cè)試公平性中發(fā)揮著最重要的作用,而所有利益相關(guān)群體責(zé)任的界定有助于提高公平性意識(shí)(范勁松, 2014: 7)。范的理論模型充分考慮了中國(guó)測(cè)試環(huán)境下利益相關(guān)群體的責(zé)任以及他們的公平性意識(shí)對(duì)于整個(gè)測(cè)試公平性的影響,其重要性在于這是國(guó)內(nèi)首次有學(xué)者專門針對(duì)語(yǔ)言測(cè)試的標(biāo)準(zhǔn)制定進(jìn)行的探索性研究,然而這一模型仍然沒(méi)有詳細(xì)指明其核心“測(cè)試公平性”的具體內(nèi)涵和驗(yàn)證手段,如: 測(cè)試公平性應(yīng)包括哪些內(nèi)容?應(yīng)采用什么方式或者手段驗(yàn)證測(cè)試的公平性?李清華(2016)總結(jié)了前人關(guān)于公平的界定,進(jìn)一步區(qū)分了公平性與效度、公平性與公正性的關(guān)系,借用AUA框架(Bachman & Palmer, 2010) 提出了一個(gè)語(yǔ)言測(cè)試公平性檢驗(yàn)框架,將測(cè)試公平性的檢驗(yàn)分為測(cè)量公平性的檢測(cè)和社會(huì)公平性的檢驗(yàn),并清晰界定了開(kāi)發(fā)者和使用者這兩大測(cè)試?yán)娓呦嚓P(guān)群體各自對(duì)于保障不同階段的公平性所應(yīng)該承擔(dān)的具體責(zé)任。這一框架充分考慮了長(zhǎng)久以來(lái)關(guān)于公平性究竟是技術(shù)檢測(cè)還是價(jià)值判斷的爭(zhēng)論,對(duì)測(cè)試整個(gè)流程中公平性檢測(cè)的實(shí)際操作具有很強(qiáng)的指導(dǎo)意義,模型對(duì)于測(cè)試中最重要的利益相關(guān)群體——開(kāi)發(fā)者和使用者各自對(duì)公平性的責(zé)任和影響都進(jìn)行了詳細(xì)描述,然而遺憾的是該模型沒(méi)有體現(xiàn)出“應(yīng)試者”這一關(guān)鍵群體在整個(gè)公平性檢測(cè)中應(yīng)有位置和作用。在測(cè)試的整個(gè)流程中,測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者的權(quán)力關(guān)系是不對(duì)等的,前兩者直接決定和影響著對(duì)應(yīng)試者的公平,因而測(cè)試的公平性框架中應(yīng)當(dāng)必須要考慮和體現(xiàn)所有利害高相關(guān)者的立場(chǎng)和關(guān)系(Lynch, 2001)。
事實(shí)上,長(zhǎng)久以來(lái)語(yǔ)言測(cè)試領(lǐng)域就一直有兩種聲音(Filer, 2000: 2): 技術(shù)聲音(technical discourse)和社會(huì)聲音(sociological discourse),前者關(guān)注測(cè)試本身的質(zhì)量,后者關(guān)注測(cè)試在社會(huì)中的使用及產(chǎn)生的影響。在我國(guó)語(yǔ)言測(cè)試具有高利害相關(guān)因素的環(huán)境下,測(cè)試的結(jié)果往往直接關(guān)系到應(yīng)試者的一些重大切身利益,因此無(wú)論是測(cè)試本身的質(zhì)量,還是測(cè)試的社會(huì)影響,都應(yīng)當(dāng)納入對(duì)其公平性進(jìn)行考量的范圍。綜合前人對(duì)語(yǔ)言測(cè)試公平性的研究成果,吸收和借鑒了范和李兩位學(xué)者對(duì)中國(guó)測(cè)試環(huán)境下公平性的研究框架,我們認(rèn)為語(yǔ)言測(cè)試公平性的檢測(cè)框架應(yīng)當(dāng)涵蓋對(duì)測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者責(zé)權(quán)利的界定,在應(yīng)用實(shí)踐中需要同時(shí)考慮技術(shù)公平性需求和社會(huì)公平性需求,對(duì)效度、偏差和敏感度三個(gè)主要方面進(jìn)行測(cè)量技術(shù)檢驗(yàn)和人工價(jià)值判斷。據(jù)此我們提出以下語(yǔ)言測(cè)試公平性檢測(cè)框架(如下圖):
圖3. 語(yǔ)言測(cè)試公平性檢驗(yàn)框架
語(yǔ)言測(cè)試既是一門社會(huì)科學(xué),同時(shí)亦是一門實(shí)踐性很強(qiáng)的實(shí)踐活動(dòng),因此語(yǔ)言測(cè)試公平性研究應(yīng)當(dāng)既包括對(duì)理論原則的探討,也包括對(duì)實(shí)踐準(zhǔn)則的探討。測(cè)試公平性理論原則探討的重要內(nèi)容應(yīng)包括用于規(guī)范所有測(cè)試者倫理道德的職業(yè)規(guī)范,而實(shí)踐準(zhǔn)則是指用于指導(dǎo)具體測(cè)試行為的實(shí)施準(zhǔn)則。根據(jù)范和李所提出的模型,開(kāi)發(fā)機(jī)構(gòu)在確保測(cè)試公平性中發(fā)揮著最重要的作用,即開(kāi)發(fā)機(jī)構(gòu)對(duì)于測(cè)試的開(kāi)發(fā)和實(shí)施階段的公平性負(fù)有絕對(duì)的責(zé)任,但是測(cè)試的開(kāi)發(fā)者不可能決定對(duì)于測(cè)試的使用和后果的公平性,這些理應(yīng)由測(cè)試的使用者所負(fù)責(zé)。如果將整個(gè)測(cè)試過(guò)程按照測(cè)試前、測(cè)試中和測(cè)試后三個(gè)階段,將公平性的探求需貫穿于整個(gè)測(cè)試流程中,那么一項(xiàng)測(cè)試最初的命題研究是構(gòu)成整個(gè)測(cè)試公平、公正的起點(diǎn)和基礎(chǔ)。在命題階段,公平性的要求主要反映在測(cè)試的選材內(nèi)容和答題形式上,尤其是大規(guī)模、高風(fēng)險(xiǎn)的測(cè)試,應(yīng)當(dāng)對(duì)于所有考生而言具有同等的作答機(jī)會(huì)和答題條件;如果由于考生性別、經(jīng)歷、專業(yè)等原因造成難易度差別和答機(jī)率失衡等狀況,那么就會(huì)出現(xiàn)“不公平”。在命題階段的公平會(huì)對(duì)測(cè)試的解釋、決策和后果產(chǎn)生最重要的和最直接的預(yù)期影響,但是不能夠確保測(cè)試的最終使用在開(kāi)發(fā)者預(yù)期的公平范圍內(nèi),這也正是上圖3中虛線所要表明的意思,即測(cè)試的開(kāi)發(fā)者所努力確保的公平并不能保證測(cè)試的最終公平,測(cè)試的開(kāi)發(fā)者不可能也不應(yīng)該對(duì)測(cè)試的誤用和濫用等超出其職責(zé)之外的后果負(fù)責(zé)(楊惠中、桂詩(shī)春,2007)。
學(xué)界有專家認(rèn)為公平性檢驗(yàn)的具體方法應(yīng)當(dāng)以專家審驗(yàn)為主,統(tǒng)計(jì)方法為輔,傳統(tǒng)的偏差偵測(cè)方法適用于測(cè)試的開(kāi)發(fā)、分?jǐn)?shù)評(píng)定和解釋,對(duì)于施測(cè)、決策及其后果的公平性檢驗(yàn)則以質(zhì)性研究方法為主(李清華,2016: 549)。然而,在實(shí)際操作過(guò)程中的人工判斷(如專家審查等)會(huì)受到判斷者的經(jīng)驗(yàn)、喜好、職業(yè)等諸多因素或多或少的影響,誠(chéng)如Berlack所指出的:“如果測(cè)試可以由專家的判斷來(lái)決定效度的技術(shù)檢測(cè),那么為了保障測(cè)試的公平性所進(jìn)行的科學(xué)技術(shù)檢測(cè)都將是無(wú)意義的”(Berlack, 2000: 192)。公平性檢驗(yàn)的特殊之處在于它既涉及客觀方法,也涉及主觀方法,這兩種方法對(duì)于保障測(cè)試的公平性都是不可缺少的,在具體流程中,客觀性的測(cè)量技術(shù)檢驗(yàn)理應(yīng)先行,技術(shù)檢測(cè)和人工價(jià)值判斷亦可“同行”;如果在“同行”過(guò)程中發(fā)現(xiàn)爭(zhēng)議較為集中的問(wèn)題,再做進(jìn)一步審查和判斷。在具體實(shí)施步驟上,首先應(yīng)當(dāng)進(jìn)行的是效度驗(yàn)證,因?yàn)椤疤嵘Ф仁峭ㄏ蚬叫缘谋赜芍贰?Willingham, 1999: 221),測(cè)試首先要確保采用了恰當(dāng)?shù)姆绞娇剂恕耙肌钡膬?nèi)容,這是對(duì)“所有考生的公平”;隨后進(jìn)行偏差檢測(cè)以保證測(cè)試使用了公平的形式考了“應(yīng)考”的內(nèi)容,這是對(duì)“不同考生群體的公平”,減少或者控制偏差是保證效度和公平性的必要條件之一。同時(shí),人工價(jià)值判斷亦可同時(shí)進(jìn)行偏差檢測(cè),并進(jìn)一步進(jìn)行敏感度檢測(cè),確保測(cè)試內(nèi)容和語(yǔ)言是合適的、對(duì)不同考生個(gè)體是公平和無(wú)歧視的。關(guān)于人工價(jià)值判斷的重要性,Gregory& Rutgers(2006: 232)曾明確指出:“如果能夠判斷出試題錯(cuò)測(cè)內(nèi)容的確是測(cè)試所需要的,那么即便該題被認(rèn)定為DIF較高,也應(yīng)該保留”,進(jìn)一步的公平性分析需要相關(guān)領(lǐng)域的專家結(jié)合經(jīng)驗(yàn)進(jìn)行判斷。
測(cè)試學(xué)專家Bachman認(rèn)為,語(yǔ)言測(cè)試不公平可能是因?yàn)檎Z(yǔ)言測(cè)試的開(kāi)發(fā)和使用者沒(méi)有考慮到受試者的文化背景、知識(shí)背景、認(rèn)知風(fēng)格、母語(yǔ)、種族、性別和年齡等方面的差異(Bachman, 1990: 113),這些差異可能導(dǎo)致測(cè)試行為中存在的系統(tǒng)性差異與所要測(cè)量的能力無(wú)邏輯關(guān)系而與考生的其他特征有關(guān),從而使考試對(duì)具有某個(gè)特征的考生群體有利,或?qū)哂心硞€(gè)特征的考生群體不利,最終導(dǎo)致語(yǔ)言測(cè)試的不公平。其后他在語(yǔ)言測(cè)評(píng)論證框架(Assessment Use Argument, AUA)(Bachman&Palmer, 2010)中主張,針對(duì)每一步合理使用的測(cè)試流程應(yīng)提出理?yè)?jù),以保證測(cè)試的開(kāi)發(fā)和質(zhì)量檢驗(yàn)。根據(jù)Bachman對(duì)于影響公平性因素的表述和AUA框架的主張,我們嘗試將其中的相關(guān)因素細(xì)化并制成校對(duì)量表(如下表),對(duì)測(cè)試的公平性進(jìn)行核對(duì)和檢查,畢竟對(duì)于一線的測(cè)試踐行者們而言,指導(dǎo)細(xì)則能夠?qū)⒊橄蟮墓骄唧w化,能夠降低公平性審查過(guò)程中的主觀性(Zieky, 2006)。
表1.語(yǔ)言測(cè)試公平性量表檢測(cè)細(xì)則
請(qǐng)?jiān)诹勘砩瞎催x最能反映您想法的數(shù)字,其中: 1=完全不同意,2=不太同意,3=不確定,4=基本同意,5=完全同意。
1考試應(yīng)該做到對(duì)所有考生都公平。1 2 3 4 52考試可以做到對(duì)所有考生都公平。1 2 3 4 53考試對(duì)考試分?jǐn)?shù)的使用上可以做到對(duì)每個(gè)考生都公平。1 2 3 4 5
續(xù) 表
需要特別指出的是,目前公平性檢驗(yàn)的的實(shí)踐性較差,國(guó)內(nèi)還沒(méi)有機(jī)構(gòu)或部門能夠出具完備的操作細(xì)則,而公眾對(duì)于公平性檢測(cè)也只是處在可感而不可知的狀態(tài)。因此,要推動(dòng)和推進(jìn)有關(guān)公平性檢測(cè)的理論研究和實(shí)踐應(yīng)用,應(yīng)當(dāng)將檢測(cè)的結(jié)果對(duì)社會(huì)公布,接受來(lái)自社會(huì)的監(jiān)督。畢竟測(cè)試的公平性檢測(cè)是為了保證測(cè)試的公平性,究竟公平與否還要接受社會(huì)監(jiān)督,而公布檢測(cè)結(jié)果的部門應(yīng)當(dāng)收集社會(huì)反饋并用于指導(dǎo)和完善之后的公平性檢驗(yàn)工作,使公平性檢驗(yàn)成為一個(gè)持續(xù)化和常態(tài)化的工作,使社會(huì)約束力能夠有效促進(jìn)機(jī)構(gòu)對(duì)公平性檢驗(yàn)的責(zé)任心,這一點(diǎn)對(duì)于大規(guī)模和高風(fēng)險(xiǎn)類語(yǔ)言測(cè)試尤其必要。國(guó)家和各級(jí)考試主管部門應(yīng)當(dāng)建立完善的公平性檢測(cè)報(bào)告機(jī)制,或引入第三方評(píng)估和監(jiān)察,這不僅是提高測(cè)試質(zhì)量的必要舉措,亦是保障社會(huì)公正的重要措施(王后雄、詹先君,2011;范勁松,2014;楊惠中,2015;鄭宇靜、辜向東,2015;李清華,2016)。
當(dāng)前語(yǔ)言測(cè)試公平性研究在定義界定、研究視角和實(shí)踐檢驗(yàn)等重要方面都還存在巨大分歧,目前的公平性研究沒(méi)有從根本上解決以下問(wèn)題: 應(yīng)該采用什么樣的證據(jù)對(duì)公平性進(jìn)行驗(yàn)證?如何認(rèn)定公平性的確認(rèn)標(biāo)準(zhǔn)?到哪個(gè)階段或者程度可以結(jié)束驗(yàn)證?統(tǒng)一的公平觀還沒(méi)有出現(xiàn),驗(yàn)證公平性的框架尚不清晰,適用于不同測(cè)試文化環(huán)境的公平性評(píng)價(jià)標(biāo)準(zhǔn)尚未形成,這都使公平性理念在付諸實(shí)踐時(shí)困難重重。雖然公平性研究中很多問(wèn)題尚無(wú)明確答案,現(xiàn)有的理論框架或模式也尚未能全面解決公平性檢驗(yàn)的問(wèn)題,但是語(yǔ)言測(cè)試從開(kāi)發(fā)、施測(cè)、評(píng)分到根據(jù)測(cè)試結(jié)果做出決策是一個(gè)漫長(zhǎng)的過(guò)程,其中環(huán)節(jié)都涉及公平性問(wèn)題,如果一項(xiàng)測(cè)試存在公平性問(wèn)題,無(wú)論是在內(nèi)容上還是形式上,無(wú)論是在測(cè)試前還是測(cè)試中,那么分?jǐn)?shù)的解釋、使用及其后果都將有可能是不合理的。因此,公平性的重要性應(yīng)放在第一位,開(kāi)發(fā)者和使用者對(duì)測(cè)試的公平性負(fù)有絕對(duì)的和有限的責(zé)任,但是開(kāi)發(fā)者和使用者的責(zé)任因其職責(zé)不同而應(yīng)當(dāng)區(qū)分開(kāi)來(lái)(楊惠中、桂詩(shī)春,2007)。
語(yǔ)言測(cè)試公平性檢測(cè)不僅僅指從測(cè)量技術(shù)角度進(jìn)行的檢測(cè),也應(yīng)當(dāng)包括從社會(huì)價(jià)值角度進(jìn)行的人工判斷,針對(duì)效度、偏差和敏感度的檢驗(yàn)?zāi)軌蛴行Т_保測(cè)試的公平性。雖然現(xiàn)階段學(xué)者們對(duì)于語(yǔ)言測(cè)試公平性檢驗(yàn)所做出的探索研究尚待成熟,隨著語(yǔ)言測(cè)試?yán)碚摰牟粩喟l(fā)展和測(cè)試檢測(cè)技術(shù)的不斷提高,語(yǔ)言測(cè)試公平性檢驗(yàn)必將更加科學(xué)和完善。將主觀和客觀相結(jié)合、定性和定量方法相結(jié)合,方能使公平審查更有效。
目前我國(guó)在測(cè)試公平性等測(cè)評(píng)領(lǐng)域的研究與英美國(guó)家相比還有很大差距,眾多現(xiàn)有研究較多局限于引進(jìn)和闡釋西方的理論,尚缺乏有組織、跨學(xué)科、持續(xù)性的科研,因此我們的研究既要充分借鑒和利用國(guó)際上已有的成果,也不應(yīng)該忽略對(duì)中國(guó)文化情境下測(cè)評(píng)理論體系的建構(gòu)。以公平性研究為例,只有立足于本國(guó)研究并對(duì)接國(guó)際前沿,方可在不斷摸索中摸索出適合于我國(guó)情境的公平性測(cè)評(píng)體系。