語(yǔ)言測(cè)試公平性檢驗(yàn)框架及其應(yīng)用*

2019-03-11 07:39華中師范大學(xué)外語(yǔ)學(xué)院童揚(yáng)芬陳佑林

外語(yǔ)教學(xué)理論與實(shí)踐 2019年1期

華中師范大學(xué)外語(yǔ)學(xué)院童揚(yáng)芬陳佑林

提要：語(yǔ)言測(cè)試既是一門社會(huì)科學(xué)，又是一門實(shí)踐活動(dòng)，其公平性檢驗(yàn)貫穿于測(cè)試的整個(gè)流程之中。在我國(guó)現(xiàn)實(shí)測(cè)試環(huán)境下，語(yǔ)言測(cè)試公平性的檢測(cè)框架應(yīng)當(dāng)涵蓋對(duì)測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者責(zé)權(quán)利的界定，在應(yīng)用實(shí)踐中需要同時(shí)考慮技術(shù)公平性需求和社會(huì)公平性需求，針對(duì)效度、偏差和敏感度三個(gè)主要方面進(jìn)行測(cè)量技術(shù)檢驗(yàn)和人工價(jià)值判斷，將檢驗(yàn)的結(jié)果對(duì)社會(huì)公布并接受監(jiān)督。建立完善的公平性檢測(cè)報(bào)告制度不僅是提高測(cè)試質(zhì)量的必要舉措，亦是保障社會(huì)公正的重要措施。

一、引言

測(cè)試作為一種實(shí)踐活動(dòng)，“是實(shí)現(xiàn)人的社會(huì)化和人的社會(huì)價(jià)值的重要手段，也是人類社會(huì)演進(jìn)發(fā)展不可或缺的機(jī)制”(廖平勝,2003： 1)。追求公平是各種測(cè)試的重要目標(biāo)之一，人們通過(guò)實(shí)施科學(xué)、公正、嚴(yán)格的測(cè)試以實(shí)現(xiàn)這一重要目標(biāo)。隨著人們對(duì)測(cè)試評(píng)估標(biāo)準(zhǔn)認(rèn)識(shí)的擴(kuò)展，測(cè)試公平性的研究受到越來(lái)越多的關(guān)注和重視。作為教育測(cè)試中的一員，語(yǔ)言測(cè)試是用來(lái)檢測(cè)語(yǔ)言學(xué)習(xí)者的語(yǔ)言水平、語(yǔ)言能力和學(xué)習(xí)效果的一種測(cè)量工具，由于語(yǔ)言既是測(cè)試的內(nèi)容，同時(shí)亦是測(cè)試的媒介，其測(cè)試公平所涉及的因素較之其它測(cè)試更為復(fù)雜，可以說(shuō)語(yǔ)言測(cè)試既是一門社會(huì)科學(xué)，又是一門實(shí)踐活動(dòng)。

國(guó)外對(duì)于測(cè)試公平性的系統(tǒng)研究起步較早，教育評(píng)估領(lǐng)域早在上世紀(jì)60年代已經(jīng)出現(xiàn)對(duì)公平性的關(guān)注(Angoff, 1993)，語(yǔ)言測(cè)試界對(duì)于公平性的討論始于上世紀(jì)90年代(Kunnan, 2000)。測(cè)試學(xué)界的權(quán)威專家Bachman很早就在其著作中指出，公平性將是未來(lái)語(yǔ)言測(cè)試的研究重點(diǎn)，“會(huì)成為以后二十年語(yǔ)言測(cè)試的主導(dǎo)方向”。(Bachman, 1990： 357)國(guó)際語(yǔ)言測(cè)試協(xié)會(huì)(LTRC) 1997年年會(huì)因以此為主題而被普遍認(rèn)為是語(yǔ)言測(cè)試公平性研究的標(biāo)志，其2005年年會(huì)再次焦距語(yǔ)言測(cè)試公平性研究。語(yǔ)言測(cè)試學(xué)科發(fā)展到今天，該領(lǐng)域有影響力的相關(guān)理論和代表之作均出自歐美的語(yǔ)言測(cè)試學(xué)專家，國(guó)外的相關(guān)研究從時(shí)間上和深度上均領(lǐng)先于國(guó)內(nèi)的相關(guān)研究。

在我國(guó)，把考試作為一門學(xué)科來(lái)進(jìn)行研究始于上世紀(jì)80年代，對(duì)于測(cè)試公平性的研究大致從上世紀(jì)90年代后期開(kāi)始，語(yǔ)言測(cè)試領(lǐng)域關(guān)注公平性大致也是始于彼時(shí)。然而在倡導(dǎo)語(yǔ)言測(cè)試公平性的背景下, 我國(guó)對(duì)語(yǔ)言測(cè)試公平性問(wèn)題的研究還遠(yuǎn)未充分展開(kāi)。對(duì)過(guò)去18年間語(yǔ)言測(cè)試方向的CSSCI論文進(jìn)行了計(jì)量學(xué)的統(tǒng)計(jì)和分析，結(jié)果顯示，我國(guó)外語(yǔ)測(cè)試界對(duì)公平問(wèn)題進(jìn)行的研究非常少，語(yǔ)言測(cè)試的社會(huì)性和倫理問(wèn)題方面的研究等在國(guó)內(nèi)幾乎是空白或者處于起步階段(謝賽、陳賀文, 2016： 143)。2015年11月我國(guó)首次語(yǔ)言測(cè)試與評(píng)價(jià)國(guó)際研討會(huì)的核心議題之一是加快外語(yǔ)考試質(zhì)量標(biāo)準(zhǔn)的相關(guān)研究，在會(huì)議提交的二百多篇論文中，僅有三篇論文涉及語(yǔ)言測(cè)試公平性討論。目前，教育界均認(rèn)可公平性檢驗(yàn)的重要性和必要性，但是在很多方面仍難達(dá)成共識(shí)，例如：公平性檢測(cè)的有效實(shí)踐性和公眾感知度如何得到體現(xiàn)？其核心體現(xiàn)的問(wèn)題仍在于公平性究竟可不可以被檢驗(yàn)？應(yīng)該如何檢驗(yàn)？本文將在現(xiàn)有研究成果的基礎(chǔ)上，對(duì)公平性研究中的核心問(wèn)題進(jìn)行討論，并嘗試提出中國(guó)測(cè)試環(huán)境下語(yǔ)言測(cè)試公平性的檢驗(yàn)框架。

二、語(yǔ)言測(cè)試公平性論爭(zhēng)

1. 公平性與倫理

公平性通常被認(rèn)為等同于倫理。著名學(xué)者Davies最早首次提出語(yǔ)言測(cè)試應(yīng)當(dāng)考慮倫理因素(Davies, 1977)，Stevenson(1981)則號(hào)召語(yǔ)言測(cè)試應(yīng)盡早開(kāi)發(fā)全球廣為接受的心理與教育測(cè)量標(biāo)準(zhǔn)，Canale(1988)認(rèn)為語(yǔ)言測(cè)試工作者應(yīng)該對(duì)測(cè)試信息的倫理負(fù)責(zé)，Bachman(2000： 23)也曾指出：“語(yǔ)言測(cè)試不能單純追求構(gòu)念而忽略倫理，語(yǔ)言測(cè)試研究既應(yīng)包括對(duì)信度和效度的考驗(yàn)，也要充分考慮后效和倫理問(wèn)題”。然而這兩者雖緊密關(guān)聯(lián)，卻并非一回事。

在語(yǔ)言測(cè)試領(lǐng)域，倫理問(wèn)題應(yīng)該針對(duì)的是測(cè)試者，即所有參與測(cè)試活動(dòng)并使測(cè)試得以實(shí)現(xiàn)的人(Shohamy, 2001： 145)——測(cè)試的開(kāi)發(fā)者、使用者、實(shí)施者、評(píng)分者、分?jǐn)?shù)的報(bào)道和解釋者等利益相關(guān)者，他們實(shí)施測(cè)試行為要遵守道德準(zhǔn)則和行為規(guī)范，這里強(qiáng)調(diào)的是特定行業(yè)的責(zé)任和標(biāo)準(zhǔn)，Davies(1997)將其分為公共道德、專業(yè)道德和個(gè)體道德；公平性則應(yīng)當(dāng)針對(duì)測(cè)試本身，即測(cè)試的開(kāi)發(fā)、使用、實(shí)施、評(píng)分、分?jǐn)?shù)的報(bào)道和解釋等等在整個(gè)測(cè)試過(guò)程中對(duì)所有應(yīng)試群體和個(gè)體的公平和公正，使他們具有相同的應(yīng)試條件和相等的答題機(jī)率。

語(yǔ)言測(cè)試的開(kāi)發(fā)、使用、實(shí)施、評(píng)分、分?jǐn)?shù)的報(bào)道和解釋等都會(huì)對(duì)利益相關(guān)者產(chǎn)生影響，但是測(cè)試者應(yīng)當(dāng)承擔(dān)什么責(zé)任、要承擔(dān)多大的責(zé)任？Davies(1997)認(rèn)為測(cè)試者不應(yīng)該也不可能承擔(dān)所有的社會(huì)后果，其責(zé)任只能局限于合理的范圍之內(nèi)，測(cè)試者只能負(fù)責(zé)有限的后果；Hamp-Lyons(2000)則認(rèn)為語(yǔ)言測(cè)試者必須為所有能意識(shí)到的預(yù)期或非預(yù)期的測(cè)試后果承擔(dān)責(zé)任；Bachman和Palmer(2010)提出在“語(yǔ)言測(cè)評(píng)使用論證”(Assessment Use Argument, AUA) 框架下測(cè)試開(kāi)發(fā)者和使用者在測(cè)試不同階段各自承擔(dān)不同的責(zé)任，前者對(duì)命題設(shè)計(jì)和試測(cè)負(fù)責(zé)，后者對(duì)測(cè)試結(jié)果的解釋和使用負(fù)責(zé)。對(duì)于這一問(wèn)題目前學(xué)界還沒(méi)有達(dá)成共識(shí)，然而對(duì)于測(cè)試者各方倫理責(zé)任的認(rèn)定始終是公平性討論中非常重要的一個(gè)環(huán)節(jié)，也是公平性研究框架下必須要正視的問(wèn)題。

2. 公平性與效度

有學(xué)者則認(rèn)為，測(cè)量的信度和測(cè)量的公平性驗(yàn)證都屬于效度，公平性的證據(jù)用于表明分?jǐn)?shù)在跨群體、跨組別、跨情境方面的可比性(Messick, 1988)。Shohamy(1997)認(rèn)為測(cè)試任務(wù)和對(duì)測(cè)試的使用是引發(fā)不公平的兩大主要方面，某些測(cè)試內(nèi)容和方法對(duì)于一些考生是不公平的，而代表不同測(cè)試?yán)娴姆謺r(shí)解釋也必然會(huì)導(dǎo)致政治的或者基于其他意圖的不公平。Kunnan(1997)則認(rèn)為對(duì)測(cè)試公平性的考察應(yīng)當(dāng)更為重要，測(cè)試的公平性要考查的不僅僅是將效度和信度進(jìn)行關(guān)聯(lián)；如果一項(xiàng)測(cè)試的公平性出現(xiàn)問(wèn)題，對(duì)效度和信度的考慮將變得毫無(wú)意義，他主張將效度驗(yàn)證與公平性聯(lián)系在一起，并提出了建構(gòu)效度(equal construct validity)——保證受試者語(yǔ)言測(cè)試成績(jī)不受受試者性別、種族、專業(yè)背景、母語(yǔ)、文化等影響。

雖然有關(guān)公平性的定義會(huì)由于對(duì)社會(huì)和政治等因素的關(guān)注程度不同而有所不同，但是公平性與效度的關(guān)系一直是探討公平性定義內(nèi)涵的主要內(nèi)容，當(dāng)前大多數(shù)公平性的研究都將兩者結(jié)合起來(lái)。Kunnan所提出公平性包括效度、可行性和公正(Kunnan, 2001)，他觀點(diǎn)鮮明地指出公平性不僅應(yīng)包含效度驗(yàn)證，更應(yīng)當(dāng)貫穿于測(cè)試開(kāi)發(fā)的各個(gè)階段(Kunnan, 2010)；由于效度是一個(gè)程度性的問(wèn)題，因此很多研究者認(rèn)為公平性同樣是一個(gè)程度性的問(wèn)題(Cole & Zieky, 2001)；Kane(2010) 則認(rèn)為公平性和效度都有廣泛的外延，如果對(duì)效度的界定窄，那么效度包含于公平性的定義框架中；如果公平性的界定窄，那么公平性就是效度框架中的一部分。Xi(2010)總結(jié)并歸納了學(xué)界對(duì)公平性的描述，認(rèn)為公平性與效度存在三種維度的闡釋(如圖1)，即：公平性是獨(dú)立于效度之外的測(cè)試特征；公平性是涵蓋效度的測(cè)試特征；公平性是效度驗(yàn)證的一部分。

圖1. Xi總結(jié)的公平與效度的關(guān)系

雖然以上分類都各自有其代表觀點(diǎn)，但是公平性與效度的關(guān)系問(wèn)題時(shí)至今日依然是測(cè)試界探討和爭(zhēng)論的焦點(diǎn)之一。事實(shí)上，無(wú)論哪一種觀點(diǎn)都不容回避地說(shuō)明了公平性與效度直接或高度相關(guān)，但是其關(guān)聯(lián)程度可能由于不同的社會(huì)、政治、文化和經(jīng)濟(jì)因素有所不同，這種不同反映出測(cè)試在不同文化背景下的社會(huì)性；效度從技術(shù)層面反映測(cè)試社會(huì)性的要求，公平性則更多在社會(huì)價(jià)值層面關(guān)注測(cè)試的效果，一項(xiàng)成功的測(cè)試?yán)響?yīng)包括對(duì)兩者的共同要求。公平性和效度在某些方面是有共性的，它們存在共同關(guān)注的部分，而交疊的部分體現(xiàn)的正是測(cè)試中的社會(huì)性，我們嘗試用下圖更為直觀地展示三者的關(guān)聯(lián)：

圖2. 測(cè)試的公平性、效度、社會(huì)性的關(guān)系

3. 公平性與公正性

語(yǔ)言測(cè)試之所以要求公平和公正，主要基于兩個(gè)方面的原因：一是內(nèi)在要求，即測(cè)試自身需要，語(yǔ)言測(cè)試需要測(cè)試應(yīng)試者的語(yǔ)言能力，因此希望測(cè)試本身具有高效度，能夠盡可能排除非語(yǔ)言水平因素，測(cè)試出應(yīng)試者對(duì)語(yǔ)言知識(shí)的掌握情況和語(yǔ)言能力的運(yùn)用水平，這實(shí)際上是從心理測(cè)量學(xué)的角度強(qiáng)調(diào)測(cè)試的平等和測(cè)量的無(wú)偏差；二是外在要求，從社會(huì)維度進(jìn)行的分析，要求測(cè)試對(duì)分?jǐn)?shù)的解釋和使用是合理的和公正的，測(cè)試的社會(huì)后果決定了測(cè)試分?jǐn)?shù)的解釋和使用情況，如果測(cè)試的社會(huì)權(quán)重越大，公平性要求就會(huì)越高。

Kunnan(2001)很早就提出公平性應(yīng)包括效度、可行性和公正，這里的公正實(shí)際上指的就是語(yǔ)言測(cè)試的社會(huì)影響。Kane(2010)借用法律中公平的分類程序來(lái)歸納測(cè)試公平的定義，他認(rèn)為公平應(yīng)基于程序性的公平和實(shí)質(zhì)性的公平，這一界定充分肯定了語(yǔ)言測(cè)試中應(yīng)當(dāng)體現(xiàn)的社會(huì)公平。McNamara&Ryan進(jìn)一步區(qū)分了測(cè)試的公平性和公正性，他們指出：“公平性是技術(shù)質(zhì)量，即基于心理測(cè)量技術(shù)的質(zhì)量要求，要保證受試個(gè)體和群體的測(cè)試程序相同，要保證測(cè)試構(gòu)念在材料中得到充分體現(xiàn)，而公正性則是指測(cè)試構(gòu)念中的價(jià)值觀意義對(duì)社會(huì)意識(shí)形態(tài)方面的影響”(McNamara&Ryan, 2011： 163)。這一論述很好地區(qū)分了公平性和公正性在語(yǔ)言測(cè)試中各自的側(cè)重點(diǎn)，有助于界定長(zhǎng)久以來(lái)語(yǔ)言測(cè)試公平性在實(shí)際應(yīng)用中應(yīng)當(dāng)如何界定的困繞，對(duì)于進(jìn)一步探討公平性檢驗(yàn)具有重要意義。

雖然學(xué)者們?cè)诮缍ü叫愿拍顣r(shí)的所知范圍不同，但一種較為一致的觀點(diǎn)基本認(rèn)同，公平性應(yīng)包括測(cè)試本身的公平和測(cè)試使用的公正，前者主要針對(duì)測(cè)試的技術(shù)質(zhì)量，在效度范疇下討論測(cè)試的公平性，在此方面，Messick(1989)的效度理論經(jīng)過(guò)幾十年的發(fā)展已經(jīng)成熟并被廣泛運(yùn)用于對(duì)公平性的討論(如： Shohamy,1997; Willingham&Cole, 1999; Weir, 2005; Bachman&Palmer, 2010; Xi, 2010; Walter, 2012)；后者主要指基于結(jié)果使用的社會(huì)公平,指對(duì)測(cè)試的解釋和使用的價(jià)值觀意義對(duì)社會(huì)意識(shí)形態(tài)方面的影響,然而這一問(wèn)題在語(yǔ)言測(cè)試學(xué)界并沒(méi)有得到和前者同等的重視，近二十年來(lái)對(duì)于測(cè)試使用的社會(huì)公正問(wèn)題才逐漸引起學(xué)界的關(guān)注，目前這方面的研究尚處于初期(Karami, 2013)。

三、語(yǔ)言測(cè)試公平性檢驗(yàn)

1. 語(yǔ)言測(cè)試公平性的理論研究

語(yǔ)言測(cè)試公平性研究在經(jīng)過(guò)近二十年的發(fā)展，成果顯著且日趨完善。學(xué)者們從不同的側(cè)重點(diǎn)對(duì)公平性進(jìn)行了界定，并提出了各自的研究思路或者理論框架。有學(xué)者認(rèn)為公平性框架的核心是“可比性”(comparability)，既考生個(gè)體與個(gè)體之間以及群體和群體之間具有可比較的公平性，這一公平性體現(xiàn)在測(cè)試開(kāi)發(fā)、實(shí)施、分?jǐn)?shù)的評(píng)定和解釋的所有測(cè)試過(guò)程中(Willingham & Cole, 1997： 11)。Kunnan在語(yǔ)言測(cè)試公平性研究方面進(jìn)行了持久的探索且成果豐碩，他最早提出語(yǔ)言測(cè)試的公平性應(yīng)包括效度(validity)、可行性(access)和公正(justice)，效度關(guān)注對(duì)不同考生群體分?jǐn)?shù)解釋的公平性，可行性關(guān)注在考試費(fèi)用、考點(diǎn)設(shè)置、所考內(nèi)容、考試形式等方面是否對(duì)考生公平，公正關(guān)注考試結(jié)果的使用能否維護(hù)社會(huì)公正(Kunnan,2000： 3)。Kunnan的框架歷經(jīng)修改，他的公平性研究模型最終調(diào)整為：對(duì)全體考生的公平(equitable treatment of examinees)、無(wú)偏差(freedom from bias)、對(duì)測(cè)試結(jié)果使用的公平(equality of testing outcomes)以及對(duì)測(cè)試內(nèi)容學(xué)習(xí)的公平(equality of opportunity to learn the testing content)(Kunnan, 2008： 24-34)。Kunnan的框架拓展了學(xué)界對(duì)測(cè)試公平性的理解，建立了公平性研究的理論框架，然而B(niǎo)achman(2005)指出，雖然框架中的要素都非常重要，卻沒(méi)有一個(gè)系統(tǒng)機(jī)制將這些要素連貫起來(lái)為公平性提供論據(jù)，Xi(2010)則認(rèn)為他的模型對(duì)于測(cè)試公平性研究具有理論意義，但缺乏對(duì)實(shí)際操作層面的指導(dǎo)，因?yàn)樗鼪](méi)有提供具體的指導(dǎo)或者綱要對(duì)測(cè)試的公平性進(jìn)行操作和評(píng)估。

一些知名測(cè)試機(jī)構(gòu)在出臺(tái)測(cè)試領(lǐng)域指導(dǎo)文件時(shí)均對(duì)公平性進(jìn)行描述，被視為考試領(lǐng)域的權(quán)威文件《教育與心理測(cè)量標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing) 1985版把公平性定義為測(cè)試質(zhì)量的一種純技術(shù)性指標(biāo)，即測(cè)試對(duì)于不同的群體不存在偏差；1999 版的《標(biāo)準(zhǔn)》認(rèn)為公平性是測(cè)試存在和使用的基礎(chǔ)，測(cè)試公平與否將關(guān)系到社會(huì)公正，強(qiáng)調(diào)測(cè)試的公平性應(yīng)貫穿和超越整個(gè)測(cè)試過(guò)程，同時(shí)該版《標(biāo)準(zhǔn)》承認(rèn)公平性沒(méi)有唯一的技術(shù)標(biāo)準(zhǔn)；2014版則進(jìn)一步指出公平性是效度的基礎(chǔ)，保障測(cè)試公平性是所有相關(guān)方的共同責(zé)任，其核心是避免和減少構(gòu)念無(wú)關(guān)因素(construct-irrelevant variance)對(duì)受試的影響(AERA,APA,NCME, 1985/1999/2014)?！督逃郎y(cè)試實(shí)踐公平性準(zhǔn)則》(Joint Committee on Testing Practices)明確指出，測(cè)試的公平性是指測(cè)試在多大程度上同等地對(duì)待每位考生，并為每位考生發(fā)揮其與測(cè)試相關(guān)的知識(shí)和技能提供平等的機(jī)會(huì)；無(wú)論考生的年齡、性別、種族、國(guó)籍、語(yǔ)言背景及其個(gè)人特征，測(cè)試應(yīng)該對(duì)所有的考生公平(JCTP, 2004： 2)。《ETS質(zhì)量和公平標(biāo)準(zhǔn)》(ETS Standards of Quality and Fairness)在定義測(cè)試公平時(shí)強(qiáng)調(diào)構(gòu)念不相關(guān)考生特征對(duì)測(cè)試結(jié)果和分?jǐn)?shù)使用應(yīng)無(wú)顯著影響，并且列舉了測(cè)試中潛在的不公平因素和保障公平的相關(guān)措施(ETS, 2014： 20)。

如何使用公平性理論有效地指導(dǎo)測(cè)試開(kāi)發(fā)的實(shí)踐活動(dòng)呢？這是所有測(cè)試研究者、開(kāi)發(fā)者和使用者最關(guān)心和亟待解決的問(wèn)題。Xi(2010)總結(jié)和歸納了當(dāng)前公平性與效度的三種關(guān)系，并提出將公平性置于測(cè)試效度檢驗(yàn)的范疇更有利于公平性在實(shí)踐中的運(yùn)用。她以TOEFL iBT測(cè)試為實(shí)證案例，結(jié)合ETS在開(kāi)發(fā)大規(guī)模標(biāo)準(zhǔn)化測(cè)試方面的經(jīng)驗(yàn)，嘗試性地提出在測(cè)試開(kāi)發(fā)和使用過(guò)程中公平性框架應(yīng)用的六個(gè)步驟，并在此檢驗(yàn)基礎(chǔ)上得出對(duì)TOEFL iBT測(cè)試進(jìn)行公平性驗(yàn)證的結(jié)論，即：該測(cè)試能夠有效檢驗(yàn)本科生的語(yǔ)言水平，但是對(duì)研究生并不合適；某些領(lǐng)域的專門知識(shí)可能會(huì)影響考生的應(yīng)試表現(xiàn)，測(cè)試對(duì)不同的應(yīng)試群體存在不公平。她的討論遭到Alan Davies的批評(píng)，他認(rèn)為Xi的公平性驗(yàn)證實(shí)際上是效度驗(yàn)證，兩者只是在措詞上不同；他觀點(diǎn)鮮明地指出對(duì)于語(yǔ)言測(cè)試公平性的討論是不現(xiàn)實(shí)和不必要的(Davies 2010)。

隨著測(cè)試公平性研究不斷的發(fā)展和深入，Walter(2012)提出了“形式模型”(formalistic model)，并將公平性檢驗(yàn)劃分為微觀分析(micro-analyses)和宏觀分析(macro-analyses)，前者指有關(guān)公平性的技術(shù)檢測(cè)，后者指公平性的社會(huì)價(jià)值判斷，這一觀點(diǎn)在實(shí)際上呼應(yīng)了McNamara& Ryan(2011)所提出的有關(guān)公平性和公正性區(qū)別的觀點(diǎn)。他們的研究都肯定了公平性檢驗(yàn)?zāi)Ｐ蛻?yīng)當(dāng)結(jié)合量化和質(zhì)化的方法，指明了公平性判斷中兩個(gè)最重要的范疇，具有實(shí)踐意義，但是隨著而來(lái)的問(wèn)題在于：公平性作為一個(gè)有很強(qiáng)主觀意識(shí)判定的概念，如何清晰地界定微觀公平和宏觀公平?在公平性檢驗(yàn)的內(nèi)容中哪些屬于微觀層面，哪些屬于宏觀層面？

2. 語(yǔ)言測(cè)試公平性的應(yīng)用檢驗(yàn)

基于上述討論，我們把公平界定為：在測(cè)試流程中確保受試群體和個(gè)體同等測(cè)試機(jī)會(huì)的構(gòu)念不相關(guān)因素，它既包括測(cè)量技術(shù)檢驗(yàn)的公平性，也包括社會(huì)價(jià)值判斷的公平性?！肮叫詸z驗(yàn)雖然是一項(xiàng)非常重要的工作，執(zhí)行起來(lái)卻是困難重重”(Ravitch, 2004： 3)，國(guó)內(nèi)外眾多機(jī)構(gòu)和學(xué)者對(duì)語(yǔ)言測(cè)試公平性進(jìn)行了諸多有益的探索，如前文所提到的歐美測(cè)試機(jī)構(gòu)在倫理規(guī)范和行為準(zhǔn)則制定方面已經(jīng)卓有成就，而在公平性踐行方面也已經(jīng)形成較為完備的體系，例如：著名的TOEFL考試在試題開(kāi)發(fā)過(guò)程中就有專家審題程序，試題通過(guò)統(tǒng)計(jì)手段檢驗(yàn)之后，還要經(jīng)過(guò)測(cè)試專家對(duì)諸如性別、種族等敏感問(wèn)題進(jìn)行的審查，而英國(guó)的培生集團(tuán)在命題過(guò)程中有項(xiàng)目敏感度復(fù)查環(huán)節(jié)，以確保技術(shù)手段下沒(méi)有檢出的問(wèn)題在人工價(jià)值判斷階段被檢出。這些方法主觀和客觀方法相結(jié)合、定性和定量方法相結(jié)合，能夠使公平審查更有效。

我國(guó)作為考試的大國(guó)，語(yǔ)言測(cè)試種類繁多、功能各異，然而尚未見(jiàn)關(guān)于測(cè)試公平性的倫理準(zhǔn)則和操作規(guī)范，近年以來(lái)國(guó)內(nèi)的有識(shí)之士已經(jīng)開(kāi)始對(duì)此進(jìn)行探索性研究。范勁松提出的中國(guó)測(cè)試環(huán)境下語(yǔ)言測(cè)試公平性研究的基本框架，清晰地界定了測(cè)試中的相關(guān)利益群體在維護(hù)測(cè)試公平性中的責(zé)任，該模型充分展示了測(cè)試的整個(gè)過(guò)程中三個(gè)利益群體對(duì)于保障和提高公平性的重要作用，即：開(kāi)發(fā)機(jī)構(gòu)在確保測(cè)試公平性中發(fā)揮著最重要的作用，而所有利益相關(guān)群體責(zé)任的界定有助于提高公平性意識(shí)(范勁松, 2014： 7)。范的理論模型充分考慮了中國(guó)測(cè)試環(huán)境下利益相關(guān)群體的責(zé)任以及他們的公平性意識(shí)對(duì)于整個(gè)測(cè)試公平性的影響，其重要性在于這是國(guó)內(nèi)首次有學(xué)者專門針對(duì)語(yǔ)言測(cè)試的標(biāo)準(zhǔn)制定進(jìn)行的探索性研究，然而這一模型仍然沒(méi)有詳細(xì)指明其核心“測(cè)試公平性”的具體內(nèi)涵和驗(yàn)證手段，如：測(cè)試公平性應(yīng)包括哪些內(nèi)容？應(yīng)采用什么方式或者手段驗(yàn)證測(cè)試的公平性？李清華(2016)總結(jié)了前人關(guān)于公平的界定，進(jìn)一步區(qū)分了公平性與效度、公平性與公正性的關(guān)系，借用AUA框架(Bachman & Palmer, 2010) 提出了一個(gè)語(yǔ)言測(cè)試公平性檢驗(yàn)框架，將測(cè)試公平性的檢驗(yàn)分為測(cè)量公平性的檢測(cè)和社會(huì)公平性的檢驗(yàn)，并清晰界定了開(kāi)發(fā)者和使用者這兩大測(cè)試?yán)娓呦嚓P(guān)群體各自對(duì)于保障不同階段的公平性所應(yīng)該承擔(dān)的具體責(zé)任。這一框架充分考慮了長(zhǎng)久以來(lái)關(guān)于公平性究竟是技術(shù)檢測(cè)還是價(jià)值判斷的爭(zhēng)論，對(duì)測(cè)試整個(gè)流程中公平性檢測(cè)的實(shí)際操作具有很強(qiáng)的指導(dǎo)意義，模型對(duì)于測(cè)試中最重要的利益相關(guān)群體——開(kāi)發(fā)者和使用者各自對(duì)公平性的責(zé)任和影響都進(jìn)行了詳細(xì)描述，然而遺憾的是該模型沒(méi)有體現(xiàn)出“應(yīng)試者”這一關(guān)鍵群體在整個(gè)公平性檢測(cè)中應(yīng)有位置和作用。在測(cè)試的整個(gè)流程中，測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者的權(quán)力關(guān)系是不對(duì)等的，前兩者直接決定和影響著對(duì)應(yīng)試者的公平，因而測(cè)試的公平性框架中應(yīng)當(dāng)必須要考慮和體現(xiàn)所有利害高相關(guān)者的立場(chǎng)和關(guān)系(Lynch, 2001)。

事實(shí)上，長(zhǎng)久以來(lái)語(yǔ)言測(cè)試領(lǐng)域就一直有兩種聲音(Filer, 2000： 2)：技術(shù)聲音(technical discourse)和社會(huì)聲音(sociological discourse)，前者關(guān)注測(cè)試本身的質(zhì)量，后者關(guān)注測(cè)試在社會(huì)中的使用及產(chǎn)生的影響。在我國(guó)語(yǔ)言測(cè)試具有高利害相關(guān)因素的環(huán)境下，測(cè)試的結(jié)果往往直接關(guān)系到應(yīng)試者的一些重大切身利益，因此無(wú)論是測(cè)試本身的質(zhì)量，還是測(cè)試的社會(huì)影響，都應(yīng)當(dāng)納入對(duì)其公平性進(jìn)行考量的范圍。綜合前人對(duì)語(yǔ)言測(cè)試公平性的研究成果，吸收和借鑒了范和李兩位學(xué)者對(duì)中國(guó)測(cè)試環(huán)境下公平性的研究框架，我們認(rèn)為語(yǔ)言測(cè)試公平性的檢測(cè)框架應(yīng)當(dāng)涵蓋對(duì)測(cè)試開(kāi)發(fā)者、使用者和應(yīng)試者責(zé)權(quán)利的界定，在應(yīng)用實(shí)踐中需要同時(shí)考慮技術(shù)公平性需求和社會(huì)公平性需求，對(duì)效度、偏差和敏感度三個(gè)主要方面進(jìn)行測(cè)量技術(shù)檢驗(yàn)和人工價(jià)值判斷。據(jù)此我們提出以下語(yǔ)言測(cè)試公平性檢測(cè)框架(如下圖)：

圖3. 語(yǔ)言測(cè)試公平性檢驗(yàn)框架

語(yǔ)言測(cè)試既是一門社會(huì)科學(xué)，同時(shí)亦是一門實(shí)踐性很強(qiáng)的實(shí)踐活動(dòng)，因此語(yǔ)言測(cè)試公平性研究應(yīng)當(dāng)既包括對(duì)理論原則的探討，也包括對(duì)實(shí)踐準(zhǔn)則的探討。測(cè)試公平性理論原則探討的重要內(nèi)容應(yīng)包括用于規(guī)范所有測(cè)試者倫理道德的職業(yè)規(guī)范，而實(shí)踐準(zhǔn)則是指用于指導(dǎo)具體測(cè)試行為的實(shí)施準(zhǔn)則。根據(jù)范和李所提出的模型，開(kāi)發(fā)機(jī)構(gòu)在確保測(cè)試公平性中發(fā)揮著最重要的作用，即開(kāi)發(fā)機(jī)構(gòu)對(duì)于測(cè)試的開(kāi)發(fā)和實(shí)施階段的公平性負(fù)有絕對(duì)的責(zé)任，但是測(cè)試的開(kāi)發(fā)者不可能決定對(duì)于測(cè)試的使用和后果的公平性，這些理應(yīng)由測(cè)試的使用者所負(fù)責(zé)。如果將整個(gè)測(cè)試過(guò)程按照測(cè)試前、測(cè)試中和測(cè)試后三個(gè)階段，將公平性的探求需貫穿于整個(gè)測(cè)試流程中，那么一項(xiàng)測(cè)試最初的命題研究是構(gòu)成整個(gè)測(cè)試公平、公正的起點(diǎn)和基礎(chǔ)。在命題階段，公平性的要求主要反映在測(cè)試的選材內(nèi)容和答題形式上，尤其是大規(guī)模、高風(fēng)險(xiǎn)的測(cè)試，應(yīng)當(dāng)對(duì)于所有考生而言具有同等的作答機(jī)會(huì)和答題條件；如果由于考生性別、經(jīng)歷、專業(yè)等原因造成難易度差別和答機(jī)率失衡等狀況，那么就會(huì)出現(xiàn)“不公平”。在命題階段的公平會(huì)對(duì)測(cè)試的解釋、決策和后果產(chǎn)生最重要的和最直接的預(yù)期影響，但是不能夠確保測(cè)試的最終使用在開(kāi)發(fā)者預(yù)期的公平范圍內(nèi)，這也正是上圖3中虛線所要表明的意思，即測(cè)試的開(kāi)發(fā)者所努力確保的公平并不能保證測(cè)試的最終公平，測(cè)試的開(kāi)發(fā)者不可能也不應(yīng)該對(duì)測(cè)試的誤用和濫用等超出其職責(zé)之外的后果負(fù)責(zé)(楊惠中、桂詩(shī)春,2007)。

學(xué)界有專家認(rèn)為公平性檢驗(yàn)的具體方法應(yīng)當(dāng)以專家審驗(yàn)為主，統(tǒng)計(jì)方法為輔，傳統(tǒng)的偏差偵測(cè)方法適用于測(cè)試的開(kāi)發(fā)、分?jǐn)?shù)評(píng)定和解釋，對(duì)于施測(cè)、決策及其后果的公平性檢驗(yàn)則以質(zhì)性研究方法為主(李清華，2016： 549)。然而，在實(shí)際操作過(guò)程中的人工判斷(如專家審查等)會(huì)受到判斷者的經(jīng)驗(yàn)、喜好、職業(yè)等諸多因素或多或少的影響，誠(chéng)如Berlack所指出的：“如果測(cè)試可以由專家的判斷來(lái)決定效度的技術(shù)檢測(cè)，那么為了保障測(cè)試的公平性所進(jìn)行的科學(xué)技術(shù)檢測(cè)都將是無(wú)意義的”(Berlack, 2000： 192)。公平性檢驗(yàn)的特殊之處在于它既涉及客觀方法，也涉及主觀方法，這兩種方法對(duì)于保障測(cè)試的公平性都是不可缺少的，在具體流程中，客觀性的測(cè)量技術(shù)檢驗(yàn)理應(yīng)先行，技術(shù)檢測(cè)和人工價(jià)值判斷亦可“同行”；如果在“同行”過(guò)程中發(fā)現(xiàn)爭(zhēng)議較為集中的問(wèn)題，再做進(jìn)一步審查和判斷。在具體實(shí)施步驟上，首先應(yīng)當(dāng)進(jìn)行的是效度驗(yàn)證，因?yàn)椤疤嵘Ф仁峭ㄏ蚬叫缘谋赜芍贰?Willingham, 1999： 221),測(cè)試首先要確保采用了恰當(dāng)?shù)姆绞娇剂恕耙肌钡膬?nèi)容，這是對(duì)“所有考生的公平”；隨后進(jìn)行偏差檢測(cè)以保證測(cè)試使用了公平的形式考了“應(yīng)考”的內(nèi)容，這是對(duì)“不同考生群體的公平”，減少或者控制偏差是保證效度和公平性的必要條件之一。同時(shí)，人工價(jià)值判斷亦可同時(shí)進(jìn)行偏差檢測(cè)，并進(jìn)一步進(jìn)行敏感度檢測(cè)，確保測(cè)試內(nèi)容和語(yǔ)言是合適的、對(duì)不同考生個(gè)體是公平和無(wú)歧視的。關(guān)于人工價(jià)值判斷的重要性，Gregory& Rutgers(2006： 232)曾明確指出：“如果能夠判斷出試題錯(cuò)測(cè)內(nèi)容的確是測(cè)試所需要的，那么即便該題被認(rèn)定為DIF較高，也應(yīng)該保留”，進(jìn)一步的公平性分析需要相關(guān)領(lǐng)域的專家結(jié)合經(jīng)驗(yàn)進(jìn)行判斷。

測(cè)試學(xué)專家Bachman認(rèn)為，語(yǔ)言測(cè)試不公平可能是因?yàn)檎Z(yǔ)言測(cè)試的開(kāi)發(fā)和使用者沒(méi)有考慮到受試者的文化背景、知識(shí)背景、認(rèn)知風(fēng)格、母語(yǔ)、種族、性別和年齡等方面的差異(Bachman, 1990： 113)，這些差異可能導(dǎo)致測(cè)試行為中存在的系統(tǒng)性差異與所要測(cè)量的能力無(wú)邏輯關(guān)系而與考生的其他特征有關(guān)，從而使考試對(duì)具有某個(gè)特征的考生群體有利，或?qū)哂心硞€(gè)特征的考生群體不利，最終導(dǎo)致語(yǔ)言測(cè)試的不公平。其后他在語(yǔ)言測(cè)評(píng)論證框架(Assessment Use Argument, AUA)(Bachman&Palmer, 2010)中主張，針對(duì)每一步合理使用的測(cè)試流程應(yīng)提出理?yè)?jù)，以保證測(cè)試的開(kāi)發(fā)和質(zhì)量檢驗(yàn)。根據(jù)Bachman對(duì)于影響公平性因素的表述和AUA框架的主張，我們嘗試將其中的相關(guān)因素細(xì)化并制成校對(duì)量表(如下表)，對(duì)測(cè)試的公平性進(jìn)行核對(duì)和檢查，畢竟對(duì)于一線的測(cè)試踐行者們而言，指導(dǎo)細(xì)則能夠?qū)⒊橄蟮墓骄唧w化，能夠降低公平性審查過(guò)程中的主觀性(Zieky, 2006)。

表1.語(yǔ)言測(cè)試公平性量表檢測(cè)細(xì)則

請(qǐng)?jiān)诹勘砩瞎催x最能反映您想法的數(shù)字，其中： 1=完全不同意，2=不太同意，3=不確定，4=基本同意，5=完全同意。

1考試應(yīng)該做到對(duì)所有考生都公平。1 2 3 4 52考試可以做到對(duì)所有考生都公平。1 2 3 4 53考試對(duì)考試分?jǐn)?shù)的使用上可以做到對(duì)每個(gè)考生都公平。1 2 3 4 5

續(xù) 表

需要特別指出的是，目前公平性檢驗(yàn)的的實(shí)踐性較差，國(guó)內(nèi)還沒(méi)有機(jī)構(gòu)或部門能夠出具完備的操作細(xì)則，而公眾對(duì)于公平性檢測(cè)也只是處在可感而不可知的狀態(tài)。因此，要推動(dòng)和推進(jìn)有關(guān)公平性檢測(cè)的理論研究和實(shí)踐應(yīng)用，應(yīng)當(dāng)將檢測(cè)的結(jié)果對(duì)社會(huì)公布，接受來(lái)自社會(huì)的監(jiān)督。畢竟測(cè)試的公平性檢測(cè)是為了保證測(cè)試的公平性，究竟公平與否還要接受社會(huì)監(jiān)督，而公布檢測(cè)結(jié)果的部門應(yīng)當(dāng)收集社會(huì)反饋并用于指導(dǎo)和完善之后的公平性檢驗(yàn)工作，使公平性檢驗(yàn)成為一個(gè)持續(xù)化和常態(tài)化的工作，使社會(huì)約束力能夠有效促進(jìn)機(jī)構(gòu)對(duì)公平性檢驗(yàn)的責(zé)任心，這一點(diǎn)對(duì)于大規(guī)模和高風(fēng)險(xiǎn)類語(yǔ)言測(cè)試尤其必要。國(guó)家和各級(jí)考試主管部門應(yīng)當(dāng)建立完善的公平性檢測(cè)報(bào)告機(jī)制，或引入第三方評(píng)估和監(jiān)察，這不僅是提高測(cè)試質(zhì)量的必要舉措，亦是保障社會(huì)公正的重要措施(王后雄、詹先君,2011；范勁松,2014；楊惠中,2015；鄭宇靜、辜向東,2015；李清華,2016)。

四、結(jié)語(yǔ)

當(dāng)前語(yǔ)言測(cè)試公平性研究在定義界定、研究視角和實(shí)踐檢驗(yàn)等重要方面都還存在巨大分歧，目前的公平性研究沒(méi)有從根本上解決以下問(wèn)題：應(yīng)該采用什么樣的證據(jù)對(duì)公平性進(jìn)行驗(yàn)證？如何認(rèn)定公平性的確認(rèn)標(biāo)準(zhǔn)？到哪個(gè)階段或者程度可以結(jié)束驗(yàn)證？統(tǒng)一的公平觀還沒(méi)有出現(xiàn)，驗(yàn)證公平性的框架尚不清晰，適用于不同測(cè)試文化環(huán)境的公平性評(píng)價(jià)標(biāo)準(zhǔn)尚未形成，這都使公平性理念在付諸實(shí)踐時(shí)困難重重。雖然公平性研究中很多問(wèn)題尚無(wú)明確答案，現(xiàn)有的理論框架或模式也尚未能全面解決公平性檢驗(yàn)的問(wèn)題，但是語(yǔ)言測(cè)試從開(kāi)發(fā)、施測(cè)、評(píng)分到根據(jù)測(cè)試結(jié)果做出決策是一個(gè)漫長(zhǎng)的過(guò)程，其中環(huán)節(jié)都涉及公平性問(wèn)題，如果一項(xiàng)測(cè)試存在公平性問(wèn)題，無(wú)論是在內(nèi)容上還是形式上，無(wú)論是在測(cè)試前還是測(cè)試中，那么分?jǐn)?shù)的解釋、使用及其后果都將有可能是不合理的。因此，公平性的重要性應(yīng)放在第一位，開(kāi)發(fā)者和使用者對(duì)測(cè)試的公平性負(fù)有絕對(duì)的和有限的責(zé)任，但是開(kāi)發(fā)者和使用者的責(zé)任因其職責(zé)不同而應(yīng)當(dāng)區(qū)分開(kāi)來(lái)(楊惠中、桂詩(shī)春，2007)。

語(yǔ)言測(cè)試公平性檢測(cè)不僅僅指從測(cè)量技術(shù)角度進(jìn)行的檢測(cè)，也應(yīng)當(dāng)包括從社會(huì)價(jià)值角度進(jìn)行的人工判斷，針對(duì)效度、偏差和敏感度的檢驗(yàn)?zāi)軌蛴行Т_保測(cè)試的公平性。雖然現(xiàn)階段學(xué)者們對(duì)于語(yǔ)言測(cè)試公平性檢驗(yàn)所做出的探索研究尚待成熟，隨著語(yǔ)言測(cè)試?yán)碚摰牟粩喟l(fā)展和測(cè)試檢測(cè)技術(shù)的不斷提高，語(yǔ)言測(cè)試公平性檢驗(yàn)必將更加科學(xué)和完善。將主觀和客觀相結(jié)合、定性和定量方法相結(jié)合，方能使公平審查更有效。

目前我國(guó)在測(cè)試公平性等測(cè)評(píng)領(lǐng)域的研究與英美國(guó)家相比還有很大差距，眾多現(xiàn)有研究較多局限于引進(jìn)和闡釋西方的理論，尚缺乏有組織、跨學(xué)科、持續(xù)性的科研，因此我們的研究既要充分借鑒和利用國(guó)際上已有的成果，也不應(yīng)該忽略對(duì)中國(guó)文化情境下測(cè)評(píng)理論體系的建構(gòu)。以公平性研究為例，只有立足于本國(guó)研究并對(duì)接國(guó)際前沿，方可在不斷摸索中摸索出適合于我國(guó)情境的公平性測(cè)評(píng)體系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡