張 艷
近年來,語言測試和評估的研究重點從技術(shù)層面轉(zhuǎn)向了社會和政策層面,即語言測試的社會聲音或社會話語,語言測試界也通過召開研討會、發(fā)行??瘜Υ俗龀隽死碚摶貞?。①先前的語言測試研究關注測試效度和信度等技術(shù)層面的問題,而語言測試的社會性研究則更強調(diào)“測試的影響”,即從社會維度研究測試的使用、測試的作用和測試的公平性。②興起于20世紀70年代的語言測試道德研究就是這一新興領域的產(chǎn)物。語言測試道德包含一系列規(guī)范測試的標準,如測試公平性、測試結(jié)果的使用等。③2000~2009年,國際語言測試機構(gòu)出臺了五部語言測試準則,對語言測試的道德性進行了規(guī)范和定義。雖然道德考量已成為國際語言測試的主流趨勢,但我國語言測試實踐對于測試道德的回應明顯不足。本文在系統(tǒng)梳理語言測試道德的理論脈絡和研究進展的基礎上,從國際比較的視野,對國內(nèi)語言測試實踐進行道德反思。
測試道德研究的興起與測試界兩大理論密不可分。其一是Messick關于效度理論的拓展,其二是測試反撥效應(washback)理論研究向測試影響(impact)層面的轉(zhuǎn)變。1989年Messick擴展了效度理論,在分類效度觀和單一效度觀的基礎上提出了整體效度觀,強調(diào)構(gòu)念效度的地位,并指出除構(gòu)念效度這個核心觀念外,效度理念還應包含測試解釋和使用的科學基礎以及道德基礎。這一理念后被Messick用漸進矩陣模式展現(xiàn)出來(如表1所示)。漸進矩陣的橫軸包含測試的科學面(測試解釋與使用)和應用面(測試含義與價值),縱軸包含測試的證據(jù)基礎和后果基礎。構(gòu)念效度作為核心,出現(xiàn)在每個單元格中。由此可見,整體效度觀一方面強調(diào)了構(gòu)念效度的重要性,另一方面拓展了原有的效度理論,將與測試解釋和使用相關的社會后果和價值意義附加到測試的效度概念中,突出了測試價值的理念。漸進矩陣的出現(xiàn)使得測試研究從先前的心理測量工具上升為社會評估手段:測試的意義不僅在于分數(shù)本身,還應包含分數(shù)使用的社會意義即測試的社會性功能。其中,后果效度的提出更是實現(xiàn)了測試研究從技術(shù)層面向測試使用層面,即道德層面的轉(zhuǎn)換。④
測試解釋 測試使用證據(jù)基礎 構(gòu)念效度 構(gòu)念效度+相關性/效用后果基礎 構(gòu)念效度+價值意義 構(gòu)念效度+相關性/效用+價值意義+社會后果
除效度理論的拓展之外,反撥效應理論的發(fā)展也促進了測試的社會性功能的研究。早期的反撥效應研究主要圍繞Alderson和Wall的15條反撥效應構(gòu)想展開⑤,但這些構(gòu)想將反撥效應研究局限在教學范圍內(nèi),而忽略了反撥效應在社會層面的體現(xiàn)。2004年,Alderson將反撥效應拓展為測試影響(impact),將反撥效應對教學的影響擴充到對社會各方風險承擔者的影響。⑥測試反撥效應向測試影響的轉(zhuǎn)變,意味著語言測試界開始認識到測試具有社會和教育變革的杠桿功能,而非單一測量的工具,測試的社會功能得到重視。
整體效度觀和測試影響的概念引發(fā)了語言測試界對測試社會功能研究的興趣,隨后,測試道德研究應運而生。
測試道德研究始于測試道德的定義。語言測試界普遍采用了House的道德定義,即“道德是標志正確行為或?qū)嵺`的道德準則和標準,尤其指一個行業(yè)標準”⑦。該定義與Hamp-Lyons的觀點有相似之處,Hamp-Lyons認為,道德是“特定階層或組織所接受的行為規(guī)范”,如特定行為的正誤以及由該行為導致的動機和結(jié)果的好壞。⑧Green等則強調(diào)道德是基于義務判斷而行動的行為。⑨這幾種定義都強調(diào)了測試道德的兩個基本特點:其一,測試道德的實施領域為特定行業(yè)或組織;其二,測試道德的內(nèi)容是一種行為規(guī)范或行業(yè)標準。測試道德定義強調(diào)了行業(yè)道德或?qū)I(yè)責任的重要性,并為后來的道德范疇的設定和道德準則的建立打下了基礎。
根據(jù)測試道德的定義,Davies將測試道德的內(nèi)容分為三類:公共道德、專業(yè)道德和個體道德。⑩公共道德關注公共興趣所在的社會熱點問題,個體道德與個人良知緊密相連,專業(yè)道德針對行業(yè)準則與規(guī)范。Hamp-Lyons在此基礎上進一步提出三大責任理念,即社會責任、個體責任和行業(yè)責任。社會責任指測試行業(yè)的社會各方承擔的責任,個體責任指測試行業(yè)的執(zhí)行者如測試者的責任,行業(yè)責任指通過相關機構(gòu)建立的行業(yè)規(guī)范。國內(nèi)研究者在此基礎上將測試道德問題分為責任問題、公平問題、道德準則,本文也將依據(jù)這種分類框架來探討測試道德的內(nèi)容。
1.責任問題
三大責任中爭議最多的是測試的個體責任即測試者的責任問題。Morrow認為,反撥效應的方向可以人為控制,即測試設計者可以通過測試設計實現(xiàn)正面反撥效應。這呼應了Messick的觀點,即測試開發(fā)者在測試開發(fā)過程中應考慮到測試可能帶來的正面或負面反撥效應,致力于開發(fā)正面反撥效應的測試。Rea-Dickins在研究測試者責任問題時提出,由于教育變革的復雜性和市場價值的突出作用,測試者責任范圍逐步擴大,勢必受到其他各方的影響。顯然,由測試者單方面承擔測試責任是不公平的,因此,Shohamy提出共有責任理論,即參與測試各方都負有共同責任來維護測試的公平性和效度。Hamp-Lyons也認為,測試開發(fā)者、制定測試政策的機構(gòu)、教材開發(fā)者、學校、各級政府部門都應共同承擔測試責任,而非由測試開發(fā)者一方承擔??偠灾?,測試三大責任方(社會、個體、行業(yè))在測試過程中密不可分,解決責任問題的最終方案應該是責任共有,行為規(guī)范。
2.公平問題
測試公平與測試結(jié)果緊密相關,它既能反映既定測試是否可作為檢驗受試者的能力指標,同時也可檢驗整個測試流程是否能反映社會公平。測試公平可分為兩類,即與測試本身關聯(lián)的公平以及與測試使用相關的社會意義的公平,前者是從測試的心理測量學維度分析的,后者與測試的社會維度相關。
從心理測量學角度看,測試公平強調(diào)測試的平等因素和測量無偏差。例如,不少語言測試研究者關注受試者母語對測試行為的影響,非母語受試者在語言要求高的測試項目中往往處于劣勢。這體現(xiàn)了由于受試者背景差異導致的測試不公平現(xiàn)象。同樣,中國大學英語四六級考試長期以來由于大量使用選擇題而受到質(zhì)疑,也是因為其不能有效測量受試者水平,構(gòu)念效度不足,后效差。這實際上反映了由于測試方法單一導致的測量偏差。
從測試的社會維度分析,測試公平體現(xiàn)在測試結(jié)果的運用和解釋上,即分數(shù)的解釋與分數(shù)的運用必須是合理的、適當?shù)?,對所有受試者都適用。以中國高考的錄取流程為例,每年六月全國統(tǒng)一高考之后,高校將招生計劃分配到各個省、自治區(qū)、直轄市。招生辦建立考生信息庫,劃定各批次最低控制分數(shù)線,按考生分數(shù)和報考學校提取考生檔案進行錄取工作。考生高考分數(shù)及錄取分數(shù)都是透明的,分數(shù)的運用與解釋也是公開公正的。從該流程看,這就實現(xiàn)了測試的實質(zhì)公平??偠灾瑹o論從哪個維度理解,測試應該讓每個人都最大限度地享受公平。
3.測試道德準則的建立與發(fā)展
20世紀70年代末80年代初,社會各界開始呼吁建立道德準則。共有責任的概念提出后,研究者進一步指出,只有一個行業(yè)設定了明確的行業(yè)規(guī)范或準則(專業(yè)準則),所有行業(yè)內(nèi)(如測試者、個體因素)或行業(yè)外(如管理方、受試方等社會因素)的責任方才能有章可循。Shohamy在此基礎上進一步指出,“建立行業(yè)行為標準是保護測試者和受試者的策略之一”,并給出了行業(yè)標準框架,即使用標準、可操作性標準和公平標準,用以規(guī)范測試并預防測試結(jié)果的誤用。
此外,由于測試分數(shù)被運用在多個重要領域,如招生、應聘、移民等,因此受試者與相關責任人希望了解測試者專業(yè)行為所依據(jù)的道德基礎。社會各界對于道德準則的需求使行業(yè)準則的建立勢在必行,而語言測試道德準則的建立也意味著語言測試作為專門行業(yè)而非語言教學附屬品地位的確立。
20世紀末,語言學家提出了測試道德準則的框架設想,即測試道德準則的三大原則——平等權(quán)利、尊重人權(quán)、利益最大化,由此奠定了測試道德準則的基本內(nèi)容。?Lynch進一步補充了道德問題涉及的其他相關領域,如測試發(fā)展、執(zhí)行、分數(shù)使用甚至整個測試行業(yè)的可防護性。?在此基礎上,語言測試協(xié)會(ILTA)在2000年溫哥華會議上通過了Davies起草的道德準則(Code of Practice),2005年升級為行為準則(Guidelines for Practice),用以規(guī)范語言測試的道德行為。前者關注測試行業(yè)的道德和理想,后者設定了行業(yè)行為的最低標準并詳細闡述行業(yè)中的不當行為和非專業(yè)行為。
除ILTA設立的道德準則外,其他語言測試機構(gòu)也不甘落后,紛紛出臺各類道德準則,進一步推進測試專業(yè)化。目前,包括ILTA的測試標準在內(nèi),國際通行的語言測試標準有五種(ILTA,2000;ILTA,2007;ALTE,2001;EALTA,2006;JLTA,2006)。Jia在總結(jié)比較這五種主要測試標準的基礎上指出,五種標準中除EALTA是為測試者服務外,其余均可視作對測試者進行評判的標準,它們更類似于一種行業(yè)守則,用以監(jiān)督或規(guī)范執(zhí)業(yè)者的工作。?但是,以上幾種標準都未包含對違反行業(yè)規(guī)范人員的懲罰措施,也過于籠統(tǒng)、概括,缺乏針對性。語言測試標準應該能體現(xiàn)各國具體國情,包括國家歷史、語言使用、教育體系、宗教、地理和其他風俗等。所以,除了國際通行標準之外,各國應根據(jù)國情制定屬于自己特有的測試標準。尤其是中國,測試歷史悠久,測試涉及面廣,社會影響大,更需要地域性的、操作性強的行業(yè)標準的引導。
道德準則的出臺進一步規(guī)范了測試行為,使得測試界有了統(tǒng)一的指導方針。測試界也采取了一系列實踐行為來配合其運行,如測試的改革、測試技術(shù)手段的完善和測試政策的制定等。
國際語言測試中的道德踐行主要體現(xiàn)在對公平性原則的關注。以雅思考試為例,考生在考試結(jié)束后有權(quán)對本場考試的聽力設備或測試環(huán)境進行投訴,并在3~5個工作日后收到測試主辦方英國文化委員會的回復,根據(jù)實際情況可免費獲得重新進行聽力考試的機會。這避免了由于考試環(huán)境差異造成的外部偏差。除投訴聽力設備外,如考生對整場考試分數(shù)有異議,可在收到成績單原件后登陸雅思官網(wǎng)考后服務平臺在線申請成績復議??忌缮暾垙妥h一項或多項成績。多項成績復議時考生各部分試卷將提交不同復議考官重判以保證評分公正。此舉有利于減少由于評分者評分標準差異而導致的偏差,確保考試的公平性。出于同樣理由,2014年8月,雅思考試實行作文評分改革。寫作考試的兩篇考試作文分別由不同評分者進行評分,以避免同一考生作文由同一考官批改而導致的批改者差異產(chǎn)生的不公平問題。
如果說雅思考試是通過減少測試環(huán)境差異和評分者差異實現(xiàn)測試最大公平,那么托??荚噭t通過測試開發(fā)過程中的公平審核制度體現(xiàn)其測試道德。ILTA在2005年渥太華大會上起草的行為準則提出,題項編寫者必須在考試開始后結(jié)果出來前對題項進行分析,不合適的或功能有誤的題項最終計算分數(shù)時應予以剔除。而公平審核即復核試題以避免偏差,就是這一道德準則的體現(xiàn)。在公平審核實踐方面,托??荚囍鬓k機構(gòu)ETS建立了一系列制度和體系,積累了重要經(jīng)驗。托福的公平審核程序如下:測試開發(fā)者提交題項進行審核,審核者可以對開發(fā)者提出改動建議,可以改善題項或者直接通過,也可以直接質(zhì)疑該題項是否違反條例。審核者的觀點反饋至開發(fā)者,開發(fā)者可以接受建議整改題項或啟動爭議程序,即審核者和開發(fā)者進行討論。如意見相左,公平審核協(xié)調(diào)者出面與各方協(xié)調(diào)并建議解決方案。公平審核總部,亦即法律顧問部門,將出面查看并建議解決方案,如仍不奏效,更高階層委員會將出面解決。如還不能達成一致,總協(xié)調(diào)部門出面,最后做出終結(jié)性決定,就此結(jié)案。公平審核政策的出臺體現(xiàn)了國際考試在道德方面的嚴格要求,同時也為其他同類考試提供了參考。
國內(nèi)大學英語四六級考試為國內(nèi)語言測試的道德踐行提供了范本。1987年中國開始實行大學英語四級考試,檢測大學生畢業(yè)時是否達到大綱規(guī)定的四級要求。然而,1999年教學大綱修訂版中第一次硬性地“把四級定為全國各類高等院校應達到的基本要求”,四六級從衡量學生英語水平的杠桿一下變?yōu)闆Q定學生命運的重要砝碼。行政部門將考試通過率作為學校教學質(zhì)量評估的指標之一,某些學校將四級通過率與學位掛鉤。四級考試分數(shù)的濫用導致了語言測試負面反撥效應盛行。在教學方面體現(xiàn)為教師注重精讀能力培養(yǎng),聽力課通過考試題型進行課堂練習,教材缺乏真實性,四級考前多采用題海戰(zhàn)術(shù)進行模擬等。而學生則注重練習多項選擇題,輕視泛讀泛聽,通過四級作文三段論模板練習寫作。作為測試的責任方之一,教育部于2005年發(fā)布了《關于全國大學英語四、六級考試改革方案(試行)》,改革措施涉及成績報導方式和測試內(nèi)容。改革后,新的成績報告單用單項得分和總分的成績單取代原先只報總分的成績單,為教師了解學生水平提供參考。及格分的取消則避免了學校與學生片面追求通過率。四六級的計分制和成績報導方式的改革體現(xiàn)了對測試的使用和解釋的相關社會后果的重視,避免了測試結(jié)果在社會層面上的誤用。在意識到分數(shù)使用不當影響其后果效度的情況下通過改革及時終止測試分數(shù)的濫用,是測試公平的體現(xiàn),符合測試道德的要求。
在測試內(nèi)容的改革上,針對中國學生英語學習的弱點,如聽說能力低下、缺乏泛讀能力、注重技能訓練而非應用能力等,增加15%的聽力理解題量,精讀內(nèi)容減少5%,增加快速閱讀技能測試即泛讀能力測試,詞匯理解和語法結(jié)構(gòu)放入篇章中進行測試。這些測試內(nèi)容改革同樣符合測試道德的要求,即測試責任者有義務在測試開發(fā)過程中致力于開發(fā)具有正面反撥效應的測試,并及時通過調(diào)整實現(xiàn)測試的正面反撥。同時也體現(xiàn)了道德準則的基本內(nèi)容:語言測試者應考慮到他們的項目對所有責任人帶來的長期或短期的影響,評估有可能發(fā)生的后果并及時作出反應(ILTA道德準則第九條)。
②Shohamy E.,“Critical Language Testing and Beyond”,Studies in Educational Evaluation,1998,24(4),pp.331 ~345.
③Messick,S.,“Meaning and Values in Test Validation:The Science and Ethics of Assessment”,Educational Researcher,1989,18(2),pp.5 ~11.
④Gipps,C.V.,Beyond Testing:Towardsa Theory of Educational Assessment,Psychology Press,1994.
⑤Alderson,J.C.,& Wall,D.,“Does Washback Exist?”,Applied Linguistics,1993,14(3),pp.15 ~129.
⑥Alderson,J.C.,“Forward”,in Cheng L.Y.,WatanabeY.(eds.),Washback in Language Testing,Routledge,2004.
⑦House,E.R.,Schoolsfor Sale:Why Free Market Policies Won’t Improve America’s Schools,and What Will?New York:Teacher College Press,1998.
⑨Green,S.K.,Johnson,R.L.& Kim D.H.,Pope N.S.,
“Ethics in Classroom Aseessment Practice”,Teaching and Teacher Education,2007,23(7),pp.999 ~1011.
? Corson,D.,“Critical Realism:An Emancipatory Philosophy for Applied Linguistics?” Applied Linguistics,1997, 18(2),pp.166 ~188.
? Lynch,B.,“In Research of Ethical Test”,Language Testing,1997,14(3),pp.315 ~327.
? Jia,Y.,“Ethical Standards for Language Testing Professionals:An Introduction to Five Major Codes”,JALT Testing& Evaluation SIG Newsletter,2009,13(2),pp.2 ~8.