● 徐士強(qiáng)
評價管理或重于評價方法
——兼敘PISA測試的過程管理
● 徐士強(qiáng)
評價方法是基礎(chǔ),實施管理是保障,二者共同驅(qū)動預(yù)期評價目標(biāo)的實現(xiàn)。輕視評價實施過程的管理,往往會導(dǎo)致評價預(yù)期目標(biāo)的流產(chǎn),再好的評價方法也發(fā)揮不出應(yīng)有的效果。PISA測試在試題翻譯管理、抽樣管理和數(shù)據(jù)管理三個環(huán)節(jié)都制訂了嚴(yán)格周密的管理方法和程序,為加強(qiáng)評價過程的科學(xué)管理提供了借鑒。
教育評價;過程管理;PISA
一般來講,要提高評價的信度和效度,評價者既要選擇合適的評價方法,還要確保方法得到正確的實施,方法是基礎(chǔ),實施是保障,二者共同驅(qū)動預(yù)期評價目標(biāo)的實現(xiàn)。但是,在實際評價過程中,有的評價者往往特別注重方法的選擇和方案的設(shè)計,對評價實施過程的管理卻重視不夠,以致評價結(jié)果不理想,造成人力和經(jīng)費的浪費,更嚴(yán)重的是導(dǎo)致評價預(yù)期目標(biāo)的流產(chǎn)。那么,如何有效促進(jìn)評價方法和評價方案的正確實施呢?筆者認(rèn)為方法之一是在評價的關(guān)鍵環(huán)節(jié)和過程內(nèi)加強(qiáng)科學(xué)管理,這一點,我們可以從PISA測試中得到應(yīng)證。
PISA實施10余年來,參與單位的范圍不斷擴(kuò)大,參與測試的非英語國家(地區(qū))越來越多,因此,PISA要面對不同國家(地區(qū))使用不同語言的考生,給學(xué)生提供的考題必須翻譯成參考學(xué)生使用的語言文字。我們知道,一般的作品翻譯尚有一定難度,考試題目表述嚴(yán)謹(jǐn)、表意要準(zhǔn)確,翻譯的難度更大。而試題翻譯質(zhì)量高低,將直接影響到測試結(jié)果的真實性和可比較性。因此,PISA對試題翻譯提出了近乎苛刻的要求,它的翻譯要遵循以下程序:
●制定翻譯計劃,每次提交翻譯文本的時間節(jié)點都要嚴(yán)格按照計劃進(jìn)行;
●參與單位要安排兩組人員背靠背翻譯兩個獨立的版本;
●兩份譯稿整合;
●請學(xué)科專家參加討論,根據(jù)本國學(xué)生的語言使用習(xí)慣進(jìn)行修訂,主要是人名,地名的修訂;
●提交給PISA國際專業(yè)協(xié)作組織,該組織聘用通曉英文和參與國家(地區(qū))語言的專家校對,提出修改意見;
●參與國家(地區(qū))與PISA國際專業(yè)協(xié)作組織就修改的地方展開討論,直至雙方妥協(xié)確定;
●試題單元定稿;
●將試題單元按照國際組織統(tǒng)一的組合順序要求排成多套試題冊,試題冊要嚴(yán)格按照英文版格式排版,文字在每頁所處的位置都應(yīng)與原文對應(yīng);
●將排定的試題本提交給國際組織做最后的格式檢查;
●試題本定稿。
問卷翻譯和修訂的程序同上。
正是有了如此規(guī)范、嚴(yán)格和細(xì)致的翻譯流程要求,才使得PISA的測試題盡可能的避免因語言轉(zhuǎn)換而帶來的理解障礙和歧義,從而最大限度地降低了因語言差異而帶來的測試結(jié)果的偏差。
這次上海PISA測試結(jié)果剛剛公布時,有人質(zhì)疑抽樣的科學(xué)性問題。美國教育部下設(shè)研究機(jī)構(gòu)的一名官員馬克·施奈德在測試結(jié)果發(fā)布后,曾提出質(zhì)疑,質(zhì)疑上海測試樣本是否具有代表性?懷疑上海選擇了最好的學(xué)?;蜃詈玫膶W(xué)生來參加測試。[2]施奈德的質(zhì)疑事實上并沒有發(fā)生。因為PISA有非常嚴(yán)格規(guī)范的抽樣要求。
PISA評價項目所提議的取樣設(shè)計為兩階段分層取樣:第一階段的取樣單元為含有15歲學(xué)生的個體學(xué)校,取樣之前,在取樣框架內(nèi)的學(xué)校被內(nèi)隱或外顯的分配到層,然后,以隨機(jī)抽樣的方式在每層抽取學(xué)校,各層之抽取率與各層學(xué)校多少及學(xué)校內(nèi)的學(xué)生數(shù)量成比例。第二階段的取樣單元為樣本學(xué)校中的學(xué)生,從每一所樣本學(xué)校中等概率的抽取35名學(xué)生(底線為20個)。并且,在第一階段選取的學(xué)校中,學(xué)校參與率要達(dá)到85%,所選取考生的作答率要達(dá)到80%(底線為 50%),如果初始選取學(xué)校的作答率低于85%,那么,必須通過從候補(bǔ)學(xué)校中取樣來達(dá)到要求。
PISA要求每一個參測國家(地區(qū))嚴(yán)格遵守抽樣原則和方法,上海的測試也不例外。上海在這一輪測試中,把所有15歲學(xué)生就讀的學(xué)校名單,由美國的WESTAT公司按照分布比例并考慮學(xué)校規(guī)模大小后,最終確認(rèn)了152所學(xué)校;學(xué)生抽樣由上海PISA研究中心根據(jù)國際專業(yè)組織開發(fā)的PISA專用數(shù)據(jù)管理軟件,從每所學(xué)校隨機(jī)抽取35名學(xué)生,正是在這樣嚴(yán)格和規(guī)范的抽樣要求,PISA的測試結(jié)果能在世界上產(chǎn)生如此大的影響,才能對參與測量的國家和地區(qū)教育決策產(chǎn)生大的影響。前面提到的對上海的質(zhì)疑,馬克·施奈德先生在去年年末結(jié)束對中國的一次教育科研訪問回國后說:在實地調(diào)查后,上海考試成績的準(zhǔn)確性毋庸置疑,技術(shù)層面上控制得很好,不存在作弊問題。[3]
PISA有詳盡的數(shù)據(jù)手冊,內(nèi)有若干章節(jié)和附件。以2008年編制的試測數(shù)據(jù)管理手冊為例,該數(shù)據(jù)手冊包含六個章節(jié),每個章節(jié)都描述了數(shù)據(jù)管理的某項任務(wù),核心問題的改進(jìn)情況以及規(guī)定的PISA程序。下圖是數(shù)據(jù)管理任務(wù)流程。
以下流程簡表僅僅是PISA數(shù)據(jù)管理的流程概要,事實上,每一個環(huán)節(jié)內(nèi),都有細(xì)致全面的數(shù)據(jù)管理任務(wù)和操作細(xì)則。比如在數(shù)據(jù)輸入上,PISA要求要盡可能多的輸入數(shù)據(jù),以盡可能地排除信息對評價結(jié)果的干擾;數(shù)據(jù)提交,必須在預(yù)定的時間內(nèi)完成。PISA希望通過嚴(yán)格的數(shù)據(jù)管理,盡可能保證數(shù)據(jù)真實地反應(yīng)事實,以獲得可比性。
圖1 PISA數(shù)據(jù)管理流程
試題翻譯管理、抽樣管理和數(shù)據(jù)管理是PISA項目過程管理體系的重要環(huán)節(jié)。 PISA認(rèn)為,測試數(shù)據(jù)的質(zhì)量來源于抽樣、翻譯、測試過程(主要是試卷印刷、物流和考場管理)、評分、數(shù)據(jù)輸入和清理等過程。當(dāng)然,除了PISA測試管理上的特別之處外,其在測試內(nèi)容等其他方面也有很多獨到之處,它最大一個特點是從終身學(xué)習(xí)的角度來編制整個評價方案,所以測試題目跳出了具體學(xué)科和具體年級的局限,從更廣泛意義上的能力來評價15歲的學(xué)生具備的解決問題的能力,它不局限于在校學(xué)習(xí)的基于課程的已經(jīng)掌握的單一知識,而是強(qiáng)調(diào)知識在不同情境中的應(yīng)用和形成面對實際生活挑戰(zhàn)的能力。由于評估內(nèi)容來源于學(xué)生生活的多方面,不僅僅是學(xué)校教育的成果,所以它測試的成績不能簡單用來分析教師教學(xué)的好壞或?qū)W校教育的成敗。但是這種評價是從未來社會對人的要求出發(fā)的所以評價的結(jié)果對于各個政府制定教育發(fā)展的決策具有重要的導(dǎo)向性作用。
透過PISA,我們可以看到,評價的過程管理與評價方法同樣重要,甚至當(dāng)我們在評價方法的創(chuàng)造上陷入謎團(tuán)時,不妨從管理的角度尋求新的突破。我們開展教育質(zhì)量評價工作,不僅要注重評價方法本身的研究和選擇,而且要更加注重建立科學(xué)精細(xì)的評價過程管理體系,并將之作為保證教育評價預(yù)期目標(biāo)實現(xiàn)的一個重要手段,這一點恰恰是我們目前教育評價工作比較薄弱的地方。
[1][2]陸璟,朱小虎.如何看待上海2009年P(guān)ISA測評結(jié)果[J].上海教育科研,2011(1).
[3]Sam Dillon.Top Test Scores From Shanghai Stun Educators,The NewYork Times,2010/12/07.
徐士強(qiáng)/華東師范大學(xué)2010級博士研究生,上海市教科院普通教育研究所助理研究員
(責(zé)任編輯:張 斌)