楊志明
( 湖南師范大學(xué)測(cè)評(píng)研究中心主任、外國(guó)語學(xué)院教授,博士生導(dǎo)師)
2020 年6 月30 日,中共中央全面深化改革委員會(huì)第十四次會(huì)議審議通過了《深化新時(shí)代教育評(píng)價(jià)改革總體方案》(下稱《總體方案》),強(qiáng)調(diào)要“改進(jìn)結(jié)果評(píng)價(jià),強(qiáng)化過程評(píng)價(jià),探索增值評(píng)價(jià),健全綜合評(píng)價(jià)”。 顯然,要做好這四種教育評(píng)價(jià)并不是件容易的事情。 因?yàn)楫?dāng)前的許多結(jié)果評(píng)價(jià)科學(xué)性不強(qiáng)、 重結(jié)果輕過程的問題比較突出、增值評(píng)價(jià)少有涉足、綜合評(píng)價(jià)量化不足等問題十分明顯。 這些問題的解決不僅需要從政策和管理層面做出周密和系統(tǒng)的安排,而且需要從教育測(cè)量與評(píng)價(jià)的理論和技術(shù)層面拿出切實(shí)可行的實(shí)操方案。 本文重點(diǎn)討論這四種教育評(píng)價(jià)的含義及其目前存在的問題, 并從教育測(cè)量與評(píng)價(jià)的視角,為“建立科學(xué)的、符合時(shí)代要求的教育評(píng)價(jià)制度和機(jī)制”提供一些理論和方法依據(jù)。
教育評(píng)價(jià) “是指在一定教育價(jià)值觀的指導(dǎo)下,依據(jù)確立的教育目標(biāo),通過使用一定的技術(shù)和方法,對(duì)所實(shí)施的各種教育活動(dòng)、教育過程和教育結(jié)果進(jìn)行科學(xué)判定的過程。 ”廣義的教育評(píng)價(jià)泛指對(duì)學(xué)校教育和非學(xué)校教育各個(gè)要素、各個(gè)環(huán)節(jié)的運(yùn)行質(zhì)量和效益等方面的測(cè)量與評(píng)價(jià),包括學(xué)生評(píng)價(jià)、教師評(píng)價(jià)、校長(zhǎng)評(píng)價(jià)和教育管理者評(píng)價(jià),以及對(duì)教育、教學(xué)、管理的條件、時(shí)間、資金、效益等方面進(jìn)行的評(píng)價(jià)等。 狹義的教育評(píng)價(jià)主要是指對(duì)學(xué)生的學(xué)業(yè)成績(jī)和能力水平、個(gè)性特點(diǎn)和身體素質(zhì)等方面的評(píng)價(jià),如,對(duì)學(xué)生知識(shí)結(jié)構(gòu)與層次、能力結(jié)構(gòu)與層次、身體素質(zhì)、情感態(tài)度、思想品德等方面的評(píng)價(jià)等。 本文所討論的四種教育評(píng)價(jià)主要是指學(xué)生層面的評(píng)價(jià)。
結(jié)果評(píng)價(jià)(outcome evaluation)類似于教育測(cè)量學(xué)中的終結(jié)性評(píng)價(jià)(summative evaluation),其基本含義是指某個(gè)學(xué)習(xí)過程結(jié)束之時(shí)對(duì)學(xué)生學(xué)習(xí)效果的評(píng)價(jià)。 評(píng)價(jià)的方式可以是絕對(duì)評(píng)價(jià)或者說標(biāo)準(zhǔn)參照性評(píng)價(jià),也可以是相對(duì)評(píng)價(jià)或者說常模參照性評(píng)價(jià)。 評(píng)價(jià)的目的可以是檢驗(yàn)學(xué)習(xí)的效果,也可以是用做人才選拔的依據(jù)之一。 絕對(duì)評(píng)價(jià)的結(jié)果表達(dá)通常使用掌握分?jǐn)?shù)或?qū)W業(yè)水平表現(xiàn)剖析圖,相對(duì)評(píng)價(jià)的結(jié)果表達(dá)通常使用量表分?jǐn)?shù)或標(biāo)準(zhǔn)分?jǐn)?shù)。
結(jié)果評(píng)價(jià)當(dāng)前存在的主要問題是內(nèi)容標(biāo)準(zhǔn)(content standards) 的界定比較抽象、 表現(xiàn)水準(zhǔn)(performance standards)的確定比較隨意,分?jǐn)?shù)的表達(dá)和使用常常違背教育測(cè)量學(xué)的基本要求。 同時(shí),大量信度不高、效度證據(jù)不足甚至存在嚴(yán)重偏見的測(cè)評(píng)被廣為使用。 特別突出的是,現(xiàn)代考試科學(xué)的理論與技術(shù),比如,測(cè)驗(yàn)等值技術(shù)、標(biāo)準(zhǔn)設(shè)定技術(shù)、分?jǐn)?shù)表達(dá)技術(shù)等,較少受到考試評(píng)價(jià)部門的重視,考試評(píng)價(jià)科學(xué)和技術(shù)的普及意識(shí)和推廣措施非常不足,嚴(yán)重阻礙了測(cè)量評(píng)價(jià)水平的提升。 此外,一些以提分為目的的教學(xué)和管理措施,違背了青少年的成長(zhǎng)規(guī)律,不利于學(xué)生創(chuàng)新意識(shí)的培養(yǎng)和各種能力的發(fā)展。
不少人把學(xué)業(yè)負(fù)擔(dān)過重歸罪于考試,提出了“禁止考試”或“規(guī)定考試難度為某個(gè)固定數(shù)字”等想法。 這些觀點(diǎn)不僅把考試與學(xué)業(yè)負(fù)擔(dān)之間的“相關(guān)關(guān)系”混淆成了“因果關(guān)系”,而且違背了考試與評(píng)價(jià)本身的科學(xué)規(guī)律,導(dǎo)致某些考試的分?jǐn)?shù)出現(xiàn)多峰分布, 或最高分?jǐn)?shù)段人數(shù)超過總?cè)藬?shù)40%以上等問題,損害了考試和評(píng)價(jià)的應(yīng)有價(jià)值。
過程評(píng)價(jià)(process evaluation)類似于教育測(cè)量學(xué)中的形成性評(píng)價(jià)(formative evaluation)。 其基本含義是指在學(xué)生的學(xué)習(xí)過程當(dāng)中,教師或其他人隨時(shí)檢查學(xué)生學(xué)習(xí)效果的一種評(píng)價(jià)方式。 這種評(píng)價(jià)的目的是給學(xué)生的學(xué)習(xí)過程、速度、質(zhì)量等提供診斷,幫助學(xué)生及時(shí)糾正錯(cuò)誤。 評(píng)價(jià)的方式可以是課堂教學(xué)當(dāng)中的隨堂小測(cè)驗(yàn),也可以是點(diǎn)名提問,還可以是同學(xué)之間互相核查。 評(píng)價(jià)結(jié)果的表達(dá)不需要“高大上”的測(cè)驗(yàn)分?jǐn)?shù),也就是說一般不需要估計(jì)測(cè)評(píng)的信度、效度、區(qū)分度和公平性等等,而是以解決問題為導(dǎo)向。 過程評(píng)價(jià)可以看作教學(xué)過程的一個(gè)組成部分,或者說是課堂教學(xué)的一個(gè)重要環(huán)節(jié)。
過程評(píng)價(jià)當(dāng)前存在的主要問題是不被重視和操作不當(dāng),表現(xiàn)為評(píng)價(jià)手段比較單一、評(píng)價(jià)內(nèi)容不夠豐富、反饋信息不夠及時(shí)等等。 其中最突出的問題是教師很努力地探究所有的問題和方法,然后不斷“喂養(yǎng)”學(xué)生,而對(duì)學(xué)生探究和消化的過程卻沒有認(rèn)真安排, 甚至根本就沒有安排。這就好比為了解蘋果的滋味,本來可以讓學(xué)生親口嘗一嘗,但為了提高效率,許多教師僅僅自己嘗一下,就告訴學(xué)生蘋果是什么滋味,學(xué)生只需要記錄在案, 或者通過做題目記住蘋果的滋味。這種忽視過程的教學(xué)模式, 不僅讓教師越教越累,而且會(huì)讓學(xué)生越學(xué)越厭煩,學(xué)生探究問題的能力無法得到磨礪。
增值評(píng)價(jià)(value-added evaluation)也叫成長(zhǎng)性評(píng)價(jià)(growth evaluation)。 其關(guān)注點(diǎn)是一個(gè)學(xué)習(xí)過程當(dāng)中學(xué)生最后比最初進(jìn)步了多少。 增值評(píng)價(jià)的結(jié)果最適合用來評(píng)價(jià)某所學(xué)?;蚰澄唤處煹墓ぷ骶礃I(yè)程度、工作質(zhì)量與效果的改進(jìn)程度。 這種評(píng)價(jià)對(duì)生源質(zhì)量比較弱的學(xué)校, 或者說對(duì)于“后進(jìn)班”或者“后進(jìn)學(xué)生”具有非常好的鼓勵(lì)價(jià)值, 也是從制度設(shè)計(jì)上鼓勵(lì)因材施教的手段之一,屬于“一個(gè)都不能少”的教學(xué)評(píng)價(jià)。 但我們也要看到,對(duì)一些示范性高中,目前人們關(guān)注的焦點(diǎn)一般是這些學(xué)校中被北大、 清華以及其他“985”或“211”高校所錄取學(xué)生的絕對(duì)人數(shù),卻沒有指標(biāo)衡量這些示范性高中有多少優(yōu)秀生源被他們培養(yǎng)成了“后進(jìn)生”。 因此,一所高中的“優(yōu)秀率”和“非優(yōu)秀率”甚至“后進(jìn)生比率”,都必須作為增值評(píng)價(jià)的重要指標(biāo)。 假若教育行政部門每年同時(shí)發(fā)布每所學(xué)?!皟?yōu)秀生”變成“后進(jìn)生”的比例,以及“后進(jìn)生”提升為“優(yōu)秀生”的比例,相信會(huì)給所有示范性高中和非示范性高中的教育教學(xué)工作帶來巨大影響。
增值評(píng)價(jià)目前存在的主要問題是增值評(píng)價(jià)的意識(shí)不強(qiáng)和評(píng)價(jià)方法比較粗糙等。 比如,許多教師或?qū)W校常常直接用期末、期中和開學(xué)摸底考試成績(jī)的變化作為增值評(píng)價(jià)的指標(biāo),而這種簡(jiǎn)單比較測(cè)驗(yàn)原始得分的方法明顯存在科學(xué)性缺陷,因?yàn)槿雽W(xué)、期中和期末所考試的內(nèi)容一般差別明顯,幾次測(cè)試的分?jǐn)?shù)也因?yàn)樵嚲黼y度的不同而不能直接進(jìn)行比較。 事實(shí)上,增值評(píng)價(jià)的方法需要科學(xué)合理,多次測(cè)評(píng)所得分?jǐn)?shù)之間必須通過測(cè)驗(yàn)等值技術(shù)轉(zhuǎn)換在一個(gè)統(tǒng)一的度量系統(tǒng)之上。 具體方法需要由專業(yè)人士按照行業(yè)標(biāo)準(zhǔn)進(jìn)行操作。
綜合評(píng)價(jià)(comprehensive evaluation)是多元評(píng)價(jià)的一種。 其關(guān)鍵在于各大評(píng)價(jià)指標(biāo)的設(shè)計(jì)是否符合評(píng)價(jià)目的和任務(wù),評(píng)價(jià)結(jié)果的表達(dá)是否科學(xué)合理。在國(guó)家指導(dǎo)的學(xué)生綜合素質(zhì)評(píng)價(jià)方案中,其五大指標(biāo)分別與德智體美勞五個(gè)要求一一對(duì)應(yīng)。
綜合評(píng)價(jià)一個(gè)常見誤區(qū)是大家都指望把所有評(píng)價(jià)指標(biāo)變成分?jǐn)?shù),然后計(jì)算總分,按總分排序做各種決定。 這種把所有指標(biāo)都換算成分?jǐn)?shù)最后求總分的評(píng)價(jià)思路并不科學(xué),消解了多元評(píng)價(jià)的優(yōu)勢(shì)。 特別是用總分的方式來評(píng)價(jià),忽視了個(gè)體在知識(shí)、能力、素養(yǎng)等方面的結(jié)構(gòu)類型和層次水平等方面的個(gè)別差異,是一種把所有人才都做成同一個(gè)模型的思想。 這種標(biāo)準(zhǔn)化的人才評(píng)價(jià)思路,顯然不符合創(chuàng)新人才的培養(yǎng)要求,更不符合未來社會(huì)對(duì)人才的需要。
要搞好四種評(píng)價(jià),不僅需要從管理和政策層面做出周密和系統(tǒng)的安排,而且需要從教育測(cè)量與評(píng)價(jià)的理論和技術(shù)層面拿出切實(shí)可行的實(shí)操方案。 我們可以從專業(yè)發(fā)展、行業(yè)標(biāo)準(zhǔn)、政策導(dǎo)向、人才培養(yǎng)和獎(jiǎng)懲機(jī)制等幾個(gè)方面入手。
首先, 在教育評(píng)價(jià)的專業(yè)和行業(yè)發(fā)展方面,國(guó)家需要建立健全必要的行業(yè)運(yùn)行規(guī)則,訂立教育評(píng)價(jià)的學(xué)科建設(shè)要求和行業(yè)標(biāo)準(zhǔn)。 要對(duì)教育評(píng)價(jià)工作的科學(xué)性、規(guī)范性、合法性等各個(gè)方面建立準(zhǔn)入標(biāo)準(zhǔn)、運(yùn)行標(biāo)準(zhǔn)和淘汰機(jī)制,通過制度創(chuàng)新保障教育評(píng)價(jià)工作的科學(xué)性、 專業(yè)性和規(guī)范性。 其中,教育測(cè)量學(xué)的基本原理和方法是做好教育評(píng)價(jià)的必備知識(shí)和關(guān)鍵能力。 比如,在“改進(jìn)結(jié)果評(píng)價(jià)”和“探索增值評(píng)價(jià)”方面,經(jīng)典測(cè)驗(yàn)理論 (classical testing theory,CTT) 和項(xiàng)目反應(yīng)理論(item response theory,IRT) 就是最重要的理論基礎(chǔ)。 其中,分?jǐn)?shù)表達(dá)技術(shù)(scaling)、標(biāo)準(zhǔn)設(shè)定技術(shù)(standard setting)、常模研發(fā)技術(shù)(norming)、測(cè)驗(yàn)等值的理論與方法 (equating)、 題庫建設(shè)的原理與方法具有至關(guān)重要的作用。 在“強(qiáng)化過程評(píng)價(jià)”和“健全綜合評(píng)價(jià)”方面,不僅需要用到CTT 和IRT 的理論與方法, 而且特別需要用到測(cè)評(píng)的概化理論(generalizability theory,GT)和認(rèn)知診斷模型(diagnosis modeling)。 這些理論和技術(shù),必須是教育評(píng)價(jià)專業(yè)建設(shè)的基本內(nèi)容,其中的理論和方法要求必須作為教育評(píng)價(jià)行業(yè)的實(shí)施標(biāo)準(zhǔn)。
其次,在人才培養(yǎng)方面,國(guó)家需要大力扶持教育評(píng)價(jià)學(xué)科的建設(shè), 在高校相關(guān)學(xué)位點(diǎn)的建設(shè)、學(xué)術(shù)期刊的布局、科研課題的立項(xiàng)等諸多方面, 吸引更多優(yōu)秀人才專注教育評(píng)價(jià)學(xué)科的發(fā)展, 并通過理論研究和實(shí)踐探索相結(jié)合的辦法,把國(guó)際教育評(píng)價(jià)行業(yè)的成熟做法與中國(guó)的國(guó)情結(jié)合起來,培養(yǎng)和鍛煉出一批教育評(píng)價(jià)專家隊(duì)伍和工作團(tuán)隊(duì),保障教育評(píng)價(jià)工作的科學(xué)性和專業(yè)性。 其中,在高水平大學(xué)增設(shè)教育評(píng)價(jià)的研究生培養(yǎng)項(xiàng)目,確立教育評(píng)價(jià)學(xué)為教育學(xué)類的二級(jí)學(xué)科,在教育評(píng)價(jià)類學(xué)術(shù)期刊中確立1~2 種優(yōu)秀期刊為CSSCI 期刊等(目前全國(guó)沒有任何一家教育評(píng)價(jià)類期刊為C 刊), 都是促進(jìn)教育評(píng)價(jià)專業(yè)人才成長(zhǎng)的具體辦法。
第三,在大眾科普和評(píng)價(jià)機(jī)構(gòu)的建設(shè)方面需要加大力度。 由于教育評(píng)價(jià)工作既有科學(xué)性要求,又有政策性要求,所以各種措施的制定和實(shí)施都需要得到大眾的理解和支持。 特別是,教育評(píng)價(jià)中的一些理論涉及復(fù)雜的統(tǒng)計(jì)學(xué)模型和算法(比如,IRT 模型、概化理論的研究設(shè)計(jì)、參數(shù)等值的算法、 分?jǐn)?shù)的表達(dá)需要抽樣理論做支持等),非專業(yè)人士,甚至是教育評(píng)價(jià)機(jī)構(gòu)的部分工作人員在理解方面存在難度,因此,建議在教育部有關(guān)部門的指導(dǎo)下建立教育評(píng)價(jià)國(guó)家指導(dǎo)委員會(huì),具體開展行業(yè)標(biāo)準(zhǔn)的制定、教育評(píng)價(jià)理論與方法的宣傳科普等工作。
第四,在政策導(dǎo)向方面,教育評(píng)價(jià)機(jī)制需要有利于四種評(píng)價(jià)的順利實(shí)施。 比如,可以大力引進(jìn)第三方專業(yè)性教育評(píng)價(jià)機(jī)構(gòu),避免出現(xiàn)政府管理部門既當(dāng)“運(yùn)動(dòng)員”又當(dāng)“裁判員”的評(píng)價(jià)方式,避免出現(xiàn)政府“無限責(zé)任”管理模式。 若這種機(jī)制的運(yùn)行有難度,則需要建設(shè)專業(yè)性的測(cè)量與評(píng)價(jià)事業(yè)單位,這種單位的管理人員都必須是測(cè)評(píng)方向的專業(yè)人員。
最后,需要設(shè)立一定的獎(jiǎng)懲機(jī)制,使得這個(gè)行業(yè)的團(tuán)隊(duì)和人才可以走上優(yōu)勝劣汰的軌道,保障教育評(píng)價(jià)工作既專業(yè)又公平。 其中一個(gè)最重要的機(jī)制是評(píng)價(jià)結(jié)果與實(shí)施評(píng)價(jià)的機(jī)構(gòu)及個(gè)體的工作績(jī)效直接掛鉤,而且需要建立3 年或更多年限的追責(zé)制度。 如果被評(píng)價(jià)者被認(rèn)定為“合格”或“優(yōu)秀”,但事實(shí)上卻存在弄虛作假,一經(jīng)抽查核實(shí),則需要追究評(píng)審專家或評(píng)審機(jī)構(gòu)的經(jīng)濟(jì)或法紀(jì)責(zé)任。 這或許在制度上可以杜絕“評(píng)價(jià)工作不痛不癢走形式”的問題。
總之,“改進(jìn)結(jié)果評(píng)價(jià),強(qiáng)化過程評(píng)價(jià),探索增值評(píng)價(jià),健全綜合評(píng)價(jià)”是一項(xiàng)很有意義而且挑戰(zhàn)極大的工作,當(dāng)前的許多教育評(píng)價(jià)做法不僅在科學(xué)性方面存在很多缺陷,而且在指導(dǎo)管理等方面存在大量偏差,使得“唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯論文、唯帽子”的問題無法得以根治。 為了做好四種教育評(píng)價(jià), 首先必須認(rèn)清當(dāng)前結(jié)果評(píng)價(jià)、過程評(píng)價(jià)、增值評(píng)價(jià)和綜合評(píng)價(jià)中存在的問題, 然后根據(jù)國(guó)情和現(xiàn)代教育測(cè)評(píng)的理論和方法,分別制定相應(yīng)的對(duì)策,包括培養(yǎng)大量的教育評(píng)價(jià)專業(yè)人才, 科普現(xiàn)代教育測(cè)評(píng)理論與方法,制定教育評(píng)價(jià)的行業(yè)標(biāo)準(zhǔn),完善教育評(píng)價(jià)的實(shí)施方案,發(fā)揮教育評(píng)價(jià)的引導(dǎo)功能等。