張青華
2018 年9 月,習(xí)近平總書記指出,要深化教育體制改革,健全立德樹人落實(shí)機(jī)制,扭轉(zhuǎn)不科學(xué)的教育評價(jià)導(dǎo)向,堅(jiān)決克服唯分?jǐn)?shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾,從根本上解決教育評價(jià)指揮棒問題。2020 年10 月13 日,中共中央、國務(wù)院引發(fā)《深化新時(shí)代教育評價(jià)改革總體方案》(以下簡稱《教育評價(jià)方案》),明確要求堅(jiān)持科學(xué)有效,改進(jìn)結(jié)果評價(jià),強(qiáng)化過程評價(jià),探索增值評價(jià),健全綜合評價(jià),充分利用信息技術(shù),提高教育評價(jià)的科學(xué)性、專業(yè)性、客觀性。到2035 年,基本形成富有時(shí)代特征、彰顯中國特色、體現(xiàn)世界水平的教育評價(jià)體系??梢姡鲋翟u價(jià)的理論與實(shí)踐研究已經(jīng)成為當(dāng)前教育評價(jià)改革的重要任務(wù)。
增值評價(jià)起源于20 世紀(jì)六十年代美國的學(xué)校效能研究,其研究的目的是更客觀、更科學(xué)地評估學(xué)校、教師在學(xué)生成長進(jìn)步過程中的作用。近三十年來,增值評價(jià)在美國、英國、中國香港等地得到較為廣泛的應(yīng)用。1992 年美國田納西州開發(fā)了田納西增值評價(jià)系統(tǒng)(Tennessee Value Added Assessment System,簡稱TVAAS),對測試型課程進(jìn)行增值評價(jià),2012 年又開發(fā)了學(xué)生成長檔案袋模式(Student Growth Portfolio Models,簡稱Portfolios)對非測試型課程進(jìn)行評價(jià),TVAAS 和Portfolios 兩者互為補(bǔ)充[1]。英國從1992 年開始探索增值評價(jià),到2002 年在英格蘭和威爾士推廣,2006 年在全國實(shí)施。英國增值評價(jià)的技術(shù)由最初的控制背景因素的多水平模型,到目前在中學(xué)和大學(xué)過渡學(xué)段(16-18 歲)增值評價(jià)中保留多水平模型,在英格蘭地區(qū)基礎(chǔ)教育增值評價(jià)則采用簡單的均值計(jì)算方法[2]。我國的香港特區(qū)政府2000 年建立香港學(xué)校增值資料系統(tǒng)(Schools Value Added Information System,簡稱SVAIS),采用多層模型為學(xué)校提供年度增值評價(jià)研究報(bào)告[3-4]。
國內(nèi)近二十多年來對增值評價(jià)進(jìn)行了多方面的研究與實(shí)踐應(yīng)用。增值評價(jià)的研究主要有兩方面:一方面應(yīng)用增值評價(jià)方法進(jìn)行實(shí)證研究,如馬曉強(qiáng)(2006)對河北省保定市普通高中學(xué)校的增值實(shí)證研究[5],王家美(2009)對江西省上饒市30 所高級中學(xué)語文學(xué)科進(jìn)行的教育增值評估實(shí)證研究[6],杜屏(2011)對基于我國西部五省調(diào)研數(shù)據(jù)的農(nóng)村初級中學(xué)學(xué)校效能的增值性評價(jià)實(shí)證分析[7],王帥鳴(2020)基于成長百分等級模型開展增值評價(jià)的實(shí)證研究[8]等;另一方面對增值評價(jià)模型方法進(jìn)行探索研究,如萬兵濤(2019)教學(xué)質(zhì)量增值評價(jià)中數(shù)學(xué)模型的選擇與應(yīng)用[9],周園(2020)教育增值評價(jià)中嵌套數(shù)據(jù)增長百分位估計(jì)方法探析:多水平線性分位數(shù)回歸模型的應(yīng)用[10]等。國內(nèi)增值評價(jià)在研究探索的過程中也進(jìn)行了實(shí)踐應(yīng)用,如天津趙彤璐(2014)利用大規(guī)??荚嚁?shù)據(jù)開展學(xué)業(yè)增值評價(jià)[11],蘇州羅強(qiáng)(2020)利用義務(wù)教育階段監(jiān)測數(shù)據(jù)進(jìn)行增值評價(jià)[12],還有溫州、北京等地也都開展了增值評價(jià)的一些探索性實(shí)踐應(yīng)用。
學(xué)業(yè)增值評價(jià)是以學(xué)生的學(xué)業(yè)進(jìn)步程度作為尺度依據(jù),間接地對學(xué)校、教師幫助學(xué)生學(xué)業(yè)提升的程度進(jìn)行評價(jià)。它是對學(xué)校效能、教師績效進(jìn)行評價(jià)的方式之一。由于它是對學(xué)生的學(xué)業(yè)水平進(jìn)步程度的評價(jià),充分考慮了學(xué)生學(xué)業(yè)水平變化過程中的前因與后果的關(guān)系,因此與結(jié)果評價(jià)相比(對學(xué)生最終的學(xué)業(yè)水平的絕對高與低進(jìn)行評價(jià)),能夠更為客觀、更科學(xué)地反映學(xué)生的學(xué)業(yè)發(fā)展變化,能夠更公正地評價(jià)學(xué)校、教師在學(xué)生學(xué)業(yè)變化過程中的作用。
就目前國內(nèi)增值評價(jià)的研究與發(fā)展的現(xiàn)狀而言,對于增值評價(jià)的探索應(yīng)該是多方面的。一方面應(yīng)加強(qiáng)對德、體、美、勞增值評價(jià)的探索。學(xué)校對于學(xué)生的效能不僅限于學(xué)業(yè)的傳授,還有在德、體、美、勞等方面對學(xué)生的全面塑造。由于德、體、美、勞很難通過可操作性、可量化的工具——測試來進(jìn)行評價(jià),因此國內(nèi)在這些方面的增值評價(jià)研究相對較少。針對德、體、美、勞增值評價(jià)的現(xiàn)狀,除借鑒國外在這方面有關(guān)經(jīng)驗(yàn)之外,還需要結(jié)合國內(nèi)實(shí)際教育情況進(jìn)行方法與實(shí)踐的探索研究。另一方面加強(qiáng)對學(xué)業(yè)的增值評價(jià)探索。雖然近二十多年來國內(nèi)對學(xué)業(yè)的增值評價(jià)進(jìn)行了諸多的研究與實(shí)踐應(yīng)用,但并沒有得到大規(guī)模廣泛的開展。在學(xué)業(yè)增值評價(jià)由理念、研究、走向?qū)嵺`應(yīng)用的探索過程中,需要探尋實(shí)現(xiàn)理念的方法和有效途徑,需要思考諸如學(xué)生學(xué)業(yè)用什么工具來測量,測量后用什么方法來計(jì)算學(xué)業(yè)的增長,如何對學(xué)業(yè)增長的情況進(jìn)行判斷(評價(jià)指標(biāo)體系的設(shè)計(jì)),以及在實(shí)踐中對評價(jià)的結(jié)果如何解釋、科學(xué)恰當(dāng)?shù)厥褂玫?。以下就學(xué)業(yè)增值評價(jià)探索過程中需要關(guān)注的五個(gè)主要方面的問題進(jìn)行探討。
學(xué)業(yè)測驗(yàn)工具是進(jìn)行增值評價(jià)的基石。用于增值評價(jià)的測驗(yàn)質(zhì)量,即測驗(yàn)?zāi)芊駥W(xué)生的學(xué)業(yè)發(fā)展變化進(jìn)行科學(xué)、準(zhǔn)確的測量,是影響學(xué)業(yè)增值評價(jià)結(jié)果的科學(xué)性、可靠性和準(zhǔn)確性程度的重要影響因素之一。從教育測量學(xué)的角度而言,學(xué)業(yè)測驗(yàn)質(zhì)量至少包含了四個(gè)層面的內(nèi)涵:第一測驗(yàn)工具的信度,即測驗(yàn)的測量結(jié)果具有一致性、穩(wěn)定性及可靠性。第二測驗(yàn)工具的效度,即測驗(yàn)是否能夠測出所要測的目標(biāo),如學(xué)生的學(xué)科知識(shí)、能力、核心素養(yǎng)等。第三測驗(yàn)工具應(yīng)具有合理的總體難度,以及合理的難度結(jié)構(gòu),能夠?qū)⒉煌瑢哟嗡綄W(xué)生的真實(shí)水平測量出來。對于學(xué)業(yè)增值評價(jià)而言,測驗(yàn)的對象是廣大的學(xué)生群體,在學(xué)生的學(xué)業(yè)水平差異程度較大的情況下,如果測驗(yàn)難度結(jié)構(gòu)不合理,試卷難度過于容易,高水平學(xué)生都會(huì)作答,會(huì)導(dǎo)致無法測量出他們的真實(shí)水平。而試卷難度太大,會(huì)導(dǎo)致低水平學(xué)生作答不出來,也無法測量出其真實(shí)水平,從而使增值評價(jià)的結(jié)果不可靠。第四測驗(yàn)的試題具有較好的區(qū)分度。依據(jù)測驗(yàn)的測試目標(biāo),每道試題能有效區(qū)分相應(yīng)層次水平的學(xué)生,從而使測驗(yàn)對不同學(xué)生水平達(dá)到預(yù)定的區(qū)分效果。因此用于增值評價(jià)的學(xué)業(yè)測驗(yàn)應(yīng)該具有高質(zhì)量,從而保證學(xué)業(yè)增值評價(jià)結(jié)果的可信、可靠。
增值模型是進(jìn)行增值評價(jià)研究與應(yīng)用的核心技術(shù)。目前國內(nèi)外增值評價(jià)采用的主要模型有多層線性模型、學(xué)生成長百分等級模型(Student Growth Percentile)等。無論哪一種增值模型都不可能解決所有的問題,或多或少會(huì)有一定的局限性。如多層線性模型的優(yōu)點(diǎn)是通過排除影響學(xué)生學(xué)業(yè)變化的學(xué)校以外的背景因素(個(gè)人背景、家庭社會(huì)經(jīng)濟(jì)等),純粹獲取學(xué)校教育對學(xué)生進(jìn)步的影響。它強(qiáng)調(diào)的是學(xué)校的“凈效應(yīng)”。然而影響學(xué)生學(xué)業(yè)變化的學(xué)校之外的因素一方面不可能窮盡地找到,另一方面也存在能否收集到這些因素的數(shù)據(jù)。而且,模型本身的兩個(gè)假設(shè)——線性和方差齊性,實(shí)際數(shù)據(jù)未必一定都能夠滿足。學(xué)生成長百分等級模型的優(yōu)點(diǎn)在于考慮了不同水平學(xué)生群體在其相同起點(diǎn)水平群體中各自的學(xué)業(yè)增長幅度。它是通過計(jì)算一名學(xué)生在水平相似的一組學(xué)生中相對位置的變化來對“成長”進(jìn)行評估的。模型假設(shè)與考生起始水平相同的群體在第二次所得的分?jǐn)?shù)呈正態(tài)分布,當(dāng)參與評價(jià)的學(xué)生群體數(shù)量并不大時(shí),實(shí)際數(shù)據(jù)并不一定能滿足該假設(shè)。因此在進(jìn)行增值評價(jià)研究或?qū)嵺`應(yīng)用時(shí),選擇或開發(fā)模型要充分考慮實(shí)際可操作性(模型考慮的有關(guān)變量是否可收集到)、評價(jià)結(jié)果的準(zhǔn)確性(模型可能帶來的誤差量)、評價(jià)結(jié)果的可理解性(模型得出的評價(jià)結(jié)果是否通俗易懂)、評價(jià)結(jié)果的運(yùn)用目的(用于高風(fēng)險(xiǎn)問責(zé)或用于改進(jìn))等諸多方面的因素。
學(xué)業(yè)增值評價(jià)通過其模型能夠計(jì)算出每名學(xué)生的增值量,進(jìn)而獲得學(xué)校、班級的增值量。如何通過模型計(jì)算的增值結(jié)果對區(qū)域、學(xué)校、班級、學(xué)生進(jìn)行評價(jià),需要設(shè)計(jì)評價(jià)的指標(biāo)體系。指標(biāo)體系設(shè)計(jì)的合理與否關(guān)系到學(xué)業(yè)增值評價(jià)的目的是否能夠?qū)崿F(xiàn),能否保證評價(jià)的結(jié)果對不同評價(jià)對象公平公正。
在設(shè)計(jì)學(xué)業(yè)增值評價(jià)指標(biāo)體系時(shí)一方面要考慮評價(jià)結(jié)果的使用者是誰,不同的使用者(全市、區(qū)域、學(xué)校的行政領(lǐng)導(dǎo)),他們的需求、關(guān)注點(diǎn)是什么,有什么不同。例如,對于全市教育行政領(lǐng)導(dǎo)而言,可能更關(guān)注整體的學(xué)業(yè)增值情況,以及各區(qū)域整體增值情況。對于學(xué)校而言,可能更關(guān)注各學(xué)科的增值、不同教師的增值、不同起始水平的學(xué)生增值有何不同,以及如何通過增值評價(jià)提供的有價(jià)值信息,發(fā)現(xiàn)教育教學(xué)中存在的問題,從而改進(jìn)教育教學(xué)。因此針對不同的使用者,增值評價(jià)指標(biāo)體系的設(shè)計(jì)側(cè)重點(diǎn)應(yīng)該有所區(qū)別,同時(shí)在設(shè)計(jì)指標(biāo)體系時(shí)要考慮對使用者而言指標(biāo)體系是否科學(xué)、能否提供有價(jià)值的信息、是否簡單易懂便于使用。另一方面要考慮設(shè)計(jì)的指標(biāo)體系對于被評價(jià)者而言,是否科學(xué)、公平,如不同層次水平的被評價(jià)者,他們增值對應(yīng)的參照群體設(shè)置是否合理等。
目前,國內(nèi)外對于學(xué)業(yè)增值評價(jià)結(jié)果的使用主要有兩方面:一方面用于學(xué)校效能、教師績效的問責(zé);另一方面根據(jù)增值評價(jià)的結(jié)果,研究影響學(xué)校效能、教師績效的因素,對學(xué)校、教師的教育教學(xué)進(jìn)行改進(jìn)。無論增值評價(jià)的結(jié)果是用于問責(zé),還是用于改進(jìn),應(yīng)該充分認(rèn)識(shí)到學(xué)業(yè)增值評價(jià)是利用學(xué)生學(xué)業(yè)進(jìn)步程度的結(jié)果,間接地對學(xué)校效能、教師績效進(jìn)行評價(jià)。測驗(yàn)工具的信度、效度無論有多高,對學(xué)生學(xué)業(yè)真實(shí)水平的測量仍會(huì)存在測量誤差;無論采用什么最優(yōu)的模型,都不可能把與學(xué)校無法控制的因素窮盡地納入模型,從而達(dá)到無偏估計(jì)。由于數(shù)據(jù)收集、模型等因素存在隨機(jī)誤差、系統(tǒng)性誤差,因此對于學(xué)業(yè)增值評價(jià)的結(jié)果需要客觀、謹(jǐn)慎地使用,尤其是用于學(xué)校、教師高利害的問責(zé),學(xué)業(yè)增值評價(jià)的結(jié)果應(yīng)該作為問責(zé)的依據(jù)之一,而不是唯一依據(jù)。
學(xué)業(yè)增值評價(jià)從研究到實(shí)踐應(yīng)用,首先都會(huì)面臨有關(guān)數(shù)據(jù)的收集,諸如學(xué)生個(gè)人的縱向成績和有關(guān)的背景信息、學(xué)校、班級等信息;其次信息收集后需要進(jìn)行儲(chǔ)存、管理、運(yùn)用;再次根據(jù)研究或應(yīng)用的需要,進(jìn)行相應(yīng)的數(shù)據(jù)統(tǒng)計(jì)分析,最后得到增值評價(jià)的分析結(jié)果或報(bào)告。在整個(gè)學(xué)業(yè)增值評價(jià)研究的探索和實(shí)踐應(yīng)用過程中每一步都離不開信息系統(tǒng)的支撐,需要全面考慮實(shí)際情況,系統(tǒng)地進(jìn)行設(shè)計(jì)和構(gòu)建增值評價(jià)所需要的信息收集、管理、分析系統(tǒng),為學(xué)業(yè)增值評價(jià)的開展提供有力的信息技術(shù)保障。
國內(nèi)二十多年對增值評價(jià)的研究一方面?zhèn)鞑チ嗽鲋翟u價(jià)的先進(jìn)理念,另一方面基于理念在實(shí)踐中進(jìn)行了積極有益的嘗試和探索。然而增值評價(jià)在國內(nèi)并沒有形成大規(guī)模的應(yīng)用,其原因是多方面的:第一,用于增值評價(jià)的數(shù)據(jù)資料獲取不易。目前國內(nèi)用于增值評價(jià)的主要是中考、高考、國家義務(wù)教育監(jiān)測、區(qū)域階段性監(jiān)測等考生測驗(yàn)數(shù)據(jù)。這些高質(zhì)量的測驗(yàn)數(shù)據(jù)主要由國家、不同省市的教育考試機(jī)構(gòu)掌握,對這些數(shù)據(jù)的使用需要具有一定的權(quán)限。獨(dú)自開發(fā)用于增值評價(jià)的測驗(yàn),一方面人力、物力、財(cái)力成本很高,另一方面會(huì)加重學(xué)生的測試負(fù)擔(dān)。第二,增值評價(jià)的模型有關(guān)問題。首先國內(nèi)外常用模型都具有較嚴(yán)的模型假設(shè),而現(xiàn)實(shí)收集的數(shù)據(jù)資料并不一定能很好滿足模型的這些假設(shè);其次模型的計(jì)算較為復(fù)雜,需要專業(yè)人員;再次模型計(jì)算的結(jié)果對于許多增值評價(jià)結(jié)果的使用者而言較難理解。第三,用于增值評價(jià)的指標(biāo)體系過于籠統(tǒng),從而導(dǎo)致增值評價(jià)結(jié)果無法滿足用于改進(jìn)教育教學(xué)的需要。目前國內(nèi)的眾多研究還處于使用不同的增值評價(jià)模型對同一批學(xué)生兩次測試數(shù)據(jù)計(jì)算出學(xué)校的增值量,進(jìn)而與按最終測試成績進(jìn)行的結(jié)果評價(jià)的排名進(jìn)行對比。這樣的研究結(jié)果雖然比結(jié)果評價(jià)更為客觀、合理,但與改進(jìn)教育教學(xué)的目標(biāo)還有差距。
實(shí)現(xiàn)增值評價(jià)由理念到廣泛應(yīng)用,在目前國情條件下可以考慮:一方面加強(qiáng)高校與省、市教育考試機(jī)構(gòu)的合作,充分發(fā)揮高校專業(yè)人員的科研優(yōu)勢、教育考試機(jī)構(gòu)的數(shù)據(jù)資源優(yōu)勢,共同協(xié)作。另一方面完善增值評價(jià)指標(biāo)體系,細(xì)化區(qū)域、學(xué)校、班級及其不同層次水平學(xué)生的增值結(jié)果,為實(shí)現(xiàn)增值評價(jià)的教育教學(xué)改進(jìn)功能提供科學(xué)、客觀、有價(jià)值的依據(jù)。同時(shí),還要加強(qiáng)對使用者的增值指標(biāo)專業(yè)知識(shí)的培訓(xùn),只有使用者能夠理解,增值評價(jià)才能得以推廣使用。此外,為實(shí)現(xiàn)增值評價(jià)應(yīng)用目標(biāo),還應(yīng)加強(qiáng)信息化系統(tǒng)團(tuán)隊(duì)的構(gòu)建。增值評價(jià)從最初的數(shù)據(jù)收集到最后評價(jià)結(jié)果報(bào)告輸出,每一步都離不開信息化系統(tǒng),信息化系統(tǒng)既需要財(cái)力支持,也需要專業(yè)的測量、統(tǒng)計(jì)、計(jì)算機(jī)等專業(yè)人員通力合作,這是一般的研究者無法單獨(dú)完成的。