2020 年6 月30 日,中央全面深化改革委員會第十四次會議審議通過的《深化新時代教育評價改革總體方案》提出:“要改進結(jié)果評價,強化過程評價,探索增值評價,健全綜合評價,著力破除唯分數(shù)、唯升學、唯文憑、唯論文、唯帽子的頑瘴痼疾,建立科學的、符合時代要求的教育評價制度和機制?!边@是繼2018 年全國教育大會提出“扭轉(zhuǎn)不科學的教育評價導向”后,指導教育評價改革的又一份綱領(lǐng)性文件。其中,明確提出的“四個評價”引起了大眾的廣泛關(guān)注和熱議,尤其是需要“探索”的“增值評價”。
由此可見,探索增值評價新方式,構(gòu)建“面向全體、尊重差異、關(guān)注進步、促進發(fā)展”的學生學業(yè)增值評價體系,已成為新時代教育評價改革的重大舉措和突出亮點。
李凌艷在2020 年10 月的《中小學管理》《我們?nèi)绾斡煤媒逃鲋翟u價?》一文中認為:
第一,尊重但不神化增值評價的技術(shù)“面紗”。簡單而言,增值評價緣起于上世紀六七十年代國際上對教育質(zhì)量的擔憂和對學校效能的關(guān)注,到了80年代,多水平模型技術(shù)的發(fā)展和完善,為增值評價提供了更加精確的技術(shù)方法。然而,正由于其興起離不開復雜統(tǒng)計模型的發(fā)展,增值評價的實踐也一直沒有完全擺脫人們對其技術(shù)“黑箱”的質(zhì)疑。但是也正是由于統(tǒng)計模型的不斷探索和完善,增值評價可以通過現(xiàn)代統(tǒng)計技術(shù)手段,考察學?;蚪處煂W生發(fā)展的影響作用,分清隨著學生年齡增長和社會變化,究竟學校教育和教師在學生發(fā)展中有多大作用,以及究竟在哪些方面發(fā)揮了作用。只要認清了這一點,我們就揭開了技術(shù)的神秘面紗,理解了增值評價只是教育評價的一種,其根本功用就是更客觀地看清學校教育的效用。而就教育本身而言,它并不是一個能完全數(shù)量化的過程,不要苛求其統(tǒng)計數(shù)據(jù)的絕對精準,也不要迷信借助統(tǒng)計技術(shù)呈現(xiàn)的每一條精細結(jié)果。這樣一來,我們就不會被技術(shù)細節(jié)或細微的數(shù)據(jù)事實所困,不會陷入統(tǒng)計技術(shù)所帶來的數(shù)據(jù)汪洋中而迷失了評價本身的航向。
第二,理解并相信不論統(tǒng)計技術(shù)如何臻進,增值評價的要義始終在于“關(guān)注點”和“參照系”兩個根本變化點,其他則很可能都是附生價值。無論增值評價的統(tǒng)計原理看起來多么復雜、高深,數(shù)學統(tǒng)計公式多么巧妙、高級,與傳統(tǒng)的用一次性橫斷統(tǒng)計數(shù)據(jù)進行結(jié)果評價的做法相比,增值評價改變的就是兩個基本點:對教育的不同關(guān)注點,以及用不同的教育結(jié)果參照系進行對比。
所謂對教育的不同關(guān)注點,是指與傳統(tǒng)的結(jié)果評價相比,增值評價關(guān)注的不是進行評價時的絕對值,而是在多次評價追蹤過程中的增長值。或者說,傳統(tǒng)的用一次結(jié)果進行的橫斷評價,無法考慮每個結(jié)果之前的起點以及獲得這一結(jié)果的過程,而增值評價關(guān)注點的變化恰恰在于此。也正因如此,增值評價可以考察教育所帶來的增值,可以在教育增值中分離出學校和教師的相對凈效應。
所謂用不同的教育結(jié)果參照系對比,是指當考察增值效應值的大小時,增值評價技術(shù)可以選擇不同的常模參照系,可以跟全國或其他更大范圍的常模參照對比,但是在增值評價實踐中,更多、更有效的做法是選擇與評價起點相近水平的群體常模進行參照對比,這樣更能體現(xiàn)增值的思想和評價的公平。比如:對于學校的增值,評價可以把學生入學時的水平分成不同等級,然后在追蹤評價時分別根據(jù)原有所屬等級水平學生的常模進行進步值的分組對比,這樣更能體現(xiàn)學校對不同教育起點學生的教育增值。
基于以上兩點,只要在增值評價的實踐中緊緊把握“關(guān)注點”和“參照系”這兩個變化點,就能萬變不離其宗,牢牢抓住增值評價的要義,始終體現(xiàn)其根本價值。相反,如果陷于具體評價結(jié)果的細枝末節(jié),那么增值評價很可能會陷入復雜統(tǒng)計結(jié)果的數(shù)據(jù)泥沼中無法自拔,就還是舉著增值評價的“旗幟”行一次性、結(jié)果性絕對評價之實,走的還是以評價進行排名排隊的簡單粗暴的評價問責之路。
劉進球、劉奕在2020 年第11 期的《湖南教育》《創(chuàng)新增值評價方式,促進學業(yè)全面發(fā)展》一文中指出:
基于“增值”的學業(yè)評價體系將重心轉(zhuǎn)移到“激勵”之上。由于堅信所有學生都能實現(xiàn)“增值”,關(guān)注的不是分數(shù)而是進步,潛藏在成績背后的每一點付出、每一絲變化都被測量到,并且被尊重、被肯定,學生學業(yè)進步的“星星之火”,自然就比較容易因此而形成“燎原之勢”。學業(yè)評價與醫(yī)師治病不同,醫(yī)師治病必須“對癥下藥”,自然要把病癥查清弄透;學業(yè)評價旨在“因材施教”,關(guān)鍵是要做通“材”的工作,強化學生的內(nèi)驅(qū)力和自信心。葉圣陶先生主張:“教是為了不教?!币_到“不教”目的,就必須調(diào)動學生,讓他們明白“努力就能增值、付出就能收獲、學習就能成長,進步就能成功”。認可進步、放大優(yōu)點、傳遞正能、促進發(fā)展,可以說是學業(yè)增值評價的最大特色和突出優(yōu)勢。
增值評價是國際上最為前沿的教育評價方式,但普遍只用以評價教師教學和學校辦學,只用于促進教育公平、均衡發(fā)展,其實,增值評價對于提供適合學生的教育、促進學生全面而有個性發(fā)展也意義重大。在開展增值評價時,人們常常諱言學業(yè)增值評價,仿佛一談學業(yè)就在搞應試教育、在“以分數(shù)論英雄”。其實,“學生以學為主”,探索學業(yè)增值評價方式,是正大光明之舉,沒有必要小心翼翼。筆者認為,學業(yè)評價永遠是教育評價的重點和焦點,關(guān)鍵是要創(chuàng)新,要將目光鎖定在“增值”上,真正做到面向全體、尊重差異、關(guān)注進步、促進發(fā)展。著名學者馬小強說:“尋求學生最大幅度的增值是學校的使命?!苯逃u價也應該這樣,要視“尋求學生最大幅度的增值”為使命追求,為促進學生全面而有個性、主動而生動的發(fā)展做出貢獻。
趙德成在2020 年10 月的《中小學管理》《將增值性評價引入教師績效考核,如何系統(tǒng)推進?》一文中談到:
在我國,關(guān)于增值性評價的研究尚處于起步階段,嚴格意義上在教師人力資源管理實踐中應用增值性評價的實踐案例幾乎沒有報道。隨著《深化新時代教育評價改革總體方案》的頒布,增值性評價將逐漸從研究和政策文本走向?qū)嵺`,成為教師績效考核的新趨勢。那么,在教師績效考核實踐中做好增值性評價需要注意哪些問題,筆者結(jié)合我國實際提出如下建議。
增值性評價的核心數(shù)據(jù)是學生參加標準化測驗所取得的成績。這就必然面臨一個現(xiàn)實問題:近些年來不少地市為減輕中小學生過重學業(yè)負擔,明確要求嚴格規(guī)范考試和評價工作。比如:許多省市規(guī)定,除組織初中畢業(yè)升學考試外,區(qū)縣不得在初中其他年級和小學組織統(tǒng)一考試。而增值性評價一般不能由學校單獨實施,需要在學區(qū)乃至區(qū)縣、地市等更大層面上統(tǒng)籌推動,如果沒有跨校的統(tǒng)一考試,那么增值性評價就無法實施。
有人建議將增值性評價與區(qū)縣教育教學質(zhì)量監(jiān)測數(shù)據(jù)聯(lián)系起來。但值得注意的是,多數(shù)質(zhì)量監(jiān)測項目采用概率比例抽樣或其他方式抽取一個學生樣本參與,而不是針對區(qū)域內(nèi)所有學生;測驗內(nèi)容只覆蓋語文、數(shù)學、科學等部分學科,且通常情況下為避免學校之間對學生學業(yè)成就水平進行比較,參與質(zhì)量監(jiān)測的學生只完成若干題組中的部分測驗,而不是完整的學科測驗;另外,質(zhì)量監(jiān)測項目只針對4 年級、8年級等少數(shù)年級,缺乏逐學年的連續(xù)追蹤數(shù)據(jù),所以質(zhì)量監(jiān)測項目也難以為教師增值性評價提供數(shù)據(jù)支持。有關(guān)部門需要對有關(guān)政策和工作安排進行系統(tǒng)反思與改進,一方面使收集區(qū)域性跨年級學生學科學業(yè)成就連續(xù)數(shù)據(jù)成為可能,另一方面又不能因此加劇應試教育傾向,增加學生負擔。
評價數(shù)據(jù)庫建設(shè)是增值性評價實施的前提。增值性評價采用追蹤測驗的研究范式,不僅要保存學生在多次標準化測驗中的成績數(shù)據(jù),而且要收集來自學生、家庭、班級、教師、學校等多方面的相關(guān)數(shù)據(jù)。增值模型構(gòu)建是一個不斷探索與完善的過程。已有研究發(fā)現(xiàn),在同一地區(qū)針對同一批教師,采用不同的模型,在增值分析中控制不同的變量,可能導致對教師績效的高估或者低估。有時候,在同一地區(qū),針對不同學科教師的增值性評價也需要采用不同的模型,因為對學生成績有重要影響的因素具有學科差異。要確保模型能納入各種影響學生成績但教師又無法控制的因素,使模型能為管理者和教師廣泛接受,我們就需要注意數(shù)據(jù)的全面性,尤其是在改革初期的探索階段。當然,這種全面也是有限度的,究竟收集什么數(shù)據(jù)不僅要充分借鑒已有研究,而且要結(jié)合當?shù)貙嶋H,廣泛聽取干部和教師意見,收集各種可能有用的信息。而且在收集過程中要注意減輕師生負擔,如果有些數(shù)據(jù)在其他數(shù)據(jù)庫中已經(jīng)存在,就不要重復收集,只要開放數(shù)據(jù)接口和做好鏈接就可以。
需要注意的是,在各種教育測驗編制與改進過程中,測驗效度這個基礎(chǔ)性問題尚未受到足夠重視。
效度反映了一個測驗題目或一整套測驗準確測量欲測特質(zhì)(如口語交際能力、邏輯推理、批判性思考)、針對既定目標做出推論和解釋的有用性程度,它是衡量測驗質(zhì)量的首要指標。當前,全球最具影響力的測驗質(zhì)量分析框架——《教育與心理測試標準》,在1999 年版及2014 年最新版中都強調(diào)效度是教育測驗最根本的要求,將其放在首要位置進行分析與討論。如果測驗不能有效描述學生在預測特質(zhì)上的表現(xiàn),不能準確推論學生達成既定學習目標的程度,比如一項歷史測驗本意要考查學生對歷史知識的掌握程度,但實際考查到的是學生的閱讀理解能力,那么即使它的難度、區(qū)分度、信度合乎測量學要求,也是不合格的測驗。題目參數(shù)估計、等值化處理等復雜技術(shù)必須在測驗效度達標的前提下才有意義。
同樣的道理,只有學科測驗的效度合乎測量學要求,基于測驗成績及相關(guān)因素所進行的增值性評價才是可以接受的,也才能在實踐中真正發(fā)揮對教師教學行為以及課程改革的積極導向作用。所以,各區(qū)縣和學區(qū)在推動增值性評價過程中,必須高度重視學科測驗的效度,改善測驗質(zhì)量,同時也要確保其他數(shù)據(jù)的真實性、有效性與可靠性。
發(fā)達國家的教師績效工資改革能在加大獎懲力度、拉開收入差距的背景下成功推動十多年,不僅是因為他們構(gòu)建的增值模型控制了多種非教師因素,從細節(jié)上保障了評價的公平性,而且更重要的經(jīng)驗是他們在改革中采取積極而謹慎的態(tài)度。他們不盲目追求分析技術(shù)的復雜性,沒有采用多水平模型,而是采取便于理解與實施的多元線性回歸分析模型;他們在控制變量選取上不僅參考已有研究,而且積極聽取和響應教師的關(guān)切;他們沒有因為聯(lián)邦教育部和資助方要求加強教師工資與學生分數(shù)增值的聯(lián)系,就在實踐中擴大化應用增值性評價,在他們的教師考核方案中,增值性評價只是教師整體績效考核的一部分,而且只針對考試學科教師。
總之,在教師績效考核實踐中應用增值性評價,關(guān)系到每一位教師的切身利益與專業(yè)發(fā)展,大而言之更是關(guān)系到學校、地區(qū)乃至國家的教師隊伍建設(shè)。政策制定者、管理者和研究者要加強合作溝通,積極穩(wěn)妥地推動有關(guān)改革。