龔 偉 應益可
德國自2006 年開始實施州際學業(yè)比較測試(Vergleichsarbeiten,簡稱VERA),旨在調查診斷學生在某些方面所取得的能力。該測試結合能力水平模型(Kompetenzstufenmodell,簡稱KSM),并運用分數(shù)形式的能力水平量表(Metrik der Kompetenzskala),對學生能力進行定量描述,以幫助學校和教師形成促進學生能力發(fā)展的教學策略,很好地改善了以往德國在PISA 測試中排名靠后的狀況。自2015 年起,我國也開展了國家義務教育質量監(jiān)測工作,但相較于德國,我國的教育質量監(jiān)測工作剛剛起步,迫切需要參考其他國家的成功經(jīng)驗。本文系統(tǒng)闡述了VERA 的具體研究過程與實施情況,并基于我國基礎教育質量監(jiān)測工作進行思考與探索。
2001 年12 月,PISA 2000 研究報告顯示,德國15 歲學生中有1/4 的學生無法正確書寫和閱讀,在數(shù)學和自然科學領域遠遠落后于其他國家和地區(qū),排名處于中下游。[1]為了回應這一“PISA震驚”(PISA Schock),德國重新審視了各州教育自治體系給教育質量監(jiān)測帶來的巨大阻礙①,迅速采取了以下兩項重要舉措。(1)2003 年,KMK(Kultusministerkonferenz,簡稱KMK)組織頒布了德國中小學國家基礎教育標準,結束了各州教育標準不統(tǒng)一的局面。KMK 基于教育標準對4 年級和9 年級學生開展國家能力測評(Nationale Schulleistungsstudien),以便了解學生在畢業(yè)時的能力水平,同時以此作為學生能否取得畢業(yè)證書的一個依據(jù)。②(2)2004 年,KMK 在柏林洪堡大學(Humboldt Universitat)成立了德國教育質量研究所(Institut zur Qualitatsentwicklung im Bildungswesen,簡稱IQB),以支持德國16 個州改善和保證其教育系統(tǒng)的教學質量。IQB 為了有針對性地測試學生的學業(yè)水平和能力,于2006 年通過了常設會議教育監(jiān)測綜合戰(zhàn)略(Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring)。該戰(zhàn)略由4 個部分組成[2]:國際中小學教育評估,例如PISA、PIRLS、TIMSS;基于教育標準的國家能力測評;小學、初中水平測試的州際學業(yè)比較(VERA);撰寫國家教育發(fā)展報告。
自2006 年以來,VERA 擴大調查對象,啟動跨地區(qū)合作項目“小學學習情況調查”(Lernstandserhebungen in der Grundschule),旨在加強各地區(qū)間的教師合作與教學指導。[3]2010 年底,KMK 發(fā)表關于教學發(fā)展的教育標準,強調VERA 的數(shù)據(jù)反饋是學校課程開發(fā)周期的關鍵組成部分,必須植根于反饋文化,以此作為數(shù)據(jù)報告和數(shù)據(jù)使用之間的接口。[4]在2012 年3 月關于VERA 的進一步發(fā)展的協(xié)定中,KMK 強調了VERA 作為學校和課程開發(fā)工具的作用,認為相比于測試學生在課堂上學到的教材或課程內容,還應注重監(jiān)測學生習得的與課堂材料或內容無關的能力,并且這些測試的結果不會被用來作為后續(xù)學生成績的預測因素,只用于教學的診斷和改進。[5]
由此看出,VERA 作為德國各州學生能力的測評與反饋工具,其總體目標是使教育更加注重學生的能力,以測評為載體,了解學生在學校中某一特定點上應達到哪些能力,從中發(fā)現(xiàn)學生能力在各方面的強弱。其測試結果將給教師提供建議和支持作用,以發(fā)展和加強教師的診斷能力,針對學生能力的薄弱點改進教學方式,從而不斷提高學生能力,使學生在畢業(yè)時能達到教育標準所規(guī)定的能力要求。
作為一個能力診斷和促進教學發(fā)展的工具,VERA 著力于將學生的實際能力水平與教育標準規(guī)定的能力水平進行比較,幫助教師評估學生在課堂內外的表現(xiàn),反饋結果為教師教學設計提供參考。
(1)測評對象
PISA 和TIMSS 作為國際性測評,只對參加評價的學生年齡做出了規(guī)定,并未考慮到不同地區(qū)學生因為學制差異而處于不同學段或年級。德國國家能力測評則結合本國特色將測評對象規(guī)定為小學和中級I 的畢業(yè)生。VERA 為了突出其診斷功能,將測評對象設定為3 年級(VERA-3)和8 年級(VERA-8)學生,為學生和教師提供了發(fā)現(xiàn)和解決問題的機會,從而幫助學生達成教育標準所要求的能力水平。
(2)測評方式
與PISA、TIMSS 和德國國家能力測評等項目不同,VERA 不是一個抽樣調查的監(jiān)測系統(tǒng),而是針對德國16 個州的所有3 年級和8 年級學生進行的調查,擴大了調查對象的范圍,有利于對學生整體發(fā)展趨勢的把握。在學生差異性方面,VERA 則根據(jù)各州學生的不同情況分別開發(fā)測評工具,使調查結果更精確、更具有參考價值。
(3)測評重點
PISA 和TIMSS 主要是通過考察學生的學習狀態(tài)并進行橫向比較,從而為各參與國和地區(qū)的教育決策提供依據(jù)。德國國家能力測評則是探究各州學生學科能力水平的發(fā)展趨勢,以全面提高學生的學業(yè)水平。而VERA 更關注對學生學科能力的診斷,旨在為學生找出薄弱點、教師改進教學提供支撐。
(4)測評地區(qū)與人員
有意向參與PISA、TIMSS 及德國國家能力測評的地區(qū)都需要自己提出申請,通過審核后才能進行測評,且進行測評的人員均為一線專家。VERA 雖然強制要求德國各州參與測評,但一線教師的直接參與突破了“自上而下”測評范式的局限,在測評中,教師可以有效結合本地區(qū)學生的實際情況最大化運用獲取的信息,能更好地將測試結果進行反思并做出針對性的改變,有效提高了測評的效果。
(5)測評與反饋頻率
從測評頻率來看,PISA、TIMSS 和德國國家能力測評均有一定的時間間隔(如德國國家能力測評實施頻率為小學每5 年測評一次、中學每3年測評一次),針對測試結果的反饋一般在測試的3 年后給出,具有一定的滯后性。而VERA 自2006 年首次測評以來,每年都進行測評,測試結果在數(shù)據(jù)錄入后馬上進行反饋。得益于VERA 的高頻率測試與即時反饋,教師能在第一時間發(fā)現(xiàn)學生存在的問題并有針對性地解決,自此,德國學生的各項能力水平迅速提高,德國在PISA 2015 中的排名進步顯著。[1]
(1)反饋循環(huán)模型
2004 年,Helmke 提出學業(yè)測試的反饋循環(huán)模型(Zyklenmodell der Rückmeldung)的理論框架[6],該框架分為4 個階段,如圖1 所示。第一階段為接收信息,這里的信息包括測試任務、測試對象、測試過程、測試結果等,教師在接收過程中要注意信息的及時性、實用性和可理解性,并對接收的信息進行有效分析,篩選出具有實際參考價值的信息。第二階段為反饋,教師需要借助自身經(jīng)驗,結合實際教學與學生表現(xiàn),分析與比較測試結果,并試圖解釋結果及尋找原因。第三階段為采取措施,教師要確保學生達到最低能力水平,鼓勵并幫助低水平學生找到薄弱點,同時改進自身教學方式,提高教學質量和自身的班級領導力。第四階段為進行評估,這個階段要對第三階段采取的措施進行有效性檢驗,并加以改進,從而完成整個循環(huán)過程。在整個循環(huán)過程中,需要考慮個人因素與外部因素:個人因素包括教師的自我效能、專業(yè)知識、動機和意志等;外部因素主要由學校因素組成,其中包括學校環(huán)境、學校計劃、合作氛圍等。
(2)VERA 能力模型和測試任務開發(fā)的技術路線
Klieme 強調:教育標準的構建應立足于教育學、心理學和專業(yè)實踐合作發(fā)展的能力模型,而這種能力模型需區(qū)分每一領域內的子維度,并描述子維度下的不同水平。[6]作為一項跨學科研究計劃,能力模型的架構和測試任務的開發(fā)需要經(jīng)過長時間的驗證。IQB 在教育政策的指導下,依據(jù)學科教育目標及內容標準,借助相關的教育學、心理學、測量學理論,率先對能力及能力水平的定義做了一定的預設,進而通過反復編制測試任務及測驗,將測驗結果與預設標準進行比較,根據(jù)結果不斷修改能力模型,并得到具有一定判決性的測試任務(如圖2)。這說明基于標準和能力模型的測試任務的開發(fā)不是單向進行的,而是一個循環(huán)往復不斷完善的過程,任務不僅是該循環(huán)過程的最核心的輸出,更是這一過程的中介環(huán)節(jié)。
圖1 反饋循環(huán)模型理論框架[6]
圖2 VERA 能力模型和測試任務開發(fā)的技術路線圖
具體而言,IQB 開發(fā)的測試任務由專家和一線教師共同完成。首先,IQB 對所有參與的一線教師進行調研,幫助他們更好地理解教育政策、教育目標及測試內容,并收集教師提出的良好建議,然后由一線教師和專家共同編制試題,并進行測試與結果反饋。其次,在新一輪的試題編制過程中,開發(fā)者們在了解新學年測評任務的各類事項后,通過自我分析與小組討論并依據(jù)結果標準對上一年的測評結果進行定性判斷,從中找出測試任務中有待完善的問題,亦可以能力模型為參照采取相應措施進行修改,并再次對學生進行測評。如此反復臻于完善。
(3)能力導向的教育標準設計
教育標準是國家對學生的特定教學期望,是保障和發(fā)展學校工作質量的全部戰(zhàn)略和措施的核心工具,具體化了普通學校必須履行的教育使命。KMK 在制定教育標準過程中,堅持以學生能力的長期發(fā)展為原則[7],由專家和一線教師組成工作組,結合PISA、TIMSS 等測評框架,由學校實踐經(jīng)驗及學科知識背景提取的能力模型,以及Klieme 提出的能力水平假設,建構起適合本國的教育標準。該標準符合國際上對教育標準的理論描述,是內容標準、結果標準、級別要求的三者混合體,并進一步細化為3 個維度:傳統(tǒng)課程內容的相關組成部分(即內容)、與課程內容相關的能力(即能力)、認知組成部分(即要求)。如圖3 所示,陳述性知識的內容通過程序化成為程序性知識,當這些程序性知識轉移到更高水平層次時即表征為能力,而“要求”部分連接了內容和能力,根據(jù)任務的難易程度和學生差異,完善了對預期學習結果的描述。從教育標準制定的意義上來說,它打破了德國各州自制教育標準的格局,通過內部和外部評價來實現(xiàn)學校的系統(tǒng)性發(fā)展,不僅成為學生展示如何解決與學科相關的任務和問題的重要工具,分析各自達到的學習水平并允許制定學習路徑,從而制定個性化的學習規(guī)劃,同時也指導教師按照教育標準進行教學,為自身的專業(yè)發(fā)展提供了參考體系。
圖3 教育標準的框架模型
(1)基于教育標準的學科能力解構
教育標準描述了學生在學校職業(yè)生涯的某些方面應該獲得的與學科相關的能力,其主要目標在于提高教學質量,以及檢查這些目標在多大程度上能達到教育計劃,從而改善學生的表現(xiàn)及其對學科的態(tài)度,此外還提供了對學生目標期望的相關指導。IQB 基于教育標準的學科能力結構的核心任務就是建構適合德國基礎教育質量監(jiān)測工作開展的依據(jù)——KSM,KSM 的設置需要滿足以下5 個方面的要求[8]:①充分考慮各州間學生多樣化的情況,設想具有挑戰(zhàn)性和合理性的預期;②清晰說明所有地區(qū)學生所需要達到的最低能力水平;③不斷細化擴展現(xiàn)有的能力要求;④制定激勵性的能力預期以提高學校發(fā)展動力;⑤在教師中獲得廣泛認可。
如前所述,教育標準的共同框架區(qū)分了3 個維度:內容、能力、要求。其中,“能力”維度是以特定的學科或學習領域為基礎的,其定義須符合教育期望以及教學中的可能性和局限性,并滿足某些特定的要求?!耙蟆本S度是基于現(xiàn)有的教學經(jīng)驗及測試任務,根據(jù)學生在同一個問題所反映出的不同表現(xiàn),確定測試任務的復雜性和難度。IQB對每個科目的能力維度都提出相應的水平等級,學生的能力和任務的難度可以在同一尺度上進行比較,這樣就可以對這一尺度上的某些間隔進行實質性描述(即能力水平)。如此,教育標準不僅規(guī)定了一個最低水平,還區(qū)分了學生能力在達到最低水平之后的不同能力水平,進而構建了層次明晰的KSM。KSM 的建立使得教育標準一方面預期了學生應遵守“要求”的結構,另一方面提供了科學合理的解釋依據(jù)來說明學生可以接受哪一種等級或不同學生所處的程度或水平,使得學習可持續(xù),具有漸進性。
圖4 數(shù)學學科能力模型示意圖[9]
目前,KSM 的研究領域主要涉及語言(德語、英語、法語)與數(shù)學。以數(shù)學學科為例(如圖4),數(shù)學教育標準區(qū)分了3 個維度,分別是“過程”“內容”“要求”。[9]“過程”維度詳細描述了6 個宏觀數(shù)學能力:數(shù)學論證(K1),數(shù)學地解決問題(K2),數(shù)學建模(K3),數(shù)學表征的應用(K4),數(shù)學符號、公式以及技巧的熟練掌握(K5),數(shù)學交流(K6)?!皟热荨本S度結合數(shù)學核心內容將這些宏觀的數(shù)學能力具體化,指出數(shù)學核心內容領域:數(shù)(L1)、測量(L2)、空間與形狀(L3)、函數(shù)關系(L4)、數(shù)據(jù)與隨機現(xiàn)象(L5)?!耙蟆本S度提出了學生能力的3 個方面:再現(xiàn)內容(I)、建立聯(lián)系(Ⅱ)、概括與反思(Ⅲ)。
(2)能力水平表現(xiàn)的區(qū)分
由于在以往的測評過程中不同學生可能會得到相同的評價,這些反饋難以區(qū)分學生之間的本質差異,只能得出關于學生解決方案的有限結論。因此,IQB 為了給學生提供更多的發(fā)展依據(jù),應用教育標準所依據(jù)的能力水平量表,編寫了不同的測試任務,充分捕捉學生的表現(xiàn)差異。能力水平量表結合級別要求的標準將每種要測的能力分為5 個水平,從低到高依次為:水平I(不合格),指學生沒有達到中學畢業(yè)時教育標準所規(guī)定的最低能力;水平Ⅱ(最低標準),指學生都應該達到中學畢業(yè)時教育標準所規(guī)定的最低能力;水平Ⅲ(規(guī)范標準),指學生達到中學畢業(yè)時教育標準所規(guī)定的一定水平的能力;水平IV(規(guī)范標準+),指學生達到的能力水平略高于規(guī)范標準能力水平;水平V(最佳標準),指學生所達到的能力水平明顯高于規(guī)范標準能力水平。[10]IQB 基于每個學科的教學標準賦予了上述5 個水平等級相應的分數(shù),并與普通中學畢業(yè)考試(HSA)、中等學校畢業(yè)考試(MSA)對學生的要求一一對應,擴展后的能力水平量表不僅可以判定學生所處水平,也為教與學的開展提供了更多有價值的信息。③如德國某中學生在VERA-8 數(shù)學測試中取得434 分的成績,根據(jù)表1 中MSA 標準可知他有可能進入職業(yè)培訓學校而不能進入高中繼續(xù)學習,如果他有進一步深造的愿望則可以根據(jù)他參加VERA-8 數(shù)學測試得到的反饋進行有針對性的學習調整,以便在參加HSA 或MSA 考試中取得理想成績。
(3)能力試題的編制
表1 數(shù)學學科能力水平量表[11]
IQB 確定各學科能力與能力水平量表后,試題編制組針對需要測試的能力編制一系列試題,題型包括選擇、簡答和論述等,統(tǒng)合成3 本測試小冊子。在設計測試任務過程中需要時刻考慮以下4 項原則[12]:①與其他學生或學校的測試結果相比,IQB 測試結果應該以“分配為導向”或“規(guī)范”,還是以“標準為導向”進行解釋?②是否應將學習區(qū)域內的能力記錄在一個整體尺度(一維尺度)上,還是應單獨區(qū)分和記錄幾個子能力(多維尺度)?③讓所有的學生都做同樣的測試,還是通過在一個班級內“交換”測試任務,向學生們提交不同的任務,以確保有足夠的任務與數(shù)據(jù)?④同樣的測試應該適用于所有技能水平和學校形式,還是使用適合群體或個人能力的任務?一般來說,學生完成1 份小冊子的時間控制在80 分鐘內,而小冊子任務的難度取決于本州范圍學生樣本的初步試點水平。例如,以3000 名學生為樣本進行標準化的測試,一般把方案解決率為10%的任務定義為非常困難,把方案解決率為90%或更高的任務定義為非常簡單,通常會把測試手冊的平均方案解決率控制在50%到60%之間,并在正式使用之前反復測試,直至所需測試的能力與教育標準相對應才會被VERA 使用。這樣的試題命制達到了以下兩個目的:①確保將教育標準中對學科能力的界定和要求反映在試題中,學生的得分能真實地反映他們的學科能力;②通過與能力層次對應的賦分原則,確保將能力進行分層,進而保證教育目標對能力的要求最終落實在教育評價之中。
KSM 強調能力發(fā)展是一個可持續(xù)過程,要求從學生現(xiàn)有基礎出發(fā),設計符合并促進學生發(fā)展的測試題,使所有學習者在整個學習生涯中能力得到不斷發(fā)展。下面展示一個數(shù)學中關于測量(L2)的例子,這個試題將說明學生所應掌握的知識程度,以及實際解決問題的能力。
①試題舉例[13]
上圖是生活中常見的牛奶盒,請回答以下問題。
1. 當你喝牛奶時,吸管為什么很容易滑進牛奶盒?
2. 如果由你設計牛奶盒上的小孔,吸管長度會如何變化?如果小孔正好在中間,吸管要多長才不會滑進去?
3. 在牛奶盒上固定一根較長的吸管會遇到什么問題?吸管最長是多少?
②試題分析
這個題目選自數(shù)學測試,是以生活中的真實問題——吸管容易滑進牛奶盒為試題情境的。該題要求學生解釋其原因,并思考牛奶盒上小孔的不同位置對吸管長度有何影響,因此該測試任務的核心內容屬于測量(L2)。如表2 所示,解決這一問題首先要從生活中識別數(shù)學問題,并能夠用數(shù)學方法解決問題(數(shù)學地解決問題,K2)。其次,第二個問題是3 個問題中的核心,需要學生在動態(tài)變化過程中,利用極限法選取幾個特殊的靜態(tài)來用數(shù)學語言分析相應的問題(數(shù)學表征的應用,K4),在此過程中更需要學生靈活地調用數(shù)學符號、公式并進行熟練推理(數(shù)學符號、公式以及技巧的熟練掌握,K5)。由上分析可知,該試題對學生的認識要求達到了“建立聯(lián)系(II)”水平,只有VERA 成績達到675 分以上(V)的學生才能正確作答。
表2 數(shù)學學科能力測試分析
(4)紙筆測驗的實施及反饋
IQB 在指導建立學科測評工具的基礎上,組織協(xié)調各州開展VERA 的紙筆測驗。測驗日期由IQB 事先劃分一段時間,再由各州根據(jù)自身情況在規(guī)定時間內自由安排并予以公示。例如,2019年的VERA-3 選擇在4 月15 日~5 月24 日進行,數(shù)學測試內容為L3、L4 和L5,德語分兩天測試,內容為閱讀和聽力;VERA-8 選擇在2019 年2 月12 日~4 月5 日進行數(shù)學、英語、德語和法語的測評。為了能夠準確獲取每位學生能力的發(fā)展狀況,所有符合條件的學生都被要求參加測試。④
VERA 的診斷結果反饋通常在完成測試的一個月后發(fā)布,評價重點不在于學生的得分情況或預測其學業(yè)成績,而在于對結果的分析和解釋。這些反饋為學生和教師提供了重要的信息支持。一方面,學生可以了解自身能力水平的發(fā)展情況,找到自己學習上的薄弱點及與他人的差距,以此激發(fā)內在的學習動機與競爭意識,調整自己的學習進程以獲得進步。另一方面,學校和教師也得到了更多的教學支持,具體體現(xiàn)在:測試項目和結果反饋始終關注學生的能力;測試為教師提供多種方法了解自己班級的學習進度;測試能夠提高教師的診斷技能;教師可以利用測試結果來證明和規(guī)劃教學干預措施和支持措施;結果反饋可用于改進學校特定學科的教學。[14]
由于德國是聯(lián)邦制國家,VERA 的整體設計與組織統(tǒng)籌由IQB 負責,但各州在這一過程中并不是被動地接受,而是積極地參與其中,與IQB一起為VERA 測評工作的深入推進開展積極探索,使之更好地為課程改革與教學實踐提供支持。
VERA 項目在設立之初就從理論層面提出:開展該測評項目的最主要目的就是要突出其教學診斷功能,為教學反饋提供更多的有意義的信息。在2012 年3 月關于VERA 的進一步發(fā)展的協(xié)定中,KMK 強調了VERA 作為學校課程開發(fā)工具的作用,相比于學生在課堂上學到的與教材或課程相關的內容,應更注重學生與生活有關的能力,并且這些測試的結果不會被用來作為后續(xù)學生成績的預測因素,只用于教學的診斷和改進。[5]
各州在實踐層面上也積極探索如何踐行這一要求。如2013 年,不來梅州為VERA 的進一步實施提供了指導,它向公眾公布部分VERA 的結果[15],詳細說明了每一題所包含的測試能力、水平及所在水平的人數(shù)和該題目的正確率,并對每位測試學生進行編號,呈現(xiàn)該學生總體的答題情況,為其他各州提供了寶貴的借鑒材料。自2015年以來,黑森州一直在組織專家會議(Fachkonferenz)及“威斯巴登論壇(Wiesbadener Forum)”,其目的是為專家學者、一線教師提供交流經(jīng)驗的平臺,就他們所提供的學生情況展開研討,以尋求教學反饋的有效路徑。同時基于VERA-8 提出了VELM-8 (即Verbesserung der Effektivitder Lernstandserhebungen Mathematik Klasse 8),該項目旨在調查8 年級學生的學習有效性,進而指導教師使用教材,為教師選擇恰當?shù)慕虒W起點。
由此可見,VERA 是診斷取向的教育測評,自其誕生之日起就一直在不斷修改與完善,使得整個測評工作更好地為德國課程改革與教學實踐服務。 2018 年第87 屆副部長委員會(Amtschefskommission)更是明確了VERA 用于保證學校教學質量、為課程與教學提供更多支持的作用。
目前德國絕大部分州的測評工作主要集中在3 年級和8 年級,測試的項目也主要集中在數(shù)學和語言學科。為了讓更多的學生能夠從VERA中受益,各州嘗試增加測評年級和測試項目,如梅克倫堡-西波美拉尼亞、薩克森、石勒蘇益格-荷爾斯泰因和圖林根等州嘗試在6 年級開發(fā)VERA-6 項目,主要用于測試學生的德語水平,重點考查學生的閱讀、聽力和語言運用寫作等能力。
各國參與PISA 項目是一種典型的“輸入”模式,而VERA 則屬于“輸出”模式,目前已經(jīng)輻射到歐洲的其他國家,如VERA 在2012 年和2015年向意大利南蒂羅爾地區(qū)的博爾扎諾自治?、萏峁┮獯罄Z言能力測試評估,主要測評學生的聽力、拼寫、閱讀理解、語法和寫作等能力。這種輸出模式的嘗試一方面擴大了德國的影響力,另一方面測評項目將所遇到的新情況進行反饋也必然有利于VERA 的發(fā)展與豐富。
自2006 年VERA 正式啟動以來,IQB 始終根據(jù)實際情況不斷改進、豐富測評內容。正因如此,VERA 從最初不被教師所接受逐漸發(fā)展成為德國探尋學生能力水平發(fā)展路徑的重要工具,并喚醒各州去發(fā)現(xiàn)自身教育弊端,積極進行教育改革,成為德國制定教育政策、豐富課程內涵、提升教育教學水平的有力保障。在我國,自改革開放以來,課程建設要求從“狠抓雙基”到“實現(xiàn)三維目標”再到“關注核心素養(yǎng)”,這反映了我國課程設計越來越關注學生內在發(fā)展的本質要求,但也容易造成監(jiān)測目標與監(jiān)測內容的不斷轉變,難以形成一個系統(tǒng)性的測評項目。比如現(xiàn)階段我國的大部分監(jiān)測項目以“三維目標”的實現(xiàn)程度為監(jiān)測目標,以學生核心學科的學業(yè)水平為監(jiān)測內容,但“情感態(tài)度價值觀”方面的要求在實際測評工作中依然難以落實到位,監(jiān)測主題和范圍也僅限于學校,無法全面反映和描述學生的必備品格和關鍵能力。由此,我國要借鑒VERA 測評框架設計與試題編制的經(jīng)驗,在現(xiàn)行教育監(jiān)測工作開展的基礎上,發(fā)現(xiàn)“雙基”“三維目標”“核心素養(yǎng)”三者間的內在連貫性,盡快完善“核心素養(yǎng)”要求背景下的測評框架,務必保證測評工作的繼承性和延續(xù)性。
VERA 的測評不過多關注學生在課堂上如何認識或掌握知識,而是為學生提供更多實際問題并要求學生創(chuàng)造性地運用知識解決困難,更關注學生對社會性問題的思考,強調學生的能力發(fā)展。2014 年,我國教育部在《關于全面深化課程改革落實立德樹人根本任務的意見》中指出:將組織研究提出各學段學生發(fā)展核心素養(yǎng)體系,明確學生應具備的適應終身發(fā)展和社會發(fā)展需要的必備品格和關鍵能力。[16]提出“核心素養(yǎng)”的目的就是為了實現(xiàn)教學方式從“學科本位”到“學生中心”的轉變,課程與教學的評價方式也應發(fā)生相應的變化。以往,我國大型標準化考試往往成為學生分流的核心評價方式,是以布盧姆的認知領域學習要求作為測評的參考,且大多是在相對封閉的環(huán)境下采用紙筆測驗來考查學生的認識水平,弱化了學生的信息獲取與加工能力、問題解決能力、批判性思維能力、社會參與與決策能力。因此,我國在發(fā)展核心素養(yǎng)的背景下,可以參考德國這種在升學考試前提前測評的方法,加大對評價方式多重性的研究,關注學生在課堂內外的表現(xiàn),全面診斷學生是否適應未來社會的發(fā)展,為基于“核心素養(yǎng)”的教學與評價尋找合適的“落腳點”。
教育標準對于教材編寫、教師教學與評價有指導性作用,是國家管理與評價課程的基礎。德國將教育標準與學生能力模型相結合,根據(jù)學科特色分別刻畫每門學科的能力結構,并將能力水平分為5 個等級,通過測試將學生在掌握知識過程中的能力發(fā)展路徑直觀地表示出來,有效助力學生學習與教師教學。我國基礎教育學段中的學前教育、義務教育和高中教育等領域的發(fā)展目標沒有形成完整的統(tǒng)一體,沒有專門對基礎教育總體目標做出連貫性的規(guī)劃和建設。因此,我國亟待構建一個立足學生終身發(fā)展的教育標準,明確當今時代對新型人才的需求,突出對學生能力的培養(yǎng),并不斷在實踐中革新,以順應時代變化發(fā)展。隨著終身學習型社會與人工智能時代的到來,我們編制教育標準不僅要注重傳統(tǒng)的文化課,更應具有發(fā)展性和預見性,滿足未來競爭對人才培養(yǎng)的需求,建構起符合自身情況的教育標準,使學生在信息時代不僅會“玩智能”,更要“學智能”“開發(fā)智能”,促進學生素養(yǎng)的多元化發(fā)展,培養(yǎng)其終身學習的能力。
教育標準與評價的一致性是當前基于課程標準改革的重要主題。教育標準與評價的一致,有助于全面落實教育標準的要求、深化教學改革、提高測試質量和公平性。雖然我國一直強調評價要基于課程標準,但在實際操作中,有些試題的命制還不能嚴格遵循課程標準,如Liu X 基于國際比較的視角選取美國、新加坡和我國江蘇為研究對象,發(fā)現(xiàn)我國江蘇地區(qū)當時的高中物理會考試題在內容主題和認知水平的側重上與課程標準均有一定程度的偏差,且與發(fā)達國家相比,我國課程標準與教學評價的一致性程度不高。[17]現(xiàn)階段,我國升學考試很容易成為教師教學和學生學習的“指揮棒”,易導致教師在教學過程中只側重“高頻考點”,忽視教育標準中所規(guī)定的相關要求,這非常不利于我國學業(yè)評價質量的提高與人才的培養(yǎng)。VERA 在試題編制過程中,所有試題都是基于教育標準的3 個維度與KSM,注重的是該試題對學生能力測驗是否有效,能否發(fā)現(xiàn)學生的問題并幫助學生解決問題,同時積極開發(fā)新的教材對學生能力進行補充,試題與教育標準之間具有非常好的契合性與一致性。借鑒這一經(jīng)驗,我國不僅要采取相關措施進行階段性的能力測試,更要對試題編制嚴格把關,在傳統(tǒng)紙筆測試的基礎上,增加表現(xiàn)性評價,實行多元評價機制,努力提高試題與教育標準的一致性。
一線教師應是測評工具開發(fā)的重要成員,是測評過程重要的參與者。我國測評工具的開發(fā)與試題編制大多局限于少數(shù)專家參與,一線教師很少直接參與其中,這極易引發(fā)教師對于測評系統(tǒng)的不理解、不支持等問題。VERA 集中了德國大部分學校的一線教師對試題進行編制,使教師不再被動地接受測評,而是對測評任務具有主動權,測評試題的診斷功能也更加突出。在測評過程中,一線教師能深入地了解到教育標準中的能力模型以及相應的試題編制原理,能與學生實際有效結合,準確把握學生能力水平的狀況,從而提高了測評的信度和效度。此外,一線教師可以很容易獲得測評結果的第一手數(shù)據(jù),通過對比不僅能夠完善測試任務,也有利于他們找出不同學生的差異性,針對學生存在的薄弱點實施具有針對性的措施,激發(fā)學生學習興趣,進而達到教學標準所規(guī)定的能力范疇。因此,我國在開發(fā)測評工具的過程中要將主動權交給一線教師,教師在專注于教學方式、策略更新的同時,也要尋求更加有效的測評方法,最終為改善課堂教學、完成課改任務提供有力保障。
注釋:
①德國為聯(lián)邦制國家,共16 個聯(lián)邦州,各州在教育上享有獨立權利,由各州教育科學文化部聯(lián)合成立文化部長聯(lián)席委員會(Kultusministerkonferenz,簡稱KMK)統(tǒng)籌管理德國的教育。
②在學段劃分上,德國基礎教育分為初級(即小學,4年級結束)、中級I(即初中,9 年級或10 年級結束)和中級II(即高中,12 年級或13 年級結束)。
③德國為滿足不同學生的差異,中學出現(xiàn)了4 類學校的分流:普通中學(Hauptschule)、實科中學(Realschule)、初級文理中學(Gymnasium)以及綜合中學(Gesamtschule)。德國在9 年級舉行第一次結業(yè)測試,學生通過該測試將取得HSA 證書,這主要用于開展雙元制或職業(yè)學校的職業(yè)培訓;在10 年級舉行第二次結業(yè)測試,學生通過該測試將取得MSA 證書,即可以進入高中繼續(xù)學習。
④在私立學校和集體學習中有特殊教學需要的學生也可自愿參加,但他們的結果不包括在總評估中。此外,在德國居住不到12 個月、還沒有充分掌握德語的學生不需要參與其中。
⑤意大利語是該地區(qū)的第二外語。