田偉 楊麗萍 辛濤 張生
【摘 要】
教育質(zhì)量監(jiān)測與評價的目的是引領(lǐng)教育發(fā)展。有效使用監(jiān)測技術(shù),對學習環(huán)境與學習質(zhì)量的動態(tài)變化進行充分且及時的評估,不僅對于特定個體,對于國家和社會也會產(chǎn)生重要影響。本文分析了我國教育質(zhì)量監(jiān)測與評價的現(xiàn)狀,在教育信息化建設的背景下,從教育評價云平臺建設、信息化測評特色解決方案與教育監(jiān)測結(jié)果可視化三方面闡述了“互聯(lián)網(wǎng)+”國家教育質(zhì)量監(jiān)測已取得的各項進展,對信息技術(shù)為教育監(jiān)測提供的新思路進行了系統(tǒng)化總結(jié),同時揭示了我國教育質(zhì)量監(jiān)測在實施過程中存在的問題。為了突破監(jiān)測與評價的技術(shù)瓶頸,走出監(jiān)測體系建設的困境,本文提出了未來教育質(zhì)量監(jiān)測與先進科學技術(shù)在融合時潛在的攻關(guān)方向與必須解決的關(guān)鍵問題,旨在協(xié)同多方努力共同推進我國教育質(zhì)量監(jiān)測與評價全面和可持續(xù)發(fā)展。
【關(guān)鍵詞】? 教育質(zhì)量監(jiān)測;教育評價;基礎教育;智慧監(jiān)測;評價工具;未來教育;素質(zhì)教育;教育信息化
【中圖分類號】? ?G40-058.1? ? ? ? ?【文獻標識碼】? A? ? ? ?【文章編號】? 1009-458x(2022)1-0001-11
一、基礎教育質(zhì)量監(jiān)測與評價的背景
新中國成立以來,特別是20世紀70年代末實行改革開放政策以來,我國的基礎教育建設取得了巨大成就,建成了世界史上規(guī)模最大的基礎教育體系。截至2020年,教育“十三五”規(guī)劃各項目標取得了突破性進展。根據(jù)中華人民共和國教育部發(fā)布的《2020年全國教育事業(yè)發(fā)展統(tǒng)計公報》,全國義務教育階段在校生1.56億人,專任教師1 029.49萬人,學校21.08萬所,九年義務教育鞏固率達到95.2%,基礎教育普及水平全面提升;全國95.3%的縣通過了縣域義務教育基本均衡發(fā)展國家督導評估驗收,基礎教育辦學條件顯著改善;教育信息化建設成果顯著,小學、初中和高中互聯(lián)網(wǎng)入校的比例均超過98%,在新冠疫情期間信息技術(shù)與教學的融合發(fā)揮了極其重要的作用;全國勞動年齡人口平均受教育年限10.7年,新增勞動力平均受教育年限13.8年,達到或超過了中高收入國家平均水平。隨著基礎教育的普及、發(fā)展與提升,人民群眾對教育的渴望從“有學上”向“上好學”躍進。
基礎教育的發(fā)展從注重規(guī)模進入重視質(zhì)量的新時代。習近平同志在黨的十九大報告中強調(diào)推進教育公平,努力讓每個孩子都能享有公平而有質(zhì)量的教育(新華網(wǎng), 2017)。新時代教育領(lǐng)域的主要矛盾表現(xiàn)為人民群眾對優(yōu)質(zhì)教育的期望與教育資源不充分、不平衡之間的矛盾。以黨的教育方針為主線,教育走向?qū)脚c質(zhì)量的追求(宋乃慶, 等, 2021)。為了提高教育質(zhì)量,促進教育公平,需要政府、社會與學校體系的共同努力,久久為功,把社會主義核心價值觀融入人才培養(yǎng)全過程(董奇, 2017),最終構(gòu)建能夠保障教育持續(xù)發(fā)展的長效機制。這個機制建立的前提是要對我國不同地區(qū)、不同學校乃至每個學生的發(fā)展狀態(tài)有比較清楚的判斷,以此為基礎制定教育政策,促進教育決策的科學化,從而有效地監(jiān)督和管理整個國家的基礎教育質(zhì)量狀況,有的放矢地推動教育質(zhì)量的提升,同時引導社會輿論整體形成科學教育質(zhì)量觀。
因此,從國家管理層面來說,開展基礎教育質(zhì)量監(jiān)測是教育治理體系與治理能力現(xiàn)代化的重要內(nèi)容。2013年6月,教育部印發(fā)《關(guān)于推進中小學教育質(zhì)量綜合評價改革的意見》,要求將中小學教育質(zhì)量評價納入有關(guān)人文社科重點研究基地的研究范圍,依托有條件的高等學校和教育科研、教研部門建立中小學教育質(zhì)量專業(yè)評價與監(jiān)測機構(gòu)。2015年4月,國務院教育督導委員會辦公室印發(fā)《國家義務教育質(zhì)量監(jiān)測方案》,標志著我國在國家層面開展的義務教育質(zhì)量監(jiān)測正式開始。2021年3月中華人民共和國教育部等六部門聯(lián)合印發(fā)《義務教育質(zhì)量評價指南》,著力構(gòu)建以發(fā)展素質(zhì)教育為導向的科學評價體系。在過去的十年里,監(jiān)測和評價作為提高教育質(zhì)量、促進教育公平、落實素質(zhì)教育的“教育體檢儀”“指揮棒”,不同于中考與高考“指揮棒”指向的是家長與學生,監(jiān)測與評價指向的是國家的行政管理體系,監(jiān)測和評價發(fā)揮著政策杠桿的作用,領(lǐng)導各級黨委、人民政府和教育管理部門切實履行教育職責,落實黨的教育方針(陳慧娟, 等, 2021),促進學生德智體美勞全面發(fā)展。
然而,現(xiàn)行教育評價制度與方式不能滿足未來教育評價的需求。隨著社會快速發(fā)展與人工智能時代的到來,監(jiān)測和評價慣常的做法面對當前教育環(huán)境的新形態(tài)逐漸呈現(xiàn)出力所不及的困難,例如傳統(tǒng)的抽樣方法、人工評分、紙筆測驗造成監(jiān)測的延時和低效,難以實現(xiàn)標準化,教育質(zhì)量監(jiān)測與評價面臨巨大挑戰(zhàn)。尤其自疫情以來智慧教育環(huán)境的形成(Langenfeld, 2020),未來教育評價將在全樣本、多模態(tài)、真實化、個性化的情境下呈現(xiàn)即時性和高效性特點,給教學提供精準的改進意見與提升路徑。為了確保監(jiān)測與評價正常發(fā)揮“指揮棒”的作用,需要快速更新和調(diào)整現(xiàn)有的教育評價方法以適應未來教育評價的需求。無論是底層的基礎研究,還是相關(guān)的技術(shù),從工具研發(fā)、數(shù)據(jù)采集到監(jiān)測結(jié)果的報告與使用,每個環(huán)節(jié)都有很多問題值得深入研究與探討。其中,信息技術(shù)對監(jiān)測評價的支撐是國家力量與整個社會資源共同協(xié)同攻關(guān)的核心。
教育信息化在教育測量與評價改革中的重要性高度凸顯。2014年2月,國務院教育督導委員會辦公室印發(fā)《深化教育督導改革轉(zhuǎn)變教育管理方式的意見》,提出加強教育評價的專業(yè)化建設,創(chuàng)新評價工具,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù),探索開展學生各年級學習情況全過程縱向評價、德智體美勞全要素橫向評價。2020年10月中共中央、國務院印發(fā)《深化新時代教育評價改革總體方案》,明確指出要“堅持科學有效,改進結(jié)果評價,強化過程評價,探索增值評價,健全綜合評價,充分利用信息技術(shù),提高教育評價的科學性、專業(yè)性與客觀性”。2021年7月,中華人民共和國教育部等六部門發(fā)布《關(guān)于推進教育新型基礎設施建設構(gòu)建高質(zhì)量教育支撐體系的指導意見》,強調(diào)“教育新基建是國家新基建的重要組成部分,是信息化時代教育變革的牽引力量,是加快推進教育現(xiàn)代化、建設教育強國的戰(zhàn)略舉措”。從這個角度來說,國家整體戰(zhàn)略已經(jīng)高度重視教育信息化對于教育監(jiān)測的重要支持作用,在數(shù)字化社會的發(fā)展與治理邏輯下,教育質(zhì)量監(jiān)測與評價和信息技術(shù)、5G和互聯(lián)網(wǎng)、大數(shù)據(jù)之間的融合問題(Li, Y., Li, P., Zhu, & Wang, 2017)亟待思考與解決。
在這個背景下,從2015年第一輪國家基礎教育質(zhì)量監(jiān)測正式啟動開始至今,我國的教育質(zhì)量監(jiān)測已取得了一系列重要進展。其中,最大的亮點是國家基礎教育質(zhì)量監(jiān)測和評價已經(jīng)實現(xiàn)了涵蓋工具研制、監(jiān)測實施、數(shù)據(jù)分析、報告與評價等全鏈條、各環(huán)節(jié)的信息化管理與信息化流程的實施。
二、“互聯(lián)網(wǎng)+”教育監(jiān)測的進展
“‘互聯(lián)網(wǎng)+教育監(jiān)測”是指依托信息技術(shù),將互聯(lián)網(wǎng)與傳統(tǒng)監(jiān)測技術(shù)進行深度融合,充分發(fā)揮互聯(lián)網(wǎng)在社會資源配置中的優(yōu)化和集成作用,對監(jiān)測的管理與實施流程進行完善與升級,使得教育監(jiān)測與當前社會發(fā)展相適應。國家教育質(zhì)量監(jiān)測的實踐成果體現(xiàn)在以教育評價云平臺為監(jiān)測整體運行的基礎依托,針對學生德智體美勞各方面進行海量異構(gòu)數(shù)據(jù)的采集與分析,開發(fā)了一系列信息化測評特色解決方案,進而實現(xiàn)監(jiān)測結(jié)果的可視化呈現(xiàn)以支持教育決策,形成了教育質(zhì)量監(jiān)測管理與實施的新形態(tài)(圖1)。
(一)教育評價云平臺
國家基礎教育質(zhì)量監(jiān)測(以下簡稱“國家監(jiān)測”)以每年5月份最后一個星期四作為國家基礎教育質(zhì)量監(jiān)測日。目前,實現(xiàn)了信息化運維的題庫、監(jiān)測實施進展管理、信息上報和抽樣、問卷調(diào)查、報告自動化、標準劃定與專家管理等系統(tǒng)構(gòu)成了長期穩(wěn)定運行的國家監(jiān)測綜合云平臺。
1. 題庫系統(tǒng)
題庫系統(tǒng)旨在實現(xiàn)題目線上全鏈條的研制與組卷。通過整合試題命制、評審、改編、預試、復審和入庫等功能,打破時間與空間限制,使不同用戶角色能夠在云平臺上完成題目錄入、審題和修訂等操作,大大降低了因工作場地、材料印刷、寄送周轉(zhuǎn)等因素導致的時間與經(jīng)濟成本。同時,云平臺記錄了題目研發(fā)過程中從最初樣態(tài)到經(jīng)過反復打磨的狀態(tài)、審題過程和審題意見以及多輪預試后形成成熟題目的完整過程,實現(xiàn)了每道題目開發(fā)與修訂變化邏輯的全鏈條追蹤與溯源。
2. 實施進展管理系統(tǒng)
實施進展管理系統(tǒng)對監(jiān)測實施過程中各個工作環(huán)節(jié)進行規(guī)范化、標準化的管理,支持監(jiān)測工作高效、嚴謹、便捷地展開。國家監(jiān)測從每年的12月份啟動預抽樣開始到第二年實施監(jiān)測,系統(tǒng)對數(shù)據(jù)采集、每個學校上報數(shù)據(jù)、施測等全過程進行分層(國家、省、區(qū)縣、學校)管理,同時支持不同層級的用戶在Web端與移動設備端完成工作操作、監(jiān)控和審核。
3. 信息上報和抽樣系統(tǒng)
信息上報和抽樣系統(tǒng)包括抽樣管理、區(qū)縣信息管理、學校信息管理、學生和教師信息管理以及上報等5個模塊,支持國家監(jiān)測樣本區(qū)縣、樣本校、樣本師生數(shù)據(jù)采集與抽樣以及信息審查,并提供個性化服務。雖然我國各級教育管理部門已有很多數(shù)據(jù)信息系統(tǒng),但由于數(shù)據(jù)標準不統(tǒng)一,無法直接應用于大規(guī)模監(jiān)測。國家監(jiān)測開發(fā)了靈活定制的數(shù)據(jù)上報系統(tǒng),支持多階段復雜抽樣,同時對全國31個?。ㄗ灾螀^(qū)、直轄市)和新疆建設兵團不同地區(qū)、不同類型人員的基礎數(shù)據(jù)進行在線采集,實現(xiàn)全面、準確、高效的數(shù)據(jù)核對、清理、校驗和打印的自動化。
4. 問卷調(diào)查系統(tǒng)
網(wǎng)絡問卷調(diào)查系統(tǒng)以實現(xiàn)國家監(jiān)測電子化問卷填答為目的,在線采集全國不同地區(qū)校長、教師的背景信息,解決了以往紙筆調(diào)查方式存在的手段單一、實效性差等弊端,實現(xiàn)了系統(tǒng)共享,百萬名用戶參與電子問卷填答,并對作答過程進行實時監(jiān)控。全國31個?。ㄗ灾螀^(qū)、直轄市)和新疆生產(chǎn)建設兵團325個樣本縣(市、區(qū))近7萬名校長與教師參加網(wǎng)絡問卷測試,根據(jù)自身實際情況作答。同時,監(jiān)測中心、省級、樣本區(qū)縣通過進度管理模塊監(jiān)管各省、市、區(qū)縣各類問卷作答情況與進度,了解每位校長、教師的詳細作答情況,保證數(shù)據(jù)完整、及時回收。從技術(shù)上來說,調(diào)查系統(tǒng)可同時支持多角色、多用戶和多項目的數(shù)據(jù)采集,但考慮到全國中西部等偏遠地區(qū)的現(xiàn)實條件還不足以支撐對學生進行電子化測試,故從2017年開始至今,僅對校長和教師實行了電子化填答,未來會不斷優(yōu)化數(shù)據(jù)采集、轉(zhuǎn)化與清理工作,將范圍擴大到學生層面。
5. 報告自動化系統(tǒng)
國家監(jiān)測要求每年完成國家報告與各省份教育監(jiān)測報告的編制,考慮到監(jiān)測整體推進的需要以及報告的規(guī)范性和嚴謹性,報告自動化系統(tǒng)被用于生成國家、省、區(qū)、校、生等各類學科報告2,000余份。報告生成技術(shù)面向不同用戶角色同時支持批量化和個性化的定制,對監(jiān)測數(shù)據(jù)各項指標進行分析,實現(xiàn)報告批量化、自動化生成,大大降低了報告制作成本。
6. 標準劃定系統(tǒng)
在心理學的理論體系下,國家監(jiān)測中判斷學業(yè)成就是否達到要求是基于課程標準而言的。從技術(shù)上來說這是一個嚴格的鏈接程序,是一個用來判斷學生的測試成績與整個教育質(zhì)量之間關(guān)系的標準劃定過程(La, Redfield, & Winter, 2000)。國家監(jiān)測采用Angoff法(Angoff, 1996)和Bookmark法(Cizek & Bunch, 2007)確定分界分數(shù),目前已支持完成國家基礎教育學科語文、數(shù)學與科學學科的標準劃定。
7. 專家管理系統(tǒng)
為規(guī)范國家監(jiān)測實施工作,加強實施專家隊伍建設,推進專家隊伍管理科學化、規(guī)范化、專業(yè)化,專家管理系統(tǒng)支持每年國家監(jiān)測工作周內(nèi)專家視導工作的開展,工作監(jiān)控由線下辦公轉(zhuǎn)移至線上辦公,實現(xiàn)對專家任務的資源共享、動態(tài)調(diào)整和分類管理,從而形成監(jiān)測事業(yè)發(fā)展的質(zhì)量保障體系。
(二)信息化測評的特色解決方案
教育評價云平臺保障了教育質(zhì)量監(jiān)測工作的穩(wěn)定實施與推進,其核心目標是了解國家在整體層面和不同區(qū)域?qū)用娼逃|(zhì)量的真實情況。黨的教育方針要求,經(jīng)過學校教育和義務教育階段,學生能夠得到德智體美勞各方面全面發(fā)展,成為社會主義的建設者和接班人。因此,從監(jiān)測和評價的角度來說,如何準確、合理地測量涵蓋德智體美勞各項能力是一個很大的挑戰(zhàn)。其中,在智力與學科成就測量方面國家監(jiān)測積累了豐富的經(jīng)驗,但仍有很多方面長期以來難以解決,尤其是如何有效測量學生的道德、美育、勞動等方面長期以來很難突破。
以上簡要呈現(xiàn)了“‘互聯(lián)網(wǎng)+國家監(jiān)測”的進展,若將教育監(jiān)測視為一個相互關(guān)聯(lián)的完整系統(tǒng),從教育質(zhì)量監(jiān)測的技術(shù)架構(gòu)和實施的不同方面進行解構(gòu),能夠進一步揭示目前監(jiān)測中存在的問題及未來發(fā)展的方向。
三、科技賦能教育質(zhì)量監(jiān)測面臨的問題
雖然國家監(jiān)測已實現(xiàn)了與信息技術(shù)的融合發(fā)展,并依托云平臺將新型信息化測評成功應用于監(jiān)測實踐,但目前地區(qū)監(jiān)測還不能充分利用已有的先進監(jiān)測技術(shù)。誠然,這也是囿于社會經(jīng)濟發(fā)展不平衡的事實,如學校信息化基礎設施建設發(fā)展并不均衡,各地尚未形成標準化平臺建設、缺乏統(tǒng)一的數(shù)據(jù)標準與專業(yè)監(jiān)測團隊等,部分區(qū)域的客觀條件仍不足以支持信息技術(shù)為主的監(jiān)測手段。但更重要的是,對標國家深化教育評價改革的目標,我國教育監(jiān)測必須重點突破傳統(tǒng)教育測量與評價的技術(shù)瓶頸,整體推進人工智能、信息技術(shù)與監(jiān)測相結(jié)合的發(fā)展策略,自上而下地統(tǒng)籌完善教育監(jiān)測的頂層設計,同時協(xié)同多方力量自下而上地實踐創(chuàng)新,逐一破解在監(jiān)測理念、監(jiān)測內(nèi)容、測量工具以及監(jiān)測結(jié)果使用等方面存在的一系列亟待解決的問題。
(一)監(jiān)測理念轉(zhuǎn)變的困境
在傳統(tǒng)標準化評估和問責評估主導的價值取向下,教育評估以終結(jié)性評估為主。長久以來,終結(jié)性評估的價值取向往往導致學生通過死記硬背和機械訓練來提高考試成績。類似地,目前我國教育監(jiān)測大都是結(jié)果性評價,即在一個時間點上對一個區(qū)域或國家的整體教育質(zhì)量進行判斷與評估。隨著世界范圍內(nèi)教育評估價值取向從終結(jié)性評估向過程性評估過渡(Ibnu & Marfuah, 2020),雖然過去終結(jié)性評價與過程性評價是截然分離的,但現(xiàn)在二者已經(jīng)不存在嚴格意義上的劃分(Bennett, 2011)。教育監(jiān)測理念也需要與社會發(fā)展和教育變革邏輯相適應,從結(jié)果評價向過程評價轉(zhuǎn)化,從學科評價向綜合評價轉(zhuǎn)化,充分利用大數(shù)據(jù)生態(tài)環(huán)境收集信息評估學生的學習,從面向群體的評價向改進個體學習和教學轉(zhuǎn)化。然而,教育監(jiān)測理念的轉(zhuǎn)變也需要克服一系列的阻力,這些阻力既源于部分區(qū)域?qū)τ诮逃O(jiān)測理念的理解仍然存在偏差(李勉, 2021),也源于社會客觀條件與監(jiān)測體系建設允許監(jiān)測理念轉(zhuǎn)化與落實的程度(辛濤, 等, 2020)。在這個困境下,傳統(tǒng)測量模式已經(jīng)不再適應教育信息化發(fā)展進程,也不能滿足國家教育發(fā)展戰(zhàn)略需求。教育監(jiān)測需要及時轉(zhuǎn)變理念,突破傳統(tǒng)教育監(jiān)測技術(shù)方法,面向未來教育提供政策性指向并成為解決現(xiàn)實教學問題的抓手。
(二)監(jiān)測內(nèi)容轉(zhuǎn)向帶來的挑戰(zhàn)
監(jiān)測內(nèi)容覆蓋范圍反映了教育質(zhì)量監(jiān)測的實用性和有效性。隨著教育評價改革不斷深化,我國教育質(zhì)量監(jiān)測重點從關(guān)注學業(yè)成就與智力發(fā)展逐漸轉(zhuǎn)向注重學生的綜合素養(yǎng)(張生, 等, 2021)與學生未來發(fā)展關(guān)鍵能力的測量(李健, 等, 2019)。然而,目前教育監(jiān)測中仍存在將學科(語文、數(shù)學、英語、科學)監(jiān)測等同于學科統(tǒng)考的情況,對學生的品德修養(yǎng)、勞動表現(xiàn)、情感態(tài)度、藝術(shù)素養(yǎng)以及學生全面發(fā)展應具備的關(guān)鍵能力,如創(chuàng)造性、問題解決能力的測量,依然有所欠缺。此外,問卷調(diào)查中對學生背景信息和所處環(huán)境狀況的調(diào)查相對較為單薄(檀慧玲, 2018)。監(jiān)測內(nèi)容的偏差或缺失不利于發(fā)現(xiàn)我國素質(zhì)教育中存在的真實問題,也影響監(jiān)測促進學生全面發(fā)展的價值導向作用。
(三)信息技術(shù)與傳統(tǒng)測量方法融合的問題
面對當下快速更迭的應用環(huán)境,作為評估教育質(zhì)量的有效工具,教育監(jiān)測應增強與新時代先進技術(shù)融合的耦合性。在傳統(tǒng)測驗開發(fā)中,標準化測驗操作形式可簡單概括為明確測驗目標與內(nèi)容、開發(fā)與檢驗測量工具、施測與評分、測驗結(jié)果應用四個基本階段。在信息技術(shù)與學習加速融合的趨勢下,需要對傳統(tǒng)教育測量的評估范式、技術(shù)方法和標準進行系統(tǒng)的反思和調(diào)整,包括:①隨著學習過程多場景化,目前以傳統(tǒng)測評為主的強干預監(jiān)測如何向以被動信息獲取為主的弱干預監(jiān)測轉(zhuǎn)變?②基于新的學習與評價形式,有哪些新型測評形式可以采用?③學習形式和方向的多樣性導致評估標準和衡量尺度的多樣性,如何制定合理的評分標準?④信息技術(shù)環(huán)境下越來越多的多元化、異構(gòu)化、高維化的評價信息如何降噪與分析?⑤傳統(tǒng)心理測量模型如何與其他學科更好地結(jié)合以適應多元數(shù)據(jù)的處理與分析,從而更準確、有效地估計學生能力?需要注意的是,很多有關(guān)信息技術(shù)與監(jiān)測評價融合的研究更多地停留在理念探討、個別經(jīng)驗總結(jié)等層面,諸多問題需要在實踐中進行研究和應用,這些都是當前國家監(jiān)測積極探索并努力解決的問題。
其中,如何充分利用動態(tài)發(fā)展數(shù)據(jù),結(jié)合結(jié)果評價數(shù)據(jù)與過程性評價數(shù)據(jù)是教育測量從終結(jié)性評價向過程性評價轉(zhuǎn)化的關(guān)鍵技術(shù)環(huán)節(jié)。例如,對一定時間范圍內(nèi)學生能力發(fā)展與教學質(zhì)量的效果進行查缺補漏(Zhang & Chang, 2020)與追蹤評價,或?qū)τ趯W生的心理狀態(tài)與人格特質(zhì)進行判斷。然而,囿于監(jiān)測技術(shù)手段與專業(yè)人才短缺限制,目前部分區(qū)域監(jiān)測中對動態(tài)數(shù)據(jù)的采集與處理能力仍然欠缺,對學習過程的動態(tài)監(jiān)測與學生長期發(fā)展狀況進行評估的能力亟待提升。
(四)監(jiān)測結(jié)果使用的局限
目前,不論是國家監(jiān)測還是地方監(jiān)測,監(jiān)測結(jié)果的使用模式均較為單一,基本是服務于國家或本地區(qū)的監(jiān)測工作,并沒有兼顧向下級市、區(qū)縣、學校與學生提供服務。目前國家監(jiān)測僅將部分結(jié)果性數(shù)據(jù)開放給各個區(qū)和學校,監(jiān)測結(jié)果的數(shù)據(jù)開放、共享與安全機制的建設仍處于起步階段。大量數(shù)據(jù)資源與分析結(jié)果散落在各個平臺,未能形成互通互聯(lián)和資源共享,造成了大量數(shù)據(jù)資源的浪費,也在一定程度上阻礙了基于監(jiān)測評價大數(shù)據(jù)推動教育改進的應用機會。事實上,除了針對群體的監(jiān)測結(jié)果服務于教育評估與決策,面向?qū)W生個體的精準化分析幾乎還未開展。究其原因,一方面在于對現(xiàn)有數(shù)據(jù)分析與解讀的專員人員缺乏,部分區(qū)域由于缺少具有專業(yè)能力的監(jiān)測工作人員,不具備進一步分析與解讀監(jiān)測數(shù)據(jù)結(jié)果的能力;另一方面由于監(jiān)測方法與技術(shù)手段有限,用于個體分析的數(shù)據(jù)來源并不充足,僅提供學科分數(shù)難以滿足對個體能力與特征進行全面刻畫的要求,這使得監(jiān)測結(jié)果使用的效率難以提升。
四、智慧監(jiān)測與評價發(fā)展前瞻
雖然新冠疫情帶來了教學危機,但也因此催生了全新教育秩序和形態(tài)的形成(Camara, 2020)。當國家監(jiān)測的信息化管理與實施不斷向前推進,尤其是疫情使“未來教育”成為當前國內(nèi)外教育輿論的熱點,使用信息技術(shù)重構(gòu)學校生態(tài)體系將成為當前乃至未來教育的重中之重。在虛實結(jié)合的信息生態(tài)環(huán)境下,人們生活方式的變革、學習方式的變革、認知方式的變革都倒逼監(jiān)測和評價技術(shù)方法的變革。傳統(tǒng)的教育測量范式、原則與標準都需要系統(tǒng)性轉(zhuǎn)向(Sireci, 2021),教育監(jiān)測中一系列問題的解決也因此迎來了新的契機(圖6)。
(一)教育監(jiān)測理念與教育評價改革相呼應
無論是對于測量評價本身的發(fā)展還是對于整個監(jiān)測體系的建設來說,監(jiān)測和評價能否與信息技術(shù)發(fā)展快速融合是世界范圍內(nèi)各國都要回答的問題。歐盟于2013年發(fā)布了《教育大數(shù)據(jù)分析服務規(guī)劃-地平線2020計劃》(European Commission, 2015),美國于2012年發(fā)布了《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》報告(Bienkowski, Feng, & Means, 2012)。為實現(xiàn)建設教育強國的宏偉目標,我國連續(xù)四年相繼發(fā)布《教育信息化“十三五”規(guī)劃》(中華人民共和國教育部, 2016)、《國家教育事業(yè)發(fā)展“十三五”規(guī)劃》(國務院, 2017)、《教育信息化2.0行動計劃》(中華人民共和國教育部, 2018)和《中國教育現(xiàn)代化2035》(中共中央、國務院, 2019),明確了教育大數(shù)據(jù)的戰(zhàn)略目標和重點發(fā)展方向。隨著科技的發(fā)展,學習與交流樣態(tài)的變化,終結(jié)性評價與過程性評價的融合共存會很快到來(Gardner, OLeary, & Yuan, 2021),這種趨勢也響應了國家關(guān)于深化新時代教育評價改革“改進結(jié)果評價、強化過程評價、探索增值評價、健全綜合評價”的號召(中共中央、國務院, 2020)。因此,教育監(jiān)測理念的轉(zhuǎn)變必然要與國家宏觀政策和社會發(fā)展需求相呼應,結(jié)合人工智能與信息技術(shù)賦能,從終結(jié)性為主導的橫向靜態(tài)評價向過程性主導的動態(tài)評價轉(zhuǎn)化,從學科評價向綜合素質(zhì)評價轉(zhuǎn)化,以監(jiān)測技術(shù)為核心基礎,圍繞監(jiān)測內(nèi)容、工具開發(fā)與結(jié)果使用等方面,從強干預與宏觀評價向弱干預與微觀評價延伸,最終形成具有中國特色的教育質(zhì)量監(jiān)測體系(辛濤, 等, 2019)。
(二)監(jiān)測內(nèi)容從學科評價向非學科評價轉(zhuǎn)化
基于第四代教育評估理論,教育評估應超越純粹科學范疇而涵蓋人性、政治、社會、文化以及其他相關(guān)因素(Guba & Lincoln, 1989)。當學生被視為一個獨立且在社會環(huán)境中全面發(fā)展的個體時,每個學生都是一片不同的樹葉,學生在學習與測驗中的表現(xiàn)不但取決于智力與知識儲備,也在很大程度上取決于其個性特征(生理和心理特征、動機等)、行為習慣、健康狀況以及生活與學習環(huán)境等重要因素,任何因素的缺失都有可能導致教育過程的不平衡。因此,超越單一學科而聚焦于學生發(fā)展需要具備的核心素養(yǎng)測評、涵蓋學生全面發(fā)展關(guān)鍵因素是未來教育監(jiān)測必須探索的方向。
隨著萬物互聯(lián)與人工智能技術(shù)的發(fā)展,以往基于紙筆的強干預監(jiān)測手段難以實現(xiàn)的測量有望在越來越多元化、異構(gòu)化和高維化的信息環(huán)境中解決。文本、圖片、音頻、視頻、動作表情、體態(tài)與生物學等信息的捕捉與獲取都變得非常便捷,如何將這些異構(gòu)信息整合、解構(gòu)與分析從而對學生的潛在能力或人格特性進行科學有效的判斷是監(jiān)測技術(shù)發(fā)展的核心任務。例如,伴隨學生體育活動的測評,利用學生佩戴的電子手環(huán)分析其體能數(shù)據(jù);基于學生在社交媒體上留下 的網(wǎng)絡痕跡,對學生的心理與人格進行評價(Azucar, Marengo, & Settanni, 2018);對口語數(shù)據(jù)進行自動采集與評價,在人機交互的對話過程中實現(xiàn)對普通話或英語聽說水平的智能化測評(Wang, Y.,? Wang, & W., 2021);基于人工智能對教學質(zhì)量進行實時評價,對學與教的實時動態(tài)互動模式進行精準刻畫(Ashwin & Guddeti, 2020),對學生的專注度與課堂氛圍分別基于教師和學生的視角進行評價;對在線學習數(shù)據(jù)實行動態(tài)挖掘(Chan, Ochoa, & Clarke, 2020),基于網(wǎng)絡痕跡數(shù)據(jù)測查學習活動(學習過程、日記、寫作等)、社交娛樂(話題評論、日常聊天、資訊瀏覽等),構(gòu)建個性化的學習者特征動態(tài)模型(Ibnu & Marfuah, 2020)。需要注意的是,弱干預的測評需考慮學生或其他教育過程參與者的個性特征和能力發(fā)展狀況(蘭迪·班尼特, 2019),設置適合的監(jiān)控技術(shù)及其應用條件。
(三)新型監(jiān)測方法與工具的開發(fā)
為了滿足國家與社會發(fā)展對人才培養(yǎng)的需求,亟待開發(fā)面向?qū)W生未來發(fā)展關(guān)鍵能力的新型測評工具。這些關(guān)鍵能力往往具有復雜的構(gòu)念,傳統(tǒng)測評往往難以實現(xiàn)。目前研究者已開始探索開發(fā)以證據(jù)為中心(Mislevy, Almond, & Lukas, 2003)的游戲測評、多任務情景的交互式測評,誘發(fā)學生與動態(tài)任務環(huán)境互動,完成任務過程中全部或部分解決規(guī)則需學生通過不斷探索與信息整合來習得,然后根據(jù)學生解決任務過程中的認知與非認知產(chǎn)出及作答反應構(gòu)造能力測量模型(Yan, Rupp, & Foltz, 2020)。除了信息技術(shù)與測評整合之外,腦認知與神經(jīng)科學在教育評價中具有很大潛力。如何利用信息技術(shù)和其他學科的前沿成果(Borsboom, et al., 2021),結(jié)合學生心智發(fā)育與行為層面特征,考查黨和國家希望學生具有的高階核心素養(yǎng)是未來監(jiān)測和評價中待突破的重點(張生, 等, 2019),所以新型的評價工具將成為未來監(jiān)測和評價發(fā)展的動因。國家監(jiān)測已研發(fā)了基于多任務情景的創(chuàng)造力測評工具、復雜問題解決能力測評、人機交互的科學探究能力測評、審辯思維能力測評等,這些研究有望在不久的將來應用于監(jiān)測實踐。
(四)同時面向群體與個體的評價結(jié)果
目前的教育監(jiān)測基本建立了面向群體發(fā)展的反饋體系,未來會建立相應的數(shù)據(jù)與監(jiān)測結(jié)果管理制度,試點先行,對數(shù)據(jù)進行脫敏之后按照相應的流程反饋給下級,使監(jiān)測結(jié)果更好地服務于決策和教育實踐,提高了決策的科學性、精準性,同時發(fā)展面向群體與個體的評價,幫助提升教學質(zhì)量,促進區(qū)域義務教育優(yōu)質(zhì)均衡發(fā)展。
隨著信息來源與獲取信息的手段越來越豐富,對于個體的精準評價和改進有望實現(xiàn)。面向個體的監(jiān)測數(shù)據(jù)與結(jié)果使用需進一步落實,能夠根據(jù)監(jiān)測結(jié)果做出改進學習過程的決策,如為個體提供個性化診斷報告、精準推薦學習資源或在線輔導。雖然這些方式從理論上來說似乎是合理的,但是距離真正實現(xiàn)開發(fā)并應用于教育教學實踐還需跨越一個巨大的鴻溝。如何對學生線上和線下的學習與生活數(shù)據(jù)深入挖掘以提出對學生未來學習與發(fā)展更有針對性的幫助和建議,需要多方面力量共同參與,不斷探索與研究。此外,兼顧群體與個體反饋的即時性、自動化與批量化是未來監(jiān)測發(fā)展的又一趨勢。僅僅將監(jiān)測的雜亂的數(shù)據(jù)結(jié)果呈現(xiàn)給用戶是遠遠不夠的,需要為用戶提供結(jié)果的可視化與解讀,避免監(jiān)測結(jié)果的誤用,充分考慮監(jiān)測作為一種工具和方法對教育質(zhì)量產(chǎn)生的直接影響與間接影響,以及對國家發(fā)展與教育決策可能產(chǎn)生的巨大影響。
五、小結(jié)
當代教育的顯著特征是教育形態(tài)與技術(shù)的不斷變化。監(jiān)測作為評估教育質(zhì)量的工具與落實素質(zhì)教育的“指揮棒”,必須對不斷變化的學習與評價信息生態(tài)環(huán)境快速做出反應。大數(shù)據(jù)時代的教育信息化建設是全球共識的戰(zhàn)略任務。雖然智慧教育可以從不同角度解讀,但要實現(xiàn)學習的個性化,最核心的紐帶是要對教育教學現(xiàn)場和學生學習狀況進行實時評價,智慧和個性化教育才能真正發(fā)生。教育監(jiān)測是一個復雜的系統(tǒng),在外部和內(nèi)部因素影響下,需要對教育環(huán)境或某些要素的變化進行持續(xù)觀察、評估、預測和檢驗。隨著大數(shù)據(jù)和教育質(zhì)量監(jiān)測與評估的融合,依托“互聯(lián)網(wǎng)+”云平臺,教育監(jiān)測得以高效、有序地進行,并且為國家的宏觀決策提供科學實踐和理論依據(jù)。在這個過程中,監(jiān)測技術(shù)及其與其他學科領(lǐng)域的結(jié)合對監(jiān)測結(jié)果產(chǎn)生了直接影響,信息技術(shù)與其他先進科學為教育評估突破傳統(tǒng)測量的瓶頸提供了科技動能。智慧教育監(jiān)測與評價體系建設中面臨的困境需要領(lǐng)域內(nèi)外多方協(xié)作、共同破解,才能將教育監(jiān)測理論上的可行性變?yōu)楝F(xiàn)實。
[參考文獻]
陳慧娟,辛濤. 2021. 我國基礎教育質(zhì)量監(jiān)測與評價體系的演進與未來走向[J]. 華東師范大學學報:教育科學版,39(4):42-52.
董奇. 2017. 把社會主義核心價值觀融入人才培養(yǎng)全過程[J]. 中國高等教育(1):29-30.
蘭迪·班尼特. 2019. 教育測量的未來趨勢[J]. 教育測量與評價(3):3-14.
國務院教育督導委員會辦公室. 2014-02-18. 國務院教育督導委員會辦公室印發(fā)《深化教育督導改革轉(zhuǎn)變教育管理方式的意見》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201402/t20140218_163911.html
國務院教育督導委員會辦公室. 2015-04-15. 國務院教育督導委員會辦公室印發(fā)《國家義務教育質(zhì)量監(jiān)測方案》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xwfb/xw_fbh/moe_2069/xwfbh_2015n/xw fb_150415/150415_sfcl/201504/t20150415_187151.html
國務院. 2017-01-19. 國務院印發(fā)《國家教育事業(yè)發(fā)展“十三五”規(guī)劃》的通知[EB/OL]. [2021-11-02]. http://www.gov.cn/zhengce/content/2017-01/19/content_5161341.htm
李健,于澤元,謝媔媔,等. 2019. 基礎教育質(zhì)量監(jiān)測本土化與現(xiàn)代化——第四屆中國基礎教育質(zhì)量監(jiān)測與評價學術(shù)年會述評[J]. 中國考試(5):73-77.
李勉. 2021. 基礎教育評估監(jiān)測: 教育督導體系建設的新領(lǐng)域和新挑戰(zhàn)[J]. 中國考試(5):48.
駱方,姜力銘,田雪濤,等. 2021. 小學生羞怯特質(zhì)預測及語言風格模型構(gòu)建[J]. 心理學報,53(2):155-169.
宋乃慶,賈璞. 2021. 中國基礎教育發(fā)展100年:走向公平與質(zhì)量的教育——以黨的教育方針為邏輯主線[J]. 西南大學學報:社會科學版,47(3):127-139.
檀慧玲. 2018. 新時代我國基礎教育質(zhì)量監(jiān)測的向度轉(zhuǎn)變[J]. 教育研究,39(6):98-104.
新華網(wǎng). 2017-10-27. 習近平:決勝全面建成小康社會 奪取新時代中國特色社會主義偉大勝利——在中國共產(chǎn)黨第十九次全國代表大會上的報告[EB/OL]. [2021-11-01]. http://www.xinhuanet.com//politics/19cpcnc/2017-10/27/c_1121867529.htm
辛濤,賈瑜. 2019. 國際視野與本土探索:“國際學生評估項目”的作用及啟示[J]. 教育研究,40(12):9-16.
辛濤,趙茜. 2020. 基礎教育質(zhì)量監(jiān)測評價體系的取向、結(jié)構(gòu)與保障[J]. 國家教育行政學院學報(9):16-23.
張晗,賈甜遠,駱方,等. 2021. 面向網(wǎng)絡文本的BERT心理特質(zhì)預測研究[J]. 計算機科學與探索,15(8):1459-1468.
張生,任巖,駱方. 2019. 學生高階思維能力的評價:復雜問題解決的測量述評[J]. 中國特殊教育(10):90-96.
張生,王雪,齊媛. 2021. 人工智能賦能教育評價:“學評融合”新理念及核心要素[J]. 中國遠程教育(2):1-8.
中共中央、國務院. 2019-02-23. 中共中央 國務院印發(fā)《中國教育現(xiàn)代化2035》[EB/OL]. [2021-11-01]. http://www.gov.cn/zhengce/2019- 02/23/content_5367987.htm
中共中央、國務院. 2020-10-13. 中共中央國務院印發(fā)《深化新時代教育評價改革總體方案》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html
中華人民共和國教育部. 2021-08-27. 2020年全國教育事業(yè)發(fā)展統(tǒng)計公報[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/jyb_sjzl/sjzl_fztjgb/202108/t20210827_555004.html
中華人民共和國教育部. 2021-07-01. 教育部等六部門關(guān)于印發(fā)《關(guān)于推進教育新型基礎設施建設構(gòu)建高質(zhì)量教育支撐體系的指導意見》的通知[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A16/s3342/202107/t20210720_545783.html
中華人民共和國教育部. 2021-03-04. 教育部等六部門關(guān)于印發(fā)《義務教育質(zhì)量評價指南》的通知[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A06/s3321/202103/t20210317_520238.html
中華人民共和國教育部. 2018-04-03. 教育部關(guān)于印發(fā)《教育信息化 2.0 行動計劃》的通知[EB/OL]. [2021-11-02]. http://www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html
中華人民共和國教育部. 2016-06-07. 教育部關(guān)于印發(fā)《教育信息化“十三五”規(guī)劃》的通知[EB/OL]. [2021-11-02]. http://www.moe.gov.cn/srcsite/A16/s3342/201606/t20160622_269367.html
中華人民共和國教育部. 2013-06-03. 教育部印發(fā)《教育部關(guān)于推進中小學教育質(zhì)量綜合評價改革的意見》[EB/OL]. [2021-11-01]. http://www.moe.gov.cn/srcsite/A06/s3321/201306/t20130608_15318 5.html
Angoff, W. (1996). Scales, norms, and equivalent scores. Educational Measurement: Theories and applications, 121
Ashwin, T. S., & Guddeti, R. M. R. (2020). Automatic detection of students affective states in classroom environment using hybrid convolutional neural networks. Education and Information Technologies, 25(2), 1387-1415.
Azucar, D., Marengo, D., & Settanni, M. (2018). Predicting the Big 5 personality traits from digital footprints on social media: A meta-analysis. Personality and Individual Differences, 124, 150-159.
Bennett, R. E. (2011). Formative assessment: A critical review. Assessment in Education: Principles, Policy & Practice, 18(1), 5-25.
Borsboom, D., Deserno, M. K., Rhemtulla, M., Epskamp, S., Fried, E. I., McNally, R. J., et al. (2021). Network analysis of multivariate data in psychological science. Nature Reviews Methods Primers, 1(1), 1-18.
Bienkowski, M., Feng, M., & Means, B. (2012). Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics: An Issue Brief. Office of Educational Technology, US Department of Education. http://www.ed.gov/edblogs/technology/files/2012/03/edm- la-brief.pdf
Camara, W. (2020). Never let a crisis go to waste: Large-scale assessment and the response to COVID-19. Educational Measurement: Issues and Practice, 39(3), 10-18.
Chan, M. C. E., Ochoa, X., & Clarke, D. (2020). Multimodal learning analytics in a laboratory classroom. In Virvou M, Alepis E, Tsihrintzis G A, et al. (Ed.), Machine Learning Paradigms: Advances in Learning Analytics (pp.131-156). New York: Springer.
Cizek, G. J., & Bunch, M. B. (2007). Standard setting: A guide to establishing and evaluating performance standards on tests. Sage Publications, 47(4), 368.
Gardner, J., OLeary, M., & Yuan, L. (2021). Artificial intelligence in educational assessment:“Breakthrough? Or buncombe and ballyhoo?”. Journal of Computer Assisted Learning, 37(5), 1207-1216.
Guba, E. G., & Lincoln, Y. S. (1989). Fourth generation evaluation. Sage.
Ibnu, S., & Marfuah, S. (2020). Students result of learning at chemistry department through assessment of, for, and as learning implementation. International Journal of Instruction, 13(2),165-178.
La Marca, P. M., Redfield, D., Winter, P. C., & Despriet, L. (2000). State standards and state assessment systems: A guide to alignment. Series on standards and assessments. Washington, DC: Council of Chief State School Officers.
Langenfeld, T. (2020). Internet-based proctored assessment: Security and fairness issues. Educational Measurement: Issues and Practice, 39(3), 24-27.
Li, Y., Li, P., Zhu, F., & Wang, R. (2017). Design of higher education quality monitoring and evaluation platform based on big data. Paper presented at the 2017 12th International Conference on Computer Science and Education (ICCSE).
Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A brief introduction to evidence-centered design. ETS Research Report Series, 2003(1), i-29.
Shermis, M. D., & Burstein, J. (Eds.). (2013). Handbook of automated essay evaluation: Current applications and new directions. NewYork: Routledge.
Sireci, S. G. (2021). NCME presidential address 2020: Valuing educational measurement. Educational Measurement: Issues and Practice, 40(1), 7-16.
European Commission. (2015). Horizon 2020 monitoring report 2014. Luxembourg: Publication Office of the EuropeanUnion.
Wang, Y., & Wang, W. (2021). Detecting pronunciation errors in spoken english tests based on multifeature fusion algorithm. Complexity, 6623885. http://doi.org/10.1155/2021/6623885.
Yan, D., Rupp, A. A., & Foltz, P. W. (2020). Handbook of automated scoring: Theory into practice. Boca Raton, FL: CRC Press.
Yang, L., Xin, T., Luo, F., Zhang, S., & Tian, X. (2021). Automated evaluation of the quality of ideas in compositions based on concept maps. Natural Language Engineering, 1-38. doi:10.1017/s13513249 21000103.
Yang, L., Xin, T., Cao, C. (2020). Predicting evaluations of essay by computational graph-based features. Frontiers in Psychology, 11, 2999.
Zhang, S., & Chang, H. (2020). A multilevel logistic hidden Markov model for learning under cognitive diagnosis. Behavior Research Methods, 52(1), 408-421.
收稿日期:2021-10-21
定稿日期:2021-11-03
作者簡介:田偉,博士,講師,碩士生導師,本文共同第一作者;楊麗萍,博士,博士后,本文共同第一作者。北京師范大學中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心(100875)。
辛濤,博士,教授,博士生導師,本文通訊作者,北京師范大學中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心常務副主任(100875)。
張生,博士,副教授,博士生導師,本文通訊作者,北京師范大學中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心網(wǎng)絡平臺部主任(100875)。
責任編輯 劉 莉