□ 田 偉 駱 方
科學(xué)探究和實驗是學(xué)生學(xué)習(xí)科學(xué)的重要方式,其對培養(yǎng)學(xué)生的創(chuàng)新精神和實踐能力具有重要意義。當前,世界各國針對科學(xué)探究和實驗?zāi)芰Φ脑u價方法變革成為研究趨勢之一,旨在促進評價與課程和教學(xué)深度融合,形成培養(yǎng)學(xué)生創(chuàng)新精神和實踐能力的育人合力。新時代我國對科學(xué)探究和實驗的教學(xué)與評價創(chuàng)新也提出了更高要求,“加強科學(xué)教育和實驗教學(xué)”“健全實驗教學(xué)評價機制”“充分運用人工智能與大數(shù)據(jù)等領(lǐng)域前沿技術(shù)方法開展人機交互測試”“創(chuàng)新評價工具”等成為新的國家政策訴求和改革著力點(教育部,2019,2021;中共中央等,2019,2020)。近年來,信息技術(shù)的發(fā)展創(chuàng)生出數(shù)字化科學(xué)探究學(xué)習(xí)和評價環(huán)境,現(xiàn)實和虛擬空間融合賦予了科學(xué)探究能力評價以全新的特征。本文主要討論計算機模擬測試方法作為一種新的評價方法的必然性、理論趨勢、實踐進展及其構(gòu)建思路和應(yīng)用途徑。
培養(yǎng)學(xué)生的多種高階能力是科學(xué)探究教學(xué)的主要目標。這些高階能力包括學(xué)生提出科學(xué)問題的能力,收集和處理信息的能力,分析問題和解決問題的能力,交流與合作的能力,以及創(chuàng)造性、批判性思維和想象力等(教育部,2022,pp.4-7)。對這些高階能力進行科學(xué)、有效的評價是促進評價與課程和教學(xué)形成內(nèi)在統(tǒng)一的必然要求。然而,傳統(tǒng)的紙筆測試和表現(xiàn)性測試方法無法全面、準確地對這些高階能力進行評價,導(dǎo)致科學(xué)探究教學(xué)的窄化和異化。
當前,紙筆測試是我國科學(xué)探究教學(xué)中廣泛使用的主導(dǎo)性評價方法,即使用標準化的選擇題和問答題等題型間接推論學(xué)生的科學(xué)探究能力。例如,通過創(chuàng)設(shè)真實情境和問題構(gòu)建一種具體情境下的問題解決“活動”來評價學(xué)生的科學(xué)探究能力(何美惠等,2020)。紙筆測試是一種用于大規(guī)模測試的標準方法,它不僅具有良好的測量學(xué)特性,而且可以提高評價的效率和可操作性(李鋒,2019)。然而,當它用于評價高階的、復(fù)雜的科學(xué)探究能力時,卻無法收集學(xué)生開展科學(xué)探究和進行高階思維的推論證據(jù),從而造成片面推論。具體原因包括以下兩個方面。
一方面,紙筆測試與科學(xué)作為一門實踐性學(xué)科的特性并不契合,設(shè)計和執(zhí)行調(diào)查等科學(xué)實踐無法在靜態(tài)的紙筆測試工具中展現(xiàn)。使用紙筆測試工具,只能采集到相對單一的最終結(jié)果分數(shù),但同一結(jié)果分數(shù)背后可能潛藏著多樣化的科學(xué)探究策略或路徑。一些學(xué)生可能直接找到并使用最佳策略,另外一些學(xué)生可能探索很多不同的策略才成功完成任務(wù),還有一些學(xué)生雖然使用相同的策略,但其花在探索任務(wù)上的時間和進行有效探索的程度不同。因此,學(xué)生與真實情境之間經(jīng)過復(fù)雜交互而產(chǎn)生的科學(xué)探究過程,對于紙筆測試方法來說是一個“黑箱”,難以被觀測和評價。
另一方面,紙筆測試的功能局限在考查陳述性知識方面,難以對科學(xué)探究過程中的多種高階能力進行有效評價。學(xué)生在真實情境中遇到的科學(xué)問題通常是結(jié)構(gòu)不良的,必須綜合運用批判性思維、創(chuàng)造性思維以及合作解決問題能力等多種高階能力進行探究。然而在紙筆測試中,命題人員注重為學(xué)生創(chuàng)設(shè)簡練的測試情境,通常使用選擇題引出一些具有明確目標和結(jié)構(gòu)良好的問題,這些情境和問題過度簡化了科學(xué)探究的本質(zhì)特征并且限制了學(xué)生的自主探索空間,因此不能展現(xiàn)科學(xué)探究課程對多種高階能力的要求。
表現(xiàn)性測試是另一種大規(guī)模測試科學(xué)探究能力的方法,這種方法通常使用綜合性和實踐性科學(xué)探究任務(wù),在學(xué)生完成任務(wù)的過程中評價他們進行科學(xué)推理和解決問題的能力(Harmon,1999;宋歌,2017)。表現(xiàn)性測試作為紙筆測試的替代性方案得到廣泛使用,尤其是在大規(guī)模的NAEP和TIMSS科學(xué)教育評價項目中。測試者呈現(xiàn)一些結(jié)構(gòu)不良的真實問題,要求學(xué)生使用提供的材料或?qū)嶒炂鞑膭邮植僮鹘鉀Q問題。學(xué)生記錄自己的思維過程和作答結(jié)果并交給評分者進行評分,測試者最終基于結(jié)果分數(shù)對學(xué)生的科學(xué)探究能力做出判斷。顯然,表現(xiàn)性測試以“在真實情境中的表現(xiàn)”為核心依據(jù)測量科學(xué)探究過程和高階認知技能(宋歌,2017;周文葉等,2021),尤其注重讓學(xué)生經(jīng)歷像科學(xué)家一樣的科學(xué)探究過程進行意義建構(gòu)和科學(xué)論證(宋歌,2017)。
然而,表現(xiàn)性測試不僅施測程序復(fù)雜,而且測試工具的信度和效度具有天然缺陷。一、表現(xiàn)性測試需要使用統(tǒng)一的實驗材料和器材,配備標準化的工具箱,使得其在大規(guī)模測評項目中的可操作性較低(宋歌,2017)。二、表現(xiàn)性測試工具存在信度和效度方面的測量技術(shù)問題(Stecher et al.,2000)。例如,表現(xiàn)性測試中每個任務(wù)不僅涉及的知識領(lǐng)域具有獨特性,而且對學(xué)生科學(xué)探究過程的記錄要求等也有很多不同,這種異質(zhì)性可能導(dǎo)致學(xué)生在不同測試任務(wù)上的表現(xiàn)存在很大差異,進而限制了將其科學(xué)探究能力表現(xiàn)推廣到更一般的情境中(Shavelson et al.,1991)。
從20世紀90年代開始,已有研究(Shavelson et al.,1991)表明計算機模擬測試方法可以作為表現(xiàn)性測試的一種替代方法。近年,隨著信息技術(shù)、虛擬科學(xué)探究教學(xué)、大規(guī)??茖W(xué)教育評價以及大數(shù)據(jù)技術(shù)等的飛速發(fā)展,計算機模擬測試方法發(fā)展成為大規(guī)模表現(xiàn)性測試的一種科學(xué)工具(Clarke-Midura et al.,2011;Quellmalz&Pellegrino,2009)。
計算機模擬測試方法通??梢苑譃槿悾茖W(xué)現(xiàn)象的模擬、虛擬實驗室和多用戶虛擬環(huán)境(李菲茗等,2020),它們都以信息技術(shù)為基礎(chǔ)創(chuàng)設(shè)真實情境和開發(fā)動態(tài)的仿真科學(xué)系統(tǒng)(OECD,2010;Perdue et al.,2019;Winick et al.,2008)。學(xué)生可以在計算機上操作科學(xué)系統(tǒng)開展調(diào)查研究,進而根據(jù)交互反饋信息或數(shù)據(jù)回答科學(xué)問題。例如,模擬科學(xué)家(SimScientists)項目使用生態(tài)學(xué)家建立的種群動態(tài)模型模擬草原生態(tài)系統(tǒng),系統(tǒng)通過計算機動畫的方式展現(xiàn)生物體之間的相互關(guān)系和草原生態(tài)系統(tǒng)20年的變化情況。學(xué)生可以運行這種計算機模擬系統(tǒng)生成圖表和數(shù)據(jù)表,進而解釋數(shù)據(jù)和回答問題(Buckley&Quellmalz,2013)??梢姡瑒討B(tài)仿真科學(xué)系統(tǒng)可以促進學(xué)生經(jīng)歷像科學(xué)家一樣的科學(xué)探究過程,即學(xué)生通過自主探究尋找科學(xué)問題的研究證據(jù)并進行論證和意義構(gòu)建。因此,以計算機模擬測試方法為工具,可以構(gòu)建與傳統(tǒng)測試方法截然不同的概念評價框架(見圖1),全面和準確地將學(xué)生的科學(xué)探究能力測量出來。
圖1 計算機模擬測試方法的概念評價框架
比較而言,計算機模擬測試方法的概念評價框架具有四個方面的顯著優(yōu)勢。
一是情境更加真實和仿真,符合現(xiàn)實世界復(fù)雜、綜合的本源特征,這是開發(fā)非常規(guī)問題解決任務(wù)和創(chuàng)設(shè)更加自主的探索空間的基礎(chǔ)??茖W(xué)現(xiàn)象的模擬和虛擬實驗室是一種2D的計算機模擬測試方法,它們的情境多是一些常規(guī)性的和高度簡化的情境,學(xué)生使用相對簡單的程序性知識和遵循一套明確的程序來探究和解決問題。以PISA2015年的一道“澤爾罐”樣題為例,題目要求學(xué)生在氣溫為4℃的條件下,通過改變沙層的厚度和濕度來探究澤爾罐最大的食物保鮮量(OECD,2017)。分析可見,其中的科學(xué)探究問題、任務(wù)和程序是明確的,可以構(gòu)成一個結(jié)構(gòu)良好的封閉問題情境。學(xué)生遵循相對明確的程序,承受較低的認知負荷就可以解決問題。多用戶虛擬環(huán)境是一種3D計算機模擬測試方法,借此可以創(chuàng)建圖形化的虛擬情境和沉浸式的體驗。多個用戶可以同時登錄并創(chuàng)建自己的虛擬化身,每個用戶可以借由自己的化身使用文本和虛擬手勢與其他用戶的化身進行交流,也可以使用數(shù)字化的工具(如查看圖片或操作在線顯微鏡工具)與計算機代理進行交互。多用戶虛擬環(huán)境中的情境是一種高度復(fù)雜和不確定的科學(xué)現(xiàn)象,學(xué)生在這種模擬真實現(xiàn)實世界的情境中具有更大的自主探索和合作探究空間。由于沒有清晰的問題解決路徑,學(xué)生在科學(xué)探究過程中可能經(jīng)歷一些不可預(yù)期的、非常規(guī)的或不熟悉的問題解決過程,從而引出更多推理過程或問題解決策略(Clarke-Midura et al.,2011)。
二是利用計算機過程數(shù)據(jù)追蹤技術(shù)采集學(xué)生進行復(fù)雜科學(xué)探究活動的行為過程,使得科學(xué)探究能力的評價證據(jù)變得豐富。教育評價活動本身的復(fù)雜性要求評價者在推論過程中綜合使用多種評價證據(jù)。有研究者將數(shù)字評價環(huán)境下采集到的數(shù)據(jù)分為結(jié)果數(shù)據(jù)和過程數(shù)據(jù)(Rupp et al.,2012)。采集科學(xué)探究過程數(shù)據(jù)(如科學(xué)探究的設(shè)計和執(zhí)行過程)是計算機模擬測試方法超越傳統(tǒng)測試方法的重要特征,這為綜合采用多源評價證據(jù)進行科學(xué)探究能力的推論提供了科學(xué)基礎(chǔ)(Wilson&Bertenthal,2006)。過程數(shù)據(jù)主要來自計算機環(huán)境下學(xué)生與其他學(xué)生和/或計算機環(huán)境之間交互的過程。例如,學(xué)生收集數(shù)據(jù)活動的數(shù)據(jù)流。過程數(shù)據(jù)是帶有時間標記的、由事件組成的行為序列數(shù)據(jù),通常也被稱為日志文件、跟蹤數(shù)據(jù)或證據(jù)跟蹤文件,其中常見的科學(xué)探究行為過程包括敲擊鍵盤、移動鼠標、點擊鼠標以及做出反應(yīng)等(Li et al.,2018)。由于每個學(xué)生都會產(chǎn)生大量個性化的科學(xué)探究過程數(shù)據(jù),導(dǎo)致過程數(shù)據(jù)成為一種龐雜的、無結(jié)構(gòu)的大數(shù)據(jù),其挖掘和分析比傳統(tǒng)的結(jié)果數(shù)據(jù)更加復(fù)雜。盡管如此,過程數(shù)據(jù)中蘊含的復(fù)雜認知規(guī)律對于精準估計科學(xué)探究能力和構(gòu)建教育教學(xué)模型具有重要價值。當前,過程數(shù)據(jù)挖掘是一個新興研究領(lǐng)域,研究處于初步發(fā)展階段并取得了一些進展。
三是拓展了評價內(nèi)容,并促進評價重心轉(zhuǎn)向高階科學(xué)探究能力。計算機模擬測試方法強調(diào)非常規(guī)問題解決和科學(xué)探究過程,使得評價內(nèi)容從傳統(tǒng)的陳述性知識拓展到程序性知識、認識論知識以及評價和設(shè)計科學(xué)探究、科學(xué)地解釋數(shù)據(jù)和證據(jù)、問題解決能力、合作解決問題能力等各項高階能力(Evagorou et al.,2009;Li et al.,2018;OECD,2017;Quellmalz et al.,2013;Quellmalz et al.,2012;von Davier et al.,2017)。例如,有一個測試情境是在南極洲建立可持續(xù)研究中心。題目要求學(xué)生向南極洲的研究中心委員會描述自己的可持續(xù)能源計劃建議或?qū)ζ渌颂岢龅姆桨甘欠駶M足設(shè)計限制條件進行評判,這一題目的評價目標側(cè)重的是科學(xué)探究中的交流與合作(Quellmalz et al.,2012)。學(xué)生還可以在多用戶虛擬環(huán)境中共同合作進行問題解決,如以2~4人為一組合作找出河城居民生病的原因(Ketelhut,2007;王建明等,2011)。
四是計算機模擬測試方法具有很好的信度和效度。傳統(tǒng)測試方法不能有效評價學(xué)生設(shè)計和開展科學(xué)探究的能力。計算機模擬測試方法作為一種革新方法,是否可以有效測量學(xué)生開展科學(xué)探究的能力也得到關(guān)注。例如,采用專家訪談、認知實驗和統(tǒng)計分析方法的各項研究表明,相比靜態(tài)測試方法,計算機模擬測試方法作為一種動態(tài)交互測試方法可以更加有效地測量學(xué)生開展科學(xué)探究的能力(Quellmalz et al.,2013)。在虛擬表現(xiàn)評價項目中,數(shù)據(jù)表明計算機模擬測試工具的克隆巴赫α系數(shù)為0.88,可見當它用于測量科學(xué)探究時是可信的(Scalise&Clarke-Midura,2018)。
計算機模擬測試方法是一種信息技術(shù)賦能的動態(tài)評價方法,過程數(shù)據(jù)是其賦能的一個重要表現(xiàn)。在技術(shù)環(huán)境下,學(xué)生解決非常規(guī)問題的過程是其進行自主探究的過程,過程中會產(chǎn)生大量行為過程數(shù)據(jù)。而且,過程數(shù)據(jù)之中蘊含著有關(guān)學(xué)生的認知、元認知、動機和情感狀態(tài)的信息(Goldhammer&Zehner,2017)。充分挖掘這些隱含的科學(xué)探究過程信息和規(guī)律有助于構(gòu)建教育教學(xué)模型,為教學(xué)和學(xué)習(xí)提供形成性反饋信息??茖W(xué)探究過程數(shù)據(jù)挖掘和分析是一個新興跨學(xué)科前沿研究領(lǐng)域。總結(jié)現(xiàn)有研究的方向和內(nèi)容可見該領(lǐng)域的研究還處于初級發(fā)展階段,初步形成了以過程數(shù)據(jù)為中心的教育教學(xué)模型研究圖景(見圖2)。
圖2 科學(xué)探究過程數(shù)據(jù)挖掘的研究圖景
挖掘和分析過程數(shù)據(jù)可以幫助教師、研究者和教育政策制定者深入理解學(xué)生科學(xué)探究表現(xiàn)差異背后的教育教學(xué)過程和機制,從而制定相應(yīng)的支持政策。科學(xué)探究過程數(shù)據(jù)挖掘的研究圖景可以分為三個方面。
一是使用理論驅(qū)動和數(shù)據(jù)驅(qū)動結(jié)合的方法界定科學(xué)探究過程指標(Eichmann et al.,2020),把行為序列和認知、元認知策略等聯(lián)系起來,為挖掘過程數(shù)據(jù)和構(gòu)建教育教學(xué)模型提供理論基礎(chǔ)。研究者基于學(xué)科理論研究界定科學(xué)探究過程指標,把行為序列簡化為一系列單一統(tǒng)計指標。例如,科學(xué)探究策略(控制變量或交互)、科學(xué)探究中的探索行為(行為、試驗、人機交互和科學(xué)探究的次數(shù)等)以及花費在每個題目或任務(wù)上的總時間都是常見的過程指標(Teig et al.,2020)。使用數(shù)據(jù)驅(qū)動的方法提取行為序列的子序列或全序列作為過程指標(Eichmann et al.,2020;He&von Davier,2015;Tang et al.,2020)。單一統(tǒng)計指標可能會忽略行為的組合或序列信息,導(dǎo)致重要信息丟失,以至于出現(xiàn)完全不同的行為序列卻得到相似的統(tǒng)計指標,而提取行為序列或其子序列則可以避免這一問題。例如,研究者使用n-gram方法將解決復(fù)雜問題行為分解成小的子序列,進而通過分析子序列的頻次和成功解決復(fù)雜問題之間的關(guān)系來確定相關(guān)的行為模式(He&von Davier,2015)。除了子序列指標以外,還可以提取完整的行為序列以深入理解行為特征與探究成功之間的關(guān)系(Eichmann et al.,2020)。
二是基于過程指標分析影響科學(xué)探究結(jié)果或能力的關(guān)鍵過程指標。研究者(Goldhammer&Zehner,2017)認為過程數(shù)據(jù)會對結(jié)果分數(shù)產(chǎn)生影響,使得影響機制成為研究方向之一。例如,一些研究者(Han et al.,2019)使用隨機森林方法得到了對問題解決結(jié)果具有重要預(yù)測作用的過程特征。另一些研究者(Scalise&Clarke-Midura,2018)將傳統(tǒng)的多維項目反應(yīng)理論和貝葉斯方法結(jié)合起來同時分析過程指標和結(jié)果數(shù)據(jù),更加科學(xué)和準確地評價學(xué)生的科學(xué)探究能力。還有一些研究者(Baker et al.,2016)使用沉浸式虛擬環(huán)境(虛擬表現(xiàn)評價)下的過程數(shù)據(jù)構(gòu)建了一個科學(xué)探究模型以預(yù)測學(xué)生是否能夠成功開展科學(xué)探究。
三是基于混合模型構(gòu)建影響科學(xué)探究過程的教育教學(xué)模型。一方面科學(xué)探究過程的分類成為研究主題之一。例如,研究者將控制變量策略的使用水平分為完全沒有使用控制變量策略、部分使用控制變量策略和完全使用控制變量策略,并使用潛類別模型把學(xué)生分為熟練的探索者、中級探索者、低表現(xiàn)探索者、快速學(xué)習(xí)者、新興探索者和不持久的探索者(Greiff et al.,2018)。另一方面,基于背景數(shù)據(jù)融入教育教學(xué)變量研究影響科學(xué)探究過程發(fā)展的教育教學(xué)機制。例如,研究者基于PISA2015年計算機模擬測試中的科學(xué)探究過程數(shù)據(jù),使用科學(xué)探究策略、科學(xué)探究的探索行為、學(xué)生花在每個任務(wù)上的時間以及任務(wù)作答的準確性四類過程和結(jié)果指標,將所有學(xué)生分為策略型、處于發(fā)展初期型和未卷入型三種,并使用人口學(xué)特征變量(性別、社會經(jīng)濟地位、家庭使用的語言)和態(tài)度變量(學(xué)生對科學(xué)的喜愛、自我效能和考試焦慮)對學(xué)生的科學(xué)探究過程類別進行預(yù)測,獲得了有關(guān)科學(xué)探究過程形成的教育教學(xué)模型(Teig et al.,2020)。
評價是教育系統(tǒng)的組成部分之一。使用計算機模擬測試方法構(gòu)建新型評價生態(tài)系統(tǒng),加強評價與課程、教學(xué)和學(xué)習(xí)的深度融合,從而促進學(xué)生的個性化學(xué)習(xí),這是計算機模擬測試方法的重要價值和功能。當前,評價與課程、教學(xué)以及學(xué)習(xí)深度融合通常有兩種主要路徑,即大規(guī)??茖W(xué)教育評價和嵌入式課堂評價(見圖3),它們分別代表終結(jié)性評價和形成性評價。核心素養(yǎng)、課程標準和過程數(shù)據(jù)挖掘是增強終結(jié)性評價和形成性評價的重要支柱,從而有效支持復(fù)雜科學(xué)知識和科學(xué)探究技能的個性化學(xué)習(xí)。
圖3 計算機模擬測試方法與課程、教學(xué)以及學(xué)習(xí)深度融合的兩種主要路徑
一方面,依據(jù)核心素養(yǎng)和國家課程標準制定科學(xué)探究能力的評價指標,并在大規(guī)??茖W(xué)教育評價中采用計算機模擬測試方法是促進課程和教學(xué)改革的重要抓手??茖W(xué)探究是科學(xué)學(xué)科的核心特色,科學(xué)家主要使用科學(xué)實踐的方式解決復(fù)雜的現(xiàn)實問題。因此,促進學(xué)生像科學(xué)家一樣通過科學(xué)實踐思考和解決問題也是當代科學(xué)課程的重要目標。經(jīng)合組織認為學(xué)生有必要理解科學(xué)研究的特性并將其遷移到現(xiàn)實世界的真實情境中以解決問題(OECD,1999)。改革評價方法從而有效評價學(xué)生在真實情境中開展科學(xué)探究的能力是PISA測試的價值追求。經(jīng)過多年的不斷發(fā)展,經(jīng)合組織提出了以科學(xué)探究為中心的評價標準:科學(xué)地解釋現(xiàn)象、評價和設(shè)計科學(xué)探究以及科學(xué)地解釋數(shù)據(jù)和證據(jù),而且將計算機模擬測試方法作為當前的主要評價方法(OECD,2010,2017)。例如,在2015年經(jīng)合組織公布的試題中,PISA測試的情境材料不僅包括簡短的文本以及文本和表格、圖形的組合,還有動畫和模擬類的動態(tài)刺激材料,在動態(tài)的科學(xué)探究過程中評價學(xué)生的科學(xué)探究能力。2019年,美國的NAEP測試以國家課程標準、科學(xué)素養(yǎng)基準、國際測試框架以及各州課程標準為共同基礎(chǔ)提出了科學(xué)素養(yǎng)測試框架,其中使用科學(xué)探究的四項測試標準包括:①設(shè)計或評價科學(xué)調(diào)查;②使用合適的工具和技術(shù)開展科學(xué)調(diào)查;③識別數(shù)據(jù)的模式與/或?qū)?shù)據(jù)模式和理論模型聯(lián)系起來;④使用經(jīng)驗證據(jù)驗證或批判解釋和預(yù)測的結(jié)論(Perdue et al.,2019)。為了全面和準確評價學(xué)生使用科學(xué)探究的能力,NAEP還從正式測試樣本中抽取部分樣本獨立進行動手表現(xiàn)或計算機交互任務(wù)測試。綜上所述,使用計算機模擬測試方法全面和準確地評價學(xué)生的科學(xué)探究能力,深入了解學(xué)生在界定研究問題、制訂數(shù)據(jù)收集計劃、執(zhí)行計劃以及應(yīng)對不可預(yù)知的挑戰(zhàn)等方面的高階能力,是有效增強評價與課程和教學(xué)的深度融合的關(guān)鍵過程和方法。
另一方面,以虛擬科學(xué)探究學(xué)習(xí)環(huán)境為主體,嵌入計算機模擬測試工具和過程數(shù)據(jù)分析方法,構(gòu)建“歸納分析+實時反饋+輔導(dǎo)幫助”的新型課堂評價系統(tǒng)是促進個性化學(xué)習(xí)的主要表征。美國West-ED、哈佛大學(xué)、科羅拉多大學(xué)博爾德分校等機構(gòu)以國家課程標準為基準,開發(fā)了模擬科學(xué)家、虛擬表現(xiàn)評價(virtual performance assessment)以及PhET模擬等科學(xué)探究學(xué)習(xí)和評價系統(tǒng),均以計算機模擬測試為其理論基礎(chǔ)。例如,“模擬科學(xué)家”項目開發(fā)了一組符合國家和州科學(xué)課程標準的科學(xué)探究模擬學(xué)習(xí)環(huán)境,其中嵌有形成性和終結(jié)性評價系統(tǒng)。學(xué)生可以開展科學(xué)觀察、科學(xué)實驗、數(shù)據(jù)解釋和科學(xué)預(yù)測活動,形成性評價系統(tǒng)可以實時歸納分析學(xué)生的錯誤類型并提供反饋提示和輔導(dǎo),從而幫助其矯正錯誤概念或前概念。學(xué)習(xí)管理系統(tǒng)還會呈現(xiàn)學(xué)生學(xué)習(xí)進展情況,指出每位學(xué)生在每項知識內(nèi)容和科學(xué)探究學(xué)習(xí)目標上是表現(xiàn)較好、正在進步還是需要幫助。單元學(xué)習(xí)結(jié)束之后,學(xué)生還會進入終結(jié)性評價系統(tǒng),將所學(xué)知識和技能遷移到新情境下應(yīng)用,系統(tǒng)以基礎(chǔ)以下、基礎(chǔ)水平、成熟和高級劃分學(xué)生的能力水平,并為教師和學(xué)生提供能力反饋報告(Quellmalz et al.,2020)。為了促進個性化學(xué)習(xí),研究者還使用科學(xué)探究過程的高級分析技術(shù)進行學(xué)習(xí)分析。例如,研究者使用文本回放標簽法、序列模式挖掘法對復(fù)雜的科學(xué)探究過程進行自動化評分;使用自然語言處理技術(shù)對科學(xué)解釋進行自動評分并預(yù)測學(xué)生的科學(xué)探究能力??茖W(xué)探究能力自動化評分可以為學(xué)生實時提供自適應(yīng)的、個性化的反饋和支架從而提升學(xué)生的科學(xué)探究能力(Li et al.,2018)。
計算機模擬測試是一種信息技術(shù)賦能的動態(tài)評價方法,也是以教育測量、計算機技術(shù)、科學(xué)教育和大數(shù)據(jù)為基礎(chǔ)形成的交叉研究領(lǐng)域,還是一種與課程、教學(xué)和學(xué)習(xí)深度融合的新型評價生態(tài)系統(tǒng)。計算機模擬測試方法可以為教育教學(xué)決策提供科學(xué)、全面、可靠、有效和實時的評價依據(jù),顯著改進了結(jié)果評價并強化了過程評價。計算機模擬測試方法在我國雖被廣泛關(guān)注和初步研究,但還沒有實際應(yīng)用。鑒于其意義和價值,討論計算機模擬測試工具的構(gòu)建思路,對于著力改進課堂評價與科學(xué)學(xué)科國家義務(wù)教育質(zhì)量監(jiān)測具有啟示意義。
我國目前有關(guān)計算機模擬測試方法的研究主要是介紹國際上使用的測試工具及其開發(fā)的概念框架——證據(jù)中心設(shè)計(李菲茗等,2020)。由于計算機模擬測試方法具有學(xué)科交叉、形態(tài)多樣和測試工具構(gòu)建復(fù)雜等特點,在開發(fā)測試工具的過程中除了要遵循標準的流程和規(guī)范,還要正確處理設(shè)計、開發(fā)和解釋的關(guān)鍵理論問題,作好各種評價和推論決策。
一是正確認識信息技術(shù)和科學(xué)探究能力評價之間的主次關(guān)系。計算機模擬測試方法的本質(zhì)特征是“信息技術(shù)+科學(xué)探究能力評價”,這一交叉學(xué)科的核心問題是使用信息技術(shù)解決科學(xué)探究能力評價的科學(xué)性、準確性和有效性問題。因此,開發(fā)測試工具時應(yīng)該以科學(xué)探究能力為中心進行設(shè)計和解釋,否則就不能構(gòu)成具有實質(zhì)意義的評價問題,導(dǎo)致測試工具難以用于實際的教學(xué)實踐活動,不能提供有效的教育教學(xué)建議。加強科學(xué)探究能力的中心地位可以從三個方面著力。首先,通過對科學(xué)探究能力進行操作性定義來構(gòu)建精細的測評維度??茖W(xué)探究能力是復(fù)雜、多維和綜合性的,通過領(lǐng)域分析和領(lǐng)域建模清晰定義科學(xué)探究活動必需的知識、技能和能力是開發(fā)測試工具的首要步驟。例如,一些研究者關(guān)注科學(xué)探究作為一種問題解決過程——形成假設(shè)、設(shè)計和開展調(diào)查、解釋數(shù)據(jù)和交流結(jié)果(Gobert et al.,2013),另一些研究者則關(guān)注科學(xué)探究作為一種合作解決問題的過程——分享資源/觀點,協(xié)商觀點,調(diào)節(jié)問題解決活動并保持積極溝通(von Davier et al.,2017)。其次,明確測評維度的外部可觀測行為證據(jù)以開發(fā)科學(xué)探究任務(wù)來收集有效數(shù)據(jù)。例如,研究者將合作科學(xué)探究能力具體化為33種可觀測行為,精細指導(dǎo)科學(xué)探究任務(wù)設(shè)計和開發(fā)(von Davier et al.,2017)。在真實情境中,科學(xué)探究任務(wù)的復(fù)雜性使得解決問題需要綜合運用多種科學(xué)知識、技能和能力,測評維度與外部可觀測行為證據(jù)之間的映射關(guān)系不僅可以加強科學(xué)探究任務(wù)設(shè)計的目標性、精準性,不致毫無目的地在計算機模擬和游戲中增加復(fù)雜的刺激特征(Behrens,2009),而且可以構(gòu)建準確的測量模型以推論學(xué)生的科學(xué)探究能力。最后,使用精細的測評維度可以指導(dǎo)過程數(shù)據(jù)的采集標準、解釋機制和應(yīng)用規(guī)則構(gòu)建。過程數(shù)據(jù)是學(xué)生完成科學(xué)探究任務(wù)的內(nèi)在心理過程寫照和能力推論的直接證據(jù)。測評維度與過程數(shù)據(jù)之間的映射關(guān)系可以加強理論驅(qū)動的過程數(shù)據(jù)采集、過程指標提取和合適測量模型的選擇。
二是根據(jù)應(yīng)用場景和評價目標選擇合適的計算機模擬測試類型??茖W(xué)現(xiàn)象的模擬、虛擬實驗室和多用戶虛擬環(huán)境在情境真實程度、探究任務(wù)復(fù)雜程度、學(xué)生沉浸體驗和應(yīng)用場景上有著顯著差異,在實踐應(yīng)用中選擇合適的計算機模擬測試類型非常重要。當前,鑒于科學(xué)課程改革的內(nèi)在要求,課堂評價和大規(guī)??茖W(xué)教育評價都有創(chuàng)設(shè)虛擬情境和復(fù)雜科學(xué)探究任務(wù)的需求,使得多用戶虛擬環(huán)境成為迫切的現(xiàn)實訴求。然而,由于評價目標、技術(shù)條件和現(xiàn)實問題的約束,多用戶虛擬環(huán)境并不適用于大規(guī)模高利害相關(guān)的科學(xué)教育評價。例如,多用戶虛擬環(huán)境由于本身的高度開放性和自主性,導(dǎo)致在有限的測試時間內(nèi)無法使用大量的題目,因此難以滿足知識、技能和能力要有足夠代表性和覆蓋面這一要求??偟膩砜?,國際科學(xué)教育評價項目主要使用科學(xué)現(xiàn)象模擬和虛擬實驗室(OECD,2010,2017;Perdue et al.,2019)。多用戶虛擬環(huán)境更適合在課堂學(xué)習(xí)和評價中廣泛使用,真實且復(fù)雜的情境和任務(wù)、自主的探索空間以及沉浸式的體驗都有利于增強評價與課程、教學(xué)和學(xué)習(xí)的深度融合。
三是選擇合適的統(tǒng)計模型綜合多源證據(jù)以推論學(xué)生的科學(xué)探究能力。傳統(tǒng)測試方法只能采集高度結(jié)構(gòu)化的結(jié)果數(shù)據(jù),借助傳統(tǒng)的經(jīng)典測驗理論和項目反應(yīng)理論即可準確分析這種單一類型的數(shù)據(jù)。然而,科學(xué)探究過程數(shù)據(jù)作為科學(xué)探究能力的直接證據(jù),無法借由傳統(tǒng)的教育測量模型進行分析。過程數(shù)據(jù)是無結(jié)構(gòu)的大數(shù)據(jù),分析時不僅需要拓展傳統(tǒng)的教育測量模型,還要開發(fā)機器學(xué)習(xí)模型。例如,有研究者將傳統(tǒng)的多維項目反應(yīng)理論模型和貝葉斯網(wǎng)絡(luò)結(jié)合,提出了混合模型mIRT-Bayes,用于分析虛擬表現(xiàn)評價中的結(jié)果數(shù)據(jù)和過程數(shù)據(jù)。經(jīng)過改進的測量模型可以提高科學(xué)探究能力估計的信度(Scalise&Clarke-Midura,2018)。還有研究者提出了新的貝葉斯網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)和知識追蹤模型,用以分析科學(xué)探究過程數(shù)據(jù)(Quellmalz et al.,2009)。
從有關(guān)課堂教學(xué)和評價改革政策的新變化可見,當前使用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù)創(chuàng)新評價工具成為我國教育改革中的重要實踐需求(教育部,2019,2021;中共中央等,2019,2020)。借鑒國際上計算機模擬測試方法的實踐進展,可以著力構(gòu)建評價與課程、教學(xué)和學(xué)習(xí)深度融合,結(jié)果數(shù)據(jù)和過程數(shù)據(jù)深度融合,以及各種不同學(xué)科領(lǐng)域深度融合的新型科學(xué)探究能力評價生態(tài)系統(tǒng),從而改進課堂評價與科學(xué)學(xué)科國家義務(wù)教育質(zhì)量監(jiān)測。
一是借鑒國際科學(xué)教育評價項目的成熟經(jīng)驗改進科學(xué)學(xué)科國家義務(wù)教育質(zhì)量監(jiān)測??偟膩砜?,國際科學(xué)教育評價項目的計算機模擬測試方法經(jīng)歷了兩個發(fā)展階段。第一階段為早期探索和理論研究階段(2006—2009年),目標是檢驗大規(guī)模實施計算機模擬測試方法的可行性,并系統(tǒng)研究測試工具的信度、效度和測量等價性等理論問題。PISA測試項目是其中的先行者,早在2006年就開展相關(guān)試驗和研究(OECD,2010)。美國各州和全國的測試項目也在探索使用計算機模擬測試方法(Quellmalz&Pellegrino,2009)。2009年,修訂之后的美國NAEP科學(xué)素養(yǎng)測試框架提出使用計算機交互任務(wù)評價學(xué)生開展探究和調(diào)查的技能(Winick et al.,2008)。第二階段為測試工具的實踐應(yīng)用和升級階段(2010年至今)。例如,2015年,OECD正式使用計算機模擬測試方法評價學(xué)生的科學(xué)素養(yǎng)。還有一些研究者使用更加復(fù)雜的虛擬表現(xiàn)評價測量美國各州和國家科學(xué)教育課程標準所要求的科學(xué)探究過程(Clarke-Midura et al.,2011)。目前,計算機模擬測試工具的價值得到了普遍認可。例如,拓展了可以調(diào)查的科學(xué)現(xiàn)象范圍(如展現(xiàn)過慢/過快、肉眼不可見的危險的科學(xué)現(xiàn)象)(OECD,2010);測試題型更加豐富,信息技術(shù)可以創(chuàng)生出各種信息技術(shù)增強題型(如使用下拉菜單進行選擇、選擇地圖中的某個地點、使用鼠標拖放進行排序)。計算機模擬測試方法在大規(guī)模教育評價中的應(yīng)用分為兩種典型的路徑模式:“靜態(tài)單元+動態(tài)單元+全部樣本”(PISA測試模式)和“動手操作任務(wù)+計算機交互任務(wù)+部分學(xué)生樣本”(NAEP測試模式)。結(jié)合計算機模擬測試工具開發(fā)的難度、學(xué)生的接受程度以及計算機和網(wǎng)絡(luò)硬件的普及程度等各種情況,我國現(xiàn)階段改進科學(xué)學(xué)科國家義務(wù)教育質(zhì)量監(jiān)測可以NAEP測試模式為主,獨立實施計算機模擬測試并報告結(jié)果,逐步構(gòu)建深度融合的新型教育評價生態(tài)系統(tǒng)。
二是結(jié)合中共中央和國務(wù)院的政策要求,使用計算機模擬測試方法加強評價與課堂學(xué)習(xí)的深度融合。2019年6月,中共中央、國務(wù)院提出精準分析學(xué)情、差異化教學(xué)和個別化指導(dǎo)的教學(xué)改革方向(中共中央等,2019)。隨著我國信息技術(shù)支撐的科學(xué)探究學(xué)習(xí)環(huán)境的發(fā)展成熟,將計算機模擬測試工具嵌入其中即可構(gòu)建課程、教學(xué)、學(xué)習(xí)和評價深度融合的學(xué)習(xí)和評價系統(tǒng)。通過構(gòu)建“歸納分析+實時反饋+輔導(dǎo)幫助”的學(xué)習(xí)診斷和干預(yù)路徑,充分結(jié)合高級教育數(shù)據(jù)挖掘方法還可更加高效地開展差異化教學(xué)和個別化指導(dǎo),從而加強和改進科學(xué)探究和實驗教學(xué)。
使用計算機模擬測試方法評價學(xué)生的科學(xué)探究能力是新時期的理論趨勢和實踐進展。當前,雖然該研究領(lǐng)域還處于初級階段,國內(nèi)的相關(guān)研究較少,但是可以看到其對教育評價改革的重要價值。一方面,利用信息技術(shù)創(chuàng)建真實情境和探究任務(wù)可以改變教育評價的本質(zhì)并提升評價工具的結(jié)構(gòu)效度;另一方面,挖掘和使用大量過程數(shù)據(jù)可以強化過程評價和形成性評價。未來,持續(xù)的理論研究和實踐應(yīng)用對于加強和改進計算機模擬測試方法至關(guān)重要。例如,在計算機模擬測試方法中加入更多的合作解決問題、科學(xué)探究策略、虛擬現(xiàn)實情境等要素以促進對更加復(fù)雜的科學(xué)探究過程和要素進行評價;使用機器學(xué)習(xí)方法開展過程數(shù)據(jù)的深入研究;在科學(xué)探究學(xué)習(xí)系統(tǒng)中使用自動評分技術(shù)實現(xiàn)學(xué)習(xí)和評價無縫銜接和整合。