李菲茗 張浩 林麗娟 黃怡
【摘要】 計(jì)算機(jī)交互式評(píng)價(jià)以計(jì)算機(jī)模擬的形式呈現(xiàn)學(xué)科知識(shí)及其系統(tǒng)結(jié)構(gòu),并支持新穎的交互形式。評(píng)價(jià)學(xué)生的科學(xué)探究能力不僅需要?jiǎng)?chuàng)設(shè)豐富的任務(wù)情境,同時(shí)也要收集和分析學(xué)生的行為和作答數(shù)據(jù)。鑒于交互式評(píng)價(jià)與科學(xué)探究評(píng)價(jià)的契合性,文章基于以證據(jù)為中心(Evidence-Centered Design,ECD)的評(píng)價(jià)設(shè)計(jì)理念,解析了交互式科學(xué)探究評(píng)價(jià)的設(shè)計(jì)流程。首先,介紹了評(píng)價(jià)設(shè)計(jì)的理論基礎(chǔ)——ECD框架。其次,結(jié)合科學(xué)探究評(píng)價(jià)的典型研究項(xiàng)目,以評(píng)價(jià)設(shè)計(jì)流程的任務(wù)分析、任務(wù)創(chuàng)設(shè)和數(shù)據(jù)分析為主線,總結(jié)了任務(wù)分析的領(lǐng)域信息來源、任務(wù)情境標(biāo)準(zhǔn)、任務(wù)創(chuàng)設(shè)的界面形式、學(xué)生作品和系統(tǒng)響應(yīng),以及數(shù)據(jù)分析中使用的多種數(shù)學(xué)模型。最后,討論了交互式評(píng)價(jià)在評(píng)價(jià)的標(biāo)準(zhǔn)、實(shí)用性、非認(rèn)知因素以及協(xié)同開發(fā)等方面應(yīng)關(guān)注的問題和未來的發(fā)展方向,旨在豐富我國有關(guān)交互式評(píng)價(jià)開發(fā)的理論和實(shí)踐研究。
【關(guān)鍵詞】? ECD;計(jì)算機(jī)交互式評(píng)價(jià);過程性數(shù)據(jù);科學(xué)探究;任務(wù)分析;任務(wù)創(chuàng)設(shè);數(shù)據(jù)分析
一、引言
在教育領(lǐng)域,信息通信技術(shù)(ICT)廣泛應(yīng)用于學(xué)校管理和教學(xué)過程,大量研究證明ICT有助于提升學(xué)校管理效率和教學(xué)質(zhì)量(Kirkwood & Price, 2014)。近年來,計(jì)算機(jī)模擬和交互的技術(shù)不僅廣泛應(yīng)用于教學(xué),也給教育評(píng)價(jià)的創(chuàng)新帶來生機(jī)?;谟?jì)算機(jī)的評(píng)價(jià),如基于模擬、情境和游戲的評(píng)價(jià),從本質(zhì)上改變了設(shè)計(jì)、開發(fā)、實(shí)現(xiàn)評(píng)價(jià)和收集數(shù)據(jù)的方式(Liu & Li, 2018)?;谟?jì)算機(jī)的評(píng)價(jià)能以新的方式呈現(xiàn)學(xué)科領(lǐng)域知識(shí)及其系統(tǒng)結(jié)構(gòu),并提供交互環(huán)境,使得被測(cè)者能夠與計(jì)算機(jī)界面提供的任務(wù)指示、提示、反饋等交互,從而完成測(cè)試任務(wù)。相比紙筆測(cè)驗(yàn)和傳統(tǒng)的上機(jī)考試,交互式評(píng)價(jià)主要有以下優(yōu)點(diǎn):首先,計(jì)算機(jī)能模擬真實(shí)世界的關(guān)鍵特征,創(chuàng)設(shè)豐富的任務(wù)情境,特別是一些無法直接或高效地通過實(shí)驗(yàn)室操作的現(xiàn)象(如地震、核裂變、捕食過程、植物生長等)(Quellmalz, Timms, Silberglitt, & Buckley, 2012)。其次,在交互式評(píng)價(jià)情境中,學(xué)生根據(jù)任務(wù)要求主動(dòng)操作任務(wù)界面,并采取合適的步驟解決任務(wù)中提出的問題。再次,計(jì)算機(jī)可以以計(jì)算機(jī)日志文件的形式對(duì)學(xué)生的行為和作答數(shù)據(jù)進(jìn)行實(shí)時(shí)記錄。其中,學(xué)生的行為數(shù)據(jù)也稱為“過程性數(shù)據(jù)”,這些數(shù)據(jù)有助于理解學(xué)生的問題解決策略,進(jìn)而評(píng)價(jià)學(xué)生的高階思維能力。最后,評(píng)價(jià)過程即學(xué)生的自主探究過程,實(shí)現(xiàn)了在學(xué)習(xí)情境中進(jìn)行評(píng)價(jià)的理念,不僅記錄了最真實(shí)的數(shù)據(jù),也緩解了學(xué)生的考試焦慮,保證學(xué)生能夠正常發(fā)揮。
交互式評(píng)價(jià)的以上特征使其更適用于需要專門知識(shí)作為推理證據(jù)的學(xué)科領(lǐng)域,如刑偵、心理學(xué)、醫(yī)學(xué)、工程學(xué)、數(shù)學(xué)和科學(xué)等(Mislevy & Riconscente, 2005)。同時(shí),科學(xué)學(xué)科因其豐富的畫面需求與嚴(yán)謹(jǐn)?shù)目茖W(xué)探究過程使得基于計(jì)算機(jī)的評(píng)價(jià)可以充分發(fā)揮技術(shù)優(yōu)勢(shì)。目前,交互式科學(xué)探究評(píng)價(jià)已在國際上開始應(yīng)用。以美國為例,在課堂層面,基于模擬的Simscientists課程嵌入式評(píng)價(jià)持續(xù)地收集學(xué)生的行為數(shù)據(jù),為學(xué)生提供即時(shí)反饋和修改答案的機(jī)會(huì),從而實(shí)現(xiàn)對(duì)學(xué)生的個(gè)性化指導(dǎo)(Quellmalz, et al., 2012);在州層面,明尼蘇達(dá)州通過模擬實(shí)驗(yàn)室實(shí)驗(yàn)和調(diào)查科學(xué)現(xiàn)象進(jìn)行在線科學(xué)測(cè)試,猶他州也試驗(yàn)了科學(xué)模擬評(píng)價(jià)(King, 2011);在國家層面, 2009年(美國)全國教育進(jìn)展評(píng)估(National Assessment of Educational Progress, NAEP)開始設(shè)計(jì)基于計(jì)算機(jī)的科學(xué)探究試題,之后針對(duì)技術(shù)和工程素養(yǎng),NAEP于2014年開發(fā)了基于計(jì)算機(jī)交互的情境試題。在國際層面,每三年舉行一次的國際學(xué)生測(cè)評(píng)項(xiàng)目(Program for International Student Assessment, PISA)自2006年開始納入基于計(jì)算機(jī)的試題形式,2015年的部分科學(xué)試題采用了新型的人機(jī)交互形式。隨著交互式科學(xué)探究評(píng)價(jià)的發(fā)展,Visual Performance Assessment(VPA)、River City 多用戶虛擬環(huán)境(multi-user virtual environment, MUVE)等評(píng)價(jià)項(xiàng)目也接踵而來,旨在開發(fā)技術(shù)更加豐富、情境更加真實(shí)的評(píng)價(jià)(Baker, Clarke-Midura, & Ocumpaugh, 2016; Ketelhut, Nelson, Clarke, & Dede , 2010)。這些評(píng)價(jià)與下一代科學(xué)課程標(biāo)準(zhǔn)(Next Generation Science Standards, NGSS)密切關(guān)聯(lián),給美國各州提供了具有良好信效度的交互式科學(xué)探究評(píng)價(jià)。
當(dāng)前,我國也開始重視STEM(Science, Technology, Engineering, Mathematics)教育及其與信息技術(shù)融合的研究(董澤華, 2016)。STEM教育以科學(xué)、技術(shù)、工程和數(shù)學(xué)學(xué)科為核心,以任務(wù)為基礎(chǔ)并強(qiáng)調(diào)其課程跨學(xué)科整合(余勝泉, 等, 2015; 趙慧臣,等, 2017; 趙中建, 2016)。與STEM基于任務(wù)學(xué)習(xí)的理念一致,作為STEM課程核心內(nèi)容的科學(xué)探究的評(píng)價(jià)也應(yīng)該是基于任務(wù)的評(píng)價(jià),而計(jì)算機(jī)提供的交互環(huán)境為實(shí)施基于任務(wù)的評(píng)價(jià)提供了可能。目前,我國有關(guān)交互式科學(xué)探究評(píng)價(jià)的研究還集中在對(duì)PISA、NAEP等評(píng)價(jià)的試題進(jìn)行分析的階段,如有關(guān)PISA試題設(shè)計(jì)和測(cè)評(píng)框架的分析、基于PISA測(cè)試數(shù)據(jù)的研究等(劉帆, 等, 2015; 劉克文, 等, 2015; 張莉娜, 2016)。然而,對(duì)如何開發(fā)此類試題還沒有開展研究。
因此,本文將對(duì)構(gòu)建計(jì)算機(jī)交互式試題的理論框架和開發(fā)流程進(jìn)行分析,并以目前此類試題中比較成熟的科學(xué)探究試題為例展開說明,旨在為交互式科學(xué)探究評(píng)價(jià)的本土化研究和實(shí)踐提供思路。首先,文章介紹國際最為通用的以證據(jù)為中心的設(shè)計(jì)(Evidence Centered Design, ECD, Mislevy, 1995)的評(píng)價(jià)框架。與此對(duì)應(yīng),通過具體案例解析交互式科學(xué)探究評(píng)價(jià)的設(shè)計(jì)流程。最后,文章進(jìn)一步從評(píng)價(jià)的標(biāo)準(zhǔn)、實(shí)用性、非認(rèn)知因素以及協(xié)同開發(fā)等方面指出了當(dāng)前評(píng)價(jià)開發(fā)過程中應(yīng)關(guān)注的問題和未來的發(fā)展方向。
(一)任務(wù)分析
任務(wù)分析過程涉及:①對(duì)任務(wù)情境在日常生活中的常見性或典型性進(jìn)行分析;②對(duì)學(xué)生完成任務(wù)需具備的領(lǐng)域知識(shí)、技能和能力(KSAs)進(jìn)行分析。
通過模擬現(xiàn)實(shí)生活中常見問題情境的方式來提高學(xué)生對(duì)科學(xué)探究的理解和興趣是交互式任務(wù)設(shè)計(jì)的初衷。任務(wù)設(shè)計(jì)者應(yīng)明確評(píng)價(jià)情境是否來源于生活,蘊(yùn)含的問題是否為科學(xué)問題。表2列舉了四個(gè)典型計(jì)算機(jī)交互科學(xué)探究任務(wù)在這些方面的考慮。
另外,領(lǐng)域相關(guān)的知識(shí)、技能和能力(KSAs)信息的來源包括課程標(biāo)準(zhǔn)、教科書及其他課程材料,其中最重要的信息來自課程標(biāo)準(zhǔn)。美國國家科學(xué)課程標(biāo)準(zhǔn)(NSES)是一種旨在提高公民科學(xué)素養(yǎng)的綜合化課程標(biāo)準(zhǔn),涵蓋所要遵循的科學(xué)原則、教學(xué)、評(píng)價(jià)、內(nèi)容標(biāo)準(zhǔn)等內(nèi)容,其中內(nèi)容標(biāo)準(zhǔn)部分將科學(xué)探究過程按階段進(jìn)行了劃分。下一代美國科學(xué)課程標(biāo)準(zhǔn)(NGSS)在NSES基礎(chǔ)上進(jìn)一步明確了科學(xué)探究實(shí)踐、領(lǐng)域核心知識(shí)、跨學(xué)科概念及其之間的相互作用(National Research Council, 2013)。如由美國自然科學(xué)基金(NSF)支持的SimScientists、ScienceASSISTments和Biokids等研究項(xiàng)目整合了領(lǐng)域核心知識(shí)和科學(xué)探究實(shí)踐,用以考察學(xué)生的科學(xué)素養(yǎng)(Pellegrino, 2013)。我國的科學(xué)課程標(biāo)準(zhǔn),如《義務(wù)教育初中科學(xué)課程標(biāo)準(zhǔn)(2011年版)》,將科學(xué)探究能力以提出問題、做出假設(shè)、制定方案、收集證據(jù)、解釋評(píng)價(jià)、表達(dá)交流的線性方式展開,基本沿用了NSES的分類(中華人民共和國教育部, 2012)。
(二)任務(wù)創(chuàng)設(shè)
基于ECD框架中的任務(wù)模型,評(píng)價(jià)設(shè)計(jì)者在創(chuàng)作任務(wù)前需要編寫包含界面形式、學(xué)生作品、系統(tǒng)響應(yīng)等成分的腳本,為創(chuàng)作任務(wù)提供詳細(xì)的指導(dǎo)。
目前,基于計(jì)算機(jī)的交互式科學(xué)探究評(píng)價(jià)的操作界面主要包括兩種形式,即二維操作界面和沉浸式三維虛擬世界。二維操作界面普遍應(yīng)用于PISA、NAEP等大規(guī)模評(píng)價(jià)及Calipers、SimScientists、Inq-ITS等研究項(xiàng)目(Hatzinikita, Dimopoulos, & Christidou, 2010; Herman, 2011; Li, Gobert, & Dickler, 2017; Quellmalz, et al., 2005; Quellmalz, Timms, & Buckley, 2010;Wixon, Baker, Gobert, Ocumpaugh, & Bachmann , 2012)。NAEP八年級(jí)科學(xué)試題《游樂場(chǎng)土壤》界面(NAEP Science 2009: Playground Soil, 2009)基于動(dòng)畫對(duì)實(shí)驗(yàn)材料及操作流程進(jìn)行了模擬,界面還設(shè)置了放大鍵、對(duì)滲透率定義的解釋鍵和樣例土壤的切換鍵(見圖2)。實(shí)施/執(zhí)行指示指明任務(wù)時(shí)限為20分鐘,并聲明測(cè)試目的是通過調(diào)查兩種土壤樣例的屬性來決定游樂場(chǎng)的最佳場(chǎng)址。任務(wù)指示提出學(xué)生需要調(diào)查來自兩個(gè)地點(diǎn)的土壤樣例的滲透率,并做出下一步的行動(dòng)指示(2009)。SimScientists(2015)《草原食物鏈》問題基于動(dòng)畫模擬了草原生態(tài)系統(tǒng)(見圖3)。任務(wù)指示提出學(xué)生首先要觀察一段包含草原生物之間相互作用的動(dòng)畫,特別是其中每個(gè)生物獲取物質(zhì)和能量的方式,最后基于觀察結(jié)果回答問題。另外,學(xué)生還可以通過移動(dòng)在生物名稱上的光標(biāo)來辨識(shí)生物體的外在形態(tài),移動(dòng)在生物體上的光標(biāo)來識(shí)記生物體的名稱。
沉浸三維虛擬世界及加入游戲元素的虛擬世界,即虛擬游戲,常見于一些研究項(xiàng)目,如VPA、SAVE Science、River City、Crystal Island等(Baker,et al., 2016; Baker & Clarke-Midura, 2013; Nelson, Kim, & Slack, 2016; Taub, Azevedo, Bradbury, Millar, & Lester, 2017; Taub, et al., 2017)。如VPA項(xiàng)目案例,《村莊出現(xiàn)了變異青蛙(there is a new frog in the town)》模擬了一個(gè)發(fā)生青蛙變異的村莊,村莊包含多個(gè)有池塘的農(nóng)場(chǎng)、蝌蚪、正常青蛙、帶有六條腿的多色青蛙、科學(xué)實(shí)驗(yàn)室、一名科學(xué)家和多名農(nóng)民(見圖4)。實(shí)施/執(zhí)行指示指導(dǎo)教師和學(xué)生登錄評(píng)價(jià)系統(tǒng)的方式和流程。教師需要登錄教師頁面,為學(xué)生開設(shè)賬戶,選擇要執(zhí)行的評(píng)價(jià)。學(xué)生需要登錄學(xué)生界面,選擇代表自己的“虛擬人物”并進(jìn)入系統(tǒng)。任務(wù)指示通過鏡頭切換的形式進(jìn)行,為學(xué)生提供通向問題空間的視角。學(xué)生首先會(huì)看到一個(gè)村莊,緊接著看到多個(gè)帶有池塘的農(nóng)場(chǎng)。然后鏡頭集中在一只六條腿的多色青蛙。此時(shí)評(píng)價(jià)開始,那些已經(jīng)發(fā)現(xiàn)變異青蛙的科學(xué)家和農(nóng)民會(huì)問候代表學(xué)生的“虛擬人物”。農(nóng)民會(huì)提出許多青蛙變異原因的假設(shè),然后科學(xué)家詢問學(xué)生認(rèn)同哪些假設(shè),并告知學(xué)生要進(jìn)行調(diào)查并得出可以基于證據(jù)進(jìn)行檢驗(yàn)的結(jié)論(Baker,et al., 2016; Clarke-Midura, Code, Zap, & Dede , 2012)。River City多用戶虛擬環(huán)境是一座19世紀(jì)的工業(yè)城市,其中包含各種社區(qū)、工廠、機(jī)構(gòu)(如醫(yī)院和大學(xué))以及一條穿城而過的大河,不同的地形影響水的徑流。實(shí)施/執(zhí)行指示指導(dǎo)學(xué)生選擇代表自己的“虛擬人物”,與環(huán)境中的其他參與者或代理人通過對(duì)話框和虛擬姿勢(shì)交流。學(xué)生可以通過點(diǎn)擊環(huán)境中的物品觸發(fā)內(nèi)容,也可以使用數(shù)字工具來觀察樣本(見圖5)。任務(wù)指示是River City 市長委托學(xué)生回到1878年,幫助她查出居民生病的原因。River City同時(shí)發(fā)生三種基于多種致病因素的疾病,這使得學(xué)生需要進(jìn)行多種探究活動(dòng)(Ketelhut, 2007)。
學(xué)生作品由操作界面決定,二維動(dòng)畫界面的學(xué)生作品依賴于具體的題目類型。IMS Global Learning Consortium嘗試建立了以多媒體形式編碼題目的標(biāo)準(zhǔn)方法,開發(fā)了題目和測(cè)試互操作(Question and Test Interoperability, QTI) 規(guī)范,當(dāng)前版本包含32類交互空間,能夠用來創(chuàng)建多種題目類型,包括不同類型的選擇、填空、拖放、畫線、高亮、排序和擴(kuò)展性文本等(IMS Global Learning Consortium, 2002)。NAEP2009八年級(jí)科學(xué)題《游樂場(chǎng)土壤》、SimScientists《草原食物鏈》問題包含了選擇、填空、拖放以及生成擴(kuò)展性答案的文本框等多種題型。和二維操作界面依賴于學(xué)生對(duì)題目的作答來反映學(xué)生的能力水平不同,三維虛擬世界對(duì)學(xué)生表現(xiàn)的評(píng)價(jià)建立在學(xué)生與近乎真實(shí)的世界進(jìn)行交互的基礎(chǔ)上。在VPA系統(tǒng)中,學(xué)生的科學(xué)探究能力通過一系列選擇來表現(xiàn),這一系列選擇產(chǎn)生的豐富觀察結(jié)果能夠很好地反映學(xué)生在科學(xué)探究各子維度上的熟練水平。在VPA個(gè)案《城鎮(zhèn)出現(xiàn)變異青蛙》中,學(xué)生基于假設(shè)選取樣本并在虛擬實(shí)驗(yàn)室中對(duì)這些樣本進(jìn)行實(shí)驗(yàn),最終提出有證據(jù)支持的結(jié)論(Baker,et al. , 2016; Clarke-Midura, et al., 2012)。在River City MUVE中,學(xué)生用代表自己的“虛擬人物”與多個(gè)參與者組成小組,共同訪問虛擬世界,通過與基于計(jì)算機(jī)的代理人交流制定各種類型的協(xié)作學(xué)習(xí)活動(dòng),以創(chuàng)建一個(gè)探究學(xué)習(xí)者社區(qū)。學(xué)生小組對(duì)三種疾病的病因提出假設(shè),選取樣本并進(jìn)行檢驗(yàn),最后在“致市長的一封信”中寫下真實(shí)的實(shí)驗(yàn)報(bào)告(Ketelhut, et al., 2010)。
系統(tǒng)響應(yīng)指在科學(xué)探究過程中交互式評(píng)價(jià)系統(tǒng)自動(dòng)呈現(xiàn)的或由學(xué)生操作觸發(fā)的信息提示和反饋,具體表現(xiàn)形式包括正確答案、對(duì)答案的解釋等,信息呈現(xiàn)的豐富程度由學(xué)生的水平?jīng)Q定。按照響應(yīng)的時(shí)間節(jié)點(diǎn),可分為即時(shí)反饋和任務(wù)完成后的整體反饋。提供即時(shí)反饋的評(píng)價(jià)可以自動(dòng)評(píng)估學(xué)生的KSAs,并根據(jù)評(píng)估結(jié)果來確定是否給予提示及給予什么樣的提示,同時(shí)通過實(shí)時(shí)抓取對(duì)相同或相似問題的嘗試次數(shù),為學(xué)生提供逐級(jí)水平的腳手架。例如:SimScientists課堂嵌入式評(píng)價(jià)會(huì)根據(jù)不同作答情況給予不同的提示。當(dāng)題目作答錯(cuò)誤時(shí),系統(tǒng)顯示指導(dǎo)方案;當(dāng)錯(cuò)誤答案沒有得到修改時(shí),系統(tǒng)顯示請(qǐng)繼續(xù)修改;當(dāng)作答次數(shù)過多時(shí),系統(tǒng)提示指導(dǎo)方案和正確答案(Quellmalz, et al., 2012)。SimScientists中的單元基準(zhǔn)評(píng)價(jià)為教師和學(xué)生提供有關(guān)整體表現(xiàn)的信息反饋。在單元基準(zhǔn)評(píng)價(jià)中,系統(tǒng)不會(huì)為學(xué)生提供即時(shí)反饋,但會(huì)記錄學(xué)生的作答結(jié)果和行為數(shù)據(jù),并在學(xué)生完成評(píng)價(jià)后以整體報(bào)告的形式描述學(xué)生相關(guān)KSAs水平(Quellmalz, Silberglitt, Buckley, Loveland, & Brenner , 2016)。
(三)數(shù)據(jù)分析
相較于以選擇題為主的傳統(tǒng)上機(jī)考試,計(jì)算機(jī)交互式評(píng)價(jià)的題目類型更為多樣,因此最終收集的數(shù)據(jù)類型也比較多樣。二維操作界面的數(shù)據(jù)主要來自對(duì)多種試題類型的輸入,如選擇的字母、可擴(kuò)展性文本中的解釋、測(cè)量或計(jì)算的數(shù)字等。而三維虛擬世界賦予學(xué)生更多的自主選擇,數(shù)據(jù)類型包括與虛擬對(duì)象的交互、操作的時(shí)間點(diǎn)和時(shí)長、對(duì)探究流程的決策、對(duì)樣本的選擇與實(shí)驗(yàn)等過程性數(shù)據(jù),因此數(shù)據(jù)分析難度相比二維操作界面更大。
目前,二維操作界面的數(shù)據(jù)分析模型主要有項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)(Quellmalz ,et al. , 2012)。在NAEP2009八年級(jí)科學(xué)題《游樂場(chǎng)土壤》中,首先根據(jù)NAEP評(píng)分標(biāo)準(zhǔn)確定每個(gè)題目的得分即可觀察變量,每個(gè)題目對(duì)應(yīng)單獨(dú)的評(píng)估過程。雖然每個(gè)題目只與一個(gè)學(xué)生模型變量相聯(lián)系,但由于整個(gè)任務(wù)中存在多個(gè)題目測(cè)量不止一個(gè)學(xué)生模型變量的情況,因此針對(duì)整個(gè)任務(wù)的數(shù)學(xué)模型是題目間的多維模型。同時(shí),任務(wù)中存在順序依賴的題目,如計(jì)算土壤滲透率的題目依賴于測(cè)量水容積的題目。針對(duì)存在依賴關(guān)系即違反條件獨(dú)立性的題目,可以通過“捆綁”(Bundle)的方式使得相關(guān)題目得出單一的分?jǐn)?shù),獨(dú)立于任務(wù)中其他題目的分?jǐn)?shù)。而處理“捆綁”產(chǎn)生的“捆綁內(nèi)”多個(gè)維度的方式,依賴于每個(gè)捆綁內(nèi)的學(xué)生模型變量(Seibert, Hamel, Haynie, Mislevy, & Bao, 2006)。
在三維虛擬世界中,學(xué)生行為數(shù)據(jù)被后臺(tái)記錄下來,包括行為類型、行為位置、被操作對(duì)象、交互細(xì)節(jié)以及時(shí)間戳等計(jì)算機(jī)日志文件(Baker, et al., 2016; Ketelhut, Nelson, Sil, & Yates, 2013; Leeman-Munk, Wiebe, & Lester, 2013)。分析學(xué)生行為數(shù)據(jù)包括兩個(gè)步驟:學(xué)生的初始行為數(shù)據(jù)被編碼為有意義的特征;運(yùn)用數(shù)據(jù)挖掘技術(shù)產(chǎn)生評(píng)價(jià)學(xué)生表現(xiàn)的數(shù)學(xué)模型。VPA個(gè)案《城鎮(zhèn)出現(xiàn)變異青蛙》的初始行為數(shù)據(jù)被處理為48個(gè)語義特征,用于預(yù)測(cè)學(xué)生最終結(jié)論的正確性(青蛙六條腿的原因)和設(shè)計(jì)因果解釋的能力(結(jié)論正確的原因)。對(duì)學(xué)生最終結(jié)論的評(píng)價(jià)基于學(xué)生最終答案的正確性,最終答案被視為二分類問題,適合采用決策樹的一種衍生算法:基于信息增益的規(guī)則歸納算法-JRip Decision Rules、Kappa 和A作為模型好壞的度量。對(duì)設(shè)計(jì)因果解釋能力的評(píng)價(jià)基于學(xué)生提供的證據(jù)支持結(jié)論的程度來分配分值。首先要求學(xué)生識(shí)別作為證據(jù)的數(shù)據(jù),然后學(xué)生指出選擇的數(shù)據(jù)是否可以作為結(jié)論的證據(jù),最后這些證據(jù)通過各個(gè)指標(biāo)匯總成單一的評(píng)價(jià)結(jié)果。設(shè)計(jì)因果解釋能力的數(shù)據(jù)分析模型可以采用線性回歸,模型解釋率作為模型好壞的度量(Baker & Clarke-Midura, 2013)。
四、啟示與未來
(一)制定評(píng)價(jià)標(biāo)準(zhǔn)
雖然課程標(biāo)準(zhǔn)是領(lǐng)域知識(shí)、技能和能力(KSAs)信息的重要參考,但并不能直接為試題編制人員提供指導(dǎo)。NAEP評(píng)價(jià)框架依據(jù)美國《國家科學(xué)教育標(biāo)準(zhǔn)》《科學(xué)素養(yǎng)基準(zhǔn)》以及PISA評(píng)價(jià)框架,詳細(xì)說明了學(xué)生科學(xué)素養(yǎng)的期望表現(xiàn),用于指導(dǎo)NAEP試題設(shè)計(jì)。我國用于規(guī)范中考和高考的《考試說明》同樣依據(jù)課程標(biāo)準(zhǔn),重視考查科學(xué)探究能力,同時(shí)根據(jù)課程標(biāo)準(zhǔn)三維目標(biāo)分類提出了初中畢業(yè)生應(yīng)該達(dá)到的水平。然而,無論是NEAP評(píng)價(jià)框架還是《考試說明》,都未能基于年級(jí)水平提供評(píng)價(jià)設(shè)計(jì)的操作性方案,導(dǎo)致試題考查內(nèi)容與課程標(biāo)準(zhǔn)中的考察目標(biāo)不一致。因此,科研工作者應(yīng)立足課程標(biāo)準(zhǔn),確定評(píng)價(jià)標(biāo)準(zhǔn),進(jìn)而編制可操作的試題設(shè)計(jì)手冊(cè)。
(二)保證評(píng)價(jià)實(shí)用性
過分關(guān)注情境真實(shí)性會(huì)影響評(píng)價(jià)設(shè)計(jì)的實(shí)用性。評(píng)價(jià)的實(shí)用性受學(xué)生實(shí)施交互行為效果的影響。具體而言,如果與真實(shí)情境高度一致的交互空間允許學(xué)生采用準(zhǔn)確而有效的方式產(chǎn)生反應(yīng),為有特殊需求的學(xué)生提供足夠的輔助功能,那么評(píng)價(jià)實(shí)用性會(huì)最大化。相反,如果與真實(shí)情境高度一致的交互空間對(duì)于一些學(xué)生來說效率低或難以訪問,則其實(shí)用性會(huì)降低。因此評(píng)價(jià)設(shè)計(jì)必須同時(shí)考慮情境真實(shí)性、可用性和對(duì)特殊學(xué)生群體的無障礙性(Russell, 2016)。
(三)關(guān)注非認(rèn)知因素
交互式科學(xué)探究評(píng)價(jià)設(shè)計(jì)除對(duì)學(xué)生的科學(xué)探究水平進(jìn)行估計(jì)之外,還需要關(guān)注學(xué)生的非認(rèn)知因素(如科學(xué)態(tài)度、參與度、幸福感等),從多個(gè)方面了解科學(xué)教育質(zhì)量。PISA2015將科學(xué)態(tài)度分為對(duì)科學(xué)的興趣、評(píng)價(jià)科學(xué)探究方法的價(jià)值和環(huán)境意識(shí)三個(gè)維度,其中對(duì)科學(xué)的興趣又可以進(jìn)一步分為對(duì)科學(xué)議題的興趣、科學(xué)樂趣、科學(xué)活動(dòng)參與、未來職業(yè)期望、工具性動(dòng)機(jī)、科學(xué)自我效能等,通過學(xué)生問卷的形式進(jìn)行考察(PISA, 2015)。
(四)增進(jìn)跨領(lǐng)域協(xié)作
盡管采用ECD理論框架可以指導(dǎo)評(píng)價(jià)設(shè)計(jì),但評(píng)價(jià)設(shè)計(jì)的有效性需要科研工作者、科學(xué)教師和技術(shù)人員共同參與和合作??蒲泄ぷ髡呔帉懣刹僮鞯脑u(píng)價(jià)框架,科學(xué)教師根據(jù)評(píng)價(jià)框架編寫題目腳本,技術(shù)人員根據(jù)腳本生成最終的交互式科學(xué)試題。在實(shí)際工作中,教育管理部門也應(yīng)該參與其中,保證編制的交互式科學(xué)試題符合本土要求。
[參考文獻(xiàn)]
董澤華. 2016. 試論我國中小學(xué)實(shí)施STEM課程的困境與對(duì)策[J]. 全球教育展望,45(12):36-42.
馮翠典. 2012. “以證據(jù)為中心”的教育評(píng)價(jià)設(shè)計(jì)模式簡(jiǎn)介[J]. 上海教育科研(8):12-16.
劉帆,文雯. 2015. PISA2015 科學(xué)素養(yǎng)測(cè)評(píng)框架新動(dòng)向及其對(duì)我國科學(xué)教育的啟示[J]. 外國教育研究,42(10):117-128.
劉克文,李川. 2015. PISA2015科學(xué)素養(yǎng)測(cè)試內(nèi)容及特點(diǎn)[J]. 比較教育研究(7):98-106.
鄭蘭琴,孫巍,張定文. 2018. 利用技術(shù)促進(jìn)教與學(xué)的創(chuàng)新:訪國際教育技術(shù)協(xié)會(huì)首席學(xué)習(xí)官Joseph South教授[J/OL]. 中國遠(yuǎn)程教育:1-7. [2019-04-14]. https://doi.org/10.13541/j.cnki.chinade
余勝泉,胡翔. 2015. STEM教育理念與跨學(xué)科整合模式[J]. 開放教育研究(4):13-22.
袁建林,劉紅云. 2017. 核心素養(yǎng)測(cè)量:理論依據(jù)與實(shí)踐指向[J]. 教育研究(7):21-28.
張莉娜. 2016. PISA2015科學(xué)素養(yǎng)測(cè)評(píng)對(duì)我國中小學(xué)科學(xué)教學(xué)與評(píng)價(jià)的啟示[J]. 全球教育展望(3):15-24.
趙慧臣,周昱希,李彥奇,劉亞同,文潔. 2017. 跨學(xué)科視野下“工匠型”創(chuàng)新人才的培養(yǎng)策略:基于美國STEAM教育活動(dòng)設(shè)計(jì)的啟示[J]. 遠(yuǎn)程教育雜志(1):94-101.
趙中建. 2016. 美國中小學(xué)工程教育及技術(shù)與工程素養(yǎng)評(píng)估[J]. 全球教育展望,45(12):3-24.
中華人民共和國教育部. 2012. 初中科學(xué)課程標(biāo)準(zhǔn) (2011年版)[S]. 北京:北京師范大學(xué)出版社.
NAEP.(2009). NAEP Science 2009: Playground Soil, retrieved October 19, 2018, from https://www.nationsreportcard.gov/science2009ict/soil/soil1.aspx
SimScientists.(2015). The embedded formative assessments for ecosystems, retrieved July 25, 2018, from http://simscientists.org/MiniSite/media/ecoglem1_08_01_13/app.html
Baker, R. S., Clarke-Midura, J., & Ocumpaugh, J. (2016). Towards general models of effective science inquiry in virtual performance assessments. Journal of Computer Assisted Learning, 2(3), 267-280.
Baker, R. S., & Clarke-Midura, J. (2013, June). Predicting successful inquiry learning in a virtual performance assessment for science. In International Conference on User Modeling, Adaptation, and Personalization (pp. 203-214). Springer, Berlin, Heidelberg.
Haynie, K. C., Haertel, G. D., Lash, A. A., Quellmalz, E. S., & DeBarger, A. H. (2006). Reverse engineering the NAEP floating pencil task using the PADI design system. Menlo Park, CA: SRI International.
Hatzinikita, V., Dimopoulos, K., & Christidou, V. (2010). PISA test items and school textbooks related to science: A textual comparison. Science Education, 92(4), 664-687.
Herman, J., Dai, Y., Htut, A. M., Martinez, M., & Rivera, N. (2011). Evaluation of the enhanced assessment grants (EAGs) SimScientists program: Site visit findings. Los Angeles: CRESST.
IMS Global Learning Consortium. (2002). IMS Question & Test Interoperability: An Overview Final Specification Version 1.2. retrieved July 25,2018, from https://www.imsglobal.org/question/qtiv1p2/imsqti_ovi ewv1p2.html
Ketelhut, D. J. (2007). The impact of student self-efficacy on scientific inquiry skills: An exploratory investigation in River City, a multi-user virtual environment. Journal of Science Education and Technology, 16(1), 99-111.
Ketelhut, D. J., Dede, C., Clarke, J., Nelson, B., & Bowman, C. (2017). Studying situated learning in a multiuser virtual environment. In Assessment of problem solving using simulations(pp. 47-68). Routledge.
Ketelhut, D. J., Nelson, B., Sil, A., & Yates, A. (2013). Discovering what students know through data mining their problem-solving actions within the immersive virtual environment. SAVE Science. American Educational Research Association.
Ketelhut, D., Nelson, B., Clarke, J., & Dede, C. (2010). A multi-user virtual environment for building and assessing higher order inquiry skills in science. British Journal of Educational Technology, 41(1), 56-68.
King, K. (2011). Balanced, multilevel science assessment systems. In National Conference on Student Assessment. Orlando, FL.
Kirkwood, A., & Price, L. (2014). Technology-enhanced learning and teaching in higher education: What is ‘enhanced and how do we know? A critical literature review. Learning, media and technology, 39(1), 6-36.
Leeman-Munk, S., Wiebe, E. N., & Lester, J. (2013). Mining student science argumentation text to inform an intelligent tutoring system. In AERA Annual Meeting, San Francisco.
Li, H., Gobert, J. D., & Dickler, R. (2017). Automated Assessment for Scientific Explanations in On-line Science Inquiry. In EDM.
Liu, H., Liu, Y., & Li, M. (2018). Analysis of Process Data of PISA 2012 Computer-Based Problem Solving: Application of the Modified Multilevel Mixture IRT Model. Frontiers in psychology, 9.
Messick, S. (1994). The interplay of evidence and consequences in the validation of performance assessments. Ets Research Report, 23(2), 13-23.
Mislevy, R. J. (1995). Evidence and inference in educational assessment. Psychometrika, 59(4), 439-483.
Mislevy, R. J., Steinberg, L. S., Almond, R. G., Haertel, G. D., & Penuel, W. R. (2003). Leverage points for improving educational assessment. In B. Means, G. D. Haertel(Eds.), Evaluating the effects of technology in education (pp. 149-180).Mahwah: Lawrence Erlbaum.
Mislevy, R. J., & Riconscente, M. M. (2005). Evidence-Centered Assessment Design: Layers, Structures, and Terminology.
National Research Council. (2013). Next generation science standards (95). Washington, D C: National Academies Press.
Nelson, B. C., Kim, Y., & Slack, K. (2016). Visual signaling in a high-search virtual world-based assessment: A SAVE science design study. Technology Knowledge & Learning, 21(2), 1-14.
Pellegrino, J. W. (2013). Proficiency in science: Assessment challenges and opportunities. Science, 340(6130), 320-323.
OECD.(2013-03-12).Draft PISA 2015 Science Framework. retrieved? September 20, 2019, from http:/www.oecd.org/pisa/pisa products/pisa 20l5 draft frameworks.html
Quellmalz, E. S., DeBarger, A. H., Haertel, G., Schank, P., Buckley, B., Gobert, J., & Ayala, C. (2008). Exploring the role of technology-based simulations in science assessment: The Calipers Project. In J. Coffrey, R. Douglas, & C. Stearns(Eds.), Science assessment: Research and practical approaches (pp.191-202). Washington, DC: National Science Teachers Association.
Quellmalz, E. S., Silberglitt, M. D., Buckley, B. C., Loveland, M. T., & Brenner, D. G. (2016). Simulations for supporting and assessing science literacy. In Handbook of research on technology tools for real-world skill development (pp. 191-229). IGI Global.
Quellmalz, E. S., Timms, M. J., Silberglitt, M. D., & Buckley, B. C. (2012). Science assessments for all: Integrating science simulations into balanced state science assessment systems. Journal of Research in Science Teaching, 49(3), 363-393.
Quellmalz, E. S., Timms, M. J., & Buckley, B. (2010). The promise of simulation-based science assessment: The Calipers project. International Journal of Learning Technology, 5(3), 243-263.
Russell, M. (2016). A framework for examining the utility of technology-enhanced items. Journal of Applied Testing Technology, 17(1), 20-32.
Seibert, G., Hamel, L., Haynie, K., Mislevy, R., & Bao, H. (2006). Mystery powders: An application of the PADI design system using the four-process delivery system. Draft PADI Technical Report 15. Menlo Park, CA: SRI International.
Taub, M., Azevedo, R., Bradbury, A. E., Millar, G. C., & Lester, J. (2018). Using sequence mining to reveal the efficiency in scientific reasoning during STEM learning with a game-based learning environment. Learning & Instruction, 54, 93-103.
Taub, M., Mudrick, N. V., Azevedo, R., Millar, G. C., Rowe, J., & Lester, J. (2017). Using multi-channel data with multi-level modeling to assess in-game performance during gameplay with Crystal Island.Computers in Human Behavior,76, 641-655.
作者簡(jiǎn)介:李菲茗,博士,教授,碩士生導(dǎo)師,浙江師范大學(xué)教師教育學(xué)院(321004)。
張浩,碩士研究生;林麗娟,碩士研究生;黃怡,碩士研究生。浙江工業(yè)大學(xué)教育科學(xué)與技術(shù)學(xué)院(310023)。
責(zé)任編輯 單 玲