国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能教育評(píng)估應(yīng)用的潛力和局限

2021-01-02 22:29:23曹夢(mèng)瑩約翰加德納邁克爾奧利里
開(kāi)放教育研究 2021年5期
關(guān)鍵詞:測(cè)驗(yàn)自動(dòng)計(jì)算機(jī)

袁 莉 曹夢(mèng)瑩 約翰·加德納 邁克爾·奧利里

(1.北京師范大學(xué) 未來(lái)教育學(xué)院,廣東珠海519085;2.上海開(kāi)放大學(xué) 上海開(kāi)放遠(yuǎn)程教育工程技術(shù)研究中心,上海200433;3.英國(guó)斯特林大學(xué) 教育學(xué)院, 英國(guó); 4.愛(ài)爾蘭都柏林城市大學(xué) 教育學(xué)院,愛(ài)爾蘭)

近年來(lái),隨著人工智能技術(shù)的迅速發(fā)展,如何有效地利用這些技術(shù)推進(jìn)教育評(píng)價(jià)改革,幫助教師全面了解和掌握學(xué)習(xí)者狀態(tài),并根據(jù)學(xué)習(xí)者產(chǎn)生的數(shù)據(jù)對(duì)學(xué)習(xí)狀況進(jìn)行準(zhǔn)確評(píng)估,促進(jìn)學(xué)習(xí)者綜合能力和素質(zhì)的提高,已成為教育界關(guān)注的問(wèn)題。教育評(píng)估既要評(píng)估學(xué)生成績(jī),也要通過(guò)評(píng)估提高其能力;評(píng)估標(biāo)準(zhǔn)既要有篩選價(jià)值,也要涵蓋個(gè)體的增值性評(píng)價(jià)(張生等,2021)。然而,許多面向教學(xué)的人工智能技術(shù)聚焦減輕教師負(fù)擔(dān),如自動(dòng)完成作業(yè)批改、單元測(cè)試和考試評(píng)估等,隨之也帶來(lái)一些問(wèn)題,如教師需要通過(guò)檢查作業(yè)了解學(xué)生對(duì)知識(shí)的理解和掌握程度,為備課提供依據(jù);人工智能技術(shù)能否對(duì)學(xué)生學(xué)習(xí)作出準(zhǔn)確判斷,并避免數(shù)據(jù)偏見(jiàn)和算法黑箱。迄今為止,很少有證據(jù)表明,基于人工智能和大數(shù)據(jù)的學(xué)習(xí)分析確實(shí)改善了學(xué)習(xí)結(jié)果(Ferguson & Cllow, 2017)。因此,運(yùn)用人工智能對(duì)學(xué)生進(jìn)行評(píng)估和考核應(yīng)該格外慎重,否則不但不能促進(jìn)學(xué)生學(xué)習(xí),反而會(huì)帶來(lái)很多負(fù)面影響。

受疫情影響,2020年英國(guó)高考A-level和中考GCSE被取消。英國(guó)考試監(jiān)管機(jī)構(gòu)(Ofqual)公布了評(píng)定成績(jī)的“標(biāo)準(zhǔn)化模型”——一種旨在避免分?jǐn)?shù)膨脹的神秘算法,結(jié)果發(fā)現(xiàn)該算法對(duì)所有A-level學(xué)科成績(jī)預(yù)測(cè)的準(zhǔn)確性只有60%,即近40%的學(xué)生成績(jī)低于教師給出的預(yù)估分?jǐn)?shù)(Ofqual,2020)。鑒于準(zhǔn)確率過(guò)低,英國(guó)政府不得不取消人工智能提供的成績(jī),以教師評(píng)估為標(biāo)準(zhǔn)。英國(guó)考試監(jiān)管機(jī)構(gòu)希望通過(guò)使用人工智能算法提高學(xué)生成績(jī)預(yù)測(cè)的準(zhǔn)確性,但沒(méi)有足夠的數(shù)據(jù),無(wú)法獲得精準(zhǔn)的預(yù)測(cè)模型。因此,承認(rèn)歷史數(shù)據(jù)的局限性對(duì)于考核評(píng)估算法應(yīng)用尤為重要。

計(jì)算機(jī)應(yīng)用于教育教學(xué)測(cè)評(píng)由來(lái)已久,特別是在作文批改、語(yǔ)言教學(xué)及數(shù)學(xué)等標(biāo)準(zhǔn)化學(xué)科考試中的應(yīng)用尤為廣泛。代表性的兩個(gè)應(yīng)用系統(tǒng)是“作文自動(dòng)評(píng)分”(Automated Essay Scoring, AES)和“計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)”(Computerised Adaptive Testing, CAT)。作文自動(dòng)評(píng)分系統(tǒng)被廣泛應(yīng)用于大型考試的智能作文評(píng)分,如美國(guó)、英國(guó)、澳大利亞等國(guó)家研究生管理專(zhuān)業(yè)入學(xué)考試(GMAT)寫(xiě)作部分和一些作文批改評(píng)分平臺(tái)(批改網(wǎng)、Grammarly等),計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)系統(tǒng)主要被應(yīng)用于美國(guó)研究生入學(xué)考試GRE和GMAT。本研究基于對(duì)這兩大核心系統(tǒng)應(yīng)用和相關(guān)研究的分析,闡述人工智能應(yīng)用于教育評(píng)估面臨的問(wèn)題和挑戰(zhàn),以及運(yùn)用學(xué)習(xí)分析對(duì)學(xué)生進(jìn)行形成性評(píng)估的潛力和意義。

一、人工智能與教育評(píng)估

人工智能一詞,最早是由計(jì)算機(jī)專(zhuān)家約翰·麥卡錫 (John McCarthy)等學(xué)者提出來(lái)的,指運(yùn)用計(jì)算機(jī)軟硬件模擬人類(lèi)某些智能行為的基本理論、方法和技術(shù)(黃欣欣,2017)。機(jī)器學(xué)習(xí)作為人工智能的分支,“是對(duì)計(jì)算機(jī)算法的研究,允許計(jì)算機(jī)程序通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)”(Mitchell, 1997)。人工智能本質(zhì)是機(jī)器“學(xué)習(xí)”,即讓計(jì)算機(jī)具有“學(xué)習(xí)”能力,通過(guò)對(duì)數(shù)據(jù)分析,“訓(xùn)練”出一個(gè)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。因此,大量的數(shù)據(jù)和機(jī)器學(xué)習(xí)是人工智能的基礎(chǔ)。麥肯錫公司(McKinsey Co.,2011) 和高德納公司(Gartner Glossary,2019)強(qiáng)調(diào),“大數(shù)據(jù)”是需要新的處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)概念起源于工程、量子物理和天文學(xué)等科學(xué)研究的大規(guī)模計(jì)算環(huán)境 ,數(shù)十億份實(shí)驗(yàn)數(shù)據(jù)都要經(jīng)過(guò)大規(guī)模算法分析以辨別模型、發(fā)現(xiàn)因果關(guān)系和預(yù)測(cè)可能的結(jié)果。大數(shù)據(jù)已應(yīng)用到現(xiàn)代社會(huì)醫(yī)療診斷、消費(fèi)趨勢(shì)分析、天氣預(yù)報(bào)等領(lǐng)域。以機(jī)器學(xué)習(xí)為核心的這些應(yīng)用程序的“智能”特性體現(xiàn)在兩個(gè)層面:無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)指計(jì)算機(jī)從大量數(shù)據(jù)集中學(xué)習(xí)并更新識(shí)別模型。監(jiān)督學(xué)習(xí)指計(jì)算機(jī)利用人工標(biāo)注的數(shù)據(jù)訓(xùn)練預(yù)設(shè)好的模型,從而學(xué)習(xí)海量數(shù)據(jù)集中的相關(guān)性,并對(duì)已有模型完善和優(yōu)化。

在教育評(píng)估中,機(jī)器學(xué)習(xí)概念同樣適用。如果計(jì)算機(jī)可以檢查學(xué)生“學(xué)”的效果,那么它就可以“教”學(xué)生知識(shí),并對(duì)學(xué)生的知識(shí)掌握情況進(jìn)行評(píng)估。簡(jiǎn)言之,如果訓(xùn)練計(jì)算機(jī)“學(xué)習(xí)”評(píng)估標(biāo)準(zhǔn),評(píng)判學(xué)生對(duì)知識(shí)的理解和掌握情況(無(wú)論是書(shū)面的還是口頭的),并按照既定標(biāo)準(zhǔn)對(duì)學(xué)生答案進(jìn)行匹配,那么它就有應(yīng)用于教育評(píng)估的潛力。但是,對(duì)教育工作者來(lái)說(shuō),掌握知識(shí)和能夠理解并靈活應(yīng)用知識(shí)存在差異。因此,教育評(píng)估中人的判斷和機(jī)器的判斷是不同的,這一差異在以計(jì)算機(jī)為基礎(chǔ)的學(xué)生寫(xiě)作評(píng)估中尤為明顯。

二、計(jì)算機(jī)在教育評(píng)估中的應(yīng)用

(一)作文自動(dòng)評(píng)分系統(tǒng)的應(yīng)用

1.作文自動(dòng)評(píng)分系統(tǒng)的發(fā)展及其使用特征

基于計(jì)算機(jī)技術(shù)的作文自動(dòng)評(píng)分系統(tǒng)近年被越來(lái)越多的高等教育機(jī)構(gòu)用于評(píng)估學(xué)生寫(xiě)作。四個(gè)領(lǐng)先的商業(yè)作文自動(dòng)評(píng)分系統(tǒng)包括項(xiàng)目作文評(píng)分(Project Essay Grading,PEG)、智能測(cè)評(píng)(Intellimetric)、 智能作文評(píng)估軟件(Intelligent Essay Assessor,IEA)和電子評(píng)分器(e-Rater)。項(xiàng)目作文評(píng)分主要應(yīng)用于教師執(zhí)照考試 (Praxis)、GRE考試和英語(yǔ)分級(jí)考試;智能測(cè)評(píng)用于K-12標(biāo)準(zhǔn)參照測(cè)驗(yàn)(K-12 norm-referenced test);智能作文評(píng)估軟件主要用于GMAT考試;電子評(píng)分器用于GMAT考試和書(shū)面英語(yǔ)考試(Test of Written English,TWE)(Ben-Simon & Bennett,2007)。使用作文自動(dòng)評(píng)分工具進(jìn)行大規(guī)模評(píng)估優(yōu)勢(shì)明顯,包括及時(shí)反饋、低成本和評(píng)分一致性。此外,作文自動(dòng)評(píng)分工具應(yīng)用于課堂評(píng)估,可以減少寫(xiě)作教師的工作量,并為每個(gè)學(xué)生提供即時(shí)反饋(Bull, 1999)。

早在1966年,項(xiàng)目論文評(píng)分的發(fā)明者、作文自動(dòng)評(píng)分系統(tǒng)的先驅(qū)埃利斯·佩奇(Ellis Page)發(fā)表了題為《計(jì)算機(jī)作文評(píng)分的必要性》的文章,描述了使用計(jì)算機(jī)技術(shù)批改論文的想法,期望將英語(yǔ)教師從批改作文的負(fù)擔(dān)中解脫出來(lái),并預(yù)測(cè)隨著自然語(yǔ)言處理技術(shù)的不斷成熟,機(jī)器能夠像人一樣不斷學(xué)習(xí)、理解和評(píng)估寫(xiě)作的不同指標(biāo)(Wrech, 1993)。四十多年后,到2007年,本-西蒙和貝內(nèi)特(Ben-Simon & Bennett,2007)分析了四個(gè)先進(jìn)的商業(yè)作文自動(dòng)評(píng)分系統(tǒng)發(fā)現(xiàn),作文評(píng)估的基礎(chǔ)(如所使用的指標(biāo))幾乎沒(méi)有什么變化,但是,這些系統(tǒng)使用的人工智能引擎更加精準(zhǔn),其容量和效率有了很大提高。例如,美國(guó)教育考試服務(wù)中心的電子評(píng)分器使用相對(duì)容易檢測(cè)的四個(gè)評(píng)估指標(biāo)(Deane,2013):語(yǔ)法(如主謂語(yǔ)不一致、代詞誤用、所有格錯(cuò)誤等)、用詞(如定語(yǔ)和介詞錯(cuò)誤、詞的形態(tài)錯(cuò)誤等)、技巧(如字母大小寫(xiě)、標(biāo)點(diǎn)符號(hào)、拼寫(xiě)錯(cuò)誤等)、風(fēng)格(如單詞重復(fù)使用等)。同時(shí),該系統(tǒng)還使用較復(fù)雜的指標(biāo),如文章立意(如觀點(diǎn)陳述、要點(diǎn)、討論深度)、詞匯的復(fù)雜性(如使用不尋?;驈?fù)雜的單詞等)、句子變化、資料引用、觀點(diǎn)一致性(如是否偏離文章主題等)。

作文自動(dòng)評(píng)分系統(tǒng)必須了解這些指標(biāo)與學(xué)生作文質(zhì)量之間的關(guān)系,才能給出相應(yīng)的分?jǐn)?shù)。因此,人們要先“訓(xùn)練”計(jì)算機(jī),即計(jì)算機(jī)需要從大量的學(xué)生作文中識(shí)別這些指標(biāo)并與人工分?jǐn)?shù)進(jìn)行比較。人工評(píng)分和范文越多,計(jì)算機(jī)給出的成績(jī)與人工給出的分?jǐn)?shù)越接近。因此,通常情況下,機(jī)器評(píng)分和人工評(píng)分在一定范圍內(nèi)能夠達(dá)成一致。但對(duì)特別優(yōu)秀或非常糟糕的作文,人工評(píng)分與機(jī)器評(píng)分會(huì)出現(xiàn)較大差異。例如,機(jī)器在檢測(cè)語(yǔ)法、詞匯和技巧方面比人工更準(zhǔn)確迅速,但對(duì)寫(xiě)作的高級(jí)表現(xiàn)形式,如創(chuàng)造力、獨(dú)特的論據(jù)、分析與綜合能力等,因人工智能處在低級(jí)智能階段,數(shù)據(jù)驅(qū)動(dòng)的評(píng)價(jià)標(biāo)準(zhǔn)無(wú)法全面、深刻地反映學(xué)生寫(xiě)作的真實(shí)水平,相比之下,人工測(cè)評(píng)往往會(huì)在全面、深刻理解的基礎(chǔ)上,給出較為準(zhǔn)確的評(píng)價(jià)。

最初使用作文自動(dòng)評(píng)分系統(tǒng)評(píng)估寫(xiě)作的研究,希望通過(guò)大規(guī)模、高效和準(zhǔn)確的機(jī)器作文自動(dòng)評(píng)分降低評(píng)估成本。但是,對(duì)于從事英語(yǔ)母語(yǔ)和第二外語(yǔ)教學(xué)的教師來(lái)說(shuō),與更為復(fù)雜和高級(jí)的寫(xiě)作構(gòu)思相比,寫(xiě)作的技術(shù)指標(biāo)是次要的。美國(guó)中學(xué)成功寫(xiě)作框架(CWPA et al., 2011)表明了寫(xiě)作過(guò)程建構(gòu)的復(fù)雜性,強(qiáng)調(diào)教師要通過(guò)寫(xiě)作訓(xùn)練,發(fā)展學(xué)生的能力,為高等教育的學(xué)習(xí)做準(zhǔn)備。它主要集中在以下方面:

?好奇心:渴望更多地了解世界的愿望;

?開(kāi)放性:愿意接受新的生活方式和思維方式;

?敬業(yè)度:全心投入和參與學(xué)習(xí)的意識(shí);

?創(chuàng)造力:用新的方法解決問(wèn)題、研究和表達(dá)新的想法的能力;

?持久性:對(duì)短期和長(zhǎng)期項(xiàng)目保持興趣和注意力的能力;

?責(zé)任感:具有較強(qiáng)行動(dòng)能力并能對(duì)行為后果進(jìn)行判斷;

?靈活性:適應(yīng)環(huán)境,能達(dá)到相應(yīng)的期望或要求的能力;

?多元認(rèn)知:能夠不斷反思并提高自己的認(rèn)知和文化認(rèn)同能力。

可見(jiàn),對(duì)于作文自動(dòng)評(píng)分系統(tǒng)研發(fā)人員來(lái)說(shuō),面臨的挑戰(zhàn)是如何將高效、準(zhǔn)確和低成本的寫(xiě)作評(píng)估轉(zhuǎn)化為更加復(fù)雜和高級(jí)的指標(biāo)?!绊?xiàng)目作文評(píng)分”的修訂版使用語(yǔ)法檢查器和詞性標(biāo)記器等自然語(yǔ)言處理工具(Page, 1994; Page & Petersen, 1995)。2003年發(fā)布的電子評(píng)分器第二版 (Attali & Burstein, 2005;Burstein et al., 2004)確定了12條優(yōu)秀作文的評(píng)價(jià)標(biāo)準(zhǔn),涉及五個(gè)維度:語(yǔ)法、用詞、技巧和風(fēng)格,組織和發(fā)展,主題分析(即特定提示詞匯),詞的復(fù)雜性,論文長(zhǎng)度(Attali & Burstein, 2005),有助于程序開(kāi)發(fā)人員理解測(cè)評(píng)內(nèi)容。

2. 作文自動(dòng)評(píng)分系統(tǒng)的應(yīng)用及學(xué)界對(duì)其有效性的質(zhì)疑

近年來(lái),人工智能技術(shù)在作文自動(dòng)評(píng)分系統(tǒng)的應(yīng)用,促使其不斷完善,并在為學(xué)生和老師提供寫(xiě)作技能的快速反饋方面取得了重要進(jìn)展。中國(guó)2011年上線的批改網(wǎng)是一款基于語(yǔ)料庫(kù)和云計(jì)算技術(shù)的機(jī)改作文系統(tǒng),此系統(tǒng)以大學(xué)英語(yǔ)四級(jí)作文考試要求為模板,可以在1.2 秒內(nèi)自動(dòng)批改學(xué)生的英語(yǔ)作文,并給出分?jǐn)?shù)、總評(píng)、按句糾錯(cuò)的批改反饋(張芳等,2021)。批改網(wǎng)提供的多維分析報(bào)告可以幫助教師及時(shí)了解學(xué)生的寫(xiě)作水平,指導(dǎo)課堂英語(yǔ)教學(xué);教師可以基于批改網(wǎng)積累的語(yǔ)料庫(kù)素材,分析學(xué)生作文數(shù)據(jù),了解學(xué)生學(xué)習(xí)軌跡,從而輔助其科研。批改網(wǎng)也能激發(fā)學(xué)生英語(yǔ)寫(xiě)作興趣,幫助他們提高英語(yǔ)寫(xiě)作能力(張芳等,2021)。但研究人員也發(fā)現(xiàn)一些問(wèn)題,如“無(wú)法準(zhǔn)確評(píng)估作文內(nèi)在質(zhì)量”(何旭良,2013),智能評(píng)價(jià)系統(tǒng)對(duì)“篇章結(jié)構(gòu)和邏輯思維”無(wú)法做出準(zhǔn)確判斷(張芳等,2021)。作文自動(dòng)評(píng)分系統(tǒng)對(duì)作文質(zhì)量的測(cè)量仍以語(yǔ)法和語(yǔ)義內(nèi)容為主,對(duì)思想、立意、創(chuàng)新性等深層屬性的測(cè)量還遠(yuǎn)遠(yuǎn)不夠(楊麗萍等,2021)。此外,浙江大學(xué)與杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合開(kāi)發(fā)了冰果英語(yǔ)智能作文評(píng)閱系統(tǒng),但有研究人員(張仲德等,2013)通過(guò)實(shí)踐發(fā)現(xiàn)該系統(tǒng)評(píng)閱得分有時(shí)與人工評(píng)閱出入較大,且程式化寫(xiě)作往往得分較高。這些與作文自動(dòng)評(píng)分系統(tǒng)應(yīng)用出現(xiàn)的問(wèn)題一致,即系統(tǒng)只能對(duì)語(yǔ)言的表層現(xiàn)象加以評(píng)定,對(duì)深層次的語(yǔ)言現(xiàn)象評(píng)判不足,忽視了寫(xiě)作過(guò)程中的修辭、認(rèn)知、思維發(fā)展過(guò)程等因素(張荔等,2016)。

長(zhǎng)期以來(lái),不少機(jī)構(gòu)和研究人員反對(duì)用作文自動(dòng)評(píng)分系統(tǒng)評(píng)估寫(xiě)作質(zhì)量。例如,美國(guó)全國(guó)英語(yǔ)教師理事會(huì)參考大量與自動(dòng)評(píng)估相關(guān)的文獻(xiàn),對(duì)作文自動(dòng)評(píng)分提出質(zhì)疑,如計(jì)算機(jī)無(wú)法識(shí)別或判斷那些與高水平寫(xiě)作相關(guān)的元素(如邏輯性、清晰度、準(zhǔn)確性、創(chuàng)新風(fēng)格、更強(qiáng)的吸引力、不同的組織形式、說(shuō)服類(lèi)型、證據(jù)質(zhì)量、幽默或諷刺,以及重復(fù)的有效使用等)。使用計(jì)算機(jī)評(píng)估學(xué)生寫(xiě)作剝奪了學(xué)生在寫(xiě)作中獲得除特定要求外的任何發(fā)揮的機(jī)會(huì);迫使教師忽略寫(xiě)作教學(xué)中最重要的因素,而去教學(xué)生一些毫無(wú)意義的東西。計(jì)算機(jī)按照編程特定的提示給作文打分,減少了教師通過(guò)評(píng)估改進(jìn)寫(xiě)作教學(xué)的興趣和創(chuàng)新的機(jī)會(huì) (NCTE, 2013)。佩雷爾曼(Perelman, 2012a)是主要的批評(píng)者之一,明確指出“作文自動(dòng)評(píng)分簡(jiǎn)直就是荒謬的”。佩雷爾曼設(shè)計(jì)了被稱(chēng)為機(jī)器評(píng)分克星的自動(dòng)語(yǔ)言生成器“Babel”,以揭示自動(dòng)評(píng)分的弱點(diǎn)和缺陷。機(jī)器評(píng)分克星通過(guò)運(yùn)用計(jì)算機(jī)的瘋狂填詞游戲(Mad Libs)創(chuàng)作出毫無(wú)意義的作文,卻能在機(jī)器評(píng)分中獲得高分。佩雷爾曼(Perelman,2018)認(rèn)為計(jì)算機(jī)只能計(jì)算,不能真正理解意義,往往只是按照設(shè)定的算法執(zhí)行。學(xué)生一旦掌握了計(jì)算機(jī)批改的技巧就可以在考試中通過(guò)使用大量復(fù)雜詞匯、復(fù)雜句子和關(guān)鍵短語(yǔ)來(lái)愚弄算法。他分析了許多作文自動(dòng)評(píng)分系統(tǒng),并以此作為批判作文自動(dòng)評(píng)分的研究證據(jù),認(rèn)為作文自動(dòng)評(píng)分鼓勵(lì)“使用難懂的、晦澀的和矯飾的語(yǔ)言”(Perelman,2012b,p126),并嚴(yán)厲地駁斥了所有作文自動(dòng)評(píng)分“不理解意義,也沒(méi)有感知能力”(Perelman,2012b,p125),指責(zé)它們?cè)谠u(píng)估中過(guò)度強(qiáng)調(diào)作文長(zhǎng)度等(Perelman,2014)。其他語(yǔ)言專(zhuān)家,如康登(Condon,2013)支持利用“作弊”的方式查找作文自動(dòng)評(píng)分的弱點(diǎn),但認(rèn)為這種做法不能解決核心問(wèn)題,只是將注意力轉(zhuǎn)移到不相關(guān)的爭(zhēng)論上,即“把焦點(diǎn)放在作文自動(dòng)評(píng)分提供的分?jǐn)?shù)是否與人工評(píng)分一致上,實(shí)際上是將兩個(gè)不相關(guān)的度量認(rèn)為是相關(guān)的”。迪恩(Deane,2013)指出作文自動(dòng)評(píng)分系統(tǒng)專(zhuān)注于“衡量作品的最終質(zhì)量”,人工評(píng)分更關(guān)注學(xué)生的寫(xiě)作技能,即閱卷人在閱讀學(xué)生作文時(shí)側(cè)重于理解寫(xiě)作者的思想,而作文自動(dòng)評(píng)分系統(tǒng)強(qiáng)調(diào)識(shí)別文本中的標(biāo)識(shí)。即使人工和計(jì)算機(jī)評(píng)分結(jié)果一致,它們的內(nèi)在含義差異也很大:“沒(méi)有作文自動(dòng)評(píng)分系統(tǒng)可以達(dá)到在理解作者意思的基礎(chǔ)上進(jìn)行評(píng)估”(Deane,2013)。迪恩(Deane,2013) 認(rèn)為,寫(xiě)作的目的是為了與人交流。如果學(xué)生的第一次寫(xiě)作經(jīng)歷是對(duì)著一臺(tái)機(jī)器,這可能意味著寫(xiě)作不被視為人際交流,反過(guò)來(lái)可能降低評(píng)估的有效性。此外,由于計(jì)算機(jī)寫(xiě)作評(píng)分的算法是根據(jù)過(guò)去的經(jīng)驗(yàn)和知識(shí)設(shè)定的,我們也無(wú)法知道評(píng)分中是否包含了特定類(lèi)型的偏見(jiàn)。因此,他強(qiáng)烈反對(duì)在入學(xué)考試、分班或期末測(cè)驗(yàn)等高風(fēng)險(xiǎn)考試中使用作文自動(dòng)評(píng)分系統(tǒng)進(jìn)行寫(xiě)作評(píng)估。

從短期看,作文自動(dòng)評(píng)分系統(tǒng)可以幫助老師減輕批改負(fù)擔(dān),及時(shí)給予學(xué)生反饋(張荔等,2016)。但從長(zhǎng)遠(yuǎn)角度看,學(xué)生容易在自動(dòng)批改評(píng)分中形成寫(xiě)作的固化思維,影響真正的寫(xiě)作,而且面對(duì)計(jì)算機(jī)評(píng)估的寫(xiě)作本身違背了寫(xiě)作的社會(huì)屬性(Deane,2013)。如果大學(xué)的作文評(píng)估都是機(jī)器評(píng)分,很可能導(dǎo)致高中的評(píng)分系統(tǒng)和寫(xiě)作訓(xùn)練都基于自動(dòng)評(píng)分,從長(zhǎng)遠(yuǎn)來(lái)看,這不利于通過(guò)寫(xiě)作培養(yǎng)學(xué)生的交流能力。作文自動(dòng)評(píng)分系統(tǒng)的發(fā)展,除了擴(kuò)展評(píng)估指標(biāo)的范圍,還需要加強(qiáng)對(duì)寫(xiě)作結(jié)構(gòu)的理解。另外,如何將作文自動(dòng)評(píng)分系統(tǒng)用于寫(xiě)作教學(xué)支持教學(xué)創(chuàng)新,幫助學(xué)生提高認(rèn)知能力并與社會(huì)實(shí)踐相結(jié)合,從而提高學(xué)生的寫(xiě)作水平也非常重要(Deane,2013)。漢姆普-萊昂斯和康登(Hamp-Lyons & Condon,2000)研究證明了將寫(xiě)作評(píng)估視為一個(gè)涉及迭代、學(xué)習(xí)和多方利益相關(guān)者互動(dòng)過(guò)程的重要性。edX、麻省理工學(xué)院和哈佛大學(xué)等相繼使用基于機(jī)器的作文自動(dòng)評(píng)分系統(tǒng)評(píng)估慕課書(shū)面作業(yè)。Coursera在此基礎(chǔ)上,增加以人為基礎(chǔ)的“校準(zhǔn)的同行評(píng)審”,來(lái)對(duì)學(xué)生寫(xiě)作進(jìn)行評(píng)分并提供反饋(Balfour,2013)。這種模式將作文自動(dòng)評(píng)分系統(tǒng)用于慕課寫(xiě)作教學(xué),給學(xué)生提出反饋和修改意見(jiàn),然后使用校準(zhǔn)的同行評(píng)審進(jìn)行最終評(píng)估(Sandeen,2013)。這使得一些簡(jiǎn)單問(wèn)題能盡早得到糾正,從而改善作文質(zhì)量,且比單一的人工評(píng)估或機(jī)器評(píng)估更為準(zhǔn)確和高效(Balfour,2013)。

(二)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的應(yīng)用和面臨的挑戰(zhàn)

1.計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)具有設(shè)計(jì)標(biāo)準(zhǔn)化和操作簡(jiǎn)單等特性,但題目選擇與評(píng)估的算法和技術(shù)復(fù)雜。它與作文自動(dòng)評(píng)分系統(tǒng)的主要區(qū)別是:作文自動(dòng)評(píng)分系統(tǒng)的機(jī)器學(xué)習(xí)試圖模仿人工評(píng)分標(biāo)準(zhǔn)進(jìn)行判斷,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)使用一系列測(cè)試題目決定考生能力,標(biāo)準(zhǔn)是預(yù)先設(shè)定的,即根據(jù)題目難度判斷考生的知識(shí)掌握水平。在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)評(píng)估中,計(jì)算機(jī)根據(jù)考生對(duì)測(cè)試題的反應(yīng)有目的地選擇下一題,直到可以評(píng)估考生是否達(dá)到被測(cè)能力的極限。諾一瓊斯(Noijons,1994)將自適應(yīng)測(cè)試定義為“在計(jì)算機(jī)幫助下誘發(fā)和評(píng)估語(yǔ)言表現(xiàn)的綜合程序,包括生成測(cè)試、與參與者互動(dòng)、反饋評(píng)價(jià)”。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)與紙筆測(cè)試、一般計(jì)算機(jī)測(cè)驗(yàn)的區(qū)別是具備估算被試者的能力、不依賴(lài)于測(cè)試題目的特性;可以根據(jù)題目的信息量, 選擇與被試者能力相匹配的題目;測(cè)試管理靈活,測(cè)試結(jié)果可以立即顯示,減少考生考試焦慮;與傳統(tǒng)測(cè)驗(yàn)相比,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)可節(jié)省成本(趙茜等,2020;Mulkern, 1998;Weiss, 1990; Straetmans & Eggen, 1998)。通過(guò)計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)彈性水平策略,考生通常被給予適合其特定水平的測(cè)試,不需要回答對(duì)他們來(lái)說(shuō)太難或太易的問(wèn)題(Larson & Madsen,1985)。

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)評(píng)估是個(gè)迭代過(guò)程(Rudner,1998),算法通常包括:1)根據(jù)預(yù)估的考生能力和水平,對(duì)題庫(kù)的所有考題進(jìn)行評(píng)估,確定適合考生水平的題目,選定合適的考題,由考生回答;2)根據(jù)考生答案重新計(jì)算其能力和水平;3)重復(fù)1到2步驟,直到確定考生最終能夠達(dá)到的標(biāo)準(zhǔn)。簡(jiǎn)言之,當(dāng)計(jì)算機(jī)選擇第一道題時(shí),其預(yù)期是考生可以給予正確答案。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)為了確定適當(dāng)?shù)碾y易水平,測(cè)試前問(wèn)考生一些代表其能力水平的指標(biāo)問(wèn)題,然后根據(jù)這些數(shù)據(jù)決定第一道考題。在缺乏了解考生能力的情況下,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)通常會(huì)在嘗試過(guò)程中提供難度較低的題目(如70%的考生可以回答正確),然后逐步加大難度,直到能夠判斷考生可以達(dá)到的能力和水平的上限,即“測(cè)評(píng)的終結(jié)點(diǎn)”。在相對(duì)簡(jiǎn)單的及格測(cè)評(píng)設(shè)計(jì)中,“測(cè)評(píng)的終結(jié)點(diǎn)”是考生超過(guò)及格分?jǐn)?shù)線或沒(méi)有達(dá)到及格分?jǐn)?shù)線。因此,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)常用于總結(jié)性評(píng)估,如高風(fēng)險(xiǎn)的考試測(cè)評(píng)(大學(xué)入學(xué)和就業(yè)等)。

2.計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的應(yīng)用及存在的問(wèn)題

教育評(píng)估中兩種著名且成功的基于計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的考試是美國(guó)研究生管理入學(xué)委員會(huì)的GMAT和美國(guó)教育考試服務(wù)中心的GRE考試。全球商學(xué)院都使用GMAT成績(jī)挑選MBA申請(qǐng)者。當(dāng)學(xué)生開(kāi)始GMAT考試時(shí),計(jì)算機(jī)假設(shè)學(xué)生有一個(gè)平均分?jǐn)?shù),給出一道中等難度的題目。如果學(xué)生回答正確,電腦會(huì)給出更難的考題,并增加難度。反之,如果回答錯(cuò)誤,計(jì)算機(jī)會(huì)降低難度。學(xué)生分?jǐn)?shù)由預(yù)設(shè)的算法決定,該算法不僅根據(jù)學(xué)生答案的對(duì)與錯(cuò),還根據(jù)他們回答問(wèn)題的難度計(jì)算學(xué)生能力。此外,GMAT寫(xiě)作評(píng)估采用六分制,由人和計(jì)算機(jī)共同完成,學(xué)生考試結(jié)束后可立即收到非官方的GMAT成績(jī),并選擇保留或取消他們的GMAT成績(jī)(KAPLAN,2020)。GRE科目測(cè)試旨在測(cè)量學(xué)生特定學(xué)科領(lǐng)域(如數(shù)學(xué)、歷史或英語(yǔ)文學(xué))的成績(jī)(Stocking et al., 2000)。

美國(guó) K-12 基礎(chǔ)教育考試服務(wù)執(zhí)行主任馬特森認(rèn)為,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的最大優(yōu)勢(shì)是學(xué)生作答試題的難度與學(xué)生能力匹配。這一優(yōu)勢(shì)能帶給學(xué)生更有益的考試體驗(yàn),能力低的學(xué)生不會(huì)遇到無(wú)法回答的題目,因而不會(huì)備受打擊;能力高的學(xué)生不會(huì)因回答過(guò)于簡(jiǎn)單的試題而失去興趣,這能夠提高學(xué)生的測(cè)驗(yàn)參與度和動(dòng)機(jī)(王超,2017)。

由于計(jì)算機(jī)在語(yǔ)言測(cè)試中的重要作用,很多學(xué)者開(kāi)始比較計(jì)算機(jī)測(cè)試與筆試的差異。侯賽尼等(Hosseini et al.,2014)在慕尼黑大學(xué)隨機(jī)抽取了106名伊朗英語(yǔ)學(xué)習(xí)者計(jì)算機(jī)測(cè)試與筆試的成績(jī)。結(jié)果表明,參與者的筆試成績(jī)優(yōu)于計(jì)算機(jī)測(cè)試成績(jī)。此外,其他學(xué)者也發(fā)現(xiàn),受試者書(shū)寫(xiě)測(cè)試比計(jì)算機(jī)測(cè)試表現(xiàn)更好(Coniam, 2006; Cumming et al.,2006; Salimi et al., 2011;Mazzeo et al.,1991)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)基于寫(xiě)作反應(yīng)理論模型,此模型不能用于所有寫(xiě)作,因?yàn)樗贿m用于開(kāi)放式問(wèn)題和不容易校準(zhǔn)的寫(xiě)作 (Rudner, 1998)。計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的另一個(gè)缺點(diǎn)是,考生無(wú)法在測(cè)試結(jié)束前退回去更改答案,因?yàn)橄乱坏李}目是根據(jù)前一道題的結(jié)果給出的 (Rudner, 1998)。安全性是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的另一個(gè)重要問(wèn)題。如果題庫(kù)被用來(lái)測(cè)試考生的知識(shí),在測(cè)試過(guò)程中,有些題目可能比其他題目更頻繁地出現(xiàn),這些題目可能被記住并傳遞給其他考生(Wainer & Eignor,2000)。

另外,莫內(nèi)塔-克勒等(Moneta-Koehler et al.,2017)反對(duì)美國(guó)教育考試服務(wù)中心將GRE考試分?jǐn)?shù)作為研究生入學(xué)的唯一標(biāo)準(zhǔn)。他們以范德堡大學(xué)國(guó)際研究生項(xiàng)目為例發(fā)現(xiàn),GRE成績(jī)不能預(yù)測(cè)學(xué)生能否順利博士畢業(yè)或發(fā)表更多論文。因此,他呼吁生物醫(yī)學(xué)科學(xué)招生委員會(huì)應(yīng)考慮最大限度地少用GRE分?jǐn)?shù)預(yù)測(cè)學(xué)生學(xué)習(xí)成績(jī)和創(chuàng)作力。在過(guò)去十年,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)應(yīng)用結(jié)果的有效性幾乎沒(méi)有變化。有研究者擔(dān)心,其設(shè)計(jì)可能會(huì)限制婦女和少數(shù)民族人員進(jìn)入科學(xué)等關(guān)鍵領(lǐng)域,例如,米勒和斯坦森(Miller & Stassun,2014)指出,女性候選人的GRE成績(jī)平均比男性少80分,非裔美國(guó)人比白人少200分。

三、學(xué)習(xí)分析與教育評(píng)估

(一)大數(shù)據(jù)與學(xué)習(xí)分析

大規(guī)模數(shù)據(jù)分析是人工智能用于教育評(píng)估的基礎(chǔ),例如,作文自動(dòng)評(píng)分系統(tǒng)基于眾多人工測(cè)評(píng)對(duì)大量學(xué)生寫(xiě)作進(jìn)行評(píng)判,計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)基于許多學(xué)生多項(xiàng)選擇題測(cè)試結(jié)果。大數(shù)據(jù)在這些評(píng)估中的共性,也就是機(jī)器學(xué)習(xí)在科學(xué)、醫(yī)學(xué)和技術(shù)發(fā)展中的應(yīng)用都是過(guò)程數(shù)據(jù),即使用應(yīng)用程序可以有目的或偶然地在線捕獲數(shù)據(jù)。分析這些學(xué)習(xí)和評(píng)估數(shù)據(jù)的技術(shù)通常被稱(chēng)為學(xué)習(xí)分析(有時(shí)稱(chēng)為教育數(shù)據(jù)挖掘)。學(xué)習(xí)分析是對(duì)與學(xué)習(xí)活動(dòng)相關(guān)的學(xué)習(xí)者數(shù)據(jù)采集、分析和干預(yù)的過(guò)程(Ga?evic et al.,2015),最常使用的定義是第一屆國(guó)際學(xué)習(xí)分析和知識(shí)會(huì)議(Long & Siemens,2011)提出的:“……關(guān)于學(xué)習(xí)者及其學(xué)習(xí)數(shù)據(jù)和情境的測(cè)量、收集、分析和報(bào)告,目的是理解和優(yōu)化學(xué)習(xí)及其發(fā)生的環(huán)境”。這些目標(biāo)的實(shí)現(xiàn)很有價(jià)值。埃利斯等(Ellis et al.,2013) 認(rèn)為,大部分學(xué)習(xí)分析活動(dòng)通常專(zhuān)注于預(yù)測(cè),如識(shí)別大數(shù)據(jù)中與特定結(jié)果相關(guān)的模型,以提高學(xué)生的考試成績(jī)。然而,越來(lái)越多的人認(rèn)識(shí)到課堂或培訓(xùn)環(huán)境中形成性評(píng)估的重要性,因此,如何使用教學(xué)大數(shù)據(jù)進(jìn)行智能分析,幫助學(xué)習(xí)者形成性地自我調(diào)節(jié)從而改進(jìn)學(xué)習(xí)顯得尤為重要。

柯普等(Cope & Kalantzis,2016) 將學(xué)習(xí)過(guò)程中機(jī)器評(píng)估收集的各種數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)(即由計(jì)算機(jī)專(zhuān)門(mén)預(yù)測(cè)和捕獲的數(shù)據(jù))和非結(jié)構(gòu)化的偶然數(shù)據(jù),如迪賽爾博和貝倫斯(DiCerbo & Behrens,2014)提出的“數(shù)據(jù)廢氣 ”(data exhaust)。后者包括點(diǎn)擊數(shù)、日志文件等時(shí)間、擊鍵和編輯歷史記錄或“軌跡”。通過(guò)分析,我們可以了解學(xué)生是如何解決問(wèn)題、所犯的錯(cuò)誤和所做的修改、對(duì)概念的誤解,以及面對(duì)學(xué)習(xí)進(jìn)展緩慢或沒(méi)有進(jìn)展時(shí)的反應(yīng)和應(yīng)對(duì)能力等。此外,他們通過(guò)攝像機(jī)、錄音機(jī)、智能手表和手環(huán)等對(duì)學(xué)生進(jìn)行眼動(dòng)追蹤、面部表情、身體姿勢(shì)、手勢(shì)和課堂發(fā)言等方面的數(shù)據(jù)收集,以此作為教學(xué)活動(dòng)過(guò)程的評(píng)價(jià)參數(shù),如分析同伴互動(dòng)甚至情感狀態(tài),包括困惑、沮喪、無(wú)聊和參與度等。對(duì)智能導(dǎo)師系統(tǒng)(Intelligent Tutoring Systems)捕獲的數(shù)據(jù)進(jìn)行深入分析可以幫助教師更好地了解學(xué)生并改進(jìn)教學(xué)策略。莫萊納爾等(Molenaar et al.,2021) 將計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的績(jī)效評(píng)估數(shù)據(jù)運(yùn)用到自適應(yīng)學(xué)習(xí)平臺(tái),幫助教師選擇合適的學(xué)習(xí)資源(教學(xué)材料)和確定適合于不同學(xué)生的問(wèn)題。教師如果能夠及時(shí)分析這些不同類(lèi)型的數(shù)據(jù),了解學(xué)生如何對(duì)待學(xué)習(xí)任務(wù)以及他們?cè)谀男┓矫嬲莆樟酥R(shí),哪些方面面臨困難,可以作為形成性反饋及時(shí)提供給學(xué)生。例如,Embrace系統(tǒng)使用動(dòng)態(tài)跟蹤數(shù)據(jù),為學(xué)生可視化在線閱讀理解任務(wù)的表現(xiàn)提供即時(shí)形成性反饋(Walker et al.,2017)。阿爾喬哈尼等(Aljohani & Davis,2013) 使用手機(jī)數(shù)字儀表板讓學(xué)生查看測(cè)驗(yàn)結(jié)果,為學(xué)生提供有關(guān)學(xué)科整體成績(jī)的及時(shí)反饋,并按照布魯姆分類(lèi)學(xué)對(duì)學(xué)生認(rèn)知水平進(jìn)行評(píng)估。上述例子雖然都是按照學(xué)校要求對(duì)學(xué)生的學(xué)習(xí)進(jìn)行評(píng)估,是一種描述性的可視化分析, 但也展示了人工智能既有用于總結(jié)性評(píng)估實(shí)時(shí)反饋的特性,也有用于形成性評(píng)估的潛力。

(二)學(xué)習(xí)分析與形成性評(píng)估

蒂勒等(Thille et al.,2014) 認(rèn)為可以從三方面對(duì)大規(guī)模評(píng)估數(shù)據(jù)進(jìn)行多樣化評(píng)價(jià):1)連續(xù)性(始終自動(dòng)收集數(shù)據(jù));2)反饋性(為老師和學(xué)生提供實(shí)時(shí)的數(shù)據(jù)分析、解釋和報(bào)告);3)多樣性(可以收集點(diǎn)擊數(shù)、日志文件,以及自動(dòng)記錄的多種數(shù)據(jù))。隨著新的評(píng)估測(cè)試和測(cè)試群體的不斷增長(zhǎng),大規(guī)模評(píng)估數(shù)據(jù)分析,可以提供全面的學(xué)習(xí)“軌跡”建模 (“專(zhuān)家系統(tǒng)”),從而將個(gè)體學(xué)生的學(xué)習(xí)表現(xiàn)與以大多數(shù)學(xué)生群體為基礎(chǔ)所建立的典型表現(xiàn)模型進(jìn)行比較。其中非常重要的一點(diǎn)是“專(zhuān)家系統(tǒng)”對(duì)學(xué)生的評(píng)價(jià)是由系統(tǒng)自動(dòng)給出的“提示”,并以腳手架教學(xué)或形成性評(píng)估干預(yù)的形式,在學(xué)生解決問(wèn)題的過(guò)程中適當(dāng)?shù)靥峁?shí)時(shí)反饋。另外,蒂勒等(Thille et al.,2014)還指出,在某些情況下,“專(zhuān)家系統(tǒng)”提出的一個(gè)步驟到另一個(gè)步驟的學(xué)習(xí)策略與學(xué)生的實(shí)際軌跡和決策不符,通過(guò)更好地了解學(xué)生不同的學(xué)習(xí)方法,能夠更好地改進(jìn)專(zhuān)家系統(tǒng),提供更加精準(zhǔn)的學(xué)習(xí)路徑推薦。如果要在實(shí)施過(guò)程中向?qū)W生提供有意義的反饋,就要求學(xué)習(xí)分析及時(shí)準(zhǔn)確,這就是柯普等(Cope & Kalantzis,2016)提出的學(xué)習(xí)分析結(jié)束了“教學(xué)和評(píng)估分離的歷史”,并具有“隨時(shí)提供反饋”的潛力。然而,將這些形成性評(píng)估技術(shù)從蒂勒等的小規(guī)模在線環(huán)境(智能導(dǎo)學(xué)系統(tǒng)、編碼實(shí)踐和應(yīng)用慕課)遷移到更多樣化的學(xué)習(xí)環(huán)境,可能因數(shù)據(jù)捕獲的挑戰(zhàn)性,前景有限。

毫無(wú)疑問(wèn),形成性評(píng)估在教育中的作用越來(lái)越重要,人們也越來(lái)越對(duì)運(yùn)用大數(shù)據(jù)和智能分析幫助學(xué)生在在線學(xué)習(xí)環(huán)境發(fā)展自主學(xué)習(xí)能力感興趣。自主學(xué)習(xí) (self-regulated learning,SRL)是一種復(fù)雜的現(xiàn)象,受每個(gè)人的個(gè)性特征、學(xué)習(xí)習(xí)慣和學(xué)習(xí)環(huán)境的影響。例如,西奇內(nèi)利等(Cicchinelli et al.,2018) 確定了與學(xué)生自我計(jì)劃和監(jiān)督相關(guān)的指標(biāo),這些指標(biāo)與學(xué)生的學(xué)習(xí)和考試分?jǐn)?shù)直接相關(guān)。另外,賈維拉等 (Jarvela et al.,2020)認(rèn)為,最近掀起的學(xué)習(xí)分析熱潮,通過(guò)對(duì)學(xué)生的情緒、社交和認(rèn)知等進(jìn)行跟蹤,使以前完全不透明的自主學(xué)習(xí)過(guò)程變得清晰可見(jiàn),特別是在協(xié)作學(xué)習(xí)環(huán)境中更是如此?;谶@些發(fā)展,美國(guó)高考(ACT)測(cè)試研究小組采用移動(dòng)應(yīng)用程序 Companion 進(jìn)行實(shí)時(shí)測(cè)試,對(duì)學(xué)生學(xué)習(xí)進(jìn)度和成果進(jìn)行及時(shí)分析和反饋(ACTNext,2020)。該系統(tǒng)使用“動(dòng)態(tài)認(rèn)知診斷模型和機(jī)器學(xué)習(xí)算法”分析測(cè)試結(jié)果和學(xué)習(xí)資源的使用情況,并承諾可以通過(guò)亞馬遜的Alexa和蘋(píng)果的 Siri 等工具融入學(xué)生日常生活。無(wú)疑,學(xué)習(xí)分析反饋對(duì)任何學(xué)習(xí)環(huán)境的個(gè)性化形成性評(píng)估都非常有用,特別是在慕課或其他大規(guī)模在線學(xué)習(xí)環(huán)境中,成千上萬(wàn)的學(xué)習(xí)者共同學(xué)習(xí)一門(mén)課程。在這種情況下,自主學(xué)習(xí)變得尤為重要,因?yàn)橥饨绲男纬尚栽u(píng)估和及時(shí)性反饋受到教師當(dāng)面答疑甚至異步互動(dòng)成本的限制。學(xué)伴評(píng)估,如果準(zhǔn)確的話,可以幫助解決慕課形成性評(píng)估問(wèn)題(Garcia-Martinez et al.,2018),但簡(jiǎn)森等(Jansen et al.,2020)提出,使用學(xué)習(xí)分析和內(nèi)置干預(yù),即按照自主學(xué)習(xí)設(shè)計(jì)的課程資源視頻,可以提高慕課課程完成率, 越來(lái)越多的研究證實(shí)了這一結(jié)論 (例如,Jarvela et al.,2020;Martin & Ndoye,2016;Tempelaar et al.,2013;Gutierrez Rojas & Crespo Garcia,2012)。正因?yàn)槿绱?,?duì)于在線學(xué)習(xí)開(kāi)發(fā)人員來(lái)說(shuō),能夠在慕課中提供自動(dòng)化且具有成本效益的個(gè)性化形成性評(píng)估和反饋是首要目標(biāo)。

如果教師對(duì)學(xué)生學(xué)習(xí)的反饋主要用于改善教學(xué)質(zhì)量而非與其他學(xué)生比較,并關(guān)注學(xué)生個(gè)體進(jìn)步,那么學(xué)生可以通過(guò)形成性評(píng)估反饋知道下一步該做什么,從而產(chǎn)生控制自己學(xué)習(xí)的滿(mǎn)足感,激發(fā)學(xué)習(xí)動(dòng)機(jī)和有效完成學(xué)習(xí)目標(biāo)(Brookhart, 2008; Crooks, 1988)。學(xué)習(xí)分析與形成性評(píng)估都具有及時(shí)反饋的特征。形成性評(píng)估幫助學(xué)生了解學(xué)習(xí)過(guò)程中的表現(xiàn),而學(xué)習(xí)分析為學(xué)生提供了有關(guān)個(gè)人表現(xiàn)的信息,并可提高教師對(duì)不同學(xué)生表現(xiàn)的認(rèn)識(shí)深度(Aljohani & Davis,2013)。布萊克等(Black & William,1998)總結(jié)了250多項(xiàng)形成性評(píng)估研究后發(fā)現(xiàn),形成性評(píng)估是課堂工作的重要組成部分,可以提高學(xué)生學(xué)習(xí)成績(jī)?;趯W(xué)習(xí)分析的形成性評(píng)估對(duì)于教學(xué)過(guò)程的評(píng)價(jià)更為科學(xué)、系統(tǒng)和智能,進(jìn)而可實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)下的“以學(xué)定教和因?qū)W定導(dǎo)”(畢鵬暉,2021)。

斯佩克特等(Spector et al.,2016) 強(qiáng)調(diào)了個(gè)性化形成性評(píng)估的重要性,但發(fā)現(xiàn)在某種程度上,智能導(dǎo)學(xué)系統(tǒng)可能會(huì)“一刀切”。這些系統(tǒng)雖然能夠判斷學(xué)生存在的問(wèn)題并幫助學(xué)生彌補(bǔ)不足,但對(duì)存在同樣問(wèn)題的學(xué)生給出的建議都一樣。他們認(rèn)為,學(xué)習(xí)分析系統(tǒng)可以通過(guò)對(duì)學(xué)生進(jìn)行更深入的分析,并結(jié)合各種績(jī)效分析技術(shù)提供反饋,以滿(mǎn)足不同學(xué)生的需求。個(gè)性化學(xué)習(xí)分析可以通過(guò)捕獲學(xué)生學(xué)習(xí)過(guò)程的“隱性”數(shù)據(jù),如監(jiān)測(cè)那些連續(xù)的、內(nèi)在的和不明顯的行為,識(shí)別學(xué)生的學(xué)習(xí)習(xí)慣,并結(jié)合“顯性”的學(xué)生畫(huà)像,包括他們的愛(ài)好、興趣和態(tài)度等外在數(shù)據(jù),對(duì)學(xué)生的學(xué)習(xí)提供及時(shí)、有效的干預(yù)。但是,與營(yíng)銷(xiāo)和其他個(gè)人在線活動(dòng)分析一樣,個(gè)性化學(xué)習(xí)分析使用不當(dāng)可能會(huì)引發(fā)倫理問(wèn)題。 這種反饋機(jī)制“尚未能夠大規(guī)模和持續(xù)運(yùn)用”(Spector et al.,2016)。

四、結(jié) 語(yǔ)

盡管計(jì)算機(jī)算法和大數(shù)據(jù)分析技術(shù)有了突飛猛進(jìn)的發(fā)展,但目前教育評(píng)估中人工智能運(yùn)用的基本原理和功能幾乎沒(méi)有明顯變化,即以總結(jié)性評(píng)估為主的計(jì)算機(jī)自動(dòng)測(cè)評(píng)而非以學(xué)習(xí)過(guò)程數(shù)據(jù)為基礎(chǔ)的形成性評(píng)價(jià)為主。不可否認(rèn),人工智能評(píng)估的效率、速度和精準(zhǔn)都有了顯著提高,能夠達(dá)到與人工評(píng)估非常相近的結(jié)果,甚至在某種程度上,特別是在標(biāo)準(zhǔn)化測(cè)試和自適應(yīng)教學(xué)系統(tǒng)中發(fā)揮了計(jì)算機(jī)評(píng)估和反饋更為迅速、客觀、準(zhǔn)確的優(yōu)勢(shì)。通過(guò)分析作文自動(dòng)評(píng)分系統(tǒng)和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的發(fā)展?fàn)顩r,本研究發(fā)現(xiàn)這些教育評(píng)估的核心應(yīng)用已從機(jī)器學(xué)習(xí)的技術(shù)進(jìn)步中受益,人工智能技術(shù)仍會(huì)不斷迭代。但是,寄希望于運(yùn)用人工智能系統(tǒng)取代人工評(píng)估仍然是不現(xiàn)實(shí)的。將基于學(xué)生能力特征分析的計(jì)算機(jī)自適應(yīng)測(cè)試、模仿人工判斷的作文自動(dòng)評(píng)分系統(tǒng),與復(fù)雜學(xué)習(xí)過(guò)程的各種數(shù)據(jù)整合,可以提高教育評(píng)估的效率和有效性。精準(zhǔn)的學(xué)習(xí)分析可以通過(guò)手機(jī)等移動(dòng)設(shè)備為學(xué)生在慕課和智能導(dǎo)學(xué)系統(tǒng)的學(xué)習(xí)提供合適和有目的的形成性評(píng)估反饋,支持學(xué)生的自主學(xué)習(xí)。隨著計(jì)算機(jī)硬件技術(shù)和軟件系統(tǒng)的不斷進(jìn)步,人工智能在教育評(píng)估中的應(yīng)用,特別是在形成性評(píng)估中的應(yīng)用潛力值得期待,但數(shù)據(jù)采集和算法方面的局限仍有待探討。

猜你喜歡
測(cè)驗(yàn)自動(dòng)計(jì)算機(jī)
計(jì)算機(jī)操作系統(tǒng)
自動(dòng)捕盜機(jī)
基于計(jì)算機(jī)自然語(yǔ)言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介
科技傳播(2019年22期)2020-01-14 03:06:34
《新年大測(cè)驗(yàn)》大揭榜
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
關(guān)于自動(dòng)駕駛
Stefan Greiner:我們?yōu)槭裁葱枰詣?dòng)駕駛?
Fresnel衍射的計(jì)算機(jī)模擬演示
资兴市| 酒泉市| 宜阳县| 东至县| 克拉玛依市| 朔州市| 丹凤县| 闽清县| 金沙县| 化隆| 合肥市| 泌阳县| 博白县| 蒙山县| 德保县| 绵竹市| 蒲城县| 石泉县| 泸定县| 齐河县| 虎林市| 藁城市| 巴马| 南溪县| 兰考县| 通河县| 鄯善县| 蓬莱市| 瓮安县| 赣榆县| 越西县| 读书| 曲阜市| 东丽区| 新野县| 湟中县| 张家港市| 随州市| 安庆市| 长乐市| 东至县|