羅恒 廖小芳 茹琦琦 王志鋒
基金項(xiàng)目:2021年度國家自然科學(xué)基金面上項(xiàng)目“細(xì)粒度的智能學(xué)習(xí)診斷及其可解釋性機(jī)制研究”(項(xiàng)目編號(hào): 62177022)
[摘? ?要] 教師評(píng)語是形成性評(píng)價(jià)分析的重要數(shù)據(jù)來源,但現(xiàn)有教師評(píng)語生成的質(zhì)量在社會(huì)性、客觀性和個(gè)性化方面存在一定的不足,生成式人工智能支持的教師評(píng)語為解決該問題提供了可能。生成式教師評(píng)語是指教師通過認(rèn)知診斷技術(shù)得到的智能診斷數(shù)據(jù)與生成式人工智能平臺(tái)進(jìn)行交互,從而讓生成式人工智能平臺(tái)模擬教師社會(huì)性語言,生成數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化教師評(píng)語。在初中數(shù)學(xué)課堂中的實(shí)證研究發(fā)現(xiàn):生成式教師評(píng)語有效地提高了學(xué)生的自我調(diào)節(jié)學(xué)習(xí)能力(Cohen's d=1.08, p=0.000)和學(xué)習(xí)動(dòng)機(jī)(Cohen's d=0.59, p=0.003),對(duì)學(xué)生的深度訪談結(jié)果表明,生成式評(píng)語能作為考試的一種總結(jié)反思工具,體現(xiàn)了教師對(duì)學(xué)生個(gè)性化的關(guān)注和鼓勵(lì)。研究結(jié)果為人工智能技術(shù)助力個(gè)性化、精準(zhǔn)化教學(xué)提供了研究思路,為教育環(huán)境中持續(xù)評(píng)估和改進(jìn)生成式人工智能技術(shù)的使用提供了建議。
[關(guān)鍵詞] 生成式人工智能; 教師評(píng)語; 智能評(píng)測; 個(gè)性化教學(xué); 初中數(shù)學(xué)
[中圖分類號(hào)] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡介] 羅恒(1983—),男,湖北武漢人。副教授,博士,主要從事教學(xué)設(shè)計(jì)、數(shù)字化學(xué)習(xí)研究。E-mail:luoheng@mail.ccnu.edu.cn。
一、引? ?言
作為教育生態(tài)變革的重要驅(qū)動(dòng)力,人工智能技術(shù)在教育評(píng)價(jià)改革,實(shí)現(xiàn)規(guī)?;逃c個(gè)性化培養(yǎng)的有機(jī)結(jié)合方面的實(shí)踐應(yīng)用廣受關(guān)注[1]。其中,由機(jī)器學(xué)習(xí)模型提供支持的人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)能夠自動(dòng)化生成文本、圖像、視頻、音頻等多模態(tài)數(shù)據(jù),具備很強(qiáng)的對(duì)話情境理解能力和啟發(fā)性內(nèi)容生成能力。自2022年以來,生成式人工智能在文本生成方向的應(yīng)用(例如, CTRL模型、ERNIE-GEN模型、GPT模型)紛紛涌現(xiàn),引發(fā)了教育內(nèi)容生產(chǎn)方式的變革[2]。生成式人工智能采用預(yù)訓(xùn)練—提示(Pre-train-Prompt)的學(xué)習(xí)模式,借助概率對(duì)用戶輸入的文本上下文進(jìn)行模式識(shí)別,根據(jù)句法規(guī)則生成文本內(nèi)容,并結(jié)合用戶輸入的文本進(jìn)行反饋強(qiáng)化學(xué)習(xí),從而提供多輪次、流暢、自然的內(nèi)容生成。生成式人工智能基于自然語言的對(duì)話能力,使其在教學(xué)評(píng)價(jià)與反饋中具備良好的應(yīng)用潛力[3]。
教師評(píng)語作為教育評(píng)價(jià)的重要環(huán)節(jié)已經(jīng)引發(fā)了越來越多的關(guān)注,評(píng)語通常是教師以描述性語言來概述學(xué)生學(xué)習(xí)情況,并以文本形式呈現(xiàn)給學(xué)生本人或其家長和教育行政部門[4]。中共中央、國務(wù)院于2020年10月印發(fā)了《深化新時(shí)代教育評(píng)價(jià)改革總體方案》,提出要“創(chuàng)新評(píng)價(jià)工具,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù),探索開展學(xué)生各年級(jí)學(xué)習(xí)情況全過程縱向評(píng)價(jià)、德智體美勞全要素橫向評(píng)價(jià)”[5]。然而現(xiàn)有的教師評(píng)語反饋在社會(huì)性、客觀性和個(gè)性化方面存在一定的局限性。首先,評(píng)語反饋的社會(huì)性不足,現(xiàn)有的評(píng)語生成系統(tǒng)生成的文本內(nèi)容不能實(shí)現(xiàn)和學(xué)生的交互,不具備多輪對(duì)話的能力。其次,教師評(píng)價(jià)的來源多為教師的主觀經(jīng)驗(yàn),缺乏客觀性。最后,教師評(píng)語的撰寫容易陷入抽象化、模式化、空洞化、教條化的誤區(qū),現(xiàn)有的教師評(píng)語生成的途徑大多是通過評(píng)語語料庫或者關(guān)鍵字生成的一些重復(fù)的短語,缺乏對(duì)學(xué)生學(xué)習(xí)過程和認(rèn)知狀態(tài)的準(zhǔn)確描述。
生成式教師評(píng)語為這三個(gè)局限性提供了解決方案。生成式教師評(píng)語是指教師通過認(rèn)知診斷技術(shù)得到的學(xué)習(xí)分析數(shù)據(jù)與生成式人工智能平臺(tái)進(jìn)行交互,從而讓生成式人工智能平臺(tái)模擬教師社會(huì)性語言,生成數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化教師評(píng)語。在生成式教師評(píng)語中,數(shù)據(jù)是核心指標(biāo),教師是設(shè)計(jì)者和監(jiān)督者,學(xué)生是內(nèi)容使用者。首先,在社會(huì)性方面,與其他自然語言處理模型相比,AIGC具有良好的語言生成能力,能夠更好地理解用戶的問題,并且AIGC具有連續(xù)多輪對(duì)話的能力,能夠在教師的監(jiān)督下生成更加具有交互性的教師評(píng)語。其次,在客觀性方面,AIGC可以利用知識(shí)診斷數(shù)據(jù)實(shí)現(xiàn)對(duì)學(xué)習(xí)過程的科學(xué)描述,為學(xué)生提供數(shù)據(jù)驅(qū)動(dòng)下更加準(zhǔn)確客觀的學(xué)習(xí)狀態(tài)點(diǎn)評(píng)。最后,在個(gè)性化方面,AIGC的內(nèi)容生成能力可以根據(jù)學(xué)生的學(xué)習(xí)數(shù)據(jù)提出針對(duì)性的改進(jìn)建議和錯(cuò)題練習(xí),讓學(xué)生得到更加精準(zhǔn)化和個(gè)性化的評(píng)價(jià)反饋。
2022年11月30日,OpenAI發(fā)布了ChatGPT,僅僅用了兩個(gè)月的時(shí)間,成為史上用戶增長速度最快的消費(fèi)級(jí)應(yīng)用程序。ChatGPT、文心一言和Bard等AIGC產(chǎn)品對(duì)教育領(lǐng)域的影響及應(yīng)用引起了國內(nèi)外學(xué)者的探討與關(guān)注,但目前的研究大多是從AIGC的基本原理、智能涌現(xiàn)、能力邊界以及工具價(jià)值等維度進(jìn)行概念性論述[6-8],缺乏對(duì)AIGC在真實(shí)課堂中應(yīng)用的實(shí)證研究。另外,現(xiàn)有的實(shí)證研究涉及的實(shí)踐應(yīng)用主要是為學(xué)生個(gè)性化自適應(yīng)學(xué)習(xí)賦能,包括編程代碼生成[9]、語言翻譯[10]、課程知識(shí)問答[11]和適應(yīng)性學(xué)習(xí)[12]等,需要進(jìn)一步探討AIGC在面對(duì)面課堂教學(xué)情境中的應(yīng)用模式和路徑。本研究使用的AIGC平臺(tái)為基于飛槳深度學(xué)習(xí)平臺(tái)和文心知識(shí)增強(qiáng)大模型而研發(fā)的文心大模型4.0。
本研究在真實(shí)的初中數(shù)學(xué)課堂環(huán)境中進(jìn)行,聚焦“如何通過AIGC支持的生成式教師評(píng)語促進(jìn)數(shù)學(xué)學(xué)習(xí)”這一核心主題,探索人工智能技術(shù)支持下教師評(píng)語生成的新型方式,探討數(shù)智化時(shí)代提供個(gè)性化、精準(zhǔn)化的教學(xué)評(píng)價(jià)的有效途徑,探究生成式教師評(píng)語對(duì)數(shù)學(xué)學(xué)習(xí)成績、自我調(diào)節(jié)能力以及學(xué)習(xí)動(dòng)機(jī)的影響。基于此,本研究提出以下四個(gè)研究問題:
1. 如何依托認(rèn)知診斷模型和AIGC平臺(tái)生成教師評(píng)語?
2. 生成式教師評(píng)語能否提高學(xué)習(xí)者的學(xué)習(xí)成績,為什么?
3.生成式教師評(píng)語能否發(fā)展學(xué)習(xí)者的自我調(diào)節(jié)學(xué)習(xí)能力,為什么?
4.生成式教師評(píng)語能否促進(jìn)學(xué)習(xí)者學(xué)習(xí)動(dòng)機(jī),為什么?
二、文獻(xiàn)綜述
(一)教師評(píng)語的數(shù)據(jù)基礎(chǔ)
教師評(píng)語是教師對(duì)學(xué)生某一階段發(fā)展?fàn)顟B(tài)的較為全面且富有個(gè)性的質(zhì)性評(píng)價(jià)。Matsumura等提出,從形式上評(píng)語可以分為認(rèn)知特征類評(píng)語和情感特征類評(píng)語[13]。認(rèn)知特征類是一些可采納評(píng)語,如指出問題、提出建議、定位問題、給出解決辦法;情感特征類主要指稱贊、批評(píng)兩類評(píng)語。
反映學(xué)生學(xué)習(xí)過程的數(shù)據(jù)是生成更加準(zhǔn)確、客觀的生成式教師評(píng)語的重要基礎(chǔ)。傳統(tǒng)的評(píng)語數(shù)據(jù)是教師根據(jù)主觀經(jīng)驗(yàn)生成的,隨著計(jì)算機(jī)技術(shù)的發(fā)展,教師只要在評(píng)語生成程序內(nèi)輸入關(guān)鍵詞,就可以利用評(píng)語生成系統(tǒng)得到模板化的教師評(píng)語數(shù)據(jù)。而人工智能技術(shù)的廣泛應(yīng)用使評(píng)語的數(shù)據(jù)生成更加智能和個(gè)性化[14]。本研究主要使用了認(rèn)知診斷技術(shù)實(shí)現(xiàn)智能學(xué)習(xí)診斷,為評(píng)語的內(nèi)容生成提供了數(shù)據(jù)基礎(chǔ)。認(rèn)知診斷模型在項(xiàng)目反應(yīng)理論的基礎(chǔ)上,基于學(xué)生的交互行為(如答題數(shù)據(jù)、測試數(shù)據(jù))來挖掘?qū)W習(xí)者的潛在認(rèn)知狀態(tài)(知識(shí)點(diǎn)掌握程度和熟練程度),進(jìn)而預(yù)測學(xué)習(xí)者在特定學(xué)習(xí)任務(wù)中的表現(xiàn)[15]。常見的認(rèn)知診斷模型有IRT 模型、DINA 模型和神經(jīng)認(rèn)知診斷模型。
(二)教師評(píng)語的內(nèi)容生成
評(píng)語的內(nèi)容生成是數(shù)據(jù)和社會(huì)性的語言整合的結(jié)果。評(píng)語是自然語言處理(Natural Language Processing)的子問題,自然語言理解和自然語言生成是評(píng)語生成過程中的重要組成部分?,F(xiàn)有計(jì)算機(jī)生成的評(píng)語在語義表達(dá)的準(zhǔn)確性、社會(huì)情感性等方面存在一定的局限性。讓計(jì)算機(jī)更好地理解教師意圖并根據(jù)學(xué)生數(shù)據(jù)信息來生成更加個(gè)性化和精準(zhǔn)化的評(píng)語文本,是評(píng)語生成的技術(shù)難題之一。文心一言等AIGC產(chǎn)品的面世為個(gè)性化教師評(píng)語的生成提供了新的解決方案。
文心一言是對(duì)大語言模型(Large Language Model,簡稱 LLM)訓(xùn)練的結(jié)果,因此,對(duì)文本具有更強(qiáng)的理解能力,在教師評(píng)語生成過程中表現(xiàn)出良好的潛力。相比較于傳統(tǒng)的聊天機(jī)器人,基于大規(guī)模語料庫訓(xùn)練的文心一言能夠結(jié)合少量的提示詞,實(shí)現(xiàn)個(gè)性化數(shù)字資源高效創(chuàng)建、對(duì)話式人機(jī)協(xié)同學(xué)習(xí)、素質(zhì)導(dǎo)向的教育評(píng)價(jià)[16]。基于文心一言的語言理解、對(duì)話交互、文本生成等方面的優(yōu)勢,文心一言在本研究中扮演教師評(píng)語內(nèi)容生產(chǎn)者的角色。
三、研究方法
(一)參與者與研究情境
本研究在湖北省W市某中學(xué)采用準(zhǔn)實(shí)驗(yàn)研究法開展了為期6周的教學(xué)實(shí)驗(yàn),在真實(shí)的初中數(shù)學(xué)課堂中檢驗(yàn)生成式教師評(píng)語的效果。本研究選擇的兩個(gè)班級(jí)的學(xué)生在學(xué)習(xí)成績和師資配備上基本一致,其中一個(gè)班級(jí)為實(shí)驗(yàn)班級(jí)(七年級(jí)18班),另一個(gè)班級(jí)為對(duì)照班級(jí)(七年級(jí)5班)。剔除無效被試后(無效被試為沒有填寫問卷或不認(rèn)真作答的學(xué)生),共有117名實(shí)驗(yàn)被試,其中,男生62人,女生55人,平均年齡12.9歲。
(二)教學(xué)干預(yù):生成式教師評(píng)語
生成式教師評(píng)語的建構(gòu)包括評(píng)語的數(shù)據(jù)生成和內(nèi)容生成兩個(gè)階段。整體的生成路徑如圖1所示。首先,教師采集學(xué)生的個(gè)人信息、試題信息以及作答情況等測評(píng)數(shù)據(jù),這些數(shù)據(jù)能夠反映學(xué)習(xí)者的學(xué)習(xí)過程和認(rèn)知狀態(tài)。其次,利用本文作者自主搭建的智能學(xué)習(xí)診斷實(shí)驗(yàn)平臺(tái)[17]對(duì)測評(píng)數(shù)據(jù)進(jìn)行信息挖掘與建模。
在數(shù)據(jù)生成階段,智能學(xué)習(xí)診斷平臺(tái)使用神經(jīng)認(rèn)知診斷模型(Neural-cognitive Diagnostics),該模型綜合考慮學(xué)生因素、題目因素以及它們之間的相互作用。智能學(xué)習(xí)診斷平臺(tái)通過分析學(xué)生的答題記錄,提取學(xué)生學(xué)習(xí)過程中的各類特征,診斷學(xué)生對(duì)知識(shí)點(diǎn)和六種初中數(shù)學(xué)核心素養(yǎng)(數(shù)學(xué)抽象、 邏輯推理、數(shù)學(xué)建模、直觀想象、數(shù)學(xué)運(yùn)算和數(shù)據(jù)分析)的掌握情況,從而得到學(xué)習(xí)者錯(cuò)題和知識(shí)點(diǎn)的對(duì)應(yīng)定位。具體的挖掘和分析過程如下:首先,用S= {s1,s2,…,sN}表示學(xué)生集合,E = {e1,e2,…,eM}表示試題集合,并以人工標(biāo)注的方式將試題所考察的知識(shí)點(diǎn)情況存入一個(gè)矩陣Q,Q∈{0,1}(M×K)。其次,對(duì)于每個(gè)學(xué)生,將其編碼成一個(gè)維度為學(xué)生總數(shù)N的學(xué)生one-hot向量xs,通過與一個(gè)可訓(xùn)練的學(xué)生知識(shí)掌握矩陣A進(jìn)行乘積,得到該學(xué)生的知識(shí)掌握嵌入向量hs,其中hs∈(0,1)(1,K);而對(duì)于每道試題,先將試題one-hot向量xe與Q相乘,得到每道題所對(duì)應(yīng)的知識(shí)相關(guān)度向量Qe,接著構(gòu)造可訓(xùn)練的矩陣B和D,以同樣的方式對(duì)試題知識(shí)點(diǎn)難度向量hdiff和試題區(qū)分度向量hdisc加以嵌入表征。得到學(xué)生和試題的向量表示后,構(gòu)建交互函數(shù)并通過多層神經(jīng)網(wǎng)絡(luò):
x= Qe?莓(hs-hdiff)×hdisc
f1? = ?準(zhǔn)(W1×xT+b1)
f2? = ?準(zhǔn)(W2×f1T+b2)
y =?準(zhǔn)(W3×f2T+b3)
其中,?準(zhǔn)是激活函數(shù),此處使用sigmoid函數(shù),訓(xùn)練以預(yù)測作答和實(shí)際作答結(jié)果的交叉熵作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),訓(xùn)練結(jié)束后hs即為學(xué)生對(duì)某個(gè)知識(shí)點(diǎn)的掌握情況診斷。最終,通過對(duì)測評(píng)數(shù)據(jù)的挖掘,本研究得到了學(xué)生的個(gè)人信息、知識(shí)點(diǎn)掌握情況、核心素養(yǎng)情況和錯(cuò)題定位等,這是教師與文心一言平臺(tái)進(jìn)行交互的數(shù)據(jù)基礎(chǔ)。
圖1? ?生成式教師評(píng)語的生成路徑
在內(nèi)容生成階段,教師根據(jù)智能診斷結(jié)果對(duì)文心一言進(jìn)行提問。教師與文心一言互動(dòng)的質(zhì)量取決于提問設(shè)計(jì),如何向其提問成為獲得有效反饋的關(guān)鍵[18]。本研究采用優(yōu)化提問設(shè)計(jì)原則[19],優(yōu)化提問指的是研究者在獲得“初始提問”的反饋信息后,基于初始提問進(jìn)行優(yōu)化后的提問。整體提示編寫框架參照White[20]提出的人物角色模式,具體提示編寫框架見表1。在教師的監(jiān)督和多輪對(duì)話迭代下,最終生成的教師評(píng)語如圖2所示。
圖2? ?生成式教師評(píng)語示例
(三)研究過程
本研究采用準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)來檢驗(yàn)生成式教師評(píng)語對(duì)學(xué)生數(shù)學(xué)學(xué)習(xí)成績、自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)的影響。整體研究過程如圖3所示。參與者在第一階段和第三階段分別進(jìn)行了自我調(diào)節(jié)學(xué)習(xí)、學(xué)習(xí)動(dòng)機(jī)的前后測。第二階段,實(shí)驗(yàn)組和對(duì)照組同步學(xué)習(xí)七年級(jí)數(shù)學(xué)第五章,并進(jìn)行了四次測試,以監(jiān)測成績變化。區(qū)別在于,對(duì)照組在每次測試后僅獲得含有排名和分?jǐn)?shù)變化情況的成績單,教師會(huì)對(duì)班級(jí)整體考試情況進(jìn)行口頭反饋,而實(shí)驗(yàn)組除此之外,還會(huì)收到個(gè)性化的生成式教師評(píng)語。
圖3? ?總體實(shí)驗(yàn)流程
(四)數(shù)據(jù)收集與分析
1. 數(shù)據(jù)收集
本研究收集了知識(shí)測驗(yàn)成績、問卷數(shù)據(jù)和訪談數(shù)據(jù)。知識(shí)測驗(yàn)試卷由10年以上授課經(jīng)驗(yàn)的教師開發(fā),評(píng)估學(xué)生對(duì)數(shù)學(xué)知識(shí)的理解,涵蓋選擇題、填空題和解答題等24個(gè)題目,總分100分。學(xué)習(xí)動(dòng)機(jī)問卷改編自McAuley[21]的IMI動(dòng)機(jī)量表,包括興趣、能力、價(jià)值和壓力四個(gè)維度的11個(gè)題項(xiàng)。自我調(diào)節(jié)學(xué)習(xí)問卷改編自Barnard[22],包括目標(biāo)設(shè)定、任務(wù)策略、時(shí)間管理、尋求幫助和自我評(píng)價(jià)等13個(gè)題項(xiàng)。問卷均以5分李克特量表來測量。共回收有效問卷117份,自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)問卷的Cronbach's α值分別為0.898和0.885,內(nèi)部一致性較高。此外,本研究還在實(shí)驗(yàn)組隨機(jī)選擇6名學(xué)生進(jìn)行半結(jié)構(gòu)化訪談,訪談圍繞生成式教師評(píng)語的使用感受以及對(duì)學(xué)生可能產(chǎn)生的影響等七個(gè)方面展開,通過諸如“你能簡要描述一下你對(duì)教師評(píng)語的使用感受嗎”“教師評(píng)語中哪些設(shè)計(jì)和點(diǎn)評(píng)給你留下了深刻印象”以及“階段測試后收到教師點(diǎn)評(píng),你的學(xué)習(xí)有發(fā)生什么變化嗎”等問題展開。每個(gè)人訪談時(shí)長為5~8分鐘,錄音后對(duì)訪談進(jìn)行部分轉(zhuǎn)錄,生成8131個(gè)中文單詞的文本內(nèi)容進(jìn)行定性分析。
2. 數(shù)據(jù)分析
在知識(shí)測驗(yàn)與問卷調(diào)查的定量數(shù)據(jù)分析中,本研究首先使用描述性統(tǒng)計(jì)分析來了解參與者的學(xué)習(xí)成績、自我調(diào)節(jié)學(xué)習(xí)能力以及學(xué)習(xí)動(dòng)機(jī)在均值上的差異。其次,在差異性分析方面,學(xué)習(xí)成績和問卷數(shù)據(jù)的K-S檢驗(yàn)結(jié)果均滿足正態(tài)分布(p>0.05)和方差齊性檢驗(yàn)。因此,本研究采用重復(fù)測量方差分析來分析知識(shí)測驗(yàn)數(shù)據(jù),采用配對(duì)樣本T檢驗(yàn)來探究學(xué)習(xí)者在前測和后測時(shí)自我調(diào)節(jié)學(xué)習(xí)能力和學(xué)習(xí)動(dòng)機(jī)的差異,采用獨(dú)立樣本T檢驗(yàn)來探究兩組學(xué)生在自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)的后測差異。本研究采用IBM SPSS 21進(jìn)行統(tǒng)計(jì)分析。
在訪談數(shù)據(jù)方面,改編自Chen等[23]的編碼方案,本研究從認(rèn)知、元認(rèn)知和情感三個(gè)方面對(duì)訪談?dòng)涗涍M(jìn)行定性分析。本研究遵循了Braun等[24]提出的主題分析程序,對(duì)文本內(nèi)容進(jìn)行了定位、識(shí)別和分類,以便進(jìn)一步分析和主題生成。最后識(shí)別出85個(gè)代碼,11個(gè)節(jié)點(diǎn),其中認(rèn)知反饋19個(gè)節(jié)點(diǎn)、元認(rèn)知反饋45個(gè)節(jié)點(diǎn)和情感反饋21個(gè)節(jié)點(diǎn)。編碼主要由本研究的第一、第二作者使用NVivo 12進(jìn)行分析,編碼過程中出現(xiàn)的任何有爭議的問題通過所有作者參加的每周會(huì)議解決。質(zhì)性數(shù)據(jù)的分析在本文中主要用來支持對(duì)量化結(jié)果的三角互證和解釋解讀。
四、研究結(jié)果
(一)前測數(shù)據(jù)分析
由于本研究是在真實(shí)課堂中的準(zhǔn)實(shí)驗(yàn)研究,為減少無關(guān)變量的影響,本研究采用獨(dú)立樣本T檢驗(yàn)分析對(duì)照組與實(shí)驗(yàn)組的數(shù)學(xué)學(xué)習(xí)成績、自我調(diào)節(jié)學(xué)習(xí)能力和學(xué)習(xí)動(dòng)機(jī)的前測是否存在差異。結(jié)果顯示,兩個(gè)組初始成績(測試1)(p=0.898≥0.05)、自我調(diào)節(jié)學(xué)習(xí)能力前測 (p=0.146≥0.05)和學(xué)習(xí)動(dòng)機(jī)前測 (p=0.056 ≥0.05)均無統(tǒng)計(jì)學(xué)差異。
(二)學(xué)習(xí)成績差異
學(xué)生整體學(xué)習(xí)成績變化如圖4所示。實(shí)驗(yàn)組在收到第一次和第二次生成式評(píng)語反饋后,學(xué)習(xí)成績有一定的提升且與對(duì)照組有顯著性的差異,但是實(shí)驗(yàn)組在收到第三次評(píng)語反饋后,學(xué)習(xí)成績呈現(xiàn)下降的趨勢,兩組在第四次測試成績上不存在顯著性差異。
圖4? ?實(shí)驗(yàn)組和對(duì)照組學(xué)習(xí)成績比較
為了進(jìn)一步探究學(xué)習(xí)者的成績變化與組別以及時(shí)間的關(guān)系,本研究采用重復(fù)測量方差分析評(píng)估實(shí)驗(yàn)組和對(duì)照組之間四次階段測試學(xué)習(xí)成績變化情況。經(jīng)Shapiro-Wilk檢驗(yàn),各組數(shù)據(jù)服從正態(tài)分布且符合球形檢驗(yàn)(p=0.144>0.05)。重復(fù)測量方差分析結(jié)果顯示,組別的主效應(yīng)不顯著(F=1.45,p=0.23, ηp2=0.012);測量次數(shù)的主效應(yīng)顯著(F=29.17,p<0.001,ηp2=0.202);測量次數(shù)與組別的交互效應(yīng)顯著(F=11.10,p<0.001, ηp2=0.088)。
(三)自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)差異
圖5? ?實(shí)驗(yàn)組和對(duì)照組自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)前后測比較
如圖5所示,對(duì)照組的自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)在前后測中沒有顯著性差異。實(shí)驗(yàn)組在收到三次生成式評(píng)語反饋后,實(shí)驗(yàn)組的自我調(diào)節(jié)學(xué)習(xí)能力均值提高0.23,標(biāo)準(zhǔn)差減少0.06,說明實(shí)驗(yàn)組在收到三次生成式教師評(píng)語后,自我調(diào)節(jié)學(xué)習(xí)能力顯著提高(p=0.014),整體數(shù)據(jù)更加集中。實(shí)驗(yàn)組的學(xué)習(xí)動(dòng)機(jī)均值提高0.55,標(biāo)準(zhǔn)差增加0.21,結(jié)果表明實(shí)驗(yàn)組學(xué)習(xí)動(dòng)機(jī)在實(shí)驗(yàn)期間得到了提高(p=0.000),但數(shù)據(jù)的波動(dòng)性更大。
對(duì)實(shí)驗(yàn)組和對(duì)照組的后測成績進(jìn)行獨(dú)立樣本T檢驗(yàn),結(jié)果見表2,實(shí)驗(yàn)組自我調(diào)節(jié)學(xué)習(xí)后測得分顯著高于對(duì)照組(MD=0.63, Cohen's d=1.08, p=0.000),證明生成式教師評(píng)語能顯著提升學(xué)生的自我調(diào)節(jié)學(xué)習(xí)能力。實(shí)驗(yàn)組學(xué)習(xí)動(dòng)機(jī)后測得分高于對(duì)照組(MD=0.43, Cohen's d=0.59, p=0.003),表明生成式教師評(píng)語同樣能顯著增強(qiáng)學(xué)生的學(xué)習(xí)動(dòng)機(jī)。
表2? 兩組后測的自我調(diào)節(jié)學(xué)習(xí)和學(xué)習(xí)動(dòng)機(jī)評(píng)估得分比較
五、研究討論
(一)對(duì)研究問題的討論
針對(duì)問題1,生成式教師評(píng)語的生成包括數(shù)據(jù)生成和內(nèi)容生成兩個(gè)階段,分別體現(xiàn)了個(gè)性化教師評(píng)語的數(shù)據(jù)性和社會(huì)交互性的原則。生成式教師評(píng)語可以通過測評(píng)數(shù)據(jù)采集、信息挖掘建模、診斷結(jié)果輸入和智能評(píng)語生成四個(gè)步驟生成。首先,隨著人工智能技術(shù)在教師評(píng)語中的應(yīng)用,教師評(píng)語的生成來源應(yīng)不僅僅局限于教師的主觀經(jīng)驗(yàn),而應(yīng)更多地反映學(xué)習(xí)者的學(xué)習(xí)過程和認(rèn)知狀態(tài),使他們對(duì)自己的學(xué)業(yè)成就水平有一個(gè)客觀的認(rèn)識(shí),實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)化形成性評(píng)價(jià)。另外,具有社會(huì)情感的交互是教師評(píng)語的重要評(píng)價(jià)指標(biāo)[25],本研究要充分利用文心一言等AIGC應(yīng)用在語義表達(dá)和語義理解上的優(yōu)勢,生成更便于學(xué)生理解并更能體現(xiàn)對(duì)學(xué)生發(fā)展性關(guān)注的評(píng)價(jià)。教師在整個(gè)評(píng)語過程中起到主導(dǎo)和監(jiān)督作用,通過多輪對(duì)話迭代,讓AIGC應(yīng)用成為教師的智力支持和工作助手[26],大幅減輕教師工作負(fù)擔(dān),助力精準(zhǔn)化、個(gè)性化形成性評(píng)價(jià)。
針對(duì)問題2,生成式教師評(píng)語對(duì)學(xué)習(xí)成績的整體效果影響是一個(gè)有趣的發(fā)現(xiàn)。研究結(jié)果表明,生成式評(píng)語對(duì)學(xué)習(xí)成績有一定的促進(jìn)作用,訪談數(shù)據(jù)編碼結(jié)果表明生成式教師評(píng)語中提供改進(jìn)線索或試題練習(xí)對(duì)于提升學(xué)習(xí)者學(xué)習(xí)成績至關(guān)重要。有受訪者表示,相比較于知識(shí)點(diǎn)掌握情況診斷,他們對(duì)評(píng)語中提供的題目練習(xí)更感興趣,練習(xí)題目的數(shù)量、質(zhì)量以及答案反饋也是影響生成式教師評(píng)語評(píng)價(jià)質(zhì)量的關(guān)鍵因素。這個(gè)發(fā)現(xiàn)和Hattie等[27]的觀點(diǎn)一致, 他對(duì)74項(xiàng)教師評(píng)語研究進(jìn)行元分析發(fā)現(xiàn),最有效的評(píng)語形式是那些提供改進(jìn)線索或強(qiáng)化策略給學(xué)習(xí)者的評(píng)語。在第一、二次評(píng)語反饋發(fā)放后,實(shí)驗(yàn)組的學(xué)習(xí)成績提高,但是第三次評(píng)語反饋并未對(duì)實(shí)驗(yàn)組的學(xué)習(xí)成績產(chǎn)生顯著的影響。一種可能的解釋是由于新奇效應(yīng),Huang[28]將新奇效應(yīng)定義為對(duì)用戶來說新的、不熟悉的、意想不到的體驗(yàn)。學(xué)生第一次和第二次收到生成式教師評(píng)語時(shí),相比較于以前收到的籠統(tǒng)的、模板化的點(diǎn)評(píng),生成式教師評(píng)語中含有學(xué)習(xí)者學(xué)習(xí)情況診斷、針對(duì)性錯(cuò)題練習(xí),這會(huì)引發(fā)學(xué)生的好奇心和感知可用性。然而,新奇效應(yīng)是短期的,隨著生成式教師評(píng)語發(fā)放次數(shù)的增加,這種新奇效應(yīng)會(huì)逐漸消失[29]。學(xué)生對(duì)評(píng)語內(nèi)容的學(xué)習(xí)不僅僅靠自身的興趣驅(qū)動(dòng),教師更要引導(dǎo)學(xué)生關(guān)注評(píng)語的內(nèi)容。
針對(duì)問題3,生成式教師評(píng)語發(fā)展了學(xué)習(xí)者的自我調(diào)節(jié)學(xué)習(xí)能力。生成式教師評(píng)語提供了學(xué)習(xí)者學(xué)習(xí)過程數(shù)據(jù),反映了學(xué)習(xí)者的認(rèn)知狀態(tài),使學(xué)生從被動(dòng)接受評(píng)價(jià)結(jié)果轉(zhuǎn)變?yōu)橹鲃?dòng)建構(gòu)自我評(píng)估,這是自我調(diào)節(jié)的關(guān)鍵環(huán)節(jié)[30]。教師評(píng)語的反饋涉及自我調(diào)節(jié)學(xué)習(xí)過程的三個(gè)階段的循環(huán),在計(jì)劃階段,教師評(píng)語會(huì)引導(dǎo)學(xué)生制訂學(xué)習(xí)計(jì)劃,受訪者提到,“我會(huì)根據(jù)老師的建議來計(jì)劃我下一步的學(xué)習(xí)方向,以前都沒注意到自己這個(gè)平行線的判定這個(gè)知識(shí)點(diǎn)掌握得不太好,我準(zhǔn)備在課后多刷一些類似的題”。在表現(xiàn)階段,學(xué)習(xí)者會(huì)用已有的知識(shí)經(jīng)驗(yàn)和動(dòng)機(jī)信念對(duì)評(píng)語內(nèi)容進(jìn)行解讀,評(píng)語會(huì)幫助學(xué)習(xí)者對(duì)以上的認(rèn)知參與過程進(jìn)行自我監(jiān)控,從而對(duì)學(xué)習(xí)進(jìn)行針對(duì)性的調(diào)整。在自我反思階段,學(xué)生會(huì)根據(jù)評(píng)語的內(nèi)容評(píng)估自己的學(xué)習(xí)狀況,并進(jìn)行反思,決定如何改變自己的行為,“評(píng)語讓我反思到自己在學(xué)習(xí)上面的不足,也能及時(shí)讓我知道自己的進(jìn)步和退步”。同時(shí),這也體現(xiàn)了技術(shù)賦能教育的深層目標(biāo),即通過新興信息技術(shù),提升學(xué)習(xí)者的自我調(diào)節(jié)學(xué)習(xí)能力,實(shí)現(xiàn)學(xué)習(xí)者自主性學(xué)習(xí)、個(gè)性化學(xué)習(xí)的現(xiàn)實(shí)需求。
針對(duì)問題4,生成式教師評(píng)語能有效促進(jìn)學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)。教師評(píng)語中的反饋內(nèi)容會(huì)提供與學(xué)生自己的考試結(jié)果相關(guān)的信息,從而吸引學(xué)生的注意。根據(jù)動(dòng)機(jī)設(shè)計(jì)的注意、關(guān)聯(lián)、信心和滿意度(ARCS)理論[31],注意和關(guān)聯(lián)是誘導(dǎo)和維持學(xué)習(xí)動(dòng)機(jī)的兩個(gè)基本設(shè)計(jì)特征。除此之外,生成式教師評(píng)語中含有很多鼓勵(lì)性的、表揚(yáng)性的話語,有學(xué)習(xí)者提到“以前從來沒有老師給我們發(fā)過這種,感覺很震撼,老師把你考得好的和考得不好的都寫出來了,還給了我很多鼓勵(lì),感覺很驚喜吧”。教師積極的評(píng)價(jià)語言,使被評(píng)價(jià)者感受到了教師的肯定與認(rèn)可,這種積極的情感反饋對(duì)學(xué)生學(xué)習(xí)體驗(yàn)和認(rèn)知建構(gòu)至關(guān)重要[32]。以AIGC為標(biāo)志的生成式人工智能正在快速滲透到教與學(xué)的研究與實(shí)踐中,人類教育所呼喚的個(gè)性化知識(shí)問答與人性化情感陪伴已成為現(xiàn)實(shí)。在數(shù)字技術(shù)賦能教育評(píng)價(jià)的過程中,教師需要在彰顯教育教學(xué)過程中技術(shù)固有優(yōu)勢的前提下,更好地發(fā)揮主導(dǎo)作用,通過多輪對(duì)話交互,激發(fā)技術(shù)的情感、動(dòng)機(jī)、態(tài)度、審美等育人屬性,提升師生交互的親密性和歸屬感,從而提升學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)。
(二)教學(xué)啟示
本研究結(jié)果對(duì)于生成式教師評(píng)語在教學(xué)實(shí)踐中的應(yīng)用有以下幾點(diǎn)啟示:
首先,本研究提供了一個(gè)生成式人工智能輔助教師教學(xué)的應(yīng)用實(shí)例,教師應(yīng)充分認(rèn)識(shí)到教師評(píng)語的重要價(jià)值并利用文心一言等AIGC的工具屬性來輔助教育評(píng)價(jià)的內(nèi)容產(chǎn)出,使教師由主觀經(jīng)驗(yàn)式教學(xué)轉(zhuǎn)向數(shù)智驅(qū)動(dòng)式教學(xué)。教師在日常教學(xué)過程中,可以更加關(guān)注學(xué)習(xí)者的學(xué)習(xí)過程和認(rèn)知狀態(tài),在評(píng)語中體現(xiàn)對(duì)學(xué)生發(fā)展性的關(guān)注,從而啟發(fā)學(xué)生去思考自己的學(xué)習(xí)表現(xiàn),更好地改進(jìn)自己的學(xué)習(xí)。其次,由于文心一言等AIGC平臺(tái)是基于對(duì)提示詞及邏輯關(guān)系的匹配來生成答案,具有不理解語義和真實(shí)世界的技術(shù)局限,同時(shí)也存在輸出信息不實(shí)、隱私和安全等問題,因此,教師提示詞的編寫和提問方式非常重要,建議教師在對(duì)文心一言進(jìn)行提問時(shí),編寫清晰而具體的指令,同時(shí)給模型思考的時(shí)間,不斷調(diào)整提示來訓(xùn)練模型,充分發(fā)揮教師的監(jiān)督作用,以求達(dá)到更優(yōu)的生成效果。最后,生成式教師評(píng)語的使用對(duì)象是學(xué)生,因此,教師需要合理地引導(dǎo)學(xué)生來使用生成式評(píng)語,帶領(lǐng)學(xué)生認(rèn)真閱讀評(píng)語的內(nèi)容,并且及時(shí)講解評(píng)語中的個(gè)性化練習(xí)題目,實(shí)現(xiàn)迅速且高效的學(xué)習(xí)反饋。學(xué)生可以利用評(píng)語中的知識(shí)點(diǎn)和核心素養(yǎng)能力診斷情況來改進(jìn)和調(diào)整自己的學(xué)習(xí)。
(三)研究局限性和未來展望
在未來,本研究的三個(gè)主要局限性應(yīng)予以解決。首先,在研究設(shè)計(jì)上,目前評(píng)語數(shù)據(jù)生成的第一階段仍然需要教師對(duì)試題信息、作答數(shù)據(jù)進(jìn)行標(biāo)注,這是一個(gè)相當(dāng)煩瑣的過程,希望后期能有更好的自動(dòng)化采集學(xué)習(xí)者測評(píng)數(shù)據(jù)的方法。而且目前生成式評(píng)語的文本生成還是需要教師對(duì)文心一言等AIGC平臺(tái)進(jìn)行提問,后期建議實(shí)現(xiàn)評(píng)語生成的集成自動(dòng)化,減少教師的工作量。其次,在生成式教師評(píng)語對(duì)成績的影響上,本研究是針對(duì)初中數(shù)學(xué)課堂的為期六周的干預(yù)研究。本研究發(fā)現(xiàn)個(gè)性化教師評(píng)語未能持續(xù)有效地提升學(xué)習(xí)者的學(xué)習(xí)成績。因此,在后續(xù)的設(shè)計(jì)中,應(yīng)該考慮研究延長實(shí)驗(yàn)周期,增加教師評(píng)語反饋次數(shù),以觀察教師評(píng)語對(duì)學(xué)習(xí)成績的影響。后續(xù)的研究還可以深入探究對(duì)成績的影響效果在學(xué)段、班級(jí)規(guī)模、學(xué)科等調(diào)節(jié)變量上的差異。最后,對(duì)于學(xué)習(xí)者學(xué)習(xí)動(dòng)機(jī)和自我調(diào)節(jié)能力的測量,本研究僅采用問卷的方式來獲得學(xué)習(xí)者的相關(guān)數(shù)據(jù),問卷測量固有的局限性可能會(huì)損害統(tǒng)計(jì)結(jié)果的可信度。因此,建議未來的研究可以使用不同的研究工具收集學(xué)習(xí)者多模態(tài)學(xué)習(xí)數(shù)據(jù),從而更加準(zhǔn)確地測量學(xué)習(xí)者的學(xué)習(xí)動(dòng)機(jī)和自我調(diào)節(jié)學(xué)習(xí)能力。
六、結(jié)? ?語
本研究為文心一言等AIGC在教育教學(xué)中的實(shí)踐應(yīng)用提供了實(shí)證證據(jù),將人工智能技術(shù)和教師評(píng)語有機(jī)整合,創(chuàng)設(shè)了一種新型的數(shù)據(jù)驅(qū)動(dòng)的、具有社會(huì)交互性的教師評(píng)語生成模式,構(gòu)建了一種基于證據(jù)取向的評(píng)價(jià)模式。該評(píng)語生成模式兼具數(shù)據(jù)性和社會(huì)性的兩大特點(diǎn),實(shí)現(xiàn)了人工智能技術(shù)賦能精準(zhǔn)化、個(gè)性化的教育評(píng)價(jià)。研究結(jié)果表明,利用人工智能技術(shù)得到的個(gè)性化教師評(píng)語能夠在初中數(shù)學(xué)課堂中有效地進(jìn)行評(píng)估和反饋,并提高學(xué)習(xí)者的數(shù)學(xué)學(xué)習(xí)動(dòng)機(jī)和自我調(diào)節(jié)學(xué)習(xí)能力。
人工智能技術(shù)的賦能為智慧教育實(shí)踐提供了強(qiáng)大支撐,當(dāng)人工智能越來越多地參與到教育中,教師作為教育活動(dòng)的主導(dǎo)者和技術(shù)賦能教育高質(zhì)量發(fā)展的關(guān)鍵變量[33],應(yīng)該在個(gè)性化學(xué)習(xí)、教師負(fù)擔(dān)、教師自身成長等方面抓住生成式人工智能帶來的機(jī)遇,在學(xué)習(xí)目的、教學(xué)過程和設(shè)計(jì)、評(píng)價(jià)方式等方面積極應(yīng)對(duì)生成式人工智能帶來的挑戰(zhàn)[34],推動(dòng)教學(xué)模式從“師—生”二元結(jié)構(gòu)轉(zhuǎn)變?yōu)椤皫煛獧C(jī)—生”三元結(jié)構(gòu),在優(yōu)化教學(xué)服務(wù)供給與學(xué)習(xí)需求匹配度、促進(jìn)“師—機(jī)—生”協(xié)同與合作等方面提供支持,不斷適應(yīng)雙腦協(xié)同、智力共生的學(xué)習(xí)評(píng)價(jià)新思維。
[參考文獻(xiàn)]
[1] 吳砥,郭慶,吳龍凱,等.智能技術(shù)賦能教育評(píng)價(jià)改革[J].開放教育研究,2023,29(4):4-10.
[2] ZHAO W X, ZHOU K, LI J, et al. A survey of large language models[EB/OL]. arXiv preprint, (2023-11-24)[2024-04-29]. https://doi.org/10.48550/arXiv.2303.18223.
[3] 劉邦奇,聶小林,王士進(jìn),等.生成式人工智能與未來教育形態(tài)重塑:技術(shù)框架、能力特征及應(yīng)用趨勢[J].電化教育研究,2024,45(1):13-20.
[4] 郁曉華,戰(zhàn)曉瑜.教師評(píng)語知多少?——探析文本后面的情感價(jià)值[J].電化教育研究,2022,43(7):97-105.
[5] 中共中央國務(wù)院.深化新時(shí)代教育評(píng)價(jià)改革總體方案[EB/OL].(2020-10-13)[2024-04-29]. https://www.gov.cn/zhengce/2020-10/13/content_5551032.htm.
[6] 劉明,吳忠明,廖劍,等.大語言模型的教育應(yīng)用:原理、現(xiàn)狀與挑戰(zhàn)——從輕量級(jí)BERT到對(duì)話式ChatGPT[J].現(xiàn)代教育技術(shù),2023,33(8):19-28.
[7] 彭紹東.AIGC時(shí)代基于雙向賦能的人工智能教育創(chuàng)新框架[J].教育文化論壇,2023,15(4):12-26.
[8] 楊宗凱,王俊,吳砥,等.ChatGPT/生成式人工智能對(duì)教育的影響探析及應(yīng)對(duì)策略[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2023,41(7):26-35.
[9] 孫丹,朱城聰,許作棟,等.基于生成式人工智能的大學(xué)生編程學(xué)習(xí)行為分析研究[J].電化教育研究,2024,45(3):113-120.
[10] LYU Q, TAN J, ZAPADKA M E, et al. Translating radiology reports into plain language using ChatGPT and GPT-4 with prompt learning: results, limitations, and potential[J]. Visual computing for industry, biomedicine, and art, 2023,6(1):1-9.
[11] 徐康,蔣凌云,黃海平,等.基于ChatGPT的留學(xué)生編譯原理課程實(shí)踐方法[J].軟件導(dǎo)刊,2023,22(9):227-231.
[12] RAMAZAN Y, GIZEM F Y K. Augmented intelligence in programming learning: examining student views on the use of ChatGPT for programming learning[J]. Computers in human behavior: artificial humans,2023,1(2):100005.
[13] MATSUMURA L C, PATTHEY-CHAVEZ G G, VALD?魪S R, et al. Teacher feedback, writing assignment quality, and third-grade students' revision in lower-and higher-achieving urban schools[J]. The elementary school journal, 2002,103(1):3-25.
[14] 李寧.基于數(shù)據(jù)挖掘的自動(dòng)評(píng)語生成方法的研究[D].天津:天津財(cái)經(jīng)大學(xué),2012.
[15] LEIGHTON J P, GIERL M J. Defining and evaluating models of cognition used in educational measurement to make inferences about examinees' thinking processes[J]. Educational measurement: issues and practice, 2007,26(2):3-16.
[16] 盧宇,余京蕾,陳鵬鶴,等.生成式人工智能的教育應(yīng)用與展望——以ChatGPT系統(tǒng)為例[J].中國遠(yuǎn)程教育,2023,43(4):24-31.
[17] MA L, ZHANG X, WANG Z, et al. Designing effective instructional feedback using a diagnostic and visualization system: evidence from a high school biology class[J]. Systems, 2023,11:364-377.
[18] LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. ACM computing surveys, 2023,55(9):1-35.
[19] 王麗,李艷,陳新亞,等.ChatGPT支持的學(xué)生論證內(nèi)容評(píng)價(jià)與反饋——基于兩種提問設(shè)計(jì)的實(shí)證比較[J].現(xiàn)代遠(yuǎn)程教育研究,2023,35(4):83-91.
[20] WHITE J, FU Q, HAYS S, et al. A prompt pattern catalog to enhance prompt engineering with chatGPT[EB/OL]. arXiv preprint, (2023-2-21)[2024-04-29]. https://doi.org/10.48550/arXiv.2302.11382
[21] MCAULEY E, DUNCAN T, TAMMEN V. Psychometric properties of the intrinsic motivation inventory in a competitive sport setting: a confirmatory factor analysis[J]. Research quarterly for exercise and sport, 1987,60:48-58.
[22] BARNARD L, PATON V, LAN W. Online self-regulatory learning behaviors as a mediator in the relationship between online course perceptions with achievement[J]. International review of research in open and distance learning,2008,9(2):1-11.
[23] CHENG K H, LIANG J C, TSAI C C. Examining the role of feedback messages in undergraduate students' writing performance during an online peer assessment activity[J]. The internet and higher education, 2015,25:78-84.
[24] BRAUN V, CLARKE V. Using thematic analysis in psychology[J]. Qualitative research in psychology, 2006,3(2):77-101.
[25] 陳惠英.個(gè)性化評(píng)語的作用及撰寫方法——以北京市普通高中學(xué)生綜合素質(zhì)評(píng)價(jià)中的教師評(píng)語為例[J].教育測量與評(píng)價(jià)(理論版),2011(10):32-35.
[26] 沈書生,祝智庭.ChatGPT類產(chǎn)品:內(nèi)在機(jī)制及其對(duì)學(xué)習(xí)評(píng)價(jià)的影響[J].中國遠(yuǎn)程教育,2023,43(4):8-15.
[27] HATTIE J, TIMPERLEY H. The power of feedback[J]. Review of educational research, 2007,77(1):81-112.
[28] HUANG M H. Designing website attributes to induce experiential encounters[J]. Computers in human behavior, 2003,19(4):425-442.
[29] SHIN G, FENG Y, JARRAHI M H, et al. Beyond novelty effect: a mixed-methods exploration into the motivation for long-term activity tracker use[J]. JAMIA open, 2019, 2(1):62-72.
[30] ZIMMERMAN B J, SCHUNK D H. Self-regulated Learning and performance: an introduction and an overview. Handbook of self-regulation of learning and performance [C]. New York: Routledge, 2011:1-12.
[31] LI K, KELLER J M. Use of the ARCS model in education: a literature review[J]. Computers & education, 2018,122:54-62.
[32] DUIJNHOUWER H. Feedback effects on students' writing motivation, process, and performance[M].? Utrecht: Utrecht University,2010.
[33] 田小紅,季益龍,周躍良.教師能力結(jié)構(gòu)再造:教育數(shù)字化轉(zhuǎn)型的關(guān)鍵支撐[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2023,41(3):91-100.
[34] 宋萑,林敏.ChatGPT/生成式人工智能時(shí)代下教師的工作變革:機(jī)遇、挑戰(zhàn)與應(yīng)對(duì)[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2023,41(7):78-90.
Generative AI-supported Teacher Comments: An Empirical Study Based on
Junior High School Mathematics Classrooms
LUO Heng,? LIAO Xiaofang,? RU Qiqi,? WANG Zhifeng
(Faculty of Artificial Intelligence in Education, Central China Normal University,
Wuhan Hubei 430070)
[Abstract] Teacher comments are an important source of data for formative assessment. However, the quality of existing teacher comments has certain deficiencies in terms of sociality, objectivity and personalization, and generative AI-supported teacher comments provide the possibility of solving these problems. Since intelligent diagnostic data obtained by teachers through cognitive diagnostic technology interacts with the generative AI platform, the generative AI platform can simulate teachers' social language and generate data-driven personalized teacher comments. An empirical study in a junior high school mathematics classrooms finds that generative teacher comments effectively improve students' self-regulated learning ability (Cohen's d=1.08, p=0.000) and learning motivation (Cohen's d=0.59, p=0.003).? Through in-depth interviews with students, the results suggest that generative comments can be used as a summative and reflective tool for exams, reflecting the teacher's personalized attention and encouragement to students. The results provide research ideas for AI technology to facilitate personalized and precise teaching and learning, and provide recommendations for continuous evaluation and improvement of the use of generative AI technology in educational settings.
[Keywords] Generative Artificial Intelligence; Teacher Comments; Intelligent Assessment; Personalized Teaching; Junior High School Mathematics