王麗 李艷 陳新亞 徐翎衲
摘要:在論證式教學(xué)中,由于學(xué)生生成的論證內(nèi)容量大且復(fù)雜,教師評(píng)價(jià)與反饋往往滯后且難以保證質(zhì)量。生成式人工智能聊天工具ChatGPT的出現(xiàn)為解決該問(wèn)題提供了可能。與ChatGPT互動(dòng)的質(zhì)量取決于提問(wèn)設(shè)計(jì),如何向其提問(wèn)成為獲得有效反饋的關(guān)鍵?;凇俺跏继釂?wèn)”和“優(yōu)化提問(wèn)”兩種提問(wèn)設(shè)計(jì),利用ChatGPT對(duì)50份學(xué)生論證內(nèi)容進(jìn)行評(píng)價(jià)與反饋,從反饋精準(zhǔn)度和反饋類型兩方面對(duì)其效果展開(kāi)實(shí)證比較發(fā)現(xiàn):“優(yōu)化提問(wèn)”下ChatGPT的反饋精準(zhǔn)度(含精確度和召回率)高于“初始提問(wèn)”,但在兩種提問(wèn)設(shè)計(jì)下的反饋召回率均低于精確度,且在量化評(píng)價(jià)維度上的精準(zhǔn)度表現(xiàn)優(yōu)于質(zhì)性評(píng)價(jià)維度;基于兩種提問(wèn)設(shè)計(jì),ChatGPT均能針對(duì)論證內(nèi)容生成任務(wù)型反饋、過(guò)程型反饋、建議型反饋和情感型反饋,但相較于“初始提問(wèn)”,其基于“優(yōu)化提問(wèn)”所生成的反饋更具組織性、解釋性和針對(duì)性,而兩種提問(wèn)設(shè)計(jì)下的情感型反饋均表現(xiàn)出“就事論事”“中庸”的特點(diǎn)。為有效發(fā)揮ChatGPT在教學(xué)評(píng)價(jià)與反饋中的潛能,教師需做好提問(wèn)設(shè)計(jì),發(fā)揮其在情感反饋上的優(yōu)勢(shì),并對(duì)機(jī)器反饋進(jìn)行把關(guān),同時(shí)注重培育學(xué)生的反饋素養(yǎng)。
關(guān)鍵詞:ChatGPT;教學(xué)評(píng)價(jià);教學(xué)反饋;論證式教學(xué);提問(wèn)設(shè)計(jì)
中圖分類號(hào):G434? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):1009-5195(2023)04-0083-09? doi10.3969/j.issn.1009-5195.2023.04.010
一、引言
由OpenAI推出的生成式人工智能(Artificial Intelligence Generated Content,AIGC)聊天工具ChatGPT,自發(fā)布以來(lái)引發(fā)了教育界的持續(xù)熱議。作為一種基于大規(guī)模語(yǔ)言模型的智能對(duì)話系統(tǒng),ChatGPT采用提示學(xué)習(xí)與人類反饋相結(jié)合的訓(xùn)練方式,能夠根據(jù)提問(wèn)提供多輪次、流暢、自然的回答。這種基于自然語(yǔ)言的對(duì)話能力使其在教學(xué)評(píng)價(jià)與反饋中具備良好的應(yīng)用潛力,能夠?qū)ξ谋绢愋偷膶W(xué)生作業(yè)進(jìn)行評(píng)分和反饋,從而在減輕教師教學(xué)負(fù)擔(dān)的同時(shí),為學(xué)生提供更加個(gè)性化和便捷的學(xué)習(xí)體驗(yàn)(Guo et al.,2023;王佑鎂等,2023;鐘秉林等,2023)??梢灶A(yù)見(jiàn),ChatGPT基于用戶提問(wèn)進(jìn)行個(gè)性化知識(shí)生產(chǎn)的能力(沈書生等,2023),有可能顛覆以往“搜索就是學(xué)習(xí)”的模式,將古老的對(duì)話式學(xué)習(xí)重新帶回當(dāng)下的教育生態(tài)之中,而學(xué)生與ChatGPT對(duì)話溝通的能力將直接影響其學(xué)習(xí)效果與質(zhì)量(焦建利,2023)。這也意味著如何向ChatGPT提問(wèn)變得尤為重要——只有好的提問(wèn)設(shè)計(jì),才能激發(fā)ChatGPT生成質(zhì)量較好的回答(Liu et al.,2023)。因此,有學(xué)者開(kāi)始探索如何針對(duì)ChatGPT進(jìn)行提問(wèn)設(shè)計(jì),并指出提問(wèn)應(yīng)結(jié)合領(lǐng)域知識(shí),相較于一般性的提問(wèn),具體、明確的提問(wèn)更能激發(fā)ChatGPT生成高質(zhì)量的回答(White et al.,2023)。
論證式教學(xué)是指教師將論證活動(dòng)引入課堂,讓學(xué)生經(jīng)歷類似科學(xué)家的評(píng)價(jià)資料、提出主張、為主張進(jìn)行辯駁等過(guò)程,從而培養(yǎng)學(xué)生的科學(xué)思維方式(何嘉媛等,2012)。論證式教學(xué)有助于學(xué)生進(jìn)行知識(shí)建構(gòu)、培養(yǎng)學(xué)生的論證能力和批判性思維能力(彭正梅等,2020)。然而,在傳統(tǒng)的論證式教學(xué)評(píng)價(jià)中,由于學(xué)生在論證過(guò)程中生成的論證內(nèi)容量大且復(fù)雜,教師需耗費(fèi)大量時(shí)間甄別和梳理出論證內(nèi)容中的評(píng)價(jià)要點(diǎn),受到時(shí)間、精力、個(gè)人經(jīng)驗(yàn)的限制,評(píng)價(jià)與反饋往往滯后且難以保證質(zhì)量,容易出現(xiàn)評(píng)價(jià)要點(diǎn)遺漏以及反饋單一、片面、過(guò)于主觀等問(wèn)題。
鑒于此,本研究嘗試使用ChatGPT對(duì)論證式教學(xué)中的學(xué)生論證內(nèi)容進(jìn)行評(píng)價(jià)和反饋??紤]到提問(wèn)設(shè)計(jì)對(duì)ChatGPT反饋質(zhì)量的影響,本研究借鑒前人文獻(xiàn)中的提問(wèn)設(shè)計(jì)原則,結(jié)合論證式教學(xué)評(píng)價(jià)的現(xiàn)實(shí)經(jīng)驗(yàn),嘗試設(shè)計(jì)兩種提問(wèn)(“初始提問(wèn)”和“優(yōu)化提問(wèn)”),比較ChatGPT在不同提問(wèn)設(shè)計(jì)下對(duì)論證內(nèi)容的評(píng)價(jià)與反饋存在何種差異,由此探索其在教學(xué)評(píng)價(jià)中的應(yīng)用潛能,為AIGC技術(shù)和工具融入未來(lái)教育教學(xué)提供思路和參考。
二、文獻(xiàn)綜述
1.論證內(nèi)容評(píng)價(jià)研究
所謂“論證”,是一種溝通和互動(dòng)的活動(dòng),即論證者通過(guò)提供證據(jù)來(lái)證明其主張成立的過(guò)程,目的是消除受眾之間的意見(jiàn)分歧(Van Eemeren et al.,1987)。圖爾敏論證模型為論證內(nèi)容的評(píng)價(jià)提供了基本依據(jù)。該模型由六要素構(gòu)成,分別是:主張、論據(jù)、理?yè)?jù)、支持、限定和反駁(Toulmin,1958)。一般認(rèn)為論證結(jié)構(gòu)中包含的要素越多,內(nèi)容越復(fù)雜,論證的質(zhì)量越好(Bell et al.,2000)。然而,有學(xué)者指出,利用圖爾敏論證模型評(píng)價(jià)論證內(nèi)容時(shí),難以明確地區(qū)分以上六要素,尤其是界限較為模糊的論據(jù)、理?yè)?jù)、支持三要素(Voss et al.,2001);另外,圖爾敏論證模型更關(guān)注論證的結(jié)構(gòu)而非論證的具體內(nèi)容,且沒(méi)有考慮特定人群和場(chǎng)景(Erduran et al.,2004)。
針對(duì)教育場(chǎng)景,已有研究將圖爾敏論證模型中的要素進(jìn)行優(yōu)化,提出了不同形式的論證內(nèi)容評(píng)價(jià)標(biāo)準(zhǔn)。庫(kù)恩(Kuhn,1991)認(rèn)為完整的論證結(jié)構(gòu)應(yīng)該包括三個(gè)部分:主張的陳述,指對(duì)某事所持的觀點(diǎn)或態(tài)度;可靠的證據(jù),用以支持主張的相關(guān)證據(jù);推理的過(guò)程,用以解釋主張與證據(jù)之間的因果關(guān)系。庫(kù)恩等(Kuhn et al.,1997)認(rèn)為評(píng)價(jià)論證內(nèi)容的質(zhì)量應(yīng)從論證的功能性出發(fā),功能性較好的論證能夠?qū)δ呈伦龀雒鞔_的判斷,并給出可靠的證據(jù)和合理的解釋,功能性較弱的論證則反之。庫(kù)恩(Kuhn,2010)還特別關(guān)注論證過(guò)程中的反駁,認(rèn)為反駁是評(píng)估論證內(nèi)容質(zhì)量的重要指標(biāo)??死说龋–lark et al.,2008)同樣強(qiáng)調(diào)反駁的重要性,但更強(qiáng)調(diào)解釋或推理的充分性以及證據(jù)的充分性,認(rèn)為高水平的論證內(nèi)容應(yīng)該包含充分的解釋以及合理的證據(jù)。薩德勒等(Sadler et al.,2006)認(rèn)為評(píng)價(jià)學(xué)生的論證內(nèi)容需關(guān)注主張的合法性,為此,應(yīng)通過(guò)提供足夠的證據(jù)以及合理的解釋使主張更具說(shuō)服力。
此外,一些學(xué)者關(guān)注論證內(nèi)容的完整性,依據(jù)論證內(nèi)容所包含的觀點(diǎn)、證據(jù)、反駁的次數(shù)對(duì)論證內(nèi)容做出評(píng)價(jià)。澤德勒等(Zeidler et al.,2003)將論證內(nèi)容的質(zhì)量由低到高分為5個(gè)等級(jí):第1級(jí)只包含觀點(diǎn);第2級(jí)由觀點(diǎn)和至少一個(gè)證據(jù)組成;第3級(jí)由觀點(diǎn)、至少一個(gè)證據(jù)和反駁組成;第4級(jí)由觀點(diǎn)、多個(gè)證據(jù)和至少一個(gè)反駁組成;第5級(jí)由觀點(diǎn)、多個(gè)證據(jù)和多個(gè)反駁組成。林樹(shù)生(Lin,2014)讓學(xué)生總結(jié)新聞?dòng)^點(diǎn)并寫出反駁理由,在對(duì)學(xué)生論證內(nèi)容進(jìn)行評(píng)分時(shí),強(qiáng)調(diào)反駁次數(shù)越多則論證內(nèi)容越清晰,因此加入了對(duì)反駁次數(shù)的計(jì)分。
通過(guò)以上文獻(xiàn)梳理發(fā)現(xiàn),現(xiàn)有對(duì)論證內(nèi)容的評(píng)價(jià)存在質(zhì)性評(píng)價(jià)與量化評(píng)價(jià)兩種形式:質(zhì)性評(píng)價(jià)強(qiáng)調(diào)論證內(nèi)容的合理性,從解釋充分性與證據(jù)充分性等方面進(jìn)行評(píng)價(jià);量化評(píng)價(jià)關(guān)注論證內(nèi)容的完整性,依據(jù)論證內(nèi)容中所包含的觀點(diǎn)、證據(jù)、反駁的數(shù)量進(jìn)行評(píng)價(jià)。
2.教學(xué)反饋有效性研究
教學(xué)反饋是指針對(duì)學(xué)習(xí)者的行為或表現(xiàn)提供的信息,使學(xué)習(xí)者能夠了解當(dāng)前學(xué)習(xí)狀態(tài),改進(jìn)學(xué)習(xí)進(jìn)程,縮小與學(xué)習(xí)目標(biāo)之間的差距(Sadler,1989)。已有研究將教學(xué)反饋分為不同的類型,來(lái)探究其效果。利薩科夫斯基等(Lysakowski et al.,1982)通過(guò)對(duì)54個(gè)研究進(jìn)行元分析,發(fā)現(xiàn)糾正性反饋是一種非常有效的反饋類型,它能夠根據(jù)任務(wù)完成情況或?qū)W生行為表現(xiàn),指出學(xué)生在特定任務(wù)中哪里做得對(duì),哪里做錯(cuò)了,以便學(xué)生能夠修正錯(cuò)誤,提高學(xué)習(xí)效果。哈蒂等(Hattie et al.,2007)通過(guò)元分析發(fā)現(xiàn),有效的教學(xué)反饋往往與任務(wù)目標(biāo)相關(guān),并基于此提出了有效的教學(xué)反饋應(yīng)該回答的三個(gè)基本問(wèn)題:一是“任務(wù)的目標(biāo)是什么”,即幫助學(xué)生明確學(xué)習(xí)目標(biāo)與評(píng)價(jià)標(biāo)準(zhǔn);二是“目前進(jìn)展如何”,即幫助學(xué)生了解執(zhí)行學(xué)習(xí)任務(wù)過(guò)程中的行為表現(xiàn)和任務(wù)進(jìn)展情況,及時(shí)發(fā)現(xiàn)問(wèn)題并改進(jìn);三是“接下來(lái)該怎么做”,即為學(xué)生提供具體的指導(dǎo)與建議,支持其發(fā)展自我調(diào)節(jié)能力,以完成更高的學(xué)習(xí)目標(biāo)。同時(shí),哈蒂等強(qiáng)調(diào)自我調(diào)節(jié)型反饋是一種有效的反饋類型,能夠?yàn)閷W(xué)生提供學(xué)習(xí)策略、認(rèn)知層面更高的目標(biāo)與建議(Hattie et al.,2007)。此外,情感反饋因其能夠促進(jìn)學(xué)生的學(xué)業(yè)表現(xiàn)和學(xué)習(xí)動(dòng)機(jī),也被認(rèn)為是一種有效的反饋類型(Nelson et al.,2009)。情感反饋可分為表?yè)P(yáng)性反饋和批評(píng)性反饋:表?yè)P(yáng)性反饋有助于促進(jìn)學(xué)業(yè)表現(xiàn)、提高學(xué)習(xí)動(dòng)機(jī)、增強(qiáng)自信心和消除學(xué)業(yè)焦慮(Duijnhouwer,2010);批評(píng)性反饋則能夠幫助學(xué)習(xí)者反思當(dāng)前的學(xué)習(xí)表現(xiàn)并制定更高的學(xué)習(xí)目標(biāo),特別是當(dāng)學(xué)習(xí)者面對(duì)并不熱衷的學(xué)習(xí)任務(wù)時(shí),批評(píng)性反饋更有助于其獲得學(xué)習(xí)動(dòng)力(Van-Dijk et al.,2000)。
隨著在線教育的推廣與普及,在線學(xué)習(xí)環(huán)境下的機(jī)器反饋質(zhì)量及其評(píng)估日益受到關(guān)注。精準(zhǔn)度是評(píng)估機(jī)器反饋質(zhì)量的重要標(biāo)準(zhǔn),具體包括精確度和召回率。兩者均以人工標(biāo)注為“金標(biāo)準(zhǔn)”,精確度是指系統(tǒng)正確識(shí)別出的人工標(biāo)注項(xiàng)數(shù)除以系統(tǒng)識(shí)別出的總項(xiàng)數(shù),召回率是指系統(tǒng)正確識(shí)別出的人工標(biāo)注項(xiàng)數(shù)除以人工標(biāo)注的總項(xiàng)數(shù)(Hoang et al.,2016)。精確度和召回率越高,則表明機(jī)器反饋的質(zhì)量越好。通常情況下,精確度達(dá)到90%~100%被認(rèn)為是可接受的閾值范圍;相對(duì)于不能識(shí)別出更多的人工標(biāo)注,錯(cuò)誤的反饋可能對(duì)學(xué)生產(chǎn)生更大的負(fù)面影響,因此精確度比召回率更受重視(Chodorow et al.,2010)。
三、研究目的與問(wèn)題
學(xué)界普遍認(rèn)為,與ChatGPT互動(dòng)的質(zhì)量取決于提問(wèn)設(shè)計(jì),即好的提問(wèn)設(shè)計(jì)會(huì)激發(fā)ChatGPT生成質(zhì)量較好的回答。因此,本研究嘗試通過(guò)“初始提問(wèn)”和“優(yōu)化提問(wèn)”兩種提問(wèn)設(shè)計(jì),從精準(zhǔn)度和反饋類型兩個(gè)層面來(lái)分析ChatGPT對(duì)大學(xué)生論證內(nèi)容評(píng)價(jià)與反饋的效果和質(zhì)量差異?!俺跏继釂?wèn)”指的是研究者參考論證內(nèi)容評(píng)價(jià)標(biāo)準(zhǔn),同時(shí)基于自身多年的教學(xué)經(jīng)驗(yàn)進(jìn)行的首次提問(wèn);“優(yōu)化提問(wèn)”指的是研究者在獲得“初始提問(wèn)”的反饋信息后,基于初始提問(wèn)進(jìn)行優(yōu)化后的提問(wèn)。研究通過(guò)對(duì)以上兩種提問(wèn)設(shè)計(jì)下ChatGPT產(chǎn)生評(píng)價(jià)和反饋內(nèi)容的比較,來(lái)探究不同的提問(wèn)設(shè)計(jì)下ChatGPT對(duì)學(xué)生論證內(nèi)容的評(píng)價(jià)與反饋效果有何差異,具體問(wèn)題包括:(1)基于“初始提問(wèn)”與“優(yōu)化提問(wèn)”,ChatGPT對(duì)學(xué)生論證內(nèi)容的反饋精準(zhǔn)度有何差異?(2)基于“初始提問(wèn)”與“優(yōu)化提問(wèn)”,ChatGPT對(duì)學(xué)生論證內(nèi)容會(huì)產(chǎn)生哪些類型的反饋?這些反饋類型各自有什么特點(diǎn)?
四、研究設(shè)計(jì)
1.研究對(duì)象
本研究以Z校42名大二本科生在“浙大語(yǔ)雀”平臺(tái)上完成的50份論證內(nèi)容為評(píng)價(jià)樣本。所有學(xué)生以自由組合的方式分為10個(gè)4~5人的論證小組,每?jī)山M(分為正反方)在“浙大語(yǔ)雀”的辯論區(qū)進(jìn)行論證,歷時(shí)8周。期間,由A教師引導(dǎo)學(xué)生選定論題,并制定學(xué)習(xí)目標(biāo)。學(xué)生圍繞表1所示的8個(gè)論題進(jìn)行論證,共產(chǎn)生50份論證內(nèi)容,共計(jì)約8.4萬(wàn)字,其中,短篇論證內(nèi)容(800~1300字)13份,中篇論證內(nèi)容(1300~1800字)16份,長(zhǎng)篇論證內(nèi)容(1800~2300字)21份。論題及分布情況如表1所示。
2.提問(wèn)設(shè)計(jì)
研究者采取以下四個(gè)步驟進(jìn)行提問(wèn)設(shè)計(jì):(1)參考澤德勒等人(Zeidler et al.,2003)和庫(kù)恩等人(Kuhn et al.,1997)的評(píng)價(jià)標(biāo)準(zhǔn),分別從量化評(píng)價(jià)和質(zhì)性評(píng)價(jià)兩個(gè)方面進(jìn)行提問(wèn)設(shè)計(jì)。其中,量化評(píng)價(jià)的維度包括有無(wú)觀點(diǎn)、有無(wú)證據(jù)及其數(shù)量、有無(wú)反駁及其次數(shù);質(zhì)性評(píng)價(jià)的維度包括證據(jù)的充分性、解釋的充分性。(2)參考哈蒂等人(Hattie et al.,2007)所提出的有效反饋?lái)毣卮鸬娜齻€(gè)問(wèn)題設(shè)計(jì)提問(wèn),即“任務(wù)的目標(biāo)是什么”“目前進(jìn)展如何”“接下來(lái)該怎么做”,考慮到任務(wù)目標(biāo)的設(shè)定已在論證活動(dòng)開(kāi)始前完成,因此,研究只針對(duì)后兩個(gè)問(wèn)題進(jìn)行提問(wèn)設(shè)計(jì)。(3)參考尼爾森等人(Nelson et al.,2009)對(duì)表?yè)P(yáng)性反饋與批評(píng)性反饋的研究,要求ChatGPT做出表?yè)P(yáng)性與批評(píng)性反饋。(4)基于以上三個(gè)步驟,研究者首先完成了“初始提問(wèn)”設(shè)計(jì),并在獲得“初始提問(wèn)”的反饋信息后,再根據(jù)懷特等人(White et al.,2023)的“提示語(yǔ)模式分類框架”對(duì)初始提問(wèn)進(jìn)行優(yōu)化,產(chǎn)生“優(yōu)化提問(wèn)”設(shè)計(jì),具體采用指明所問(wèn)對(duì)象、不斷追問(wèn)、設(shè)定角色三種優(yōu)化策略。根據(jù)以上程序,最終確定了如表2所示的“初始提問(wèn)”與“優(yōu)化提問(wèn)”兩種提問(wèn)設(shè)計(jì)。
3.數(shù)據(jù)收集與分析
(1)ChatGPT的反饋信息收集
基于兩種提問(wèn)設(shè)計(jì),研究者將50份學(xué)生論證內(nèi)容(編號(hào)為A01至A50)依次輸入ChatGPT獲取其對(duì)論證內(nèi)容的反饋信息。具體操作程序如下:研究者首先將論證內(nèi)容與“初始提問(wèn)”合并輸入ChatGPT,逐一獲得反饋信息后,將反饋信息錄入Excel文檔,獲得50份ChatGPT對(duì)論證內(nèi)容的反饋信息(編號(hào)為P1F1至P1F50);接著遵循前人文獻(xiàn)中反饋單元的拆分操作程序(Hayes et al.,2010),將反饋信息拆分為586個(gè)反饋單元;遵循同樣的步驟,研究者基于“優(yōu)化提問(wèn)”獲得50份反饋信息(編號(hào)為P2F1至P2F50),并將其拆分為965個(gè)反饋單元。
(2)對(duì)論證內(nèi)容的標(biāo)注與分析
為了建立客觀科學(xué)的論證內(nèi)容檢驗(yàn)標(biāo)準(zhǔn),研究者與A教師合作對(duì)50份學(xué)生論證內(nèi)容進(jìn)行標(biāo)注,操作程序如下:首先,研究者與A教師參考澤德勒等人(Zeidler et al.,2003)和庫(kù)恩等人(Kuhn et al.,1997)的評(píng)價(jià)標(biāo)準(zhǔn),先抽取5份論證內(nèi)容,分別對(duì)其中的觀點(diǎn)、證據(jù)及數(shù)量、反駁及次數(shù)、證據(jù)的充分性和解釋的充分性等評(píng)價(jià)要點(diǎn)進(jìn)行標(biāo)注;隨后,研究者與A教師比對(duì)標(biāo)注結(jié)果,對(duì)不一致的標(biāo)注進(jìn)行協(xié)商并達(dá)成共識(shí);最后,研究者與A教師獨(dú)立對(duì)其他論證內(nèi)容進(jìn)行標(biāo)注。經(jīng)一致性計(jì)算發(fā)現(xiàn),論證內(nèi)容評(píng)價(jià)要點(diǎn)的標(biāo)注一致性達(dá)到0.81,表明人工標(biāo)注結(jié)果較為準(zhǔn)確。
研究者將ChatGPT對(duì)兩種提問(wèn)設(shè)計(jì)的反饋信息與學(xué)生論證內(nèi)容的人工標(biāo)注結(jié)果進(jìn)行逐一比對(duì),根據(jù)觀點(diǎn)、證據(jù)、反駁、證據(jù)的充分性、解釋的充分性進(jìn)行分類統(tǒng)計(jì),計(jì)算出兩種提問(wèn)設(shè)計(jì)下,ChatGPT對(duì)論證內(nèi)容反饋的精確度和召回率。本研究對(duì)精確度和召回率的計(jì)算以人工標(biāo)注結(jié)果為金標(biāo)準(zhǔn),即精確度為ChatGPT正確識(shí)別出的人工標(biāo)注項(xiàng)數(shù)除以其識(shí)別出的總項(xiàng)數(shù),召回率為ChatGPT正確識(shí)別出的人工標(biāo)注項(xiàng)數(shù)除以人工標(biāo)注的總項(xiàng)數(shù)。
(3)反饋類型的扎根分析
研究者分別將ChatGPT對(duì)“初始提問(wèn)”和對(duì)“優(yōu)化提問(wèn)”的反饋信息分別輸入Nvivo 12進(jìn)行編碼分析。具體步驟如下:首先,對(duì)反饋信息進(jìn)行開(kāi)放式編碼,即對(duì)反饋信息進(jìn)行逐句歸納與總結(jié),提煉出初始概念;接著,對(duì)初始概念進(jìn)行主軸式編碼,將初始概念歸納為范疇化類屬;最后,對(duì)所有類屬進(jìn)行分析與比較,梳理出兩種提問(wèn)設(shè)計(jì)下ChatGPT針對(duì)學(xué)生論證內(nèi)容所生成的反饋類型及其差異。
五、研究發(fā)現(xiàn)
1.基于兩種提問(wèn)設(shè)計(jì)的反饋精準(zhǔn)度比較
基于兩種提問(wèn)設(shè)計(jì),ChatGPT對(duì)學(xué)生論證內(nèi)容的反饋精準(zhǔn)度如表3所示。整體而言,“優(yōu)化提問(wèn)”的反饋精確度(91.8%)與召回率(63.2%)高于“初始提問(wèn)”的反饋精確度(79.6%)與召回率(38.4%)??梢?jiàn),ChatGPT對(duì)論證內(nèi)容的反饋精準(zhǔn)度受到提問(wèn)設(shè)計(jì)的影響。
具體來(lái)看,“初始提問(wèn)”的反饋中,觀點(diǎn)的反饋精確度達(dá)100%,其次是證據(jù)及其數(shù)量(88.2%)、反駁及其次數(shù)(81.3%),證據(jù)的充分性與解釋的充分性相對(duì)偏低,分別是68.0%與53.0%。“優(yōu)化提問(wèn)”的反饋中,觀點(diǎn)的反饋精確度達(dá)100%,其次是證據(jù)及其數(shù)量(95.8%)、反駁及其次數(shù)(91.0%),最后是證據(jù)的充分性(85.3%)與解釋的充分性(85.0%)??梢?jiàn),兩種提問(wèn)設(shè)計(jì)下,ChatGPT對(duì)論證內(nèi)容的量化評(píng)價(jià)表現(xiàn)均優(yōu)于質(zhì)性評(píng)價(jià)表現(xiàn)。
然而,從反饋的整體召回率來(lái)看,“優(yōu)化提問(wèn)”只有63.2%,這意味著36.8%的評(píng)價(jià)要點(diǎn)沒(méi)有被識(shí)別。具體來(lái)看,觀點(diǎn)的反饋召回率最高(100%),其次是證據(jù)及其數(shù)量(89.2%)與反駁及其次數(shù)(75.9%),在證據(jù)的充分性和解釋的充分性兩方面的召回率均較低,分別是47.4%和29.8%。相較而言,“初始提問(wèn)”反饋的整體召回率更低,只有38.4%,這說(shuō)明ChatGPT忽略了61.6%的評(píng)價(jià)要點(diǎn)。基于“初始提問(wèn)”,ChatGPT在觀點(diǎn)上的反饋召回率高達(dá)100%,其次是證據(jù)及其數(shù)量(53.9%)與反駁及其次數(shù)(36.8%),證據(jù)的充分性與解釋的充分性的反饋召回率僅有22.2%和18.6%。這意味著基于“初始提問(wèn)”,ChatGPT沒(méi)有識(shí)別出絕大多數(shù)論證內(nèi)容中的質(zhì)性評(píng)價(jià)要點(diǎn)??傮w而言,ChatGPT對(duì)論證內(nèi)容評(píng)價(jià)的反饋召回率還有較大的提升空間。
2.基于兩種提問(wèn)設(shè)計(jì)的反饋類型比較
通過(guò)對(duì)兩種提問(wèn)設(shè)計(jì)的反饋信息進(jìn)行梳理與分析,研究發(fā)現(xiàn)ChatGPT生成的反饋信息包括4種類型:任務(wù)型反饋、過(guò)程型反饋、建議型反饋和情感型反饋。在兩種提問(wèn)設(shè)計(jì)下,上述4類反饋的占比情況如表4所示。整體上看,兩種提問(wèn)設(shè)計(jì)下的各類反饋占比差異不大。研究分別對(duì)兩種提問(wèn)設(shè)計(jì)下的4類反饋信息進(jìn)行比較后發(fā)現(xiàn),相較于“初始提問(wèn)”下的反饋信息,“優(yōu)化提問(wèn)”下的反饋信息更具組織性、解釋性和針對(duì)性,而兩種提問(wèn)設(shè)計(jì)下的情感型反饋均表現(xiàn)出“就事論事”“中庸”的特點(diǎn)。
(1)任務(wù)型反饋
任務(wù)型反饋是ChatGPT針對(duì)論證任務(wù)的完成情況所做出的評(píng)價(jià)與反饋。相較于“初始提問(wèn)”,基于“優(yōu)化提問(wèn)”生成的任務(wù)型反饋更能按照一定的邏輯順序梳理和列舉出論證內(nèi)容的評(píng)價(jià)要點(diǎn),總結(jié)和提煉出論證內(nèi)容的基本框架,呈現(xiàn)出更強(qiáng)的組織性。例如,基于“優(yōu)化提問(wèn)”,ChatGPT針對(duì)論證內(nèi)容A30輸出的反饋中,首先對(duì)正反雙方觀點(diǎn)進(jìn)行陳述,接著列舉出正反雙方所提供的觀點(diǎn)以及證據(jù)、反駁及其數(shù)量。“正方觀點(diǎn):幼兒園不應(yīng)該被納入義務(wù)教育。反方觀點(diǎn):幼兒園應(yīng)該被納入義務(wù)教育。正方提供了三個(gè)證據(jù)支持觀點(diǎn):學(xué)前教育產(chǎn)品的部分私有性與義務(wù)教育產(chǎn)品為純公共產(chǎn)品存在沖突;幼兒園教育的成本不應(yīng)且不能做到政府單方面承擔(dān),而應(yīng)由家庭、社會(huì)各方面分擔(dān);強(qiáng)制進(jìn)行幼兒園教育不利于部分幼兒成長(zhǎng)。反方提供了兩個(gè)證據(jù)支持觀點(diǎn):幼兒園員工招聘參差不齊;學(xué)前教育產(chǎn)品本質(zhì)上擁有更多的公共產(chǎn)品特征。正反雙方都提出了反駁,各提出了至少一次反駁。”(P2F30)同樣是針對(duì)A30,ChatGPT根據(jù)“初始提問(wèn)”所給出的反饋雖然能夠明確指出正反方觀點(diǎn),但卻將正反方證據(jù)混為一談。“這段論證內(nèi)容存在明確的觀點(diǎn),正方認(rèn)為幼兒園不應(yīng)納入義務(wù)教育,反方認(rèn)為幼兒園將來(lái)一定會(huì)納入義務(wù)教育的范疇。這段論證內(nèi)容提供了多個(gè)證據(jù)支持觀點(diǎn),例如幼兒園師資、質(zhì)量和設(shè)備的不足,家長(zhǎng)選擇學(xué)前教育機(jī)構(gòu)的私人性質(zhì)等?!保≒1F30)
除此之外,ChatGPT輸出的任務(wù)型反饋還表現(xiàn)為對(duì)論證任務(wù)的完成情況進(jìn)行了總結(jié)性評(píng)價(jià)。根據(jù)“優(yōu)化提問(wèn)”,針對(duì)A14的反饋中,ChatGPT對(duì)雙方的任務(wù)完成情況做出了總結(jié)?!罢降恼撟C比較全面,既強(qiáng)調(diào)了教育學(xué)的重要性,也回應(yīng)了反方的質(zhì)疑和批評(píng)。反方的論證較為簡(jiǎn)單和片面,沒(méi)有很好地回應(yīng)正方的質(zhì)疑和批評(píng),也沒(méi)有提出充分的證據(jù)來(lái)支持自己的觀點(diǎn)。”(P2F14)相應(yīng)地,基于“初始提問(wèn)”,ChatGPT對(duì)A14所做出的反饋并未具體指出雙方各自的任務(wù)完成情況?!半p方都完成了他們的論證任務(wù),雖然其中可能存在一些可以改進(jìn)的地方?!保≒1F14)
(2)過(guò)程型反饋
過(guò)程型反饋是ChatGPT針對(duì)論證學(xué)習(xí)目標(biāo)實(shí)現(xiàn)的過(guò)程所做出的評(píng)價(jià)與反饋,具體包括針對(duì)證據(jù)使用情況、推理過(guò)程的反饋信息?;凇皟?yōu)化提問(wèn)”,ChatGPT所生成的過(guò)程型反饋能夠針對(duì)證據(jù)使用情況、推理過(guò)程進(jìn)行評(píng)價(jià)與反饋,且能夠給出合理的解釋,呈現(xiàn)出較強(qiáng)的解釋性。例如,ChatGPT針對(duì)論證內(nèi)容A10輸出的反饋中提到:“雙方觀點(diǎn)和證據(jù)之間的關(guān)系解釋得較為清楚,但反方提到的一些證據(jù)并不能完全支持其觀點(diǎn),例如非洲地區(qū)的互聯(lián)網(wǎng)使用率的例子并沒(méi)有直接證明技術(shù)的發(fā)展能夠縮小教育差距。”(P2F10)如P2F10所示,ChatGPT所提供的過(guò)程型反饋不但能夠?qū)ψC據(jù)使用情況和推理過(guò)程進(jìn)行評(píng)價(jià),并且能夠通過(guò)舉例的方式來(lái)解釋證據(jù)的充分性。而基于“初始提問(wèn)”的反饋并未給出明確的解釋,相對(duì)籠統(tǒng)。“這些證據(jù)部分能夠支持觀點(diǎn),但還不夠充分,正反雙方需要更多的數(shù)據(jù)和事實(shí)來(lái)支持這個(gè)觀點(diǎn)?!保≒1F10)
(3)建議型反饋
建議型反饋是ChatGPT在對(duì)學(xué)生論證內(nèi)容進(jìn)行分析與評(píng)價(jià)的基礎(chǔ)上,提出的具有針對(duì)性的建議類反饋?;凇皟?yōu)化提問(wèn)”,ChatGPT輸出的建議型反饋涉及論證內(nèi)容中多個(gè)要素,包括觀點(diǎn)、證據(jù)、反駁、證據(jù)的使用情況以及推理過(guò)程等,可以識(shí)別出論證過(guò)程中存在的問(wèn)題和不足,能夠?yàn)閷W(xué)生提供更有針對(duì)性和更具個(gè)性化的指導(dǎo)和建議。例如,“正反雙方可以在論證過(guò)程中提出更多的反駁,進(jìn)一步強(qiáng)化自己的觀點(diǎn)。例如,反方可以提出更多的反駁來(lái)回應(yīng)正方關(guān)于評(píng)價(jià)體系和學(xué)業(yè)壓力的擔(dān)憂,正方可以提出更多的反駁來(lái)回應(yīng)反方關(guān)于多樣化需求的擔(dān)憂?!保≒2F50)從P2F50來(lái)看,ChatGPT根據(jù)論證內(nèi)容,建議正反雙方分別以“反方關(guān)于多樣化需求的擔(dān)憂”和“正方關(guān)于評(píng)價(jià)體系和學(xué)業(yè)壓力的擔(dān)憂” 為切入口進(jìn)行反駁。這說(shuō)明ChatGPT能夠理解反駁在論證過(guò)程中的作用,可以結(jié)合論證內(nèi)容的具體情況,為正反雙方提供具有針對(duì)性和個(gè)性化的建議,幫助他們更好地運(yùn)用反駁策略和方法,強(qiáng)化自己的觀點(diǎn),提高論證的說(shuō)服力和效果。然而,基于“初始提問(wèn)”,ChatGPT生成的建議型反饋常會(huì)流于表面,沒(méi)有具體和有深度的內(nèi)容。例如,“正反雙方需要更清晰地說(shuō)明觀點(diǎn)和證據(jù)之間的關(guān)系,提供更多證據(jù)來(lái)支持觀點(diǎn)。同時(shí),正方需要更明確地對(duì)反方觀點(diǎn)進(jìn)行反駁?!保≒1F50)
(4)情感型反饋
根據(jù)提問(wèn)設(shè)計(jì),ChatGPT能夠針對(duì)學(xué)生論證內(nèi)容做出包括表?yè)P(yáng)性反饋和批評(píng)性反饋的情感型反饋,但此類反饋也表現(xiàn)出“就事論事”的特點(diǎn)。例如,基于“優(yōu)化提問(wèn)”,針對(duì)論證內(nèi)容A22生成的表?yè)P(yáng)性反饋中,ChatGPT先以教師的口吻,對(duì)正反方同學(xué)加以鼓勵(lì),隨后對(duì)正反方同學(xué)的論證表現(xiàn)加以總結(jié),最后就雙方的能力優(yōu)勢(shì)加以肯定?!白鳛榻處?,我要為正反方同學(xué)的表現(xiàn)點(diǎn)個(gè)贊。正方同學(xué)在陳述觀點(diǎn)時(shí)運(yùn)用了大量的數(shù)據(jù)和案例,凸顯了獨(dú)立思考和自主學(xué)習(xí)的能力。反方同學(xué)也在論證中采用了大量的個(gè)人經(jīng)驗(yàn),體現(xiàn)了對(duì)現(xiàn)實(shí)問(wèn)題的理解和思考。這些都是優(yōu)秀論證所需要的要素,值得肯定和表?yè)P(yáng)?!保≒2F22)相比之下,在“初始提問(wèn)”的反饋信息中,雖然出現(xiàn)了“值得肯定”“值得表?yè)P(yáng)”“討論得很好”等類似于教師在評(píng)價(jià)過(guò)程中常用來(lái)表達(dá)情感的語(yǔ)句,但ChatGPT更多關(guān)注論證內(nèi)容中觀點(diǎn)的優(yōu)劣,而非關(guān)注正反方的論證過(guò)程、策略及個(gè)人表現(xiàn)。例如,“正方主張應(yīng)該更多地培養(yǎng)學(xué)生閱讀非連續(xù)性文本的技能,并指出非連續(xù)性文本閱讀具有明顯的實(shí)用性,正方的觀點(diǎn)值得表?yè)P(yáng)。反方認(rèn)為小學(xué)生對(duì)文字的理解能力較差,非連續(xù)性文本對(duì)學(xué)生閱讀要求較高,不適宜編寫進(jìn)課本進(jìn)行統(tǒng)一教授,反方的觀點(diǎn)值得部分肯定。”(P1F22)
兩種提問(wèn)設(shè)計(jì)下,ChatGPT所生成的批評(píng)性反饋數(shù)量較少,且遵循一種“中庸之道”,鮮少有明顯的情感表達(dá),類似于一種“建議性”的批評(píng)。例如,在要求ChatGPT針對(duì)論證內(nèi)容A16給出的批評(píng)性反饋中,基于“優(yōu)化提問(wèn)”其反饋“正方同學(xué)在反駁反方同學(xué)的觀點(diǎn)時(shí),存在不夠全面、甚至是一些錯(cuò)誤的理解和表述,在今后的辯論中,正方同學(xué)需要更加注重論據(jù)的準(zhǔn)確性和全面性,同時(shí)需要更好地理解和反駁反方同學(xué)的觀點(diǎn)”(F2F16);基于“初始提問(wèn)”則反饋“正方同學(xué)在辯論過(guò)程中存在過(guò)于僵化的現(xiàn)象,只是堅(jiān)守自己的觀點(diǎn),缺乏對(duì)反方觀點(diǎn)的充分理解和對(duì)話。在未來(lái)的論證中,建議正方同學(xué)更開(kāi)放地接受對(duì)方的觀點(diǎn),積極地展開(kāi)對(duì)話?!保‵1F16)
六、研究結(jié)論與啟示
1.研究結(jié)論
通過(guò)比較兩種提問(wèn)設(shè)計(jì)下ChatGPT對(duì)學(xué)生論證內(nèi)容的評(píng)價(jià)與反饋效果,得出以下結(jié)論:
第一,ChatGPT對(duì)學(xué)生論證內(nèi)容的反饋精準(zhǔn)度受到提問(wèn)設(shè)計(jì)的影響,良好的提問(wèn)設(shè)計(jì)有助于ChatGPT生成質(zhì)量較好的反饋。首先,基于“優(yōu)化提問(wèn)”的反饋精準(zhǔn)度高于“初始提問(wèn)”,這說(shuō)明根據(jù)提問(wèn)設(shè)計(jì)原則,采用指明所問(wèn)對(duì)象、追問(wèn)、設(shè)定角色等策略能夠有效地提高ChatGPT生成回答的質(zhì)量(White et al.,2023)。其次,基于“優(yōu)化提問(wèn)”,ChatGPT對(duì)論證內(nèi)容評(píng)價(jià)的精確度已達(dá)到智能反饋工具的有效閾值范圍(90%~100%)(Burstein et al.,2003),這說(shuō)明良好的提問(wèn)設(shè)計(jì)有助于ChatGPT針對(duì)論證內(nèi)容做出較為準(zhǔn)確的評(píng)價(jià)。盡管兩種提問(wèn)設(shè)計(jì)下的反饋召回率相對(duì)偏低,但也已超過(guò)多個(gè)智能反饋工具的召回率(Dikli et al.,2014;Hoang et al.,2016;Liu et al.,2016)。以往的智能反饋工具多運(yùn)用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù),通過(guò)基于已有語(yǔ)料庫(kù)的訓(xùn)練和學(xué)習(xí),為學(xué)生提供評(píng)價(jià)與反饋。這些工具高度依賴于人工標(biāo)注,只能針對(duì)特定情境進(jìn)行反饋,例如錯(cuò)別字、標(biāo)點(diǎn)格式、句式語(yǔ)法等可以指定語(yǔ)義特征的文本,其適用范圍受到局限。相比之下,ChatGPT因其基于大語(yǔ)言模型構(gòu)建的優(yōu)勢(shì),對(duì)文本具有更強(qiáng)的理解能力。因此,ChatGPT較少受到論證內(nèi)容主題的限制,能夠通過(guò)理解論證內(nèi)容的上下文,從中提取觀點(diǎn)、證據(jù)、反駁等評(píng)價(jià)要點(diǎn),在評(píng)價(jià)過(guò)程中表現(xiàn)出良好的潛力??傮w上看,兩種提問(wèn)設(shè)計(jì)下,ChatGPT對(duì)論證內(nèi)容的量化評(píng)價(jià)表現(xiàn)均優(yōu)于其對(duì)論證內(nèi)容的質(zhì)性評(píng)價(jià)表現(xiàn)。這反映出ChatGPT在本質(zhì)上依然是一個(gè)語(yǔ)言模型,其底層工作原理基于數(shù)學(xué)概率,當(dāng)面對(duì)“證據(jù)是否充分”和“解釋是否充分”等問(wèn)題時(shí),ChatGPT遵循一種“中庸之道”,從文本數(shù)據(jù)中提取更為常見(jiàn)和能被普遍接受的觀點(diǎn)以提高答案的適用性。ChatGPT雖然在某些方面表現(xiàn)出良好的性能,但它仍然難以像人一樣充分理解信息與分析信息的內(nèi)在邏輯關(guān)系,因此會(huì)生成不合理甚至違反事實(shí)的錯(cuò)誤回答。這也反映出生成式人工智能的運(yùn)算過(guò)程仍然是“黑箱”,其生成的內(nèi)容不具備可解釋性與明確的依據(jù)(盧宇等,2023)。
第二,基于兩種提問(wèn)設(shè)計(jì),ChatGPT能夠生成包括任務(wù)型反饋、過(guò)程型反饋、建議型反饋和情感型反饋在內(nèi)的四類反饋信息。相較于“初始提問(wèn)”,ChatGPT基于“優(yōu)化提問(wèn)”所生成的各類反饋信息更具組織性、解釋性和針對(duì)性,具體表現(xiàn)為:在任務(wù)型反饋方面,基于“優(yōu)化提問(wèn)”,ChatGPT能夠針對(duì)論證內(nèi)容提供更為具體、準(zhǔn)確的反饋信息,幫助學(xué)生了解論證學(xué)習(xí)目標(biāo)的完成情況,這種針對(duì)任務(wù)細(xì)節(jié)做出的反饋能夠幫助學(xué)生建立對(duì)當(dāng)前學(xué)習(xí)狀態(tài)的認(rèn)知,是學(xué)生進(jìn)行自我調(diào)節(jié)學(xué)習(xí)的基礎(chǔ)(Lysakowski et al.,1982)。在過(guò)程型反饋方面,基于“優(yōu)化提問(wèn)”,ChatGPT生成的反饋信息能夠針對(duì)證據(jù)使用情況、推理過(guò)程進(jìn)行評(píng)價(jià)與反饋,且能夠給出合理的解釋,有助于促進(jìn)學(xué)生重新評(píng)估并調(diào)整論證策略,進(jìn)而促進(jìn)他們進(jìn)行自我反思、調(diào)整計(jì)劃并提高達(dá)成任務(wù)目標(biāo)的可能性(Carver et al.,1990)。在建議型反饋方面,ChatGPT基于“優(yōu)化提問(wèn)”的反饋信息具有個(gè)性化、可操作性強(qiáng)等特點(diǎn),有利于提高學(xué)生的自我調(diào)節(jié)能力和自我效能感,幫助學(xué)生實(shí)現(xiàn)更高的任務(wù)目標(biāo)。已有研究指出,有效的建議型反饋不但能夠提出策略層面的更高目標(biāo)與建議,還能夠改善通常反饋只關(guān)注當(dāng)前問(wèn)題的局限性,把目標(biāo)擴(kuò)展到更加關(guān)注學(xué)習(xí)者長(zhǎng)遠(yuǎn)發(fā)展的全局視野(Hattie et al.,2007;董艷等,2021)。不過(guò),值得注意的是,在情感型反饋方面,ChatGPT雖然能夠針對(duì)論證內(nèi)容提供此類反饋,但無(wú)法像人類教師那樣關(guān)注到學(xué)生的日常表現(xiàn)和情感需求,給出真正具有意義的表?yè)P(yáng)或批評(píng)。然而,情感型反饋是教育中至關(guān)重要的因素,它不僅涉及師生之間的有效互動(dòng)和協(xié)作,還直接關(guān)系到學(xué)生的學(xué)習(xí)情緒和心理狀態(tài),對(duì)于促進(jìn)學(xué)生的情感投入和提高教學(xué)效果至關(guān)重要(Nelson et al.,2009;Duijnhouwer,2010)。雖然ChatGPT可以在文字層面上生成某些情感反饋內(nèi)容,例如語(yǔ)氣詞、表情符號(hào)、情感詞匯等,但是這些反饋缺乏情感深度,距離真正有價(jià)值的情感反饋還有較大差距。
2.研究啟示
基于以上研究發(fā)現(xiàn),針對(duì)ChatGPT等AIGC技術(shù)和工具應(yīng)用于教學(xué)評(píng)價(jià)與反饋的可能潛力,本研究得出以下兩方面的啟示:
第一,教師需扮演好“提問(wèn)設(shè)計(jì)者”角色,注重發(fā)揮在情感反饋上的優(yōu)勢(shì),并做好機(jī)器反饋的“把關(guān)人”。首先,在將AIGC工具應(yīng)用于教學(xué)評(píng)價(jià)與反饋的過(guò)程中,教師應(yīng)當(dāng)扮演好“提問(wèn)設(shè)計(jì)者”的角色,通過(guò)優(yōu)化提問(wèn)設(shè)計(jì)來(lái)充分發(fā)揮AIGC工具的潛能,使其更為準(zhǔn)確地生成反饋信息。例如,教師在使用ChatGPT對(duì)學(xué)生論證內(nèi)容進(jìn)行評(píng)價(jià)時(shí),需結(jié)合評(píng)價(jià)標(biāo)準(zhǔn)以及教學(xué)情境進(jìn)行提問(wèn)設(shè)計(jì),通過(guò)指明所問(wèn)對(duì)象、不斷追問(wèn)、設(shè)定角色等優(yōu)化策略對(duì)提問(wèn)設(shè)計(jì)進(jìn)行迭代優(yōu)化,以確保提問(wèn)設(shè)計(jì)的針對(duì)性和實(shí)用性。其次,教師應(yīng)注重補(bǔ)充情感型反饋與前饋。在將AIGC工具融入教學(xué)評(píng)價(jià)時(shí),教師需強(qiáng)化在情感反饋上的優(yōu)勢(shì),成為“情感型反饋專家”;由于機(jī)器反饋更關(guān)注學(xué)生當(dāng)前的學(xué)習(xí)狀態(tài)和效果評(píng)估(董艷等,2021),AIGC工具也只能針對(duì)實(shí)際的學(xué)習(xí)成果(如文本)生成反饋,卻無(wú)法關(guān)注到學(xué)習(xí)任務(wù)之前學(xué)生的表現(xiàn),因此教師應(yīng)注重補(bǔ)充前饋(董艷等,2023),幫助學(xué)生獲得全方位的評(píng)價(jià)與反饋。最后,教師應(yīng)做好機(jī)器反饋的“把關(guān)人”。例如,在利用ChatGPT對(duì)學(xué)生論證內(nèi)容進(jìn)行評(píng)價(jià)時(shí),教師需要將精力轉(zhuǎn)移到對(duì)反饋信息的評(píng)估、篩選與完善中去,基于反饋信息進(jìn)行再反饋,進(jìn)而提升反饋的質(zhì)量和效果。
第二,學(xué)生需提升反饋素養(yǎng),以便可以更加積極主動(dòng)地參與到學(xué)習(xí)評(píng)價(jià)環(huán)節(jié)中并從中獲益。反饋素養(yǎng)是指學(xué)生理解、解釋和應(yīng)用反饋信息的能力,它能保證學(xué)生更好地利用反饋信息達(dá)到提高學(xué)習(xí)效果的目的。首先,AIGC工具能夠?yàn)閷W(xué)生提供實(shí)時(shí)、大量且多元的反饋信息,這需要學(xué)生具備較高的反饋素養(yǎng),才能快速地理解這些反饋信息并對(duì)學(xué)習(xí)策略進(jìn)行有效的調(diào)整。其次,將AIGC工具應(yīng)用于教學(xué)評(píng)價(jià)與反饋,也要求學(xué)生主動(dòng)參與評(píng)價(jià)過(guò)程,能夠基于反饋進(jìn)一步提出問(wèn)題和尋求幫助。提升學(xué)生反饋素養(yǎng)有以下三種路徑:一是教學(xué)過(guò)程中加強(qiáng)對(duì)學(xué)生反饋素養(yǎng)的培養(yǎng),引導(dǎo)學(xué)生更好地理解、解釋和應(yīng)用人機(jī)反饋的各種有價(jià)值信息。二是組織開(kāi)展有針對(duì)性的培訓(xùn),指導(dǎo)學(xué)生正確解讀反饋信息,掌握根據(jù)反饋信息調(diào)整學(xué)習(xí)策略的方法。三是為學(xué)生創(chuàng)建反饋詞匯表、反饋信息指南等工具,有針對(duì)性地解決學(xué)生在理解反饋中可能遇到的困難。
參考文獻(xiàn):
[1]董艷,李心怡,鄭婭峰等(2021).智能教育應(yīng)用的人機(jī)雙向反饋:機(jī)理、模型與實(shí)施原則[J].開(kāi)放教育研究,27(2):26-33.
[2]董艷,吳佳明,趙曉敏等(2023).學(xué)習(xí)者內(nèi)部反饋的內(nèi)涵、機(jī)理與干預(yù)策略[J].現(xiàn)代遠(yuǎn)程教育研究,35(3):55-64.
[3]何嘉媛,劉恩山(2012).論證式教學(xué)策略的發(fā)展及其在理科教學(xué)中的作用[J].生物學(xué)通報(bào),47(5):31-34.
[4]焦建利(2023).ChatGPT助推學(xué)校教育數(shù)字化轉(zhuǎn)型——人工智能時(shí)代學(xué)什么與怎么教[J].中國(guó)遠(yuǎn)程教育,43(4):16-23.
[5]盧宇,余京蕾,陳鵬鶴等(2023).生成式人工智能的教育應(yīng)用與展望——以ChatGPT系統(tǒng)為例[J]中國(guó)遠(yuǎn)程教育,43(4):24-31,51.
[6]彭正梅,伍紹楊,付曉潔等(2020).如何提升課堂的思維品質(zhì):邁向論證式教學(xué)[J].開(kāi)放教育研究,26(4):45-58.
[7]沈書生,祝智庭(2023).ChatGPT類產(chǎn)品:內(nèi)在機(jī)制及其對(duì)學(xué)習(xí)評(píng)價(jià)的影響[J].中國(guó)遠(yuǎn)程教育,43(4):8-15.
[8]王佑鎂,王旦,梁煒怡等(2023).“阿拉丁神燈”還是“潘多拉魔盒”:ChatGPT教育應(yīng)用的潛能與風(fēng)險(xiǎn)[J].現(xiàn)代遠(yuǎn)程教育研究,35(2):48-56.
[9]鐘秉林,尚俊杰,王建華等(2023).ChatGPT對(duì)教育的挑戰(zhàn)(筆談)[J].重慶高教研究,11(3):3-25.
[10]Bell, P., & Linn, M. C. (2000). Scientific Arguments as Learning Artifacts: Designing for Learning from the Web with KIE[J]. Intrnational Journal of Science Education, 22(8):797-817.
[11]Burstein, J., Chodorow, M., & Leacock, C. (2003). CriterionSM Online Essay Evaluation: An Application for Automated Evaluation of Student Essays[C]// Proceedings of the Fifteenth Annual Conference on Innovative Applications of Artificial Intelligence. Acapulco, Mexico: Association for the Advancement of Artificial Intelligence:1-8.
[12]Carver, C. S., & Scheier, M. F. (1990). Origins and Functions of Positive and Negative Affect: A Control-Process View[J]. Psychological Review, 97(1):19-35.
[13]Chodorow, M., Gamon, M., & Tetreault, J. (2010). The Utility of Article and Preposition Error Correction Systems for English Language Learners: Feedback and Assessment[J]. Language Testing, 27(3):419-436.
[14]Clark, D. B., & Sampson, V. (2008). Assessing Dialogic Argumentation in Online Environments to Relate Structure, Grounds, and Conceptual Quality[J]. Journal of Research in Science Teaching, 45(3):293-321.
[15]Dikli, S., & Bleyle, S. (2014). Automated Essay Scoring Feedback for Second Language Writers: How Does It Compare to Instructor Feedback?[J]. Assessing Writing, 22:1-17.
[16]Duijnhouwer, H. (2010). Feedback Effects on StudentsWriting Motivation, Process, and Performance[D]. Utrecht: Utrecht University:12-62.
[17]Erduran, S., Simon, S., & Osborne, J. (2004). TAPping into Argumentation: Developments in the Application of Toulmins Argument Pattern for Studying Science Discourse[J]. Science Education, 88(6):915-933.
[18]Guo, B., Zhang, X., & Wang, Z. et al. (2023). How Close Is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection[J/OL]. https://doi.org/10.48550/arXiv.2301.07597.
[19]Hattie, J., & Timperley, H. (2007). The Power of Feedback[J]. Review of Educational Research, 77(1):81-112.
[20]Hayes, J. R., & Berninger, V. W. (2010).Relationships Between Idea Generation and Transcription: How the Act of Writing Shapes What Children Write[M]// Bazerman, C., Krut, R.,? & Lunsford, K. et al. (Eds.). Traditions of Writing Research. New York: Routledge:166-180.
[21]Hoang, G. T. L., & Kunnan, A. J. (2016). Automated Essay Evaluation for English Language Learners: A Case Study of MY Access[J]. Language Assessment Quarterly, 13(4):359-376.
[22]Kuhn, D. (1991). The Skills of Argument[M]. Cambridge, UK: Cambridge University Press:22-43.
[23]Kuhn, D. (2010). Teaching and Learning Science as Argument[J]. Science Education, 94(5):810-824.
[24]Kuhn, D., Shaw, V., & Felton, M. (1997). Effects of Dyadic Interaction on Argumentive Reasoning[J]. Cognition and Instruction, 15(3):287-315.
[25]Lin, S. S. (2014). Science and Non-Science Undergraduate StudentsCritical Thinking and Argumentation Performance in Reading a Science News Report[J]. International Journal of Science and Mathematics Education, 12(5):1023-1046.
[26]Liu, S., & Kunnan, A. J. (2016). Investigating the Application of Automated Writing Evaluation to Chinese Undergraduate English Majors: A Case Study of WriteToLearn[J]. Calico Journal, 33(1):71-91.
[27]Liu, P., Yuan, W., & Fu, J. et al. (2023). Pre-Train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing[J]. ACM Computing Surveys, 55(9):1-35.
[28]Lysakowski, R. S., & Walberg, H. J. (1982). Instructional Effects of Cues, Participation, and Corrective Feedback: A Quantitative Synthesis[J]. American Educational Research Journal, 19(4):559-572.
[29]Nelson, M. M., & Schunn, C. D. (2009). The Nature of Feedback: How Different Types of Peer Feedback Affect Writing Performance[J]. Instructional Science, 37(4):375-401.
[30]Sadler, D. R. (1989). Formative Assessment and the Design of Instructional Systems[J]. Instructional Science, 18(2):119-144.
[31]Sadler, T. D., & Fowler, S. R. (2006). A Threshold Model of Content Knowledge Transfer for Socioscientific Argumentation[J]. Science Education, 90(6):986-1004.
[32]Toulmin, S. E. (1958). The Uses of Argument[M]. London: Cambridge University Press:87-99.
[33]Van-Dijk, D., & Kluger, A. N. (2000). Positive (Negative) Feedback: Encouragement or Discouragement[EB/OL]. [2023-04-18].
https://scholars.huji.ac.il/testmihal/publications/gative-feedback-
encouragement-or-discouragement.
[34]Van Eemeren, F. H., Grootendorst, R., & Kruiger, T. (1987). Handbook of Argumentation Theory: A Critical Survey of Classical Backgrounds and Modern Studies[M]. Dordrecht: Springer:260-273.
[35]Voss, J. F., & Van Dyke, J. A. (2001). Argumentation in Psychology: Background Comments[J]. Discourse Processes, 32(2-3):89-111.
[36]White, J., Fu, Q., & Hays, S. et al. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT[J/OL]. https://doi.org/10.48550/arXiv.2302.11382.
[37]Zeidler, D. L., Osborne, J., & Erduran, S. et al. (2003). The Role of Argument During Discourse About Socioscientific Issues[M]// Zeidler, D. L. (Ed.). The Role of Moral Reasoning on Socioscientific Issues and Discourse in Science Education. Dordrecht: Springer:97-116.
收稿日期 2023-04-19 責(zé)任編輯 譚明杰
Effectiveness of Feedback on StudentsArgumentation Contents Based on ChatGPT:
Comparison of Two Types of Prompt Designs
WANG Li, LI Yan, CHEN Xinya, XU Lingna
Abstract: In argumentative teaching, due to the large volume and high complexity of students argumentation contents, teachers evaluation and feedback often lag behind and are difficult to ensure the quality. The emergence of such chat tools based on generative artificial intelligence as ChatGPT provides the possibility to solve this problem. The quality of interaction with ChatGPT depends on the prompt design. How to design prompts becomes the key to obtaining effective feedback. Based on two types of prompt designs (“initial prompts”and“optimized prompt”), ChatGPT was used to evaluate and provide feedback on 50 copies of students argumentation contents. Empirical comparison was conducted on its effectiveness from two aspects: feedback accuracy and feedback type. It was found that ChatGPTs feedback accuracy (including precision rate and recall rate) under “optimized prompt” was much higher than that under “initial prompt”. The feedbacks recall rates under both types of prompt designs were lower than corresponding precision rates. The feedbacks precision rates of the quantitative evaluation dimension were higher than those of the qualitative evaluation dimension under both types of prompt designs. Based on the two types of prompt designs, ChatGPT could generate four kinds of feedback for argumentation contents: task-oriented feedback, process-oriented feedback, suggestion-oriented feedback, and emotion-oriented feedback. However, compared to feedback based on the“initial prompt”, the feedback generated based on “optimized prompt” was more organized, explanatory, and targeted. The emotion-oriented feedback under both types of prompt designs exhibits such characteristics as “confining merely to the facts” and “the doctrine of the mean”. To effectively unleash the potential of ChatGPT in teaching evaluation and feedback, teachers need to improve their prompt designs, leverage their advantages in emotion-oriented feedback, monitor feedback from ChatGPT and focus on cultivating students feedback literacy.
Keywords: ChatGPT; Teaching Evaluation; Teaching Feedback; Argumentative Teaching; Prompt Design