摘 要:近年,Microsoft Copilot類(lèi)生成式人工智能引發(fā)社會(huì)各界的廣泛討論。本文基于中學(xué)地理教育視角,評(píng)估了Copilot在2022—2024年6次浙江省地理選考試卷中的表現(xiàn)。結(jié)果表明,盡管Copilot以55.9%的平均得分率超過(guò)失分率(44.1%),具備基本的地理素養(yǎng)及較好的交互性與生成性,但可靠性與穩(wěn)定性較弱,尤其在自然地理學(xué)與部分圖像解析方面局限性較大;Copilot在對(duì)地理的理解與響應(yīng)生成方面,有潛在的改進(jìn)空間。通過(guò)實(shí)證分析,Microsoft Copilot具有賦能地理教育和成為師生新型學(xué)習(xí)工具的潛力,但必須審慎、批判性地使用,不應(yīng)將其作為地理問(wèn)題答案的可靠提供者。師生需主動(dòng)提升人工智能素養(yǎng),擁抱智能技術(shù),順應(yīng)未來(lái)地理教育的變革浪潮。
關(guān)鍵詞:Microsoft Copilot;人工智能;中學(xué)地理教育
中圖分類(lèi)號(hào):G633.55 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1005-5207(2025)01-0017-05
近年來(lái),語(yǔ)言模型在理解和生成跨領(lǐng)域的類(lèi)人文本方面取得了顯著進(jìn)展,并引發(fā)各領(lǐng)域的廣泛討論[1-2]。眾多教育工作者對(duì)AI于教育界的可能影響進(jìn)行了大量有益探索[3-4],其中部分地理學(xué)者對(duì)人工智能時(shí)代背景下中學(xué)地理教學(xué)面臨的機(jī)遇、挑戰(zhàn)及如何應(yīng)對(duì)等也進(jìn)行了相關(guān)理論闡述[5-8]。但在評(píng)估AI處理標(biāo)準(zhǔn)化考試材料領(lǐng)域,尤其是其理解題目材料信息和生成答案的準(zhǔn)確性方面,研究仍相對(duì)局限,不利于挖掘和拓展其作為地理教育工具的可能性。Microsoft Copilot為微軟推出的高級(jí)語(yǔ)言模型,是由 OpenAI 公司提供支持并使用ChatGPT 4.0版本的搜索引擎。與需要較高費(fèi)用的原生ChatGPT 4.0相比,Copilot免費(fèi)版也可處理圖表、文檔等復(fù)雜材料。地理選考是評(píng)估學(xué)生對(duì)地理原理的掌握程度及其在現(xiàn)實(shí)生活中應(yīng)用能力的“試金石”。本文通過(guò)評(píng)估Copilot在浙江省地理選考中的表現(xiàn),了解該模型在理解多元地理概念與幫助學(xué)生學(xué)習(xí)方面的能力,及其在中文語(yǔ)境下的適用性與AI賦能地理教育的實(shí)際應(yīng)用潛力,為師生更加高效地使用AI輔助地理教與學(xué)提供參考。
一、研究方法
浙江省高考地理標(biāo)準(zhǔn)化試卷來(lái)源于公開(kāi)可用的資料,包括2022年1月、2022年6月、2023年1月、2023年6月、2024年1月、2024年6月(以下簡(jiǎn)稱(chēng)2022.1、2022.6、2023.1、2023.6、2024.1、2024.6)的6次普通高校招生入學(xué)考試,主要題型為選擇題和簡(jiǎn)答題。其中,2022.1~2023.6前20項(xiàng)選擇題單個(gè)分值為2分,后5項(xiàng)為3分,滿(mǎn)分55分;2024.1和2024.6的25項(xiàng)選擇題單個(gè)分值均為2分,滿(mǎn)分50分。此數(shù)據(jù)集因其為高考試題而具有內(nèi)容豐富、要求嚴(yán)格、科學(xué)性高等特點(diǎn),并涵蓋自然地理學(xué)、人文地理學(xué)及地理信息技術(shù)等多元的地理主題。Microsoft Copilot是有效評(píng)估具有較多圖表地理試題的合適工具。圖1為本文數(shù)據(jù)處理過(guò)程,從數(shù)據(jù)集測(cè)試到使用origin等繪圖軟件對(duì)Copilot測(cè)試結(jié)果進(jìn)行可視化表達(dá)。
為確保評(píng)估的客觀性和統(tǒng)計(jì)便利性與精準(zhǔn)性,本文全部采用選擇題,降低評(píng)價(jià)簡(jiǎn)答題答案時(shí)的主觀因素,并將試題按年份、地理主題2個(gè)維度進(jìn)行分析。通過(guò)搜索網(wǎng)絡(luò)資源和咨詢(xún)資深教師確定試題答案,將Copilot的回答分為3個(gè)獨(dú)立類(lèi)別:正確、錯(cuò)誤以及未給出有效回答(多選或未選)。然后將其響應(yīng)結(jié)果與標(biāo)準(zhǔn)答案進(jìn)行比對(duì)以評(píng)估Copilot在理解材料圖文信息和提供正確答案方面的有效性。
二、Microsoft Copilot評(píng)估結(jié)果
1.Copilot作答總體表現(xiàn)
Microsoft Copilot作答結(jié)果的年際分布表明(表1、圖2、圖3a),其在近6次的平均得分率(55.9%)高于失分率(44.1%),但不同年份表現(xiàn)出顯著差異性。其中,2024.1準(zhǔn)確率40%(10/25)顯著低于其他年份,錯(cuò)誤率56%(14/25)占比最大,未答率為4%(1/25);2023.6表現(xiàn)最為優(yōu)異,準(zhǔn)確率達(dá)68%(17/25),沒(méi)有未答情況,準(zhǔn)確度和完成度均最好;2023.1和2024.6正確率均為60%(15/25),僅次于2023.6;2022.1與2022.6表現(xiàn)均較為平庸:準(zhǔn)確率分別為48%(12/25)、56%(14/25),錯(cuò)誤率分別為52%(13/25)、44%(11/25),未答率均為0。上述結(jié)果表明,盡管Copilot問(wèn)題參與度高,基本可回答所有問(wèn)題,但提供答案的準(zhǔn)確性有限。由于地理學(xué)科的特殊性,圖表是題目的重要載體與表現(xiàn)方式,圖表類(lèi)題目占?xì)v年試題80%以上篇幅。因此,從作答完成度來(lái)看,Copilot基本可對(duì)圖表內(nèi)容進(jìn)行讀取和分析。
2.Copilot作答與實(shí)際考生對(duì)比結(jié)果
為確定Copilot在實(shí)際考試情境中的表現(xiàn),本文以2024.1選考試題為例,隨機(jī)抽取并統(tǒng)計(jì)了兩所學(xué)校共67名考生的選擇題得分(A校28人,均分29.36,為地區(qū)排名靠后學(xué)校;B校39人,均分36.82,為地區(qū)排名靠前學(xué)校;總平均分33.7),各分?jǐn)?shù)段百分比排名情況如圖4所示。實(shí)際考生成績(jī)的高斯擬合曲線(xiàn)(圖4a)表明,得20分的人數(shù)只占總?cè)藬?shù)的2.8%左右,在所有分?jǐn)?shù)段中屬于低分段且人數(shù)占比非常低。從實(shí)際分?jǐn)?shù)排名(圖4b)看,20分在所有考生中排名靠后,僅超過(guò)2.98%的學(xué)生。因此,Copilot與系統(tǒng)學(xué)習(xí)過(guò)地理的考生相比,其地理思維和素養(yǎng)略顯不足,在地理考試中并非一名出色的“考生”。
3.Copilot對(duì)不同主題作答表現(xiàn)的差異性
從地理主題(圖3b)看,自然地理類(lèi)題目近6次平均正確率為44.19%,人文地理類(lèi)為70.24%。除2022.6自然地理類(lèi)題目準(zhǔn)確率(58.8%)略高于人文地理類(lèi)(42.9%),其他時(shí)間人文地理類(lèi)均顯著高于自然地理類(lèi)。此外,自然地理得分率與總分的Pearson相關(guān)性分析(數(shù)據(jù)符合正態(tài)分布,顯著性>0.05)結(jié)果表明,兩者的相關(guān)系數(shù)為0.873,P值為0.023,小于0.05,說(shuō)明兩者存在顯著相關(guān)性,即自然地理的低得分率是造成總得分偏低的主要原因。地理信息技術(shù)類(lèi)題目占比較少,2023.6未命該類(lèi)題目,其余6題答對(duì)4題,準(zhǔn)確率為66.7%。
三、討論
1.培養(yǎng)提問(wèn)技巧,在與Copilot雙向互動(dòng)中鞏固地理知識(shí)
整體而言,Copilot 6次選擇題平均得分(29.83分)略超過(guò)總分半值(27分),證明其對(duì)地理問(wèn)題具有基本理解,并在“正確回答”方面表現(xiàn)出較好的一致性,即對(duì)于所給的正確答案可以進(jìn)行科學(xué)解釋。特別是對(duì)于部分圖表的準(zhǔn)確解讀與分析,表明Copilot在特定知識(shí)領(lǐng)域和上下文推理方面有較大潛力。但44.1%的失分率及在部分解析中提供錯(cuò)誤推斷、虛假和偏見(jiàn)的信息亦不可忽視,這一結(jié)果可能是由訓(xùn)練數(shù)據(jù)較少或數(shù)據(jù)質(zhì)量較差所致[9]。源于ChatGPT的Copilot訓(xùn)練數(shù)據(jù)來(lái)源于不同語(yǔ)言的不同樣本量,且因其誕生于美國(guó),因而訓(xùn)練樣本也多為英語(yǔ)材料,這種偏差會(huì)降低語(yǔ)言之間的理解和翻譯的準(zhǔn)確性[10]。有學(xué)者指出,若試題語(yǔ)言為英語(yǔ),ChatGPT 得分會(huì)比以其他語(yǔ)言進(jìn)行的考試高10.4%[11]。因此,從教育工具的角度來(lái)看,Copilot可解答還沒(méi)有給出答案的題目,并支持對(duì)結(jié)果的追問(wèn),實(shí)現(xiàn)人機(jī)的雙向互動(dòng),彌補(bǔ)了傳統(tǒng)的基于人工提供正確答案的搜題工具的單向性缺陷,可成為學(xué)生的虛擬“學(xué)伴”。
有效提問(wèn)與追問(wèn)可提高生成式人工智能的回答準(zhǔn)確率[12]。因此,為獲取正確響應(yīng),學(xué)生需主動(dòng)使用正確的地理術(shù)語(yǔ)或概念組織問(wèn)題進(jìn)行提問(wèn),并根據(jù)回答形成新問(wèn)題,不斷提高提問(wèn)技巧和能力,在此過(guò)程中增強(qiáng)對(duì)已有知識(shí)的鞏固。但Copilot并非是完全可靠的助手,其在提供錯(cuò)誤解析時(shí)也會(huì)“有理有據(jù)”地“自圓其說(shuō)”,故需引導(dǎo)學(xué)生通過(guò)教科書(shū)和科學(xué)文章等權(quán)威參考資料確認(rèn)來(lái)自人工智能信息的可靠性并審慎使用。對(duì)信息的謹(jǐn)慎求證與評(píng)估同樣是培育學(xué)生自主學(xué)習(xí)能力的重要構(gòu)件。
2.關(guān)注主題差異,加強(qiáng)對(duì)Copilot自然地理類(lèi)回答的甄別
Copilot的6次地理選考測(cè)試結(jié)果在不同年份和題型中表現(xiàn)差異較大,可靠性與穩(wěn)定性較弱。年際得分差異性主要由自然地理、人文地理的不同主題得分貢獻(xiàn)度所致,尤其是自然地理低得分率導(dǎo)致了總分偏低。中學(xué)地理教材和課程涉及地球表層環(huán)境的形成背景與演化過(guò)程,運(yùn)行機(jī)制和作用路徑,時(shí)空分異特征和變化規(guī)律,人地關(guān)系與可持續(xù)發(fā)展,資源環(huán)境與自然災(zāi)害,人口、城市與鄉(xiāng)村,世界格局、國(guó)家情勢(shì)、區(qū)域區(qū)位等知識(shí)[13]。Copilot在自然地理類(lèi)題目中的不良表現(xiàn)凸顯其在自然科學(xué)知識(shí)與應(yīng)用方面的薄弱,這可能是由于所需的地球科學(xué)類(lèi)知識(shí)(海洋地理、生物學(xué)、地貌學(xué)、地質(zhì)學(xué)、天文學(xué)、氣象氣候?qū)W、土壤學(xué)、水文學(xué)等)無(wú)法在Copilot的訓(xùn)練數(shù)據(jù)中得到充分體現(xiàn),或缺乏在特定題目材料情境下運(yùn)用此部分知識(shí)的能力。反之,其在人文地理類(lèi)題目中的優(yōu)異表現(xiàn),可能歸結(jié)為Copilot訓(xùn)練數(shù)據(jù)中有較豐富的社會(huì)科學(xué)類(lèi)知識(shí)(人口、農(nóng)業(yè)、工業(yè)、城市、語(yǔ)言、宗教、旅游、政治、行為地理學(xué)等)樣本量[14]。從社會(huì)性角度看,人文地理貼合生產(chǎn)生活,題目信息也多基于現(xiàn)實(shí)生活案例,易于識(shí)別。且因其在人文類(lèi)知識(shí)方面的廣泛訓(xùn)練,使其能夠更好地理解和分析人文地理類(lèi)材料信息,故此類(lèi)題目的答題表現(xiàn)較為出眾。
因此,在使用Copilot作答時(shí),需注意不同主題類(lèi)型的準(zhǔn)確度,尤其要加強(qiáng)對(duì)自然地理類(lèi)主題回答結(jié)果的評(píng)估。鼓勵(lì)學(xué)生在評(píng)估過(guò)程中充分利用已有知識(shí)并結(jié)合教材,對(duì)疑點(diǎn)進(jìn)行追問(wèn),弄清模型答案背后所依據(jù)的事實(shí)、原理和推理過(guò)程,從而鞏固和提升地理知識(shí)。
3.反思解析結(jié)果,注重對(duì)Copilot答案解釋的多元化利用
在圖表分析方面,圖像解析的準(zhǔn)確度存在較大差異,且穩(wěn)定性較差。下面以2024.1第9~10題為例進(jìn)行說(shuō)明。
一個(gè)區(qū)域的水資源總量與該區(qū)域的降水量和面積成正相關(guān)。表2為2022年我國(guó)甲、乙兩?。▍^(qū)市)水資源狀況,圖5為甲、乙用水量的構(gòu)成。完成9~10題。
Microsoft Copilot:題目9,根據(jù)圖表甲省的水資源總量較乙省少,但用水量的構(gòu)成相似。因此,可考慮選項(xiàng)D“甲乙間跨區(qū)域調(diào)水”,即通過(guò)跨區(qū)域的水資源調(diào)配,平衡兩地的水資源和用水需求。題目10,根據(jù)圖表乙省的水資源總量和各類(lèi)用水量都明顯高于甲省,這可能與乙省的產(chǎn)業(yè)結(jié)構(gòu)有關(guān),因此,可推斷選項(xiàng)B“乙第一二產(chǎn)業(yè)比例更高”,即乙省的第一產(chǎn)業(yè)(農(nóng)業(yè))和第二產(chǎn)業(yè)(工業(yè))占比可能高于甲省。
【例題解析】本題考查資源跨區(qū)域調(diào)配、學(xué)生讀圖及地理知識(shí)綜合應(yīng)用能力。Microsoft Copilot對(duì)圖表信息進(jìn)行了準(zhǔn)確解讀,并結(jié)合表中甲、乙兩地的水資源特點(diǎn)與圖示用水類(lèi)型構(gòu)成選出正確答案,解析過(guò)程較為科學(xué)合理且具有一定邏輯性,體現(xiàn)了過(guò)程與結(jié)果的一致性(衡量人工智能選擇的選項(xiàng)與其解釋之間的一致性或相似程度的指標(biāo))[15]。
但在2024.1第20~21題中,Copilot則表現(xiàn)較差。具體如下。
河流階地是發(fā)育在河谷兩側(cè)高水位之上的階梯狀臺(tái)地。圖6為某河流階地剖面示意圖,圖中標(biāo)注的時(shí)間為階地形成的距今時(shí)間。完成20~21題。
Microsoft Copilot:題目20,根據(jù)圖中的時(shí)間和高度標(biāo)注,T2的形成時(shí)間是3.5萬(wàn)年前,而T1的形成時(shí)間是1.1萬(wàn)年前,兩者相差2.4萬(wàn)年,T2的高度是255米,T1的高度是210米,兩者相差45米,因此,T2的抬升幅度是45/2.4=18.75米/萬(wàn)年,而T1的抬升幅度是15/1.1=12.82米/萬(wàn)年,所以T2的抬升幅度最大。題目21,根據(jù)圖例,T2的組成物質(zhì)是細(xì)砂巖,而其他階地的組成物質(zhì)是粗砂巖,這說(shuō)明T2的沉積物來(lái)自河流的側(cè)蝕作用,而不是下切作用,因此,T2的階地面比其他階地的階地面更寬,呈現(xiàn)出不同的結(jié)構(gòu)。
【例題解析】此組題考查水成地貌及學(xué)生讀圖分析能力。Copilot在20題的分析思路正確,通過(guò)比較各階地的形成時(shí)間和高度來(lái)判斷階地的抬升速率快慢。但由于信息讀取錯(cuò)誤,導(dǎo)致計(jì)算結(jié)果錯(cuò)誤。21題未將圖例與圖示對(duì)應(yīng),未能準(zhǔn)確判斷出T2時(shí)期的沉積結(jié)構(gòu),并杜撰未出現(xiàn)的“細(xì)砂巖”“粗砂巖”詞匯。分析過(guò)程也有悖一般的河流沉積結(jié)構(gòu)與流水運(yùn)動(dòng)關(guān)系。該題暴露了生成式人工智能的潛在不足,即當(dāng)未受過(guò)類(lèi)似文本和數(shù)據(jù)訓(xùn)練時(shí),其會(huì)基于已有“知識(shí)”進(jìn)行分析推演,做出錯(cuò)誤判斷,生成具有偏見(jiàn)性、不正確甚至虛假的信息[16]。
綜上不難發(fā)現(xiàn),Copilot的地理圖像解析能力不穩(wěn)定,需要強(qiáng)化對(duì)模型答案解釋的分析。對(duì)于正確答案,可思考模型的答題過(guò)程與術(shù)語(yǔ)使用,拓寬學(xué)生解題思路,查找知識(shí)漏洞;對(duì)于錯(cuò)誤答案,可仔細(xì)研究模型推理過(guò)程的錯(cuò)因,強(qiáng)化學(xué)生的思辨能力和對(duì)已有知識(shí)的運(yùn)用能力。對(duì)于教師而言,也可將模型錯(cuò)誤的解題過(guò)程用于課堂教學(xué)設(shè)計(jì),以此檢測(cè)學(xué)生對(duì)知識(shí)的掌握情況并培養(yǎng)學(xué)生獨(dú)立思考能力與批判性思維。
4.積極應(yīng)對(duì)改變,理性使用生成式AI賦能中學(xué)地理教育
隨著Copilot接受更多訓(xùn)練數(shù)據(jù)和更先進(jìn)算法,其問(wèn)題解答能力一定會(huì)隨之提升。例如,OpenAI發(fā)布ChatGPT 4.0時(shí)隨附的技術(shù)文件顯示了其在美國(guó)繼續(xù)教育(post-16 education)標(biāo)準(zhǔn)化測(cè)試中的明顯改進(jìn)[17]。Copilot等生成式人工智能未來(lái)將對(duì)學(xué)校教育產(chǎn)生重大影響,并有望解決教育現(xiàn)代化進(jìn)程中面臨的一些問(wèn)題[18]。從教育者角度來(lái)看,地理教師必須適應(yīng)新的教育生態(tài),發(fā)展人機(jī)協(xié)同的教學(xué)能力,借助人工智能構(gòu)建更加高效的教—學(xué)—評(píng)一體化的地理課程模式。此外,需培養(yǎng)學(xué)生的高階地理思維能力、信息甄別能力及高效使用智能工具的能力[19]。如教師可提升課堂中對(duì)學(xué)生的提問(wèn)技巧,鼓勵(lì)學(xué)生提出更好、用詞更科學(xué)規(guī)范的問(wèn)題,因?yàn)閷W(xué)生在與Copilot類(lèi)生成式人工智能交互時(shí)就是不斷運(yùn)用正確的地理術(shù)語(yǔ)或概念組織問(wèn)題,并通過(guò)提問(wèn)與追問(wèn)的方式來(lái)挑戰(zhàn) AI的回答。
在鼓勵(lì)學(xué)生使用人工智能的同時(shí),亦需提前思考和防范其在考試中的不當(dāng)使用及可能引發(fā)的教育誠(chéng)信危機(jī)[19]。
四、結(jié)語(yǔ)
本文評(píng)估了Microsoft Copilot在普通高等學(xué)校招生全國(guó)統(tǒng)一考試(2022—2024年浙江省地理選考)中的表現(xiàn)。由于評(píng)估載體為中文語(yǔ)境下的浙江省地理選考試題,而Copilot作為成長(zhǎng)在英語(yǔ)環(huán)境中的模型,可能在處理英文類(lèi)題目時(shí)會(huì)有更高的準(zhǔn)確度[11],故此次測(cè)試或許無(wú)法代表其他語(yǔ)言或科目使用的效果。此外,目前市面上已有“文心一言”“通義千問(wèn)”等國(guó)產(chǎn)大型語(yǔ)言模型,本研究只測(cè)試了Copilot的性能,沒(méi)有與國(guó)內(nèi)本土化人工智能模型進(jìn)行比較。
盡管存在以上不足,但本文仍基于浙江省地理選考試題為地理教育工作者了解Copilot在服務(wù)中學(xué)地理教育中的優(yōu)勢(shì)與局限提供了一定參考。Copilot具有交互性強(qiáng)、生成性較好的特點(diǎn),具備作為地理教育補(bǔ)充工具的潛力,但也存在準(zhǔn)確率不高、穩(wěn)定性弱等不足,特別是在自然地理學(xué)與部分圖像解析方面還有較大提升空間,故不應(yīng)將其作為地理問(wèn)題答案的可靠提供者。人工智能以其變革潛力,將極大影響現(xiàn)代教育。因此教師和學(xué)生應(yīng)積極擁抱智能技術(shù),提升人工智能素養(yǎng),審慎、批判地利用Copilot等生成式人工智能模型作為教育、學(xué)習(xí)工具。另外,政策制定者、研究人員、教育工作者和技術(shù)專(zhuān)家需跨領(lǐng)域合作以尋找應(yīng)對(duì)生成式人工智能潛在挑戰(zhàn)的有效策略,將 Copilot 等人工智能集成到教育系統(tǒng)中,以提高其作為地理教育甚至更廣泛的教育背景下的教育工具的有效性。
參考文獻(xiàn):
[1] 丁寶根,鐘陽(yáng)陽(yáng). “ChatGPT+高等教育”變革的驅(qū)動(dòng)因素、主要障礙及有關(guān)建議[J]. 現(xiàn)代教育技術(shù), 2024, 34(4): 60-68.
[2] Biswas S S. Potential use of chat gpt in global warming[J]. Annals of biomedical engineering,2023, 51(6): 1126-1127.
[3] 應(yīng)益華,陳嘉樂(lè),黃百俊. 教育生態(tài)重塑: ChatGPT的潛力、風(fēng)險(xiǎn)及治理[J]. 繼續(xù)教育研究,2024(5): 56-61.
[4] Sharma S, Yadav R. Chat GPT–A technological remedy or challenge for education system[J]. Global Journal of Enterprise Information System,2022, 14(4): 46-51.
[5] 肖麗梅,馮冰,李詩(shī)涵,等. 人工智能時(shí)代中學(xué)地理教學(xué)的機(jī)遇、挑戰(zhàn)與進(jìn)路[J]. 地理教育,2024(6): 7-10.
[6] 鄒筱露,徐志梅. ChatGPT的新樣態(tài)及地理教育的應(yīng)對(duì)之策[J]. 地理教育,2024(6): 11-14.
[7] 石嘉寧,徐志梅. 地理教學(xué)“人機(jī)共教系統(tǒng)”的價(jià)值與實(shí)現(xiàn)路徑[J]. 地理教育,2024(3): 63-65.
[8] 楊林茂,閆曉玲,郭志永. 芻議人工智能與未來(lái)中學(xué)地理教學(xué)[J]. 地理教育,2018(10): 11-13.
[9] Sallam M. ChatGPT utility in healthcare education, research, and practice: systematic review on the promising perspectives and valid concerns[C]. MDPI, 2023.
[10] Zhuo T Y, Huang Y, Chen C, et al. Exploring ai ethics of chatgpt: A diagnostic analysis[J]. arXiv preprint arXiv,2023(1):128-167.
[11] Wood D A, Achhpilia M P, Adams M T, et al. The ChatGPT artificial intelligence chatbot: How well does it answer accounting assessment questions?[J]. Issues in Accounting Education,2023, 38(4): 81-108.
[12] 王麗,李艷,陳新亞,等. ChatGPT支持的學(xué)生論證內(nèi)容評(píng)價(jià)與反饋——基于兩種提問(wèn)設(shè)計(jì)的實(shí)證比較[J]. 現(xiàn)代遠(yuǎn)程教育研究,2023, 35(4): 83-91.
[13] 王建,張昊,鄔愉婷,等. 中學(xué)地理課不宜改為地球科學(xué)課[J]. 地理學(xué)報(bào),2023(12): 3161-3171.
[14] 王恩涌,張小林,劉繼生,等. 人文地理學(xué)(第二版)[M]. 北京:高等教育出版社, 2000.
[15] Yu P, Fang C, Liu X, et al. Performance of ChatGPT on the Chinese Postgraduate Examination for Clinical Medicine: Survey Study[J]. JMIR Medical Education,2024(10): e48514.
[16] Tlili A, Shehata B, Adarkwah M A, et al. What if the devil is my guardian angel: ChatGPT as a case study of using chatbots in education[J]. Smart Learning Environments,2023, 10(1): 15.
[17] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint arXiv,2023,2303:08774.
[18] 黃榮懷,李敏,劉嘉豪. 教育現(xiàn)代化的人工智能價(jià)值分析[J]. 國(guó)家教育行政學(xué)院學(xué)報(bào),2021, 285(9): 8-15, 66.
[19] 黃榮懷. 人工智能正加速教育變革:現(xiàn)實(shí)挑戰(zhàn)與應(yīng)對(duì)舉措[J]. 新華文摘,2023(17): 122-125.