国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大模型的教育測量與評價變革探索

2024-05-30 20:06:44王雪李文碩王雅薇張生

王雪 李文碩 王雅薇 張生

【摘 要】本研究旨在以生成式人工智能技術(shù)為例,探索大模型在題目生成、測量學(xué)分析、自動評分和過程性評價等關(guān)鍵教育測量與評價領(lǐng)域的變革和應(yīng)用。通過對大模型的應(yīng)用實例進(jìn)行綜合論證、分析,意在揭示其在教育測量與評價中的應(yīng)用效能,從而推動對該技術(shù)的進(jìn)一步研究和討論。

【關(guān)鍵詞】大模型;教育測量與評價;生成式人工智能

【中圖分類號】G434? ?【文獻(xiàn)標(biāo)志碼】B

【論文編號】1671-7384(2024)05-012-03

在當(dāng)前社會的數(shù)字化轉(zhuǎn)型過程中,人工智能(AI)已成為不可或缺的力量。特別是AI大模型,以其高級的自動化執(zhí)行任務(wù)、深刻的語義理解、創(chuàng)新的輸出生成、精確的邏輯判斷以及處理大規(guī)模數(shù)據(jù)的能力,正在從根本上改變我們生活的各個方面[1]。生成式人工智能,作為一種能夠基于自然語言提示(Prompt)自動產(chǎn)生回應(yīng)內(nèi)容的AI技術(shù)[2],進(jìn)一步深化了大模型的應(yīng)用范圍,尤其是在變革教育測量與評價這一復(fù)雜領(lǐng)域的潛能上。盡管在該領(lǐng)域應(yīng)用AI的例子屢見不鮮,但以生成式人工智能技術(shù)為核心的大模型在這一領(lǐng)域的變革潛力、實踐過程及應(yīng)用效果的深入研究仍然缺乏?;诖?,本研究嘗試從題目生成、測量學(xué)分析、自動評分和過程性評價四個方面系統(tǒng)地審視AI大模型對教育測量與評價領(lǐng)域的變革,全面評估大模型的潛力和面臨的挑戰(zhàn)。

大模型在題目生成中的應(yīng)用

在教育評估領(lǐng)域,題目生成是核心環(huán)節(jié)之一,其質(zhì)量直接影響評估的有效性和準(zhǔn)確性。傳統(tǒng)的題目生成過程往往依賴于教師或?qū)<业慕?jīng)驗和創(chuàng)造力,不僅耗時耗力,而且在題目的多樣性、創(chuàng)新性及個性化方面存在局限。大模型的高度智能化和自動化能力使得這一過程得到顯著改善和加速,其能夠基于廣泛的知識庫生成各類型、各難度級別的題目,同時提供更高效、更個性化的題目創(chuàng)作解決方案。

在生成常規(guī)題目方面,大模型能夠基于預(yù)設(shè)的知識點快速生成題目,如選擇題、填空題等,這類題目是檢測學(xué)生對基礎(chǔ)知識掌握情況的重要方式。大模型的應(yīng)用顯著提高了題目生成的效率和多樣性,降低了人工編題的時間成本。生成此類題目時,用戶需要提供清晰的知識點和期望的題型。

在生成分層類題目方面,針對不同能力層次的學(xué)生,大模型可以定制生成分層類題目,以實現(xiàn)教學(xué)的個性化。這一應(yīng)用幫助教師針對學(xué)生的不同理解程度提供相應(yīng)難度的練習(xí)題,優(yōu)化學(xué)習(xí)路徑。在生成分層題目時,需指定知識點及不同難度級別的描述。因此,要確保難度分級的合理性,以及分層題目涵蓋知識點的全面性。

在生成探究類題目方面,大模型能夠根據(jù)最新研究和情境,生成旨在培養(yǎng)學(xué)生批判性思維和解決問題能力的探究性題目。這種應(yīng)用促進(jìn)了學(xué)生的深度學(xué)習(xí),鼓勵學(xué)生超越傳統(tǒng)的記憶式學(xué)習(xí)。生成探究性題目時,用戶需要提供探究的主題和目的,確保題目具有開放性,能夠激發(fā)學(xué)生的思考和探索。

下面通過教師與大模型的對話進(jìn)行實例展示。教師:“我需要一組圍繞‘生態(tài)系統(tǒng)的能量流動主題的分層題目,從基礎(chǔ)知識到應(yīng)用分析?!贝竽P停骸盎A(chǔ)層次,我生成了一道選擇題‘在生態(tài)系統(tǒng)中,能量的傳遞順序是?;中級層次,是一道簡答題‘解釋食物鏈中每個環(huán)節(jié)能量傳遞的效率問題;高級層次,則是一道探究題‘設(shè)計一個實驗,來研究不同生態(tài)系統(tǒng)能量流動的差異?!?/p>

教師:“對于高級層次的探究題,我希望增加跨學(xué)科的要求,比如結(jié)合數(shù)學(xué)建模。”大模型:“理解了,我生成這樣一個問題‘使用數(shù)學(xué)模型來預(yù)測和比較兩個不同生態(tài)系統(tǒng)能量流動的效率,并解釋可能導(dǎo)致差異的生態(tài)因素?!?/p>

從表現(xiàn)來看,大模型在題目生成時具有靈活性和實用性,不僅能根據(jù)教師的需求快速生成不同類型的題目,還能夠根據(jù)具體要求調(diào)整題目難度和內(nèi)容,展現(xiàn)了其在教育領(lǐng)域的巨大潛力。為確保題目的質(zhì)量和準(zhǔn)確性,生成后的題目應(yīng)通過專家或教師進(jìn)行審核。

大模型在測量學(xué)分析中的應(yīng)用

測量學(xué)分析是保證工具質(zhì)量的關(guān)鍵。從數(shù)據(jù)層面看,往往需要關(guān)注難度系數(shù)、區(qū)分度系數(shù)、內(nèi)部一致性系數(shù)、效標(biāo)相關(guān)等指標(biāo);從內(nèi)容層面看,還需要關(guān)注工具的內(nèi)容效度,判斷工具是否能夠充分反映所測構(gòu)念。大模型能夠幫助初學(xué)者了解測量學(xué)分析的相關(guān)原理、步驟和解釋方法等,并輔助對內(nèi)容效度做出初步判斷(以PISA的閱讀元認(rèn)知策略的測評題目為例),實例展示如下(相關(guān)語句經(jīng)過提煉總結(jié))。

例1:輔助開展測量學(xué)分析

用戶:“你能告訴我計算克隆巴赫系數(shù)的SPSS語句和R代碼嗎?”

大模型:

“SPSS語句:Reliability

/VARIABLES=var1 var2 var3 var4 var5 var6 var7

/SCALE('All variables') ALL

/MODEL=ALPHA.

R 代碼:

library(psych)

data <- read.csv("data.csv")

alpha(data)”

用戶:“我從SPSS得到的克隆巴赫系數(shù)為 0.909,我該如何解釋它?”

大模型:“通常,克隆巴赫系數(shù)高于0.7被認(rèn)為是可接受的,高于 0.8表示良好的內(nèi)部一致性。”

例2:輔助開展內(nèi)容效度評估

用戶:“幫我評估這道測量學(xué)生閱讀元認(rèn)知的題目‘快速瀏覽兩遍文章。”大模型:“該題項不能提供有關(guān)文本理解詳細(xì)程度的信息。該項目的有效性取決于閱讀的目的以及文本的類型和復(fù)雜性。該項目沒有明確表明學(xué)生是否理解了文章。更好的題目是‘我快速通讀了兩遍文本,可以識別主要思想和支持細(xì)節(jié)。”

從表現(xiàn)來看,大模型所提供的建議能夠幫助初學(xué)者迅速熟悉相關(guān)分析的操作方法,為評估內(nèi)容效度提供參考。但其給出的建議也存在誤區(qū),需要謹(jǐn)慎對待,如信度高低的判斷標(biāo)準(zhǔn)事實上與工具的應(yīng)用場景有關(guān),在高利害測驗的情景下,大模型給出的判斷標(biāo)準(zhǔn)并不適用,以及所給出的題目修改意見包含多重表述。

大模型在自動評分中的應(yīng)用

自動評分是將被試在測驗中的表現(xiàn)自動轉(zhuǎn)換為分?jǐn)?shù)的過程。自動評分的研究熱點集中在較為復(fù)雜的作文評分等任務(wù)上,大模型在這方面具有強(qiáng)大的潛力。表1展示的是人類和大模型對三篇作文的評分差異。在這三個有限樣本中,大模型在每個維度上的評分和人類評分者相比分差最大為1分,考慮到人類評分者之間也可能存在差異,這在容忍范圍內(nèi)。

表1? 人類和大模型的評分對比

人類

評分 大模型

評分 人類基于維度的評分 大模型基于維度的評分

3 4 1;1;1;0 1;1;1;1

6 7 2;2;1;1/1;2;2;1

(兩位人類評分者) 2;2;1;2

12 9 3;3;3;3 2;2;2;3

大模型不僅能夠提供總分,還能提供每個維度的分?jǐn)?shù),并給出一些評分原因。例如,它對第二篇文章的評論如下。

主題(2分):作者講述了一個關(guān)于制作一款游戲的故事,主題鮮明,但還需要添加更多具體細(xì)節(jié)。

結(jié)構(gòu)(2 分):寫作具有一定的邏輯順序,但過渡不夠清晰。

語言(1 分):寫作中語言使用較差,詞語選擇和語句結(jié)構(gòu)缺乏多樣性。

語法(2 分):在語法、標(biāo)點符號使用等方面符合慣例。

大模型提供的評分依據(jù)與評分標(biāo)準(zhǔn)高度一致,像是對評分標(biāo)準(zhǔn)的重述。整體而言,大模型在自動評分方面的表現(xiàn)處于可以接受的水平,可以替代非高利害場景下、重復(fù)性的評分工作(如日常作業(yè)),也可以為人類評分者提供參照,但尚不能獨立承擔(dān)高利害場景的評分工作。

大模型在過程性評價中的應(yīng)用

大模型在支持過程性評價方面提供了顯著價值,尤其是在設(shè)計評價標(biāo)準(zhǔn)和指標(biāo)、制定評價計劃、開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)上,下面展示大模型提供的科學(xué)課程過程性評價流程和建議。

1.設(shè)計評價標(biāo)準(zhǔn)和指標(biāo)

(1)定義評價目標(biāo):清晰定義評價目標(biāo),如評估學(xué)生對科學(xué)概念的掌握程度、實驗設(shè)計技能和科學(xué)思維。(2)制定評價標(biāo)準(zhǔn):根據(jù)評價目標(biāo)建立相應(yīng)的評價標(biāo)準(zhǔn)。例如,掌握程度可以包括知識的正確性、深度和廣度;實驗設(shè)計技能可以涉及設(shè)計實驗、觀察數(shù)據(jù)和分析結(jié)果;科學(xué)思維可以包括推理、解決問題和創(chuàng)新。(3)選擇評價指標(biāo):基于評價標(biāo)準(zhǔn),選擇具體的評價指標(biāo)。例如,在評估掌握程度時,選擇學(xué)生的測試分?jǐn)?shù)和他們在課堂討論中的表現(xiàn)作為指標(biāo);在實驗設(shè)計技能方面,選擇學(xué)生的實驗報告和實驗數(shù)據(jù)的質(zhì)量作為指標(biāo);在評估科學(xué)思維時,選擇學(xué)生的思維導(dǎo)圖、論文寫作和解決實際問題的能力作為指標(biāo)。

2.制定評價計劃

(1)確定評價時機(jī):提供建議,說明評價將在何時進(jìn)行,如每個學(xué)期結(jié)束時、每個單元結(jié)束時或每次實驗后。(2)定義評價內(nèi)容:基于評價目標(biāo)和標(biāo)準(zhǔn),清楚地概述評價的具體內(nèi)容。(3)選擇數(shù)據(jù)收集方法:基于評價內(nèi)容,選擇適當(dāng)?shù)臄?shù)據(jù)收集方法,如測試、實驗報告、問卷、觀察、自評和同伴互評等。(4)制定數(shù)據(jù)分析計劃:創(chuàng)建一個分析數(shù)據(jù)的計劃。這涉及組織數(shù)據(jù)、選擇合適的分析方法,并規(guī)劃結(jié)果將如何呈現(xiàn)。

3.開展數(shù)據(jù)分析和結(jié)果呈現(xiàn)

(1)數(shù)據(jù)分析:使用適當(dāng)?shù)臄?shù)據(jù)分析方法,如使用Excel、SPSS、Mplus、R和Python等軟件分析數(shù)據(jù),涉及計算平均值、標(biāo)準(zhǔn)差和頻率分布等,以更好地理解學(xué)生的學(xué)習(xí)表現(xiàn)。(2)結(jié)果呈現(xiàn):以圖表、報告或其他適當(dāng)?shù)母袷匠尸F(xiàn)分析結(jié)果。根據(jù)評價結(jié)果提供反饋和建議,以改進(jìn)教學(xué)和學(xué)習(xí)過程。例如,可以創(chuàng)建成績報告、學(xué)生評價報告、教師反饋報告,向?qū)W生和教師展示評價結(jié)果,并基于發(fā)現(xiàn)提供反饋和建議。

通過上述指導(dǎo),大模型可以在廣泛的過程性評價領(lǐng)域中提供支持,促進(jìn)教育評價活動的高效、科學(xué)進(jìn)行。在實際應(yīng)用中,教育者應(yīng)結(jié)合教學(xué)和學(xué)生的具體情況進(jìn)行具體步驟的細(xì)化和需求迭代。

結(jié)論與展望

大模型在教育測量與評價的題目生成、測量學(xué)分析、自動評分、過程性評價四個關(guān)鍵領(lǐng)域已經(jīng)展現(xiàn)出了變革應(yīng)用的初步成效。然而,這些應(yīng)用在不同場景的適用性以及脫離人類專家工作的能力方面,仍面臨一定的局限。

此外,大模型變革教育測量與評價面臨的挑戰(zhàn)和風(fēng)險也不容忽視,包括算法性能的局限、倫理問題(如評價的公平性、隱私保護(hù))以及技術(shù)風(fēng)險(如生成不實內(nèi)容、對技術(shù)的過度依賴)。為有效應(yīng)對這些挑戰(zhàn),關(guān)鍵在于培養(yǎng)批判性的評估技能、探索大模型的新應(yīng)用模式,并確保在使用過程中保持人的主導(dǎo)地位,確保以一種負(fù)責(zé)任和遵循倫理的方式利用AI大模型,從而最大化其對教育測量與評價領(lǐng)域的變革效益。

注:本文系國家重點研發(fā)計劃“社會治理與智慧社會科技支撐”重點專項項目——“大規(guī)模學(xué)生跨學(xué)段成長跟蹤研究,綜合素養(yǎng)測評的構(gòu)建課題”(課題編號:2021YFC3340801)的研究成果

參考文獻(xiàn)

Liu S, Wright AP, Patterson BL, et al. Using AI-generated suggestions from ChatGPT to optimize clinical decision support [J]. Journal of the American Medical Informatics Association,2023,30 (7):1237-1245.

UNESCO. Guidance for Generative AI in Education and Research [EB/OL]. (2023-09-08)[2024-03-28].https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research.

南城县| 资中县| 洪湖市| 大新县| 济源市| 鹿邑县| 漾濞| 长春市| 渭源县| 鸡东县| 吴川市| 大姚县| 德钦县| 和静县| 镇江市| 南丹县| 天峨县| 潼南县| 大冶市| 武汉市| 云霄县| 陈巴尔虎旗| 开化县| 隆尧县| 毕节市| 那曲县| 天长市| 耿马| 长沙市| 乌审旗| 灵山县| 九台市| 襄城县| 堆龙德庆县| 桐庐县| 满城县| 淮安市| 濮阳县| 应城市| 沂水县| 闽侯县|