国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能與未來(lái)教育評(píng)價(jià)

2022-04-12 00:00:00馬克·約翰遜金俞崔新孫波
中國(guó)教育信息化 2022年7期

摘" "要:人工智能算法如何才能準(zhǔn)確把握人與人之間交流時(shí)傳遞的深層次思想,是人工智能教育評(píng)價(jià)系統(tǒng)面臨的最大挑戰(zhàn)之一。這需要相關(guān)工作者對(duì)人工智能、動(dòng)態(tài)對(duì)話以及統(tǒng)計(jì)分析有著更加深入的了解。在醫(yī)學(xué)應(yīng)用中,人工智能決策判斷的有效性主要由“敏感性”和“特異性”兩個(gè)統(tǒng)計(jì)指標(biāo)進(jìn)行衡量。雖然這些統(tǒng)計(jì)數(shù)據(jù)有助于了解總體情況,但卻忽略了一個(gè)事實(shí),即無(wú)論如何增加機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù),都無(wú)法消除判斷的不確定性。因此,在教育應(yīng)用中,必須考慮人與機(jī)器如何協(xié)同工作,以提高未來(lái)教育評(píng)價(jià)的效率,并為對(duì)話教育創(chuàng)造更多空間。文章著重分析機(jī)器學(xué)習(xí)、貝葉斯統(tǒng)計(jì)方法對(duì)改變基于人工智能的教育評(píng)價(jià)的可能性,強(qiáng)調(diào)未來(lái)教育評(píng)價(jià)最基本的問(wèn)題是明晰人與機(jī)器所擅長(zhǎng)的領(lǐng)域各不相同,人工智能在教學(xué)過(guò)程中提供自動(dòng)、高效和準(zhǔn)確的反饋,可以幫助學(xué)生實(shí)現(xiàn)自主學(xué)習(xí)和自我評(píng)價(jià);而對(duì)于機(jī)器無(wú)法確定的決策判斷,則需要教師的參與和干預(yù)。據(jù)此提出,將當(dāng)前人工智能在醫(yī)學(xué)診斷等領(lǐng)域的成功應(yīng)用,拓展到教育評(píng)價(jià)中,是未來(lái)教育改革的必然趨勢(shì),將帶來(lái)人(教師和學(xué)生)與機(jī)器之間的密切合作。其中,信任是這個(gè)過(guò)程中最重要的因素,要增強(qiáng)人們對(duì)人工智能教育評(píng)價(jià)的信任,就需對(duì)機(jī)器學(xué)習(xí)過(guò)程進(jìn)行更全面的檢測(cè),并用更豐富的信息來(lái)判斷特定結(jié)果的準(zhǔn)確度。而準(zhǔn)確度可能是未來(lái)教育評(píng)價(jià)技術(shù)中最為重要一個(gè)部分,其能夠引發(fā)新的學(xué)校教育實(shí)踐,并更有效地利用教師專業(yè)知識(shí),同時(shí)也能促進(jìn)自主學(xué)習(xí)、師生對(duì)話和互動(dòng)。

關(guān)鍵詞:人工智能;數(shù)據(jù)統(tǒng)計(jì);教育評(píng)價(jià);人機(jī)協(xié)同

中圖分類號(hào):G434 " " " " "文獻(xiàn)標(biāo)志碼:A" " " " "文章編號(hào):1673-8454(2022)07-0003-07

一、從醫(yī)學(xué)診斷到教育評(píng)價(jià)

在過(guò)去五年里,人工智能在醫(yī)療領(lǐng)域的應(yīng)用,特別是提供自動(dòng)診斷的能力有了突飛猛進(jìn)的提升。越來(lái)越多的證據(jù)表明,機(jī)器的性能在很多方面已經(jīng)超過(guò)了人類專家的判斷。這主要由于一些關(guān)鍵計(jì)算機(jī)技術(shù)突破所帶來(lái)的變化,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、語(yǔ)言模型(GPT-3),以及由斯比格爾特(Spiegelhalter)等人率先采用的復(fù)雜貝葉斯統(tǒng)計(jì)方法[1]。其中,復(fù)雜貝葉斯統(tǒng)計(jì)方法和人工智能的結(jié)合,為醫(yī)療領(lǐng)域提供了更有效的診斷方案。

一直以來(lái),醫(yī)療診斷領(lǐng)域面臨著信任和預(yù)測(cè)準(zhǔn)確性的挑戰(zhàn)。其一是信任問(wèn)題,如果臨床醫(yī)生不信任機(jī)器診斷的結(jié)果,那么人工智能所提供的診斷方案就很難被醫(yī)生采用。在教育領(lǐng)域,自動(dòng)化評(píng)價(jià)還處于起步階段[2-4],但是很可能會(huì)面臨與醫(yī)療領(lǐng)域類似的信任問(wèn)題。教育對(duì)人工智能提出了更大的挑戰(zhàn),最近圍繞人工智能考核評(píng)分中出現(xiàn)的一些負(fù)面爭(zhēng)議,動(dòng)搖了人們對(duì)機(jī)器學(xué)習(xí)算法的信任[5-8]。其二是與信任密切相關(guān)的機(jī)器預(yù)測(cè)準(zhǔn)確性問(wèn)題。和醫(yī)療診斷一樣,在教育評(píng)價(jià)中,對(duì)預(yù)測(cè)性能的評(píng)估與人工智能技術(shù)的發(fā)展同等重要。

基于此,本文討論了運(yùn)用貝葉斯統(tǒng)計(jì)方法,改變基于人工智能的教育評(píng)價(jià)的可能性:人工智能不是用于預(yù)測(cè)學(xué)生的成績(jī),而是評(píng)估這個(gè)“預(yù)測(cè)”的準(zhǔn)確度。由此不僅給教育評(píng)價(jià)帶來(lái)了新的機(jī)會(huì),而且也為教學(xué)模式變革、個(gè)性化學(xué)習(xí)和開(kāi)放對(duì)話提供了更大的可能性。這種可能性為對(duì)話教育,以及更有效地管理教育資源(包括教師和學(xué)生)提供了新的方式,這對(duì)未來(lái)教育的發(fā)展尤為重要。

二、預(yù)測(cè)未來(lái)和未來(lái)的預(yù)測(cè)

為了訓(xùn)練人工智能模型,需要將數(shù)千個(gè)案例組成一個(gè)“訓(xùn)練集”,而后建立有效的模型。機(jī)器學(xué)習(xí)意義上的“模型”,可以根據(jù)其對(duì)訓(xùn)練數(shù)據(jù)的標(biāo)注,自動(dòng)對(duì)新數(shù)據(jù)進(jìn)行分類。訓(xùn)練數(shù)據(jù)中具有明顯相似性的元素會(huì)被歸為同類,訓(xùn)練過(guò)程就是識(shí)別這些相似性,從而將元素按照不同的類別進(jìn)行區(qū)分。隨著Kaggle[9]等公共數(shù)據(jù)集的廣泛使用,訓(xùn)練過(guò)程變得更加簡(jiǎn)單,而且模型生成技術(shù)也已經(jīng)普及。機(jī)器學(xué)習(xí)通過(guò)處理大量數(shù)據(jù)來(lái)確定一組數(shù)據(jù)的“特征”,這些特征可以泛化到新數(shù)據(jù)中進(jìn)行分類。

教育數(shù)據(jù)比醫(yī)學(xué)數(shù)據(jù)更難分類。教育數(shù)據(jù)的類型非常復(fù)雜且差異很大(如論文、考試答案、圖表、視頻等)。通常,借助教師的評(píng)分結(jié)果,可以得到重要且較為可靠的數(shù)據(jù),并以此來(lái)衡量論文和考卷的相對(duì)質(zhì)量?;谶@樣的判斷,很容易區(qū)分一些高質(zhì)量或低質(zhì)量的論文和作品。因此,機(jī)器學(xué)習(xí)可以很容易自動(dòng)確定,明顯高分或低分的論文和作品。但對(duì)于處于“高分”或“低分”臨界點(diǎn)的論文或作品來(lái)說(shuō),機(jī)器很難為其評(píng)分。這就是說(shuō),人工智能預(yù)測(cè)的可靠性與其說(shuō)概括為“一般”可靠性(通常由敏感性、特異性等統(tǒng)計(jì)數(shù)據(jù)決定),不如說(shuō)是根據(jù)特定數(shù)據(jù)的特征,對(duì)正確預(yù)測(cè)可能性的預(yù)測(cè)。

在傳統(tǒng)的評(píng)估方法中,教師給學(xué)生分配任務(wù),并期望給予學(xué)生同等關(guān)注度,然而所有教師都知道,有些學(xué)生需要更多的時(shí)間才能完成任務(wù)。因此,教師需要對(duì)每個(gè)學(xué)生的作業(yè)進(jìn)行評(píng)判,這既不能有效地利用教師智慧,也不會(huì)給學(xué)生有效的反饋。例如,如果有學(xué)生提交了不符合要求的作業(yè),最好是立即給他反饋,告訴他“這不夠好”,進(jìn)而給出改進(jìn)作業(yè)的思路。但受到傳統(tǒng)評(píng)估方法、學(xué)生數(shù)量的限制,教師無(wú)法實(shí)現(xiàn)這樣的即時(shí)反饋。相對(duì)地,人工智能系統(tǒng)可以進(jìn)行自動(dòng)評(píng)估。人工智能系統(tǒng)審閱一件作品,能夠立即識(shí)別出它的特征,從而判斷作品質(zhì)量的好壞。除了給出評(píng)價(jià),它還能夠預(yù)測(cè)這個(gè)判斷的可靠程度??煽啃愿叩呐袛嗖恍枰處煾深A(yù),可以進(jìn)行自動(dòng)反饋。例如,一些系統(tǒng)可以直接提示學(xué)生如何改進(jìn)作業(yè),并及時(shí)有效地與學(xué)生互動(dòng),學(xué)生也可以嘗試在沒(méi)有教師干預(yù)的情況下修改作業(yè)。而可靠性低的機(jī)器判斷則需要教師的介入。總之,人工智能教育評(píng)估相對(duì)傳統(tǒng)評(píng)估方法,能夠降低教師的低效重復(fù)勞動(dòng),提升教學(xué)效率。

三、心理物理學(xué)和差異科學(xué)

教育評(píng)價(jià)從根本上來(lái)說(shuō)是一種確定差異的方式。質(zhì)量即等級(jí),是一個(gè)絕對(duì)的衡量標(biāo)準(zhǔn),而差異是一個(gè)相對(duì)的衡量標(biāo)準(zhǔn)。通過(guò)確定學(xué)生作業(yè)之間的差異,就有可能得出一個(gè)評(píng)分的標(biāo)準(zhǔn):如果已知所有作業(yè)之間的差異,則可以在差異最大和差異最小之間,按照順序進(jìn)行排列。在19世紀(jì),統(tǒng)計(jì)學(xué)和心理學(xué)的研究提出一個(gè)觀點(diǎn),即人類的區(qū)分能力可以用“最小差異”的基本極限來(lái)衡量?!靶睦砦锢韺W(xué)”這一概念最初由韋伯(Weber)提出[10],而后由費(fèi)希納(Fechner)完善,后來(lái)成為一門可以從統(tǒng)計(jì)學(xué)上檢驗(yàn)不同類型刺激(如不同類型的學(xué)生作業(yè))心理效應(yīng)的學(xué)科。

隨后,瑟斯通(Thurstone)提出了利用最小差異確定元素排名的想法[11]。瑟斯通對(duì)費(fèi)希納的工作進(jìn)行了擴(kuò)展,研究了人們感知一組物品之間差異的方式。瑟斯通認(rèn)為,對(duì)一對(duì)物品之間差異的識(shí)別,與對(duì)每個(gè)物品的假定絕對(duì)判斷之間的關(guān)系有關(guān)(瑟斯通稱之為“區(qū)別分散”)。所以如果給人們看兩件作品,并要求他們對(duì)每件作品給出相應(yīng)的判斷,所有人的判斷都會(huì)形成一個(gè)高斯分布,因此差異就是兩個(gè)高斯分布之間的差異。這就是瑟斯通的比較判斷法則,一種對(duì)數(shù)據(jù)(如學(xué)生作業(yè))進(jìn)行排序的方法,即在多個(gè)標(biāo)記之間進(jìn)行多個(gè)成對(duì)比較[12] 。

瑟斯通法則[11]啟發(fā)了許多統(tǒng)計(jì)方法。例如,利用層次分析法(Analytic Hierarchy Process, AHP)的相關(guān)技術(shù),在教育[12]和管理決策[13]中進(jìn)行判斷。在最基本的層面上,適應(yīng)性比較評(píng)判(Adaptive Comparative Judgement, ACJ)方法向人類展示一個(gè)域中一個(gè)對(duì)象的兩個(gè)示例,并詢問(wèn)“哪個(gè)更好”。計(jì)算機(jī)記錄判斷結(jié)果,更新數(shù)據(jù)項(xiàng)的內(nèi)部排名表,并向用戶提供一對(duì)新的數(shù)據(jù)項(xiàng)。在多次迭代中使用此技術(shù),可以根據(jù)簡(jiǎn)單的標(biāo)準(zhǔn)(如更好、更差)建立數(shù)據(jù)項(xiàng)的排名。瑟斯通提出了一個(gè)公式,將元素對(duì)之間的比較次數(shù),與該元素可能被不同評(píng)估者判斷正確的可能性概率聯(lián)系起來(lái)。對(duì)于任何一個(gè)數(shù)據(jù)元素,瑟斯通認(rèn)為,對(duì)該元素的判斷存在一個(gè)正態(tài)統(tǒng)計(jì)分布,正態(tài)曲線的峰值代表正確的判斷。給定兩個(gè)元素,就有兩個(gè)相關(guān)的正態(tài)分布。這兩個(gè)元素之間比較判斷的相對(duì)距離可以用圖1表示。其中,比較判斷之間的距離Si-Sj與比較次數(shù)Sigt;Sj、Si和Sj絕對(duì)判斷的分布,以及減去兩個(gè)分布之間的重疊部分有關(guān)。

分布之間的重疊以及分布的相對(duì)大小,都是Sj大于Si可能性的一個(gè)因素。如圖2所示,隨著重疊的減少,Si與Sj混淆的可能性就越小。同樣,分布中的標(biāo)準(zhǔn)差越小,正態(tài)分布曲線越尖銳,就越有可能做出正確的比較選擇。

更準(zhǔn)確地說(shuō),所做的比較選擇、相對(duì)判斷的標(biāo)準(zhǔn)偏差、判斷之間的重疊、所做選擇的數(shù)量之間的關(guān)系可以用以下公式表示:

Si-Sj=xij(1)

其中,Si-Sj表示兩個(gè)數(shù)據(jù)元素之間的相對(duì)判斷,xij表示Si大于Sj的比較次數(shù),σ2

i+σ2

j-2rijσiσj表示根據(jù)方差(σ2)和重疊對(duì)兩條正態(tài)曲線進(jìn)行的計(jì)算。

在沒(méi)有重疊的情況下,圖2中的情況意味著2rijσiσj這個(gè)項(xiàng)消失了,因此公式變得簡(jiǎn)單:

Si-Sj=xij或者xij=(2)

這意味著,在該種情況下,決定一個(gè)排名所需的比較次數(shù)與排名中的相對(duì)距離,以及每個(gè)元素方差之和的平方根之間的比率成正比。

通過(guò)使用這個(gè)公式,計(jì)算機(jī)可以將判斷任務(wù)分配給多位評(píng)估者,確保在數(shù)據(jù)集的不同元素之間進(jìn)行有效的判斷分配。由于某些“比較”相對(duì)容易(通常,在有序列表中,相距較遠(yuǎn)的比相距較近的“比較”更容易),不同能力的人可以參與這個(gè)過(guò)程,而通過(guò)這些能力記錄告知機(jī)器,之后按照能力分配比較元素。

上述方法有很多優(yōu)點(diǎn)。在教育評(píng)價(jià)中,該技術(shù)已經(jīng)開(kāi)始得到應(yīng)用和探索,如比較傳統(tǒng)評(píng)估中的“高風(fēng)險(xiǎn)”判斷、適應(yīng)性比較評(píng)判的“低風(fēng)險(xiǎn)”比較。在高風(fēng)險(xiǎn)的判斷中,甚至有些專家意見(jiàn)也是不一致的:心理物理因素在絕對(duì)判斷中會(huì)產(chǎn)生不一致。這意味著,在醫(yī)學(xué)等關(guān)鍵應(yīng)用中,判斷往往需要提交仲裁。在適應(yīng)性比較評(píng)判中,“低風(fēng)險(xiǎn)”也意味著,可能導(dǎo)致錯(cuò)誤的心理物理因素在減少:“低風(fēng)險(xiǎn)”意味著更低的皮質(zhì)醇(壓力)。也就是說(shuō),通過(guò)廣泛的兩兩比較,判斷可以形成一個(gè)準(zhǔn)確的排名,沒(méi)有高壓力參與絕對(duì)判斷。以成對(duì)比較進(jìn)行排序的一個(gè)主要缺點(diǎn)是,在大型數(shù)據(jù)集上,包含很多元素的列表需要許多人進(jìn)行大量的比較。出現(xiàn)這個(gè)問(wèn)題的部分原因是,對(duì)于任何要評(píng)分的新元素,人們無(wú)法確切地知道它在一開(kāi)始的排名中所處的位置,只能通過(guò)適應(yīng)性比較評(píng)判算法的迭代來(lái)建立,并且可能需要非常多的迭代,才能確定項(xiàng)目適合的排序位置。顯然,在排名中對(duì)某個(gè)元素的位置,進(jìn)行初始“第一次猜測(cè)”的技術(shù)是非??扇〉?。筆者認(rèn)為,此時(shí)機(jī)器學(xué)習(xí)在排名中作出的批判性判斷非常重要。此外,機(jī)器學(xué)習(xí)識(shí)別排名關(guān)鍵部分的能力,是一種識(shí)別特定元素存在不確定性的方式,也是一種協(xié)調(diào)人類關(guān)于排名過(guò)程對(duì)話的方式。

機(jī)器學(xué)習(xí)的使用與典型的自動(dòng)評(píng)分方法有很大不同。自動(dòng)評(píng)分會(huì)對(duì)一件作品進(jìn)行判斷并提供“答案”。相反地,結(jié)合了機(jī)器學(xué)習(xí)的適應(yīng)性比較評(píng)判方法,可以有效地處理爭(zhēng)議較小的“簡(jiǎn)單”比較,從而將人的精力集中于處理難度更大的比較。換句話說(shuō),機(jī)器學(xué)習(xí)方法提供了一種協(xié)調(diào)人的活動(dòng)和機(jī)器活動(dòng)的新方法,可以直接協(xié)助人對(duì)困難的比較做出判斷。

四、似然的組織排序

從樣本均值和標(biāo)準(zhǔn)差能夠很容易地得到高斯分布總體情況,因此,利用高斯分布進(jìn)行統(tǒng)計(jì)推斷會(huì)更便捷。例如,讓一個(gè)群體對(duì)A和B的大小進(jìn)行判斷,如果這種判斷被視為機(jī)器學(xué)習(xí)的“訓(xùn)練集”,該“訓(xùn)練集”就存在對(duì)應(yīng)的高斯分布。機(jī)器學(xué)習(xí)的目標(biāo)是,當(dāng)遇到一個(gè)尚未出現(xiàn)過(guò)的元素,機(jī)器學(xué)習(xí)模型將其置于正態(tài)分布的什么位置(即預(yù)測(cè)新元素的值)。那么,如果簡(jiǎn)化上述過(guò)程,預(yù)測(cè)新元素值準(zhǔn)確的可能性(Likelihood)有多高。

舉例來(lái)說(shuō),如果人工智能被訓(xùn)練用于比較成對(duì)的數(shù)據(jù),人工智能會(huì)對(duì)新數(shù)據(jù)進(jìn)行多次預(yù)測(cè)后排序(Ranking),并生成“預(yù)測(cè)”的結(jié)果。那么,預(yù)測(cè)結(jié)果正確的可能性有多高?而從比較中得到的任意排序,都需要通過(guò)一定閾值。例如,一篇論文被判斷為“通過(guò)”或“未通過(guò)”,僅使用了最為簡(jiǎn)單的規(guī)則:距離閾值越近,作出正確判斷的可靠性越低;距離閾值越遠(yuǎn),作出正確判斷的可能性越高。

這種概率能夠采用貝葉斯統(tǒng)計(jì)方法進(jìn)行計(jì)算。貝葉斯方法類似瑟斯通比較判斷法則,它使機(jī)器學(xué)習(xí)能夠預(yù)測(cè)判斷結(jié)果落入特定類別的可能性。取似然值的自然對(duì)數(shù)后,對(duì)其進(jìn)行加減運(yùn)算,并采用比率進(jìn)行整體評(píng)估,該比率一端是閾值,另一端是事件。例如,一部分屬于一個(gè)類別,如“通過(guò)”;而另一部分屬于另一個(gè)類別,如“未通過(guò)”。這些似然值對(duì)應(yīng)于高斯分布的重疊。例如,任何一個(gè)遠(yuǎn)離閾值的結(jié)果,都會(huì)有一個(gè)很大的正值或負(fù)值。在高斯分布的重疊中,似然值將會(huì)是一個(gè)較小的正值或負(fù)值。

較小的似然值意味著機(jī)器學(xué)習(xí)得到的結(jié)果不夠可靠,而較高似然值則表示結(jié)果高度可靠。因此,較小的似然值需要人的介入判斷,而當(dāng)似然值較大時(shí),人的判斷和機(jī)器判斷的結(jié)論很可能一致。除了能夠更有效地利用人的干預(yù),貝葉斯方法同樣提供了基于訓(xùn)練集評(píng)估機(jī)器學(xué)習(xí)預(yù)測(cè)準(zhǔn)確性的方式。原因在于,較高正似然值會(huì)將結(jié)果至于排序的頂端,而較低似然值會(huì)將其置于排序的底端,不同結(jié)果根據(jù)似然值的大小排序,排序位置能夠與訓(xùn)練集數(shù)據(jù)已知的位置進(jìn)行比較。通過(guò)使用該技術(shù)可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)犯錯(cuò)的大多數(shù)情況都是在閾值附近。

五、 對(duì)話教育、人工智能和人類

教育人工智能面臨的眾多挑戰(zhàn)之一,是人工智能在群體學(xué)習(xí)中的角色,特別是“學(xué)習(xí)共同體的學(xué)習(xí)”[14][15]?;跈C(jī)器學(xué)習(xí)的評(píng)價(jià)和機(jī)器學(xué)習(xí)本身帶來(lái)一個(gè)更基本的問(wèn)題:“共同”的真正含義是什么?物理空間中的“面對(duì)面”學(xué)習(xí)很好想象,但人們能夠看到的“共同”還包括:社交媒體、線上游戲、作者已經(jīng)逝世很久的書(shū)籍、藝術(shù)、戲劇或音樂(lè)。

“共同”的本質(zhì)和已有對(duì)其的理解中,對(duì)話的角色正在受到機(jī)器學(xué)習(xí)的挑戰(zhàn)。例如,機(jī)器學(xué)習(xí)擴(kuò)散模型利用文字提示,產(chǎn)生原創(chuàng)藝術(shù)作品的能力,已經(jīng)引發(fā)藝術(shù)家在網(wǎng)絡(luò)上的廣泛討論。這些藝術(shù)家似乎既與人工智能對(duì)話,產(chǎn)出藝術(shù)作品,又與他們的線上同僚進(jìn)行對(duì)話。同大多數(shù)機(jī)器學(xué)習(xí)模型一樣,擴(kuò)散模型“吸收”了互聯(lián)網(wǎng)中的百萬(wàn)幅圖片,分析它們的模式,進(jìn)而能夠模仿繪制出具有相似審美特征的作品。機(jī)器學(xué)習(xí)了藝術(shù)家原創(chuàng)作品的模式,并能夠數(shù)字化地、更大范圍內(nèi)產(chǎn)出作品。

如果將這樣的對(duì)話視為藝術(shù)家之間的交流,就會(huì)發(fā)現(xiàn),機(jī)器學(xué)習(xí)正在揭示更深層的東西,即人與人之間有意義的對(duì)話有一定模式,并且這種模式能夠被分析,機(jī)器學(xué)習(xí)模型能夠表征這種模式并且復(fù)制它。當(dāng)人們與人工智能互動(dòng),就是在參與(或者說(shuō)在強(qiáng)化)這種模式。逐步揭示過(guò)去30年網(wǎng)絡(luò)中人們的對(duì)話模式,可以發(fā)現(xiàn),其創(chuàng)造力和原創(chuàng)性是令人震驚的。

從生態(tài)效度的觀點(diǎn)來(lái)看對(duì)話,同樣對(duì)評(píng)估有所啟示。如果將評(píng)價(jià)過(guò)程按照貝葉斯方法的方式理解,專家觀點(diǎn)是一個(gè)正態(tài)分布,而評(píng)價(jià)過(guò)程則是將學(xué)生理解與專家觀點(diǎn)進(jìn)行擬合。如果通過(guò)編碼專家對(duì)話,人工智能能夠識(shí)別專業(yè)性判斷的模式,那么,學(xué)生參與人工智能評(píng)價(jià)就是與機(jī)器進(jìn)行對(duì)話?人類專家或教師在其中的角色又應(yīng)該是怎樣的?

上述問(wèn)題恰好集中在人類通過(guò)協(xié)商解決不確定性問(wèn)題的能力。對(duì)思想、觀點(diǎn)和情緒的生理反應(yīng)是機(jī)器無(wú)法擁有的能力。親密感、信任等能夠觸及人類思想和對(duì)話中的深度不確定性,然而機(jī)器目前還不具備這樣的能力。而深度理解這些可能需要更深層的微觀進(jìn)化(Cellular Evolution),并結(jié)合表觀遺傳學(xué)、量子力學(xué)等學(xué)科的發(fā)展。技術(shù)的最大貢獻(xiàn),可能是解鎖人類生物技術(shù)的潛能,用于深入研究現(xiàn)有的各種科學(xué)謎團(tuán)。

六、結(jié)論

將當(dāng)前人工智能在醫(yī)學(xué)診斷等領(lǐng)域的成功應(yīng)用,拓展到教育評(píng)價(jià)中,是未來(lái)教育改革的必然趨勢(shì),將帶來(lái)人(教師和學(xué)生)與機(jī)器之間的密切合作。其中,信任是這個(gè)過(guò)程中最重要的因素,要增強(qiáng)人們對(duì)人工智能教育評(píng)價(jià)的信任,就需對(duì)機(jī)器學(xué)習(xí)過(guò)程進(jìn)行更全面的檢測(cè),并用更豐富的信息來(lái)判斷特定結(jié)果的準(zhǔn)確度。而準(zhǔn)確度可能是未來(lái)教育評(píng)價(jià)技術(shù)中最為重要一個(gè)部分,其能夠引發(fā)新的學(xué)校教育實(shí)踐,并更有效地利用教師專業(yè)知識(shí),同時(shí)也能促進(jìn)自主學(xué)習(xí)、師生對(duì)話和互動(dòng)。

自動(dòng)化教育評(píng)價(jià)被視為人工智能預(yù)測(cè)在現(xiàn)實(shí)社會(huì)中應(yīng)用的一個(gè)例子。長(zhǎng)期以來(lái),這種預(yù)測(cè)方法既吸引了哲學(xué)家和社會(huì)學(xué)家的興趣,也讓他們感到擔(dān)憂。但是,機(jī)器學(xué)習(xí)不會(huì)認(rèn)為世界以一種確定的方式運(yùn)行。貝葉斯統(tǒng)計(jì)方法專注于預(yù)測(cè)結(jié)果是否準(zhǔn)確,表明更深層的應(yīng)用是組織重建,而不是僅僅將事物進(jìn)行分類。無(wú)論是教育、政治、醫(yī)療,還是法律領(lǐng)域,人類面臨的問(wèn)題都是一樣的,即如何最有效地利用各種技術(shù)提高自身的生存能力,這也是每個(gè)教師和學(xué)生都必須面對(duì)的重要問(wèn)題。

參考文獻(xiàn):

[1]SPIEGELHALTER D J, BEST N G, CARLIN B P, et al. Bayesian measures of model complexity and fit[J]. Journal of the royal statistical society: Series b (statistical methodology), 2002,64:583-639.

[2]JACKSON D, USHER M. Grading student programs using ASSYST[C]. Grading student programs using ASSYST[C]. Proceedings of the 28th SIGCSE Technical Symposium on Computer Science Education, 1997, San Jose, California, USA, February 27-March 1, 1997.

[3]NAZARETSKY T, CUKUROVA M, ARIELY M, et al. Teachers’ trust in AI-powered educational technology and a professional development program to improve it[J]. British journal of educational technology, 2022(1):1-18.

[4]VANLEHN K. The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems[J]. Educational psychologist, 2011(46):197-221.

[5]SMITH H. Algorithmic bias: should students pay the price?[J]. AI amp; society, 2020(35):1077-1078.

[6]KIZILCEC R F. How much Information? effects of transparency on trust in an algorithmic interface[C]. New York: In Proceedings of the 2016 CHI conference on human factors in computing systems, 2016.

[7]KELLY A. A tale of two algorithms: the appeal and repeal of calculated grades systems in england and ireland in 2020[J]. British Educational Research Journal, 2021(47):725-741.

[8]OVETZ R. The algorithmic university: on-line education, learning management systems, and the struggle over academic labor[J]. Critical Sociology, 2021(47):1065-1084.

[9]Kaggle: Your Home for Data Science[DB/OL].[2022-5-30]. https://www.kaggle.com/.

[10]HELEN E R, DAVID J M, ROSS H E, et al. Weber on the tactile senses[C]. London: Psychology Press, 2018.

[11]THURSTONE L L. The method of paired comparisons for social values[J]. The Journal of Abnormal and Social Psychology, 1927(21):384.

[12]POLLITT A. The method of adaptive comparative judgement[J]. Assessment in Education: principles, policy amp; practice, 2012(19):281-300.

[13]SAATY T L. Decision making with the analytic hierarchy process[J]. International Iournal of Services Sciences, 2008(1):83-98.

[14]WEGERIF R. Dialogic education and technology: Expanding the space of learning[M]. New York: Springer Science amp; Business Media, 2007.

[15]YANG Y, WEGERIF R, DRAGON T, et al. Learning how to learn together(L2L2) : developing tools to support an essential complex competence for the Internet Age[J]. International Society of the Learning Sciences, 2013(2):193-196.

作者簡(jiǎn)介:

馬克·約翰遜(Mark Johnson), 丹麥哥本哈根大學(xué)教育數(shù)字化高級(jí)研究員,利物浦大學(xué)視力與視覺(jué)科學(xué)系特聘教授,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)在醫(yī)療、教育中的創(chuàng)新實(shí)踐與應(yīng)用等,郵箱:mj@ind.ku.dk;

金俞, 北京師范大學(xué)未來(lái)教育學(xué)院講師,共同第一作者、同等貢獻(xiàn)者,主要研究方向?yàn)榻y(tǒng)計(jì)分析、學(xué)習(xí)分析,郵箱:jinyu@bnu.edu.cn;

崔新,北京師范大學(xué)未來(lái)教育學(xué)院講師,主要研究方向?yàn)檎Z(yǔ)言和閱讀發(fā)展的認(rèn)知神經(jīng)機(jī)制,郵箱:xincui@bnu.edu.cn;

孫波,北京師范大學(xué)珠海校區(qū)副教務(wù)長(zhǎng)、未來(lái)教育學(xué)院副院長(zhǎng)、人工智能與未來(lái)網(wǎng)絡(luò)研究院教授,通訊作者,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、情感計(jì)算和計(jì)算機(jī)教育應(yīng)用,郵箱:tosunbo@bnu.edu.cn。

Artificial Intelligence and the Future of Education Assessment

Mark JOHNSON1,2?, Yu JIN1?, Xin CUI1, Bo SUN1*

(1.College of Education for the Future, Beijing Normal University, Zhuhai Guangdong 519087;2.Department of Science Education, University of Copenhagen, Copenhagen 1165, Denmark)

Abstract: One of the big challenges in using Artificial Intelligence (AI) for education assessment system is how to capture and represent the deep thoughts developed through communication between people engaged in learning. This requires a deep understanding of artificial intelligence, statistical analysis, and rich dynamic dialogue data. The effectiveness of AI judgement- particularly in medical applications-is typically measured as percentages of “sensitivity” and “specificity”. While these statistics are helpful in understanding the overall picture, they ignore the fact that machines have a high degree of certainty about decisions far from the threshold, but less certainty about decisions near the threshold. Furthermore, no amount of training data for machine learning can eliminate the uncertainty of judgment. Therefore, in educational applications, it is necessary to consider how humans and machines work together to improve the efficiency of future education assessments and create more space for dialogue in education. This paper focuses on the possibility of machine learning and Bayesian statistical methods to change the education assessment by the development of AI. It emphasizes that one of the key issues of future education assessment is to clarify that people and machines are good at different problem areas. AI can provide automatic, efficient, and accurate feedback to help students achieve self-directed learning and self-assessment, while the decision-making that cannot be determined by machines, teachers’ participation and intervention are required. Based on this, it proposed that the currently successful application of artificial intelligence in medical diagnosis and other fields to be extended to assessment in education. It is inevitable that future education reform will need to bring close cooperation between people (teachers and students) and machines. Among them, trust is the most important factor in this process. To enhance trust in AI education assessment, it is necessary to conduct more comprehensive inspections for the machine learning process and use more abundant information to assess the accuracy of specific results. One of the most important aspects of future education assessment technology is that it can lead to innovative teaching and learning practices, make more effective use of teachers’ expertise, and also promote self-regulated learning and the dialogue and interaction among teachers and students.

Keywords: Artificial intelligence; Statistics; Assessment; Human-machine collaboration

編輯:王曉明" " 校對(duì):李曉萍

靖江市| 洱源县| 永年县| 西吉县| 龙山县| 内黄县| 呼图壁县| 景德镇市| 平顺县| 光山县| 雷波县| 天峻县| 佳木斯市| 会泽县| 曲水县| 军事| 元氏县| 阿鲁科尔沁旗| 河池市| 巴中市| 平度市| 柳河县| 白银市| 丁青县| 台前县| 滦平县| 思南县| 稷山县| 南岸区| 龙泉市| 改则县| 沧州市| 莱西市| 崇州市| 平乡县| 横峰县| 于田县| 浑源县| 海伦市| 满洲里市| 嘉定区|