可解釋人工智能在教育中的應(yīng)用模式研究 *

2022-08-15 00:35王德亮陳鵬鶴余勝泉

中國電化教育 2022年8期

盧宇，章志，王德亮，陳鵬鶴，余勝泉

(1.北京師范大學(xué) 未來教育高精尖創(chuàng)新中心，北京 100875；2.北京師范大學(xué) 教育學(xué)部教育技術(shù)學(xué)院，北京 100875)

一、引言

2017年國務(wù)院出臺(tái)《新一代人工智能發(fā)展規(guī)劃》，明確提出利用人工智能等新一代信息技術(shù)構(gòu)建智能學(xué)習(xí)與交互式學(xué)習(xí)的新型教育體系[1]。人工智能技術(shù)開始逐步被應(yīng)用到各類智能教學(xué)系統(tǒng)與平臺(tái)中，也逐步滲透到線上與線下多種典型教育場景中。由于教育場景與教學(xué)主體本身的多樣性與復(fù)雜性，人工智能教育應(yīng)用通常需要基于大規(guī)模、長周期與多模態(tài)的教育數(shù)據(jù)，開展深入分析并構(gòu)建精準(zhǔn)模型。然而，傳統(tǒng)的統(tǒng)計(jì)分析與建模方法，已很難處理和勝任這類任務(wù)。隨著人工智能技術(shù)的快速演進(jìn)和發(fā)展，以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能模型在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域均展現(xiàn)出明顯優(yōu)于傳統(tǒng)模型的性能。這類內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的人工智能模型通常在高維數(shù)據(jù)空間上具備良好的信息表征與隱含特征提取能力，因此也逐漸成為人們研發(fā)各類智能教育系統(tǒng)與應(yīng)用的首選。

然而，在性能提升的同時(shí)，這類人工智能模型由于其內(nèi)部結(jié)構(gòu)與決策過程的復(fù)雜性與不透明性，通常難以提供清晰且易理解的說明和依據(jù)。換言之，模型的使用者甚至構(gòu)建者只能看到模型輸出的結(jié)果，但難以理解模型運(yùn)行的基本邏輯。這種“黑箱”性質(zhì)使得模型的輸出結(jié)果易受到質(zhì)疑，并可能帶來不可控的安全隱患與非故意偏見，進(jìn)而引起用戶對模型所在系統(tǒng)或平臺(tái)決策和服務(wù)的不信任。例如在醫(yī)療領(lǐng)域，缺乏可解釋性的自動(dòng)輔助診斷人工智能模型及系統(tǒng)，難以得到患者和醫(yī)生的足夠信任，導(dǎo)致了其目前仍沒有在醫(yī)院大規(guī)模推廣和應(yīng)用。在教育領(lǐng)域，復(fù)雜人工智能模型決策過程的不透明性，可能出現(xiàn)不易被察覺的連續(xù)錯(cuò)誤輸出，導(dǎo)致其不合理的決策結(jié)果(例如錯(cuò)誤推薦學(xué)習(xí)路徑或教學(xué)資源)，從而誤導(dǎo)學(xué)習(xí)者并嚴(yán)重影響其學(xué)習(xí)效果和效率。另外，即使是決策正確的復(fù)雜人工智能模型，由于其不透明的運(yùn)行過程，容易直接引發(fā)普通學(xué)習(xí)者、教師甚至智能教學(xué)系統(tǒng)和平臺(tái)設(shè)計(jì)者的不信任感，從而極大影響其一線實(shí)踐和應(yīng)用。這也是人工智能模型，尤其是基于深度神經(jīng)網(wǎng)絡(luò)的各類智能教學(xué)系統(tǒng)與平臺(tái)，尚沒有被大規(guī)模應(yīng)用的重要原因之一。

近年來，學(xué)術(shù)界和工業(yè)界也開始重點(diǎn)關(guān)注如何提升復(fù)雜人工智能模型及其所屬系統(tǒng)的透明性，建立用戶與模型之間的信任關(guān)系，以促進(jìn)實(shí)際部署。這一領(lǐng)域也被稱為可解釋人工智能(Explainable Artificial Intelligence)。具體而言，可解釋人工智能聚焦于人工智能模型的可解釋性?？山忉屝源砟Ｐ拖蛉祟惤忉尰虺尸F(xiàn)可理解的術(shù)語的能力，是人類與模型決策之間的接口。它既能夠被人們理解，也可以準(zhǔn)確的協(xié)助代理決策模型[2]。目前，可解釋人工智能尚沒有完全統(tǒng)一的概念和標(biāo)準(zhǔn)，但所提出的技術(shù)方法已經(jīng)在醫(yī)學(xué)、生物等領(lǐng)域取得良好的應(yīng)用表現(xiàn)[3]。

與其它領(lǐng)域相比，教育領(lǐng)域也亟需可解釋人工智能技術(shù)。當(dāng)前各類智能教育系統(tǒng)和平臺(tái)，逐步開始采用基于深度學(xué)習(xí)等技術(shù)的學(xué)習(xí)者模型、推薦模型以及自動(dòng)批閱模型等，這些復(fù)雜人工模型通常直接決定了系統(tǒng)和平臺(tái)的智能性與服務(wù)質(zhì)量。同時(shí)，復(fù)雜人工智能模型也開始被應(yīng)用于大規(guī)模教育數(shù)據(jù)的分析與挖掘中。由于這些模型的設(shè)計(jì)主要源于自然語言處理、商品推薦等領(lǐng)域，并未過多考慮教育領(lǐng)域應(yīng)用的實(shí)際特點(diǎn)[4]，因此可能做出不符合教育規(guī)律和常識(shí)的錯(cuò)誤決策，并且這些結(jié)果不易被察覺和發(fā)現(xiàn)(例如錯(cuò)誤估計(jì)學(xué)習(xí)者的學(xué)習(xí)狀態(tài)或持續(xù)推薦不必要的學(xué)習(xí)資源)。另外，教育領(lǐng)域的普通教師和學(xué)習(xí)者通常不具備技術(shù)背景和知識(shí)，當(dāng)復(fù)雜人工智能模型做出負(fù)面但正確的決策時(shí)(例如判斷學(xué)習(xí)者知識(shí)點(diǎn)掌握薄弱或教師教學(xué)存在問題)，也容易引起這些使用者的直接質(zhì)疑和不信任，且難以向其進(jìn)行解釋和直接說明[5]。

二、可解釋人工智能的基本方法

在可解釋人工智能領(lǐng)域，研究者們將人工智能模型的可解釋性分為事前(Ante-hoc)可解釋性與事后(Post-hoc)可解釋性。具備事前可解釋性的模型通常結(jié)構(gòu)直觀清晰，用戶能夠通過檢查模型的組件(如線性回歸模型中的特征權(quán)重、決策樹中的路徑、注意力權(quán)重矩陣)理解其決策過程、工作機(jī)制，這類模型因此也被稱為白盒模型。具備事后可解釋性的模型通常結(jié)構(gòu)復(fù)雜，模型的輸入與輸出是非線性關(guān)聯(lián)的，其決策過程、工作機(jī)制無法被用戶直接理解。例如以循環(huán)神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)模型等，這類模型因此也被稱為黑盒模型。

可解釋人工智能技術(shù)是能夠?qū)θ斯ぶ悄苣Ｐ瓦M(jìn)行解釋的技術(shù)方法，也被稱為解釋方法。針對事后可解釋性，現(xiàn)有的解釋方法可分為全局(Global)解釋方法與局部(Local)解釋方法兩類。全局解釋方法旨在理解所建立的復(fù)雜機(jī)器學(xué)習(xí)模型的整體決策邏輯，包括該模型通過大量數(shù)據(jù)訓(xùn)練后學(xué)到的規(guī)則、模型開展決策的方式等。知識(shí)提取、激活最大化等都是較為典型的全局解釋方法[6]。然而在實(shí)際應(yīng)用中，由于模型結(jié)構(gòu)或算法的復(fù)雜性以及垂直領(lǐng)域應(yīng)用場景的多元性，對大多數(shù)復(fù)雜的機(jī)器學(xué)習(xí)模型提供全局解釋通常比較困難。與全局解釋方法不同，局部解釋方法專注于闡釋機(jī)器學(xué)習(xí)模型對每一個(gè)輸入樣本的決策依據(jù)[7]。具體而言，該類方法以模型當(dāng)前的輸入數(shù)據(jù)為基礎(chǔ)和導(dǎo)向，分析和量化輸入數(shù)據(jù)各維度特征對最終決策結(jié)果的貢獻(xiàn)，從而實(shí)現(xiàn)對模型的解釋。常見的局部解釋方法包括局部近似、反向傳播和特征反演等[8]。與全局解釋方法相比，局部解釋方法的研究和實(shí)際應(yīng)用更加深入和廣泛。例如，在局部解釋方法中，反向傳播解釋方法可以充分利用需要被解釋的模型結(jié)構(gòu)特性，實(shí)現(xiàn)較為簡單且計(jì)算效率較高。反向傳播解釋方法的基本思想是利用深度神經(jīng)網(wǎng)絡(luò)的反向傳播機(jī)制，將機(jī)器學(xué)習(xí)模型的決策信號(hào)從輸出層逐層通過神經(jīng)元反向傳播回模型的輸入層，并進(jìn)而推導(dǎo)當(dāng)前輸入各維度特征的重要性。另外，依據(jù)適用范圍的不同，解釋方法也可以被分為模型相關(guān)(Model-specific)解釋方法和模型無關(guān)(Model-agnostic)解釋方法[9]。模型相關(guān)解釋方法需要利用模型結(jié)構(gòu)中的信息(如神經(jīng)網(wǎng)絡(luò)中的局部梯度信息)才能對模型進(jìn)行解釋，只能用于某類特定的人工智能模型。模型無關(guān)解釋方法不依賴于模型結(jié)構(gòu)中的信息，并能夠?qū)θ魏稳斯ぶ悄苣Ｐ瓦M(jìn)行解釋。

在教育領(lǐng)域，通常需要依據(jù)復(fù)雜模型或系統(tǒng)的特點(diǎn)，采取合適的可解釋人工智能技術(shù)對其進(jìn)行解釋。當(dāng)模型具備事前可解釋性時(shí)，通?？梢圆捎米越忉孾10]等方式。否則，需要選取和采用事后解釋方法，對模型或系統(tǒng)進(jìn)行分析和闡釋。

三、可解釋人工智能的典型教育應(yīng)用案例

我們基于本團(tuán)隊(duì)的近期研究成果[11][12]，首先介紹將可解釋人工智能方法應(yīng)用于教育領(lǐng)域的典型案例。該應(yīng)用案例將事后解釋方法直接應(yīng)用于學(xué)習(xí)者模型中。

(一)學(xué)習(xí)者模型

學(xué)習(xí)者模型通常利用機(jī)器學(xué)習(xí)等技術(shù)對學(xué)生在知識(shí)掌握、專注度等不同維度進(jìn)行量化建模。在知識(shí)掌握維度的學(xué)習(xí)者模型，被稱為知識(shí)追蹤模型。知識(shí)追蹤模型用來對學(xué)習(xí)者在知識(shí)點(diǎn)上的知識(shí)掌握概率進(jìn)行估計(jì)并對學(xué)習(xí)者在下一道題目上的作答表現(xiàn)進(jìn)行預(yù)測(作答正確或者錯(cuò)誤)。知識(shí)追蹤模型也是當(dāng)前智能導(dǎo)學(xué)系統(tǒng)(Intelligent Tutoring System, ITS)等個(gè)性化智能教育服務(wù)平臺(tái)中的核心模塊?；谏疃壬窠?jīng)網(wǎng)絡(luò)的知識(shí)追蹤模型(以下簡稱“深度知識(shí)追蹤模型”)，由于其優(yōu)越的性能，已經(jīng)逐步開始替代傳統(tǒng)模型。當(dāng)前深度知識(shí)追蹤模型通常采用包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)、記憶增強(qiáng)網(wǎng)絡(luò)(Memory Augmented Neural Network,MANN)等不同類型的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)[13]。

如圖1所示，深度知識(shí)追蹤模型的建立過程與決策過程都如同黑箱，很難進(jìn)行清晰解釋或提供直觀決策依據(jù)。模型構(gòu)建和其決策過程的不透明性，容易導(dǎo)致普通學(xué)習(xí)者、教師甚至智能教學(xué)系統(tǒng)的設(shè)計(jì)者對模型產(chǎn)生不信任感，從而減低模型的使用效率，進(jìn)而影響在實(shí)際智能導(dǎo)學(xué)系統(tǒng)和相關(guān)平臺(tái)上的大規(guī)模應(yīng)用。我們對44位學(xué)習(xí)者的調(diào)研結(jié)果顯示，基于深度知識(shí)追蹤模型所構(gòu)建的智能導(dǎo)學(xué)系統(tǒng)功能，是其最難理解且信任度最低的模塊。由于該類模型的不可解釋性，超過80%的學(xué)習(xí)者表示他們對模型給出的預(yù)測結(jié)果持有懷疑不確定的態(tài)度，95%的學(xué)習(xí)者表示希望在給出預(yù)測結(jié)果的同時(shí)有相應(yīng)的解釋說明。

圖1 深度知識(shí)追蹤模型的“黑箱化”及其面臨的解釋性問題

(二)解釋方法與解釋結(jié)果

深度知識(shí)追蹤模型通常不具備完善的事前可解釋性，因此我們可以采用典型的事后解釋技術(shù)進(jìn)行模型解釋。我們采取較為簡單分層相關(guān)傳播方法(Layer-Wise Relevance Propagation，LRP)，對基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度知識(shí)追蹤模型(Deep Knowledge Tracing，DKT)進(jìn)行解釋。如圖2所示，LRP方法的核心思想是利用反向傳播機(jī)制，將輸出層的預(yù)測信息通過中間層的神經(jīng)元及其連接逐層傳回模輸入層，得到每一個(gè)輸入對預(yù)測結(jié)果的貢獻(xiàn)程度。圖中xt為學(xué)習(xí)者在t時(shí)刻的作答及題目相關(guān)信息，輸出yt為深度知識(shí)追蹤模型在t時(shí)刻對學(xué)習(xí)者題目作答表現(xiàn)的預(yù)測，其余變量為循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)參數(shù)。

圖2 LRP方法解釋深度知識(shí)追蹤模型的反向傳播路徑

如表1所示，假設(shè)某學(xué)習(xí)者已經(jīng)完成了七道題目的練習(xí)，將其作答結(jié)果作為輸入提交給已構(gòu)建好的深度知識(shí)追蹤模型。不同題目可能考察了相同或不同的知識(shí)點(diǎn)，例如第一道作答題目考察的知識(shí)點(diǎn)為“加法”，而第七道題目考察的知識(shí)點(diǎn)為“減法”。將以上七道題目的作答信息作為輸入，則模型可以預(yù)測下一道題目是否能夠作答正確。通過運(yùn)行LRP解釋算法，我們可以得到最終的解釋結(jié)果，即每道學(xué)習(xí)者已經(jīng)作答的題目與預(yù)測結(jié)果之間的關(guān)聯(lián)值。表1中最后一列給出了如果下一道題目考察“減法”知識(shí)點(diǎn)，每一道題目作答與預(yù)測結(jié)果的關(guān)聯(lián)值，關(guān)聯(lián)數(shù)值的大小和符號(hào)從不同角度反映了所對應(yīng)題目作答對預(yù)測結(jié)果的貢獻(xiàn)程度。例如，最后一道題目(第七題)考察“減法”知識(shí)點(diǎn)且答對，其與預(yù)測的關(guān)聯(lián)值0.58為最大且為正數(shù)，第三道題考察“矩形”知識(shí)點(diǎn)且答錯(cuò)，則其關(guān)聯(lián)值-0.05為最小且為負(fù)數(shù)。通常情況下，關(guān)聯(lián)值越大，代表所對應(yīng)的輸入作答項(xiàng)對模型預(yù)測結(jié)果的影響越大。因此，這些計(jì)算得到的關(guān)聯(lián)值可以直接幫助解釋，深度知識(shí)追蹤模型為何對下一道題目做出正確或錯(cuò)誤的預(yù)測。

表1 解釋結(jié)果示例

(三)模型檢驗(yàn)與輔助理解

基于上述LRP方法所得到的解釋結(jié)果，即每一項(xiàng)輸入與預(yù)測結(jié)果的關(guān)聯(lián)值，可以對深度知識(shí)追蹤模型進(jìn)行檢驗(yàn)，檢查其是否存在與現(xiàn)有教育規(guī)律相悖的現(xiàn)象。實(shí)驗(yàn)選取基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度知識(shí)追蹤模型，并運(yùn)行在ASSISTment2009公開數(shù)據(jù)集上[14]，利用LRP方法進(jìn)行解釋，最終可以得到每組中所有學(xué)習(xí)者練習(xí)序列的關(guān)聯(lián)值。然后，我們將所有的輸入作答序列分為兩組：第一組與所預(yù)測的題目考察的知識(shí)點(diǎn)一致，即“同知識(shí)點(diǎn)”組；第二組與所預(yù)測的題目考察的知識(shí)點(diǎn)不同，即“異知識(shí)點(diǎn)”組。我們分別計(jì)算兩組中每道已作答題目關(guān)聯(lián)值的絕對值的平均值，并對兩組計(jì)算得到的平均值進(jìn)行t檢驗(yàn)。

表2給出了兩組t檢驗(yàn)的結(jié)果，其中按照模型所預(yù)測的結(jié)果分成了預(yù)測答對和預(yù)測答錯(cuò)兩類，即模型預(yù)測學(xué)習(xí)者在下一道題目上會(huì)答對或答錯(cuò)。從表2中可以看到，無論預(yù)測結(jié)果如何，“同知識(shí)點(diǎn)”組的關(guān)聯(lián)值均顯著高于“異知識(shí)點(diǎn)”組。換言之，深度知識(shí)追蹤模型在預(yù)測過程中，更加重視利用相同知識(shí)點(diǎn)題目上的作答信息，即與所預(yù)測題目考察同一知識(shí)點(diǎn)的該學(xué)習(xí)者的已作答信息。這種“同知識(shí)點(diǎn)效應(yīng)”符合教育領(lǐng)域?qū)W(xué)生知識(shí)掌握情況進(jìn)行判斷的基本規(guī)律，也部分檢驗(yàn)了所構(gòu)建的深度知識(shí)追蹤模型。

表2 “同知識(shí)點(diǎn)”與“異知識(shí)點(diǎn)”組間的t檢驗(yàn)結(jié)果

同時(shí)，我們將所有的輸入作答序列依據(jù)作答順序分為兩組：第一組是學(xué)習(xí)者完成的前一半的題目作答，即“遠(yuǎn)作答”組；第二組是后一半的題目作答，即“近作答”組。我們同樣計(jì)算兩組中每道已作答題目關(guān)聯(lián)值的絕對值的平均值，并對兩組計(jì)算得到的平均值進(jìn)行t檢驗(yàn)。表3給出了兩組t檢驗(yàn)的結(jié)果，其中按照模型所預(yù)測的結(jié)果同樣分成了預(yù)測答對和預(yù)測答錯(cuò)兩類。無論預(yù)測結(jié)果如何，“近作答”組的關(guān)聯(lián)值均顯著高于“遠(yuǎn)作答”組。換言之，深度知識(shí)追蹤模型在預(yù)測過程中，更加重視利用學(xué)習(xí)者近期的作答信息，即與預(yù)測時(shí)間距離較近該學(xué)習(xí)者的已作答信息。這種“近因效應(yīng)”也符合教育領(lǐng)域?qū)W(xué)生知識(shí)掌握情況進(jìn)行判斷的基本規(guī)律，也從另一個(gè)角度部分檢驗(yàn)了所構(gòu)建的深度知識(shí)追蹤模型。

表3 “遠(yuǎn)作答”與“近作答”組間的t檢驗(yàn)結(jié)果

在對模型進(jìn)行驗(yàn)證的基礎(chǔ)上，可以進(jìn)一步利用上述解釋結(jié)果，輔助用戶理解模型本身及相關(guān)系統(tǒng)。由于深度知識(shí)追蹤模型通常應(yīng)用于智能導(dǎo)學(xué)系統(tǒng)中，系統(tǒng)會(huì)依據(jù)模型的預(yù)測結(jié)果，向用戶呈現(xiàn)學(xué)習(xí)者的知識(shí)點(diǎn)掌握狀態(tài)地圖與學(xué)習(xí)報(bào)告，進(jìn)而為學(xué)習(xí)者推薦個(gè)性化學(xué)習(xí)路徑與學(xué)習(xí)資源。因此，可以在智能導(dǎo)學(xué)系統(tǒng)中提供適當(dāng)?shù)慕忉屨f明，解釋功能需要符合自適應(yīng)性、準(zhǔn)確性、完整性以及可理解性[15]等標(biāo)準(zhǔn)，從而幫助用戶理解模型及其所支持的功能模塊。針對上述解釋實(shí)驗(yàn)所發(fā)現(xiàn)的“同知識(shí)點(diǎn)效應(yīng)”與“近因效應(yīng)”，可以用通俗易懂的方式向?qū)W習(xí)者或教師進(jìn)行呈現(xiàn)，輔助其理解。如下頁圖3所示，可以在知識(shí)掌握狀態(tài)地圖或?qū)W習(xí)報(bào)告中設(shè)置特定區(qū)域，針對不同掌握狀態(tài)的知識(shí)點(diǎn)，向?qū)W習(xí)者進(jìn)行不同的解釋說明。例如，針對被預(yù)測為優(yōu)勢和薄弱知識(shí)點(diǎn)的部分，可以分別進(jìn)行簡單解釋說明：“系統(tǒng)主要基于你在近期內(nèi)的歷史作答表現(xiàn)，評估其為“優(yōu)勢”知識(shí)點(diǎn)”與“系統(tǒng)重點(diǎn)使用了你最近一段時(shí)間在相同或相似知識(shí)點(diǎn)上的作答表現(xiàn)，得到了你當(dāng)前的‘薄弱’知識(shí)點(diǎn)”。尤其對于相對負(fù)面的預(yù)測結(jié)果，可以著重設(shè)計(jì)其解釋說明功能，盡量用輕松活潑的可視化形式，包括文本、圖表、邏輯表達(dá)式[16]等。

圖3 基于解釋結(jié)果的解釋說明功能示例

四、可解釋人工智能在教育中的三種應(yīng)用模式

基于可解釋人工智能技術(shù)，可以將復(fù)雜人工智能模型的各個(gè)輸入項(xiàng)對模型預(yù)測結(jié)果的影響進(jìn)行量化，從而實(shí)現(xiàn)對模型和所在系統(tǒng)的解釋。在此基礎(chǔ)上，對解釋結(jié)果進(jìn)行進(jìn)一步分析，可以驗(yàn)證所構(gòu)建模型是否存在與教育規(guī)律相悖的問題。如果存在，可以及時(shí)檢查訓(xùn)練數(shù)據(jù)和訓(xùn)練方法，必要時(shí)調(diào)整模型本身。如果模型得到驗(yàn)證，可以利用分析結(jié)果對模型進(jìn)行功能闡述與說明，從而提高用戶對模型和系統(tǒng)的理解與信任程度。充分合理的解釋說明，還可以進(jìn)一步支持教師進(jìn)行教學(xué)策略的選擇和相關(guān)教育管理者的決策。

因此，我們梳理并形成了可解釋人工智能在教育中的三種典型應(yīng)用模式。如下頁圖4所示，現(xiàn)有可解釋人工智能的技術(shù)方法(包括全局解釋方法與局部解釋方法)可以直接用于典型教育場景中(涵蓋了線上與線下教育)的各類人工智能模型(包括黑盒模型或白盒模型)。解釋模型所產(chǎn)生的結(jié)果，可以服務(wù)于不同的受益對象，從而形成了不同的教育應(yīng)用模式。總體而言，應(yīng)用模式可以分為微觀、中觀和宏觀三個(gè)層面：(1)在微觀層面，解釋結(jié)果能夠針對模型本身進(jìn)行分析，解釋模型的重要邏輯，從而幫助對模型本身進(jìn)行檢驗(yàn)和改進(jìn)；(2)在中觀層面，解釋結(jié)果能夠?qū)σ羊?yàn)證模型所在系統(tǒng)的規(guī)則進(jìn)行闡述和說明，從而輔助相關(guān)用戶(包括教師和學(xué)習(xí)者)的理解，提高其對模型與相應(yīng)系統(tǒng)的信任程度；(3)在宏觀層面，解釋結(jié)果可以對教育問題進(jìn)行發(fā)現(xiàn)，從而幫助和支持教育管理者進(jìn)行有效決策。

圖4 可解釋人工智能在教育中的三種應(yīng)用模式

(一)微觀層面：檢驗(yàn)教育模型

隨著深度學(xué)習(xí)等人工智能技術(shù)的快速演進(jìn)，模型需要在大規(guī)模數(shù)據(jù)集上通過特定算法訓(xùn)練完成，且訓(xùn)練過程受訓(xùn)練集、測試集、模型超參數(shù)等諸多因素的影響。由于模型內(nèi)部結(jié)構(gòu)和訓(xùn)練過程的日趨復(fù)雜，其學(xué)習(xí)到錯(cuò)誤邏輯和無效信息的可能性也逐步增加。然而，模型的評估通常只采用精確率(Precision)、召回率(Recall)、AUC值(ROC曲線下方面積)等簡單直觀的指標(biāo)，難以對模型進(jìn)行充分檢驗(yàn)并建立有效的問責(zé)機(jī)制。如果模型的內(nèi)在邏輯存在謬誤，不但會(huì)直接影響使用效果，甚至?xí)a(chǎn)生偏見和倫理道德等問題。例如，Schramowski[17]等利用局部解釋方法對用于勘測植物是否遭到生物侵蝕的圖像分類器進(jìn)行檢驗(yàn)，發(fā)現(xiàn)模型利用了與生物侵蝕無關(guān)的混雜因素進(jìn)行分類。Yang[18]等利用局部解釋方法對用于文本分類的模型進(jìn)行了檢驗(yàn)，他們發(fā)現(xiàn)與預(yù)測任務(wù)無關(guān)的特征主導(dǎo)了模型的判斷，而非與任務(wù)直接相關(guān)的重要特征。在教育領(lǐng)域，可解釋人工智能應(yīng)用于模型檢驗(yàn)總體較少，早期的學(xué)習(xí)者模型研究中[19]，利用模型的自解釋性曾發(fā)現(xiàn)主導(dǎo)模型預(yù)測學(xué)生表現(xiàn)的因素是失誤和猜對參數(shù)而非學(xué)生的認(rèn)知狀態(tài)。顯然，需要重視利用可解釋人工智能技術(shù)，檢驗(yàn)?zāi)Ｐ椭惺欠翊嬖谂c教育規(guī)律相悖的邏輯，若存在則需要更換數(shù)據(jù)集、調(diào)整模型超參數(shù)甚至是修改模型本身。

(二)中觀層面：輔助理解系統(tǒng)

以復(fù)雜人工智能模型作為核心的功能模塊，開始逐步被應(yīng)用到各類智能教學(xué)系統(tǒng)與平臺(tái)中。這些核心功能模塊提升和優(yōu)化了系統(tǒng)與平臺(tái)的性能，也直接導(dǎo)致其運(yùn)行的規(guī)則與原理日趨模糊與復(fù)雜。如果使用者難以理解其背后的基本規(guī)則與原理，容易喪失對系統(tǒng)或平臺(tái)的信賴，從而導(dǎo)致其在一線教學(xué)中難以大規(guī)模落地和應(yīng)用。在人機(jī)交互領(lǐng)域，能否理解和信任較為復(fù)雜的系統(tǒng)，取決于使用者的心理模型與系統(tǒng)實(shí)際運(yùn)行規(guī)則相符的程度。簡單而言，用戶心理模型指用戶關(guān)于系統(tǒng)操作規(guī)則、組成的心理表示[20]。當(dāng)用戶的心理模型與系統(tǒng)實(shí)際運(yùn)行規(guī)則相符時(shí)，用戶能夠近似預(yù)見系統(tǒng)輸出結(jié)果從而有助于理解和信任系統(tǒng)。當(dāng)可解釋人工智能技術(shù)能夠發(fā)現(xiàn)系統(tǒng)運(yùn)行所依賴的重要規(guī)則和信息，且通過合理方式呈現(xiàn)給使用者，就可以幫助用戶逐步修正其心理模型，輔助其理解系統(tǒng)并建立信任感。在輔助理解教育領(lǐng)域的系統(tǒng)和平臺(tái)方面，可解釋人工智能發(fā)揮著越來越重要的作用。例如，Conati等[21]嘗試?yán)每山忉屓斯ぶ悄芗夹g(shù)，對所設(shè)計(jì)的系統(tǒng)進(jìn)行個(gè)性化自解釋。學(xué)習(xí)者可以通過解釋功能獲取到他們感興趣的提示和信息。研究發(fā)現(xiàn)，這種解釋功能增加了學(xué)生對系統(tǒng)的理解與信任，并且學(xué)生信任系統(tǒng)后會(huì)更容易接受系統(tǒng)給出的建議，采取對學(xué)習(xí)有利的行為，從而提升學(xué)習(xí)成績。

(三)宏觀層面：支持教育決策

隨著教育信息化程度的不斷提高以及大數(shù)據(jù)技術(shù)的日趨成熟，長周期多模態(tài)的教育數(shù)據(jù)不斷累積，其所蘊(yùn)含的信息也更加具有分析和挖掘價(jià)值。傳統(tǒng)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型難以處理這類數(shù)據(jù)，因此深度學(xué)習(xí)和其它人工智能領(lǐng)域的模型開始被用于數(shù)據(jù)分析和建模。由于這些模型大都較為復(fù)雜，無法像傳統(tǒng)模型(例如線性回歸)直接呈現(xiàn)出變量間關(guān)系，可解釋人工智能技術(shù)也開始用于分析數(shù)據(jù)，形成教育推論，發(fā)現(xiàn)教育問題，揭示教育規(guī)律，從而支持教育決策。例如，Kirill等[22]基于哈薩克斯坦國家教育數(shù)據(jù)庫中兩萬多所中學(xué)的數(shù)據(jù)，建立了用于預(yù)測學(xué)校教育質(zhì)量(通過學(xué)生成績和大學(xué)錄取率體現(xiàn))的模型。在此基礎(chǔ)上，其利用局部解釋方法，進(jìn)一步得到了地理位置、學(xué)校設(shè)施、人口組成信息、教職工等特征與學(xué)生成績和大學(xué)錄取率的關(guān)系，從而提出了一系列教育政策建議。Ledeboer[23]等基于荷蘭中學(xué)智能教學(xué)系統(tǒng)的數(shù)據(jù)，利用隨機(jī)森林和前饋神經(jīng)網(wǎng)絡(luò)等構(gòu)建了預(yù)測學(xué)生留級率和畢業(yè)率的模型，并分別利用全局和局部解釋方法，將全局特征重要性與局部特征重要性呈現(xiàn)給學(xué)校教師與管理人員，不僅得到了使用者的認(rèn)可，也為學(xué)校決策提供了直接支持與建議。胡欽太等基于深度學(xué)習(xí)模型，也開展了多模態(tài)學(xué)習(xí)行為可解釋性分析研究[24]，可以為提升教育質(zhì)量、優(yōu)化教育資源配置、促進(jìn)學(xué)生個(gè)性化學(xué)習(xí)提供有效的決策建議。

基于以上三種可解釋人工智能在教育領(lǐng)域的重要應(yīng)用模式，我們進(jìn)一步提出以下建議和展望：

1.積極推進(jìn)可解釋人工智能在教育領(lǐng)域應(yīng)用的機(jī)制建立與實(shí)施

所有基于復(fù)雜人工智能模型的教育領(lǐng)域應(yīng)用，均應(yīng)努力提供解釋機(jī)制與解釋服務(wù)。解釋機(jī)制的建立一方面需要借鑒可解釋人工智能現(xiàn)有的技術(shù)和方法，另一方面需要從教育領(lǐng)域使用者的角度出發(fā)，考慮不同學(xué)段學(xué)習(xí)者與教師等關(guān)鍵角色的用戶心理需求，使智能教學(xué)系統(tǒng)與平臺(tái)兼具高準(zhǔn)確性、透明性與可信賴性。另外，當(dāng)前大多數(shù)研究和應(yīng)用尚停留在宏觀層面，需要重視和發(fā)展中觀和微觀層面的應(yīng)用模式與機(jī)制建立。

2.深入研發(fā)適用于教育領(lǐng)域的可解釋人工智能方法

當(dāng)前可解釋人工智能技術(shù)及其基本方法多源于對其它領(lǐng)域的研究，大多難以直接應(yīng)用于教育領(lǐng)域的模型與系統(tǒng)解釋，應(yīng)用效果也存在明顯差異。因此，需要針對教育領(lǐng)域中所使用的復(fù)雜模型與關(guān)鍵功能(例如多模態(tài)學(xué)習(xí)資源的推薦模型與其教學(xué)輔導(dǎo)功能)，重點(diǎn)研發(fā)專用的解釋性方法與關(guān)鍵性算法，保證解釋結(jié)果的科學(xué)、有效與合理，進(jìn)而可以促進(jìn)智能教學(xué)系統(tǒng)本身的改進(jìn)和完善。

3.強(qiáng)調(diào)可解釋人工智能在教育領(lǐng)域的實(shí)踐性檢驗(yàn)

可解釋人工智能技術(shù)受訓(xùn)練環(huán)境、模型超參數(shù)設(shè)置等因素的影響較大，其解釋結(jié)果也容易存在偏差，傳統(tǒng)量化研究中的檢驗(yàn)方法(例如方差檢驗(yàn)、正態(tài)分布檢驗(yàn)等)也難以應(yīng)用。因此，需要探索和建立可解釋人工智能技術(shù)在教育應(yīng)用中的檢驗(yàn)方式和流程，強(qiáng)調(diào)所有的解釋結(jié)果與應(yīng)用效果，均應(yīng)在教育實(shí)踐中接受檢驗(yàn)。實(shí)踐性檢驗(yàn)應(yīng)由人工智能模型的設(shè)計(jì)者和使用者共同完成，其檢驗(yàn)過程與結(jié)果應(yīng)具備可重復(fù)性與可追溯性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡