孫建文 栗大智 彭 晛 鄒 睿 王 佩
(1.華中師范大學 教育大數(shù)據(jù)應用技術國家工程實驗室,湖北武漢 430079;2.華中師范大學 國家數(shù)字化學習工程技術研究中心,湖北武漢 430079;3.華中師范大學 圖書館,湖北武漢 430079)
云計算、大數(shù)據(jù)、人工智能等技術的發(fā)展,推動教育從數(shù)字化、網(wǎng)絡化向智能化躍升,為突破個性化學習技術瓶頸,實現(xiàn)“因材施教”的千年夢想提供了歷史機遇(楊宗凱, 2019)。教育情境可計算、學習主體可理解、學習服務可定制是個性化學習面臨的三大挑戰(zhàn),其中,學習主體是教育系統(tǒng)的核心要素,對學習主體的精準洞察是開展“因材施教”的前提(劉三女牙等, 2020)。認知追蹤作為數(shù)據(jù)驅(qū)動的學習主體建模技術,已成為近年來國內(nèi)外智能教育領域的研究熱點(Piech et al., 2015; Khajah et al., 2016; Zhang et al., 2017; 徐墨客等, 2018; 李菲茗等, 2019; 劉恒宇等, 2019; 黃振亞, 2020; Liu et al., 2021)。
認知追蹤(Knowledge Tracing, KT),也被譯為“知識追蹤”,本研究認為譯作“認知追蹤”更能表達其追蹤對象是主體的人,而非客體的知識這一意蘊。認知追蹤的思想源于美國著名心理學家阿特金森(Atkinson & Paulson, 1972),1995年被美國卡耐基梅隆大學科比特等(Corbett & Anderson, 1995)引入智能導學系統(tǒng),并提出貝葉斯認知追蹤方法(Bayesian Knowledge Tracing, BKT),其任務是根據(jù)學生的答題記錄,對學生的知識掌握狀態(tài)進行建模,目標是預測學生答對下一道題的概率。2015年,美國斯坦福大學皮希等(Piech et al., 2015)首次將深度神經(jīng)網(wǎng)絡技術用于認知追蹤,提出一種基于循環(huán)神經(jīng)網(wǎng)絡的深度認知追蹤方法(Deep Knowledge Tracing, DKT),預測性能顯著提升。深度認知追蹤方法順應了人工智能技術發(fā)展趨勢,引起了學者的關注,DKVMN( Zhang et al., 2017)、SKVMN(Abdelrahman & Wang, 2019)、SAKT(Pandey & Karypis, 2019)、KQN(Lee & Yeung, 2019)、GKT(Nakagawa et al., 2019)、AKT(Ghosh et al., 2020)以及HMN(Liu et al., 2021)等模型先后涌現(xiàn)。
認知追蹤的快速發(fā)展,促進了人工智能與教育教學的交叉融合。然而,多項研究使用相同的數(shù)據(jù)集和模型,卻得到不同的實驗結(jié)果,原因是不同學者對數(shù)據(jù)集的處理操作不一,導致實驗結(jié)果出現(xiàn)差異。該問題也引起部分學者的關注,如威爾遜等(Wilson et al., 2016)對深度認知追蹤方法的數(shù)據(jù)處理方法提出疑問,認為應刪除數(shù)據(jù)集的重復記錄,按照學習系統(tǒng)使用過程實際順序進行排列。后續(xù)研究大多采納了這一建議。有學者(Xiong et al., 2016)從數(shù)據(jù)角度就深度認知追蹤方法大幅提升預測性能提出三點質(zhì)疑,并從數(shù)據(jù)重復性、支架題目影響、多技能題目處理三方面,將數(shù)據(jù)分為三個子集,并通過實驗證明數(shù)據(jù)處理方式對實驗結(jié)果的顯著影響。這對后續(xù)研究有較大的參考價值,如GIKT、qDKT等模型均直接采用這一數(shù)據(jù)集劃分方式(Yang et al., 2020; Sonkar et al., 2020)。近年,多位學者從不同角度討論如何對數(shù)據(jù)進行更合理的操作(Zhang et al., 2017; Lee & Yeung, 2019; Xu & Davenport, 2020)。此外,更多論文僅對數(shù)據(jù)處理進行簡單描述,或只給出數(shù)據(jù)集的基本統(tǒng)計信息。數(shù)據(jù)處理的不一致不僅會造成模型性能偏差,更會導致難以直接、公平地比較不同學者的創(chuàng)新工作,阻礙認知追蹤領域的知識發(fā)展及學術共同體的成長,從而制約整個方向的可持續(xù)發(fā)展。其原因在于:一是研究偏好。人工智能與教育的交叉促進了認知追蹤的發(fā)展,同時也沿襲了人工智能研究領域普遍存在的“重模型、輕數(shù)據(jù)”慣性。谷歌研究員桑巴希萬等(Sambasivan et al., 2021)指出,學者們往往青睞模型創(chuàng)新,很少專門圍繞數(shù)據(jù)展開研究,但數(shù)據(jù)質(zhì)量在很大程度上決定了模型及后續(xù)應用的成敗,造成數(shù)據(jù)級聯(lián)問題。二是數(shù)據(jù)認知。人們對數(shù)據(jù)的操作是否合理很大程度源于對數(shù)據(jù)內(nèi)涵的理解是否準確,而數(shù)據(jù)的含義通常由其邏輯和業(yè)務背景決定。不同的認知追蹤數(shù)據(jù)集產(chǎn)生于不同的學習系統(tǒng),背后有不同的教學設計與策略,由此帶來數(shù)據(jù)一致性認知挑戰(zhàn)。
綜上,隨著認知追蹤成為研究熱點,其數(shù)據(jù)處理不一致問題愈發(fā)凸顯。已有研究大多從問題本身出發(fā),很少考慮數(shù)據(jù)產(chǎn)生的教育場景、概念邏輯以及建模過程。因此,提出一種兼具理論指導與實際可操作性的數(shù)據(jù)分析框架,促進對認知追蹤數(shù)據(jù)內(nèi)涵的深層理解和規(guī)范操作變得很有必要。本研究通過調(diào)研分析,提出一種以認知追蹤問題域的基本對象及相互關系為核心的概念框架,并運用該框架對數(shù)據(jù)處理過程中的關鍵問題進行一致性分析及提出規(guī)范化建議,最后結(jié)合認知追蹤的研究趨勢,討論未來智能教育的發(fā)展。
本研究聚焦于2015年深度認知追蹤提出以來,新模型不斷涌現(xiàn)但數(shù)據(jù)處理不一致現(xiàn)象愈發(fā)嚴重這一問題展開調(diào)研。研究者以2015—2021年為文獻檢索時間范圍,在中國知網(wǎng)、Springer、ACM、arXiv和Web of Science等數(shù)據(jù)庫中,分別以“知識追蹤”“認知追蹤”“Knowledge Tracing”為關鍵詞,搜得93篇文獻,排除未明確描述數(shù)據(jù)集的文獻,最終得到論文35篇,涉及18個數(shù)據(jù)集、29個模型及改進算法(見圖1),包括ASSISTments系列數(shù)據(jù)集(50.5%)、Statics數(shù)據(jù)集(13.3%)、Algebra系列數(shù)據(jù)集(12.4%)和Synthetic-5數(shù)據(jù)集(10.5%)。
圖1 樣本文獻中各數(shù)據(jù)集使用頻次分布
1.ASSISTments系列
ASSISTments是美國伍斯特理工學院開發(fā)的在線學習平臺(Feng et al., 2009),其數(shù)據(jù)集包含四個子集:ASSISTments2009-2010(ASS09)、ASSISTments 2012-2013(ASS12)、ASSISTments2014-2015(ASS15)、ASSISTments Challenge。據(jù)統(tǒng)計,至少有66篇論文使用了該系列數(shù)據(jù)集,使用ASS09數(shù)據(jù)集的論文超過18篇(Heffernan, 2019)。該數(shù)據(jù)集以題目—日志的形式收集學生數(shù)據(jù),其中行是學生回答某道題的記錄,內(nèi)容包括學生和題目的交互特征,如是否回答正確、是否求助等。此外,數(shù)據(jù)集還記錄了學校、班級等學生屬性特征,以及題目編號、位置等題目特征。ASS09由2009—2010年采集的數(shù)據(jù)構(gòu)成,被分成“非技能建構(gòu)數(shù)據(jù)(Non-skill builder data)”和“技能建構(gòu)數(shù)據(jù)(Skill builder data)”兩部分,后者又被稱為掌握學習數(shù)據(jù),即學生必須連續(xù)正確回答三道題才算掌握了該項技能。從頻次分布圖看,該數(shù)據(jù)集使用最為廣泛。ASS12由2012—2013年采集的數(shù)據(jù)構(gòu)成,特點是在ASS09數(shù)據(jù)集基礎上增加了挫折程度、困惑程度、注意力集中程度、厭倦程度等特征描述學生的情感狀態(tài)。ASS15由2014—2015年采集的數(shù)據(jù)構(gòu)成,僅包含100個單技能題目,沒有支架題目,特征數(shù)較少。ASSISTments Challenge源于2017年國際數(shù)據(jù)挖掘競賽,其特點是特征較為豐富,共82個特征,但較少被使用。
2.Algebra系列
Algebra是2010年國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽KDD Cup發(fā)布的公開數(shù)據(jù)集(Stamper et al., 2010),包含Algebra Ⅰ 2005-2006、Algebra Ⅰ 2006-2007、Bridge to Algebra 2006-2007等三個開發(fā)數(shù)據(jù)集,以及Algebra Ⅰ 2008-2009、Bridge to Algebra 2008-2009兩個挑戰(zhàn)數(shù)據(jù)集。其中,開發(fā)數(shù)據(jù)集包含學生真實答題結(jié)果在內(nèi)的所有完整信息,旨在幫助參賽者熟悉數(shù)據(jù)格式和訓練模型。挑戰(zhàn)數(shù)據(jù)集不含學生答題結(jié)果,需要參賽者給出預測結(jié)果并提交。多數(shù)研究只使用Algebra開發(fā)數(shù)據(jù)集。
3.Statics
Statics是一門大學在線課程收集的數(shù)據(jù),包含361092條記錄,涉及335名學生和85項技能,共包含46個特征(Steif & Bier, 2014; Koedinger et al., 2010)。
4.Synthetic-5
Synthetic-5(又稱為Simulated-5)是深度認知追蹤方法的提出者皮希構(gòu)造的模擬數(shù)據(jù)集,模擬了4000名學生50道題的答題情況,且學生答題序列相同。題目從五個模擬技能中抽取,每道題對應一項技能,重復實驗20次,最后評估平均準確度和標準誤差。
綜上,當前研究主要面向自主學習場景,以學生做題為主要學習活動,以預測學生的技能掌握狀態(tài)或者答對下一題的概率為目標。從系統(tǒng)論角度看,學生、技能與題目構(gòu)成了認知追蹤問題域的三大核心要素,但認知追蹤的適用場景并不限于此。隨著智能教育技術的發(fā)展,認知追蹤可廣泛應用于多主體協(xié)作學習、多步驟問題解決、多層次知識能力診斷等更開放、復雜、高階的學習場景。為了不失一般性,本研究將“知識”和“問題”分別作為“技能”和“題目”兩個元素的泛化概念,建立了以“學生(Student)—知識(Knowledge)—問題(Problem)”三個對象以及六類關系為核心的認知追蹤概念框架(SKP,見圖2)。
認知追蹤概念框架旨在建立對認知追蹤的數(shù)據(jù)化認知與概念化分析框架,從更廣泛的意義上理解多場景認知追蹤的數(shù)據(jù)元素及其關系,為如何基于數(shù)據(jù)的產(chǎn)生場景及教育意義進行數(shù)據(jù)處理提供分析工具,從源頭解決當前普遍存在的數(shù)據(jù)處理不一致或欠規(guī)范問題。認知追蹤概念框架包括三個對象和六類關系。
圖2 認知追蹤概念框架
1.基本對象
學生、知識和問題構(gòu)成了認知追蹤數(shù)據(jù)處理過程的三個基本對象。其中,學生對象包括個人基本信息及其在不同學習場景留下的學習行為信息;知識對象包括知識名稱、類型、層次等基本屬性,以及知識描述等信息;問題對象包括問題類型、難度、區(qū)分度等基本屬性,以及題干、答案、提示、解析等內(nèi)容語義信息。
2.交互關系
一是同類對象之間的交互,常被用作輔助信息融入認知追蹤建模過程。其中,“學生—學生”交互關系主要體現(xiàn)在多主體協(xié)作學習場景,包括學生協(xié)作過程中形成的社交角色、互動行為和內(nèi)容等信息;“知識—知識”交互主要用于描述知識結(jié)構(gòu)或性質(zhì)關系,包括知識圖譜的上下位、先后修等關系,以及具有互逆性質(zhì)的知識之間的關系等;“問題—問題”交互主要體現(xiàn)在問題序列背后的教學設計思想,如多個主干問題之間的遞進關系、主干問題與支架問題之間的主次關系、多步驟問題之間的依賴關系等。
二是不同對象之間的交互,是認知追蹤建模過程使用的主要信息。其中,“學生—問題”交互主要用于描述學生回答或解決問題過程中產(chǎn)生的各類內(nèi)容或行為信息,包括作答內(nèi)容以及請求提示、查看答案或解析過程等行為信息;“問題—知識”交互主要用于描述問題與知識之間的關聯(lián)關系,包括一對一、一對多、多對一和多對多等,如一對一表示一個問題僅關聯(lián)一個知識點,一對多表示一個問題關聯(lián)多個知識點;“學生—知識”交互用于描述學生對簡單技能、高階能力等不同層次知識的掌握狀態(tài)。
認知追蹤數(shù)據(jù)集大多含有豐富的特征,對特征的概念化分類是對數(shù)據(jù)內(nèi)涵理解及后續(xù)處理分析的認知基礎。數(shù)據(jù)集雖然源于不同的學習平臺和應用場景,其特征較為豐富,但均可按認知追蹤概念框架統(tǒng)一分類,從而為在更高層次建立對特征含義的共識性理解提供可能。
基于認知追蹤概念框架,本研究匯總了上述35篇論文對三個高頻數(shù)據(jù)集的處理方式及相關信息(見表一)。其中,數(shù)據(jù)集命名的字母表示原始數(shù)據(jù)集,數(shù)字表示經(jīng)過處理后得到的子集,原始數(shù)據(jù)集的統(tǒng)計信息均來自官方網(wǎng)站,相關模型或論文對應的處理方式均引自原文。
由表一可知,除Statics在多個文獻中的處理方式基本一致外,其他數(shù)據(jù)集在不同研究中的處理方式均存在明顯問題,具體可分為三類:一是未明確說明處理方式;二是描述的處理方式相同但統(tǒng)計信息不一致,如數(shù)據(jù)集a-16使用a-4的處理方法(Sonkar et al., 2020),得到不同的統(tǒng)計信息;三是統(tǒng)計信息一致但處理方式不同,如a-7、c-2先后被同一團隊的兩篇論文使用(Minn et al., 2018; Minn et al., 2019),文中對數(shù)據(jù)處理的描述不同,但給出的統(tǒng)計信息一致。結(jié)合表一,本研究重點圍繞以下五個問題展開討論。
表一中近一半的研究工作涉及數(shù)據(jù)去重處理。ASS09、Alge05等數(shù)據(jù)集均存在大量的學習行為重復記錄。雖然研究者無法從源頭查證重復記錄如何產(chǎn)生,但學生在學習平臺的操作屬于時序行為,學生不會在同一時間回答多個問題,產(chǎn)生多條記錄。有研究(Xiong et al., 2016)表明,這些重復數(shù)據(jù)實為冗余信息,可直接刪除。
一般而言,學生在學習平臺上進行答題等操作后,后臺數(shù)據(jù)庫會生成語義豐富的學習行為記錄,并在此基礎上構(gòu)建基于多特征的認知追蹤模型(Sun et al., 2021),這是提升學習者建模能力的有效途徑。因此,數(shù)據(jù)采集的特征豐富性、記錄完整性是保障數(shù)據(jù)質(zhì)量的基本要求,也是影響模型性能的關鍵因素。對于開放、復雜的智能學習環(huán)境以及大規(guī)模用戶使用場景,如何高保真、高效地記錄海量學習者的并發(fā)行為,是智能教育系統(tǒng)設計與實現(xiàn)需解決的基礎性問題。
德州儀器(TI)是世界上最大的半導體公司之一。德州儀器始終致力于提供創(chuàng)新半導體技術,幫助客戶開發(fā)世界最先進的電子產(chǎn)品。德州儀器的模擬、嵌入式處理以及無線技術不斷深入至生活的方方面面,從數(shù)字通信娛樂到醫(yī)療服務、汽車系統(tǒng)以及各種廣泛的應用,無所不在。
表一 樣本文獻數(shù)據(jù)集統(tǒng)計信息及處理方式比較
數(shù)據(jù)順序指學習行為記錄輸入模型的先后。通常,認知追蹤建模會以學生真實答題順序組織數(shù)據(jù),這有利于模型捕捉數(shù)據(jù)中蘊含的學生認知狀態(tài)變化規(guī)律,從而獲得精準的預測結(jié)果。但也有部分研究考慮模型輸入的答題序列長度對齊、按相同技能或?qū)W生重組答題序列等因素對數(shù)據(jù)進行專門處理,截斷或打亂學生答題行為數(shù)據(jù)的原始順序。例如,表一的數(shù)據(jù)集a-1,將題目對應技能按編號重新排序后再輸入模型(Piech et al., 2015)。
從智能教育系統(tǒng)視角看,學生的學習行為序列可能蘊涵了特定的教學策略或設計思想。例如,ASSISTments平臺依據(jù)掌握學習理論設計和組織題目序列,學生按題目預設順序作答反映了一種預期的認知狀態(tài)變化模式或規(guī)律,即連續(xù)答對多道相同技能的題目意味著該生大概率掌握了該技能。其次,教育心理學研究發(fā)現(xiàn)(Rohrer et al., 2015),學生做數(shù)學題的過程中,不同技能的題目交叉出現(xiàn)比連續(xù)出現(xiàn)更有助于提升學習效果。
支架題目(Xiong et al., 2016)的設計思想源于支架式教學理論,旨在幫助學生穿越最近發(fā)展區(qū),把認知引到更高水平。在學習平臺上,支架題目與主題目所考察的技能相同或相近,但通常難度較低。表一中,部分研究認為,認知追蹤的建模過程不應同等對待支架題目,因此直接刪除了支架題目(Xiong et al., 2016; Liu et al., 2020; Xu & Davenport, 2020; Sonkar et al., 2020)。實際上,支架題目作答行為是學生做題序列的有機組成部分,從數(shù)據(jù)真實性和完整性角度看,保留支架題目數(shù)據(jù)有利于更準確地建模學生認知狀態(tài)的變化。
對智能教育系統(tǒng)而言,支架是一種廣泛用于多種學習場景的導學策略,其形式不限于題目,包括推進、提示、暗示等,目的是推動學生思考、保持學習動力。在認知追蹤應用場景中,支架題目的設計也體現(xiàn)了這一思想。當學生遇到難題時,引導其解決支架類問題可有效促進學習。因此,支架題目作答行為數(shù)據(jù)通常隱含了學生認知水平提升這一重要信息。以ASSISTments平臺為例,若學生答題記錄既包含主題目,又包含支架題目,且連續(xù)答對多個支架題目,這意味著學生經(jīng)歷了最近發(fā)展區(qū)的認知發(fā)展過程,并從支架題目的引導中掌握了相應的技能。
針對部分答題記錄缺失對應的技能信息,相關研究一般直接刪除記錄(Zhang et al., 2017; Ha et al., 2018; Abdelrahman & Wang, 2019; Lee & Yeung, 2019; Ghosh et al., 2020; Gan et al., 2020),或填充一個固定值(Piech et al., 2015; Khajah et al., 2016; Wilson et al., 2016)。前者雖然保證了數(shù)據(jù)的真實性,但會丟失大量有用信息,尤其是缺失記錄占比較高對模型性能影響較大。后者為了處理簡單,把所有技能缺失記錄填充為一個新值,這會帶來大量數(shù)據(jù)噪聲,導致模型學到更多的錯誤模式。
技能缺失折射出智能教育領域普遍存在的一個難題——智能化知識組織與資源標注。對學科知識的精細化組織,以及資源內(nèi)容的深層次加工和語義化標注,是構(gòu)建智能教育知識基礎設施的核心任務。教育知識圖譜正是該方向的研究熱點,即在傳統(tǒng)人工構(gòu)建知識體系、標注知識資源的基礎上,利用數(shù)據(jù)和知識雙向驅(qū)動的方式往半自動或自動化方向發(fā)展。因此,對于技能缺失問題,簡單刪除記錄或者填充固定值的做法都不合理,應考慮如何有效利用數(shù)據(jù)集的已有信息,運用相應策略補全缺失值。
1.問題描述
在智能導學、自適應學習等認知追蹤應用場景中,一道題通常不只關聯(lián)一項技能,而是關聯(lián)多項技能,此類題目可被稱為多技能題目(Xiong et al., 2016)。例如,一道求矩陣點積的題目可能關聯(lián)向量運算、多項式運算等技能。認知追蹤建模首先需要對特征進行編碼,研究者通常采用機器學習領域主流的獨熱編碼方式處理單技能題目(one-hot encoding),但對多技能題目的編碼尚未達成共識。
2.典型方法
多技能題目的編碼方法可分為兩種:一是使用拆分策略,即將“一條包含多技能的記錄”拆成“多條只含單技能的記錄”;二是采取組合策略,即將“同一道題目包含的多個技能”組合為“一個新的技能”并重新編碼。以兩條答題記錄為例(見圖3左):第一行記錄了某學生回答第11題的信息,該題與編號為21、22號的兩項技能相關,學生回答正確;第二行記錄了該生回答第12題的信息,該題對應編號為21、22和23等三項技能,學生回答錯誤。
若按拆分策略處理,研究者會得到拆分格式數(shù)據(jù),原始樣本數(shù)據(jù)第一行記錄被拆分為兩行,除技能編號不同外,其余信息都相同。同理,拆分原始樣本數(shù)據(jù)第二行可得到三行數(shù)據(jù)(見圖3右上)。若按組合策略處理,研究者會得到組合格式數(shù)據(jù),原始樣本數(shù)據(jù)第一行技能(21,22)被視為一種新的技能,并被編碼為31。同理,第二行技能被編碼為32(見圖3右下)。
圖3 多技能題目的兩種編碼方法示例
對于拆分格式數(shù)據(jù),以深度神經(jīng)網(wǎng)絡為代表的模型容易學到兩項技能交替出現(xiàn)的模式,由此帶來額外且顯著的性能優(yōu)勢(Khajah et al., 2016),但同時也造成數(shù)據(jù)冗余,因此近年的研究逐漸轉(zhuǎn)向組合方式(Nakagawa et al., 2018; Choffin et al., 2019; Xu & Davenport, 2020; Sonkar et al., 2020)。組合格式數(shù)據(jù)雖然保證了一條記錄描述一道題,但同時也造成技能間關聯(lián)信息的缺失。例如,兩個組合而成的新技能31和32,雖然都包含了技能21和22,但重新編碼后無法體現(xiàn)這一關聯(lián)信息。
3.多熱編碼方法
從模型輸入編碼角度,以上兩種數(shù)據(jù)處理方法均采用基于技能編號的獨熱編碼。為解決這兩種方法存在的固有弊端,研究者提出多熱編碼方法(multi-hot encoding),即通過構(gòu)建一個矩陣,保存題目和技能之間的交互關系,然后通過內(nèi)積運算得到題目對應的多熱編碼,模型輸出可采用多個技能對應預測概率的平均值。
多熱編碼方法的優(yōu)勢包括:一是既保存了題目和多個技能的原始對應關系,又可以表示不同題目與多個技能之間的關聯(lián)性,有助于模型發(fā)現(xiàn)組合技能和其他技能的關系,更具可解釋性;二是每個時間步只需輸入一道題的記錄,而不是用多個時間步處理同一道題,更符合認知追蹤序列化建模的內(nèi)在邏輯;三是減少數(shù)據(jù)重復出現(xiàn)的同時保證了信息的完整性,并能夠與拆分、組合兩種格式的數(shù)據(jù)相互轉(zhuǎn)換。
作為人工智能與教育交叉的產(chǎn)物,認知追蹤誕生于“小數(shù)據(jù)+傳統(tǒng)機器學習”主導的20世紀90年代(以BKT為代表),暴發(fā)于“大數(shù)據(jù)+深度神經(jīng)網(wǎng)絡”(以DKT為代表)引領的新一代人工智能時代,成為智能教育不斷演進的縮影。數(shù)據(jù)驅(qū)動是認知追蹤的固有基因,貫穿了從學習行為數(shù)據(jù)采集、處理、建模到應用等整個生命周期。本研究從認知追蹤數(shù)據(jù)產(chǎn)生及利用的場景、模態(tài)、模型、范式、價值等方面剖析其研究趨勢,也得出對未來智能教育發(fā)展的啟示。
回溯認知追蹤的發(fā)展史,從貝葉斯認知追蹤到深度認知追蹤,可謂是經(jīng)歷了一場從應用創(chuàng)新到模型創(chuàng)新的研究思潮變化。以貝葉斯認知追蹤方向為主的研究共同體,注重從具體教學場景切入,尤其是結(jié)合各類智能導學系統(tǒng)開展以個體自主學習為主要模式的應用創(chuàng)新。反之,側(cè)重深度認知追蹤方向的研究人員專注于模型創(chuàng)新,特別是近年受益于人工智能技術的不斷創(chuàng)新與突破,新模型不斷涌現(xiàn)。未來,一方面隨著認知追蹤建模技術的沉淀與成熟,回歸教育應用是必然趨勢;另一方面,構(gòu)建相互融通的學習場景、靈活多元的學習方式、彈性多能的組織管理是人工智能賦能教育的主要目標(黃榮懷等, 2019; 曹培杰, 2020)。認知追蹤也將順應智能教育的整體發(fā)展趨勢,突破當前以個體自主學習為主的應用場景,拓展到多空間融合、多主體協(xié)同、多模態(tài)交互等更加復雜多元的學習場景。
長期以來,大多數(shù)認知追蹤模型僅基于學生答題結(jié)果這一單一的學習行為數(shù)據(jù)。近年來,部分學者開始使用更多語義豐富的特征,如認知追蹤概念框架下學生對象的屬性信息、問題對象的屬性信息、“學生—問題”交互信息等,構(gòu)建基于多特征的認知追蹤模型(Sun et al., 2021),以提升其預測能力。當前,智能感知、可穿戴設備、物聯(lián)網(wǎng)等技術的發(fā)展,以及自然語言處理、計算機視覺、語音識別、生理信息識別等智能技術的不斷成熟,有助于實現(xiàn)面向智能學習環(huán)境的多模態(tài)、細粒度、高價值學習大數(shù)據(jù)的自動采集,使多模態(tài)學習分析成為驅(qū)動智能教育研究的新趨向(王一巖等, 2021)。在這一趨勢下,認知追蹤將會跨越單一行為模態(tài),逐漸發(fā)展成為行為、心理、生理等多模態(tài)數(shù)據(jù)融合驅(qū)動,從多維度、多層次洞察學習者,構(gòu)建更加精準的學習者模型。
從貝葉斯認知追蹤到深度認知追蹤,變的不僅是技術路線,認知追蹤的預測準確率也得到顯著提升(AUC值提升近30%)。但是由于神經(jīng)網(wǎng)絡固有的“黑箱”特性,難以通過模型內(nèi)部的變量或參數(shù)理解學習者認知建模的具體原理,無法揭示模型可能學到的有教育意義的信息(如學習者在答題過程中的學習率、猜測率、失誤率等),降低了對模型預測結(jié)果的增值利用或信任程度。當前,深度神經(jīng)網(wǎng)絡技術已廣泛應用于智能教育領域。教育注重揭示教育現(xiàn)象或行為之間的因果關系,未來智能教育在研究如何構(gòu)建更精準、高效機器學習模型的同時,會更加強調(diào)對模型決策過程的可解釋分析(劉三女牙等, 2021)。深度神經(jīng)網(wǎng)絡隱層白化、因果推理計算等人工智能領域的最新技術進展(Chen et al., 2020),將有助于揭示深度認知追蹤模型內(nèi)部的工作機理,實現(xiàn)對學習者的錯因追溯、歸因分析等更具教育價值的服務。
智能教育深受人工智能技術進展影響,其發(fā)展史就是一部與人工智能技術共舞的歷史。自1956年達特茅斯會議首次提出人工智能概念以來,人工智能歷經(jīng)知識驅(qū)動、以知識工程為代表的AI 1.0時代,到數(shù)據(jù)驅(qū)動的、以深度學習為代表的AI 2.0時代,當前正處于從數(shù)據(jù)驅(qū)動到“數(shù)據(jù)+知識”聯(lián)合驅(qū)動的技術轉(zhuǎn)型期,雙輪驅(qū)動的智能技術研究范式正在成為趨勢,AI 3.0時代正在來臨(張鈸等, 2020)。隨著技術的進步,智能教育也將突破過去以外顯學習行為識別為代表的淺層次感知技術瓶頸,進一步實現(xiàn)對學習情景、意圖或狀態(tài)的深層次理解。同時,知識圖譜增強的認知計算方法將賦予機器更強的推理和決策能力,能夠在“師—機—生”交互、群體協(xié)作等復雜的認知活動中提供更具策略性的學習支架與教學輔助。認知追蹤將在建模能力、解釋分析、因果推斷等方面受益于知識圖譜技術,“數(shù)據(jù)+知識”聯(lián)合驅(qū)動也將成為認知追蹤與智能教育的主要研究范式。
在人工智能與教育的深度融合過程中,過度關注技術帶來的效益而忽略了教育本身的需求,造成了人工智能對教育的意識壟斷(楊欣, 2021)。作為智能教育發(fā)展的縮影,認知追蹤同樣染上了濃厚的人工智能意識壟斷色彩。如同當前如火如荼的智能搜題、智能解題、智能批閱等智能教育應用,以深度認知追蹤為代表的認知追蹤研究直接順從了教育領域的既得利益,在線答題與技能掌握成為認知追蹤難以擺脫的“人設”,模型改進與性能提升成為部分研究者孜孜不倦的“唯一”追求。隨之而來的是古德哈特定律的應驗,更多的研究者會根據(jù)深度認知追蹤的發(fā)展態(tài)勢和標準優(yōu)化自己的行為,強化認知追蹤的技術意識壟斷。未來,研究者亟需回歸教育價值本位,從教育的角度推動認知追蹤和智能教育創(chuàng)新發(fā)展,適應未來社會強調(diào)以人為本、注重關鍵能力與核心素養(yǎng)培養(yǎng)的時代主題。
總之,智能時代的教育革命已然來臨,大數(shù)據(jù)及人工智能技術加持下的認知追蹤必將突破當前研究邊界,開拓新的學術方向,并將帶動認知追蹤研究及應用回歸教育本源。具體而言,我們首先需從認知追蹤數(shù)據(jù)產(chǎn)生的學習場景與教育意義出發(fā),建立對認知追蹤概念框架與數(shù)據(jù)處理的共識,破解當前普遍存在的“重模型、輕數(shù)據(jù)”問題;其次,順應智能教育的發(fā)展潮流,推動認知追蹤研究與應用轉(zhuǎn)型:從個體自主學習到多模式混合學習、從單一學習行為到多模態(tài)數(shù)據(jù)融合、從深度學習算法黑箱到可解釋分析、從數(shù)據(jù)驅(qū)動到數(shù)據(jù)與知識聯(lián)合驅(qū)動,以及從技術意識壟斷回歸教育價值本位。