駱方 田雪濤 屠焯然 姜力銘
摘要:教育評價改革在我國受到了前所未有的重視,然而受限于傳統(tǒng)測評手段,個性化評價和過程性評價難以得到有效實現(xiàn),教育評價改革需要新型的測評技術作為支撐。計算機技術與人工智能的發(fā)展為測評領域注入了新的活力,推動了智能化測評的產生,為我國教育評價改革提供了新的解決方案。目前,智能化測評已經在學生能力和知識水平評估、人格與心理健康評估以及教學過程評估等方面取得進展:(1)學生能力和知識水平評估突破紙筆測驗的局限,轉向過程性評價、綜合能力評價和動態(tài)性評價;(2)人格與心理健康評估擺脫了對自陳量表法的依賴,依據(jù)多模態(tài)數(shù)據(jù)有望實現(xiàn)無痕式和伴隨式評估;(3)智能分析技術助力教學反饋,使教學過程評估更加直接、便捷和精準。智能化測評對教育評價改革起到了重要促進作用,但在多模態(tài)數(shù)據(jù)應用、模型的針對性、精細化、準確性與可解釋性以及信效度檢驗等多個方面仍然存在問題。后續(xù)需探索多模態(tài)數(shù)據(jù)的協(xié)同分析,在權衡模型的準確性和可解釋性基礎上,提高模型的針對性和精細化,打通信息科學與測評領域的學科壁壘,確保模型可實用、可泛化和可擴展。
關鍵詞:教育評價;人工智能;智能化測評;研究進展;問題剖析
中圖分類號:G434 ? 文獻標識碼:A ? ?文章編號:1009-5195(2021)05-0042-11 ? doi10.3969/j.issn.1009-5195.2021.05.005
基金項目:國家自然科學基金聯(lián)合基金重點支持項目“基于‘天河二號超級計算機的教育系統(tǒng)化監(jiān)控評估、智能決策仿真與應用研究”(U1911201);軍隊裝備課題(HJ20191A020135)。
作者簡介:駱方,博士,教授,博士生導師,北京師范大學心理學部,中國基礎教育質量監(jiān)測協(xié)同創(chuàng)新中心(北京 100085);田雪濤(通訊作者),博士研究生,北京交通大學計算機與信息技術學院(北京 100044);屠焯然,碩士研究生,北京師范大學心理學部(北京 100085);姜力銘,博士研究生,北京師范大學心理學部(北京 100085)。
一、引言
教育評價是教育活動中至關重要的一部分,是教育活動的“指揮棒”,直接影響著教育活動的開展。當前教育評價改革在我國受到了前所未有的重視,中共中央、國務院印發(fā)的《深化新時代教育評價改革總體方案》從學校、教師、學生多個方面對我國教育評價改革提出了新的要求。然而傳統(tǒng)教育評價方法已無法滿足我國教育評價的需求,也無法為我國教育評價改革提供有效的支持。人們期望采用更可靠、更高效、更智能的手段整合多維度、多層次的信息,制定更具準確性和解釋性的測評方案,來推動教育評價改革順利開展。
隨著計算機、互聯(lián)網的普及和人工智能技術的發(fā)展,智能化技術在教育評價領域的應用及研究已初步展開,人工智能和教育測量研究的相互滲透催生了智能化測評這一新興領域。智能化測評將人工智能領域新興技術應用于能力評估、人格評估、課程風險評估、學習過程評估等評價任務中,不僅提高了評估的效率和準確性,有助于實現(xiàn)過程性評價和個性化評價,而且能夠整合多維度信息對學生個體進行全面評估,這對于解決教育評價難題和推進我國智能化教育發(fā)展具有重要意義。本文將對智能化測評領域的應用場景與研究進展進行系統(tǒng)梳理,并對其存在的問題及未來的發(fā)展方向進行述評。
二、智能化測評的應用場景與研究進展
計算機技術與人工智能的發(fā)展為測評領域注入了新的活力,推動了智能化測評的產生,為我國教育評價改革提供了新的解決方案。通過對近年來智能化測評技術的研究進展進行系統(tǒng)的回顧、總結與深入剖析,可以看出智能化測評技術已應用于學生能力和知識水平評估、人格與心理健康評估以及教學過程評估三個方面,逐步實現(xiàn)了對傳統(tǒng)測評手段的突破,對教育評價改革起到了重要促進作用。
1.學生能力和知識水平評估:突破紙筆測驗的局限
傳統(tǒng)測評關注對學生能力的終結式評價,將單一的考試成績作為學生能力評價的標準,而忽視了對學生學習過程的評估。紙筆測驗是傳統(tǒng)測評中最常用的評估形式,施測成本低廉、評分易標準化,在知識類測驗中具有較好的效果(Gobert et al.,2013),但在問題解決能力、批判性思維、創(chuàng)造性思維、科學探究技能等綜合能力的測評中,往往具有較大的局限性(Gobert et al.,2013;Quellmalz et al.,2013)。同時,紙筆測驗的題目脫離真實情境,難以考查學生在真實問題情境中的表現(xiàn);且主觀題評分依賴評分專家,評分周期長、成本高。不同于傳統(tǒng)測評方法,智能化測評在過程性評價、綜合能力評價、動態(tài)性評價上實現(xiàn)了突破。
(1)過程性評價
智能化測評更加關注測評的形成性功能,能夠基于長期的學習過程性數(shù)據(jù),對學生的特定學科知識與學科能力進行診斷與分析。例如,貝葉斯知識追蹤技術的發(fā)展逐步形成了動態(tài)知識水平分析的解決方案(Piech et al.,2015),可以實現(xiàn)對學生學習過程的建模,動態(tài)分析學生在學習過程中能力的變化,為教學提供更有價值的信息。Zhao等(2017)在數(shù)學在線學習的場景中將認知診斷中Q矩陣先驗知識引入到知識追蹤技術中,建立了基于貝葉斯理論的可解釋知識追蹤模型,實時評估學生知識掌握狀況,并對學生隨后的作答情況進行預測。此外,也有研究者利用作答過程中的生理指標數(shù)據(jù)對學生的能力水平進行分析。例如,Rodrigo(2020)在編程教學過程中,使用學習者的眼動數(shù)據(jù)對學生的編程能力進行實時的診斷,并通過分析教師與學生在教學互動中學生編程能力的變化,對教師教學有效性與學生掌握情況進行系統(tǒng)評估。
(2)綜合能力評價
在大規(guī)模的綜合能力(問題解決能力、批判性思維、創(chuàng)造性思維、科學探究能力等)測評中,研究者們開始設計模擬式測評(Simulation-Based Assessment,SBA)與游戲式測評(Game-Based Assessment,GBA)等智能化測評。這些測評為學生提供了一個完整、真實且開放的問題情境,允許學生在任務情境中自由探索和表達(Gobert et al.,2013;Baker et al.,2016;Cui et al.,2019)。目前,許多國際大型教育監(jiān)測項目已經廣泛使用了這種測評方式,例如PISA ?2015年開始大規(guī)模施行問題解決與科學探究能力的人機交互式測評。這些基于技術增強的新型測評不但更加貼合真實的問題情境(Quellmalz et al.,2013),同時也使作答過程更容易被記錄和留存(Akp?nar et al.,2014)。此外,盡管人機交互式測評的測試時間一般較短,但卻能夠從作答過程中獲得豐富的與學生能力和人格特質相關的診斷信息(Gobert et al.,2013;Vista et al.,2016)。這些豐富的診斷信息往往以“Log File”的形式保存在計算機的根目錄中,已經有許多研究者利用這些作答過程數(shù)據(jù)對學生知識與能力水平進行分析與診斷。例如,He等(2016)通過分析PIAAC信息素養(yǎng)測驗(ICT)中被試的作答時間、題目跳轉作答情況,采用聚類分析的方法將被試劃分為不同的類別,探索了不同類型被試能力表現(xiàn)存在差異的原因;Baker等(2016)從哈佛大學教育學院開發(fā)的虛擬表現(xiàn)性測驗(VPA)產生的過程性數(shù)據(jù)中提取了29個特征,采用決策樹、分步回歸的方法對學生作答過程數(shù)據(jù)進行建模,實時評價了學生的實驗設計能力。
(3)動態(tài)性評價
采用人工智能的分析方法對測驗結果進行自動評分,并將測評結果進行即時反饋,實現(xiàn)動態(tài)性評價,也是智能化測評的主要研究方向之一。針對作文的自動化評分就是一種動態(tài)性評價方式,不但能夠減輕評分員的負擔,增強分數(shù)報告的及時性,同時也可以增加評分的客觀性并獲得更細粒度的評閱信息。例如,辛濤等(2020)基于概念圖的方法對作文文本進行處理,構建了作文文本主旨觀點自動評價模型;付瑞吉(2020)使用自然語言處理技術構建了語法錯誤檢測模型、論辯結構識別模型等,通過這些模型自動提取指定維度的作文特征,進而獲取細分維度的作文評分。除作文之外,短文本作答的自動化評分也是教育評價近年來比較關注的研究問題(Burrows et al.,2015)。研究者采用不同的方法構建了短文本的自動化評分模型。例如,Madnani等(2017)對科學、數(shù)學、英語、藝術四門學科中的130道問題,共計230000個作答文本使用8種不同的監(jiān)督學習方法構建了自動化評分模型;Cinar等(2020)針對土耳其學生在科學測驗上的作答信息進行分詞、賦權、特征提取,然后將篩選的特征作為輸入,人工評分作為輸出,構建了包括袋裝法、自適應提升法、基尼系數(shù)算法、支持向量機、K-近鄰算法等多個機器學習模型,并計算了其預測準確率(Cinar et al.,2020);Zhang等(2016)使用基于深度置信網絡(Deep Belief Networks,DBN)的深度學習方法對大學物理知識作答文本進行自動化評分,并證明該方法具有比傳統(tǒng)模型更高的準確率。
綜合來看,智能化測評可以突破紙筆測驗的局限性,可以實現(xiàn)對學習過程或作答過程數(shù)據(jù)的建模。高保真的測驗場景與交互式的新型測評方法可以實現(xiàn)對學生綜合素質更準確地評估。此外,智能化測評的自動化、高效性,能為師生提供實時的反饋,實現(xiàn)動態(tài)性評價。值得注意的是,從目前教育評價實踐來看,紙筆測驗仍然是最主要的學生能力測評方式,終結性的評估仍然在教育評價中占據(jù)主流地位。智能化測評在綜合能力的測量中,無論是施測形式還是施測內容均與傳統(tǒng)測量方法存在較大差異,測量結果往往與傳統(tǒng)的知識類測驗結果并不匹配,因而在實際的應用中還需要進行充分的對比研究,探索造成差異的原因并提出相對穩(wěn)妥的改進方案。另外,新型測評產生的過程性數(shù)據(jù)具有豐富的診斷信息,當前雖然已經有了一些對過程性數(shù)據(jù)進行挖掘的探索性研究,但真正將過程性數(shù)據(jù)作為評估證據(jù)進行教學評價的研究仍然較少。智能化測評中針對主觀題構建的自動評分模型提高了測評的效率,但這些模型的構建過程往往還屬于一個“黑匣子”,人們對模型評分過程的信任度不高,其評分結果往往作為人工評分的校驗手段??傮w而言,智能化測評在學習與能力評估方面仍然處于發(fā)展探索階段,需要進行更充分和系統(tǒng)的研究。
2.人格與心理健康評估:無痕式和伴隨式評估
教育評價改革不僅要求對學生的能力素養(yǎng)進行全面評估,同時也關注學生的個性品質和心理健康。目前對學生個性品質(如人格、興趣、動機等)和心理健康(如焦慮、抑郁、主觀幸福感等)的評估主要采用自陳量表法。自陳量表向學生提供一系列客觀問題,由學生本人根據(jù)實際情況報告自己是否具有某些典型的行為表現(xiàn),最后根據(jù)量表得分評估學生的狀況。自陳量表作答的有效性依賴于被試對題目的理解和作答態(tài)度。同時,自陳量表法難以短期內多次測量,無法及時有效地反映學生個性品質和心理健康的發(fā)展與變化。智能化測評突破了傳統(tǒng)心理健康測評對自陳量表法的依賴。基于社交媒體與在線文本信息、可穿戴式傳感器數(shù)據(jù)以及音視頻數(shù)據(jù)等多模態(tài)數(shù)據(jù),智能化測評通過人工智能分析方法,可以實現(xiàn)對學生人格與心理健康的無痕、伴隨式評估。
(1)基于社交媒體與在線文本數(shù)據(jù)的智能化測評
社交媒體與在線文本數(shù)據(jù)中包含了大量的被試情緒情感信息,對人格與心理健康測評具有重要的價值。目前已有大量利用社交媒體與在線文本數(shù)據(jù)對人格與心理健康進行測評的研究,例如,利用小學生在教客網上的在線寫作數(shù)據(jù)對小學生的羞怯特質進行預測(駱方等,2020;景麗萍,2020);利用推特中的社交媒體信息對個體的大五人格進行預測(Quercia et al.,2012);基于在線網絡數(shù)據(jù)對個體與群體的成長軌跡、人格、態(tài)度、興趣進行探索性的分析(孔儀,2019);基于微博分析比較不同生活滿意度的用戶在社交媒體中文本表達的差異(汪靜瑩等,2016)。這些研究證明了將社交媒體和在線文本數(shù)據(jù)用于人格與心理健康評估的潛力與可行性。
(2)基于生理數(shù)據(jù)的智能化測評
來自可穿戴智能設備、腦電設備收集的生理數(shù)據(jù)同樣也被用于人格與心理健康測評中。例如,Muramatsu等(2016)基于學生學習過程中的眼動數(shù)據(jù)對學生的無聊與好奇情緒進行了評估;Faust等(2014)對腦電信號進行分解,采用t檢驗篩選抑郁癥患者與正常人群之間具有顯著差異的特征,并根據(jù)篩選出的特征構建機器學習分類器,發(fā)現(xiàn)利用左右半球大腦活動情況的最優(yōu)預測準確率分別為0.982與0.995;Deng等(2019)采集高情緒障礙者和低情緒障礙者在觀看不同情感類型影片過程中的腦電數(shù)據(jù),采用支持向量機構建預測模型,達到0.952的準確度。也有研究者利用深度模型對腦電與智能設備采集的數(shù)據(jù)進行建模,實現(xiàn)人格與心理健康問題更精確的測量。比如,Ay等(2019)在腦電數(shù)據(jù)中運用循環(huán)神經網絡識別抑郁癥,模型在左右腦半球的準確率分別為0.935和0.960;隨后,其采用長短時記憶網絡(Long Short-Term Memory,LSTM)進行建模,將左右腦半球的準確率提升至0.977和0.971。
(3)基于音視頻數(shù)據(jù)的智能化測評
音視頻數(shù)據(jù)同樣包含著豐富的能夠反映個體內在心理特質的表現(xiàn)數(shù)據(jù)。例如,Whitehill等(2015)從視頻中提取面部特征,并采用支持向量機對學生的學習投入程度進行分析,獲得了較高的預測準確率;Zhao等(2019)對視頻中個體在自然狀態(tài)下的步態(tài)進行研究發(fā)現(xiàn),3~5分鐘的步態(tài)數(shù)據(jù)可以精準預測個體的情緒狀態(tài),模型準確率達到0.80以上;在焦慮與抑郁的心理問題預測任務中,模型預測結果與效標之間的相關分別為0.74與0.64。
綜合來看,人格與心理健康的智能化測評中,不再以自陳量表作為評價的唯一依據(jù),數(shù)據(jù)來源更加豐富,對社交媒體、音視頻和生理數(shù)據(jù)的利用也促進了人格與心理健康水平的伴隨式與無痕式評估,有助于解決人格與心理健康傳統(tǒng)測量誤差較大、容易受個體作答態(tài)度影響等問題。但目前對于這些多模態(tài)數(shù)據(jù)的分析往往是從單一模態(tài)的數(shù)據(jù)出發(fā),研究目的是為了驗證使用某一模態(tài)數(shù)據(jù)進行心理健康問題診斷或人格測評的可行性,還缺乏對多模態(tài)數(shù)據(jù)進行協(xié)同建模的研究。此外,這些研究只是關注了智能化心理健康測評的可行性,缺乏對模型的精細化以及針對性程度的細致探討,模型的精度和效率都較低,很難用于實際的心理健康篩查與人格測評中,也沒有出現(xiàn)影響力比較大、應用廣泛的心理健康預測模型。
3.教學過程評估:更加直接、便捷和精準
對教學過程的評價通常有兩種途徑:第一,基于學生的評教結果,即通過學生對教師教學行為的主觀感受來對教學過程進行評估。目前,結構化的教學評價問卷是最主要的評教方法,成本低、分析簡便,然而受限于固定的問題形式,學生真實的想法往往無法表達。大多數(shù)學校通過在結構化問卷的基礎上設置若干開放式評價題目,允許學生自由填寫對教師的看法來彌補這一缺陷,但由于評教文本量化分析成本高、難度大,所以評教文本一般僅作為輔助性信息提供給教師參考。第二,對教師的育人表現(xiàn)進行直接評估,通常由專家對課堂教學、班級管理等進行觀察和打分。這種依靠人工打分的方式費時費力,難以在日常教學中大規(guī)模和高頻率開展。
隨著人工智能技術,尤其是自然語言技術的不斷發(fā)展,越來越多的研究者開始將評教文本的自動化評估用于實際的教學評價中。例如,Esparza 等(2017)將評教文本的分析轉化為情感分析問題,采用隨機森林與支持向量機對墨西哥某大學的學生評教文本進行情感分類(正向、負向與中性三個類別),模型達到0.85的評價準確率。景麗萍(2020)首先使用BERT語言模型構建多標簽分類模型,預測評教文本是從哪個方面對教師進行評價;之后再針對每一個方面構建情感傾向多分類模型;最后通過整合多個學生對同一位教師的評價結果,形成情感摘要,進而對教師的教學效果進行綜合評價。
基于課堂音視頻數(shù)據(jù)對教師進行評價、對教學類型進行分類,也是智能化測評的一個重要方向。研究者通過新技術提取課堂音視頻的關鍵信息特征,挖掘學習活動中潛在的師生互動方式、問答模式、師生關系、活動策略等。例如 Kashyap等(2018)從課堂教學視頻中提取教師的演講、行為線索以及視頻本身屬性作為特征,使用機器學習方法構建課堂氛圍的自動評分系統(tǒng),對課堂氣氛進行實時評價。有研究證明,針對課堂錄像的機器評分比專家評價更具優(yōu)勢,機器評分結果更加嚴格,評價結果也更加穩(wěn)定、客觀(Haudek et al.,2020)。隨著課堂視頻分析技術與分析方法的不斷發(fā)展,課堂教學評估逐漸從課程結束后評估轉向課堂教學過程中的評估,比如卡內基梅隆大學開發(fā)的智能導學系統(tǒng)Lynnette、FACT系統(tǒng)、清華大學雨課堂等智能導學系統(tǒng)能夠實時對教學情況進行診斷,即時反饋教學信息,助力教師教學。
將人工智能應用于教學過程分析中,能夠對教師教學進行精確畫像,幫助學校和教師了解學生的需求,及時精準地調整教學育人的方式方法。然而,教學文本的自動化評價研究非常少,還沒有引起人們足夠的重視。此外,所采用的建模方法也較為簡單,僅將其作為簡單的情感分類問題來處理,能夠給教師提供的教學參考意見比較有限。其實,評價文本作為反映和收集學生心聲的重要渠道,如果能夠實現(xiàn)機器建模,對教學意見精細提取和匯總,將能夠搭建起學生和教師充分和及時溝通的橋梁。而且,對課程教學的自動化評估受限于弱人工智能的不足,還很難實現(xiàn)對教學語言層面的深入分析,也很難對個性化、復合型的教學手段進行甄別和評估。此外,如何有效保護課堂中師生的隱私也是一個不容忽視的問題。
三、智能化測評的關鍵問題與發(fā)展方向
智能化測評能夠充分利用人工智能的優(yōu)勢,減少測評過程中的人力消耗,實現(xiàn)更具準確性和解釋性的測評方案,增強過程性評價和個性化評價。然而目前,智能化測評依然處于初步發(fā)展的階段,存在一些共性和亟待解決的關鍵問題。
1.多模態(tài)數(shù)據(jù)的利用問題
智能化測評采用數(shù)據(jù)驅動的人工智能分析方法,能夠最大程度上利用多模態(tài)數(shù)據(jù),實現(xiàn)對個體能力、認知水平、人格特質、心理健康等更全面和精準的評估。然而,目前智能化測評中對多模態(tài)數(shù)據(jù)的利用仍然處于起步階段,基于多模態(tài)數(shù)據(jù)的測評主要以探索性研究為主,對多模態(tài)數(shù)據(jù)的協(xié)同分析還不夠深入。從以往的研究來看,對多模態(tài)數(shù)據(jù)的研究主要存在以下問題和局限:
第一,數(shù)據(jù)采集的限制。目前用于測評任務的數(shù)據(jù)主要包括文本模態(tài)、視覺模態(tài)、語音模態(tài)和生理信號模態(tài)等,雖然計算機技術的發(fā)展提供了諸多高效的數(shù)據(jù)收集手段,例如網絡數(shù)據(jù)爬蟲、在線學習平臺、可穿戴設備等,但針對指定被試人群同時采集多來源多模態(tài)數(shù)據(jù)以及支持有監(jiān)督學習建模的標簽數(shù)據(jù)依然是困難的。同時,對人的測評不同于其他,需考慮隱私、倫理等問題,所收集的數(shù)據(jù)往往難以被公開使用。數(shù)據(jù)采集的困難讓許多研究局限在特定的場景中,限制了多模態(tài)數(shù)據(jù)在模型構建中的應用。
第二,研究內容的局限。由于數(shù)據(jù)的可采集性和流通性差,目前使用人工智能技術將多模態(tài)數(shù)據(jù)應用于測評的研究大多數(shù)仍然屬于探索性研究,研究的目的一般是為了證明某一來源或某種模態(tài)數(shù)據(jù)在進行能力或人格測量與診斷中的可行性,包括針對社交網絡數(shù)據(jù)(Quercia et al.,2012;孔儀,2019)、生理指標數(shù)據(jù)(Whitehill et al.,2015;Muramatsu et al.,2016;Cui,2020)以及對學生作答的過程數(shù)據(jù)(Vista et al.,2016)的探索,而將多模態(tài)數(shù)據(jù)應用于測評任務的實踐工作仍然較為缺乏。雖然已有研究者開始將多模態(tài)數(shù)據(jù)應用于教育中,包括教學策略的制定(王慧君等,2015)與學習分析領域(張琪等,2020),但將多模態(tài)數(shù)據(jù)應用于人格與心理健康測評中的研究仍然較少。
第三,當前測評任務中多模態(tài)數(shù)據(jù)的使用方法較粗糙。基于多模態(tài)數(shù)據(jù)的建模過程需要充分關注跨模態(tài)間的一致性和互補性,同時關注測量任務中的可解釋需求,而目前測量中對多模態(tài)數(shù)據(jù)進行分析時采用的方法更多是在特征層面進行融合,然后利用傳統(tǒng)的機器學習模型對多模態(tài)數(shù)據(jù)與相對應的數(shù)據(jù)標簽進行建模,通過模型準確率對模型進行評價(Whitehill et al.,2015;Muramatsu et al.,2016)?,F(xiàn)有的方法在準確性提升上具有較好的表現(xiàn),但沒有對跨模態(tài)數(shù)據(jù)關系進行充分地挖掘,特別是不同模態(tài)數(shù)據(jù)的特征在支持決策時是一致的還是互補的,在測評中還需要探索更加嚴謹、可解釋的分析方法。
第四,人工智能中的多模態(tài)學習方法并不是領域自適應的。多模態(tài)學習在人工智能領域受到了很大關注,相關的研究成果也很多,但主要關注的是如何建立能夠整合多模態(tài)信息的表示學習方法(Xu et al.,2020)。這些方法在應用于指定的數(shù)據(jù)和任務時,并不能保證一定有效,需要根據(jù)特定的任務需求進行模型設計上的調整。
第五,研究人員的缺乏。目前應用多模態(tài)數(shù)據(jù)進行評估與測評的研究人員大都來源于計算機與人工智能領域,他們利用多模態(tài)數(shù)據(jù)實現(xiàn)用戶畫像,進而解決市場上一些容錯率高的應用問題,如商品推薦。但從研究角度來看,基于多模態(tài)數(shù)據(jù)的測評中結果精度往往達不到要求,在利用多模態(tài)數(shù)據(jù)進行智能化測評的研究中,仍然需要大量具有心理測量學背景的專業(yè)人才。
結合智能化測評對多場景、多模態(tài)數(shù)據(jù)研究存在的問題,本文提出以下解決方法:
一是針對特定領域或研究任務,逐步建立統(tǒng)一的數(shù)據(jù)標準和聯(lián)合研究平臺。引入人工智能技術開展基于多模態(tài)數(shù)據(jù)的測評研究,首先需要構建一定規(guī)模的數(shù)據(jù)集。為此,在一些測評任務上,不可避免需要研究者建立統(tǒng)一的數(shù)據(jù)標準來整合多個數(shù)據(jù)源,例如綜合分析上百所學校的考試數(shù)據(jù)、多個網絡平臺的博客數(shù)據(jù)進行協(xié)同分析等。為了在打破數(shù)據(jù)孤島的同時保護用戶隱私,未來需要逐漸建立統(tǒng)一的聯(lián)合研究平臺,特別是針對教育、求職等過多涉及個人信息的場景,有學者建議應用聯(lián)邦學習策略(李默妍,2020)來構建和應用機器學習模型。
二是從測量研究角度出發(fā),融合多場景中產生的多模態(tài)數(shù)據(jù)作為智能化測評的評估證據(jù),建立多模態(tài)數(shù)據(jù)與評估目的之間的鏈接。在證據(jù)鏈接建立過程中可以同時采用自上而下與自下而上的方法進行確定。自上而下即依靠專家通過領域先驗知識從多模態(tài)數(shù)據(jù)中提取與評估目的相關的數(shù)據(jù),建立聯(lián)系;自下而上的方式是通過數(shù)據(jù)挖掘方法,從數(shù)據(jù)出發(fā),提取特征。自上而下的方法往往解釋性較好,但在數(shù)據(jù)規(guī)模大且內容非常繁瑣與復雜時,會產生重要特征遺漏的問題;而自下而上的方法雖然最大程度上保留了數(shù)據(jù)特征,但可能產生預測變量的解釋問題。
三是將測評分析方法與機器學習方法相結合,對多模態(tài)數(shù)據(jù)進行建模與分析。基于海量多模態(tài)數(shù)據(jù)進行的測評分析結果一般更加準確。目前使用多模態(tài)數(shù)據(jù)進行的智能化測評研究中,主要還是采用特征融合策略,結合傳統(tǒng)的機器學習模型(如隨機森林、支持向量機等)進行分析。為了充分發(fā)揮多模態(tài)數(shù)據(jù)的優(yōu)勢,基于深度學習模型構建統(tǒng)一的跨模態(tài)表示學習方法會有更好的性能表現(xiàn)(Xu et al.,2020),相關的研究成果應該進一步應用于測評實踐中。
四是加強人工智能和測量領域合作,關注具有解釋性的表示學習方法研究??山忉屝缘纳疃葘W習策略已經受到人工智能領域的廣泛關注,信息理論、因果學習等為表示深度特征與可解釋特征間的對應關系提供了探索性的解決方案(Besserve et al.,2020;Cheng et al.,2020)?;跍y量領域既有經驗,這些方法能夠逐步應用于一些特定的測量任務。
五是構建多模態(tài)知識圖譜,將先驗的領域知識引入到多模態(tài)數(shù)據(jù)建模過程中來。一些數(shù)據(jù)豐富的場景早已具備多模態(tài)知識圖譜的研究基礎,相關研究已經擴展到推薦系統(tǒng)等下游任務中(Sun et al.,2020),在MOOC這樣的教育場景也有所涉獵(王亮,2018)。多模態(tài)知識圖譜結構化地表征了多模態(tài)數(shù)據(jù)中的已知關系,能夠更有效地整合既有研究結果并用來提升測量性能和效率。然而,針對人的能力或心理特質的測量還缺乏多模態(tài)知識圖譜相關的研究,但隨著一些聯(lián)合研究平臺的建立和相關研究人才的累積,這將成為未來一個重要的發(fā)展方向。
2.測評結果的準確性與可解釋性問題
智能化測評結果的準確性與可解釋性是測評研究中最為重要的評價指標。準確性要求盡可能降低測評的誤差;可解釋性是測評結果可以被理解的程度。智能化測評不僅對測評精度要求高,而且還要能夠清楚解釋測評分數(shù)是如何得到的。因為如果測評分數(shù)的計算過程是一個黑匣子,往往會招來考生對測評過程公平公正的質疑,尤其是在高利害測試的場景下。因此,如何結合人工智能技術來提高測評的準確性并保證可解釋性,是面向教育評價改革的智能化測評技術需要解決的主要問題之一。
(1)準確性問題
對于如何提高測評的準確性,傳統(tǒng)的測評方法強調的是對測驗誤差的精準控制,而智能化測評關注的是測驗的評分結果與真實的能力水平或專家標簽之間的匹配程度。研究者主要從特征提取與模型構建兩方面來試圖提高智能化測評的準確性。
在特征提取方面,智能化測評所面對的數(shù)據(jù)往往是海量的、多模態(tài)化的。這些數(shù)據(jù)中蘊含豐富的信息,如何對這些數(shù)據(jù)進行表征直接影響了智能化測評的準確性。不同的研究者使用不同的方法進行特征提取。例如,吳君勝等(2020)利用Dlib提取人臉68個點位特征,Huang等 (2012)和Gao等(2013)等利用LIWC和Text Mind等語言詞典針對文檔提取100維左右的詞性特征。隨著人工智能技術的不斷發(fā)展,特征提取工作也越來越精細。以文本數(shù)據(jù)為例,詞袋模型、基于TF-IDF或TextRank的關鍵詞提取等基于詞頻的特征提取方法,在早期的研究中被大量應用。自2014年起,依賴詞嵌入(Word Embeddings)技術(Mikolov et al.,2013)與神經語言模型(Devlin et al.,2019)等文本特征提取方法逐漸成為主流的特征提取方法。這種特征提取方式可以關注到文本之間的上下文關系,與基于詞頻的方法相比具有更高的準確率(Devlin et al.,2019)。
在模型訓練方法上,深度置信網絡(DBN)、循環(huán)神經網絡(RNN)、卷積神經網絡(CNN)等深度學習算法被用于智能化測評中。Zhang等(2020)的研究證明了深度模型比傳統(tǒng)方法具有更高的預測準確率。但在深度模型提高準確率的同時,模型的可解釋性往往較差,因而如何在可解釋的前提下進行準確預測是智能化測評中更加需要關注的問題。
(2)解釋性問題
可解釋性是智能化測評中需要重點考量的因素。測驗工具在保證準確性的同時,需要達到可接受的解釋性。目前,機器學習模型具有一定的可解釋性,例如,邏輯回歸中的參數(shù)可以直接反映單個變量與預測結果的正負相關,決策樹中的節(jié)點直接對應預測中的規(guī)則選擇過程。深度學習具備強大的非線性擬合能力,往往具有更高的準確率,但同時也使行為指標和能力特質之間的關系變得難以解釋。為此,研究者嘗試通過各種手段來提高模型的可解釋性。解決方案之一是采用Attention機制(Vaswani et al.,2017)或者探索解耦的向量表示(Cheng et al.,2020),即通過捕捉對于預測特定能力或特質最重要的特征,幫助研究者及教育工作者理解測評結果的意義。以作文自動化評分為例,近年來深度學習模型已被用于作文分數(shù)預測(Zhao et al.,2017;Jin et al.,2018),深度學習模型將大量特征或原始文本輸入模型,經過復雜的深度學習過程直接輸出作文的分類結果,通常能在特定情境的任務中得到較高的準確率。為了進一步明確特征體系與評價標準的關系,檢驗模型評估對構念的覆蓋情況,研究者采用Attention機制來解決可解釋性的問題,得到了較為理想的結果(Ive et al.,2018)。
此外,研究者還嘗試構建并納入知識圖譜來提升模型的可解釋性。知識圖譜是將人類知識或經驗表示成圖結構以供計算機分析的一種技術,目前在智能教育中的應用僅限于“基于知識圖譜的課程推薦任務”,尚未在測評任務中得到應用。知識圖譜的優(yōu)勢在于強解釋性,圖中的節(jié)點和邊都具有明確的實際意義。在智能化測評場景中,教育工作者可以將多年的工作經驗進行總結,進而構建成知識圖譜。知識圖譜既可以根據(jù)圖結構和文本語義直接用于推斷決策,也可以將其進行向量表示,進而與具體的深度學習任務進行統(tǒng)一建模,從而形成兼顧準確性和解釋性的重要解決方案。最后,針對某些難以獲得大規(guī)模測試數(shù)據(jù)的測評任務,研究者需要應用到小樣本學習技術(Zang et al.,2020)。機器學習模型普遍依賴于大規(guī)模數(shù)據(jù)訓練,而小樣本學習技術的本質是遷移學習,依靠既有的知識、模型、學習能力的建模技術,這與人類的智能非常相像。很多小樣本學習技術是基于度量特征向量間距離的思想展開的,具有非常好的解釋性。
準確性與可解釋性是智能化評估中最重要的兩個評價指標,然而在實際研究中經常會過多強調準確性,而忽視了可解釋性,直接影響了智能化測評在實踐中的廣泛應用。這具體體現(xiàn)在以下三個方面:
一是缺乏對智能化測評模型的可解釋性研究。幾乎所有的自動化評分模型在效度驗證的過程中都會呈現(xiàn)模型的預測準確率,但很少有研究會對模型的可解釋性進行驗證。雖然深度模型相較于傳統(tǒng)模型具有更高的預測準確率,但直到最近才開始有研究者關注預測方法的可解釋性。智能化測評中的可解釋性仍然需要科學的評估,并置于與準確性同等重要的位置。二是由于深度模型存在難以解釋的問題,因而深度模型在智能化測評中的應用仍然較少。目前人工智能領域的研究者已經開始探索利用多種方法提高模型的解釋性問題。但是這些具有良好解釋能力的深度模型仍然較少被用于智能化測評研究中,尤其是知識圖譜和遷移學習還沒有在任何測評任務中加以應用。智能化測評必須要強調準確性和可解釋性的平衡問題,不能顧此失彼。構建智能化測評模型,不僅需要依賴人工智能方法,同時也要增加更多的專家先驗知識,促進模型的可解釋性。在保證可解釋的前提下,逐步將深度學習算法應用到智能化測評中,將人工智能領域中的研究成果與測評相結合,助力智能化測評的發(fā)展。三是目前缺少對模型可解釋性的評估方法,如何對模型的可解釋性進行系統(tǒng)的評估同樣也是智能化測評需要解決的問題。
3.測評模型的針對性和精細化問題
目前智能化測評的主要研究人群來自人工智能領域,他們一般從海量的文本數(shù)據(jù)以及智能設備采集的日志文件等大規(guī)模數(shù)據(jù)集中,以數(shù)據(jù)驅動的方法對心理特質(如學習者的能力、人格特質、心理健康等)進行預測與測評。這些研究往往缺乏對心理特質的準確界定,忽略測評過程中可能產生的誤差,忽視從理論上來闡釋所測特質和特征抽取之間的關系,雖然構建的預測模型表現(xiàn)出了良好的準確率,但是卻較難用于實際的教學實踐活動中,并提供有效的教學建議。
為了實現(xiàn)真正高效、精準的智能化測評,促進智能化測評在多個教育場景下的廣泛應用,需要提高預測模型的針對性和精細化。在模型構建時應當不過分依賴于數(shù)據(jù),適當引入專家知識,更合理地建構測量數(shù)據(jù)與測量結果之間的關系。同時在數(shù)據(jù)的收集過程中,也應當摒棄無規(guī)則的大范圍數(shù)據(jù)收集,而是依據(jù)測量目的,注意與傳統(tǒng)測量技術的有機結合,針對性地設計數(shù)據(jù)收集方法。具體的操作建議如下:
首先,從測量目的出發(fā),基于教育和心理學長期以來的研究經驗對所測特質進行構念化與操作性定義,建立精細的測評維度,并明確測評維度與外部行為特征的鏈接關系。這樣有助于搜集和清理與所測特質更相關的有效數(shù)據(jù),并建立更全面、更精細、更科學的數(shù)據(jù)標簽。這樣構建的預測模型能夠對所測特質進行多維度的精準測評,而不是一個簡單的分類模型。比如,精細化的測評要求心理健康的智能化測評不再以是否具有某種心理疾病為預測標簽,而是以癥狀作為預測目的,通過對癥狀表現(xiàn)的自動化評分,更準確地診斷患者是否患有某種心理疾病,幫助治療師依據(jù)患者的癥狀表現(xiàn)制定針對性的治療方案。再比如,基于教育和心理專家的經驗對知識體系和能力水平進行精細界定,明確知識和能力進階的途徑后再建構認知診斷模型,可以給學生提供更精準的測評結果和學習建議。
其次,將近些年來教育和心理測評專家提出的證據(jù)中心設計(Evidence Centered Design,ECD)(Mislevy et al.,2003)應用至智能化測評中,針對性地收集數(shù)據(jù)并進行模型建構。證據(jù)中心設計以“評估是收集能論證被評估者知識或能力的證據(jù)”作為評分理念,圍繞證據(jù)的評估設計和評估實施方法,設計學生模型、證據(jù)模型與任務模型。學生模型回答“測什么”的問題,是對所測特質的精細化處理。最簡單的學生模型是單維的,較復雜的學生模型往往是多維的,具有層次關系。證據(jù)模型回答“如何測”的問題,包括證據(jù)規(guī)則和測量模型兩部分。證據(jù)規(guī)則確定任務表現(xiàn)中哪些行為將被計分,以及相應的評分規(guī)則;測量模型定義了學生模型的能力和證據(jù)規(guī)則之間的鏈接關系。任務模型解決“用什么測”的問題,在學生模型與證據(jù)模型的基礎上設計呈現(xiàn)給被試的測試材料和規(guī)定被試如何反應。將證據(jù)中心設計思想應用于智能化測評中,將學生模型、證據(jù)模型與機器學習中的特征集合與標簽相對應,通過系統(tǒng)、科學地設計數(shù)據(jù)收集方法與收集手段,在提高評分效率的同時增加模型的精細化程度與評分有效性,進而推動智能化測評在教學實踐中的應用。
4.智能化測評中的信效度檢驗問題
教育測量界不斷更新的信度與效度概念深深地影響著能力評價工具的開發(fā)與應用。隨著人工智能技術的快速更新與迭代,各種自動化測評工具的信效度也被賦予了融合時代特色的新涵義。信度與效度論證的本質是對教育和心理測驗的穩(wěn)定性進行評估,并對測評結果的有效性提供證據(jù)。目前,對智能化測評工具的信效度檢驗幾乎都集中在機器評分與人工評分或傳統(tǒng)測驗分數(shù)的一致性上,且主要利用交叉驗證方法對智能化評分模型的精確度、召回率以及F1值進行驗證,而這只能說明智能化測評具有一定的預測效度,但是對區(qū)分效度(能把所測特質與其他特質區(qū)分開來)、重測信度(隨時間的穩(wěn)定性)、一致性信度(跨樣本的評分一致性)以及公平性(對不同的施測群體不存在測量偏差)等方面缺乏檢驗和評估。雖然智能化測評往往具有較高的準確率,但這并不意味著就滿足了測評的要求,需要依據(jù)傳統(tǒng)測評框架對測評的信效度進行系統(tǒng)評價。
目前,一些教育和心理測量專家在嘗試開發(fā)智能化測評任務時,有意識地對測評質量進行信效度檢驗。Scalise等(2018)在多維IRT的模型框架下對虛擬表現(xiàn)測驗(Virtual Performance Assessment,VPA)中產生的過程性數(shù)據(jù)進行建模分析,檢驗不同的過程性指標在IRT框架下的信度,并證明具有良好的信度指標;Quellmalz 等(2013)采用出聲思維法收集學生在交互式測評中的作答過程數(shù)據(jù),并將出聲思維與學生的實際作答情況進行比對,從過程性數(shù)據(jù)角度對新型交互式測評的內容效度進行驗證。然而,目前還沒有對智能化測評在不同群體中應用的等價性、測驗結果的穩(wěn)定性等信度指標進行檢驗的研究。智能化測評往往是針對一個特定任務構建評分模型,研究者很少去探討該模型在其他問題情境、不同測試群體、不同時間階段下的預測準確度。在人工智能領域這個問題已經被提出,被稱為“模型的泛化性”檢驗,雖然沒有采用“信度”的概念體系,但是含義是相同的。模型的泛化力不足,則只能在特定的、有限的場景中使用,會阻礙智能化測評的廣泛應用。隨著人工智能領域的研究范式逐漸成熟,模型的泛化性檢驗勢必會影響智能化測評模型的評估體系。
從另一角度來看,人工智能技術的發(fā)展同樣為信效度的評價帶來了新的思路。教育與心理測量標準制定了效度證據(jù)的5個來源,包括測驗內容、作答過程、內部結構、與其他變量的關系以及測驗的結果,在2014年修訂之后的標準中仍然將作答過程作為效度證據(jù)的重要依據(jù)(AERA et al.,1999)。雖然作答過程是效度證據(jù)的重要來源,但在實際的測驗分析中,由于無法對過程性數(shù)據(jù)進行充分的采集和分析,研究者很少會從作答過程的角度對測驗的效度進行驗證(Hubley et al.,2017)。而智能化測評對過程性指標的收集更加便利,動態(tài)化建模也已成為可能,因而從過程性角度對測驗進行信效度評價有望成為測評信效度檢驗的重要組成部分。比如,田偉等(2020)采用口語報告法獲取了學生作答測驗的思維過程并解析出了不同的思維水平,然后在作答時間軸上標記了各種思維能力與計算機記錄的學生作答過程性數(shù)據(jù)的對應關系,明確了學生的操作與能力測評的關系。
對于一個智能化測評系統(tǒng),除了要盡可能準確地擬合人工評分,同時也要考察模型是否真正測量了想要測評的特質,是否具有跨群體、跨情景、跨時間的一致性,是否對某些群體存在測評偏差等。智能化測評的信度與效度的論證應該包含一套完整的檢驗邏輯和范式。然而智能化測評是一個新興交叉領域,不同學科體系的研究人員遵循的研究范式有較大的差異,短期內很難形成達成共識的研究規(guī)范。我們可以通過促進學科間的融合、取長補短,完善和提高智能化測評的信效度檢驗。具體做法是:(1)采用傳統(tǒng)測評框架對智能化測評的信效度檢驗部分進行系統(tǒng)分析,將經典測量理論、項目反應理論以及認知診斷等經典的心理測量學理論與智能化測評進行深度結合,使智能化測評更準確、更有效;(2)結合過程性數(shù)據(jù),從過程性角度出發(fā),設計新的測驗效度檢驗方法,對傳統(tǒng)的測量學效度檢驗方法進行補充。要加強對測驗作答過程性數(shù)據(jù)的研究,提高過程性數(shù)據(jù)建模的可解釋性,有意識地建立特征提取與效標的鏈接,并找尋量化這種鏈接緊密性的數(shù)據(jù)指標作為新的效度指標。(3)關注智能化測評結果在不同群體、不同測驗場景、不同時間段的穩(wěn)定性和適用性,在特征提取階段加強對相同特征的使用和對比分析。建模階段也不能一味追求單一任務的準確性,而是要強調多任務、多群體的泛化性以及協(xié)同建模的重要性,維護測驗的公平性與穩(wěn)定性。
四、總結
教育評價改革需要新型的測評技術作為支撐,智能化測評通過引入人工智能新技術,以更可靠、更高效、更智能的手段整合多維度、多層次的信息,形成更具準確性和解釋性的測評方案。智能化測評技術依托教育場景大數(shù)據(jù),應用人工智能技術手段,在多個教育場景中均已產生豐富的研究成果。整體來看,隨著教育評價改革任務的推進,各項測評場景趨于聯(lián)動發(fā)展,數(shù)據(jù)趨于多元化,模型算法趨于復雜化,測評的準確性與實時性有所提高,更多的產品化應用將逐步涌現(xiàn)。隨著人工智能和教育心理測量的深度融合,智能化測評要吸取傳統(tǒng)測評的優(yōu)勢,努力提升模型的可解釋性,將傳統(tǒng)測評手段應用在建模過程中來提高評估的精細化和針對性,并加強系統(tǒng)的信效度檢驗,提高測評的實用性和有效性。
參考文獻:
[1]付瑞吉(2020).智能評閱技術及其應用[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[2]景麗萍(2020).文本數(shù)據(jù)驅動的教育和心理測量探索與實踐[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[3]孔儀(2019).基于文本信息的人物性格分析算法的研究與實現(xiàn)[J].計算機科學與應用,9(12):2191-2207.
[4]李默妍(2020).基于聯(lián)邦學習的教育數(shù)據(jù)挖掘隱私保護技術探索[J].電化教育研究, 41(11):96-102.
[5]駱方,姜力銘,田雪濤等(2020).小學生羞怯特質預測及語言風格模型構建[J].心理學報,53(2):155-169.
[6]田偉,駱方,倪雨晰(2020).交互式科學探究能力評估:過程導向的評價規(guī)則構建[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[7]汪靜瑩,甘碩秋,趙楠等(2016).基于微博用戶的情緒變化分析[J].中國科學院大學學報,33(6):815-824.
[8]王慧君,王海麗(2015).多模態(tài)視域下翻轉課堂教學模式研究[J].電化教育研究,36(12):70-76.
[9]王亮(2018).深度學習視角下基于多模態(tài)知識圖譜的MOOC課程重構[J].現(xiàn)代教育技術,28(10):101-107.
[10]吳君勝,許穎頻(2020).Dlib人臉識別庫的課程簽到系統(tǒng)設計[J].單片機與嵌入式系統(tǒng)應用,20(9):51-54.
[11]辛濤,楊麗萍(2020).基于概念圖的作文自動化評分探索[Z].全球人工智能與教育大數(shù)據(jù)大會(北京).
[12]張琪,武法提,許文靜(2020).多模態(tài)數(shù)據(jù)支持的學習投入評測:現(xiàn)狀、啟示與研究趨向[J].遠程教育雜志,38(1):76-86.
[13]AERA, APA, & NCME (1999). Standards for Educational and Psychological[M]. Washington, DC: American Educational Research Association.
[14]Akp?nar, Y., Arda?, D., & Er-Amuce, N. (2014). Development and Validation of an Argumentation Based Multimedia Science Learning Environment: Preliminary Findings[J]. Procedia - Social and Behavioral Sciences, 116:3848-3853.
[15]Ay, B., Yldrm, Z., & Talo, M. et al. (2019). Automated Depression Detection Using Deep Representation and Sequence Learning with EEG Signals[J]. Journal of Medical Systems, 43(7):1-12.
[16]Baker, R. S., Clarke-Midura, J., & Ocumpaugh, J. (2016). Towards General Models of Effective Science Inquiry in Virtual Performance Assessments[J]. Journal of Computer Assisted Learning, 32(3):267-280.
[17]Besserve, M., Mehrjou, A., & Sun, R. et al. (2020). Counterfactuals Uncover the Modular Structure of Deep Generative Models[C]// Proceedings of the 8th International Conference on Learning Representations. IL: Addis Ababa, Ethiopia.
[18]Burrows, S., Gurevych, I., & Stein, B. (2015). The Eras and Trends of Automatic Short Answer Grading[J]. International Journal of Artificial Intelligence in Education, 25:60-117.
[19]Cheng, P. Y., Min, M. R., & Shen, D. H. et al. (2020). Improving Disentangled Text Representation Learning with Information-Theoretic Guidance[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. IL: Stroudsburg, PA.
[20]Cinar, A., Ince, E., & Gezer, M. et al. (2020). Machine Learning Algorithm for Grading Open-Ended Physics Questions in Turkish[J]. Education and Information Technologies, 25(12):3821-3844.
[21]Cui, Y. (2020). A Survey of Predictive Learning Analytics of Student Success in Higher Education[Z]. 全球人工智能與教育大數(shù)據(jù)大會(北京).
[22]Cui, Y., Chu, M. W., & Chen, F. (2019). Analyzing Student Process Data in Game-Based Assessments with Bayesian Knowledge Tracing and Dynamic Bayesian Network[J]. Journal of Educational Data Mining, 11(1):80-100.
[23]Deng, Y., Wu, F., & Du, L. et al. (2019). EEG-Based Identification of Latent Emotional Disorder Using the Machine Learning Approach[C]// IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. IL: Piscataway, NJ.
[24]Devlin, J., Chang, M., & Lee, K. et al. (2019). BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[C]// Proceedings of the 17th Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. IL: Stroudsburg, PA.
[25]Esparza, G. G., De-Luna, A., & Zezzatti, A. O. et al. (2017). A Sentiment Analysis Model to Analyze Students Reviews of Teacher Performance Using Support Vector Machines[C]// International Symposium on Distributed Computing and Artificial Intelligence. IL: Springer, Cham.
[26]Faust, O., Acharya, U. R., & Ng, E. et al. (2014). Application of Infrared Thermography in Computer Aided Diagnosis[J]. Infrared Physics & Technology, 66:160-175.
[27]Gao, R., Hao, B., & Li, H. et al. (2013). Developing Simplified Chinese Psychological Linguistic Analysis Dictionary for Microblog[J]. Lecture Notes in Computer Science, 8211:359-368.
[28]Gobert, J. D., Sao Pedro, M., & Raziuddin, J. et al. (2013). From Log Files to Assessment Metrics: Measuring StudentsScience Inquiry Skills Using Educational Data Mining[J]. Journal of the Learning Sciences, 22(4):521-563.
[29]Haudek, K. C., Stuhlsatz, M. A. M., & Wilson, C. et al. (2020). Evaluation of Construct-Irrelevant Variance Yielded by Machine and Human Scoring of a Science Teacher PCK Constructed Response Assessment[J]. Studies in Educational Evaluation: Studies in Educational Evaluation, 67:100916.
[30]He, K., Zhang, X., & Ren, S. et al. (2016). Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IL: Piscataway, NJ.
[31]Huang, C. L., Chuang, C., & Hui, N. et al. (2012). Development of the Chinese Linguistic Inquiry and Word Count Dictionary[J]. Chinese Journal of Psychology, 54(2):185-201.
[32]Hubley, A. M., & Zumbo, B. D. (2017) Response Processes in the Context of Validity: Setting the Stage[M]// Zumbo, B., & Hubley, A. (Eds). Understanding and Investigating Response Processes in Validation Research. Social Indicators Research Series, Vol 69. Springer, Cham.
[33]Ive, J., Gkotsis, G., & Dutta, R. et al. (2018). Hierarchical Neural Model with Attention Mechanisms for the Classification of Social Media Text Related to Mental Health[Z]. Presented at the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana.
[34]Jin, C., He, B., & Hui, K. et al. (2018). TDNN: A Two-Stage Deep Neural Network for Prompt-Independent Automated Essay Scoring[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistic. IL: Stroudsburg, PA.
[35]Kashyap, M. C., Yi, H., & Victoria, M. T. et al. (2018). Inferring the Climate in Classrooms from Audio and Video Recordings: A Machine Learning Approach[C]// Proceedings of 2018 IEEE International Conference on Teaching, Assessment, and Learning for Engineering. IL: Piscataway, NJ.
[36]Madnani, N., Loukina, A., & Cahill, A. (2017). A Large Scale Quantitative Exploration of Modeling Strategies for Content Scoring[Z]. Presented at the 12th Workshop on Innovative Use of NLP for Building Educational Applications. Copenhagen, Denmark.
[37]Mikolov, K., Sutskever, I., & Chen, K. et al. (2013). Distributed Representations of Words and Phrases and Their Compositionality[C]// Proceedings of the 27th Annual Conference on Neural Information Processing Systems. IL: Nevada, US.
[38]Mislevy, R. J., Almond, R. G., & Lukas, J. F. (2003). A Brief Introduction to Evidence-Centered Design[R]. ETS Research Report Series.
[39]Muramatsu, K., Tanaka, E., & Watanuki, K. et al. (2016). Framework to Describe Constructs of Academic Emotions Using Ontological Descriptions of Statistical Models[J]. Research and Practice in Technology Enhanced Learning, 11(1):1-18.
[40]Piech, C., Bassen, J., & Huang, J. et al. (2015). Deep Knowledge Tracing[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. IL: Montreal, Canada.
[41]Quellmalz, E. S., Davenport, J. L., & Timms, M. J. et al. (2013). Next-Generation Environments for Assessing and Promoting Complex Science Learning[J]. Journal of Educational Psychology, 105(4):1100-1114.
[42]Quercia, D., Kosinski, M., & Stillwell, D. et al. (2012). Our Twitter Profiles, Our Selves: Predicting Personality with Twitter[C]// IEEE Third International Conference on Privacy. IL: Piscataway, NJ.
[43]Rodrigo, M. M. (2020). Eye Tracking for Novice Programmer Research[Z]. 全球人工智能與教育大數(shù)據(jù)大會(北京).
[44]Scalise, K., & Clarke-Midura, J. (2018). The Many Faces of Scientific Inquiry: Effectively Measuring What Students Do and Not Only What They Say[J]. Journal of Research in Science Teaching, 55(10):1469-1496.
[45]Sun, R., Cao, X., & Zhao, Y. et al. (2020). Multi-Modal Knowledge Graphs for Recommender Systems[C]// Proceedings of the 29th ACM International Conference on Information and Knowledge Management. IL: New York.
[46]Vaswani, A., Shazeer, N., & Parmar, N. et al. (2017). Attention Is All You Need[C]// Proceedings of the 31st Annual Conference on Neural Information Processing Systems. IL: Long Beach.
[47]Vista, A., Awwal, N., & Care, E. (2016). Sequential Actions as Markers of Behavioural and Cognitive Processes: Extracting Empirical Pathways from Data Streams of Complex Tasks[J]. Computers & Education, 92:15-36.
[48]Whitehill, J., Williams, J., & Lopez, G. et al. (2015). Beyond Prediction: First Steps Toward Automatic Intervention in MOOC Student Stopout[C]// Proceedings of the 8th International Conference of Educational Data Mining. IL: Madrid, Spain.
[49]Xu, J., Li, W., & Liu, D. et al. (2020). Deep Embedded Complementary and Interactive Information for Multi-View Classification[C]// Proceedings of 34th AAAI Conference on Artificial Intelligence. IL: Menlo Park, CA.
[50]Zang, C., Pei, M., & Kong, Y. (2020). Few-Shot Human Motion Prediction via Learning Novel Motion Dynamics[C]// Proceedings of the 29th International Joint Conference on Artificial Intelligence. IL: Menlo Park, CA.
[51]Zhang, Y., Lin, C., & Chi, M. (2020). Going Deeper: Automatic Short-Answer Grading by Combining Student and Question Models[J]. User Modeling and User-Adapted Interaction, 30(1):51-80.
[52]Zhang, Y., Shah, R., & Chi, M. (2016). Deep Learning+Student Modeling+Clustering: A Recipe for Effective Automatic Short Answer Grading[C]// Proceedings of the 9th International Conference on Educational Data Mining. IL: North Carolina.
[53]Zhao, G., Ge, Y., & Shen, B. et al. (2017). Emotion Analysis for Personality Inference from EEG Signals[J]. IEEE Transactions on Affective Computing, 9(3):362-371.
[54]Zhao, N., Zhang, Z., & Wang, Y. et al. (2019). See Your Mental State from Your Walk: Recognizing Anxiety and Depression through Kinect-Recorded Gait Data[J]. PLoS One, 14(5):e0216591.
收稿日期 2021-04-12責任編輯 汪燕
New Trend of Educational Assessment: A Research Overview of Intelligent Assessment
LUO Fang, TIAN Xuetao, TU Zhuoran, JIANG Liming
Abstract: The reform of educational assessment has received unprecedented attention in China. However, limited by traditional assessment tools, both personalized and process assessments are difficult to achieve effectively. Therefore, new assessment technologies are required by the reform. The development of computer and artificial intelligence technologies has injected new vitality into the field of assessment, and it promotes the emergence of intelligent assessment and provides new solutions for the reform of educational assessment. At present, intelligent assessment has made progress in the assessment of students knowledge level or capacity, personality and mental health, and teaching process. First, Intelligent assessment has broken through the limitations of paper-pencil test, leading to the emergence of process assessment, comprehensive assessment, and dynamic assessment of students knowledge level or capacity. Second, self-report scale is no longer the only way, but traceless and adjoint assessments based on multi-modal data will be realized to evaluate personality and mental health. Third, intelligent analysis technology with teaching feedback makes the assessment of teaching process more direct, convenient and accurate. Intelligent assessment has played an important role in promoting the reform of educational evaluation, but there are still some problems in the aspects of multi-modal data application, the pertinence, refinement, accuracy and interpretability of the model. In the future, the collaborative analysis of multi-modal data needs to be explored, the accuracy and interpretability must be balanced, and the pertinence and refinement of the intelligent model need to be improved. Meanwhile, the discipline barriers in the field of information science and psychological measurement must be broken through, to ensure that the intelligent models can be practical, generalized and extensible.
Keywords: Educational Assessment; Artificial Intelligence; Intelligent Assessment; Research Advances; Problem Analysis