肖巍 倪傳斌 李銳
【摘 要】
數(shù)據挖掘,又稱“數(shù)據庫中的知識發(fā)現(xiàn)”,可通過一定的算法從大量數(shù)據中發(fā)現(xiàn)隱藏的模式與知識。在大數(shù)據時代,數(shù)據挖掘技術為學習預警研究提供了新的視角與方法。結合文獻計量法和內容分析法,從相關文獻的年度分布、學科分布、數(shù)據挖掘技術使用分布、研究熱點等方面對國外基于數(shù)據挖掘的學習預警研究進行了系統(tǒng)性梳理,得出如下發(fā)現(xiàn):研究數(shù)量持續(xù)上升;研究話題得到來自不同學科學者的廣泛關注;挖掘技術以使用基本技術為主;研究熱點集中在預警指標甄選、預警起始時間探測和預警模型效果評估三個方面。今后,研究者需要重視學習預警認知基礎和運作機制的探討,關注學習過程動態(tài)指標,形成學科特異的研究范式,并進一步推廣、發(fā)揮學習預警研究的應用價值。通過回顧與展望,以期進一步推動國內學習預警研究走向縱深,并促進數(shù)據挖掘技術在教育技術領域的發(fā)展。
【關鍵詞】 數(shù)據挖掘;學習分析;學習預警;預測;分類;文獻計量;回顧;教育技術
【中圖分類號】 G420 【文獻標識碼】 A 【文章編號】 1009-458x(2018)2-0070-9
一、選題緣起
學習預警(early-warning for learning)指按照一定的標準綜合評估學生的背景信息、學習行為、考試成績等因素,按照評估結果向學生、教師等發(fā)出提示信號,并及時提供有效且針對性強的干預建議(Macfadyen & Dawson, 2010)。構建學習預警機制,既可為教學管理提供決策參考,又可為學生提供幫助和指導;既是教學實踐的實際需求,又是教學研究中的一大熱點(Beck & Davison, 2001)。早期的學習預警研究大多基于思辨或依據期末成績等指標進行,存在指標主觀單一、時間滯后等不足。近年來興起的數(shù)據挖掘技術則為學習預警研究提供了方法上新的切入點,有力地推動了學習預警研究的進展。
數(shù)據挖掘,又稱“數(shù)據庫中的知識發(fā)現(xiàn)”,可通過一定的算法從大量數(shù)據中發(fā)現(xiàn)隱藏的模式與知識(Baker & Yacef, 2009)。數(shù)據挖掘的核心工作是建立模型。建立模型的常用方法有預測、聚類、關聯(lián)分析、時間序列分析等。相比描述統(tǒng)計、推斷統(tǒng)計等傳統(tǒng)的統(tǒng)計分析方法,數(shù)據挖掘在從大量的復雜數(shù)據中發(fā)現(xiàn)新模式與新知識時更有優(yōu)勢。
從20世紀80年代起,數(shù)據挖掘技術開始應用到教育教學領域,但相關成果不多。直到進入21世紀,在教育信息化的推動下,數(shù)據挖掘技術才開始在教育教學領域大量推廣(Romero & Ventura, 2007; Pena-Ayala, 2014)。2012年美國教育部發(fā)布藍皮書《通過教育數(shù)據挖掘和學習分析促進教與學》,2015年我國國務院發(fā)布的《促進大數(shù)據發(fā)展行動綱要》明確提出要建設教育文化大數(shù)據,成立了“教育大數(shù)據應用技術國家工程實驗室”,標志著教育數(shù)據挖掘在中美兩個大國都提高到了國家層面教育教學與人才培養(yǎng)的戰(zhàn)略高度。
在“大數(shù)據時代”和“國家大數(shù)據”戰(zhàn)略背景下,亟待運用數(shù)據挖掘技術豐富教育教學的研究手段并解決其中的實際問題。隨著數(shù)據挖掘技術在教育教學領域的推廣,該技術也開始應用到學習預警研究當中,并取得了大量成績。然而,在國內,學習預警研究尚處于起步階段,對學習預警研究的引介較多,實證研究較少。這些有限的實證研究大多在近幾年才出現(xiàn),研究主題也欠豐富(陳益均, 等, 2013; 孫力, 等, 2015, 2016; 施佺, 等, 2016; 賀超凱, 等, 2016; 尤佳鑫, 等, 2016; 胡祖輝, 等, 2017)。相比國外研究,國內研究無論在廣度上還是深度上都需要加強。因此,本文通過對國外學習預警數(shù)據挖掘研究進行回顧與展望,進一步推動國內的學習預警研究走向縱深,并促進數(shù)據挖掘技術在教育技術領域的發(fā)展。
二、數(shù)據來源與方法
選取Web of Science索引庫為文獻來源,以“educational data mining”“l(fā)earning analytics”“early warning”“academic performance prediction”“student retention”等為關鍵檢索詞,對過去十年(2007年-2017年3月)的相關文獻進行檢索。由于會議論文(conference paper)一般篇幅較短,本研究不予考慮,只將期刊論文納入分析。剔除無關文獻,并從有效文獻的參考文獻中繼續(xù)查找,最終得到有效文獻32篇。從數(shù)量看,學習預警數(shù)據挖掘研究尚未形成規(guī)模效應,其價值有待進一步挖掘;從文獻質量看,這些研究總體上較為嚴謹,整體質量較高,能夠反映學習預警數(shù)據挖掘研究的開展情況。
對于這些文獻,擬采用“先總后分”的方式進行論述。具體地,首先采用文獻計量的方式對文獻的年度分布、學科分布、數(shù)據挖掘技術使用分布等方面的整體特點進行梳理,然后采用內容分析的方式對文獻的具體內容進行分析,歸納出研究熱點。
三、結果分析與回顧
(一)文獻分布特點
1. 年度分布
文獻的年度分布表明了研究的走勢。由圖1可見,基于數(shù)據挖掘的學習預警研究在第一個五年(2007-2011年)成果較少,偶有研究發(fā)表。但是在第二個五年(2012-2016年),相關研究的數(shù)量總體呈增長趨勢,在2015年和2016年兩年達到峰值,分別有8篇和7篇論文(由于2017年還未結束,這一年的3篇文獻未予顯示)。不難看出,論文數(shù)量的持續(xù)增長,表明數(shù)據挖掘技術在學習預警乃至教育領域不斷受到關注和重視。隨著大數(shù)據時代和“互聯(lián)網+”的到來,數(shù)據挖掘對于廣大學者已經不再是個陌生的名詞,而是不斷滲透到各個交叉學科領域。由于數(shù)據挖掘技術善于從大量的復雜數(shù)據中發(fā)現(xiàn)新模式與新知識,故而特別適合研究復雜的教育教學現(xiàn)象。構建學習預警機制正是數(shù)據挖掘技術在教育領域的具體應用之一。今后,隨著數(shù)據挖掘技術的不斷普及,基于數(shù)據挖掘的學習預警研究有望持續(xù)走向縱深。
2. 學科分布
文獻發(fā)表期刊的學科分布表明了不同學科對學習預警這一研究問題的關注情況。對文獻所發(fā)表的期刊進行歸納整理發(fā)現(xiàn)(見圖2):32篇論文發(fā)表在19種期刊,其中教育技術類8種,計算機類8種,教育類3種。這三類期刊分別發(fā)表了19篇、10篇和3篇論文。這表明,作為一個交叉研究領域,基于數(shù)據挖掘的學習預警研究受到了教育學、教育技術學、計算機科學等不同學科的廣泛關注。文獻作者的學科背景也能反映出學界對學習預警的關注情況。通過整理歸納通訊作者/第一作者所在的院系發(fā)現(xiàn)(見圖3):38%的作者為教育學背景,22%的作者為計算機背景,來自這兩個學科的作者占了一半以上。其余作者則來自管理學、經濟學、信息科學、數(shù)學、心理學和工業(yè)工程等相近學科。這進一步表明基于數(shù)據挖掘的學習預警研究受到了學界的廣泛關注。
不同學科背景的學者在哪些期刊上發(fā)表研究則能反映不同學科之間的跨界與融合情況。期刊學科分布和作者學科分布的交叉列聯(lián)表(見表1)顯示:教育學和計算機背景的學者主要在教育技術類期刊發(fā)表論文,其他學科背景的學者在教育技術類期刊和計算機類期刊發(fā)表論文數(shù)量較為平均。由于教育數(shù)據挖掘是一個交叉領域,所以教育技術類期刊天然地成為相關研究發(fā)表的學術陣地。然而,應當看到,教育學背景的學者很少在計算機類期刊發(fā)文,計算機背景的學者也沒有在純教育類期刊發(fā)文。雖然學科之間的界限逐漸模糊,但距離深度的學科跨界與融合還有很長的路要走。
3. 數(shù)據挖掘技術使用分布
數(shù)據挖掘的常用方法有預測/分類、聚類、關聯(lián)分析、時間序列分析等。預測/分類是根據輸入數(shù)據進行學習訓練建立模型,并對新數(shù)據進行映射,預測它的取值(對于連續(xù)變量而言)或者所屬類別(對于離散變量而言)。聚類是通過捕獲數(shù)據的自然結構將數(shù)據劃分成有意義或有用的群組或類別。關聯(lián)分析是通過頻繁項集的形式發(fā)現(xiàn)大型數(shù)據集中隱藏的有意義聯(lián)系。時間序列分析是對一系列時間點上的采樣數(shù)據進行分析以發(fā)現(xiàn)其長期趨勢和周期性變化特征。不同方法有各自不同的特點和使用范圍,需要根據具體研究加以采用。我們對文獻中使用到的數(shù)據挖掘方法進行了統(tǒng)計。根據研究需要,很多研究者會采用不止一種方法,因此統(tǒng)計出的方法數(shù)量會超出文獻的數(shù)量。統(tǒng)計結果如圖4所示??梢钥吹剑A測/分類是學習預警數(shù)據挖掘研究中最常見的方法。這是學習預警研究的特點所決定的,因為學習預警的主要工作是預測某一課程最終的分數(shù),或者根據某一課程是否能及格對學生進行分類。此外,也有研究結合聚類、關聯(lián)分析、時間序列等多種方法解決學習預警問題。例如,先根據某些特征對學生進行聚類,再對不同類別的學生能否及格進行分類。
由于預測/分類方法最為常見,使用最多,我們對文獻中使用的預測/分類技術進行了統(tǒng)計(見圖5)。結果發(fā)現(xiàn):線性回歸和邏輯回歸的使用頻率最高,神經網絡、決策樹和支持向量機的使用頻率次之,此外還有少量其他技術偶見使用。線性回歸和邏輯回歸是較為經典和成熟的數(shù)據挖掘技術,前者用于連續(xù)變量的預測,后者用于離散變量的分類。神經網絡是一種類似于大腦神經突觸連接結構的數(shù)學模型,具有并行分布式信息處理的能力,一般能達到較好的預測效果,具有較強的容錯能力,但屬于內部機制不透明的黑盒模型,其解釋性較弱。決策樹屬于白盒模型,通過從自變量中尋找最佳分割變量和最佳分割點將數(shù)據劃分為兩組,針對分組后的數(shù)據不斷重復上述步驟,直到滿足停止條件,并將探測過程以樹形結構的形式呈現(xiàn)出來,其結果易于理解和解釋,但對缺失數(shù)據敏感。支持向量機以統(tǒng)計學中的VC維理論和結構風險最小原理為基礎,在模型的復雜性和學習能力之間尋求最佳折中,其結構簡單,技術性能好,但同樣對缺失數(shù)據敏感。由于不同的技術有著各自的優(yōu)缺點,研究者會根據研究需要選擇最為合適的技術,通過多種技術構建多個模型進行評估,從中選出最優(yōu)模型。
結合圖4和圖5可以發(fā)現(xiàn),盡管數(shù)據挖掘技術的使用分布較為廣泛,但所用的技術多為數(shù)據挖掘領域最基本的技術。對于目前數(shù)據挖掘領域的前沿技術,如深度學習(deep learning)等,在學習預警領域尚未見應用。此外,現(xiàn)在使用的技術也并非用于學習預警的專用技術,不利于學習預警研究的深入和學科特異研究范式的構建。今后,研究者應當嘗試使用新的前沿技術,并開發(fā)適合學習預警的專用技術。
(二)文獻研究熱點
我們對文獻關鍵詞進行了統(tǒng)計。由于有的關鍵詞意思相近,只是表述有細微差異,我們將這些相近的關鍵詞視作同一詞(如blended course和blended learning,data mining和data-mining)進行合并整理,并制作出詞云圖(見圖6)。前十大關鍵詞分別為數(shù)據挖掘、預測、學習分析、在線學習、學業(yè)成就、學習管理系統(tǒng)、分類、留級、混合課堂和高等教育(見表2)。這十大關鍵詞從研究視角、研究內容、研究方法、數(shù)據來源、教學環(huán)境等不同方面勾勒出學習預警數(shù)據挖掘研究的全貌。研究視角方面,現(xiàn)有研究持有教育數(shù)據挖掘和學習分析兩種視角。這兩種視角互為補充,前者偏重數(shù)據驅動,后者強調學習預警的現(xiàn)實解釋力度。研究內容方面,現(xiàn)有研究多關注學習成績和學生留級,前者是通過對具體成績的預測實現(xiàn)預警,后者是通過對學生分類對劃入留級一類的學生進行預警。研究方法方面,為了預測學習成績和成功劃分出留級的學生,現(xiàn)有研究多使用預測和分類兩種方法,前者適用于連續(xù)變量(如預測學習成績),后者適用于離散變量(如及格/不及格、留級/不留級)。數(shù)據來源方面,現(xiàn)有研究多從學習管理系統(tǒng)(Learning Management System, LMS)獲取學生數(shù)據(如性別、專業(yè)、課程成績、績點等),表明現(xiàn)有的教育大數(shù)據得到了一定程度的挖掘,但更多數(shù)據來源(如學生社交平臺數(shù)據、學生上網數(shù)據)并沒有進入研究者的視野或得到充分利用。教學環(huán)境方面,多關注高等教育、在線學習和混合課堂,說明對信息化程度較高的大學教育以及獲取數(shù)據較為便利的網絡教學環(huán)境關注較多,而對中小學教育和傳統(tǒng)教學環(huán)境的關注可能不夠。
結合文獻內容進行深度分析發(fā)現(xiàn):國際上基于數(shù)據挖掘的學習預警研究熱點可以歸結到橫截面、縱貫面和技術層面三個方面。這三個方面的研究呈遞進關系,前者是后者的基礎,后者是前者的深入。下面詳細討論。
1. 橫截面:有效預警指標的甄選
在不考慮時間因素的橫截面(cross-sectional)上,研究熱點為有效預警指標的甄選。由于學習預警的基本方法是通過一系列指標對學生成績或學生是否及格/留級進行預測,因此,選擇有效的預警指標是學習預警研究最為核心、最為基礎的研究問題之一。目前,研究者運用決策樹、神經網絡、邏輯回歸等預測和分類技術對采集到的數(shù)據進行挖掘,業(yè)已探明一系列有效預警指標。這些指標可歸納為三類:第一類為人口統(tǒng)計學信息,如性別、專業(yè)、家庭經濟狀況、父母文化程度、兄弟姐妹數(shù)量等;第二類為過去的學習成績,如入學成績、績點等;第三類為當前課程的學習過程,如教材學習情況、練習完成情況、網絡課堂登錄次數(shù)、發(fā)帖數(shù)、回帖數(shù)等。其中,人口統(tǒng)計學和過往學習成績兩類指標為靜態(tài)指標,并非對學習過程的直接測量,只能通過一系列中介變量間接預測成績;學習過程為動態(tài)指標,通過評估學習過程中的實時動態(tài)數(shù)據對學習結果進行預警,可構建“過程→結果”的因果鏈,具有較強的可解釋性。
在實際研究當中,研究者往往結合多類指標共同預警,以達到比單一指標更好的預警效果。這一點是由學習預警的理論基礎和方法基礎共同決定的。理論上,無論是學習者的背景信息、過去的學習成績,還是當前課程的學習過程,都會對學生最終的學習結果產生影響。只有從多個維度入手確定需要測量的指標,才能更加有效地預警。方法上,數(shù)據挖掘是一種數(shù)據驅動的研究方法,要求盡可能利用現(xiàn)有數(shù)據,挖掘出其中蘊含的模式,而不一定局限于特定類別的數(shù)據。例如,Sen、Ucar和Delen(2012)對土耳其 5,000名中學生的人口統(tǒng)計學信息和過去的學習成績等數(shù)據進行了挖掘,發(fā)現(xiàn)過去的考試經驗、是否獲得獎學金、兄弟姐妹數(shù)量和上一年的平均績點分等指標可以共同預警。Hachey、Wladis和Conway(2014)對某社區(qū)大學962名參加了在線課程學習的學生數(shù)據進行挖掘,發(fā)現(xiàn)先前在線學習經驗比平均績點分的預測效果更好。
同時,應該看到數(shù)據挖掘研究的特點是利用現(xiàn)有數(shù)據,而不是根據一定的研究假設去專門采集數(shù)據。因此,如果現(xiàn)有數(shù)據有限,研究者通常只對該數(shù)據進行挖掘。例如,Macfadyen和Dawson(2010)對學生在線行為數(shù)據進行了挖掘,發(fā)現(xiàn)討論信息發(fā)布數(shù)量、郵件發(fā)送數(shù)量和完成的測驗數(shù)量等指標能有效預測期末成績。Romero、Lopez、Luna和Ventura(2013)研究了114名計算機專業(yè)的大一學生在線論壇的學習行為,發(fā)現(xiàn)發(fā)送消息的數(shù)量、單詞數(shù)、學生活躍中心度等指標可以有效預測學生期末成績。這兩例研究都是從Moodle等在線學習平臺抓取學生的在線學習行為記錄,沒有專門采集學生的人口統(tǒng)計學信息等數(shù)據,故只利用了學習過程數(shù)據進行挖掘。
2. 縱貫面:有效預警起始時間的探測
在考慮時間因素的縱貫面(longitudinal)上,研究熱點為有效預警時間的探測。既然是預警,就需要及時發(fā)出預警信號,在保證預警效果的前提下預警時間越早越好。在人口統(tǒng)計學信息、過去的學習成績、學習過程三類預警指標中,學習過程數(shù)據具有動態(tài)特性,若能跟蹤記錄學習過程數(shù)據,就可以在學習過程中盡早預警。
學者運用縱貫研究設計和時間序列分析等技術發(fā)現(xiàn),在開課一段時間后即可進行預警并干預,無須等到結課后再補救。但是,對于最早從何時起可以獲得準確有效的預警效果,學界的研究并不一致,從學期初到期中不等。例如,Lee、Sbeglia、Ha、Finch和Nehm(2015)跟蹤采集了287名美國大學本科生的課程形成性評估數(shù)據,發(fā)現(xiàn)前兩周的課堂測驗成績與期末成績相關性不高,但第三周的相關系數(shù)陡增,達到0.53,此后一直趨于穩(wěn)定。Marquez-Vera 等(2016)調查了419名墨西哥高一學生在一學期各個階段的數(shù)據,發(fā)現(xiàn)在第二和第三階段(學期第4-6周)便已達到較好的預測效果。Huang 和Fang(2013)調查了323名本科生的績點、微積分、大學物理、動力學期中考試成績等數(shù)據,用以預測他們的工程動力學課程成績。結果發(fā)現(xiàn),將期中考試成績加入預測模型可以達到更好的預測效果。由于該研究的學習過程數(shù)據僅有期中考試成績一項,無法進一步探究準確的預警起始時間,但至少說明前半學期的表現(xiàn)可以有效預測期末成績。
探測有效預警的起始時間對于教學有著重要的現(xiàn)實意義。比如,教學管理部門可以依據預警起始時間對選課系統(tǒng)進行改進,為確定補退選截止日期提供更加科學合理的依據。選課系統(tǒng)可以根據學生形成性評估的表現(xiàn),提供即時排名,由學生決定是否繼續(xù)學習該課程。學生也可以通過預警系統(tǒng)提供的數(shù)據知曉自己在期末可能取得什么樣的成績,從而采取相應干預措施,如通知家長、成立教師支持團隊、提供個性化解決方案和學業(yè)警告等。
3. 技術層面:預警模型效果評估
若在技術層面對預警模型進行對比和改進,就涉及到了模型效果評估的問題。模型對比,即結合多種技術進行模型訓練、測試與評估,綜合考慮準確率(accuracy)、召回率(recall)、精度(precision)等多個評估指標,以及效率(efficiency)、可解釋性(interpretability)、可行性(deployability)等實際使用時需考慮的因素,對多個模型進行對比,從中選出最優(yōu)模型(Romero, et al., 2013)。例如,Huang 等(2013)使用多元線性回歸、多層傳感網絡、徑向基函數(shù)網絡和支持向量機四種數(shù)學模型進行期末成績預測,發(fā)現(xiàn)四種模型的效果差異不大。Kotsiantis(2012)利用M5樹模型、M5規(guī)則樹模型、神經網絡、線性回歸、局部加權線性回歸和支持向量機六種技術進行預測,發(fā)現(xiàn)M5規(guī)則樹模型準確率最高,且可理解性最好。Sen 等(2012)對比了神經網絡、支持向量機、決策樹和邏輯回歸以及四種預測/分類模型,發(fā)現(xiàn)決策樹模型的敏感度最高。總體上,相比單一模型,模型對比可以發(fā)現(xiàn)潛在的更好的模型,獲得更好的預警效果。
獲得更好效果的方法除了模型對比,還有模型改進,即通過算法優(yōu)化或利用現(xiàn)有模型組建新模型。Romero 等(2013)分別使用多種分類、聚類和關聯(lián)規(guī)則算法進行挖掘,發(fā)現(xiàn)聚類與關聯(lián)規(guī)則相結合的算法比傳統(tǒng)的分類算法更具解釋力。Marbouti、Diefes-Dux和Madhavan(2016)調查了120名美國本科生的學習過程數(shù)據,包括課堂測驗、小組活動、家庭作業(yè)、項目設計、書面考試等,使用邏輯回歸、人工神經網絡、支持向量機、k鄰近、決策樹和樸素貝葉斯六種模型進行預測,并結合兩種假負例最少(樸素貝葉斯、支持向量機)和假正例最少(k鄰近)的模型構建了一個組合模型,從而得到了最優(yōu)預測效果。Tsai、Tsai、Hung和Hwang(2011)使用三種聚類分析(k-均值聚類、自組織映射、二階聚類)根據性別、出生地、院系等數(shù)據對學生進行聚類,再通過決策樹提取出有用的規(guī)則,對學生在一項計算機考試中不及格的概率進行預測,達到了較好的預警效果。Taylan和Karagozoglu(2009)利用模糊規(guī)則、神經網絡、遺傳算法等技術構建了一個預測學生學業(yè)表現(xiàn)的自適應模糊神經網絡模型,發(fā)現(xiàn)該模型的穩(wěn)健性和傳統(tǒng)統(tǒng)計模型相比無顯著差異,但對學業(yè)表現(xiàn)提供了一種更加自然的解釋途徑??傮w上,相比模型對比,模型改進的預警效果往往更好,但其技術門檻往往也更高。
相比指標甄選和起始時間預測,模型效果評估是學習預警研究中更加深入的問題。如果說預警指標甄選和起始時間探測是學習預警的初步探索,那么模型效果評估就是在對這些初步探索進行梳理和取舍的高級決策。如果可行,一項學習預警研究應當完整地包括這三個方面。例如:Hu、Lo和Shih(2014)首先通過數(shù)據預處理得到13個預警指標,包括4個時間相關指標和9個時間無關指標。然后,分別基于前4周、前8周和前13周的數(shù)據生成三個數(shù)據集,并分別使用C4.5、CART和邏輯回歸三種技術對這三個數(shù)據集進行建模,得到9個模型。對這9個模型進行基于I、II類錯誤和準確率的評估,淘汰邏輯回歸模型,保留C4.5和CART建立的6個模型。之后,對這6個模型分別用全部數(shù)據和不含時間相關指標的數(shù)據進行預測,發(fā)現(xiàn)加入時間相關指標的模型效果更好。最后,通過模型改進,發(fā)現(xiàn)集成了自適應增強技術(AdaBoost)的CART模型效果最好。這一研究當屬學習預警研究的典范。然而,現(xiàn)階段要求所有研究都如此完備不太現(xiàn)實。一方面,起始時間的預測往往需要縱貫設計和時間序列采樣,對研究投入要求較高,有的研究者可能難以承受;另一方面,模型評估的技術門檻較高,需要一定的數(shù)學和計算機基礎,成為有些研究者的技術瓶頸。將來,隨著學習預警研究走向縱深,研究投入越來越大,跨學科人才和跨學科合作不斷增多,完備的學習預警研究必將不斷出現(xiàn)。
四、研究不足與未來展望
將新興的數(shù)據挖掘技術引入學習預警研究,使得學習預警這一古老的話題煥發(fā)出新的生命力,有望成為一個理論基礎寬厚、研究內容豐富、方法體系多樣、應用前景廣闊的前沿交叉領域。然而,從現(xiàn)有文獻來看,學習預警研究在理論、內容、方法和應用方面均存在一些問題和不足。對這些問題和不足進行分析和梳理,有利于更加精準地把握該領域的研究現(xiàn)狀和展望其未來研究動向,更加科學地利用數(shù)據挖掘技術進行學習預警研究。
(一)理論上,學習預警的認知基礎和運作機制尚待厘清
理論研究是一個領域的基石,對該領域的研究發(fā)展有著引領作用。當前,學習預警理論研究中亟待突破的一個關鍵點是厘清學習預警的認知基礎和運作機制:在內部,從生理、心理、社會文化層面精準把握學生的認知活動;在外部,將認知活動放到學習預警的大環(huán)境中進行討論,對學習預警的各個環(huán)節(jié)和組塊進行構建和優(yōu)化。將認知視角與社會視角相結合,無疑會為學習預警研究奠定堅實的理論基礎。然而,目前尚未見到學習預警的理論研究文獻。誠然,部分學者在實證研究中進行了理論探討,如Agudo-Peregrina等(2014)為了研究虛擬現(xiàn)實環(huán)境和在線學習環(huán)境下交互性(interaction)的預警效果,對交互性的定義和內涵進行了系統(tǒng)梳理和深入探討。但總體而言,學習預警理論研究并未取得實質性突破。
理論研究薄弱還與實證和方法上的欠缺有關。實證方面,雖然現(xiàn)有研究數(shù)量持續(xù)上升,但絕對數(shù)量仍然不多,未能對各種課堂環(huán)境和學科開展具化研究,無法給學習預警理論構建提供堅實的實證基礎。方法方面,現(xiàn)有研究多側重于純數(shù)據驅動,脫離教學環(huán)境和理論闡釋,在研究框架構擬、數(shù)據采集和數(shù)據解釋等方面缺乏理論支撐。有的研究建立內部不透明的黑盒模型,只能給出最終運行結果,無法觀察內部運行過程。有的研究雖然采用內部透明的白盒模型,但并未在教學理論的指導下系統(tǒng)地采集數(shù)據,只是利用現(xiàn)有的零散數(shù)據進行挖掘分析,導致對預警結果的闡釋牽強。缺乏理論指導的實證研究容易陷入“各自為戰(zhàn)”的局面,難以提供匯流式的證據支撐。
厘清學習預警的認知基礎和運作機制,需從以下三個方面著手:理論方面,學習預警研究者應當積極借鑒教育心理學、社會心理學、學習科學等不同學科的理論和模型(如活動理論、交互理論、形成性評估理論等),夯實學習預警研究的理論基礎;實證方面,重視預警機制的教學環(huán)境差異,對不同課堂環(huán)境(網絡課堂、傳統(tǒng)課堂、混合課堂)和學科(生物、數(shù)學、計算機等)開展更加微觀、具化的研究,尤其要關注數(shù)據采集不便的主流教學環(huán)境——傳統(tǒng)課堂,以及技術手段偏弱的傳統(tǒng)文科課堂,在大量實證研究的基礎上進行理論構建;方法方面,選取內部透明的白盒模型,結合具體理論或模型進行挖掘,對挖掘結果進行基于理論的闡釋,以增強結果的可解釋性。
(二)實證上,學習預警指標的甄選對動態(tài)數(shù)據關注不夠
現(xiàn)有研究對人口統(tǒng)計學信息和過去學習成績等靜態(tài)指標關注較多,而對學習過程動態(tài)指標關注不夠。誠然,靜態(tài)數(shù)據便于采集,也有一定的預測效力,但具有一定局限性。首先,靜態(tài)指標已無法通過教學活動和學生主觀努力加以改變。若過分依賴靜態(tài)指標,容易導致學生認為自己的學習結果早已被這些無法改變的因素所決定,從而喪失學習積極性。例如,Hendel(2007)發(fā)現(xiàn)本科生的高中學校排名和學生所在族裔能顯著影響學生大一結束時的退學率。此類發(fā)現(xiàn)雖然具有統(tǒng)計學意義,卻難以對學習預警提供具有教學指導意義的反饋,因為學生無法通過改變自身高中學校或者族裔來降低退學的可能性。為了通過學習預警充分激發(fā)和調動學生的學習積極性,在甄選指標時應當更加關注學生在學習過程中可以通過自身努力加以改變的動態(tài)指標。其次,關注動態(tài)指標與學習的特點和評估機制相契合。從學習的特點看,學習不是簡單的輸入-輸出線性過程,而是充滿倒退、停滯甚至跳躍式前進的動態(tài)系統(tǒng)行為(Larsen-Freeman, 1997)。因此,單純依靠靜態(tài)指標無法監(jiān)測學習的動態(tài)發(fā)展過程。從學習的評估機制看,對學習的評估必須通過觀察學生的學習行為表現(xiàn)來診斷其學習狀況,得出評估結果并加以解釋和使用,從而激發(fā)和調動學生的學習意識和學習積極性(Lynch, 2016)。評估的目的不僅僅是為了測量,而是為了以評促學(Rea-Dickins, 2001)。因此,單純的靜態(tài)指標無法滿足形成性評估的需求。綜上所述,只有對學習過程進行動態(tài)監(jiān)測與評估,才能更好地進行學習預警。
(三)方法上,學習預警尚未形成學科特異的數(shù)據挖掘研究范式
學習預警研究領域的數(shù)據具有如下特點:一是來源廣泛,可能來自網絡學習平臺、教學管理系統(tǒng)、調查問卷、課堂測驗等線上線下多種渠道;二是結構各異,有結構化數(shù)據(如問卷中的李克特量表),也有半結構化(如問卷中的主觀性問題)甚至非結構化的數(shù)據(如網絡學習平臺中的圖片、視頻信息);三是缺失程度不同,有的數(shù)據可能較為完整(如教學管理系統(tǒng)中的學生個人信息),有的可能存在缺失(如測驗中的空白題);四是樣本量可能相對較小,不能簡單照搬金融、管理等領域基于大樣本的技術;五是正、負例失衡且正例過少(一般情況下,能夠通過課程考試、無須預警的學生居多,而考試不及格、需要預警的學生占少數(shù)),容易導致模型擬合不足,加大了對需要預警的學生的識別難度。這些特點對數(shù)據挖掘技術提出了新的要求。進行學習預警數(shù)據挖掘時,既要遵循數(shù)據挖掘的一般工作流程和研究范式,又要結合學習預警的特點進行改進,充分利用和整合各種渠道的數(shù)據開發(fā)專用數(shù)據挖掘技術,逐漸形成學習預警乃至教育技術領域學科特異的數(shù)據挖掘研究范式。
(四)應用上,學習預警系統(tǒng)有待進一步推廣,為學生精準預警提供個性化服務
基于學習預警研究成果,可以開發(fā)學習預警系統(tǒng),為教育政策制定、教學資源規(guī)劃和教學方法實施提供決策支撐,并為學生發(fā)現(xiàn)學習困難、改善學習狀態(tài)、提升學習效果提供幫助和指導。目前,國外已開發(fā)了一些學習預警系統(tǒng),如美國普渡大學的課程信號系統(tǒng)、亞利桑那州立大學的電子顧問、可汗學院的學習儀表盤等(王林麗, 等, 2016)。這些系統(tǒng)在教學實踐中的應用又可以回饋、促進學習預警研究的發(fā)展(Krume, et al., 2014)。然而,現(xiàn)有的學習預警系統(tǒng)在技術和應用層面均存在不足。在技術層面,現(xiàn)有學習預警系統(tǒng)雖然較為豐富,但其底層技術并非學習預警專用技術,仍以數(shù)據挖掘領域最基本的技術為主。在應用層面,現(xiàn)有系統(tǒng)多為宏觀的通用平臺,尚未做到針對每一門具體課程進行專門預警。誠然,為避免重復建設,最理想的狀態(tài)是設計一套通用的預警模型和方法(Kotsiantis, 2012; 劉三女牙, 等, 2016)。然而,在現(xiàn)階段,學界對不同學科、不同課堂的微觀研究還未深入。只有當特異化的微觀研究已經很充分之后,才可能在此基礎上構建一個統(tǒng)一的宏觀平臺。因此,在相當長的時期內還應以特異化的微觀研究為主,未來應當針對不同課堂和學科的特點開發(fā)個性化的學習預警系統(tǒng),為學生精準預警提供個性化服務,進一步應用學習預警研究的成果。
五、結語
本文通過對國外基于數(shù)據挖掘的學習預警研究文獻進行了系統(tǒng)性梳理發(fā)現(xiàn):研究數(shù)量持續(xù)上升;研究話題得到來自不同學科學者的廣泛關注;挖掘技術以使用基本技術為主,尚未開發(fā)用于學習預警的專用技術;研究熱點集中在預警指標甄選、預警起始時間探測和預警模型效果評估三個方面。今后,研究者需要重視學習預警認知基礎和運作機制的探討,關注學習過程動態(tài)指標,形成學科特異的研究范式,并進一步推廣、發(fā)揮學習預警研究的應用價值。
我國是一個教育大國。在大數(shù)據時代,如何利用教育大數(shù)據改進我們的教育教學?基于數(shù)據挖掘的學習預警研究無疑是一個值得關注的話題。國內的學習預警研究近年來雖然有所發(fā)展,但總體上起步較晚,研究數(shù)量不多;研究主題欠豐富,主要集中在預警指標甄選,對于預警起始時間探測和模型效果評估尚未涉及。相比國外研究,國內研究無論在研究廣度還是深度上都需要極大加強。本文通過對國外基于數(shù)據挖掘的學習預警研究進行回顧與展望,希冀進一步推動國內的學習預警研究走向縱深,并促進數(shù)據挖掘技術在教育技術領域的發(fā)展。
[參考文獻]
陳益均,殷莉. 2013. 基于數(shù)據挖掘的學生成績影響模型的研究[J]. 現(xiàn)代教育技術,23(1):94-96.
賀超凱,吳蒙. 2016. edX平臺教育大數(shù)據的學習行為分析與預測[J]. 中國遠程教育(6):54-59.
胡祖輝,施佺. 2017. 高校學生上網行為分析與數(shù)據挖掘研究[J]. 中國遠程教育(2):26-32.
劉三女牙,彭晛,劉智,等. 2016. 基于文本挖掘的學習分析應用研究[J]. 電化教育研究(2):23-30.
施佺,錢源,孫玲. 2016. 基于教育數(shù)據挖掘的網絡學習過程監(jiān)管研究[J]. 現(xiàn)代教育技術,26(6):87-93.
孫力,程玉霞. 2015. 大數(shù)據時代網絡教育學習成績預測的研究與實現(xiàn)[J]. 開放教育研究,21(3):74-80.
孫力,張凱,丁波. 2016. 基于數(shù)據挖掘的網絡教育學習成績細分預測的研究與實現(xiàn)[J]. 中國遠程教育(12):22-29.
王林麗,葉洋,楊現(xiàn)民. 2016. 基于大數(shù)據的在線學習預警模型設計——“教育大數(shù)據研究與實踐專欄”之學習預警篇[J]. 現(xiàn)代教育技術,26(7):5-11.
尤佳鑫,孫眾. 2016. 云學習平臺大學生學業(yè)成績預測與干預研究[J]. 中國遠程教育(9):14-20.
Agudo-Peregrina, A. F., Iglesias-Pradas, S., Conde-Gonzalez, M. A. & Hernandez-Garcia, A. (2014). Can we predict success from log data in VLEs? Classification of interactions for learning analytics and their relation with performance in VLE-supported F2F and online learning. Computers in Human Behavior, 31, 542-550.
Baker, R. S. & Yacef, K. (2009). The state of educational data mining in 2009: A review and future visions. Journal of Educational Data Mining,1(1), 3-17.
Beck, H. P. & Davidson, W. D. (2001). Establishing an early warning system: Predicting low grades In college students from survey of academic orientations scores. Research in Higher Education, 42(6), 709-723.
Hachey, A. C., Wladis, C. W. & Conway, K. M. (2014). Do prior online course outcomes provide more information than G.P.A. alone in predicting subsequent online course grades and retention? An observational study at an urban community college. Computers & Education 72, 59-67.
Hendel, D. D. (2007). Efficacy of Participating in a First-Year Seminar on Student Satisfaction and Retention. Journal of College Student Retention, 8(4), 413 - 423.
Hu, Y.-H., Lo, C.-L. & Shih, S.-P. (2014). Developing early warning systems to predict students online learning performance. Computers in Human Behavior 36, 469-478.
Huang, S. & Fang, N. (2013). Predicting student academic performance in an engineering dynamics course: A comparison of four types of predictive mathematical models. Computers & Education, 61, 133-145.
Kotsiantis, S. B. (2012). Use of machine learning techniques for educational proposes: a decision support system for forecasting students grades. Artificial Intelligence Review, 37(4), 331-344.
Krumm, A. E., Waddington, R. J., Teasley, S. D. & Lonn, S. (2014). A learning management system-based early warning system for academic advising in undergraduate engineering. In J. A. Larusson & B. White (Eds.), Learning analytics: From theory to practice (pp. 103-119). New York: Springer.
Larsen-Freeman, D. (1997). Chaos/complexity science and second language acquisition. Applied Linguistics, 18, 141-165.
Lee, U. J., Sbeglia, G. C., Ha, M., Finch, S. J. & Nehm, R. H. (2015). Clicker score trajectories and concept inventory scores as predictors for early warning systems for large STEM classes. Journal of Science Education and Technology, 24(6), 848-860.
Lynch, B. K. (2016). Language assessment and programme evaluation. Shanghai: Shanghai Foreign Language Education Press.
Macfadyen, L. P. & Dawson, S. (2010). Mining LMS data to develop an “early warning system” for educators: A proof of concept. Computers & Education, 54(2), 588-599.
Marbouti, F., Diefes-Dux, H. A. & Madhavan, K. (2016). Models for early prediction of at-risk students in a course using standards-based grading. Computers & Education, 103, 1-15.
Marquez-Vera, C., Cano, A., Romero, C., Noaman, A. Y. M., Fardoun, H. M. & Ventura, S. (2016). Early dropout prediction using data mining: a case study with high school students. Expert Systems, 33(1), 107-124.
Pena-Ayala, A. (2014). Educational data mining: A survey and a data mining-based analysis of recent works. Expert Systems with Applications, 41(4), 1432-1462.
Rea-Dickins, P. (2001). Mirror, mirror on the wall: identifying processes of classroom assessment. Language testing, 18(4), 429-462.
Romero, C. & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146.
Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Romero, C., Lopez, M. I., Luna, J. M. & Ventura, S. (2013). Predicting students' final performance from participation in on-line discussion forums. Computers & Education, 68, 458-472.
Sen, B., Ucar, E. & Delen, D. (2012). Predicting and analyzing secondary education placement-test scores: A data mining approach. Expert Systems with Applications, 39(10), 9468-9476.
Tsai, C.-F., Tsai, C.-T., Hung, C.-S. & Hwang, P.-S. (2011). Data mining techniques for identifying students at risk of filing a computer proficiency test required for graduation. Australasian Journal of Educational Technology, 27(3), 481-498.
收稿日期:2017-06-24
定稿日期:2017-09-19
作者簡介:肖巍,博士,副教授,碩士生導師,重慶大學外國語學院(401331)
倪傳斌,博士,教授,博士生導師,副院長,南京師范大學外國語學院(210097)。
李銳,博士后,華中科技大學外國語學院(430074)。
責任編輯 韓世梅