曲智麗等
近年來,為進(jìn)行教育數(shù)據(jù)挖掘(EDM)、學(xué)習(xí)分析(LA)研究,國內(nèi)外的研究者研發(fā)了大量的工具。本文將重點(diǎn)介紹一些對(duì)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析感興趣的研究人員使用的最廣泛、最容易訪問和最強(qiáng)大的工具。
首先是三種非常適合數(shù)據(jù)的操作、清理及創(chuàng)建的工具:Microsoft Excel、Google Sheets和EDM工作臺(tái)。接下來討論P(yáng)ython和SQL在編程中所扮演的角色。在數(shù)據(jù)清理、轉(zhuǎn)換之后,EDM或LA研究人員面臨的問題是數(shù)據(jù)分析。我們將介紹一組適合于此任務(wù)的工具:Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我們還將重點(diǎn)介紹知識(shí)可視化工具,這些工具使數(shù)據(jù)科學(xué)家能夠創(chuàng)建經(jīng)過修飾的信息豐富的圖形、圖表、模型等可視化信息。最后,我們將討論匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)的DataShop,這是一個(gè)集成了數(shù)據(jù)收集、構(gòu)造、分析和可視化的獨(dú)特工具。
入門級(jí)數(shù)據(jù)處理和可視化工具
我們提供以下可用于清理、組織和創(chuàng)建數(shù)據(jù)集的工具,討論每種工具的優(yōu)點(diǎn)和它們?cè)诓僮髦亟M大型數(shù)據(jù)集方面的效用。
1.Microsoft Excel和Google Sheets
對(duì)于數(shù)據(jù)科學(xué)家來說,Microsoft Excel是最容易訪問的工具,它在數(shù)據(jù)可視化方面做得很好。近來基于網(wǎng)絡(luò)的數(shù)據(jù)處理工具Google Sheets也加入了易用工具的群體。這些工具并不適合非常大的數(shù)據(jù)集。Excel和Google Sheets擅長(zhǎng)在可視化的界面中清晰地顯示數(shù)據(jù),這使得識(shí)別數(shù)據(jù)中的結(jié)構(gòu)或語義問題變得很容易。這些工具還可以非常直接地設(shè)計(jì)新變量,快速地將這些變量應(yīng)用到整個(gè)工作表中,并通過一系列數(shù)據(jù)直觀地檢查這些變量以獲得適當(dāng)?shù)墓δ堋5荅xcel和Google Sheets并不適合所有類型的變量,創(chuàng)建不同變量可能需要對(duì)數(shù)據(jù)進(jìn)行重新排序,這使得記錄工作具有挑戰(zhàn)性,并且很容易更改語義。除此之外,Excel和Google Sheets對(duì)可加載和操作的數(shù)據(jù)量有限制。
2.EDM Workbench
EDM Workbench是一個(gè)用于自動(dòng)提取和數(shù)據(jù)標(biāo)記的工具,它的許多自動(dòng)化功能可以解決Excel和Google Sheets的多方面不足,如生成復(fù)雜的序列變量、數(shù)據(jù)采樣以及標(biāo)記。EDM使研究人員能夠基于xml.創(chuàng)建變量,提取現(xiàn)有文獻(xiàn)和智能輔導(dǎo)系統(tǒng)。在數(shù)據(jù)標(biāo)記方面,EDM具有創(chuàng)建文本回放的功能,這是由研究人員或其他領(lǐng)域?qū)<腋鶕?jù)行為類別標(biāo)記編寫的人類行為的片段。EDM支持采樣、評(píng)估器之間的可靠性檢查,以及標(biāo)簽和變量之間的同步。
3.Python和Jupyter notebook
對(duì)于具有編程知識(shí)的數(shù)據(jù)科學(xué)家來說,有幾種語言特別適合于數(shù)據(jù)操作。許多人認(rèn)為Python是實(shí)現(xiàn)這些目的的一種特別有用的語言。工程文件在Python中比在Excel或Google Sheets中更容易實(shí)現(xiàn)。另一個(gè)是Jupyter notebook,它記錄所有的分析和中間結(jié)果,按順序顯示每個(gè)用戶操作。盡管有這樣的優(yōu)勢(shì),Excel或Google Sheets的可視化地檢查創(chuàng)建的數(shù)據(jù)和變量仍然更容易。丟失的數(shù)據(jù)、重復(fù)的案例或不尋常的值在數(shù)據(jù)集中尤其難以識(shí)別,而且對(duì)于新手程序員,Python和Jupyter notebook的驗(yàn)證可能更耗時(shí)。此外Python能夠處理許多不同類型的數(shù)據(jù)格式,如MOOC和其他在線學(xué)習(xí)平臺(tái)。雖然Python在計(jì)算上比前面介紹的電子表格工具更強(qiáng)大,但它在這些領(lǐng)域的能力并不是無限的。Python能夠容納比以前的工具更大的數(shù)據(jù)集,但它仍然受到大小限制,在研究人員的計(jì)算機(jī)的1000萬行數(shù)據(jù)范圍內(nèi),速度會(huì)變慢。
4.Structured Query Language (SQL)
SQL用于組織一些(但不是全部)數(shù)據(jù)庫。SQL查詢是一種提取所需數(shù)據(jù)的強(qiáng)大方法,有時(shí)跨多個(gè)數(shù)據(jù)庫表進(jìn)行集成連接。在SQL(或其他數(shù)據(jù)庫語言,如Hadoop或Spark)中,許多基本的過濾任務(wù)(如選擇特定的學(xué)生子集或從特定的日期范圍獲取數(shù)據(jù))比上述任何工具都要快得多。然而,對(duì)于在工程文件過程中創(chuàng)建復(fù)雜的變量,SQL可能是一種笨拙的語言。SQL可以與前面提到的其他工具有效地結(jié)合使用:SQL擅長(zhǎng)于批量排序和篩選任務(wù),這些任務(wù)在Excel或Python中非常緩慢。
進(jìn)階級(jí)數(shù)據(jù)挖掘和分析工具
本節(jié)列出的工具提供了廣泛的算法和建模框架,可用于對(duì)教育數(shù)據(jù)中的流程和關(guān)系進(jìn)行建模和預(yù)測(cè)。
1.WEKA
WEKA是一個(gè)免費(fèi)開源軟件包,集合了廣泛的數(shù)據(jù)挖掘和模型構(gòu)建算法。它不支持創(chuàng)建新變量,但支持自動(dòng)選擇。WEKA有一組廣泛的分類、集群和關(guān)聯(lián)挖掘算法,可以單獨(dú)使用,也可以結(jié)合使用。用戶可以從命令行、圖形用戶界面(GUI)或Java API調(diào)用算法。
2.SPSS
SPSS主要是一個(gè)統(tǒng)計(jì)軟件包,提供一系列統(tǒng)計(jì)測(cè)試、回歸框架、相關(guān)性和因子分析。SPSS是由IBM SPSS Modeler Premium提供的補(bǔ)充,這是一個(gè)相對(duì)較新的分析和數(shù)據(jù)挖掘包,集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現(xiàn)有功能部件中創(chuàng)建新功能部件、數(shù)據(jù)篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用于數(shù)據(jù)轉(zhuǎn)換、變量選擇的工具與數(shù)據(jù)挖掘包中的工具類似,但選擇方法的種類較少。它還有在變量選擇中使用目標(biāo)類的功能,這在許多其他包中是不可用的。雖然SPSS代表一個(gè)全面的統(tǒng)計(jì)分析工具,但是對(duì)建模的支持比本節(jié)中的其他工具稍差。SPSS不如其他工具靈活,更難于定制,也沒有文檔化。
3.KNIME
KNIME是一個(gè)數(shù)據(jù)清理和分析包,通常類似于RapidMiner和WEKA。它提供了許多與這些工具相同的功能,并且像RapidMiner一樣,集成了所有WEKA的算法。此外,它還在情緒分析和SNA等領(lǐng)域提供了大量專門的算法。KNIME有一個(gè)特別強(qiáng)大的功能,它能夠在同一分析中集成來自多個(gè)源的數(shù)據(jù)。KNIME還提供擴(kuò)展,允許它與R、Python、Java和SQL進(jìn)行接口。
4.Orange
Orange是一個(gè)數(shù)據(jù)可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多,但它的界面更干凈,更容易理解,帶有顏色編碼的小部件,可以區(qū)分?jǐn)?shù)據(jù)輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法,還具有可定制的可視化模塊,用于使用合理的文檔表示模型結(jié)果。然而與Excel相比,Orange可以處理的數(shù)據(jù)規(guī)模有限?;谄湟子诶斫獾腉UI和菜單布局,Orange可能更適合小型項(xiàng)目或新手研究人員。
5.Spark MLLib
Spark是以分布式方式跨多個(gè)計(jì)算機(jī)處理器,可以大規(guī)模處理數(shù)據(jù)的框架。Spark可以通過API連接幾種編程語言,包括Java、Python和SQL,允許使用這些語言進(jìn)行分布式處理。Spark的MLLib機(jī)器學(xué)習(xí)框架提供了幾種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。盡管MLLib的功能仍然有限,而且它是一個(gè)純粹的編程工具(減少了對(duì)非程序員的可用性),但是它的分布式特性使其成為一個(gè)高效和快速的選擇。
高手級(jí)數(shù)據(jù)可視化工具
本節(jié)介紹一些用于視覺分析的通用工具和方法,這些工具和方法支持構(gòu)建交互式的視覺界面,以便從數(shù)據(jù)中獲取知識(shí),以及教師向?qū)W生傳達(dá)學(xué)習(xí)的重要含義。
1.Tableau
Tableau提供了一系列用于交互數(shù)據(jù)分析和可視化的產(chǎn)品。雖然Tableau工具集的主要關(guān)注點(diǎn)是支持商業(yè)智能,但它已廣泛應(yīng)用于教育環(huán)境中,用于分析學(xué)生數(shù)據(jù)、提供可操作的見解、增強(qiáng)教學(xué)實(shí)踐和簡(jiǎn)化教育報(bào)告。Tableau的主要優(yōu)點(diǎn)是不需要編程知識(shí)來分析大量數(shù)據(jù),并提供了連接或?qū)霐?shù)據(jù)的功能。Tableau還具有構(gòu)建豐富的交互式功能,能夠向最終用戶顯示實(shí)時(shí)可視化。然而Tableau的功能僅限于此,它不支持預(yù)測(cè)分析或關(guān)系數(shù)據(jù)挖掘。此外,Tableau作為一種商業(yè)工具,是不可擴(kuò)展的,也不支持與其他軟件平臺(tái)的集成。
2.D3.js
D3.js(數(shù)據(jù)驅(qū)動(dòng)文件)是一個(gè)JavaScript庫,它允許操作數(shù)據(jù)驅(qū)動(dòng),使研究人員和實(shí)踐者能夠構(gòu)建復(fù)雜的交互式數(shù)據(jù)可視化,這些可視化需要數(shù)據(jù)處理,并且是針對(duì)現(xiàn)代Web瀏覽器的。它有幾個(gè)優(yōu)點(diǎn):在構(gòu)建各種數(shù)據(jù)可視化方面具有相當(dāng)大的靈活性,不需要安裝,支持代碼重用,并且是免費(fèi)開源的。然而在教育研究目的采用方面存在著挑戰(zhàn)。作為一種技術(shù),D3.js需要廣泛的編程知識(shí),并且存在兼容性問題,以及對(duì)較大數(shù)據(jù)集的一些性能限制。最后,它不提供對(duì)可視化用戶隱藏?cái)?shù)據(jù)的任何方法,需要數(shù)據(jù)預(yù)處理來確保隱私和數(shù)據(jù)安全。
專家級(jí)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具
上面我們討論了用于教育數(shù)據(jù)挖掘建模和分析的通用工具。然而,特定類型的數(shù)據(jù)和特定的分析目標(biāo)通常需要更專門化的算法,而這些算法在這些通用工具中是不可用的。對(duì)于這些情況,研究人員和實(shí)踐者通常使用針對(duì)這些情況設(shè)計(jì)的更專業(yè)的工具。
1.貝葉斯知識(shí)追蹤工具(BKT:Tools for Bayesian knowledge tracing)
貝葉斯知識(shí)追蹤是一種流行的潛在知識(shí)估計(jì)方法,學(xué)生的知識(shí)是通過在線學(xué)習(xí)來測(cè)量的。這與測(cè)試中常見的教育測(cè)量類型不同,因?yàn)樵谠诰€學(xué)習(xí)過程中,知識(shí)在被測(cè)量時(shí)發(fā)生了變化。貝葉斯知識(shí)追蹤是一個(gè)隱馬爾可夫模型(同時(shí)也是一個(gè)簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)),它可以預(yù)測(cè)一個(gè)學(xué)生是否掌握了智能輔導(dǎo)系統(tǒng)或類似程序中的特定技能。貝葉斯知識(shí)追蹤模型通常使用以下兩種算法之一進(jìn)行匹配——網(wǎng)格搜索或期望最大化,兩種算法在預(yù)測(cè)性能上具有可比性。
2.文本挖掘工具
文本挖掘是一個(gè)快速發(fā)展的數(shù)據(jù)挖掘領(lǐng)域,有大量應(yīng)用程序和API可用來標(biāo)記、處理和標(biāo)識(shí)文本數(shù)據(jù)。文本分析工具可以處理語音的文本部分、句子結(jié)構(gòu)和語義詞的意義。此外,一些工具能夠識(shí)別不同單詞和句子之間的表示關(guān)系。下面介紹的工具并不是所有可用程序的詳盡列表,而是一些工具的選擇,它們跨越了文本處理和分析的許多方面。
①語言查詢與字?jǐn)?shù)統(tǒng)計(jì)(LIWC)。LIWC工具是一種圖形化、易于使用的計(jì)算機(jī)文本分析工具,它通過分析使用的詞匯量來測(cè)量文本的潛在特征。LIWC針對(duì)不同的心理詞匯類別(如認(rèn)知詞匯、情感詞匯、功能詞匯和分析詞匯)提供了80多個(gè)指標(biāo),并在大量研究中得到了廣泛的應(yīng)用和驗(yàn)證。
②WMatrix是一個(gè)在線圖形化工具。該工具可用于文本語庫的詞頻分析和可視化。雖然它可以用來進(jìn)行完整的分析過程,但它主要用于提取語言特征,包括單詞、重要的多單詞短語標(biāo)記,特別是單詞語義類別。它還以詞云的形式提供了文本語料庫的可視化,同時(shí)為多個(gè)文本語料庫提供了接口。
③Coh-Metrix是另一個(gè)流行的文本分析工具。它提供了100多個(gè)衡量文本分為11個(gè)類別。與WMatrix相比,CohMetrix提供了對(duì)文本特性和數(shù)據(jù)關(guān)系的上下文的理解和分析。WMatrix從語義上標(biāo)記單詞,而CohMetrix標(biāo)記多個(gè)用于評(píng)估深層文本內(nèi)聚。隨著分析深層含義的增加,就需要更大的數(shù)據(jù)集,使用CohMetrix有效地傾向于需要更大的文本語料庫。
3.過程和序列挖掘工具
除了更多的教育數(shù)據(jù)分析的傳統(tǒng)方法,研究人員還瞄準(zhǔn)跟蹤學(xué)習(xí)者學(xué)習(xí)策略和流程序列。針對(duì)這類應(yīng)用程序,出現(xiàn)了一組獨(dú)特的工具。在本節(jié)中,我們將介紹用于支持教育數(shù)據(jù)挖掘和學(xué)習(xí)分析研究的過程和序列挖掘的ProM和tramler-tools。
①ProM是一個(gè)基于Java的、獨(dú)立于平臺(tái)的、模塊化的、開源的平臺(tái),支持多種流程挖掘技術(shù)。最近的實(shí)現(xiàn)(ProM 6)支持在分布式設(shè)置中或通過批處理運(yùn)行進(jìn)程挖掘。ProM還支持多個(gè)進(jìn)程挖掘算法的鏈接,提供預(yù)期輸入和輸出的清晰規(guī)范。此外,可以在運(yùn)行時(shí)添加新的插件,從而直接集成到分析過程中。ProM允許與現(xiàn)有信息系統(tǒng)輕松集成,而不需要編程。
②TraMineR是一個(gè)免費(fèi)開源工具,支持挖掘和可視化狀態(tài)或事件序列。TraMineR的一些主要特性:用于狀態(tài)分析和可視化,序列數(shù)據(jù)包括處理不同格式的序列和改造各種表示;描述縱向(如長(zhǎng)度、復(fù)雜性和時(shí)間)和其他聚合(如過渡率、平均持續(xù)時(shí)間)的特征序列;訪問各種各樣的繪圖功能(如頻率或情節(jié)、密度指數(shù)情節(jié));用廣泛的指標(biāo)來評(píng)估序列之間的距離。
4.匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)開發(fā)的DataShop
PSLC的數(shù)據(jù)庫包含一個(gè)存儲(chǔ)庫,其中包含許多可下載和分析的數(shù)據(jù)集,以及一組支持探索性分析和模型的工具。DataShop在數(shù)據(jù)集上具有知識(shí)組件模型的功能。它還能夠在正確性、提示使用、潛在知識(shí)、響應(yīng)時(shí)間和其他感興趣的變量方面將學(xué)生的表現(xiàn)可視化。PSLC數(shù)據(jù)是一個(gè)Web應(yīng)用程序,可以免費(fèi)使用,但不是開源的。
教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具的終極原則:混合應(yīng)用
研究人員和實(shí)踐者在開始使用教育數(shù)據(jù)挖掘和學(xué)習(xí)分析時(shí)需要考慮的一個(gè)關(guān)鍵問題是,沒有一種工具能夠完美地從開始到結(jié)束分析大多數(shù)數(shù)據(jù)集的整個(gè)過程。不同的工具適合于不同的任務(wù)。例如,一個(gè)研究人員可能在一個(gè)流行的MOOC中擁有6000萬次系統(tǒng)交易的數(shù)據(jù)。從這個(gè)數(shù)據(jù)集中,他只選擇一個(gè)特定的數(shù)據(jù)(SQL),然后細(xì)化數(shù)據(jù)集計(jì)算系統(tǒng)中總學(xué)生時(shí)間(Excel),在擬合預(yù)測(cè)模型中(RapidMiner)分析論壇的帖子,回復(fù)(NodeXL)之間的關(guān)系和整體文本質(zhì)量的帖子,回復(fù)學(xué)生(CohMetrix)。最后,研究人員可能會(huì)找出可視化社交網(wǎng)絡(luò)數(shù)據(jù)(Gephi)中最有趣的學(xué)生集群。
所有的工具,它們都代表了在這個(gè)領(lǐng)域工作的不同科學(xué)家群體的總和。它們代表了解決不同問題的不同方法,每一種方法都有其獨(dú)特的優(yōu)缺點(diǎn)。通過工具的組合,可以實(shí)現(xiàn)復(fù)雜的分析,并可以做出有用的發(fā)現(xiàn)。這是一個(gè)快速變化的領(lǐng)域,新的工具不斷出現(xiàn)。盡管如此,我們希望這篇綜述能夠?qū)δ切┰诶碚搶用嬉约霸趯?shí)際應(yīng)用中對(duì)這些工具感興趣的研究人員有所幫助。