国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)支持的慕課論壇教師干預(yù)預(yù)測及應(yīng)用

2021-09-27 00:56吳林靜馬鑫倩劉清堂王瑾潔高喻
電化教育研究 2021年7期
關(guān)鍵詞:文本分類慕課大數(shù)據(jù)

吳林靜 馬鑫倩 劉清堂 王瑾潔 高喻

[摘? ?要] 針對慕課論壇中討論主題數(shù)量巨大,教師難以及時(shí)反饋的現(xiàn)象,文章提出了一種基于大數(shù)據(jù)技術(shù)的慕課論壇教師干預(yù)預(yù)測方法。該方法根據(jù)學(xué)習(xí)者的干預(yù)需求將慕課論壇中的教師干預(yù)分為三種類型:內(nèi)容相關(guān)需干預(yù)、管理相關(guān)需干預(yù)和不需干預(yù)。在該分類的基礎(chǔ)上,提出了基于詞類進(jìn)行語義特征提取和基于課程知識圖譜的內(nèi)容特征提取方法,對討論帖的文本內(nèi)容進(jìn)行表征,并通過機(jī)器學(xué)習(xí)的方法對教師干預(yù)類型進(jìn)行預(yù)測。以中國大學(xué)慕課網(wǎng)中“數(shù)據(jù)庫系統(tǒng)概論”課程的教師答疑區(qū)主題討論為數(shù)據(jù)源,對上述方法的有效性進(jìn)行驗(yàn)證,發(fā)現(xiàn):(1)基于詞類和知識圖譜的語義表征方法能夠?qū)φ搲黝}的教師干預(yù)需求進(jìn)行預(yù)測,準(zhǔn)確率可達(dá)到75.86%;(2)不同類型的討論帖具有不同的語義特征,反映出慕課學(xué)習(xí)中學(xué)習(xí)者不同的學(xué)習(xí)需求,需要教師給予及時(shí)、個(gè)性化的干預(yù)與指導(dǎo)。將慕課論壇教師干預(yù)的預(yù)測結(jié)果推送給慕課教師和課程管理人員,可以大大提升教學(xué)管理效率和學(xué)習(xí)者學(xué)習(xí)體驗(yàn)。

[關(guān)鍵詞] 慕課; 大數(shù)據(jù); 教師干預(yù); 文本分類; 語義挖掘

[中圖分類號] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A

[作者簡介] 吳林靜(1987—),女,湖北松滋人。副教授,博士,主要從事數(shù)據(jù)挖掘、人工智能與教育應(yīng)用研究。E-mail:wlj_sz@126.com。

一、引? ?言

慕課課程由于其開放、優(yōu)質(zhì)、免費(fèi)等特征,受到了教育者和學(xué)習(xí)者的廣泛認(rèn)可,并給教育領(lǐng)域帶來了巨大的變化。根據(jù)第三方在線教育機(jī)構(gòu)Class Central統(tǒng)計(jì),截至2018年底,全球慕課課程數(shù)量為1.14萬,用戶注冊數(shù)量達(dá)到1.01億人[1]。與此同時(shí),我國的慕課規(guī)模更是飛速發(fā)展:教育部于2019年4月表示,我國的上線慕課數(shù)量和應(yīng)用規(guī)模已躍居世界第一[2]。慕課的廣泛應(yīng)用為數(shù)字化學(xué)習(xí)提供了極大的便利,使得最優(yōu)質(zhì)的教育資源得到了良好的利用。但慕課也存在一個(gè)先天的不足之處,即:由于過高的生師比,導(dǎo)致慕課缺乏師生交互,教師難以針對學(xué)習(xí)者的需求提供及時(shí)、個(gè)性化的指導(dǎo)。針對這一現(xiàn)象,各大慕課平臺均提供在線論壇和討論區(qū)等方式以促進(jìn)師生之間和學(xué)習(xí)者之間的溝通和交流,建立在線學(xué)習(xí)社區(qū),從而緩解教學(xué)過程中缺乏交互的問題。但是由于慕課大規(guī)模的特征,慕課論壇中的討論區(qū)往往會迅速累積大量的討論帖,導(dǎo)致慕課教師沒有足夠的精力去處理這些討論,為學(xué)習(xí)者答疑解惑。大量研究表明,主題討論中如果缺乏教師反饋,會大大影響學(xué)習(xí)者的學(xué)習(xí)成效和社會存在感,并進(jìn)一步導(dǎo)致輟學(xué)等現(xiàn)象發(fā)生[3]。在慕課學(xué)習(xí)中,學(xué)習(xí)者的大規(guī)模與學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需求之間已經(jīng)成為一種尖銳的矛盾,極大地限制了慕課的發(fā)展和應(yīng)用[4]。針對這一矛盾,本文擬通過人工智能的相關(guān)技術(shù)對論壇中的主題討論文本進(jìn)行分析,以預(yù)測教師是否需要對當(dāng)前的討論主題進(jìn)行干預(yù),以及進(jìn)行何種類型的干預(yù)。這種預(yù)測可以幫助教師快速篩選出那些需要進(jìn)行干預(yù)的主題討論以及需要干預(yù)的類型,從而為慕課教師和助教提供參考,提升慕課管理的效率和學(xué)習(xí)者的學(xué)習(xí)體驗(yàn)。

二、相關(guān)研究

(一)文本的語義特征

在慕課論壇中,師生主要通過文字進(jìn)行交流,偶爾輔以圖片等其他媒體形式。因此,對論壇數(shù)據(jù)的分析離不開對文本的分析和理解。在傳統(tǒng)的自然語言處理技術(shù)中,對文本的語義表達(dá)主要使用詞匯作為語義特征,并由此形成了經(jīng)典的“詞袋模型”(Bag of Words)。但由于論壇中主題帖大部分屬于短文本,在使用詞袋模型進(jìn)行表征時(shí)會產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題,導(dǎo)致文本處理的準(zhǔn)確率大大下降。為了緩解這一問題,很多學(xué)者提出了以詞類作為文本表征的方法。韓普等人指出詞性是文本聚類中的一種重要特征,使用詞類作為文本特征進(jìn)行文本分析時(shí)能夠大大降低文本的維度并提升聚類效果[5]。除了詞性特征外,PenneBaker等人進(jìn)一步指出話語中的詞匯能夠反映人們內(nèi)部的心理特征與情感,因此,其從心理和認(rèn)知的角度進(jìn)一步提出了一系列的詞類特征,以探索文本中所反映出的認(rèn)知、情感、人格、社會心理等內(nèi)部特征[6]。在這些特征的基礎(chǔ)上,Pennebaker等人進(jìn)一步開發(fā)了基于詞類的語義分析工具LIWC(Linguistic Inquiry Word Count)[7],用于對文本進(jìn)行分析。LIWC的有效性經(jīng)過了大量的驗(yàn)證,并被廣泛應(yīng)用于各類文本的特征分析中[8-10]。早期的LIWC工具缺少中文詞典的支持,不適合于進(jìn)行中文的分析與處理,因此,中國科學(xué)院心理研究所參照LIWC的詞分類體系和詞庫,研發(fā)了“文心中文心理分析系統(tǒng)”,用于對簡體中文進(jìn)行語言心理分析[11]。該系統(tǒng)在學(xué)習(xí)相關(guān)的文本分析中也被證明有效[12]。在本研究中,對文本的表征將混合使用詞袋模型和詞類模型,以緩解論壇數(shù)據(jù)的短文本特征所導(dǎo)致的數(shù)據(jù)稀疏問題。

(二)領(lǐng)域知識圖譜

知識圖譜最早起源于谷歌公司2012年所提出的“大規(guī)模知識圖譜”,指的是一種新型的、結(jié)構(gòu)化的語義知識網(wǎng)絡(luò),能夠描述現(xiàn)實(shí)世界中各種概念及其語義關(guān)系,是大數(shù)據(jù)和人工智能中的前沿研究方向[13]。在通用領(lǐng)域,公開的知識圖譜主要有:Google Knowledge Graph、Microsoft Concept Graph、Dbpedia、Freebase、知立方、知心等。教育領(lǐng)域的知識圖譜代表性項(xiàng)目主要有:美國Knewton公司利用知識圖譜構(gòu)建跨學(xué)科知識體系[14];面向智能知識檢索的知識庫引擎Wolfram Alpha;微軟與清華大學(xué)聯(lián)合發(fā)布的“開放學(xué)術(shù)圖譜”、北京師范大學(xué)的育人知識圖譜[15]、華中師范大學(xué)的學(xué)科知識圖譜[16]等。無論是通用領(lǐng)域的知識圖譜,還是教育領(lǐng)域的知識圖譜,其本質(zhì)作用均是為計(jì)算機(jī)提供領(lǐng)域內(nèi)的基礎(chǔ)知識,以支持各類智能應(yīng)用中的分析與推理。典型研究如知識圖譜支持的深度學(xué)習(xí)[17]、教育資源推薦系統(tǒng)[18]、適應(yīng)性學(xué)習(xí)系統(tǒng)[19-20]等;將領(lǐng)域知識圖譜應(yīng)用于MOOC課程教學(xué)中,以實(shí)現(xiàn)課程結(jié)構(gòu)重構(gòu)[21]、對學(xué)生成績進(jìn)行預(yù)測[22]、對教學(xué)過程進(jìn)行優(yōu)化[23]等;領(lǐng)域知識圖譜也可以作為學(xué)習(xí)者建模過程中的知識基礎(chǔ)[24]。在這些研究中,知識圖譜均承擔(dān)著為各類應(yīng)用提供領(lǐng)域基礎(chǔ)知識的主要作用。在本研究中,學(xué)習(xí)者在論壇中提出的各類疑問有些與學(xué)習(xí)內(nèi)容直接相關(guān),有些則可能不相關(guān)(如關(guān)于課程管理方面的疑問等)。因此,引入領(lǐng)域知識圖譜對論壇中的討論帖進(jìn)行特征提取可以在快速降低特征維度的同時(shí),有效區(qū)分內(nèi)容相關(guān)類與無關(guān)類討論。

(三)慕課論壇中的教師干預(yù)

論壇是慕課中教師和學(xué)生溝通交流的主要工具和方式[3]。已有研究指出慕課論壇中教師的干預(yù)能夠提升學(xué)生的學(xué)習(xí)[25],且學(xué)生能夠從中受益[26]。如果教師不參與論壇討論,則學(xué)生可能會感覺到被忽視或孤立[27]。然而,慕課本身大規(guī)模的特性導(dǎo)致教師難以遍歷所有的討論并給出有針對性的指導(dǎo)。如何快速從海量的討論主題中識別出有價(jià)值的、需要教師干預(yù)的話題成為慕課管理和教學(xué)中的一大難題。為提升慕課管理效率,研究者嘗試?yán)萌斯ぶ悄芎蜋C(jī)器學(xué)習(xí)的方法對論壇內(nèi)容進(jìn)行甄別,以輔助教師篩選需要干預(yù)的討論主題。典型研究如:Chanaa等人通過深度學(xué)習(xí)模型和學(xué)科領(lǐng)域本體對慕課論壇中學(xué)習(xí)者可能存在疑惑的主題進(jìn)行自動(dòng)識別[28];也有學(xué)者通過自然語言處理的方法預(yù)測慕課論壇中學(xué)習(xí)者的沮喪情緒,并進(jìn)行干預(yù)[29];Arguello等人對慕課論壇中每一條主題帖的語義角色進(jìn)行自動(dòng)識別,并將結(jié)果提供給教師以方便教師進(jìn)行干預(yù)[30]??傮w而言,慕課論壇中教師干預(yù)的識別研究已經(jīng)開始得到重視,且以英語為主要語言的慕課平臺中已出現(xiàn)了部分有參考價(jià)值的研究,但中文慕課平臺的相關(guān)研究較少,且由于中文理解的復(fù)雜性而準(zhǔn)確率不高。本文將以中國大學(xué)慕課平臺上的課程為研究對象,結(jié)合自然語言處理與知識圖譜等方法,對慕課論壇主題中的教師干預(yù)進(jìn)行自動(dòng)識別,以提高教師管理慕課論壇的效率,提升學(xué)習(xí)效果。

三、大數(shù)據(jù)下的慕課論壇教師干預(yù)預(yù)測模型

(一)慕課論壇教師干預(yù)預(yù)測方法

慕課論壇是促進(jìn)教師和學(xué)習(xí)者溝通交流的工具。在論壇中學(xué)習(xí)者、教師、助教等通過文字進(jìn)行討論、答疑、求助等。與傳統(tǒng)基于機(jī)器學(xué)習(xí)的文本處理相比,慕課中的討論文本具有如下的明顯特征:

1. 慕課論壇中的評論數(shù)量巨大,但單條評論較短且字?jǐn)?shù)較少。由于慕課學(xué)習(xí)者眾多,論壇發(fā)帖數(shù)量龐大,給教師帶來管理上的困難。同時(shí),與其他類型文本相比,慕課單條評論較短,一般在3~100字之間,屬于典型的短文本。由于文本太短,在將轉(zhuǎn)換為向量空間模型以進(jìn)一步進(jìn)行分析時(shí),會出現(xiàn)數(shù)據(jù)稀疏的問題,使得文本分析的準(zhǔn)確率大大下降。

2. 慕課論壇中既包含與課程內(nèi)容高度相關(guān)的評論,如關(guān)于課程內(nèi)容本身的疑問和主題討論等;也包含與課程內(nèi)容無關(guān)、但與學(xué)習(xí)過程有關(guān)的評論,如關(guān)于考試、作業(yè)、資源等的討論。論壇內(nèi)容的復(fù)雜性增加了信息篩選的難度,為不同職責(zé)的管理人員分工管理論壇帶來了不便,降低了工作效率。

3. 并非所有的慕課評論都需要教師進(jìn)行干預(yù),因?yàn)橛行┯懻撝黝}并非學(xué)習(xí)者的學(xué)習(xí)疑問或?qū)W習(xí)者可以通過交流自行解決。Chandrasekaran等人對慕課課程中的33665個(gè)主題討論進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)其中10035個(gè)主題討論有教師或者助教進(jìn)行干預(yù),其余討論則沒有教師干預(yù)[26]。這一現(xiàn)象說明教師干預(yù)在主題討論中并非必須,但篩選出那些需要干預(yù)的討論對于慕課的教學(xué)至關(guān)重要。

鑒于以上特征,本文提出了一種基于知識圖譜和機(jī)器學(xué)習(xí)技術(shù)的論壇教師干預(yù)預(yù)測方法,如圖1所示。

該方法包含四個(gè)層次:數(shù)據(jù)層、算法層、結(jié)果層和利益相關(guān)者層。數(shù)據(jù)層主要包括在慕課論壇中所形成的討論數(shù)據(jù),參與者主要包括學(xué)習(xí)者、教師和助教。在算法層,首先在語義分析工具的詞性與詞類詞典的幫助下,提取出討論文本的語義特征,包括各類詞性特征、核心詞類特征和基本句法特征。然后通過領(lǐng)域知識圖譜,提取出討論中的核心內(nèi)容特征,尤其是與課程內(nèi)容相關(guān)的概念特征。再次將語義特征和內(nèi)容特征合并,形成特征集合,以作為討論數(shù)據(jù)分析的分類特征。最后,通過機(jī)器學(xué)習(xí)中的相關(guān)分類方法對討論進(jìn)行文本分類,以將討論數(shù)據(jù)中值得關(guān)注的部分篩選出來。結(jié)果層主要包含討論主題的分類結(jié)果,所有討論被分為三個(gè)類別:內(nèi)容相關(guān)需干預(yù)、管理相關(guān)需干預(yù)和不需干預(yù)。利益相關(guān)者層包含各類慕課教學(xué)的利益相關(guān)者,如教師、助教、學(xué)習(xí)者、其他管理人員等。這些利益相關(guān)者可以根據(jù)分類結(jié)果,有針對性地對討論進(jìn)行干預(yù),如針對內(nèi)容相關(guān)需干預(yù)的討論,可以由教師根據(jù)教學(xué)內(nèi)容提供相應(yīng)的干預(yù)以促進(jìn)學(xué)習(xí);針對管理相關(guān)需干預(yù)的討論,可以由助教針對相關(guān)問題向?qū)W生提供干預(yù);針對不需干預(yù)的討論,可以利用詞云、主題識別等方法生成相關(guān)的大數(shù)據(jù)信息,為相關(guān)管理人員的管理和決策提供參考。

(二)慕課評論中的教師干預(yù)分類

慕課中的教師干預(yù)分類方法較多,最常見是二分類,即將評論分為需要干預(yù)和不需要干預(yù)兩類。該分類已經(jīng)可以大大提高慕課管理的效率,幫助教師迅速將需要關(guān)注的討論篩選出來。本文在上述二分類體系的基礎(chǔ)上進(jìn)行了優(yōu)化,將需要干預(yù)的討論進(jìn)一步劃分為內(nèi)容相關(guān)需干預(yù)和管理相關(guān)需干預(yù)。這樣可以有效輔助慕課教學(xué)管理分工,如教師可以專門針對內(nèi)容相關(guān)討論進(jìn)行關(guān)注和引導(dǎo),而助教團(tuán)隊(duì)則可以針對管理相關(guān)討論進(jìn)行指導(dǎo),使得慕課教學(xué)團(tuán)隊(duì)可以更加高效地分工合作。教師干預(yù)分類的具體定義及示例見表1。

(三)基于詞類和知識圖譜的分類特征

由于慕課討論文本的典型特征,本研究中用于文本分類的分類特征并非使用傳統(tǒng)的詞匯特征,而是由文本的語義特征與內(nèi)容特征組合而成。下面對其原理進(jìn)行詳細(xì)說明。

1. 文本的語義特征

文本的語義體現(xiàn)為詞匯,但由于中文詞匯數(shù)量巨大,短文本如果直接使用詞匯作為特征會導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏問題。使用詞類特征則較好地避免這一問題。詞類特征的基本思路是:將屬于同一類型的詞匯作為一個(gè)類別,統(tǒng)計(jì)其數(shù)量,并計(jì)算其占總詞數(shù)的百分比作為權(quán)重。這樣將屬于同一類別的詞進(jìn)行合并,從而減少特征數(shù)量,提高特征權(quán)重,改善數(shù)據(jù)稀疏問題,提升識別效果。除此詞類特征之外,文本的句法特征也對語義的理解具有重要作用,如句子長度、標(biāo)點(diǎn)符號等。Pennebaker等人對文本語義表達(dá)具有重要作用的詞類和句法特征進(jìn)行了總結(jié),并建立了相應(yīng)的詞典和工具LIWC。由于本研究中所處理的全部數(shù)據(jù)均為中文,因此,本文選擇使用與LIWC詞類兼容的文本分析工具“文心”(TextMind)對討論數(shù)據(jù)進(jìn)行分析,以實(shí)現(xiàn)語義特征的提取?!拔男摹敝兴脑~類特征見表2。

2. 文本的內(nèi)容特征

文本的內(nèi)容特征體現(xiàn)為文本中與教學(xué)內(nèi)容相關(guān)的核心詞匯。為了提取出這些特征,需要預(yù)先定義領(lǐng)域知識圖譜,對學(xué)科中的核心知識進(jìn)行描述。然后根據(jù)知識圖譜中的核心概念和術(shù)語,對文本進(jìn)行特征篩選,并計(jì)算其TF·IDF值作為特征的權(quán)重。一個(gè)主題討論j中所包含的特征詞ti的特征權(quán)重wij的計(jì)算方法如下:

其中nij表示特征詞ti在主題討論j中出現(xiàn)的次數(shù),k為主題討論集合中所有包含特征詞ti的討論。|D|為整個(gè)集合中主題討論的數(shù)量,為集合中包含特征詞ti的主題討論的數(shù)量。此外,特征詞個(gè)數(shù)占主題討論總詞數(shù)的百分比也被作為內(nèi)容特征之一,用于描述討論的內(nèi)容相關(guān)性。

以如下主題討論為例,首先將主題討論中的所有帖子合并在一起,形成一段文本;然后通過知識圖譜進(jìn)行特征選擇,實(shí)現(xiàn)特征提取;最后通過TF·IDF方法為特征計(jì)算權(quán)重,形成內(nèi)容特征集合,如圖2所示。

四、中國大學(xué)慕課案例分析與應(yīng)用

(一)數(shù)據(jù)來源

為了驗(yàn)證提出方法的有效性,課題組從中國大學(xué)慕課(https://www.icourse163.org/)上選取了課程“數(shù)據(jù)庫系統(tǒng)概論(基礎(chǔ)篇)”從第2至8次開課共7輪課程(其中第1次開課時(shí),課程尚處在完善階段;第9次課目前尚未結(jié)束)的所有教師答疑區(qū)的全部討論主題作為數(shù)據(jù)源,并通過本文所提出的方法進(jìn)行了分析。7輪課程共采集到討論主題的數(shù)量為1015個(gè),包含討論帖的數(shù)量為2877個(gè)。由于教師的干預(yù)發(fā)生在學(xué)生發(fā)表討論帖之后,是否需要進(jìn)行干預(yù)主要通過學(xué)生主題帖的內(nèi)容進(jìn)行判斷。因此,對每一個(gè)討論主題中的所有討論帖,按照教師是否進(jìn)行了回復(fù)進(jìn)行截?cái)?,僅保留教師回復(fù)前的所有討論帖,并將同一主題下的討論帖合并為一個(gè)文本,作為是否需要進(jìn)行教師干預(yù)的原始數(shù)據(jù)。兩名經(jīng)過培訓(xùn)的教育技術(shù)學(xué)研究生對所有討論主題按照表1中的分類進(jìn)行了數(shù)據(jù)標(biāo)注。若兩名標(biāo)注員標(biāo)注結(jié)果一致,則將該結(jié)果作為最終標(biāo)注結(jié)果;若兩名標(biāo)注員標(biāo)注結(jié)果不一致,則相互商量直到獲得一致結(jié)果。最終的數(shù)據(jù)分布情況見表3。

(二)領(lǐng)域知識圖譜構(gòu)建

為了實(shí)現(xiàn)對討論主題內(nèi)容特征的抽取,本文構(gòu)建了面向“數(shù)據(jù)庫系統(tǒng)概論”的課程知識圖譜。參照谷歌知識圖譜,本文所構(gòu)建的知識圖譜主要包括兩個(gè)組成部分:第一部分是領(lǐng)域中的核心概念,主要包括概念及其屬性;第二部分是該領(lǐng)域的基本知識結(jié)構(gòu),主要包括概念之間的各種語義聯(lián)系。課程的核心概念是以課程教學(xué)大綱和教材為依據(jù),由兩位該課程的任課教師依據(jù)教學(xué)過程進(jìn)行獨(dú)立標(biāo)注。標(biāo)注后將兩人的標(biāo)注結(jié)果進(jìn)行比較,就不一致的部分進(jìn)行討論,并最終取得一致結(jié)果。該課程知識圖譜共包含核心概念432個(gè)。除了得到領(lǐng)域中的所有核心概念,知識圖譜還對概念之間的關(guān)系進(jìn)行標(biāo)注,以形成領(lǐng)域的整體知識結(jié)構(gòu)。概念之間的語義關(guān)系有上下位、整體—部分多種類型關(guān)系。圖3展示了“數(shù)據(jù)庫原理與技術(shù)”課程中的最頂層的概念和概念“關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL”及其下位概念之間的語義層次結(jié)構(gòu)。

(三)分類預(yù)測結(jié)果

在詞性與詞類詞典和課程知識圖譜的幫助下,本文對數(shù)據(jù)集中的1015個(gè)討論主題進(jìn)行特征提取,并按照7:3的比例將數(shù)據(jù)集分為訓(xùn)練集和測試集。運(yùn)用機(jī)器學(xué)習(xí)中的不同分類算法,通過訓(xùn)練集進(jìn)行模型訓(xùn)練后,通過測試集驗(yàn)證方法的有效性。表4展示了通過不同的分類算法進(jìn)行測試所得到的干預(yù)類型分類的總體精度、按類別加權(quán)準(zhǔn)確率、按類別加權(quán)召回率和kappa值。

從結(jié)果中可以看出,各分類模型的總體分類精度分布于42.86%至75.86%之間,其中三種模型能夠達(dá)到70%以上的準(zhǔn)確率,說明本文提出的特征提取方法能夠有效地對論壇討論中的教師干預(yù)類型進(jìn)行分類預(yù)測。在所有模型中,梯度提升樹模型獲得了最好的準(zhǔn)確率,達(dá)到75.86%,能夠高效地識別出需要教師干預(yù)的討論主題,并對干預(yù)類型進(jìn)行判定,幫助教師及其團(tuán)隊(duì)更為高效地進(jìn)行慕課教學(xué)和管理。

(四)各類別的語義特征

為了更好地了解需要教師干預(yù)的不同類別討論主題的語義特征,從而為教師提供參考,本文對三類不同討論主題的文本內(nèi)容進(jìn)行了詞頻統(tǒng)計(jì),并分別選取了各類別中詞頻排序前10的名詞短語,其結(jié)果見表5。

從各類別的語義特征上可以看出,三類不同的討論主題分別具有各自不同的語義特征。

1. 在內(nèi)容相關(guān)需干預(yù)討論主題中,學(xué)習(xí)者重點(diǎn)圍繞課程內(nèi)容提出疑問,如“屬性”“SQL”“實(shí)體”等詞匯展示了學(xué)習(xí)者重點(diǎn)關(guān)注的學(xué)習(xí)內(nèi)容,也給慕課教師提示了課程重點(diǎn)內(nèi)容。

2. 在管理相關(guān)需干預(yù)類討論主題中,高頻詞匯包括“實(shí)驗(yàn)”“注冊”“成績”等,體現(xiàn)了在慕課課程管理方面,學(xué)習(xí)者遇到的問題主要包括以下幾個(gè)方面:實(shí)驗(yàn)課程開設(shè)問題、平臺注冊與密碼問題、成績判定問題、資源更新問題。這些問題的及時(shí)處理與解決與學(xué)習(xí)者在慕課平臺的學(xué)習(xí)體驗(yàn)密切相關(guān)。將這些疑問推送給助教團(tuán)隊(duì)和慕課管理人員以保證學(xué)習(xí)者得到及時(shí)回復(fù),將能夠極大地提升慕課學(xué)習(xí)的滿意度。

3. 在其他類討論主題中,學(xué)習(xí)者主要討論了自己的感受、期望、對課程和教師的看法等這些討論內(nèi)容,雖然不需要教師的直接干預(yù),但其內(nèi)容對于課程改進(jìn)和提升課程體驗(yàn)依然有著重要作用??梢詫⑦@類主題匯總后通過詞云等方式推送給課程組織者,以優(yōu)化課程設(shè)計(jì)。

五、結(jié)? ?語

慕課以其優(yōu)質(zhì)、免費(fèi)、開放等特征得到了學(xué)習(xí)者的廣泛認(rèn)可,促進(jìn)了優(yōu)質(zhì)教育資源的共享與利用。本文針對慕課討論區(qū)中討論主題數(shù)量巨大、教師難以及時(shí)反饋的現(xiàn)象,提出了一種基于文本的語義特征和內(nèi)容特征的慕課評論教師干預(yù)預(yù)測方法。在該方法中,學(xué)習(xí)者在討論區(qū)所發(fā)布的討論主題按照是否需要教師干預(yù)分為三種類型:內(nèi)容相關(guān)需干預(yù)、管理相關(guān)需干預(yù)和不需干預(yù)。在此三種類型的基礎(chǔ)上,本文針對慕課討論主題字?jǐn)?shù)較少、且與課程內(nèi)容相關(guān)的特征,提出了一種基于知識圖譜的文本分類特征提取方法,融合文本的語義特征和內(nèi)容特征,以緩解主題討論短文本所導(dǎo)致的特征稀疏問題,提高教師干預(yù)類型的預(yù)測準(zhǔn)確率。以中國大學(xué)慕課中“數(shù)據(jù)庫系統(tǒng)概論”課程7輪開課中教師答疑區(qū)的全部討論數(shù)據(jù)作為案例對本文的方法進(jìn)行驗(yàn)證,結(jié)果表明該方法對教師干預(yù)類型的預(yù)測準(zhǔn)確率可以達(dá)到75.86%,能夠極大地提升慕課中主題討論的管理效率。下一步,擬進(jìn)一步擴(kuò)大方法的應(yīng)用范圍,囊括多門課程,以驗(yàn)證模型和方法的泛化能力,提升其可推廣性。

致謝:本研究中使用了中國科學(xué)院心理研究所開發(fā)的“文心中文心理分析系統(tǒng)”,在此表示感謝!

[參考文獻(xiàn)]

[1] 21世紀(jì)經(jīng)濟(jì)報(bào)道.全球慕課(MOOC)用戶破億!教育部:中國有超過2億人次學(xué)習(xí)者[EB/OL]. [2020-10-13].http://www.cedumedia.com/i/23466.htm.

[2] 央廣網(wǎng).教育部:我國上線慕課數(shù)量和應(yīng)用規(guī)模居世界第一[EB/OL]. [2020-10-13].http://china.cnr.cn/news/20190415/t20190415_ 524577387.shtml.

[3] CHANDRASEKARAN M K, RAGUPATHI K, TAN B C Y, et al. Towards feasible instructor intervention in MOOC discussion forums[C]// International Conference on Information Systems, Fort Worth: 2015.

[4] 朱美娜, 趙云建. 慕課和開放教育:角色,教育實(shí)踐,個(gè)性化學(xué)習(xí)和可能的發(fā)展趨勢——訪印第安納大學(xué)教育技術(shù)專家柯蒂斯·邦克教授及其著作團(tuán)隊(duì)[J]. 中國電化教育,2017(5):35-44.

[5] 韓普,王東波,劉艷云,蘇新寧. 詞性對中英文文本聚類的影響研究[J].中文信息學(xué)報(bào),2013(2):65-73.

[6] TAUSCZIK Y R, PENNEBAKER J W. The psychological meaning of words: LIWC and computerized text analysis methods[J]. Journal of language and social psychology, 2010, 29(1): 24-54.

[7] PENNEBAKER J W,F(xiàn)RANCIS M E,BOOTH R J.Linguistic inquiry and word count:LIWC 2001[J].Mahway:erlbaum,2001,71(2001):2001.

[8] SELL J, FARRERAS I G. LIWC-ing at a century of introductory college textbooks: have the sentiments changed?[J]. Procedia computer science, 2017(118): 108-112.

[9] YUAN Y, LI B, JIAO D, et al. The personality analysis of characters in vernacular novels by SC-LIWC[C]//International Conference on Human Centered Computing. Kazan: Springer, 2017: 400-409.

[10] ZHAO N, JIAO D, BAI S, et al. Evaluating the validity of simplified Chinese version of LIWC in detecting psychological expressions in short texts on social network services[J]. PLoS one, 2016, 11(6): 1-15.

[11] 文心中文心理分析系統(tǒng)[DB/OL]. [2020-10-15].http://ccpl.psych.ac.cn/textmind/.

[12] 吳林靜, 劉清堂, 毛剛, 黃煥,黃景修. 大數(shù)據(jù)視角下的慕課評論語義分析模型及應(yīng)用研究[J]. 電化教育研究,2017(11):43-48.

[13] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報(bào),2016,45(4):589-606.

[14] KNEWTON. Knewton adaptive learning building the world's most powerful education recommendation engine[DB/OL]. [2020-09-29]. https://www.knewton.com/wp-content/uploads/knewton-adaptive-learning-whitepaper.pdf.

[15] 余勝泉,彭燕,盧宇. 基于人工智能的育人助理系統(tǒng)——“AI 好老師”的體系結(jié)構(gòu)與功能[J]. 開放教育研究,2019,25(1):25-36.

[16] WU L, LIU Q, ZHAO G, et al. Thesaurus dataset of educational technology in Chinese[J]. British journal of educational technology, 2015, 46(5): 1118-1122.

[17] 姜強(qiáng),藥文靜,趙蔚,李松.面向深度學(xué)習(xí)的動(dòng)態(tài)知識圖譜建構(gòu)模型及評測[J].電化教育研究,2020,41(3) :85-92.

[18] 秦川,祝恒書,莊福振,等.基于知識圖譜的推薦系統(tǒng)研究綜述[J]. 中國科學(xué):信息科學(xué),2020(7):937-956.

[19] 黃煥,元帥,何婷婷,吳林靜. 面向適應(yīng)性學(xué)習(xí)系統(tǒng)的課程知識圖譜構(gòu)建研究——以“Java程序設(shè)計(jì)基礎(chǔ)”課程為例[J]. 現(xiàn)代教育技術(shù), 2019, 29(12):89-95.

[20] 李艷燕,張香玲,李新,杜靜.面向智慧教育的學(xué)科知識圖譜構(gòu)建與創(chuàng)新應(yīng)用[J].電化教育研究,2019,40(8):60-69.

[21] 王亮.深度學(xué)習(xí)視角下基于多模態(tài)知識圖譜的MOOC課程重構(gòu)[J].現(xiàn)代教育技術(shù),2018,28(10):101-107.

[22] 陳曦,梅廣,張金金,許維勝.融合知識圖譜和協(xié)同過濾的學(xué)生成績預(yù)測方法[J].計(jì)算機(jī)應(yīng)用,2020,40(2):595-601.

[23] 陸星兒,曾嘉靈,章夢瑤,郭幸君,張婧婧. 知識圖譜視角下的MOOC教學(xué)優(yōu)化研究[J]. 中國遠(yuǎn)程教育, 2016(7):5-9.

[24] 黃濤,王一巖,張浩,楊華利. 智能教育場域中的學(xué)習(xí)者建模研究趨向[J]. 遠(yuǎn)程教育雜志,2020,38(1):50-60.

[25] 張敏,尹帥君,聶瑞,唐存周.基于體驗(yàn)感知的中外慕課學(xué)習(xí)平臺持續(xù)使用態(tài)度對比分析——以Coursera和中國大學(xué)MOOC為例[J].電化教育研究,2016,37(5):44-49.

[26] 徐恩芹.師生交互影響網(wǎng)絡(luò)學(xué)習(xí)績效的實(shí)證分析[J].電化教育研究,2016,37(9):61-68.

[27] DOLAN V L B. Massive online obsessive compulsion: what are they saying out there about the latest phenomenon in higher education?[J]. International review of research in open and distance learning, 2014, 15(2):268-281.

[28] CHANAA A, EL FADDOULI N E. BERT and prerequisite based ontology for predicting learner's confusion in MOOCs discussion forums[C]//International Conference on Artificial Intelligence in Education. Ifrane: Springer, 2020: 54-58.

[29] ALGHAMDI N S, MAHMOUD H A H, ABRAHAM A, et al. Predicting depression symptoms in an Arabic psychological forum[J]. IEEE access, 2020(8): 57317-57334.

[30] ARGUELLO J,SHAFFER K. Predicting speech acts in MOOC forum posts[C]// National conference on artificial intelligence,Oxford,2015:2-11.

猜你喜歡
文本分類慕課大數(shù)據(jù)
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
大學(xué)生對慕課的了解和利用
“慕課”教學(xué)的“八年之癢”
慕課環(huán)境下的學(xué)習(xí)者
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究