国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

課程級時間序列分析模型研究*

2022-06-21 07:38:18劉林枚李宜羲
現(xiàn)代教育技術(shù) 2022年6期
關(guān)鍵詞:相似性聚類個體

謝 濤 張 領(lǐng) 劉林枚 李宜羲

課程級時間序列分析模型研究*

謝 濤 張 領(lǐng) 劉林枚 李宜羲

(西南大學(xué) 教育學(xué)部,重慶 400715)

教育時間序列能夠展現(xiàn)學(xué)習(xí)過程隨時間的變化與波動趨勢,是近年來的研究熱點。其中,課程級時間序列是個體級時間序列在課程層面的匯總,使用課程級時間序列可以獲得比個體級時間序列更為豐富的信息。基于此,文章首先綜述了教育時間序列的主流研究方法,對課程級時間序列的形成與有用性進(jìn)行了分析,并提出了相應(yīng)的數(shù)據(jù)分析模型。隨后,文章以在線教育中的視頻學(xué)習(xí)作為場景,將7341個學(xué)生所產(chǎn)生的個體級時間序列轉(zhuǎn)換為課程級時間序列,通過實驗分析了課程訪問的“潮汐”現(xiàn)象、有潛力的輟學(xué)率預(yù)測、清晰的認(rèn)知搜索意圖、內(nèi)容消耗的時間結(jié)構(gòu)和課程聚類模式,驗證了文章所提出模型的可用性。文章提出的課程級時間序列分析模型是數(shù)據(jù)驅(qū)動智慧課程建設(shè)的一項探索性試驗,未來可應(yīng)用于大規(guī)模在線學(xué)習(xí)中的課程搜索、分類和評價,以發(fā)現(xiàn)具有相似時間模式的候選課程集合。

課程級時間序列;個體級時間序列;時間模式;課程聚類;視頻學(xué)習(xí)

教育數(shù)據(jù)挖掘是當(dāng)前的熱點研究方向,但是大部分研究使用靜態(tài)截面數(shù)據(jù)作為教育數(shù)據(jù)挖掘的輸入,為學(xué)習(xí)情況的實時掌握和動態(tài)預(yù)測帶來了極大挑戰(zhàn),且這種挑戰(zhàn)在日益復(fù)雜的學(xué)習(xí)情境(如線上線下、虛實融合教學(xué)環(huán)境)中變得愈加復(fù)雜。面對數(shù)據(jù)的無序性和復(fù)雜性,亟需以時間為基本單位進(jìn)行規(guī)整。教育教學(xué)過程中產(chǎn)生的時間序列(下文簡稱教育時間序列)作為一種重要的數(shù)據(jù)組織形式,因其能展現(xiàn)學(xué)習(xí)過程隨時間變化的趨勢和規(guī)律,而對學(xué)習(xí)過程有效解釋、學(xué)習(xí)資源個性化分發(fā)和學(xué)習(xí)績效精準(zhǔn)預(yù)測具有重要意義。然而,已有的教育時間序列挖掘研究主要關(guān)注個體級時間序列,而忽略了課程級時間序列。個體級時間序列一般是系統(tǒng)連續(xù)記錄的直接數(shù)據(jù),主要用于表示個體學(xué)習(xí)行為的時間軌跡。雖然個體級時間序列可以刻畫單個學(xué)生行為隨時間的變化,但是無法從課程層面顯示學(xué)生群體對課程訪問、內(nèi)容消耗的時間偏好。因此,本研究探索課程級時間序列的形成與有用性,并設(shè)計其數(shù)據(jù)分析模型,試圖從課程層面挖掘教育時間序列中潛藏的信息,從而拓展教育時間序列的研究視野。

一 教育時間序列

由于時間的單調(diào)遞增性質(zhì),任何活動和事件都可以打上唯一的時間標(biāo)簽。一段連續(xù)的活動和事件按其發(fā)生的時間先后順序排列,所構(gòu)成的序列就稱為時間序列[1]。從統(tǒng)計學(xué)角度來看,時間序列是與時間相關(guān)的一組隨機變量,是在相等間隔時間段內(nèi)按照給定的采樣率對某種潛在過程進(jìn)行觀測的結(jié)果[2]。時間序列在教育領(lǐng)域的研究主要包括預(yù)測風(fēng)險學(xué)生、學(xué)習(xí)效果、相似學(xué)生、學(xué)習(xí)軌跡、課程類別等,其使用的數(shù)據(jù)一般分為兩類:①靜態(tài)數(shù)據(jù),包括人口學(xué)信息、先前上傳的學(xué)習(xí)材料、學(xué)習(xí)風(fēng)格、特有的教學(xué)模式、學(xué)習(xí)的歷史記錄和已提交的成績報告等;②包含時間維度的動態(tài)數(shù)據(jù),包括學(xué)習(xí)行為、情感狀態(tài)、學(xué)習(xí)方法、興趣與偏好等過程性數(shù)據(jù)。本研究認(rèn)為可將學(xué)習(xí)視為對知識和技能的累積,體現(xiàn)學(xué)生先前已掌握的知識和被遺忘的知識之間的動態(tài)平衡;忽略時間維度,會低估情緒或日常壓力等因素對學(xué)習(xí)過程的影響[3]。學(xué)習(xí)過程可被視為一系列隨時間變化的學(xué)習(xí)狀態(tài)測量的集合,而學(xué)習(xí)狀態(tài)是個體在學(xué)習(xí)過程中一系列可變化的行為屬性,涉及與學(xué)習(xí)有關(guān)的思維、情感狀態(tài)以及學(xué)生為完成特定學(xué)習(xí)任務(wù)所開展的活動。

針對教育時間序列所采用的技術(shù)主要包括分類和聚類等:①在教育時間序列分類任務(wù)中,Tarhini等[4]基于學(xué)生與課程的交互構(gòu)建時間序列,研究學(xué)生離開課程的時間規(guī)律;針對Moodle系統(tǒng)中的行為序列,Calvo-Flores等[5]、Gamulin等[6]將行為類型分為資源瀏覽、課程瀏覽、用戶瀏覽、上傳、更新、添加和論壇參與,并用來預(yù)測學(xué)生最終的學(xué)業(yè)成績;Padrón-Rivera等[7]研究了情感狀態(tài)序列及其對學(xué)習(xí)結(jié)果的影響;Chen等[8]將學(xué)生在線時間行為分為有風(fēng)險和無風(fēng)險兩類。②在教育時間序列聚類任務(wù)中,學(xué)生人口學(xué)信息、歷史行為和成績記錄被認(rèn)為是靜態(tài)數(shù)據(jù),不會隨著時間的變化而變化,而學(xué)生學(xué)習(xí)的時間模式可以體現(xiàn)個體學(xué)習(xí)隨著時間的動態(tài)變化、循環(huán)規(guī)律和波動趨勢。教育時間序列聚類可以把表現(xiàn)為類似時間模式的學(xué)生聚在一起,同時區(qū)分具有不同時間模式的學(xué)生。Hung等[9]使用時間序列聚類來預(yù)測風(fēng)險學(xué)生,并給予相應(yīng)的早期預(yù)警和干預(yù)策略。在構(gòu)建時間序列時,一般會使用課程材料訪問、論壇瀏覽、參與討論、論壇回帖等以天為單位的累計交互次數(shù),而聚類的實現(xiàn)一般基于對時間序列的相似性測量。Reilly等[10]進(jìn)行了基于動作的時間序列相似性測量,顯示了學(xué)習(xí)活動和學(xué)習(xí)體驗隨時間變化的模式。Park等[11]通過聚類將612門混合式課程分為4類,即被動學(xué)習(xí)型、溝通與協(xié)作型、分發(fā)與討論型、分享與提交型。Van等[12]收集了師生交互數(shù)據(jù),將學(xué)生聚類為高分、中分、分?jǐn)?shù)波動和低分4類,進(jìn)一步解釋了教師提供的教學(xué)支持和學(xué)生理解水平之間的關(guān)系。

由此可見,現(xiàn)有研究主要針對個體級時間序列,還沒有對課程級時間序列進(jìn)行系統(tǒng)探索,既缺少課程級時間序列的形成機制,也缺少課程級時間序列的多維度分析模型,限制了教育時間序列挖掘的研究視野。

圖1 課程級時間序列的形成過程

圖2 課程級時間序列分析模型

二 課程級時間序列

1 課程級時間序列的形成

課程是教育機構(gòu)開展教學(xué)工作的基礎(chǔ),而學(xué)生是課程的主要消費群體。典型的“學(xué)生—課程”關(guān)系是在一定時間區(qū)間內(nèi),一個學(xué)生可以同時選擇多門課程,一門課程也可以同時被多個學(xué)生選擇。學(xué)生與課程的不斷交互,將產(chǎn)生教育時間序列。由于課程級別的數(shù)據(jù)來源于個體學(xué)習(xí)過程中數(shù)據(jù)的累積,因此本研究先從課程學(xué)習(xí)日志中抽取個體級時間序列,然后構(gòu)建課程級時間序列,其形成過程如圖1所示。

當(dāng)學(xué)生每次操作學(xué)習(xí)系統(tǒng)時,系統(tǒng)將自動產(chǎn)生一個學(xué)習(xí)交互。令O={o, o, …, o}代表操作所屬的類別集合,T={t, t, …, t}表示原子時間單位。,,記錄一個操作發(fā)生在時刻。一個對應(yīng)一個操作類型,以解釋該發(fā)生的意圖或情境。一個操作發(fā)生在時間區(qū)間[t, t]中表示為,其中t表示操作的開始時間,t表示操作的結(jié)束時間,為操作的持續(xù)時間(=t-t0),為在一段時間中的操作。

個體級時間序列表示為L=<(d, s), (d, s), … (d, s)>,其中d代表序列產(chǎn)生的時間單位(如天或小時);s=<,, …,>表示在時間單位內(nèi)的學(xué)習(xí)交互序列。在本研究中,f表示課程學(xué)習(xí)時間,它是在課程學(xué)習(xí)期間學(xué)生端總是處于活躍狀態(tài)的時間總和,代表課程內(nèi)容的實際消耗長度。令三元組表示一次視頻觀看活動,其中表示操作類型,表示持續(xù)的時間;={0, 1}表示播放條的狀態(tài),0為靜止?fàn)顟B(tài)的編碼,1為活躍狀態(tài)的編碼。對于學(xué)生S,其課程學(xué)習(xí)時間用公式(1)計算。相應(yīng)地,課程級時間序列被定義為所有注冊該課程學(xué)生學(xué)習(xí)時間的有序排列<f, f, …, f>。

2 課程級時間序列的有用性分析

①已有MOOC方面的研究表明,可以通過視頻觀看、了解學(xué)生的行為和每個操作的認(rèn)知意義。播放、暫停、重放、拖動等操作,可以從某種程度上反映特定的學(xué)習(xí)狀態(tài)[13]。例如,播放狀態(tài)表示內(nèi)容消耗;暫停狀態(tài)可以表示學(xué)習(xí)中斷,也可以表示學(xué)生對當(dāng)前頁面的認(rèn)知參與,從而將該頁面知識標(biāo)注為難點,而對暫停狀態(tài)學(xué)生真實意圖的識別取決于其自我報告或內(nèi)容測評;重放狀態(tài)表示學(xué)生對知識的興趣或?qū)﹄y點的再度消化;拖動狀態(tài)則表示對知識不感興趣或跳過簡單學(xué)習(xí)內(nèi)容的認(rèn)知搜索意圖。課程級時間序列將這些學(xué)習(xí)狀態(tài)作為基礎(chǔ)單元,并在課程層面上進(jìn)行匯總,體現(xiàn)其系統(tǒng)性和整體性。

②課程內(nèi)容的實際消耗長度是學(xué)生認(rèn)知參與量的有效指標(biāo),也是學(xué)業(yè)成績的預(yù)測器[14]。教師可以洞悉學(xué)生是否在學(xué)習(xí)以及學(xué)習(xí)的程度;如果學(xué)生在課程上投入更多的時間,則有可能獲得更高的成績,因此延長課程的有效學(xué)習(xí)時長有利于最大化學(xué)習(xí)輸出。課程級時間序列以課程作為觀察對象,能折射出學(xué)生群體的總體時間投入和內(nèi)容消耗習(xí)慣。目前,許多遠(yuǎn)程教育機構(gòu)將學(xué)生登錄和退出系統(tǒng)作為學(xué)習(xí)的關(guān)鍵點,以此來計算學(xué)習(xí)時長,忽略學(xué)生中途通過投機行為獲得在線時長的累積,因此難以準(zhǔn)確檢測學(xué)生真實的學(xué)習(xí)狀況。顯然,這樣的數(shù)據(jù)誤差太大,在預(yù)測學(xué)生學(xué)習(xí)成績時無法達(dá)到令人滿意的效果。不少學(xué)者建議采用會話失效閾值來減少這一誤差,即學(xué)生在給定時間內(nèi)不活躍就停止計時,但這種方式的缺點是迫使學(xué)生頻繁登錄系統(tǒng),而降低了學(xué)生的使用體驗。相反,課程級時間序列將個體的時間片段進(jìn)行匯總,可以較好地降低因記錄誤差而導(dǎo)致的不良后果。有研究認(rèn)為,使用學(xué)生在學(xué)習(xí)平臺中活躍狀態(tài)的時間總和表示知識的吸收量比簡單地估計時間更加精準(zhǔn),更能在學(xué)習(xí)時長與學(xué)習(xí)成績之間建立強關(guān)聯(lián)[15]。課程內(nèi)容的實際消耗長度可被建模為在線生存模型,通過比例風(fēng)險函數(shù)模擬學(xué)生從初次登錄系統(tǒng)到末次使用系統(tǒng)(類似于機器零件從投入使用到失效)的全過程,從而解釋退課風(fēng)險值如何隨單位協(xié)變量的變化而變化。最終,教師可以根據(jù)學(xué)生的不同退課程度提供相應(yīng)的教學(xué)干預(yù),如提供元認(rèn)知工具、推薦個性化材料和學(xué)習(xí)同伴、彈出個性化提示、優(yōu)化課程內(nèi)容設(shè)計、提高師生互動水平等,使學(xué)習(xí)平臺更具有吸引力。

三 課程級時間序列分析模型

隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,數(shù)據(jù)分析成為教育技術(shù)研究的一個重要分支。教育數(shù)據(jù)科學(xué)作為一個新的交叉學(xué)科,對使用的傳統(tǒng)問卷測量和標(biāo)準(zhǔn)化統(tǒng)計分析等方法進(jìn)行了很大擴展。課程級時間序列是個體級時間序列在課程層面的匯聚,它既區(qū)別于個體級時間序列、又與之緊密相關(guān)。本研究假設(shè)課程級時間序列包含比個體級時間序列更豐富的信息,而非個體級時間序列模式的簡單疊加。課程級時間序列更關(guān)注課程,而非學(xué)生個體。為了得到比個體時間序列更豐富的信息,本研究對課程級時間序列采取“時域—頻域—粒度”的交互式數(shù)據(jù)分析模型,如圖2所示。其中,時域包含課程層級的時間信息,頻域是相關(guān)時間信息出現(xiàn)的頻率特征,粒度是指分析視角的精細(xì)程度。在該模型中,縱軸表示分析粒度的分層,最底層是數(shù)據(jù)的探索性分析,越往上分析粒度越精細(xì)。

(1)“潮汐”現(xiàn)象

“潮汐”現(xiàn)象是課程級時間序列探索性分析的基礎(chǔ),體現(xiàn)課程級時間序列的周期變化、波動規(guī)律。“潮汐”原本的含義是在月球和太陽引力作用下形成的海水周期性漲落現(xiàn)象?!俺毕爆F(xiàn)象隱藏著在興趣時間單位(如某周中的特定天或某天中的特定時段)下學(xué)生的行為模式和時間偏好等信息,可為教育者提供初始數(shù)據(jù)畫像。

(2)“輟學(xué)”現(xiàn)象

輟學(xué)率是在線教育近年來關(guān)注的熱點,體現(xiàn)課程的粘度和吸引力。許多研究從機器學(xué)習(xí)的視角,提出了大量的輟學(xué)率預(yù)測方法。與基于個體級時間序列的輟學(xué)率預(yù)測不同,課程級時間序列更關(guān)注學(xué)生群體的“輟學(xué)”現(xiàn)象,它是個體“輟學(xué)”現(xiàn)象在課程級別的高度抽象。輟學(xué)率預(yù)測的精準(zhǔn)性取決于模型對數(shù)據(jù)擬合的程度,也稱擬合優(yōu)度。以前的研究大多假設(shè)時間序列數(shù)據(jù)服從特定分布(如正態(tài)分布),但使用簡單的模型無法擬合真實的復(fù)雜數(shù)據(jù),甚至可能誤導(dǎo)數(shù)據(jù)分析的過程。因此,本研究建議采用非標(biāo)準(zhǔn)分布擬合課程級時間序列。

(3)認(rèn)知搜索意圖

從外顯行為到內(nèi)隱認(rèn)知的映射是教育數(shù)據(jù)挖掘的難點,而學(xué)生觸發(fā)的行為序列(如跳過、重復(fù)播放等)可以反映特定的認(rèn)知軌跡、學(xué)習(xí)動機和信息需求。認(rèn)知搜索意圖是指學(xué)生有意識地尋找感興趣的課程片段,對認(rèn)知搜索意圖的估計有利于優(yōu)化學(xué)習(xí)系統(tǒng)、個性化推送教學(xué)材料等。例如,當(dāng)大部分學(xué)生有意識地請求同一課程內(nèi)容時,可能意味著該課程存在系統(tǒng)錯誤或出現(xiàn)了高難度、備受關(guān)注的作業(yè)等。

(4)時間結(jié)構(gòu)

時間結(jié)構(gòu)是關(guān)聯(lián)個體與課程的橋梁,用來刻畫學(xué)生群體訪問所選課程特定內(nèi)容的時間分配。對于某些課程,學(xué)生愿意投入更多的時間,對于其他課程則相反。這種隨機的意愿在某種程度上體現(xiàn)了學(xué)生對課程內(nèi)容片段的興趣程度。此外,受認(rèn)知需求的驅(qū)動,學(xué)生更愿意在課程內(nèi)容的重、難點處花費更多的時間,而對于不感興趣的學(xué)習(xí)材料會花費更少的時間。因此,從這個意義上來說,時間結(jié)構(gòu)分布的合理與否是課程重、難點內(nèi)容分配合理性的表現(xiàn)。

(5)課程聚類

課程聚類是一個新興研究課題。隨著課程體量的爆炸式增長,以人工方式對數(shù)以千計的課程一一進(jìn)行評價幾乎不可能。課程聚類能夠?qū)⑾嗨铺卣鞯恼n程劃分到同一個組、將不同特征的課程劃分到不同的組,從而產(chǎn)生組間同質(zhì)、組內(nèi)異質(zhì)的課程簇群。聚類技術(shù)依賴于對課程相似性的測量。已有的研究主要收集各種關(guān)于課程的屬性信息,如課程類別、學(xué)時和內(nèi)容簡介等,但這些屬性基本都是預(yù)定義的,無法體現(xiàn)全體學(xué)生對課程的動態(tài)學(xué)習(xí)過程。

度量時間序列相似性的方法大體可分為兩類,第一類基于內(nèi)容的相似性進(jìn)行度量,第二類基于概率的相似性進(jìn)行度量[16]。其中,基于內(nèi)容的相似性受限于特定的領(lǐng)域模型,要求數(shù)據(jù)存于一種網(wǎng)狀結(jié)構(gòu)中。例如,學(xué)生瀏覽兩份電子文檔所構(gòu)成的時間數(shù)據(jù)時,文檔需具有某種相關(guān)性,并可通過數(shù)值型的特征向量表示。此外,基于內(nèi)容的相似性測量使用時也會受到許多限制,如歐式距離受到序列齊整度的限制。因此,基于內(nèi)容的相似性方法在許多實際問題中的可用性并不高。而基于概率的相似性因使用起來更加方便,得到了許多研究者的青睞,提出了如基于概率密度函數(shù)和基于K-L散度等相似性測量方法。

為了實現(xiàn)對課程級時間序列的聚類,本研究提出了一種基于熵的相似性度量方法,特點主要如下:該方法重新構(gòu)建的時間序列是一個針對課程層面的時間序列,而非以個體時間序列為觀察對象;該方法基于信息量,與具體的數(shù)據(jù)分布無關(guān),從而弱化了對數(shù)據(jù)分布假設(shè)的依賴,使其適應(yīng)于任何形狀的時間序列數(shù)據(jù);該方法將課程級時間序列的分布轉(zhuǎn)化為概率密度曲線,并將曲線分為個不相交的時間窗口,且時間窗口跨度越小,時間窗口的個數(shù)越多。時間窗口tt的相似性與其概率分布的公共部分成正比,即tt的公共部分越多,兩個時間窗口的概率分布越相似。因此,可以用tt的信息量衡量tt的公共部分,記為。在信息論中,事件(tt)的信息量(tt))=-logp(tt)),其中表示時間窗口tt共有部分的概率。據(jù)此,tt的相似性可計算為tt共有部分的信息量與tt的信息量之和。

具體來說,課程級時間序列的相似性度量方法可按以下三步進(jìn)行應(yīng)用:①將概率密度曲線分為個不相交的時間窗口,表示為<t, t, …, t>。②對于任意一門課程,對應(yīng)概率密度曲線的相鄰時間窗口tt(1≤≤)的概率分布相似性計算如公式(2)所示。③對于任意兩門課程和,分別構(gòu)建課程的概率分布相似性向量<1,2, …,-1>和課程的概率分布相似性向量<1,2, …,-1>,則和的課程級時間序列分布的相似性可計算為兩課程概率分布相似性向量的余弦夾角,如公式(3)表示。

四 實驗驗證

為驗證課程級時間序列分析模型的可用性,本研究選擇一個在線教育場景作為測試案例,將個體級時間序列轉(zhuǎn)化為課程級時間序列,分別從模型的五個維度進(jìn)行測試。

1 場景選擇

考慮到幾乎所有教育場景都能產(chǎn)生時間序列,本研究選取最易獲取數(shù)據(jù)的MOOC視頻學(xué)習(xí)場景開展實驗。MOOC的盛行,將基于Web的學(xué)習(xí)遷移至基于視頻的學(xué)習(xí)。而基于視頻的學(xué)習(xí)包含更豐富的交互序列,在遠(yuǎn)程教育中的影響越來越深遠(yuǎn)。得益于教育視頻的云存儲技術(shù)、網(wǎng)絡(luò)分發(fā)技術(shù)和終端設(shè)備的性能改善,學(xué)生可以在任何時間、地點以任何步調(diào)請求教育視頻資源,學(xué)生與視頻資源的交互都將被輕松記錄到日志數(shù)據(jù)庫,這為教育時間序列的研究提供了方便?;诖耍緦嶒灮谝曨l學(xué)習(xí)日志數(shù)據(jù)庫,驗證前文提出的課程級時間序列分析模型的可用性。

2 數(shù)據(jù)收集與預(yù)處理

基于某大學(xué)在線MOOC平臺,本實驗共收集57717個學(xué)生的1400萬條視頻學(xué)習(xí)日志,并選取學(xué)生與課程交互數(shù)量最多的7門課程(“毛澤東思想概論”“政治經(jīng)濟學(xué)”“線性代數(shù)”“企業(yè)財務(wù)管理”“市場營銷”“微機原理”“健康評估”,分別編碼為MS、PE、LA、EF、MM、MI、HA)的時間數(shù)據(jù)作為樣本,時間跨度為一學(xué)年(2018秋至2019春)。課程信息主要包含課程錄制時長和課程觀看時長。去除異常和缺失數(shù)據(jù),本實驗最終保留7341個學(xué)生所產(chǎn)生的時間數(shù)據(jù)。其中,最小視頻長度為1.5分鐘、最長為78分鐘(=35.59,=12.29),而最小視頻觀看時長為0.03分鐘、最長為60.07分鐘(=14.10,=10.39)。實驗定義的操作類型集合包括:播放、暫停、拖動播放條位置、中途退出章、永久離開課程。其中,中途退出章是指學(xué)生結(jié)束當(dāng)前章學(xué)習(xí),并在未來一段時間處于離線狀態(tài)或不再學(xué)習(xí)該章,但過段時間學(xué)生將繼續(xù)學(xué)習(xí)課程其他章的內(nèi)容;而永久離開課程是指學(xué)生退出該課程所有章節(jié)的學(xué)習(xí),并在未來不再學(xué)習(xí)該課程。

將數(shù)據(jù)轉(zhuǎn)化為課程級時間序列后,本實驗對每一門課程進(jìn)行K-S檢驗,得到課程級時間序列偏離正態(tài)分布(1D統(tǒng)計量反映了經(jīng)驗的正態(tài)分布曲線與擬合的正態(tài)分布曲線的最大距離。>0.075,=0.000),發(fā)現(xiàn)其偏斜和長尾突出。為了使曲線看起來更加規(guī)整,本實驗對數(shù)據(jù)做間距壓縮處理,使長尾部分的間距壓縮更快、短尾的部分壓縮較慢;隨后用二次開方對數(shù)據(jù)進(jìn)行對稱處理,用二次光滑局部線性回歸核函數(shù)進(jìn)行平滑。

3 數(shù)據(jù)分析工具

根據(jù)描述性學(xué)習(xí)分析范式,既可以采用現(xiàn)成的數(shù)據(jù)分析工具,也可以針對數(shù)據(jù)的特點開發(fā)新的數(shù)據(jù)分析工具,具體如何操作依賴于數(shù)據(jù)分析的目的和效果?;诖?,本實驗對“潮汐”現(xiàn)象的分析采用時域、頻域統(tǒng)計方法,對“輟學(xué)”現(xiàn)象的分析采用非標(biāo)準(zhǔn)分布擬合方法,對認(rèn)知搜索意圖的分析采用頻繁子序列挖掘方法,對時間結(jié)構(gòu)的分析采用基尼系數(shù)評價方法——這些方法在MATLAB和Python庫中有現(xiàn)成的工具箱。而考慮到課程級時間序列的特殊性,本實驗對課程聚類采用前文提出的基于熵的相似性度量方法。另外,由于課程數(shù)量較少,本實驗對最終聚類采用人工判別方式,但對大規(guī)模課程仍然采用k-means和譜聚類算法來實現(xiàn)。

4 實驗結(jié)果

(1)課程訪問的“潮汐”現(xiàn)象

當(dāng)年11月到次年1月學(xué)生觀看視頻最為活躍,而在寒、暑假觀看視頻不活躍;學(xué)生活躍的學(xué)習(xí)時間是工作日而非周末,每日學(xué)習(xí)時段集中在早上9點至下午6點之間,且在飯點和夜晚學(xué)習(xí)較少;學(xué)生使用移動終端觀看的時段主要在晚上8點至11點之間,白天較少。

(2)有潛力的輟學(xué)率預(yù)測

通過大量統(tǒng)計模型測試,本實驗發(fā)現(xiàn)高斯混合模型適用于建模課程輟學(xué)率。高斯混合模型可以看作由個正態(tài)分布函數(shù)組合而成的模型。簡單起見,本實驗設(shè)=2,并與單正態(tài)分布(=1)進(jìn)行擬合優(yōu)度比較,評估度量包括均方根誤差RMSE、調(diào)整的R和Akaike信息準(zhǔn)則(AIC),結(jié)果顯示:RMSE<RMSE,R2>R2,AIC<AIC。本實驗重點考慮AIC指標(biāo),因為它對模型的復(fù)雜性施加了更嚴(yán)格的懲罰力度,使所選擇的模型既具有最少參數(shù),又可以防止過擬合。結(jié)果顯示,使用雙正態(tài)分布擬合改進(jìn)較大的前兩門課程是HA(-4.6)和MI(17.7),而改進(jìn)最小的是MS(172.9)。由此可見,對于不同的課程,學(xué)生表現(xiàn)出不同的課程輟學(xué)和維持模式;單、雙分布擬合優(yōu)度差異越大的課程(如LA、MM),維持率越高;而單、雙分布擬合優(yōu)度差異越小的課程(如MS),其輟學(xué)風(fēng)險越高。對于輟學(xué)風(fēng)險高的課程,應(yīng)予以高度重視。

(3)清晰的認(rèn)知搜索意圖

認(rèn)知搜索意圖可分為單次觀看(One-pass)、兩次觀看(Two-pass)、重復(fù)觀看(Repetitive)和跳躍觀看(Zapping)四種模式,可分別解釋為線性、詳述、持續(xù)性復(fù)述、跳躍四種觀看風(fēng)格。某些學(xué)生累積播放視頻的時間超過了視頻本身的長度,據(jù)此可以推測這些學(xué)生播放了完整視頻或重復(fù)觀看了視頻的特定片段,其認(rèn)知搜索意圖可歸為“重復(fù)觀看”模式;某些學(xué)生在視頻觀看過程中頻繁拖動播放條,且每次停留時間非常短,其認(rèn)知搜索意圖可歸為“跳躍觀看”模式。重復(fù)觀看體現(xiàn)了學(xué)習(xí)的重、難點或?qū)W生的興趣,跳躍觀看則表明處于困境的學(xué)生沒有很強的學(xué)習(xí)動機,認(rèn)知力度較淺。

(4)課程內(nèi)容消耗的時間結(jié)構(gòu)

本實驗采用基尼系數(shù)作為時間結(jié)構(gòu)的評價指標(biāo)?;嵯禂?shù)原本用來衡量一個地區(qū)人口的收入貧富差距,值越小表示差距越小,反之表示差距越大。本實驗得到基尼系數(shù)較大的前3門課程是EF(0.252)、MM(0.244)、MI(0.246),而基尼系數(shù)最小的課程是LA(0.223),這表明學(xué)生對課程EF、MM和MI內(nèi)容消耗的時間結(jié)構(gòu)不及課程LA,在決策前應(yīng)予以更多觀察。

(5)課程聚類模式

課程聚類依賴于課程之間的相似性矩陣。根據(jù)本研究提出的相似性度量方法,為自定義時間窗口數(shù)量,值越大,時間序列劃分越精細(xì)。顯然,的取值會影響相似性計算結(jié)果。為呈現(xiàn)方便,本實驗設(shè)=30,得到相似性矩陣如表1所示,可以看出:相似性較大的課程對是PE-LA、EF-MI、LA-MS、PE-MS,而相似性較小的課程對是MS-EF、LA-EF。將最相似的課程進(jìn)行組合得到兩個課程聚類MS-LA-PE、MI-EF,這與課程內(nèi)容消耗的時間結(jié)構(gòu)所得出的結(jié)果吻合。

表1 相似性矩陣

五 結(jié)語

針對個體級時間序列包含信息的有限性問題,本研究采用“時域—頻域—粒度”交互式分析方法,將時間信息置于立體的網(wǎng)狀結(jié)構(gòu)中,提出了課程級時間序列分析模型,并在基于視頻的學(xué)習(xí)場景中進(jìn)行實驗,分析了課程訪問的“潮汐”現(xiàn)象、有潛力的輟學(xué)率預(yù)測、清晰的認(rèn)知搜索意圖、內(nèi)容消耗的時間結(jié)構(gòu)和課程聚類模式,驗證了該模型的可用性。課程級時間序列分析模型可以應(yīng)用于具有復(fù)雜時間結(jié)構(gòu)的混合式學(xué)習(xí)環(huán)境,在課程層面呈現(xiàn)有意義的學(xué)習(xí)規(guī)律。此外,由于時間是系統(tǒng)日志記錄的基本元素,因此該模型也適用于其他學(xué)習(xí)場景。除了本研究提到的五個維度,未來課程級時間序列分析模型還可以結(jié)合人工智能、機器學(xué)習(xí)等技術(shù)實現(xiàn)課程的自動歸類和自適應(yīng)推薦,并作為數(shù)據(jù)驅(qū)動智慧課程評價的探索性發(fā)現(xiàn),將其應(yīng)用于大規(guī)模在線學(xué)習(xí)中的課程搜索、分類和評價,以發(fā)現(xiàn)具有相似時間模式的候選課程集合。

[1]楊海民,潘志松,白瑋.時間序列預(yù)測方法綜述[J].計算機科學(xué),2019,(1):21-28.

[2]Büyük?ahin ü ?, Ertekin ?. Improving forecasting accuracy of time series data using a new ARIMA-ANN hybrid method and empirical mode decomposition[J]. Neurocomputing, 2019,361:151-163.

[3]Schmitz B, Wiese B S. New perspectives for the evaluation of training sessions in self-regulated learning: Time-series analyses of diary data[J]. Contemporary Educational Psychology, 2006,(1):64-96.

[4]Tarhini A, Hone K, Liu X. Measuring the moderating effect of gender and age on e-learning acceptance in England: A structural equation modeling approach for an extended technology acceptance model[J]. Journal of Educational Computing Research, 2014,(2):163-184.

[5]Calvo-Flores M D, Galindo E G, Jiménez M C P, et al. Predicting students’ marks from Moodle logs using neural network models[J]. Current Developments in Technology-Assisted Education, 2006,1:586-590.

[6]Gamulin J, Gamulin O, Kermek D. Using Fourier coefficients in time series analysis for student performance prediction in blended learning environments[J]. Expert systems, 2016,(2):189-200.

[7]Padrón-Rivera G, Rebolledo-Mendez G. Identifying affective trajectories in relation to learning gains during the interaction with a tutoring system[A]. The 17th International Conference on Artificial Intelligence in Education[C]. Madrid:Springer, Cham, 2015:756-759.

[8]Chen F, Cui Y. Utilizing student time series behaviour in learning management systems for early prediction of course performance[J]. Journal of Learning Analytics, 2020,(2):1-17.

[9]Hung J L, Wang M C, Wang S, et al. Identifying at-risk students for early interventions—A time-series clustering approach[J]. IEEE Transactions on Emerging Topics in Computing, 2015,(1):45-55.

[10]Reilly J M, Dede C. Differences in student trajectories via filtered time series analysis in an immersive virtual world[A]. The 9th International Conference on Learning Analytics & Knowledge[C]. New York: Association for Computing Machinery, 2019:130-134.

[11]Park Y, Yu J H, Jo I H. Clustering blended learning courses by online behavior data: A case study in a Korean higher education institute[J]. The Internet and Higher Education, 2016,29:1-11.

[12]Van der Steen S, Steenbeek H W, Den Hartigh R J R, et al. The link between micro development and long-term learning trajectories in science learning[J]. Human Development, 2019,(1):4-32.

[13]Sinha T. “Your click decides your fate”: Leveraging clickstream patterns from MOOC videos to infer students’ information processing & attrition behavior[J]. ArXiv E-prints, 2014:1407.7143.

[14]Moreno R. Constructing knowledge with an agent-based instructional program: A comparison of cooperative and individual meaning making[J]. Learning and Instruction, 2009,(5):433-444.

[15]Xie T, Zheng Q, Zhang W, et al. Modeling and predicting the active video-viewing time in a large-scale E-learning system[J]. IEEE Access, 2017,5:11490-11504.

[16]Aghabozorgi S, Shirkhorshidi A S, Wah T Y. Time-series clustering–a decade review[J]. Information Systems, 2015,53:16-38.

Research on the Analysis Model of Course-level Time Series

XIE Tao ZHANG Ling LIU Lin-mei LI Yi-xi

Educational time series could exhibit the variation and fluctuation trend of the learning process with time, and is a research hotspot in recent years. Among them, the course-level time series is the summary of the individual-level time series at the course level, and using the course-level time series could obtain more abundant information than using the individual-level time series. Based on this, this paper firstly summarized the mainstream research methods of educational time series, analyzed the formation and usefulness of course-level time series, and proposed corresponding data analysis models. Subsequently, taking the video learning in online education as the scene, this paper converted the individual-level time series generated by 7341 students into course-level time series, analyzed through an experiment the “tidal” phenomenon of course visits, the potential dropout rate prediction, clear cognitive search intent, the time structure of content consumption, and the course clustering patterns, and accordingly verified the usability of the proposed model. The course-level time series analysis model proposed in this paper was an exploratory experiment in the construction of data-driven smart courses, and could be applied in the course search, classification, and evaluation in the large-scale online learning in the future, so as to further discover the candidate course collection with similar time patterns.

course-level time series; individual-level time series; temporal pattern; course clustering; video learning

G40-057

A

1009—8097(2022)06—0098—09

10.3969/j.issn.1009-8097.2022.06.011

本文受重慶市社會科學(xué)規(guī)劃項目“大數(shù)據(jù)促進(jìn)我國教育公平的機制研究”(項目編號:2018BS100)、重慶市高等教育教學(xué)改革研究項目“OpenX智能視頻分析技術(shù)的一體化教學(xué)應(yīng)用路徑探索”(項目編號:213082)資助。

謝濤,副教授,博士,研究方向為智能教育關(guān)鍵技術(shù),郵箱為xietao@swu.edu.cn。

2021年10月15日

編輯:小時

猜你喜歡
相似性聚類個體
一類上三角算子矩陣的相似性與酉相似性
淺析當(dāng)代中西方繪畫的相似性
河北畫報(2020年8期)2020-10-27 02:54:20
關(guān)注個體防護(hù)裝備
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
低滲透黏土中氯離子彌散作用離心模擬相似性
基于改進(jìn)的遺傳算法的模糊聚類算法
個體反思機制的缺失與救贖
How Cats See the World
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
田东县| 南安市| 柳江县| 庆阳市| 南和县| 奇台县| 丰宁| 武冈市| 绥芬河市| 安阳市| 鄂伦春自治旗| 托克托县| 丰原市| 海盐县| 云阳县| 和硕县| 阿拉善盟| 木兰县| 将乐县| 桑植县| 剑河县| 佛学| 翼城县| 稷山县| 泽州县| 华亭县| 雷州市| 浙江省| 夏邑县| 阳原县| 宜良县| 青阳县| 尼玛县| 云阳县| 东城区| 郎溪县| 波密县| 克东县| 九江县| 泉州市| 拜泉县|